선형 예측 부호화

선형 예측 부호화(Linear predictive coding, LPC)은 선형 예측 모델의 정보를 사용하여 음성의 디지털 신호의 스펙트럼 포락선을 압축된 형태로 표현하기 위해 오디오 신호 처리 및 음성 처리에 주로 사용되는 방법이다.

LPC는 음성 부호화 및 음성 합성에서 가장 널리 사용되는 방식이다. 이는 강력한 음성 분석 기술이며 낮은 비트 전송률에서 좋은 품질의 음성을 인코딩하는 데 유용한 방식이다.

개요[편집]

LPC는 음성 신호가 튜브 끝에 있는 부저(유성음의 경우)에 의해 생성되고 때때로 쉭쉭거리는 소리와 터지는 소리(치찰음 및 파열음과 같은 무성음의 경우)가 추가된다는 가정에서 시작된다. 비록 조잡해 보이지만 이 소스-필터 모델은 실제로 음성 생성의 현실에 매우 가까운 근사치이다. 성대(성대 사이의 공간)는 윙윙거리는 소리를 생성하며, 윙윙거리는 소리의 강도(크기)와 빈도(음조)가 특징이다. 성도(목과 입)는 공명을 특징으로 하는 관을 형성한다. 이러한 공명은 생성된 사운드의 포먼트 또는 강화된 주파수 대역을 발생시킨다. 쉭쉭 소리와 펑 소리는 치찰음과 파열음이 나는 동안 혀, 입술, 목의 작용으로 생성된다.

LPC는 포먼트(formant)를 추정하고, 음성 신호에서 해당 효과를 제거하고, 남아 있는 버즈의 강도와 빈도를 추정하여 음성 신호를 분석한다. 포먼트를 제거하는 과정을 역필터링(Inverse Filtering)이라 하고, 필터링된 모델링 신호를 빼고 남은 신호를 레지듀(Residue)라고 한다.

윙윙거리는 소리의 강도와 빈도, 포먼트, 잔여 신호를 나타내는 숫자는 다른 곳에 저장하거나 전송할 수 있다. LPC는 프로세스를 반대로 하여 음성 신호를 합성한다. 즉, 버즈 매개변수와 잔여분을 사용하여 소스 신호를 생성하고, 포먼트를 사용하여 필터(튜브를 나타냄)를 생성하고, 필터를 통해 소스를 실행하여 음성을 생성한다.

음성 신호는 시간에 따라 달라지기 때문에 이 프로세스는 프레임이라고 하는 음성 신호의 짧은 부분에서 수행된다. 일반적으로 초당 30~50프레임은 압축률이 좋은 명료한 음성을 제공한다.

같이 보기[편집]

외부 링크[편집]