倒 頻 譜 運 算

bar1.gif (3478 bytes)

        倒頻譜運算常能將二個在時域中摺積結合的信號成功的加以分離,例如我們的語音信號可表示如下:

x(n)=g(n)*v(n)

其中,x(n) 為聲音信號。

g(n) 為音源信號。

v(n) 為聲道的脈衝響應信號。

       如果我們希望將g(n)音源信號g(n) 與聲道的脈衝響應信號 v(n) 加以分離的話,只須對聲音信號 x(n) 作倒頻譜運算即可。因為倒頻譜運算事先將聲音信號 x(n) 作離散傅氏轉換,此時離散傅氏轉換之結果可視為音源信號之頻譜G(k)與聲道的脈衝響應信號之頻譜V(k)相乘之結果,亦即:

X(k)=G(k)V(k)

       我們對X(k)取對數,可使音源信號之頻譜G(k)與聲道的脈衝響應信號之頻譜V(k)相乘之關係轉化為相加之關係,最後再實施離散傅氏逆轉換回到時域,此即為倒頻譜運算之意義:

C{x(n)}=C{ g(n)*v(n)}= C{ g(n)}+C{v(n)}

      一般倒頻譜的求取可直接代入公式,或是利用自相關運算及線性預測編碼值來進行計算,此兩種方法所求之值並不相同,須加以註明,以茲區別。

       所謂越零率即指聲音信號之振幅通過零點之次數。當越零點的值越多,就表示所處理的聲音頻率越高,反之則表示所處理的聲音為低頻。

       一般倒頻譜的求取並不直接代入公式,而是利用自相關運算及線性預測編碼值 (LPC) 來進行計算。線性預測編碼的用途在於可將一個語音訊號之波形尖峰值直接編碼而進行辨識,並可利用它來預測下一個語音訊號之尖峰值的位置,如此對於語音特徵值的擷取有很大的幫助。

t1.gif (3234 bytes)