聲 音 辨 識

bar1.gif (3478 bytes)

        聲音辨識最重要的是特徵值的擷取,如此才可將其與參考樣板作型樣匹配,以進行辨識。所以在聲音辨識時,由於所使用的信號處理技術不同,而使量測的語音特徵值隨之而異。一般常使用的語音特徵值有:越零率 (zero crossing rate),離散傅利葉轉換,短時距能量 (short-time energy),線性預測編碼 (linear prediction codingLPC),濾波器通帶參數 (filter band parameterFBP)自相關運算 (autocorrelation).....等。其處理流程如下所示:

 

Sampling 取樣→ segmentation 分割→frame 音框

windowing 窗口→STE 短時距能量、ZCR 越零率

autocorrelation 自相關運算、DFT 離散傅利葉轉換、BFP 濾波器通帶參數

Lpc 值求取

copstrum 倒頻譜

       短時距能量代表音量的高低,我們可以根據短時距能量大小來刪掉所處理的聲音一些細小雜訊。

短時距能量為

一般函數之自相關運算:

在音框中的自相關運算:

在此

 

離散傅氏轉換其定義為: 其中 運算子

其逆轉換之定義為 ,可寫為

t1.gif (3234 bytes)