聲音辨識最重要的是特徵值的擷取,如此才可將其與參考樣板作型樣匹配,以進行辨識。所以在聲音辨識時,由於所使用的信號處理技術不同,而使量測的語音特徵值隨之而異。一般常使用的語音特徵值有:越零率 (zero crossing rate),離散傅利葉轉換,短時距能量 (short-time energy),線性預測編碼 (linear prediction coding;LPC),濾波器通帶參數 (filter band parameter;FBP)自相關運算 (autocorrelation).....等。其處理流程如下所示:
Sampling 取樣→ segmentation 分割→frame 音框
↓
windowing 窗口→STE 短時距能量、ZCR 越零率
↓
autocorrelation 自相關運算、DFT 離散傅利葉轉換、BFP 濾波器通帶參數
↓
Lpc 值求取
↓
copstrum 倒頻譜
短時距能量
短時距能量代表音量的高低,我們可以根據短時距能量大小來刪掉所處理的聲音一些細小雜訊。
短時距能量為
自相關運算
一般函數之自相關運算:
在音框中的自相關運算:
在此
離散傅氏轉換
離散傅氏轉換其定義為:
其中 , , 運算子其逆轉換之定義為
,可寫為倒頻譜運算