聲音信號處理基本原理

 

一、聲音信號之特性

聲音是一維信號研究的重要對象,最常見的傳播聲音的介質是空氣,聲波和電磁波有很大的不同,例如聲波的速度顯然比光波慢的多,聲音傳播的速度與介質的性質和溫度有關,例如在空氣溫度為 0 度時,聲波的速度為 331.5m/s,如果空氣溫度每升高 1 度時,則聲音傳播的速度約增加 0.6m/s。電磁波是利用電磁感應的方式來傳播,而聲波的傳播方式則通常是機械式的,當介質如空氣受到某處震源的壓迫時,被壓迫的空氣分子,就對其平衡位置產生位移,並引起附近空氣分子也對其平衡位置產生位移。如所受的壓迫是週期性的,而且其頻率在聲波範圍內,此時,空氣中就產生聲波。 聲波通常是指振動頻率在人能感應範圍以內的波動,稱為可聞波 (Audiblesound)。當頻率高於可聞聲時稱超音波 (Ultrasound),其能量較高,一般可用於醫學或工程之檢測或塑膠等材料加工,至於頻率比可聞波低時稱為低音波 (Infrasound),例如地震所引起的地震波。

至於目前聲音信號與數位信號處理關係最大的,首推通信方面,由於多媒體資訊普及,其資料內容除了文字就是圖片與聲音,尤其是結合數位電子聲音技術的網際網路電話,它利用數位信號處理將語音加以數位化壓縮,轉成數據的形式之後再用線路一部分的頻寬移作聲音傳送,透過網際網路傳送到通話的彼端,再解壓縮回復成為原來的聲音,在現在的電腦配備中,電腦音效早已從以往的 PC 喇叭變為 Adlib 卡、聲霸卡等輸入及輸出的裝置,因此使得網際網路電話出現廣泛的熱潮﹐目前已有在網路上面點播歌曲的應用案例。一般電話的語音與電視訊號都是類比的形式﹐不經過壓縮與編碼就能傳送,但是在頻寬與多工能力方面卻遠不如網際網路﹐因此數位信號處理將掀起未來通信方面的革命。

數位電子聲音技術中有一項很重要的工作就是編碼的方法,常見的編碼方法為脈波碼調制 (pulse code modalation; PCM) 及高階脈波數位碼調制 (advanced pulse code modulation; ADPCM),目前像雷射唱盤、數位錄音帶、通信衛星、電話通信,都是各式各樣的 PCM 技術應用的具體例子。影響 PCM 的效果的一個因素一為取樣頻率,一為取樣位元數,由於這兩者其值大小都與人類的聽覺與語音能力有關,因此我們先介紹人耳及嘴唇方面的特性。

二、人耳及嘴唇方面的特性

如果我們把人類的語音轉到頻譜上來分析,可以看到在頻譜上人類語音信號大都集中於某一個區段有較高的能量,這也意味著這個能量較高的頻帶就是人類聲腔的共鳴區域,我們通常稱這個頻帶為基本頻率(fundamental frequency),每個人的基本頻率因為天生的口腔結構而有所不同,通常小孩子的基本頻率在 250400HZ 左右,而成年好約在 200300HZ左右,而成年男子則約在 100150HZ 左右,因此男高音較為少見,也就是這個原因。

當人類發出聲音時,如果有利用到聲帶振動來發音,則稱為有聲音(Voiced Sound),否則稱之為無聲音 (unvoiecd sound),而語音中又可分為具有穩定聲道激發共鳴振動及音源振動變化較多較雜亂的子音。

對人類耳朵而言,而夠接受的音頻範圍很窄,大約在10Hz20 KHz左右,而其中在 1.2 KHz 1.4 KHz 左右是聽覺最敏銳的頻帶,而在此頻帶之前,人耳對較低的頻率並不敏感,隨著頻率越高,人耳便越聽得清楚,亦即人耳對高頻的聲音有自動增益的效果 (AGC)。因此如果我們用手來回揮動空氣,如此低頻的振盪,是無法發出人耳可以發覺的聲音,除非我們鼓掌,在拍手的過程中,兩手迅速的撞繫並將空氣擠壓出去,這種較短的脈衝式振動,其中包含了高頻的空氣振動,因此人耳便能夠聽到拍手的聲音。

相對的人的嘴唇構造卻較無法發出高頻的聲音,隨著發出的聲音頻率越高,嘴中所發出的強度即隨之而減弱,因此當我們在作語音信號取樣時,並不需要將取樣頻率取得太高,一般而言,使用 11 KHz 即告足夠,因為語音中高頻的部份很少,聲音的變化不快,但音樂就不同了,音樂資料變化性通常很大,一般取樣頻率是使用 22KHz,如此重新放出來時人耳聽來才不致有失真的感覺。

三、聲音訊號資料之取樣量化

當聲音訊號資料之取樣量化的位元數為 80 時,可以得到 256 個音階,而取樣位元數為 16 時,則擁有 65536 個音階,較高的取標頻率與較多的取樣位元數意謂著較高的品質,但同樣的也表示較昂貴的裝備和較大的記備空間。

對語音而言,使用 8 KHz 取樣頻率, 4 bit 取樣位元,記錄一分鐘語音再予壓縮後大約要花掉 62 KB 的記憶體。對收音機的聲音而言,使用 11 KHz 取樣頻率記錄一分鐘則佔用 322 KB 的記憶體,而記錄調幅合成日時,使用 22 KHz 取樣頻率,則要佔去 1291KB 的記憶體,至於若要達到雷射唱片的品質要求,則使用 44.1 KHz 取樣頻率, 16 bit 取樣位元,因此記錄一分鐘便要 5167 KB 的記憶體,在沒有壓縮的情況下,一張光碟也只能儲存七十六分鐘的音樂而已。

由於 PC 喇叭為早期的個人電腦標準配備,早期個人電腦的教學軟體及電動玩具程式,是直接利用個人電腦上面的喇叭把電動玩具的音樂播放出來,雖然表現的效果比不上聲霸卡的真實動聽,但,不像現在的音效軟體動輒數片光碟片,為什麼它所佔的資料檔很小呢?這是因為個人電腦上喇叭裝置不像聲霸卡有 256 或更高的音階,它只有一個位元,亦即只有兩種狀態:開與關,大家可能會懷疑只是將喇叭做開與關的動作真的能夠產生音樂嗎?然而代表聲音信號特色的兩個要素:"頻率""音量"來看,"頻率"這個要素無寧是重要了許多,因此我們將音樂波形轉換成各種不同頻率的方波後,推動喇叭來發音,仍然可以得到近似的聲音,例如想產生高音時只需將喇叭的開與關動作加速,就可以產生較高頻的聲音,同樣的,如果想要產生低音時則將喇叭開與關的速度放慢,就可以產生較低頻的聲音,由於音量無法控制,因此在比較高頻的音效裡,其所包含的能量較多,聽起來一定比低頻的聲音大聲。

四、一維信號辨識系統

單純的將一維信號予於傳利葉轉換到頻譜上去分析,有時候就能夠把問題的癥結找出來了。除了機械結構物體的振動分析之外,我們也可將類似的技術用在生物體上,例如用在生鮮雞蛋的節選上,工程人員將一個脈衝振洫施加於蛋殼上,再利用一束雷射光照射於雞蛋上並偵測其反射回來的光信號變化,便可得到蛋殼表面的振動位移信息,再這些振動位移信息予以傅氏轉換,觀察其頻譜上之峰值出現於何處,就可知道這個雞蛋是否是顆好蛋或昃已感染了病毒,因為好蛋和壞蛋的自然頻率是有很大的差異量的。

近年來國內中研院和台大醫院發展出一種新的診病技術,也是利用一個特殊脈衝施加於人體,再在人體上偵測其信號及傅氏轉換頻譜反應,頻譜上出現的人體不同的自然頻率都意味著不同的病變。

話說回來,一維信號辨識技術仍然以語音辨識的應用量為最大,一個聲音訊號資料通常是很大且連續的,如果直接從這筆聲音資料去分析、辨識,不但資料處理速度太慢,且還要處理一些不必要的雜訊干擾,所以要設法從輸入的聲音資訊中擷取特徵值參數,以方便辨認聲音所對應的參考樣板而輸出其結果。一般在建立語音辨識系統時,通常都類似圖 1-1之基本模式,而聲音辨識的技巧也是如此。

在語音辨識模式中應用相對的觀念,將一未知聲音和預存的聲音作型樣識別 (pattern recognition),其流程如下:

(1) 利用信號處理技巧,擷取輸入聲音的特徵值 (feature)

(2) 在訓練程序時把所擷取的特徵值儲存做參考樣板。

(3) 再處理未知語音的特徵值,成為待識樣本後再和參考樣板作型樣匹配 (pattern matching),求得其差距值。

(4) 由所得到的差距值,依各種合理的決策法則來決定其結果。

1-1 語音辨識模式之流程

replay.gif (15720 bytes)回首頁