語音訊號數位化

語音訊號數位化

　語音在空氣中是以波的形式來傳遞，我們將以這種波的訊號稱為類比訊號（Analog signal）。電腦無法直接處理類比訊號，因為在電腦中，所有的資料都是以0或1表示。訊號以數值大小表示時稱為數位訊號（Digital Signal）。如果要用電腦來處理類比訊號，就必須將類比訊號轉為數位訊號才行。

　　語音訊號在進入電腦前是一種連續性的訊號，所謂的連續性號是指時間上的連續，透過麥克風我們把聲音傳到電腦裡面，這中間的過程稱為數位化。

　　原來連續性的訊號，經過數位化的處理後，變成一種不連續的訊號，這個訊號只在某些固定的時間刻度上有值，這些刻度稱為取樣點，取樣點上的振幅大小稱之為取樣值，兩個取樣點之間的時間間隔稱之為取樣週期，取樣週期的倒數稱為取樣頻率。取樣頻率的另一種說法是，在一秒中內要對原始訊號做幾次取樣，取樣頻率的大小可以由使用者自定，但是一般來說要符合取樣定理（Sampling Theorem）。就是取樣頻率需大於兩倍取樣頻率，否則會造成取樣失真（Aliasing），一旦取樣失真發生，所得到的聲音取樣值便不能代表原來的訊號。因此在對語音訊號作取樣時，由於語音的最高頻率不會超過 4000Hz，所以取樣頻率定在 8000Hz以上，就保證取樣失真不會發生。

　　取樣頻率的設定對數位化的聲音有很大的影響，在要求高品質的場合，取樣頻率會高出兩倍原是頻率許多。然而像我們將介紹的語音辨識，只要訊號不失真就可以了。

　　在每個取樣點上，訊號的振幅大小也被數位化，在麥克風上的訊號是一種細微交流電壓的型態，譬如說：原始訊號的振幅在-50mv ~50mv之間變動，數位化的過程就是把電壓轉換成數字大小，如以-128代表-50mv，127代表50mv，-128~127中間的數值代表電壓大小，則以線性（Linear）或是以非線性（Non-Linear）的方式遞增。

下一頁　　回首頁