語音訊號數位化

 

   語音在空氣中是以波的形式來傳遞,我們將以這種波的訊號稱為類比訊號(Analog signal)。電腦無法直接處理類比訊號,因為在電腦中,所有的資料都是以0或1表示。訊號以數值大小表示時稱為數位訊號(Digital Signal)。如果要用電腦來處理類比訊號,就必須將類比訊號轉為數位訊號才行。

  語音訊號在進入電腦前是一種連續性的訊號,所謂的連續性號是指時間上的連續,透過麥克風我們把聲音傳到電腦裡面,這中間的過程稱為數位化。

  原來連續性的訊號,經過數位化的處理後,變成一種不連續的訊號,這個訊號只在某些固定的時間刻度上有值,這些刻度稱為取樣點,取樣點上的振幅大小稱之為取樣值,兩個取樣點之間的時間間隔稱之為取樣週期,取樣週期的倒數稱為取樣頻率。取樣頻率的另一種說法是,在一秒中內要對原始訊號做幾次取樣,取樣頻率的大小可以由使用者自定,但是一般來說要符合取樣定理(Sampling Theorem)。就是取樣頻率需大於兩倍取樣頻率,否則會造成取樣失真(Aliasing),一旦取樣失真發生,所得到的聲音取樣值便不能代表原來的訊號。因此在對語音訊號作取樣時,由於語音的最高頻率不會超過 4000Hz,所以取樣頻率定在 8000Hz以上,就保證取樣失真不會發生。

  取樣頻率的設定對數位化的聲音有很大的影響,在要求高品質的場合,取樣頻率會高出兩倍原是頻率許多。然而像我們將介紹的語音辨識,只要訊號不失真就可以了。

  在每個取樣點上,訊號的振幅大小也被數位化,在麥克風上的訊號是一種細微交流電壓的型態,譬如說:原始訊號的振幅在-50mv ~50mv之間變動,數位化的過程就是把電壓轉換成數字大小,如以-128代表-50mv,127代表50mv,-128~127中間的數值代表電壓大小,則以線性(Linear)或是以非線性(Non-Linear)的方式遞增。

 

anarrow.gif (1450 bytes)下一頁  replay.gif (15720 bytes)回首頁