原信号を復元でき、かつ記録に必要な容量を最小化するためには、理論的にはシャノン標本化定理に従う。すなわち、原信号の最高周波数の2倍以上でデジタル化すれば、原信号を完全に復元することができる。音声(人間の声)に含まれる周波数成分は0.3-3.4kHzに分布しており、少なくとも4kHzの帯域があれば十分に相手に伝えることができる。各ボーコーダの標本化周波数が8kHzに設定されている根拠は、4kHz(音声の最高周波数)×2(シャノン標本化定理より)に起因する。量子化手法にはPCM方式とCELP方式がある。PCM方式は原信号をそのままデジタル化する。純粋なPCM方式はデータ量が大きくなるため、信号の差分をとることによりデータの削減を施したADPCMが主に使われている。CELP方式は、送信側でいくつかの信号パターン(コードブック)に分解する。コードブックを音声を基に最適化することで、PCM方式と比較してデータ量を大幅に削減できるが、音声の品質は劣っている。
ボーコーダの性能は、通信回線に乗せる帯域幅(デジタル化後の音声帯域幅)で比較する。すなわち、この帯域幅をできるだけ小さくすることで効率的な伝送が実現できる。ボーコーダの品質はMOS評点で比較する。MOS評点は実際に人の耳でそのボーコーダを通した音声を聞いて、5段階評価(5が一番良い)した平均値である。
IP電話サービスを無線通信ネットワークで使用する場合に重要なことは、通信帯域幅が音声帯域幅に比べて十分に大きい、通信回線のパケット遅延が小さい、通信回線でIP電話サービスのトラヒックを遮断していないことである。CELP系のボーコーダを使用すれば、通信帯域の制限がかかっていない状態(パケット定額サービスで、パケット通信の利用が多いユーザは意図的に通信回線の帯域を絞られる)であれば、3Gネットワーク(平均通信速度:数Mbit/s)で十分に利用できる。ただし、上り回線の速度は下り回線よりも小さく設定されている場合が多いため、音声帯域幅を十分に確保できないことがある(すなわち、自分の声が相手に伝わらない現象)。一方、3Gネットワークのパケット遅延は数百ミリ秒程度あるため、PCM方式のボーコーダでは厳しいことがある。パケット遅延が大きい場合、音声が送れて届く、エコー(山びこのような現象)が発生する。これらを踏まえて、IP電話サービス、通信回線などを選択しなければならない。
G.711 | G.726 | G.729a | |
量子化 | PCM | ADPCM | ACELP |
標本化 | 8kHz | 8kHz | 8kHz |
帯域幅 | 64kbit/s | 16-40kbit/s | 8kbit/s |
MOS評点 | 4.3 | 3.8 | 3.7 |
0 件のコメント:
コメントを投稿