情報の表現

種々のデータの表現

1.音声データ

1.1 音声データのデジタル化

音声データをデジタル化するためには,時間と音の大きさの両方を離散化する。

時間:時間を一定の間隔で区切り、そこでの値(標本)を扱う
音の大きさ:8ビットや16ビットの非負の整数値で表す。8ビット:0 ~ 255,16ビット:0 ~65535

標本化:このような、離散化するための操作。
標本化周波数(Sampling Rate):標本化するときに、1秒間に何回標本(サンプル)を取得するかを表す指標。波と同じくHzで表す。
量子化:連続した値である音の大きさを,離散的な整数値に置き直すこと。
量子化ビット数(Bit Rate):量子化の最大段数。ビットで表す。例えば、4ビットだと16段階に分割される。サンプリングビット数,量子化数とも呼ぶ。




例.音楽CD
一般的な音楽CDはステレオ(左右2チャンネル)で,それぞれのチャンネルが
Sampling Rate:44.1kHz
Bit Rate:16ビット
で表現されている。従って,1分間の音のデータ量は,
16(ビット)×44100(標本の数)×60(秒)×2(チャンネル,つまり左右)
=84672000 =10,584,000バイト=約10.1 MB
となる。つまり700MBの容量のCD-Rには 700÷10.1=約70分のデータが入ることが分る。

1.2標本化周波数と情報の欠落

デジタル化した音声を再生するとき,上の最後の図のように角ばった形のまま再生されるのではなく,滑らかな形の変形される。それでは,元の音とどの程度の差が出るのであろうか。それに関しては以下の事実が知られている。

標本化定理

元の信号の周波数成分の最大値が W Hz であるとき,標本化周波数を 2W 以上にすれば,元の信号を復元できる。

実際の音声にはかなり高い周波数の音が含まれているので,現実には完全に同じものを復元することはできない場合が多い。しかし”きれいな”波形の音であれば,理論上は完全に復元できることを意味している。

例えば音楽CDの場合,標本化周波数が44.1kHzであるので,最大周波数がおおよそ 22kHz 以下であれば完全に復元できる。

1.3 音声データの形式

WAV形式

Microsoft Windows の標準として使用される音声形式。通常は圧縮しないので,標本化周波数,量子化ビット数がCDと同じ場合は,ほぼ同じサイズになる。

AIFF形式

Apple 社製品の標準として使用される音声形式。WAV と同様に圧縮しないので,標本化周波数,量子化ビット数がCDと同じ場合は,ほぼ同じファイルサイズになる。

MP3

上記の形式では,音声ファイルは相当大きくなるので,実際にはこれを圧縮して使用される場合が多い。この圧縮方式はたくさんあるが,その中でもっとも普及しているのが MP3 である。MP3 は MPEG Audio Layer-3 のことで,動画の規格である MPEG-1 の音声部分の規格の名称である。
基本的な考え方は,音を周波数の異なる波(正弦波)に分解して,高周波数の部分を捨て去るというものである。そのため,MP3に変換した音声は,完全には元の音声と一致しない(非可逆圧縮)。どの程度までの周波数を残すかによって,圧縮率や音質が異なってくる。

AAC

MPEG-2 や MPEG-4 で利用される音声の圧縮方式である。MP3 よりも高圧縮・高音質と言われる。

1.4 MP3の圧縮率と音質

上記の形式のうち MP3 について,元の音質との違いを見てみよう。

以下のリンクは,元のWAV形式の音源(ピアノ曲)とそれから変換した様々な音質のMP3形式について,短い時間のサンプルを取り周波数ごとに分解した図である。縦軸は音の大きさを表し,上の方が大きくなる。また横軸は周波数を表し,右の方が大きくなる。色は左右それぞれのチャンネルを表している。

WAV形式ファイル

MP3(高音質,256kbps)

MP3(中音質,128kbps)

MP3(低音質,64kbps)

これらの図から,高音質のMP3では20kHzあたりで,中音質では16kHzあたりで,低音質では9kHzあたりで成分がほとんどなくなっていることが分かる。(すべての時間で同じというわけではない) またそれ以下の部分についても,高周波数の部分はかなり様子も異なっている。

では実際にどの程度の違いを感じるか確かめてみよう。以下は上の音源へのリンクである。これらを聞き比べてみて,その差が分かるであろうか?

WAV形式音源

MP3音源(高音質,256kbps)

MP3音源(中音質,128kbps)

MP3音源(低音質,64kbps)

一般に我々は年齢が高くなるほど高周波数の音は聞こえなくなってくる。一般に30歳では16kHzあたりが,60歳では10kHzあたりが限界と言われている。それから判断すると30歳を過ぎれば中音質で十分ということになるが,実際にはどうであろうか?

MP3 の圧縮方法

MP3では,複数の変換を行って圧縮率を上げている。ここでは,そのうちの代表的な方法を紹介する。

離散コサイン変換(DCT)

DCT(Discrete Cosine Transform)とは,離散型のフーリエ変換のひとつで,サンプリングした音を異なる周波数を持つ正弦波の和として表現するものである。MP3では,このうち人間には聞き取りにくい高周波の部分をカットする。MP3が非可逆圧縮になる理由の一つがこれである。

ハフマン符号

多くのデータはビット列により出現頻度が大きく異なる。出現頻度の高いビット列には短いビットを,出現頻度の低いビット列には長いビット列を割り当てることにより,全体の長さを短くする。これは可逆な変換であるので,情報量が減ることはない。

例えばビット列 00, 01, 10 ,11 のデータ全体での出現率がそれぞれ 40%, 30%, 20%, 10% であるときを考える。元のビット列に対して次の対応を決める。

00 → 0
01 → 10
10 → 110
11 → 111

このとき,元にビット列に対応する新しいビット列の平均の長さは,

1(ビット)×0.4+2(ビット)×0.3+3(ビット)×0.2+3(ビット)×0.1=1.9

となり,元の平均ビット長である2より小さくなっていることが分かる。

またこの変換で作成される新たなビット列は,元のビット列に戻せるので可逆な変換である。(10001011101100010100 が変換後のビット列であるとき,元のビット列は何?)