第7章 7-3 / 非構造化データとAI

動画・音声認識

このページで学ぶこと

これまでテキストと画像という非構造化データを見てきましたが、第7章の最後に扱うのは動画と音声です。動画は「画像が時間方向に連続したもの」、音声は「空気の振動を記録したもの」という、それぞれ異なる特徴を持つデータです。このページでは、動画のデジタル表現の仕組みと代表的な動画フォーマット、動画から画像を抽出する方法、そしてwavやmp3などの代表的な音声フォーマットの特徴・用途と、サンプリングレート・符号化・量子化といった基本的な変換処理という2つのテーマを扱います。

分量としては多くありませんが、DS検定の出題範囲としてしっかり問われるポイントです。第7章のまとめとして、着実に押さえていきましょう。

1. 動画のデジタル表現と代表的なフォーマット

動画は、前のレッスンで扱った画像(静止画)が、時間の経過とともにパラパラ漫画のように連続して切り替わることで、動いて見えるようになったデータです。動画を構成する1枚1枚の静止画のことをフレーム^※1と呼び、1秒間に何枚のフレームを表示するかを示す数値をフレームレート(fps)^※2と呼びます。たとえば「30fps」の動画であれば、1秒間に30枚の画像が切り替わっていることになります。フレームレートが高いほど動きは滑らかに見えますが、その分データ量も増えます。

つまり動画は、「画像(縦×横×色)が、時間の軸に沿って何枚も連続して並んだもの」としてデジタル表現されています。この「画像の集まり」としての性質を理解しておくことは、動画データを扱ううえでの出発点になります。

動画のデータ量は、そのまま保存すると非常に大きくなってしまうため、圧縮技術と組み合わせた代表的な動画フォーマットが使われます。動画ファイルは「コンテナ」と呼ばれる箱の中に、映像データと音声データがコーデック^※3と呼ばれる圧縮・伸張の方式で格納される仕組みになっています。同じMP4という拡張子であっても、内部で使われているコーデックによって画質や再生できる機器が変わることがあるため、単純に拡張子だけを見て安心はできません。

フォーマット	特徴
MP4	圧縮効率が高く、幅広い機器・サービスで再生できる汎用的な動画形式
AVI	古くからあるWindows標準の動画形式。圧縮方式を選べるが、ファイルサイズが大きくなりやすい
MOV	Apple製品でよく使われる動画形式。高画質での保存に向く
WebM	Web向けに開発されたオープンな動画形式。Webブラウザでの再生に強い

動画データをAIで分析する場合、動画をそのまま入力するのではなく、動画から画像(フレーム)を抽出する処理を行うことがよくあります。これは、これまで学んできた画像認識の技術(識別・物体検出・セグメンテーションなど)を、動画の各フレームに1枚ずつ適用するためです。動画から一定間隔でフレームを取り出す既存の方法を使えるようになっておくことが、DS検定でも重視されるポイントです。

EXAMPLE ― 動画から画像を抽出する場面

監視カメラの映像から1秒ごとに1フレームを抽出し、各フレームに対して人物の物体検出を行う
工場の生産ラインを撮影した動画から、製品が通過する瞬間のフレームだけを抽出して検品にかける
スポーツ映像から一定間隔でフレームを取り出し、選手の姿勢推定を行ってフォームを分析する

動画から画像を抽出する際に考えるべきなのが、「どのくらいの間隔でフレームを取り出すか」という点です。すべてのフレームを処理しようとすると、30fpsの動画では1分間だけでも1,800枚もの画像を処理することになり、計算コストが膨らみます。実務では、分析の目的に応じて「1秒に1枚」「シーンが切り替わったタイミングだけ」のように間隔を調整し、必要な情報を落とさない範囲でフレーム数を絞り込む工夫がよく行われます。

POINT

動画は「時間軸を持った画像の連続」と理解しておきましょう。動画そのものを直接分析するのではなく、フレームを画像として取り出してから、画像認識の技術を適用するという流れがよく使われます。

さえ

動画って聞くと難しそうだけど、結局は「画像がいっぱい集まったもの」なんだよね。1コマずつ取り出しちゃえば、これまで勉強した画像認識の話がそのまま使えるようになるよ！

2. 音声のデジタル表現とフォーマット・変換処理

音声は、空気の振動である音波(アナログ信号)^※6を、コンピュータで扱えるデジタルデータに変換したものです。この変換の過程を理解するうえで欠かせないのが、サンプリングレート・符号化・量子化という3つのキーワードです。

連続的に変化するアナログの音波を、コンピュータに記録するには、一定の時間間隔で音の大きさを区切って数値として記録する必要があります。この「1秒間に何回、音を数値としてサンプル(標本)を取るか」を示す値がサンプリングレート^※4です。単位はHz(ヘルツ)で表され、たとえば音楽CDのサンプリングレートは44,100Hz(44.1kHz)、つまり1秒間に44,100回音を記録しています。サンプリングレートが高いほど、元の音波を細かく再現できますが、その分データ量も増えます。

サンプリングによって取り出した音の大きさは連続的な値ですが、コンピュータは無限に細かい値をそのまま扱えないため、決まった段階数の数値に丸め込む必要があります。この処理を量子化^※5と呼び、何段階に区切るかを示す値を量子化ビット数と呼びます。たとえば16ビットであれば65,536段階、24ビットであればさらに細かい段階で音の大きさを表現できます。段階が細かいほど、元の音により忠実な音質になります。

そして、サンプリングと量子化によって得られた数値データを、どのような形式で記録・圧縮するかを決めるのが符号化(エンコード)^※7です。符号化の方式によって、音質やファイルサイズ、圧縮の有無などが変わってきます。

用語	内容
サンプリングレート	1秒間に音を数値として記録する回数(単位:Hz)。値が高いほど元の音を細かく再現できる
量子化	記録した音の大きさを、決まった段階数の数値に丸め込む処理。ビット数が大きいほど音質が細かくなる
符号化(エンコード)	数値化された音声データを、特定の形式で記録・圧縮する処理

こうして数値化された音声データは、代表的な音声フォーマットとして保存されます。それぞれ特徴や用途が異なります。

フォーマット	特徴・用途
wav	圧縮を行わない(または可逆圧縮の)形式。音質の劣化がないが、ファイルサイズは大きい。録音・編集作業に向く
mp3	人間の耳に聞こえにくい成分を間引いて圧縮する形式(不可逆圧縮)。ファイルサイズを大幅に小さくでき、音楽配信などで広く使われる
AAC	mp3よりも高い圧縮効率を持つ形式。動画配信サービスなどでもよく使われる
FLAC	音質を落とさずに圧縮できる形式(可逆圧縮)。高音質な音楽データの保存・配布に向く

EXAMPLE ― 音声フォーマット・変換処理の使い分け

音声認識AIの学習用データとして録音する際は、劣化のないwav形式で保存し、後から自由に加工できるようにする
コールセンターの通話録音を長期保存する際は、ファイルサイズを抑えるためmp3形式に変換する
音声アプリの応答速度を上げたい場合、サンプリングレートを必要以上に高くしすぎず、データ量とのバランスを取る

POINT

音声のデジタル化は「サンプリング(時間を区切って記録する回数)→量子化(音の大きさを段階に丸める)→符号化(形式を決めて記録・圧縮する)」という3つの工程で理解すると整理しやすくなります。wavは非圧縮・高音質、mp3は圧縮・省サイズという対比もあわせて覚えておきましょう。

さえ

サンプリングレートと量子化、名前が似てて混同しがちだから注意だよ! 「回数(時間)」の話がサンプリングレート、「段階(大きさ)」の話が量子化。試験でも引っかけっぽく出ることがあるから、ここは要チェック！

まとめ

ここまで、DS検定の出題範囲である「非構造化データとAI／動画・音声認識」の内容を見てきました。第7章全体を通じて、テキスト・画像・動画・音声という代表的な非構造化データの扱い方を学んできました。最後に振り返っておきましょう。

動画のデジタル表現とフォーマット ― 動画は「時間軸を持った画像の連続」であり、MP4など代表的なフォーマットで保存される。動画から画像(フレーム)を抽出する既存の方法を使える
音声のデジタル表現とフォーマット ― サンプリングレート・量子化・符号化という基本的な変換処理を理解し、wavやmp3など代表的な音声フォーマットの特徴・用途を説明できる

これで第7章「非構造化データとAI」はすべて終わりです。テキスト・画像・動画・音声という、構造化データとは異なる性質を持つデータの扱い方を身につけたら、章末の確認問題で理解度をチェックしておきましょう。

脚注 ─ 用語解説

フレーム … 動画を構成する1枚1枚の静止画のこと。動画はフレームが連続して切り替わることで動いて見える。↩
フレームレート(fps) … 1秒間に表示されるフレームの枚数のこと。fpsはframes per secondの略で、値が大きいほど動きが滑らかに見える。↩
コーデック … 映像や音声のデータを圧縮・伸張する方式のこと。同じ拡張子のファイルでも、内部のコーデックによって画質や再生できる機器が変わることがある。↩
サンプリングレート … アナログの音波を、1秒間に何回の頻度で数値として記録するかを示す値のこと。単位はHz(ヘルツ)。↩
量子化 … 記録した音の大きさ(振幅)を、決まった段階数の数値に丸め込む処理のこと。段階数が多いほど元の音に忠実になる。↩
音波(アナログ信号) … 空気の振動として伝わる、連続的に変化する音の信号のこと。コンピュータで扱うにはサンプリングと量子化によってデジタルデータに変換する必要がある。↩
符号化(エンコード) … 数値化された音声データを、どのような形式で記録・圧縮するかを定める処理のこと。方式によって音質やファイルサイズが変わる。↩

CHECK TEST

第7章「非構造化データとAI」確認問題に挑戦しよう

自然言語処理・画像認識・動画音声認識の内容を、4択10問の確認問題で振り返ります。1問ずつ解説付きで答え合わせができます。

確認問題をはじめる →