第6章 6-7 / モデル化と機械学習

深層学習の基礎

このページで学ぶこと

6-1で扱ったニューラルネットワークの隠れ層を何層も重ねたものが深層学習(ディープラーニング)です。本ページ(6-7)では、深層学習モデルの活用による主なメリット(特徴量抽出が可能になるなど)を理解したうえで、CNN・RNN・Transformerといった主要な深層学習アーキテクチャの特徴と用途、そしてデータサイエンスやAIの分野におけるモダリティの意味を整理します。

数式に深入りせず、「それぞれの技術が何を得意とし、どんな場面で使われるか」という直感的な理解を優先して解説します。

1. 深層学習とは ― 隠れ層を重ねるという発想

深層学習(ディープラーニング)^※1とは、6-1で扱ったニューラルネットワークのうち、隠れ層を何層にも重ねた、より深い構造を持つモデルのことです。層を深く重ねることで、単純な条件分岐や直線的な関係では捉えきれない、非常に複雑なパターンを学習できるようになります。

深層学習が従来の機械学習と大きく異なる点のひとつが、特徴量抽出を自動化できることです。従来の機械学習では、「どのような特徴量(変数)を使うか」を人間があらかじめ設計し、用意する必要がありました。たとえば画像から「輪郭の形」「色の分布」といった特徴を人手で定義してからモデルに与えていたのです。これに対して深層学習は、生に近いデータ(画像のピクセル値、文章の文字列など)を入力するだけで、どの特徴量が予測に有効かをモデル自身が層を通じて自動的に学習します。深層学習モデルの活用による主なメリット(特徴量抽出が可能になるなど)を理解していることは、DS検定の必須スキルチェック項目です。

EXAMPLE ― 特徴量抽出の自動化

従来の画像認識:人間が「エッジの向き」「色のヒストグラム」などの特徴量を設計してからモデルに学習させる
深層学習による画像認識:画像のピクセル値をそのまま入力すると、モデルが層を重ねる中で「輪郭→形→物体」といった特徴を自動的に抽出していく

POINT

深層学習の最大のメリットは、「特徴量エンジニアリングを人間が頑張らなくても、モデルが自動でやってくれる」点にあります。その代わり、大量のデータと計算資源が必要になるという特徴もあわせて押さえておきましょう。

さえ

「特徴量を人間が考えなくていい」って、実はすごく画期的なことなんだよね。画像認識や音声認識が急速に進歩した背景には、この深層学習の力が大きいんだよ!

2. CNN ― 画像を得意とするアーキテクチャ

CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)^※2は、画像のような、近くにある要素同士に強い関係がある(空間的な構造を持つ)データを扱うのを得意とするアーキテクチャです。画像の一部分(小さな窓)を少しずつずらしながら特徴を抽出する「畳み込み」という処理を繰り返すことで、輪郭やパターンといった局所的な特徴を段階的に捉え、最終的に「何が写っているか」を判断します。

CNNは画像分類だけでなく、物体検出や画像内の領域分割など、画像・映像に関わる幅広いタスクの基盤技術として使われています。

3. RNN ― 時間や順序を得意とするアーキテクチャ

RNN(Recurrent Neural Network、再帰型ニューラルネットワーク)^※3は、文章や音声、時系列データのような「順序」や「時間の流れ」が意味を持つデータを扱うのを得意とするアーキテクチャです。RNNは、それまでに入力してきた情報を内部で記憶しながら、次の入力を処理していく構造を持っており、「前の単語を踏まえて次の単語を予測する」といった、系列(シーケンス)としてのデータの扱いに向いています。

RNNは自然言語処理や時系列予測、音声認識など、順序性が重要な意味を持つデータで幅広く活用されてきました。ただし、系列が長くなると古い情報を覚えておくのが難しくなるという弱点があり、その克服のためにLSTMなどの改良版も生まれています。

4. Transformer ― 現代の主要アーキテクチャ

Transformer^※4は、「文章中のどの単語が、どの単語と強く関係しているか」に注目するAttention(注意機構)という仕組みを中心に据えたアーキテクチャです。RNNのように情報を1つずつ順番に処理するのではなく、系列全体の関係性を一度に(並列に)扱えるため、計算効率が高く、長い文章でも離れた単語同士の関係を捉えやすいという特徴があります。

Transformerは、近年の大規模言語モデル(LLM)をはじめ、自然言語処理の分野で主流のアーキテクチャとなっているだけでなく、画像処理など他分野にも応用が広がっています。CNN、RNN、Transformerなど主要な深層学習アーキテクチャの特徴と用途を説明できることは、DS検定のスキルチェック項目です。

アーキテクチャ	得意なデータ	主な用途
CNN	画像など空間的な構造を持つデータ	画像分類、物体検出
RNN	文章・時系列など順序が意味を持つデータ	自然言語処理、時系列予測、音声認識
Transformer	系列データ全体(とくに長い文章)	大規模言語モデル(LLM)、自然言語処理全般、画像処理への応用

POINT

「CNNは画像」「RNNは時間・順序」「Transformerは系列全体の関係性を並列に処理」と、それぞれの得意分野をひとことで対応づけて覚えておくと、試験でも実務でも判断がしやすくなります。

さえ

今の生成AIブームを支えてるのはTransformerって覚えておくと、ニュースの理解もぐっと深まるよ。試験ではまず「CNN=画像、RNN=時間、Transformer=系列全体」の対応だけ確実に!

5. モダリティ ― データの「得られ方」を表す言葉

深層学習の発展にともなって、データサイエンスやAIの分野で頻繁に使われるようになった言葉がモダリティ^※5です。モダリティとは、データがどのような形式・方法で得られるかを表す概念で、テキスト、画像、音声、動画、センサーの数値データなど、データの「種類・様式」を指します。

たとえば「テキストのみを扱うモデル」は単一のモダリティ(単一モーダル)を扱うモデルですが、「画像とテキストの両方を同時に扱えるモデル」は複数のモダリティ(マルチモーダル)を扱うモデルと呼ばれます。近年の深層学習モデルは、画像・テキスト・音声など複数のモダリティを組み合わせて処理できるものが増えています。データサイエンスやAIの分野におけるモダリティの意味を説明できることは、DS検定のスキルチェック項目です。

EXAMPLE ― モダリティの具体例

コールセンターの応対記録の「音声データ」と「文字起こしテキスト」は、それぞれ異なるモダリティのデータである
ECサイトの商品を「商品画像」「商品説明文」「価格などの数値データ」という複数のモダリティから同時に分析する
画像を入力すると、その内容を説明する文章を生成するAIは、画像とテキストという2つのモダリティを橋渡ししている

POINT

モダリティは「データの種類」とほぼ同じ意味ですが、とくにテキスト・画像・音声・動画といった、形式の異なるデータを扱う文脈で使われる言葉だと理解しておきましょう。

まとめ

本ページ(6-7)では、深層学習の基礎的な考え方と主要アーキテクチャを整理しました。最後に振り返っておきましょう。

深層学習のメリット ― 隠れ層を重ねることで、特徴量抽出を自動化できる
CNN ― 画像など空間的な構造を持つデータを得意とするアーキテクチャ
RNN ― 文章や時系列など順序が意味を持つデータを得意とするアーキテクチャ
Transformer ― Attentionにより系列全体の関係性を並列に扱う、現代の主要アーキテクチャ
モダリティ ― データがどのような形式・方法で得られるかを表す概念

次のページ(6-8)では、ゲームやロボット制御に応用される「強化学習」と、ECサイトなどでおなじみの「レコメンドアルゴリズム」を扱います。

脚注 ─ 用語解説

深層学習(ディープラーニング) … 隠れ層を何層にも重ねたニューラルネットワークによって、複雑なパターンを学習する機械学習の手法のこと。↩
CNN(畳み込みニューラルネットワーク) … 画像など空間的な構造を持つデータの特徴を、畳み込み処理によって段階的に抽出する深層学習アーキテクチャのこと。↩
RNN(再帰型ニューラルネットワーク) … それまでの入力情報を記憶しながら処理することで、文章や時系列など順序を持つデータを扱う深層学習アーキテクチャのこと。↩
Transformer … Attention(注意機構)によって系列全体の関係性を並列に処理する、現代の主要な深層学習アーキテクチャのこと。↩
モダリティ … テキスト・画像・音声・動画など、データがどのような形式・方法で得られるかを表す概念のこと。↩