本書は、人工知能(AI)技術の一つである深層学習(ディープラーニング)の全体像を体系的にまとめた教科書です。
SNS、スマートスピーカー、画像診断、自動運転、……などなど、身のまわりには深層学習の技術や手法が広く応用されています。このことからもわかるように、深層学習は今日に至るまでさまざまな場面で成功を収めていますが、その技術や手法は、今現在も、非常に速いスピードで進歩し続けています。「以前は当たり前のように利用されていた技術が、ある日突然、それを上回る別の技術に置き換えられた」ということも十分にあり得ます。しかし、そのような深層学習技術の基礎には、普遍的かつ不変的な知識や考え方があります。
本書は、現代の深層学習の技術や手法を理解するうえで基礎となる知識や考え方を、必要に応じて数式を用い、詳細に解説しています。また、代表的な応用例として、画像、音声、自然言語の処理を俯瞰的に解説し、深層学習の全体像が理解できるように構成しました。論文や国際会議等で深層学習技術の最新動向を追うためのベースは、本書で十分に学ぶことができます。
https://www.ohmsha.co.jp/book/9784274228889/
正誤表やDLデータ等がある場合はこちらに掲載しています
第1章 序論:深層学習登場の前と後
第2章 深層学習以前のパターン認識手法
第3章 深層学習ネットワーク
第4章 ネットワークの学習
第5章 学習のための技術
第6章 系列データへの対応
第7章 画像認識への適用
第8章 画像生成・変換への適用
第9章 音声処理への適用
第10章 自然言語処理への適用
第11章 マルチモーダル学習
第1章 序論:深層学習登場の前と後
1.1 パターン認識とは
1.2 パターン認識の困難さと深層学習による成功
1.3 深層学習と従来のパターン認識手法の違い
第2章 深層学習以前のパターン認識手法
2.1 深層学習以前のパターン認識の概略
2.2 特徴抽出
1. 画像
2. 音声
3. テキスト
2.3 機械学習・パターン認識手法
1. 最近傍法
2. 線形識別関数
3. ロジスティック回帰
4. パーセプトロン
5. サポートベクトルマシン
6. アンサンブル学習
7. 確率モデルによる分類
2.4 クラスタリング
1. 階層的クラスタリング
2. k-means法
2.5 評価指標
演習問題
第3章 深層学習ネットワーク
3.1 深層学習のアイディア
3.2 パーセプトロン
3.3 多層パーセプトロン
3.4 深層学習ネットワークにおける基本レイヤ群
1. 全結合層
2. 畳込み層
3. im2col変換と行列積による畳込み演算
4. 畳込みと全結合の関係
5. プーリング層
6. ストライド付き畳込み
7. 転置畳込みとアンプーリング
8. 非線形活性化関数
9. 出力関数
3.5 基本ネットワーク構造
演習問題
第4章 ネットワークの学習
4.1 深層学習ネットワークの学習の基本的アイディア
4.2 誤差関数
4.3 確率的勾配降下法
4.4 誤差逆伝播法
1. 1入力1出力の全結合層の例
2. 一般的な全結合ネットワークでの例
4.5 畳込み層の学習
4.6 学習の実際
4.7 学習した畳込みフィルタの例
演習問題
第5章 学習のための技術
5.1 学習パラメータの初期値
5.2 学習率の設定
5.3 データ拡張
5.4 ドロップアウト
5.5 入力データの正規化
5.6 モデルアンサンブル
5.7 事前学習とファインチューニング
5.8 中間信号の画像特徴量としての利用
5.9 距離学習
5.10 マルチタスク学習
5.11 自己教師学習
5.12 ネットワークを小さくする工夫
1. 枝刈り
2. 量子化
3. 知識蒸留
演習問題
第6章 系列データへの対応
6.1 再帰型ネットワーク
1. RNN
2. LSTM
3. GRU
6.2 1次元畳込み
6.3 Transformer
1. Scaled Dot-Product Attention
2. Multi-Head Attention
3. Positional Encoding
4. 学習と推論
演習問題
第7章 画像認識への適用
7.1 主な画像認識ネットワーク
1. LeNet
2. AlexNet
3. Network-In-Network
4. VGG
5. GoogleNet
6. ResNet
7. SE-Net
8. アーキテクチャ探索
9. 軽量ネットワーク
10. Vision Transformer
7.2 画像認識ネットワーク内部の可視化
7.3 物体検出
1. 深層学習による急激な性能向上
2. 2段階手法
3. 1段階手法
7.4 領域分割
7.5 人物姿勢推定
7.6 動画認識
演習問題
第8章 画像生成・変換への適用
8.1 エンコーダ・デコーダ型ネットワーク
8.2 オートエンコーダ
8.3 深層生成モデル
1. 変分オートエンコーダ
2. 敵対的生成ネットワーク
3. フローモデル
4. 拡散モデル
5. 画像生成結果の評価指標
8.4 画像変換
1. ペアデータがある場合の画像変換
2. 画像ドメイン変換
3. 形状とスタイルの特徴分離による画像操作
8.5 画像最適化による画像変換
1. クラス顕著性マップと敵対画像
2. DeepDream
3. 画像スタイル変換
4. 高速画像スタイル変換
演習問題
第9章 音声処理への適用
9.1 音声認識ネットワーク
1. DNN-HMM
2. CTC
3. RNN-T
4. LAS
5. Conformer
9.2 音声合成ネットワーク
1. WaveNet
2. Tacotron
3. WaveGlow
4. MelGAN
演習問題
第10章 自然言語処理への適用
10.1 単語ベクトル
10.2 系列変換モデル
10.3 事前学習モデル
1. BERT
2. T5
3. GPT-3
演習問題
第11章 マルチモーダル学習
11.1 マルチモーダル・クロスモーダル
11.2 画像と言語
1. 画像キャプショニング
2. 画像質問応答
3. テキストによる物体検出
4. クロスモーダル検索
5. テキストからの画像生成・変換
6. 画像言語マルチモーダル大規模基盤モデル
11.3 画像・映像と音声
演習問題
演習問題略解
参考文献