音声対話システム 基礎から実装まで

音声対話システムの理論と実装を網羅! Python言語による音声対話システムの実装方法を詳しく解説.

このような方におすすめ

音声対話システムの研究開発に携わる技術者・研究者、学生
音声認識・音声解析に携わる技術者・研究者、学生
  • 著者井上 昂治 ・ 河原 達也 共著
  • 定価3,520 (本体3,200 円+税)
  • A5 272頁 2022/10発行
  • ISBN978-4-274-22954-1
  • 定価
  • ポイント0
  • 数量

※本体価格は変更される場合があります。
※通常2〜3営業日以内で発送いたします。
※取寄が可能な場合もございますのでお問合せください。

  • 概要
  • 主要目次
  • 詳細目次

 本書は,人間の言葉を理解し,適切に応答するシステム(=音声対話システム)の理論をわかりやすく網羅した書籍です.合わせて,Python言語による音声対話システムの実装方法を詳しく説明しており,基礎を理解しながら実践に即した知識を身につけることができます.

 音声対話システムの実用化・普及が進む中で,さまざまな課題が明確化され,取り組みが進められています.また,少子高齢化が進み,働き手が不足している社会状況から,音声対話システムに対する社会の期待は今後ますます高まっていくと予想されています.

 今後,音声対話システムの研究開発に携わる方に必携の書籍です.

https://www.ohmsha.co.jp/book/9784274229541/
第1章 音声対話システムの概要
第2章 音声対話システムの分類
第3章 音声認識
第4章 言語理解
第5章 対話管理
第6章 end-to-endモデルによる応答生成
第7章 応答文テキストの音声合成
第8章 音声対話システムの評価
第9章 人間らしい対話を実現するための要素技術
第10章 音声対話システムの未来
付 録 Dialogflow ESによる実装
第1章 音声対話システムの概要
1.1 音声対話システムの歩み
1.1.1 ELIZAとSHRDLUの登場
1.1.2 VOYAGER・ATISプロジェクトから実用化へ
1.1.3 スマートフォン・スマートスピーカへの展開
1.2 音声対話システムとは
1.3 音声に起因する問題
1.4 音声対話システムの構成
Hands-on 本書で実装するシステム

第2章 音声対話システムの分類
2.1 対話タスクの分類
2.1.1 ゴールが明確な対話タスク
2.1.2 内容が明確な対話タスク
2.1.3 目的が明確な対話タスク
2.1.4 目的・タスクが明確でない対話
2.2 情報リソースによる分類
2.2.1 関係データベース
2.2.2 自然言語テキスト・知識ベース
2.2.3 非明示的な参照リソース
2.3 タスクとドメイン
2.3.1 タスク
2.3.2 ドメイン
2.3.3 スマートフォンアシスタントの構成
2.4 音声対話のインタフェース
2.4.1 スマートフォンなどの携帯端末
2.4.2 スマートスピーカなどの家庭内・車内機器
2.4.3 バーチャルエージェント
2.4.4 ペット型ロボット
2.4.5 人間型ロボット
2.4.6 アンドロイド
2.4.7 アフォーダンス
Hands-on Pythonの実行環境のセットアップ

第3章 音声認識
3.1 音声認識の概要
3.1.1 連続音声の認識システム
3.1.2 音声分析
3.1.3 音響モデル
3.1.4 言語モデルと単語辞書
3.1.5 認識エンジン(デコーダ)
3.2 音声認識のための言語モデル
3.2.1 語彙と単語辞書
3.2.2 パープレキシティ
3.2.3 記述文法
3.2.4 単語N-gramモデル
3.2.5 クラスN-gramモデル
3.2.6 RNN言語モデル
3.2.7 言語モデルの学習データの収集
3.3 音声対話システムにおける音声認識システム
3.3.1 音声認識システムの選択肢
3.3.2 システムへの発話の検出
3.3.3 信頼度の利用と誤り回復
Hands-on クラウド型音声認識の利用
1. 事前準備
2. クラウド型音声認識呼出しプログラムの実装

第4章 言語理解
4.1 言語理解の基礎概念
4.1.1 ドメイン
4.1.2 意 図
4.1.3 スロット値
4.1.4 その他の言語理解の出力
4.2 ルールベース
4.2.1 意味文法
4.2.2 有限状態トランスデューサ
4.2.3 意味フレーム
4.3 統計的識別モデル
4.3.1 SVM/ロジスティック回帰によるドメイン・意図分類
4.3.2 CRFによるスロット値抽出
4.4 ニューラル識別モデル
4.4.1 RNN/トランスフォーマによるドメイン・意図分類
4.4.2 RNNエンコーダ-デコーダ/トランスフォーマによるスロット値抽出
4.4.3 ニューラルネットワークによる言語理解タスクの拡張
4.5 言語理解モデルのベンチマークデータセット
Hands-on 言語理解の実装
1. 事前準備
2. ルールベース:意味文法の実装
3. ルールベース:意味フレームの実装
4. 統計的識別モデル:学習データの準備
5. 統計的識別モデル:ドメイン分類の実装
6. 統計的識別モデル:スロット値抽出の実装

第5章 対話管理
5.1 対話の基本構造
5.1.1 談話構造理論
5.1.2 隣接ペア
5.2 対話の主導権
5.2.1 システム主導
5.2.2 ユーザ主導
5.2.3 混合主導
5.3 対話管理のサブタスク
5.4 対話管理のモデル
5.4.1 有限状態オートマトン
5.4.2 フレームベース
5.4.3 アジェンダベース
5.4.4 マルコフ決定過程(MDP)
5.4.5 部分観測マルコフ決定過程(POMDP)
5.5 対話戦略の機械学習
5.5.1 MDP/POMDPの強化学習
5.5.2 深層強化学習
5.5.3 ユーザシミュレータ
5.6 応答文生成
5.6.1 Griceの会話の公準
5.6.2 テンプレート方式
5.6.3 テンプレート生成方式
5.6.4 文生成方式
Hands-on 対話管理の実装
1. FSAの実装
2. フレームベースの方法の実装

第6章 end-to-endモデルによる応答生成
6.1 用例データベースを用いた応答検索
6.2 seq-to-seq型ニューラルネットワークによる応答生成
6.2.1 RNN型応答生成モデル
6.2.2 トランスフォーマ型応答生成モデル
6.2.3 日本語の応答生成モデル
6.2.4 テキスト対話データセット
6.3 タスク指向対話におけるend-to-endモデル
Hands-on 用例ベースの実装
1. 用例データベースの構築
2. 用例検索処理の実装
3. 用例ベースのテスト
4. word2vecによる特徴量抽出

第7章 応答文テキストの音声合成
7.1 音声対話システムにおける音声合成
7.2 音声合成エンジン
7.2.1 形態素解析と読み付与
7.2.2 韻律付与
7.2.3 音声合成の方式
Hands-on クラウド型音声合成の利用
1. 事前準備
2. クラウド型音声合成呼出しプログラムの実装

第8章 音声対話システムの評価
8.1 評価方法の基本事項
8.1.1 評価尺度
8.1.2 評価項目
8.1.3 評価者の属性や特性
8.1.4 被験者配置
8.1.5 倫理的配慮
8.2 タスク指向対話の評価
8.3 非タスク指向対話の評価
8.3.1 BLEU
8.3.2 ROUGE
8.3.3 Distinct
8.3.4 その他
8.4 システム応答の分析
Hands-on システム統合

第9章 人間らしい対話を実現するための要素技術
9.1 システムとの対話と人間どうしの対話の違い
9.2 ターンテイキング
9.2.1 ターンテイキングの状態遷移モデル
9.2.2 音声対話システムにおけるターンテイキングの実装
9.2.3 多人数対話における受話者推定
9.3 相 槌
9.4 フィラー
9.5 笑 い
9.6 ユーザの内部状態推定
9.7 その他の振舞い

第10章 音声対話システムの未来
10.1 深層学習の導入・進展
10.2 高度なマルチモーダル統合
10.3 柔軟な対話タスク
10.4 音声対話の評価方法の確立
10.5 ユーザとの関係性構築
10.6 人間との協調による対話
10.7 医療・介護への応用
10.8 メタバースへの展開
10.9 一般ユーザにも扱いやすい開発環境
10.10 倫理的課題

付 録 Dialogflow ESによる実装