近年、テキストだけでなく、図・表・グラフといった画像を含む資料からも情報を検索・活用できる「マルチモーダルRAG(Retrieval-Augmented Generation)」の重要性が高まっています。従来のRAGが扱える情報はテキストデータに限定されており、実務現場で扱う文書──PDF・Word・PowerPointなど──のように、図表を多く含むデータには十分対応できませんでした。本書は、この課題を踏まえて、実務文書にも対応できるマルチモーダルRAGについて体系的に解説します。
本書では、自分の手でマルチモーダルRAGを構築できるようになることを目指します。全体を通して、手を動かしながら理解できるよう、再現可能なコード例を多数提示しています。
https://www.ohmsha.co.jp/book/9784274234934/
正誤表やDLデータ等がある場合はこちらに掲載しています
Chapter 1 テキストベースのRAG
Chapter 2 Responses APIのfile searchによるRAG
Chapter 3 標準的なマルチモーダルRAG
Chapter 4 ColPaliを利用したマルチモーダルRAG
Chapter 5 エージェントによる自律制御を組み込んだMMA-RAG
Chapter 6 VQAを中核としたマルチモーダルRAG
はじめに
目次
Chapter 1 テキストベースのRAG
1.1 RAG全体像
1.2 データベースの作成
1.3 検索器の作成
1.4 プロンプトの作成
1.5 LLMによる回答生成
1.6 全体のRAGシステムの実装
本書の実装例の実行手順
Chapter 2 Responses APIのfile searchによるRAG
2.1 データベースの構築
2.2 回答の生成
2.3 マルチモーダルRAGへの拡張
本書の実装例の実行手順
Chapter 3 標準的なマルチモーダルRAG
3.1 PDF文書から画像の抽出
3.2 画像のテキスト化によるマルチモーダルRAG
3.3 テキストと画像を同一のベクトル空間に埋め込むマルチモーダルRAG
本書の実装例の実行手順
Chapter 4 ColPaliを利用したマルチモーダルRAG
4.1 ColPaliによるページ画像の検索
4.2 ColPaliによるマルチモーダルRAGの処理の流れ
4.3 PDF文書の格ページを画像に変換
4.4 各ページ画像をColPaliにより行列へ変換
4.5 クエリをColPaliにより行列へ変換
4.6 クエリとページ画像の間の類似度を計算し検索
4.7 検索されたページ画像とクエリをVLMに入力した回答の生成
本書の実装例の実行手順
Chapter 5 エージェントによる自律制御を組み込んだMMA-RAG
5.1 LangGraphについて最低限知っておくべきこと
5.2 LangGraphの簡単な実装例
5.3 検索結果を順次利用するMMA-RAGの実装
5.4 外部LLMの利用
5.5 外部ループによる拡張
本書の実装例の実行手順
Chapter 6 VQAを中核としたマルチモーダルRAG
6.1 VQA型マルチモーダルRAGの位置づけ
6.2 医療画像に対する画像検索
6.3 MedGemmaの利用
6.4 VQAへのプロンプト設計
本書の実装例の実行手順
おわりに
索引
著者略歴