クックパッドや楽天レシピなどのレシピサービスは、多くの方にとってなじみ深い、日常的に使用するものです。ほかにも、写真を撮るだけで食事が記録できるアプリや、トレーに載せた食品をスキャンすると精算ができる画像認識型のレジなど、身の回りには食に関係する情報技術が多数存在します。
本書は、そういったレシピや料理画像を題材として、言葉や画像を扱う技術について解説します。
たとえばクックパッドには、投稿されたレシピの文章を解析して、自動的にカテゴリ分けする機能があります。これには、自然言語処理という言葉を扱う技術が活用されています。
また、上で触れた食事が記録できるアプリなどには、投稿された料理写真を解析して、自動的に料理を認識する機能があります。これには、画像処理という画像を扱う技術が活用されています。
こういった自然言語処理や画像処理の技術を概説したのち、研究や開発に使用できるデータセットや、実際のサービスにおける活用事例を紹介します。さらに、自然言語処理と画像処理を複合的に用いる、クロスモーダルな処理についても紹介します。
また、最後には、自然言語処理や画像処理をより深く学びたい方に向けて、推薦図書の案内も掲載しています。
「まさに料理に関する情報サービスの開発に携わっている!」という方にはもちろんですが、これから自然言語処理や画像処理を学びたい方、言語と画像のクロスモーダルな処理について学びたい方、新しい研究テーマやサービス開発のアイデアを見つけたい方、さらには単純に料理とAIという組み合わせに興味のある方まで、技術に興味のある方には幅広く楽しんでいただける内容です。
https://www.ohmsha.co.jp/book/9784274226564/
正誤表やDLデータ等がある場合はこちらに掲載しています
第1章 はじめに――なぜ料理と情報処理なのか?
第2章 料理と自然言語処理
第3章 料理と画像処理
第4章 料理とクロスモーダル処理――複合的なアプローチ
第5章 おわりに――料理と情報処理のこれから
まえがき
目次
第1章 はじめに――なぜ料理と情報処理なのか?
1.1 レシピや料理写真の増加
1.2 自然言語処理と画像処理の発展
1.3 本書の内容と読者対象
Coffee break:難易度アイコンについて
第2章 料理と自然言語処理
2.1 はじめに
2.2 言語ってなんだろう?
Tech column 機械学習
2.3 自然言語処理とは?
2.3.1 形態素解析
Tech column:MeCab
2.3.2 固有表現認識
2.3.3 構文解析
2.3.4 述語項構造解析
2.3.5 共参照解析
2.3.6 同義関係認識
Tech column:word2vec
2.3.7 含意関係認識
2.4 自然言語処理の活用事例
2.4.1 レシピ検索
2.4.2 レシピ分類
2.4.3 材料正規化
Tech column:パーセプトロン
2.4.4 分量換算
2.4.5 レシピ読み上げ
2.4.6 材料提案
2.4.7 重複レシピ検知
2.5 どんなデータセットがある?
2.5.1 生コーパス
Coffee break:江戸料理レシピデータセット
2.5.2 注釈付きコーパス
Tech column:京都大学ウェブ文書リードコーパス
2.5.3 テストコレクション
Coffee break:研究発表の場
2.5.4 辞書
Coffee break:レシピに関する経験則
2.6 最新の研究動向を知ろう!
2.6.1 レシピ解析
Tech column:評価尺度
Tech column:RNN
2.6.2 レシピ構造化
2.6.3 レシピ生成
Tech column:BERT
第3章 料理と画像処理
3.1 はじめに
3.2 画像ってなんだろう?
Tech column:光が内容と結びつくまで
3.3 画像の内容を理解する処理
3.3.1 画像認識
Tech column:認識率100%を達成することはできるのか???ベイズ誤り率
3.3.2 物体検出
3.3.3 領域分割
3.3.4 姿勢推定
3.4 画像列の内容を理解する処理
3.4.1 動作認識
3.4.2 動作区間検出
3.4.3 動作予測と早期動作認識
3.4.4 物体追跡
Coffee break:食材追跡とテセウスの船??物体の同一性とは
3.4.5 時系列整合とスポッティング
3.5 計測に関するさまざまな技術
3.5.1 AR マーカーや透かし技術による空間への情報埋め込み
3.5.2 カメラによる計測
3.5.3 多様なカメラによる観測方法
3.5.4 多様な3次元情報取得方法
3.5.5 3次元空間を扱うデータ形式
3.6 どんなデータセットがある?
3.6.1 完成写真のデータセット
Tech column:事前学習と追加学習
Coffee break:絵画の審美性と料理写真における魅力度
3.6.2 動画のデータセット
3.7 画像処理の活用事例
3.7.1 FoodLog
3.7.2 BakeryScan
3.7.3 食卓へのプロジェクションマッピング
3.8 最新の研究動向を知ろう!
Tech column:データ拡張
3.8.1 視覚情報処理を目的とした深層学習ネットワークの構成部品
3.8.2 敵対的生成ネットワーク(GAN)
3.8.3 GANの応用例1: 画風変換
3.8.4 GANの応用例2: 教師なしドメイン適応と公平学習
第4章 料理とクロスモーダル処理――複合的なアプローチ
4.1 はじめに
4.2 クロスモーダルな処理ってなんだろう?
Coffee break:中国語の部屋と視覚言語統合
4.3 視覚言語統合とは?
4.3.1 自然言語による画像検索、画像からの文書検索
Tech column:距離学習とランキング学習
4.3.2 自然言語の記述に基づく動画の自動要約
4.3.3 キャプション生成と視覚的叙述生成
Coffee break:言語指示と常識とライブラリとロボットの外見
4.3.4 自然言語からの画像・動画生成と自動編集
4.3.5 視覚的質問応答
Tech column:自己教示学習
4.3.6 身体的質問応答
4.3.7 視覚的照応解析
4.4 どんなデータセットがある?
4.4.1 「完成写真とレシピ」のデータセット
4.4.2 「動画とレシピ」のデータセット
4.4.3 「手順画像列とレシピ」のデータセット
4.5 言語と画像以外のモダリティ
4.5.1 モーションキャプチャ
4.5.2 その他のセンサ
Coffee break:食とユニバーサルデザイン
4.5.3 情報入力デバイス
Coffee break:完全自動化は常に正しいか。デザイナーが避けるべきシステム設計上の罠
4.5.4 情報提示デバイス
4.6 クロスモーダル処理の応用研究を知ろう!
4.6.1 錯覚による食事の支援
4.6.2 調理者の意図を予測することによる調理ナビ
Coffee break:調理のナビゲーションと作業者の意図の推定
第5章 おわりに――料理と情報処理のこれから
5.1 未来のキッチン
5.2 推薦図書
5.3 謝辞
参考文献
索引