取得した生データをまずは扱いやすいtidyデータに変換してデータ分析を行うことが、最近のRで主流となりつつありますが、本書はそのコンセプトに基づき、著者らが開発した人気のtidydataパッケージを使って、Twitterやニュースサイト、NASAのメタデータなどを分析していきます。著者たちの豊富な経験と科学的理論に基づいた、明確でシンプルなテキストマイニング手法を提示します。
https://www.ohmsha.co.jp/book/9784873118307/
正誤表やDLデータ等がある場合はこちらに掲載しています
目次
はじめに
1章 整理テキスト形式
1.1 整理テキストとほかのデータ構造の比較
1.2 unnest_tokens関数
1.3 ジェーン・オースティンの作品の整理
1.4 gutenbergrパッケージ
1.5 単語の出現頻度
1.6 まとめ
2章 整理データを使ったセンチメント分析
2.1 センチメントデータセット
2.2 内部結合を使ったセンチメント分析
2.3 3つのセンチメント辞書の比較
2.4 ポジティブ、ネガティブな感情を示す単語の最も一般的な例
2.5 ワードクラウド
2.6 単語を越えた単位
2.7 まとめ
3章 単語の出現頻度と特定の文書での出現頻度の分析:tf-idf
3.1 ジェーン・オースティンの小説における単語出現頻度
3.2 ジップの法則
3.3 bind_tf_idf関数
3.4 物理学書のコーパス
3.5 まとめ
4章 単語間の関係: nグラムと相関
4.1 nグラムによるトークン化
4.1.1 nグラムの出現頻度計算とフィルタリング
4.1.2 バイグラムの分析
4.1.3 センチメント分析にコンテキストを反映させるためのバイグラムの活用
4.1.4 ggraphを使ったバイグラムのネットワークの可視化
4.1.5 ほかのテキストのバイグラムの可視化
4.2 widyrパッケージによる 2つの単語の出現頻度と相関
4.2.1 節単位の出現頻度と相関
4.2.2 ペアごとの相関
4.3 まとめ
5章 未整理形式へ(から)の変換
5.1 DTMの整理
5.1.1 DocumentTermMatrixオブジェクトの整理
5.1.2 dfmオブジェクトの整理
5.2 整理データの行列へのキャスト
5.3 メタデータを持つコーパスオブジェクトの整理
5.3.1 例:株式に関する記事のマイニング
5.4 まとめ
6章 トピックモデリング
6.1LDA
6.1.1 単語 - トピック確率
6.1.2 文書 - トピック確率
6.2 例:図書館荒らし
6.2.1 章を対象とする LDA
6.2.2 文書ごとの分類
6.2.3 単語ごとの分類: augment
6.3 LDAのほかの実装
6.4 まとめ
7章 ケーススタディ: Twitterアーカイブの比較
7.1 データの取得とツイートの時間的分布
7.2 単語の出現頻度
7.3 使用している単語の比較
7.4 使用している単語の変化
7.5 いいねとリツイート
7.6 まとめ
8章 ケーススタディ: ASAメタデータのマイニング
8.1 NASAのデータの整理方法
8.1.1 データラングリングと整理
8.1.2 初歩的な探索
8.2 単語の共起と相関
8.2.1 タイトルと説明文のワードネットワーク
8.2.2 キーワードのネットワーク
8.3 説明フィールドの tf-idfの計算
8.3.1 説明フィールドの単語の tf-idfとは何か
8.3.2 説明フィールドとキーワードのつながり
8.4 トピックモデリング
8.4.1 DTMへのキャスト
8.4.2 トピックモデリングの実行
8.4.3 トピックモデルの解釈
8.4.4 トピックモデリングとキーワードの結合
8.5 まとめ
9章 ケーススタディ: Usenetテキストの分析
9.1 前処理
9.1.1 テキストの前処理
9.2 ニュースグループに含まれる単語
9.2.1 ニュースグループ内の tf-idf
9.2.2 トピックモデリング
9.3 センチメント分析
9.3.1 単語ごとのセンチメント分析
9.3.2 メッセージごとのセンチメント分析
9.3.3 nグラム解析
9.4 まとめ
参考文献
索引