Rによるテキストマイニング tidytextを活用したデータ分析と可視化の基礎

「tidy」データの概念に基づいてRでテキストマイニングを行う!

このような方におすすめ

Rユーザ、学生、研究者、データサイエンティスト
  • 著者Julia Silge、David Robinson/大橋 真也/長尾 高弘
  • 定価3,300 (本体3,000 円+税)
  • A5 232頁 2018/05発行
  • ISBN978-4-87311-830-7
  • 定価
  • ポイント0
  • 数量

※本体価格は変更される場合があります。
※通常2〜3営業日以内で発送いたします。
※取寄が可能な場合もございますのでお問合せください。

  • 概要
  • 主要目次
  • 詳細目次

取得した生データをまずは扱いやすいtidyデータに変換してデータ分析を行うことが、最近のRで主流となりつつありますが、本書はそのコンセプトに基づき、著者らが開発した人気のtidydataパッケージを使って、Twitterやニュースサイト、NASAのメタデータなどを分析していきます。著者たちの豊富な経験と科学的理論に基づいた、明確でシンプルなテキストマイニング手法を提示します。

https://www.ohmsha.co.jp/book/9784873118307/

    
目次
はじめに

1章 整理テキスト形式
1.1 整理テキストとほかのデータ構造の比較
1.2 unnest_tokens関数
1.3 ジェーン・オースティンの作品の整理
1.4 gutenbergrパッケージ
1.5 単語の出現頻度
1.6 まとめ

2章 整理データを使ったセンチメント分析
2.1 センチメントデータセット
2.2 内部結合を使ったセンチメント分析
2.3 3つのセンチメント辞書の比較
2.4 ポジティブ、ネガティブな感情を示す単語の最も一般的な例
2.5 ワードクラウド
2.6 単語を越えた単位
2.7 まとめ

3章 単語の出現頻度と特定の文書での出現頻度の分析:tf-idf
3.1 ジェーン・オースティンの小説における単語出現頻度
3.2 ジップの法則
3.3 bind_tf_idf関数
3.4 物理学書のコーパス
3.5 まとめ

4章 単語間の関係: nグラムと相関
4.1 nグラムによるトークン化
4.1.1 nグラムの出現頻度計算とフィルタリング
4.1.2 バイグラムの分析
4.1.3 センチメント分析にコンテキストを反映させるためのバイグラムの活用
4.1.4 ggraphを使ったバイグラムのネットワークの可視化
4.1.5 ほかのテキストのバイグラムの可視化
4.2 widyrパッケージによる 2つの単語の出現頻度と相関
4.2.1 節単位の出現頻度と相関
4.2.2 ペアごとの相関
4.3 まとめ

5章 未整理形式へ(から)の変換
5.1 DTMの整理
5.1.1 DocumentTermMatrixオブジェクトの整理
5.1.2 dfmオブジェクトの整理
5.2 整理データの行列へのキャスト
5.3 メタデータを持つコーパスオブジェクトの整理
5.3.1 例:株式に関する記事のマイニング
5.4 まとめ

6章 トピックモデリング
6.1LDA 
6.1.1 単語 - トピック確率
6.1.2 文書 - トピック確率
6.2 例:図書館荒らし
6.2.1 章を対象とする LDA
6.2.2 文書ごとの分類
6.2.3 単語ごとの分類: augment
6.3 LDAのほかの実装
6.4 まとめ

7章 ケーススタディ: Twitterアーカイブの比較
7.1 データの取得とツイートの時間的分布
7.2 単語の出現頻度
7.3 使用している単語の比較
7.4 使用している単語の変化
7.5 いいねとリツイート
7.6 まとめ

8章 ケーススタディ: ASAメタデータのマイニング
8.1 NASAのデータの整理方法
8.1.1 データラングリングと整理
8.1.2 初歩的な探索
8.2 単語の共起と相関
8.2.1 タイトルと説明文のワードネットワーク
8.2.2 キーワードのネットワーク
8.3 説明フィールドの tf-idfの計算
8.3.1 説明フィールドの単語の tf-idfとは何か
8.3.2 説明フィールドとキーワードのつながり
8.4 トピックモデリング
8.4.1 DTMへのキャスト
8.4.2 トピックモデリングの実行
8.4.3 トピックモデルの解釈
8.4.4 トピックモデリングとキーワードの結合
8.5 まとめ

9章 ケーススタディ: Usenetテキストの分析
9.1 前処理
9.1.1 テキストの前処理
9.2 ニュースグループに含まれる単語
9.2.1 ニュースグループ内の tf-idf
9.2.2 トピックモデリング
9.3 センチメント分析
9.3.1 単語ごとのセンチメント分析
9.3.2 メッセージごとのセンチメント分析
9.3.3 nグラム解析
9.4 まとめ

参考文献
索引