Webデータや画像データに代表されるようなビッグデータが注目される一方で、機械の故障データのように発生自体がまれであったり、患者さんの検査データのように倫理的な問題からデータを集めることに制約があったり、あるいはデータの判読が専門家以外では困難で機械学習に利用しにくいデータは、どうしても忘れられがちです。ビッグデータの時代において、収集が難しいために私たちが忘れかけているデータのことをスモールデータとよびます。
スモールデータでは、測定されている変数の数に比べて学習に必要なサンプルが不足していたり、それぞれのクラスのサンプル数が極端に偏っていたりするため、深層学習のようなビッグデータの方法をそのまま適用するのは適当ではなく、異なるアプローチが必要になります。
本書は、スモールデータとはどのようなデータであるのかを具体的に紹介して、スモールデータ解析の基本となる次元削減と回帰分析を説明します。特に部分的最小二乗法(PLS)はスモールデータ解析の大きな武器となるでしょう。そして、機械学習においてモデルの性能向上のために必要な変数(特徴)選択を紹介し、特にクラスタリングに基づいた新しい変数選択手法を説明します。つづいて、不均衡なデータの解析手法と異常検知を紹介して、最後にスモールデータ解析についての筆者の経験に基づいたポイント・考え方を述べました。本書ではPythonプログラムとスモールデータ解析の例題を通じて、読者がスモールデータを有効に解析できるようになるよう工夫しています。
ビッグデータの世界は、もはやデータ量と資本力が支配するレッドオーシャンとなっています。しかし、スモールデータの世界は、まだまだ現場の創意工夫次第でデータから新たな価値を引き出すことのできるブルーオーシャンなのです。みなさんも、この未知の世界に飛び込んでみませんか?
https://www.ohmsha.co.jp/book/9784274227783/
正誤表やDLデータ等がある場合はこちらに掲載しています
第1章 スモールデータとは
第2章 相関関係と主成分分析
第3章 回帰分析と最小二乗法
第4章 線形回帰モデルにおける入力変数選択
第5章 分類問題と不均衡データ問題
第6章 異常検知問題
第7章 データ収集や解析の心構え
第1章 スモールデータとは
1.1 ビッグデータからスモールデータへ
1.2 スモールデータ解析の特徴
1.3 本書の構成
第2章 相関関係と主成分分析
2.1 データの前処理
2.2 共分散と相関関係
2.3 相関関係≠因果関係
2.4 多変数間の相関関係
2.5 主成分分析(PCA)とは
2.6 データの特徴
2.7 第1主成分の導出
2.8 第r主成分の導出
2.9 PCAの数値例
2.10 主成分数の決定
2.11 PCAの行列表現
2.12 PCAと特異値分解
第3章 回帰分析と最小二乗法
3.1 回帰分析とは
3.2 最小二乗法
3.3 回帰係数と相関係数
3.4 最小二乗法の幾何学的意味
3.5 ガウス-マルコフの定理
3.6 最尤法と最小二乗法
3.7 多重共線性の問題
3.8 サンプル数が入力変数の数よりも少ない場合
3.9 擬似逆行列を用いる方法
3.10 主成分回帰(PCR)
3.11 リッジ回帰
3.12 部分的最小二乗法(PLS)
3.13 PLS1モデルの導出
3.14 PLS1モデルのNIPALSアルゴリズム
3.15 重回帰モデルへの変換
3.16 出力変数が複数ある場合(PLS2)
3.17 PLSと固有値問題・特異値分解
3.18 ハイパーパラメータの調整
3.19 回帰モデルの性能評価
3.20 分光分析による物性推定
3.20.1 分光法
3.20.2 ディーゼル燃料の物性推定
第4章 線形回帰モデルにおける入力変数選択
4.1 オッカムの剃刀とモデルの複雑さ
4.2 赤池情報量規準(AIC)
4.3 ステップワイズ法
4.4 Lasso回帰
4.4.1 リッジ回帰に近似する方法
4.4.2 最小角回帰(LARS)
4.5 PLS向けの変数選択手法
4.6 相関関係に基づいた変数クラスタリングによる入力変数選択
4.6.1 クラスタリング
4.6.2 k-平均法
4.6.3 NCスペクトラルクラスタリング(NCSC)
・スペクトラルクラスタリング(SC)
・NC法
4.6.4 NCSCの例題
4.6.5 NCSCを用いた入力変数選択(NCSC-VS)
4.7 NIRスペクトルの検量線入力波長選択
第5章 分類問題と不均衡データ問題
5.1 分類問題とは
5.2 線形判別分析
5.3 線形判別分析とレイリー商
5.4 カットオフの決定
5.5 線形判別分析と最小二乗法
5.6 分類モデルの性能評価
5.7 ROC曲線とAUC
5.8 線形判別分析における不均衡データ問題
5.9 データの不均衡度
5.10 サンプリング手法
5.11 アンダーサンプリング
5.11.1 サンプル選択型アンダーサンプリング
・ランダムアンダーサンプリング(RUS)
・クラスタ基準アンダーサンプリング
・トメクリンク
5.11.2 サンプル生成型アンダーサンプリング
5.11.3 オーバーサンプリング
・SMOTE
・ADASYN
・ボーダーラインSMOTE
5.11.4 アンダーサンプリングとオーバーサンプリングの組み合わせ
5.12 アンサンブル学習
5.13 判別木
5.14 バギングとランダムフォレスト
5.15 ブースティング
5.15.1 AdaBoost
5.16 サンプリング手法とアンサンブル学習の組み合わせ
5.17 不均衡データにおける性能評価
5.18 ケーススタディ
5.18.1 データセットの準備
5.18.2 モデルの学習
5.18.3 モデル学習結果
第6章 異常検知問題
6.1 局所外れ値因子法(LOF)
6.1.1 局所密度
6.1.2 到達可能性距離
6.2 アイソレーションフォレスト
6.3 多変量統計的プロセス管理(MSPC)
6.3.1 USPCとMSPC
6.3.2 T^2統計量とQ統計量
6.3.3 寄与プロットによる異常診断
6.4 オートエンコーダ(AE)
6.5 管理限界の調整
6.6 時系列データの取り扱い
6.7 砂山のパラドックス
6.8 Tennessee Eastmanプロセスの異常検知
6.8.1 TEプロセス
6.8.2 データの前処理
6.9 モデルの学習と異常検知
6.10 異常検知結果
6.10.1 異常診断
第7章 データ収集や解析の心構え
7.1 機械学習の手順
7.2 そもそもデータを使って何をやりたいのか
7.3 PICO
7.4 データの文脈を理解する
7.5 現地現物と三現主義
7.6 現場とのコミュニケーション
7.7 解析データセット構築に責任を持つ
7.8 どうしてもうまくいかないときは
付録
A.1 標本分散と母分散
A.2 LARSアルゴリズム
A.3 Mcut法と固有値問題
A.4 主成分分析と自己符号化器の関係
参考文献
索引