【本書のポイント】
・深層学習による自動作曲技術の全体像を知る
・Colaboratoryを使った自動作曲のお試し
・データセットを多数紹介
機械学習による自動作曲(AI作曲)技術を解説した専門書です。機械学習やメディアアート関係の研究者、学生、音楽産業の技術者を主な読者対象として、現在の自動作曲技術をまとめています。また、実践要素(Python/Colaboratoryを使った自動作曲の実践)を設けて、情報科学の知識のないクリエイターやアマチュア作曲者、動画制作者などが自動作曲にチャレンジできるようにしました。
近年、画像生成を中心にAI(機械学習)によるメディア生成が注目を集めています。自動作曲はその名の通り、音楽を生成する技術で、近年では機械学習・深層学習による自動作曲・音楽分析が盛んに研究されています。
本書では、言語・音声などの従来の時系列データと異なる音楽データの特徴に基づく分析や、音声の生成のような「それっぽい」にとどまらない美的な質の学習方法や評価といった、音楽に特化した機械学習のアプローチを解説します。
読者は本書によって、現時点での深層学習による自動作曲の全体図を理解でき、またGoogleのMusic TransformerやOpenAIのJukeboxなど、最先端の重要モデルの仕組みや性能を学ぶことができます。自身のAI作曲の性能向上や実用性の改善を図ることが可能となります。
https://www.ohmsha.co.jp/book/9784274231940/
正誤表やDLデータ等がある場合はこちらに掲載しています
第1章 AI による自動作曲とは
第2章 音楽の基礎知識
第3章 AI モデル
第4章 楽譜(MIDI)としての自動作曲 1:時系列学習による自動作曲
第5章 楽譜(MIDI)としての自動作曲 2:生成モデルによる自動楽曲
第6章 楽譜(MIDI)としての自動作曲 3:強化学習による自動作曲
第7章 波形としての自動作曲
第8章 データセットおよび評価指標
第9章 前処理とデータ拡張
第10章 AIの他の音楽分野への応用
第11章 まとめと今後の課題
参考文献
索引
第 1 章 AI による自動作曲とは
1.1 背景 ── AI と作曲
1.2 自動作曲の歴史
1.3 本書の目的と構成
1.4 本章のまとめ
第 2 章 音楽の基礎知識
2.1 音楽の存在形式
2.2 平面的な要素
2.2.1 音楽の三要素と音程・音階
2.2.2 データとしての表現
2.3 立体的な要素
2.3.1 音響の基礎
2.3.2 データとしての表現
2.4 音楽制作の流れ
2.4.1 MIDI
2.4.2 ミックスダウン
・空間系エフェクト
2.4.3 チューニング
2.4.4 マスタリング
2.5 本章のまとめ
第3章 AI モデル
3.1 時系列モデル
3.1.1 RNN・LSTM・GRU
3.1.2 トランスフォーマー
・トランスフォーマーと自己注意機構
・LSTM とトランスフォーマーの違い
・BERT
3.1.3 LSTM を用いたメロディ生成
3.2 畳み込みネットワークネット (CNN)
3.3 生成モデル
3.3.1 敵対的生成ネットワーク(GAN)
3.3.2 変分オートエンコーダ(VAE)と VQ-VAE
3.3.3 拡散モデル
3.3.4 GAN を用いたメロディ生成
3.4 強化学習
3.5 本章のまとめ
第4章 楽譜(MIDI)としての自動作曲 1:時系列学習による自動作曲
4.1 RNN 基盤の自動作曲
4.1.1 MelodyRNN
4.1.2 PerformanceRNN
4.1.3 DeepBach
4.1.4 Song From Pi
4.2 トランスフォーマー基盤の自動作曲
4.2.1 Music transformer
・相対アテンション
・埋め込み
・グローバルアテンションとローカルアテンション
・実験結果
4.2.2 MuseNet
4.2.3 Pop music transformer
4.3 本章のまとめ
第5章 楽譜(MIDI)としての自動作曲 2:生成モデルによる自動楽曲
5.1 GAN 基盤の自動作曲
5.1.1 MidiNet
・条件付き CNN
・特徴量マッチング
・MelodyRNN との比較
5.1.2 MuseGAN
・MuseGAN のモデル
・MuseGAN の評価指標
5.2 VAE 基盤の自動作曲
・MusicVAE
・階層的デコーダ
・補間
5.3 拡散モデルによる自動作曲
5.4 本章のまとめ
第6章 楽譜(MIDI)としての自動作曲 3:強化学習による自動作曲
6.1 報酬の設定
6.2 他モデルとの融合
6.2.1 SeqGAN
6.2.2 SeqGAN の拡張
6.3 強化学習の二つのアプローチ
6.4 本章のまとめ
第7章 波形としての自動作曲
7.1 なぜ難しいのか
7.2 音声生成
7.2.1 WaveNet
・因果的畳み込み
・ダイレーション畳み込み
・自由形式の音声生成とテキストからの音声生成
・音楽生成
7.2.2 SampleRNN
7.3 波形としての音楽生成
7.3.1 VAE による波形としての音楽生成
・JukeBox
7.3.2 GAN による波形としての音楽生成
・GANSynth
7.3.3 MIDI から波形への変換
・Wave2MIDI2Wave
7.3.4 テキストからの音楽生成
・CLIP
・CLAP
・テキストからの音声生成
・MusicLM と MusicGen
・MusicGen
・Stable Audio とプロンプトエンジニアリング
・Suno AI
7.4 本章のまとめ
第 8 章 データセットおよび評価指標
8.1 データセット
8.1.1 MIDI におけるデータセット
8.1.2 波形音楽におけるデータセット
・波形音楽のデータセット
・波形音楽とテキストのデータセット
・波形音楽と MIDI のデータセット
・他の波形データセット
8.1.3 まとめ
8.2 評価指標
8.2.1 MIDI における評価指標
8.2.2 波形音楽における評価指標
8.2.3 まとめ
8.3 本章のまとめ
第 9 章 前処理とデータ拡張
9.1 前処理
9.1.1 MIDI データにおける前処理
9.1.2 波形データにおける前処理
9.2 データ拡張
9.2.1 MIDI データにおけるデータ拡張
9.2.2 波形データにおけるデータ拡張
9.3 本章のまとめ
第 10 章 AIの他の音楽分野への応用
10.1 音源推薦
10.2 ジャンル識別
10.3 音源分離
10.3.1 U-Net,Wave-U-Net
10.3.2 Decmus
10.4 自動ミックスダウンおよびマスタリング
10.4.1 自動ミックスダウン
10.4.2 自動マスタリング
10.5 本章のまとめ
第 11 章 まとめと今後の課題
11.1 今後の課題
11.1.1 さらなるモダリティへの拡張
11.1.2 ユーザの制御性
11.1.3 AI モデルのスケール
11.1.4 著作権
11.2 音楽への関わり方の変化と意義
11.3 本章のまとめ
参考文献
索引