BERTによる自然言語処理入門 Transformersを使った実践プログラミング

自然言語処理の標準モデル、BERTを使いこなせるようになる！

このような方におすすめ

◎自然言語処理を行うエンジニア
◎自然言語処理に興味のある情報系学部などの学生

著者ストックマーク株式会社／近江崇宏・金田健太郎・森長誠・江間見亜利　共著
定価2,970 円（本体2,700 円＋税）
B5変　200頁　2021/06発行
ISBN978-4-274-22726-4
定価￥
ポイント0
数量

買い物かごに入れる

※本体価格は変更される場合があります。
※通常2～3営業日以内で発送いたします。
※取寄が可能な場合もございますのでお問合せください。

概要
主要目次
詳細目次

　BERTはGoogleが2018年末に発表した自然言語処理モデルです。「文脈」を考慮した処理が特徴的であり、言語理解を評価する11個のタスクについて最高精度を達成し、今や標準的なモデルとしての地位を確立しています。

　本書は、自然言語処理の近年における発展に大きな役割を果たし、かつ応用上も有用であるBERTの入門書です。前半で自然言語処理や機械学習について概説したのち、BERTによって実際にさまざまなタスクを解いていきます。具体的には、文章分類・固有表現抽出・文章校正・類似文章検索・データの可視化を扱います。データセットの処理から、ファインチューニング（BERTを特定の言語タスクに特化させるための学習）、性能の評価までの一連の流れを体験することで、BERTを自分で使えるようになることを目標とします。

なお、BERTで処理を行うためのライブラリとして、深層学習の言語モデルを扱ううえでよく使用されるTransformersを、学習や性能評価を効率的に行うためのライブラリとしてPyTorch Lightningを用います。本書ではTransformersやPyTorch Lightningを用いたことがない読者を想定して、その使い方を一から体系的かつ丁寧に解説します。

▼本書の環境

言語：Python

深層学習フレームワーク：PyTorch

ライブラリ：Transformers, PyTorch Lightning

計算環境：Google Colaboratory

▼本書の特徴

・BERTで実際にさまざまなタスクを解くことができます。

・使用するデータセットを日本語で統一しています。

・ライブラリの使い方を一から体系的に説明します。

https://www.ohmsha.co.jp/book/9784274227264/

オーム社Webサイトへ

正誤表やDLデータ等がある場合はこちらに掲載しています

第1章　はじめに
第2章　ニューラルネットワークを用いた自然言語処理
第3章　BERT
第4章　Huggingface Transformers
第5章　文章の穴埋め
第6章　文章分類
第7章　マルチラベル文章分類
第8章　固有表現抽出
第9章　文章校正
第10章　文章ベクトルを用いたデータの可視化と類似文章検索
付録A　ニューラルネットワークの学習の基礎
付録B　Colaboratoryの使い方

はじめに／目次
 
第1章　はじめに
　 1-1　自然言語処理とは
　 1-2　機械学習とは
　 1-3　機械学習による自然言語処理
　 1-4　BERTとは
　 1-5　本書の流れ

 第2章　ニューラルネットワークを用いた自然言語処理
　 2-1　トークン化と前処理
　　 1　 単語分割
　　 2　文字分割
　　 3　サブワード分割
　 2-2　ニューラル言語モデル
　　 1　言語モデル
　　 2　ニューラルネットワーク
　　 3　 ニューラル言語モデルの構築
　　 4　表現学習手法としてのニューラル言語モデル
　 2-3　Word2Vec
　　 1　CBOW
　　 2　Skip-Gram
　　 3　Word2Vecの問題点
　 2-4　ELMo
　　 1　 再帰型ニューラルネットワーク
　　 2　Long-Short Term Memory (LSTM)
　　 3　ELMoのモデル概要

 第3章　BERT
　 3-1　BERTの構造
　　 1　Scale Dot-Product Attention
　　 2　Multi-Head Attention
　　 3　Residual Connection
　　 4　Layer Normalization
　　 5　Feedforward Network
　 3-2　入力形式
　　 1　トークン化
　　 2　ベクトル化
　 3-3　学習
　　 1　事前学習
　　 2　ファインチューニング

 第4章　Huggingface Transformers
　 4-1　計算環境：Google Colaboratory
　 4-2　配布コードの形式とURL
　 4-3　ライブラリのインストールと読み込み
　 4-4　Transformers
　　 1　トークナイザ
　　 2　BERTモデル

 第5章　文章の穴埋め
　 5-1　コード・ライブラリ・パッケージの準備
　 5-2　BERTを用いた文章の穴埋め

 第6章　文章分類
　 6-1　コード・ライブラリの準備
　 6-2　文章分類とは
　 6-3　BERTによる文章分類
　 6-4　データセット：livedoorニュースコーパス
　 6-5　BERTのファインチューニングと性能評価
　　 1　データローダ
　　 2　データの前処理
　　 3　PyTorch Lightningによるファインチューニングとテスト
　　 4　ファインチューニングしたモデルの保存と読み込み

 第7章　マルチラベル文章分類
　 7-1　コード・ライブラリの準備
　 7-2　マルチラベル文章分類とは
　 7-3　マルチラベルのデータ表現
　 7-4　BERTによるマルチラベル分類
　 7-5　データセット：chABSA-dataset
　 7-6　ファインチューニングと性能評価

 第8章　固有表現抽出
　 8-1　コード・ライブラリの準備
　 8-2　固有表現抽出とは
　 8-3　文字列の正規化
　 8-4　固有表現のデータ表現
　 8-5　固有表現抽出の実装：IO法
　　 1　タグ付け法
　　 2　トークナイザ
　　 3　BERTによる固有表現抽出
　 8-6　データセット：Wikipediaを用いた日本語の固有表現抽出データセット
　 8-7　ファインチューニング
　 8-8　固有表現抽出の性能評価
　 8-9　固有表現抽出の実装：BIO法

 第9章　文章校正
　 9-1　コード・ライブラリの準備
　 9-2　文章校正とは
　 9-3　BERTによる文書校正
　　 1　トークナイザ
　　 2　BERTでの実装
　 9-4　データセット：日本語Wikipedia入力誤りデータセット
　 9-5　ファインチューニング
　 9-6　文章校正の性能評価

 第10章　文章ベクトルを用いたデータの可視化と類似文章検索
　 10-1　コード・ライブラリの準備
　 10-2　文章ベクトル
　 10-3　データセット：livedoorニュースコーパス
　 10-4　文章コーパスの可視化
　　 1　主成分分析
　　 2　t-SNE
　 10-5　類似文章検索

 付録A　ニューラルネットワークの学習の基礎
　 A-1　ミニバッチ学習
　 A-2　過学習

 付録B　Colaboratoryの使い方
　 B-1　Colaboratoryを開始する
　 B-2　GPUを使用できるようにする
　 B-3　コードを実行する
　 B-4　Google Driveのマウント

索引