BOOK SEARCH
事例とベストプラクティス Python機械学習 ―基本実装とscikit-learn/TensorFlow/PySpark活用―
Yuxi (Hayden) Liu (著)/黒川 利明(訳)
Yuxi (Hayden) Liu (著)/黒川 利明(訳)
定価 4,290 円(本体 3,900 円+税)
A5判/304ページ
刊行日:2020年02月01日
ISBN:978-4-254-12244-2 C3041
ネット書店で購入する amazon e-hon 紀伊國屋書店 honto Honya Club Rakutenブックス くまざわ書店
書店の店頭在庫を確認する 紀伊國屋書店
内容紹介
人工知能のための機械学習の基本,重要なアルゴリズムと技法,実用的なベストプラクティス。【例】テキストマイニング,教師あり学習によるオンライン広告クリックスルー予測,学習のスケールアップ(Spark),回帰による株価予測。
編集部から
〇原著者から「日本の読者の皆さんへ」
「人工知能」という素晴らしい世界にようこそ!
新技術を学ぶ最良の方法は,誰かのコードを学び,解をどのように考えたかを理解して使うことです。本書では,機械学習について実世界の問題を解くためのあらゆるステップについて私が考えたことを皆さんに伝えます。この中には大量の知識が皆さんに使われるのを待っています。ハッピーラーニングとハッピーコーディングを祈ります。
〇本書の特徴
・スパムメールの検出,株価予測など実用的な例を通して学ぶ
・実践する際,「何に注意すればよいか」
うまくいかないとき「どう軌道修正するか」,
ベストプラクティスがまとまっている。
・教師あり学習,教師なし学習,強化学習など統計解析の延長から深層学習,ビックデータに対応した並列処理まで,幅広く取り上げる
・自然言語処理も丁寧に解説
・自力での実装から,scikit-learn, TensorFlow, PySparkをはじめKeras, nltkなどPythonで使える強力なパッケージ群を活用した
実用的なコーディングまで紹介
目次
第I部 機械学習の基本
1. 機械学習とPythonを始める
機械学習の定義と必要性
機械学習技術のハイレベルな概観
データの一般化
前処理,探索,特徴量エンジニアリング
モデル結合
インストールと設定
第II部 事例による実用的Python機械学習
2. 20のニュースグループデータセットでテキスト分析技法の検討
コンピュータによる言語理解
一般的なNLPライブラリからNLPの基本を学ぶ
ニュースグループデータの取得
ニュースグループデータの探索
テキストデータの特徴量
t-SNEでニュースグループデータを可視化
3. クラスタリングアルゴリズムとトピックモデルアルゴリズムによる20のニュースグループデータセットのマ
イニング
教師なし学習
k平均法(k-means)を使いニュースグループをクラスタリング
ニュースグループのなかに潜むトピックを発見
NMFを用いたトピックモデル
LDAを用いたトピックモデル
4. ナイーブベイズでスパムメール検出
分類を始める
ナイーブベイズの検討
分類性能評価
モデルのチューニングと交差検証
5. ニューストピックをサポートベクターマシンで分類
サポートベクターマシンによる分離境界検出
SVMでニュースグループトピックの分類
胎児心拍陣痛図による胎児の状態の分類
TensorFlowのSVMを使って乳ガンの分類
6. 木にもとづくアルゴリズムでオンライン広告のクリック予測
広告のクリックスルー予測
2種類のデータで開始 - 数値とカテゴリ
根から葉まで決定木を探索
決定木を最初から実装
決定木で広告クリックスルーを予測
アンサンブル決定木 - ランダムフォレスト
7. ロジスティック回帰でオンライン広告のクリックスルー予測
カテゴリ特徴量を数値に変換 - one-hotエンコードとordinalエンコード
ロジスティック回帰でデータを分類
ロジスティック回帰モデルの訓練
オンライン学習で大きなデータセットを訓練
マルチクラス分類の扱い
TensorFlowを使ったロジスティック回帰の実装
ランダムフォレストを使った特徴量選択
8. テラバイトクリックログに予測をスケールアップ
Apache Sparkの基本
PySparkによるプログラミング
巨大クリックログをSparkで学習
Sparkでカテゴリ変数の特徴量エンジニアリング
9. 回帰アルゴリズムで株価予測
株式市場と株価の簡単な紹介
回帰とは何か
株価データのマイニング
線形回帰で推定
決定木回帰で推定
サポートベクター回帰で推定
ニューラルネットワークで推定
回帰性能の評価
4つの回帰アルゴリズムを使って株価を予測
第III部 Python機械学習ベストプラクティス
10. 機械学習ベストプラクティス
機械学習ソリューションワークフロー
データ準備段階のベストプラクティス
訓練集合生成段階のベストプラクティス
モデル訓練,評価,選択段階のベストプラクティス
運用監視段階のベストプラクティス
執筆者紹介
原著者紹介
Yuxi (Hayden) Liu
機械学習に関する本の著者で教育者。最初の本だった本書初版(未訳)は,アマゾ ン・インドの2017年,2018年のベストセラー。
熟達のデータサイエンティストとしては,機械学習と深層学習のモデルとシステムに焦点を絞り,コンピュータを使った広告,レコメンデーション,ネットワーク異常検出などの業務を行ってきた。
IEEEトランザクションと会議録に第1著者として5編の論文をトロント大学の修士課程在籍中に出版.