化学・化学工学のための実践データサイエンス ―Pythonによるデータ解析・機械学習―

金子 弘昌(著)

金子 弘昌(著)

定価 3,300 円(本体 3,000 円+税)

A5判/192ページ
刊行日:2022年10月01日
ISBN:978-4-254-25047-3 C3058

ネット書店で購入する amazon e-hon 紀伊國屋書店 honto Honya Club Rakutenブックス くまざわ書店

書店の店頭在庫を確認する 紀伊國屋書店

内容紹介

ケモインフォマティクス,マテリアルズインフォマティクス,プロセスインフォマティクスなどと呼ばれる化学・化学工学系のデータ処理で実際に使える統計解析・機械学習手法を解説。Pythonによるサンプルコードで実践。

編集部から

目次

1.はじめに
・分子設計・材料設計・プロセス設計・プロセス管理
・事前準備~Python環境とDCEKit~

2.データセットの作成
・説明変数x の決め方・選び方
・特徴量の作成
・モデルの逆解析の活用

3.化学データ・化学工学データの前処理
・説明変数の標準化をするべきか
・標準偏差が0の説明変数
・対数変換やロジット変換
・スペクトル・時系列データの前処理
・外れ値検出もしくは外れサンプル検出
・欠損値の補完

4.特徴量選択(変数選択)
・注意点
・同じ値を多くもつ特徴量の削除
・相関係数
・クラスタリング
・GAPLS, GASVR
・スペクトル解析
・時系列データ解析
・Boruta

5.データセットの可視化・見える化
・可視化をする理由
・手法選択のポイント
・結果を評価する指標
・GTM

6.クラスタリング
・メリット
・GMM
・SGTM

7.回帰分析とクラス分類
・定性的な特徴量から定量的な特徴量へ
・回帰分析/クラス分類の回帰分析
・アダブースト
・勾配ブースティング
・アンサンブル学習
・半教師あり学習
・転移学習
・モデルの予測精度を上げるために

8.モデルの検証
・手法の選び方
・注意点
・ハイパーパラメータの選択に失敗したとき
・実測値vs.推定値プロットの見方
・オーバーフィッティング(過学習)
・小さなデータセット
・トレーニングデータとテストデータの分け方
・ダブルクロスバリデーション
・yランダマイゼーションによる危険度を評価
・特徴量の標準化
・ハイパーパラメータの最適化

9.モデルの適用範囲・ベイズ最適化
・モデルを構築するのにサンプルはいくつ必要か
・内挿・外挿
・守りのAD,攻めのBO
・モデルがどれくらい外挿できるかの検証方法
・ガウシアンカーネルを用いたサポートベクター回帰
・特徴量の非線形変換によるモデルの適用範囲の拡大

10.モデルの逆解析
・チェックリスト
・モデルの予測性能が低いとき
・説明変数の感度
・ランダムフォレストや決定木で構築したモデルの逆解析
・部分的最小二乗法でモデルの逆解析
・材料設計の限界(モデルの逆解析の限界)
・モデルの予測結果の活用方法~モデルの逆解析と目的変数の評価~
・目的変数が複数個あるとき
・GMR
・VBGMR
・遺伝的アルゴリズムを用いた逆解析
・GTMR

索引

執筆者紹介

関連情報

ジャンル一覧

ジャンル一覧

  • Facebook
  • Twitter
  • 「愛読者の声」 ご投稿はこちら 「愛読者の声」 ご投稿はこちら
  • EBSCO eBooks
  • eBook Library