やってみよう テキストマイニング ―自由回答アンケートの分析に挑戦!―

牛澤 賢二(著)

牛澤 賢二(著)

定価 2,970 円(本体 2,700 円+税)

A5判/180ページ
刊行日:2018年08月25日
ISBN:978-4-254-12235-0 C3041

この本には新しい版があります→

    現在お取り扱いしておりません

ネット書店で購入する amazon e-hon 紀伊國屋書店 honto Honya Club Rakutenブックス くまざわ書店

書店の店頭在庫を確認する 紀伊國屋書店

コンテンツダウンロード

内容紹介

アンケート調査の自由回答文を題材に,フリーソフトとExcelを使ってテキストデータの定量分析に挑戦。テキストマイニングの勘所や流れがわかる入門書。〔内容〕分析の手順/データの事前編集/形態素解析/抽出語の分析/文書の分析/他

編集部から

★★★★★★★★★★★★★★★★★★★★★★★★
待望の KH Coder3 対応 [増訂版]2021年4月刊行!
★★★
増訂版の書籍紹介はこちら#
★★★
増訂版では本書の基本的な解説部分はそのままに,ファイル操作,出力画面などを KH Coder3に対応させました.
新しい事例,付録も追加しています.
★★★★★★★★★★★★★★★★★★★★★★★★

2020/1/10
 時日:2020年1月19日(日)13:30-18:00(@横浜)【中止】

2019/10/16 データの読み込み方法等に関する補足情報を公開しました.

2019/5/16 著者による公開セミナーのお知らせ【終了】
 時日:2019年7月18日(木)
2019/3/27 著者による公開セミナーのお知らせ【終了】
 時日:2019年6月23日(日)

2019/1/8 追加 Excelマクロ「文字列検索.xlsm」(2018/12/25版のバグフィックス版) を公開しました.
ある語の検索結果をKWICコンコーダンス形式のサンプル文書リストとして表示します.

2018/9/25 KH Coder3 (最新版) で追加・変更された機能に関する注意書きを公開しました.
 本書はKH Coder3の内容は反映されておりませんが,バージョンアップの影響を受ける記述は非常に限られております。
 関係する点は上の「注意書き」をご覧ください。

テキストマイニングは楽しい!
フリーソフトウェアKH CoderとExcelで気軽に・楽しくはじめるアンケートデータの計量分析!
卒論・修論・研究論文・業務レポートの作成に役立つ!

○本書について(「はじめに」より抜粋)
 テキストマイニングとはアンケート調査における自由回答のような文書形式のデータを品詞単位の単語に分解し,頻度を数えたり統計手法などのいろいろな分析手法を駆使して文書全体を理解するための方法です。
 本書ではアンケート調査の自由回答の実例を使って,テキストマイニングの考え方と手順を解説しています。テキストマイニングのためのツールとして,KH Coderというフリーソフトを開発者の承諾を得て使っています。また,もとのデータや分析結果を入出力するために主にExcelを利用しています。数式はほとんど出てきませんが,Excelの基本的な操作に関する知識を前提にしています。

 テキストマイニングは楽しい。これがみなさんに第一に伝えたいことです。社会人の方々を対象にしたテキストマイニングのセミナーにおいて「難しいと思っていた統計がこんなに面白いものだとは思わなかった」という感想をお聞きして,このことを改めて確信しました。ですから皆さんにも本書を読んで是非試していただきたいと思います。だれでも必ずできるようになります。以前大学に勤務していた時には,商用のテキストマイニングのソフトウェアを利用していました。それらはいずれも数百万円もするものだったので誰でもが気軽にテキストマイニングができるという環境にはありませんでした。今は,「R」という統計解析用のフリーソフトを利用してテキストマイニングを行うこともできるようですが,一般にはやはりハードルが高いと思います。それに比べて本書で利用しているKH Coderはほとんど誰でも使いこなせます。そして楽しく分析を進めることができます。
 何故「楽しい」と言えるのかについても少しお話しします。そもそもテキストマイニングには「分析」という言葉そのものがふさわしくないのかもしれません。最初はデータとして入力した文章が,品詞別の単語に分解されて出現回数が示されるだけでも驚きますが,いろいろな分析結果をわかり易く視覚化されるのを見ると感激することになると思います。さらにいろいろ試行錯誤しながら分析し,考えたことを仮説として新たなデータとして取り込み,それを検証することもできます。例えばアンケート調査で自由記述した人たちの意見から自分なりに重要なポイントを簡潔に要約し,それを検証するためにグラフィカルに表現することもできます。元のデータにはなかった新しい分析の軸を分析者自身が設定できる,ということです。分析に込めた自分の「思い」を仮説として設定し検証できるのです。これはとても楽しい作業です。このあたりのことについては体験してみないと実感がわかないかもしれません。6章で詳しく紹介していますので楽しみにしてください。

 さて,本書はExcelの基本的な操作ができる人であれば誰でも読み進めることができます。日頃Excelを使いながらデータを整理したり集計したりしている人たちに十分に役に立つと思います。自由回答のような文書形式のデータはざっと目を通したり,並べ替えたりするだけで済ましていたかもしれませんが,これからは数値データと同じように分析できます。分析結果はほとんどすべて視覚化できますので解釈は容易です。そして最もおすすめしたいのは,データ分析や統計解析はどうも苦手という方々です。ここからそれをスタートしましょう。先に紹介した社会人の方は社内業務として社員の仕事に関するいろいろな意見をまとめている方でした。今までは手作業でそのような文書データを仕分けして整理していたそうです。この方の例のようにまずは手近にある題材を分析することからはじめることができます。そのような意味で「統計をここから始める」という人たちにも適した内容と言えます。

目次

第1章 テキストマイニングをはじめる
 1.1 テキストマイニングとは 
 1.2 テキストマイニングの手順
  1.2.1 「文書」を「言葉」にばらす――形態素解析
  1.2.2 「言葉」と「言葉」の関係を分析する
 1.3 データ構造の特徴 
 1.4 テキストマイニングのポイント
  1.4.1 データ整理の段階
  1.4.2 検索や分析の段階
  1.4.3 解釈する段階――仮説を立てて要約する
 1.5 事例について 

第2章 データの事前編集
 2.1 外部変数とテキストデータ 
 2.2 有効データの抽出 
 2.3 データの置換 
 2.4 改行コードの編集 

第3章 データの読み込み
 3.1 データファイルの分割 
 3.2 テキスト部のデータの読み込みとファイル形式  
 3.3 前処理
  3.3.1 分析対象ファイルのチェック
  3.3.2 前処理の実行
 3.4 抽出語の暫定的なリスト表示 
 3.5 My辞書の作成
  3.5.1 複合語の検出とMy辞書の作成
  3.5.2 語の取捨選択
 3.6 前処理の再実行 
 3.7 外部変数の読み込み 

第4章 第1段階の分析1:抽出語の分析
 4.1 抽出語全体のリスト表示と集計
  4.1.1 [抽出語リスト]――抽出語を頻度順に並べる
  4.1.2 [記述統計]――抽出語の基本的な集計を行う
 4.2 抽出語のさまざまな検索
  4.2.1 [抽出語検索]――抽出語の詳細な情報を表示する
  4.2.2 [KWICコンコーダンス]――文脈内で抽出語を一覧する
  4.2.3 [関連語検索]――共起性に基づく関連語を検索する
 4.3 抽出語の分析
  4.3.1 共通の手続き:抽出語の選択と調整ボタン
  4.3.2 [対応分析]――クロス集計を視覚化する
  4.3.3 [多次元(構成)法]――抽出語どうしの共起関係を視覚化する
 4.3.4 [階層的クラスター分析]――似たものどうしをグループ化する
  4.3.5 [共起ネットワーク]――共起関係のネットワークを描写する
  4.3.6 [自己組織化マップ]――抽出語を自動分類する

第5章 第1段階の分析2:文書の分析
 5.1 [文書検索]――抽出語の組み合わせで文書を検索する
  5.1.1 検索条件の設定
  5.1.2 結果の表示方法
  5.1.3 文書(サンプル)の詳細表示
 5.2 [クラスター分析]――類似の回答をグループ化する
  5.2.1 クラスター分析のオプション設定
  5.2.2 クラスター別文書数と併合過程
  5.2.3 クラスター別文書検索と特徴後語の表示

第6章 第2段階の分析:仮説検証的な分析
 6.1 仮説をコーディングする
  6.1.1 仮説たてる
  6.1.2 仮説をコード化する
 6.2 仮説コードの集計と分析
  6.2.1 仮説コードの集計
  6.2.2 仮説コードの分析
 6.3 再び文書検索/コード化できなかった文書を追跡する 
 6.4 コーディング結果の出力と利用法 

第7章 テキストマイニングの事例
 7.1 高齢者向けサービスのまとめ 
 7.2 来街者による街の評価 
 7.3 週報データの分析 
 7.4 公的統計におけるコメントの分析 

付録A データ編集の補足
 A.1 Excelマクロによる一括変換 
 A.2 改行コードの編集 

付録B Excelマクロによる外部変数と抽出語のクロス集計
 B.1 クロス集計用Excelデータ 
 B.2 クロス集計の実行 
  B.2.1 データの貼りつけ
  B.2.2 集計指示表の作成と実行
  B.2.3 集計結果の表示
 B.3 「外部変数と見出し」の利用 
  B.3.1 外部変数の特定の値(カテゴリー)の特徴語
  B.3.2 外部変数の特徴語一覧

付録C ベイズ学習による分類
 C.1 ベイズの定理とテキストマイニングへの応用 
 C.2 外部変数からの学習 
 C.3 学習結果を用いた自動分類

索引

●コラム目次
 1 KH Coderについて 
 2 HTMLマーキング 
 3 抽出語に関する注意事項とKH Coderの品詞体系 
 4 共起性の尺度
 5 サブグラフ 

執筆者紹介

関連情報

ジャンル一覧

ジャンル一覧

  • Facebook
  • Twitter
  • 「愛読者の声」 ご投稿はこちら 「愛読者の声」 ご投稿はこちら
  • EBSCO eBooks
  • eBook Library