TOPテキストマイニングラボ【第13回】文脈を用いたテキストマイニング│最新テキストマイニング講座

【第13回】文脈を用いたテキストマイニング│最新テキストマイニング講座

2019.10.02


【第13回】 テーマのマイニングからイベントのマイニングへ

1. テキストマイニングとは
テキストマイニングは一般的に以下のように定義されています。
 

以上『IT用語辞典 e-Words』より抜粋
 
ここで言う形態素解析とはテキストから単語を切り出すことです。それによって膨大なテキストの中で使われている単語のリストが得られ、出現頻度順に並べればこのような単語ランキングになります。


 
これは化粧品に関する消費者の書き込みを分析したものですが、これを見ると消費者の関心のありかが見えてきます。
といっても、「使う」や「良い」、「落ちる」といった単語が関心事と思う人は少ないのではないでしょうか。それよりも「香り」「ニキビ」「効果」といった単語に着目するのが自然でしょう。
 
人が何かについてコメントする場合、「~は」とか「~の~が」というように書きます。ここに入る単語が関心事、一般的に言い換えればテキストのテーマ(主題)です。そこに入るのは「香り」「ニキビ」といった名詞であって、「使う」とか「良い」といった動詞や形容詞が入ることはあまりありません。
このように、テーマを表すのは名詞です。単語のリストから得られる「有益な知見」はテキストの「テーマ」であり、そのためには名詞に着目すればよいということになります。
 
そのため、見える化エンジンでは単語の共起ネットワーク分析を行うときも、名詞を中心にした共起マップにしています。こうすることでそれぞれのテーマがどのような単語と関連が深いかということが俯瞰的にわかるようになります。


2. テーマからイベントのマイニングへ
では、「使う」とか「良い」といった単語はテキストマイニングの役に立たないかというと、もちろんそうではありません。このような動詞形容詞は、テーマではなくイベントを表す単語です。イベントには、世の中で起きている現象や物の状態、人の行動や思考、感情などあらゆるできごとが含まれます。
これらの単語はそれだけを眺めていても何かが分かったという気にはなりません。「何を-使う」のか、「何がー良い」のか、ということを知りたくなります。このことは単語の共起マップでははっきりとはわかりません。なぜなら共起マップは近くに出てきやすい単語を表すだけであって、直接つながった単語ばかりを表すわけではないからです。
「何を-使う」というように直接つながった単語を得るには構文解析という処理が必要です。
 
構文解析はテキストに含まれる単語間の文法的な修飾関係を解析することです。たとえば「香りがすごくいいです。」というテキストを構文解析すると以下のようになります。



この図は、このテキストが、
                 [香りが]→[いい]、[すごく]→[いい]
という2個の修飾関係(以後、係り受けと言います)から成り立っていることを表しています。
その中でも[香りが]→[いい]という係り受けは、
                 [テーマ]→[イベント]
という関係のペアで成り立っており、この全体によって具体的なイベントを表していると言えます。
 
構文解析によってどんな複雑なテキストも2単語からなる係り受けに分解することができ、それを集めて頻度順に並べたものが係り受けランキングです。


 
これを眺めると消費者がどんなイベントを体験しているかをとらえることができます。
さらに係り受けのリストを図にすると以下のような係り受けマップができます。


 
係り受けマップの矢印は修飾する方向を表しています。したがって調子→良いは「調子が→良い」という係り受けが41件あったということを示しています。このように矢印の方向に即してマップを見ることによって、元のテキストの中にどのようなイベントが述べられていたかをありありととらえることができ、共起マップよりはるかに具体的な知見を得ることができます。
さらに、気になる係り受けの矢印をクリックすると元のテキストをたちどころに検索することができるので、最も深く詳細なテキストマイニングが可能になるのです。


 
3. もっと先のテキストマイニングへ
ここまで見てきたように、テキストマイニングといっても単語から得られる知見と係り受けから得られる知見は同じではありません。単語からテーマを推し量ることはできますが、「何が-どうした」というイベントの知見にたどり着くにはどうしても係り受けの解析が必要になります。
 
見える化エンジンが発売当初から形態素解析と構文解析の両方を供えているのは、従来のテーマ分析だけにとどまらずより深いイベント分析が必要だという確信があったからです。冒頭に挙げたテキストマイニングの定義の3番目に「顧客や消費者の評判の分析(ポジネガ分析/センチメント分析)」とありますが、商品の評価も消費者感情も人の精神活動ですから、イベント分析ができなければ本当のポジネガ分析、センチメント分析とは言えないでしょう。
 
見える化エンジンは、今までも構文解析によって得られるイベント情報を基にした様々な先端的テキストマイニング機能をご提供してきました。次回はその中でも最新の「文脈スコアを使ったポジネガ分析」をご紹介します。
 


記事一覧に戻る テキストマイニングとは 製品TOP