TOPテキストマイニングラボ【第14回】ポジネガのマイニング│最新テキストマイニング講座

【第14回】ポジネガのマイニング│最新テキストマイニング講座

2019.10.02

【第14回】 文脈スコアを使ったポジネガ分析
  1. ポジネガ分析とは
ポジネガ分析は、ユーザーの生の声をマイニングする手法のひとつです。商品やサービスに対する消費者の評価をポジティブかネガティブかという二分法で振り分けて分析します。
多くのテキストマイニング・ツールでは、ポジティブ/ネガティブそれぞれを表すとみなされる単語を用意し、それが実際のテキストに含まれる頻度を合計することで、そのテキストのポジ度/ネガ度を判断するというものです。
 


 
見える化エンジンにおいても、多くのテキストマイニング・ツールと同様にポジネガ分析は基本的にこの手法です。

  1. <生の声は複雑>
私たちはこの手法に対して今ひとつ満足できない思いをもっていました。それは、ユーザーの声はそれほど単純なものではなく、そのテキストも結構複雑な構造をもっていると常々思っていたからです。
ユーザーの声が「香りがいいです」のような単純な文で表されることは、実はそう多くありません。たとえば、
 
可愛いボトルと甘い香りで使用感は悪くなかったんですけど、美白効果が体感できずガッカリした。
 
というように、いろいろな観点からのポジ/ネガ評価が混じることが多いという実感がありました。こういう生の声のポジネガをより正確に判断したいというのが私たちの意気込みでした。

  1. <文脈スコアとは>
先のテキストの中からポジネガ単語を拾うと以下のようになります。
 
ポジ:       可愛い、甘い、悪い(否)              :+3
ネガ:       ガッカリする                               :-1
 
全体を評価すると、+2となってポジティブな意見と判断されます。
しかしこのコメントはむしろネガティブな意見ではないでしょうか。どうしてそう感じるかというと、文の最後に「ガッカリ」というネガの単語があって、これを私たちは結論と読み取るからです。それに対して、ポジの3単語は「~だけど」という付帯意見ととらえます。
このように、文全体としてはネガティブな度合いが強いのに、従来のポジネガ分析ではポジに分類されることがあるので、まだまだ改善の余地があると考えたのでした。
 
こういう現象から、実感に即したポジネガ分析をするには、ポジネガ単語の有無だけでなく文の中でそれらが担っている役割を考慮する必要があると考えました。そして、その役割の重さ軽さに応じて加点減点し、それをポジネガ単語の重みとするという仕組みを作りました。
ここで言う文の中での役割とは、大きく分けて主文の中にあるか従属文の中にあるか、さらに従属文が主文とどういう意味関係をもっているかということです。その役割に応じて次のような配点規則をつくり、これを文脈スコアと呼ぶことにしました。
 



 
ポジネガ単語が出てきた位置によって上の文脈スコアを掛けると、先の例文は次のようになります。
 



 
このように文脈スコアを勘案することで、このテキストのポジネガ度はネガティブ=0.8という、実感により近い判断となりました。
 
  1. <文脈の重要性>
現在の見える化エンジンには、ポジネガ分析として従来の方法とともにこの文脈スコアを使う機能が追加されています。どういうポジネガ単語が分布していたかというのも有益な情報ですし、コメント全体としてはどちらの意見だったかというのもまたひとつの知見であると考えるからです。
 
このように、単語の前後関係やその文中での役割、すなわち文脈を勘案することで、より実感に即したテキストマイニングが可能になると私たちは考えています。
構文解析は文脈を明らかにするための強力なツールです。それを活用してさらに先のテキストマイニングを目指して参ります。
 

記事一覧に戻る テキストマイニングとは 製品TOP