神戸のデータ活用塾!KDL Data Blog

KDLが誇るデータ活用のプロフェッショナル達が書き連ねるブログです。

テキスト分析入門(2):情報を抽出したり気づきを得る活用方法

こんにちは、神戸デジタル・ラボ  DIチームの垣内です。
前回公開した記事で、テキスト分析とは何かをご紹介させていただきました。

 

kdl-di.hatenablog.com

 

 

 

記事の中で、テキスト分析する際は「(何の課題を解決するために)どんな活用をするか?」を考える事が重要である、そして代表的な活用方法が8例あるというお話をさせて頂きました。

 

その活用方法は大きく2つにカテゴライズできると考えています。

  • 情報を抽出したり気づきを得る活用方法
  • 人間の業務を担う活用方法

今回は「情報を抽出したり気づきを得る活用方法」をご紹介いたします。

 

f:id:kdl-di:20210908235840p:plain

 

早速ご紹介する前に1点、意識しておくとスムーズに読めるPointをご紹介いたします

記事の中で「文」「文章」「文書」というワードが出てきます。

それぞれの使い分けのイメージはありますか?念のためおさらいしてみましょう!

Point

▼文(センテンスとも)

 冒頭から「。(句点)」までの、まとまった内容を表す語句の集合のこと。

 例:私は神戸に住んでいます。

 

▼文章

 複数の文の集まり。

 例:私は神戸に住んでいます。よく元町にお買い物に行きます。

 

▼文書

 文章や文が書かれた「物」。文字が書かれた書物・書籍・詩集などの総称。

 

各活用方法には、「文」「文章」「文書」どれを分析しているのか見てみましょう。

 

 

活用方法1:キーフレーズ(キーワード)抽出

概要 

文章に含まれる重要な単語・フレーズを抽出する技術です。キーフレーズ抽出・キーワード抽出とも呼ばれます。例えば「神戸ポ―トタワーの近くにumieという商業施設がある。」という文章だと、「神戸ポートタワー」「umie」という単語やフレーズを抽出できます

f:id:kdl-di:20210922174911p:plain

キーフレーズ抽出のイメージ

 

 事例 

▼ニュースからキーワードを抽出する
オンラインで配信されるニュース記事のテキストからキーフレーズを抽出します。これらの抽出できたフレーズを記事のタグとして登録できます(TwitterInstagramなどのSNSで用いられるハッシュタグのようなイメージですね)。

ニュース記事に対してタグを紐づけること、情報の検索速度が向上します。それだけでなく、同じタグが登録された記事を関連記事としてレコメンドすることも可能になりました。

※論文・ドキュメント検索に応用することが出来ます。

 

▼アンケートから課題を洗い出す

開催したイベントや自社の提供するサービスに関するアンケートにオンライン上で回答いただいた際に1つ1つ回答に目を通し、課題やよかった点を見つけるのは大変な作業ですよね。そこでアンケート結果からキーフレーズ抽出することで「大まかな不満・問題点、良かったこと」が浮かび上がってきます。これらを先に目を通すことで、により効参加者やユーザーの声を効率よく効果的に聴くことができます。

 

活用方法2:トピックモデリング

概要 

文書の主題(トピック)を判断する技術です。

例えば「ワクチン」に関するニュース記事には「COVID-19」「ファイザー」という単語が頻出します。このような単語の出現頻度や傾向が同じ文書は類似した記事・トピックであると考えられます。

この考えを基に文書に対してタグ付けをすると、自動で文書を整理したり関連する文書のレコメンドができるようになりました。

f:id:kdl-di:20210906113204p:plain

トピックモデリングのイメージ

 

事例

▼社内文書の検索を効率化する
社内には取扱説明書・マニュアル・手順書、特許文書など多種多様な文書が存在します。これらを1つ1つ目を通して目的の文書を探し出すのは大変時間を要します。そこで、あらかじめ文書を分析してタグ付けしておくことで、効率よく文書を探し出すことができます

 

活用方法3:感情分析

概要

文章から感情を判断する技術です。
ポジネガ分析ともいわれ、入力された文章が「ポジティブ(良い感情)」な内容なのか、それとも「ネガティブ(良くない)」な内容なのかを判断します。

f:id:kdl-di:20210914112303p:plain

感情分析
事例

▼メディアの報道をリアルタイムで分析し、マーケティング戦略に活用する

例えばある食品メーカが、新しい青汁健康食品の販売を開始したとします。

その商品は「青汁の効果」をセールスポイントとしてマーケティングブランディングをしていました。

ところがニュース記事やSNSを感情分析すると「青汁の効果」よりも「飲みやすさ」に対してポジティブな評価がされていました。イメージの定着前にマーケティング戦略ブランディングや広告を出すペルソナの変更など)を方向転換することで、コストや世論の変化・リスクにスピィーディ―に対応できるようになりました。

 

活用方法4:固有表現抽出

概要

文の中に出現する人名・地名・企業名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。

 

事例

▼プライバシーに配慮したデータ加工

「社内で蓄積されているお問合せをマニュアル化したい」となった時、社内の不特定多数のメンバーに人名や取引先名が見えてしまうのは、リスクになり得ます。しかし、1つ1つ文字を置き換えていくのは大変な作業です。

そこで抽出できた固有名詞を対象に秘匿化するプロセスを自動化することで、検索と置き換え作業の手間を大幅に削減することができます。

f:id:kdl-di:20210906133610p:plain

データ加工のイメージ

▼特定の情報を収集する

特定の商品に関する情報を収集して分析するのは大変な作業です。ましてや集めたい対象商品の数が多くなれば多くなるほど、より時間と労力を要します。

そこで、カスタマーセンターに届くお問合せメールやTweetを収集する仕組みを準備しします。収集したデータからあらかじめ固有表現を抽出しておくことで、特定の商品名が記載されているお問合せメールやtweetを簡単・効率的に検索ができるようになりました。

 

まとめ

文章・文書などから特徴を抽出したり気づきを得る活用方法を4つご紹介いたしました。どういう応用をしたいかイメージを描きながら、どれが適してそうか考えてみるとわかりやすいかと思います。

積極的にテキスト分析をしている企業も多く、これ以外の事例もたくさん出ています。ご興味のある方はKDLへお問合せ下さい。

 

次回は「人間の業務を担う活用方法」をご紹介します!

 

 

 

垣内優花

データインテリジェンスチーム所属
テキスト活用するプロジェクトを担当。ビジネスを意識したデータ活用を考えるデータアナリスト。初心者向けの情報・テキスト活用について発信していきます!