2018年07月02日

●「形態素解析により意味を探るシリ」(EJ第4797号)

 自然言語処理とは、人間が日常的に使っている自然言語をコン
ピュータに処理させる一連の技術であり、人工知能と言語学の一
分野です。この自然言語処理の重要プロセスが「形態素解析」で
す。形態素解析を定義すると、次のようになります。
─────────────────────────────
 文法的な情報の注記のない自然言語のテキストデータから、対
象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき
形態素(おおまかにいえば、言語で意味を持つ最小単位)の列に
分割し、それぞれの形態素の品詞等を判別する作業である。
        ──ウィキペディア https://bit.ly/2Na9Flk
─────────────────────────────
 この定義を読んでもピンとこないと思うので、「私は台所で料
理します」という例文を使って説明します。この文を形態素解析
をすると、次のように7つに分割されます。
─────────────────────────────
          私  ・・ 代名詞
          は  ・・ 副助詞
          台所 ・・  名詞
          で  ・・  助詞
          料理 ・・  名詞
          し  ・・  動詞
          ます ・・ 助動詞
─────────────────────────────
 このように、文をバラバラにして、最小単位になった単語をそ
れぞれ辞書などのさまざまな情報と照らし合わせ、それらの単語
の品詞の種類、活用形の種類などを含めて、その意味の割り出し
の分析を行うのです。その意味の割り出しには次の3つのステッ
プを踏むのです。
─────────────────────────────
   1.構文解析
     ・形態素をもとに文の構造を明確にする
   2.意味解析
     ・構文をもとに意味を持つまとまり判別
   3.文脈解析
     ・文単位で、構造や意味について考える
─────────────────────────────
 これらの解析に関しての詳細は、次のサイトに詳しく、かつわ
かりやすく解説が行われています。
─────────────────────────────
 自然言語処理とは?スマートスピーカーにも使われている技
 術をわかりやすく解説!     https://bit.ly/2tIAMvU
─────────────────────────────
 形態素解析の話に戻ります。これらの解析には多くのツール、
すなわち、ライブラリが用意されています。有名な日本語形態素
解析ツールには、次の3つがあります。
─────────────────────────────
          1. MECAB
          2. JUMAN
          3.JANOME
─────────────────────────────
 第1は、「MECAB」です。
 これは、オープンソースの日本語形態素解析ツールであり、最
も有名です。汎用的な設計ができるのがMECABの特色です。
名前の由来は「和布蕪/めかぶ」からきています。使用できる言
語は、C、C#、C++、Java、Python、Rubyなど多数あります。
 第2は、「JUMAN」です。
 これは、京都大学大学院情報学研究科知能情報学専攻の黒橋・
河原研究室が開発した日本語形態素解析ツールです。WEBテキ
ストから自動獲得された辞書、ウィキペディアから抽出された辞
書を使用できます。
 第3は「JANOME」です。
 これは、汎用プログラミング言語「ピュアバイソン」で書かれ
ている日本語形態素解析ツールです。パイソンは、C言語などに
比べて、プログラミングが分かりやすく、少ないコードで書ける
特徴があります。名前の由来は「蛇の目」からきています。
 アイフォーンの「シリ」で、ユーザーが次のように話しかけた
とします。
─────────────────────────────
  遠藤さんに打ち合わせに遅れます、とメールを送って!  
─────────────────────────────
 この音声はアップルのサーバーに送られ、形態素解析が行われ
上記の構文分析、意味解析、文脈解析が行われ、最終的に次のか
たちに落とし込まれ、サーバーからアイフォーンに送り返されて
きます。
─────────────────────────────
   ・宛先は「遠藤さん」
   ・メールのサブジェクト「打ち合わせに遅れます」
   ・メールの本文は指定されていない
   ・その内容はメールを送る
   ・送る際は(アイフォーンの)メールアプリを使う
                  https://bit.ly/2Ncsrsg
─────────────────────────────
 ここまでくると、アイフォーンに登録されている遠藤さんのア
ドレスを宛先に指定し、メールアプリはシリを使い、「本文はど
んな内容にしますか」というメッセージ画面を出します。
 もちろん遠藤さんが2人以上いるときは、「どの遠藤さんです
か」と質問し、選択を促します。
 このようにして、シリは自然言語処理によって、ユーザーと対
話を行い、指定された動作を行うのです。
          ──[次世代テクノロジー論U/041]

≪画像および関連情報≫
 ●「Siri」と「AI」の関係を整理する
  ───────────────────────────
   AI(人工知能)は専門家によりさまざまな定義がありま
  すが、総合すると、「人間と同じような知能を人工的にコン
  ピュータで実現しようとする技術」を指します。その歴史は
  意外と古く、「AI(人工知能)」という言葉が初めて登場
  したのは、1956年に開催されたダートマス会議でした。
  1964年には、コンピュータと人がテキストベースであた
  かも会話しているように見せる対話システム「イライザ」が
  開発され人気を博しました。シリにイライザについて尋ねる
  と「彼女は私の最初の先生だったんですよ!」と答えるのは
  イライザが対話システムの原型だったことに由来します。
   現在「AI(人工知能)」と呼ばれる分野には、自然言語
  処理、音声/画像認識、データマイニングなどさまざまな情
  報処理技術が含まれていますが、AI技術の核となるのが、
  「機械学習」です。
   機械学習の説明がまたややこしいのですが、ざっくり言う
  と、人間が自然に行っている学習と同じように、AIプログ
  ラム自身が学習する仕組みです。大量のデータを処理、解析
  し、未来の予測を行うため、使うほどにデータが蓄積され、
  学習していき、賢くなります。この機械学習を取り入れてい
  るのがシリです。アップルの公式サイトではシリについて、
  「アップルが開発した機械学習テクノロジーが組み込まれて
  いる」と明言されています。   https://bit.ly/2ME1Q6x
  ───────────────────────────

MECABによる形態素解析.jpg
MECABによる形態素解析
posted by 平野 浩 at 00:00| Comment(0) | 次世代テクノロージ論U | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス: [必須入力]

ホームページアドレス:

コメント: [必須入力]

RDF Site Summary