ピュータに処理させる一連の技術であり、人工知能と言語学の一
分野です。この自然言語処理の重要プロセスが「形態素解析」で
す。形態素解析を定義すると、次のようになります。
─────────────────────────────
文法的な情報の注記のない自然言語のテキストデータから、対
象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき
形態素(おおまかにいえば、言語で意味を持つ最小単位)の列に
分割し、それぞれの形態素の品詞等を判別する作業である。
──ウィキペディア https://bit.ly/2Na9Flk
─────────────────────────────
この定義を読んでもピンとこないと思うので、「私は台所で料
理します」という例文を使って説明します。この文を形態素解析
をすると、次のように7つに分割されます。
─────────────────────────────
私 ・・ 代名詞
は ・・ 副助詞
台所 ・・ 名詞
で ・・ 助詞
料理 ・・ 名詞
し ・・ 動詞
ます ・・ 助動詞
─────────────────────────────
このように、文をバラバラにして、最小単位になった単語をそ
れぞれ辞書などのさまざまな情報と照らし合わせ、それらの単語
の品詞の種類、活用形の種類などを含めて、その意味の割り出し
の分析を行うのです。その意味の割り出しには次の3つのステッ
プを踏むのです。
─────────────────────────────
1.構文解析
・形態素をもとに文の構造を明確にする
2.意味解析
・構文をもとに意味を持つまとまり判別
3.文脈解析
・文単位で、構造や意味について考える
─────────────────────────────
これらの解析に関しての詳細は、次のサイトに詳しく、かつわ
かりやすく解説が行われています。
─────────────────────────────
自然言語処理とは?スマートスピーカーにも使われている技
術をわかりやすく解説! https://bit.ly/2tIAMvU
─────────────────────────────
形態素解析の話に戻ります。これらの解析には多くのツール、
すなわち、ライブラリが用意されています。有名な日本語形態素
解析ツールには、次の3つがあります。
─────────────────────────────
1. MECAB
2. JUMAN
3.JANOME
─────────────────────────────
第1は、「MECAB」です。
これは、オープンソースの日本語形態素解析ツールであり、最
も有名です。汎用的な設計ができるのがMECABの特色です。
名前の由来は「和布蕪/めかぶ」からきています。使用できる言
語は、C、C#、C++、Java、Python、Rubyなど多数あります。
第2は、「JUMAN」です。
これは、京都大学大学院情報学研究科知能情報学専攻の黒橋・
河原研究室が開発した日本語形態素解析ツールです。WEBテキ
ストから自動獲得された辞書、ウィキペディアから抽出された辞
書を使用できます。
第3は「JANOME」です。
これは、汎用プログラミング言語「ピュアバイソン」で書かれ
ている日本語形態素解析ツールです。パイソンは、C言語などに
比べて、プログラミングが分かりやすく、少ないコードで書ける
特徴があります。名前の由来は「蛇の目」からきています。
アイフォーンの「シリ」で、ユーザーが次のように話しかけた
とします。
─────────────────────────────
遠藤さんに打ち合わせに遅れます、とメールを送って!
─────────────────────────────
この音声はアップルのサーバーに送られ、形態素解析が行われ
上記の構文分析、意味解析、文脈解析が行われ、最終的に次のか
たちに落とし込まれ、サーバーからアイフォーンに送り返されて
きます。
─────────────────────────────
・宛先は「遠藤さん」
・メールのサブジェクト「打ち合わせに遅れます」
・メールの本文は指定されていない
・その内容はメールを送る
・送る際は(アイフォーンの)メールアプリを使う
https://bit.ly/2Ncsrsg
─────────────────────────────
ここまでくると、アイフォーンに登録されている遠藤さんのア
ドレスを宛先に指定し、メールアプリはシリを使い、「本文はど
んな内容にしますか」というメッセージ画面を出します。
もちろん遠藤さんが2人以上いるときは、「どの遠藤さんです
か」と質問し、選択を促します。
このようにして、シリは自然言語処理によって、ユーザーと対
話を行い、指定された動作を行うのです。
──[次世代テクノロジー論U/041]
≪画像および関連情報≫
●「Siri」と「AI」の関係を整理する
───────────────────────────
AI(人工知能)は専門家によりさまざまな定義がありま
すが、総合すると、「人間と同じような知能を人工的にコン
ピュータで実現しようとする技術」を指します。その歴史は
意外と古く、「AI(人工知能)」という言葉が初めて登場
したのは、1956年に開催されたダートマス会議でした。
1964年には、コンピュータと人がテキストベースであた
かも会話しているように見せる対話システム「イライザ」が
開発され人気を博しました。シリにイライザについて尋ねる
と「彼女は私の最初の先生だったんですよ!」と答えるのは
イライザが対話システムの原型だったことに由来します。
現在「AI(人工知能)」と呼ばれる分野には、自然言語
処理、音声/画像認識、データマイニングなどさまざまな情
報処理技術が含まれていますが、AI技術の核となるのが、
「機械学習」です。
機械学習の説明がまたややこしいのですが、ざっくり言う
と、人間が自然に行っている学習と同じように、AIプログ
ラム自身が学習する仕組みです。大量のデータを処理、解析
し、未来の予測を行うため、使うほどにデータが蓄積され、
学習していき、賢くなります。この機械学習を取り入れてい
るのがシリです。アップルの公式サイトではシリについて、
「アップルが開発した機械学習テクノロジーが組み込まれて
いる」と明言されています。 https://bit.ly/2ME1Q6x
───────────────────────────
MECABによる形態素解析