2018年06月29日

●「シリは外部サーバーのなかにある」(EJ第4796号)

 「シリ」の音声認識技術は非常に高いレベルにあります。私が
アイフォーン4Sではじめてシリを使ったとき、その認識力の高
さに驚嘆したことを覚えています。なぜなら、事前の学習なしで
どのような人の声でも、ほぼ正確に認識できたからです。
 かつて私は、コンピュータに向って音声で話すと、その音声を
文字に直してディスプレイに表示してくれるシステムに挑戦した
ことがあります。第1回の「AIの冬」の後のエキスパートシス
テムのブームの時代にAIの仕事をしていたからです。このとき
も音声認識は重要なテーマだったのです。
 しかし、この場合、自分の声をシステムに相当時間をかけて学
習させなければなりませんでした。しかし、シリは、そのような
学習をすることなく、誰の声でも言葉を正確に認識することがで
きたのです。
 アイフォーン7を入手したとき、さらに驚きがありました。ア
イフォーン7では、「ヘイ!シリ」の設定というものがあり、自
分の声をアイフォーンに登録することによって、シリが登録者の
声しか反応できないようにするレベルにまでなっていたのです。
ほかの人の声には反応せず、登録したユーザーの声のみを認識し
処理を行うようなレベルにまで到達しているのです。
 ところで、シリはどういう仕掛けになっているのでしょうか。
アップルからは公開されていませんが、推理を交えて探ってみる
ことにします。なお、本文は、松林弘治氏の以下の論文を参考に
して執筆しています。
─────────────────────────────
                    松林弘治著
   『世界の裏側でプログラムは何をしているか?』
              https://bit.ly/2tLhGEG
─────────────────────────────
 アイフォーンのホームボタンを長押しすると、シリが起動して
「ご用件は何でしょう?」と聞いてきます。ユーザーは、自分の
アイフォーンと話しているつもりですが、実はアイフォーンを介
して、遠く離れた場所にあるアップルのサーバーと話をする仕組
みになっています。
 その証拠があります。アイフォーンのホーム画面の「設定」の
アイコンをタップすると、「機内モード」のボタンがあります。
通常は「オフ」になっていますが、これを「オン」にしてシリを
呼び出すと、「Siriは利用できません」というメッセージが
表示されます。これは、シリを使うには、ネットワークを使うこ
とが前提になっていることをあらわしています。
 このように、スマホのアプリのなかには、スマホ本体のみで処
理をするのではなく、外部サーバーにアクセスし、解を得るもの
が多いのです。アプリがネットワークを使っているかどうかは、
「機内モード」を「オン」にして使ってみればすぐわかります。
 ところで、この「機内モード」に意外な活用法があります。ス
マホは何もしていなくても通信機能は動いていて、その分、電池
を消費しています。充電するときでも通信をしながら充電するの
で時間がかかります。ところが「機内モード」を「オン」にする
と、通信機能がストップするので、それだけ充電速度が速くなる
のです。知っておいて損はないと思います。
 シリを起動し、ユーザーがシリに話しかけると、それは通信機
能によって、アイフォーンを介して、アップルのサーバーにつな
がるというところまで話しました。この場合、話しかけた音声そ
のものが直接サーバーに伝わります。このあと、サーバーはどの
ような処理をするのでしょうか。
 これについては添付ファイルをごらんください。松林弘治氏の
論文に出ている図です。音声として入ってきたデータを、音の波
形データを読み取って、テキストとしての文章に変換し、そのう
えで意味の解析を行います。
 一般論ですが、音声認識には「音響モデル」と「言語モデル」
の2つがあります。これについて松林弘治氏は次のように解説し
ています。
─────────────────────────────
 一般的に音声認識には、音響モデルと言語モデルというものが
使われます。音響モデルは、音の波形データとそれらをテキスト
として書き起こしたもの、その2つを大量に持っています。こう
いう波形だと「あ」、こういう波形だと「い」というように覚え
ておいて、話かけた波形をもとに音素(ひらがなやアルファベッ
ト、発音記号など)に変換するために使います。どんな人のいろ
んな発声でも正しく認識するために、大量の音声データを使って
統計的に処理(こういう音声データの場合は、この音素の確率が
高い、など)するための仕組みとなっています。
 それに対して 言語モデル は、単語そのものを集めた辞書と、
単語の並び方の知識を確率的に表現した辞書を持っています。こ
れらを使って、音素の並びから最もありそうな文章となるよう、
統計的に処理して(この音素の並びだと、この漢字やかなの並び
になる確率が高い、など)文字列に変換するための仕組みです。
                  https://bit.ly/2MpDo8O
─────────────────────────────
 ここでいう言語モデルは、ちょっと難しくなりますが、要する
に「形態素解析」というものを行うのです。形態素解析というの
は、私たちが普段生活の中で一般的に使っている言葉、つまり、
「自然言語」を形態素にまで分割する技術のことです。ここで形
態素というのは、言葉が意味を持つまとまりの単語の最小単位の
ことです。
 形態素解析は、日本語の場合、難しいのです。日本語は、英語
のような単語や品詞の区切りがはっきりしている言語と違って、
名詞や動詞、助詞などがひとつながりになっているからです。そ
れを辞書と統計モデルを使って、単語や品詞に分割していくので
す。来週のEJで詳しく説明します。
          ──[次世代テクノロジー論U/040]

≪画像および関連情報≫
 ●Siriも進化?特定の声だけ聞きとるメカニズムが明らかに
  ───────────────────────────
   人間にはあたり前のように備わっている能力がたくさんあ
  りますが、じつは異常に複雑なメカニズムを持っていたりし
  ます。たとえば、騒がしい環境でノイズの中から特定の声だ
  けを聞きとる能力は、何十年も科学者たちを悩ませてきまし
  た。しかし、ようやくその仕組みが明らかになり、音声認識
  技術に革命をもたらす可能性がでてきました。
   この現象の代表例として挙げられるのはカクテルパーティ
  ー効果。複数の会話が同時進行していても、私たちは特定の
  誰かの声を拾うことができますよね。この仕組みを解明する
  ため、カリフォルニア大学の研究チームは脳外科手術を受け
  る患者に対して実験を実施。この調査結果はネイチェア誌に
  掲載されています。
   手術を行う際、被験者の神経活動を記録するために、聴覚
  皮質がある側頭葉に256枚の電極シートを設置します。そ
  して手術後、複数の声を重ねた音声トラックを再生して特定
  の話し手の言葉を認識してもらい、患者の脳活動を観察して
  いきます。観察には脳活動の様子を再構築するソフトウェア
  が使われ、複数の声が聞こえる環境でどのような変化が起き
  るかを評価。すると驚くべきことに、聴覚皮質が一度に認識
  するのはひとつの声で、そのほかの音は効果的にシャットア
  ウトしていることが見えてきたのです。
                  https://bit.ly/2tAqihX
  ───────────────────────────

音響モデルと言語モデル.jpg
 
音響モデルと言語モデル
posted by 平野 浩 at 00:00| Comment(1) | 次世代テクノロージ論U | このブログの読者になる | 更新情報をチェックする
RDF Site Summary