2018年06月29日

●「シリは外部サーバーのなかにある」(EJ第4796号)

 「シリ」の音声認識技術は非常に高いレベルにあります。私が
アイフォーン4Sではじめてシリを使ったとき、その認識力の高
さに驚嘆したことを覚えています。なぜなら、事前の学習なしで
どのような人の声でも、ほぼ正確に認識できたからです。
 かつて私は、コンピュータに向って音声で話すと、その音声を
文字に直してディスプレイに表示してくれるシステムに挑戦した
ことがあります。第1回の「AIの冬」の後のエキスパートシス
テムのブームの時代にAIの仕事をしていたからです。このとき
も音声認識は重要なテーマだったのです。
 しかし、この場合、自分の声をシステムに相当時間をかけて学
習させなければなりませんでした。しかし、シリは、そのような
学習をすることなく、誰の声でも言葉を正確に認識することがで
きたのです。
 アイフォーン7を入手したとき、さらに驚きがありました。ア
イフォーン7では、「ヘイ!シリ」の設定というものがあり、自
分の声をアイフォーンに登録することによって、シリが登録者の
声しか反応できないようにするレベルにまでなっていたのです。
ほかの人の声には反応せず、登録したユーザーの声のみを認識し
処理を行うようなレベルにまで到達しているのです。
 ところで、シリはどういう仕掛けになっているのでしょうか。
アップルからは公開されていませんが、推理を交えて探ってみる
ことにします。なお、本文は、松林弘治氏の以下の論文を参考に
して執筆しています。
─────────────────────────────
                    松林弘治著
   『世界の裏側でプログラムは何をしているか?』
              https://bit.ly/2tLhGEG
─────────────────────────────
 アイフォーンのホームボタンを長押しすると、シリが起動して
「ご用件は何でしょう?」と聞いてきます。ユーザーは、自分の
アイフォーンと話しているつもりですが、実はアイフォーンを介
して、遠く離れた場所にあるアップルのサーバーと話をする仕組
みになっています。
 その証拠があります。アイフォーンのホーム画面の「設定」の
アイコンをタップすると、「機内モード」のボタンがあります。
通常は「オフ」になっていますが、これを「オン」にしてシリを
呼び出すと、「Siriは利用できません」というメッセージが
表示されます。これは、シリを使うには、ネットワークを使うこ
とが前提になっていることをあらわしています。
 このように、スマホのアプリのなかには、スマホ本体のみで処
理をするのではなく、外部サーバーにアクセスし、解を得るもの
が多いのです。アプリがネットワークを使っているかどうかは、
「機内モード」を「オン」にして使ってみればすぐわかります。
 ところで、この「機内モード」に意外な活用法があります。ス
マホは何もしていなくても通信機能は動いていて、その分、電池
を消費しています。充電するときでも通信をしながら充電するの
で時間がかかります。ところが「機内モード」を「オン」にする
と、通信機能がストップするので、それだけ充電速度が速くなる
のです。知っておいて損はないと思います。
 シリを起動し、ユーザーがシリに話しかけると、それは通信機
能によって、アイフォーンを介して、アップルのサーバーにつな
がるというところまで話しました。この場合、話しかけた音声そ
のものが直接サーバーに伝わります。このあと、サーバーはどの
ような処理をするのでしょうか。
 これについては添付ファイルをごらんください。松林弘治氏の
論文に出ている図です。音声として入ってきたデータを、音の波
形データを読み取って、テキストとしての文章に変換し、そのう
えで意味の解析を行います。
 一般論ですが、音声認識には「音響モデル」と「言語モデル」
の2つがあります。これについて松林弘治氏は次のように解説し
ています。
─────────────────────────────
 一般的に音声認識には、音響モデルと言語モデルというものが
使われます。音響モデルは、音の波形データとそれらをテキスト
として書き起こしたもの、その2つを大量に持っています。こう
いう波形だと「あ」、こういう波形だと「い」というように覚え
ておいて、話かけた波形をもとに音素(ひらがなやアルファベッ
ト、発音記号など)に変換するために使います。どんな人のいろ
んな発声でも正しく認識するために、大量の音声データを使って
統計的に処理(こういう音声データの場合は、この音素の確率が
高い、など)するための仕組みとなっています。
 それに対して 言語モデル は、単語そのものを集めた辞書と、
単語の並び方の知識を確率的に表現した辞書を持っています。こ
れらを使って、音素の並びから最もありそうな文章となるよう、
統計的に処理して(この音素の並びだと、この漢字やかなの並び
になる確率が高い、など)文字列に変換するための仕組みです。
                  https://bit.ly/2MpDo8O
─────────────────────────────
 ここでいう言語モデルは、ちょっと難しくなりますが、要する
に「形態素解析」というものを行うのです。形態素解析というの
は、私たちが普段生活の中で一般的に使っている言葉、つまり、
「自然言語」を形態素にまで分割する技術のことです。ここで形
態素というのは、言葉が意味を持つまとまりの単語の最小単位の
ことです。
 形態素解析は、日本語の場合、難しいのです。日本語は、英語
のような単語や品詞の区切りがはっきりしている言語と違って、
名詞や動詞、助詞などがひとつながりになっているからです。そ
れを辞書と統計モデルを使って、単語や品詞に分割していくので
す。来週のEJで詳しく説明します。
          ──[次世代テクノロジー論U/040]

≪画像および関連情報≫
 ●Siriも進化?特定の声だけ聞きとるメカニズムが明らかに
  ───────────────────────────
   人間にはあたり前のように備わっている能力がたくさんあ
  りますが、じつは異常に複雑なメカニズムを持っていたりし
  ます。たとえば、騒がしい環境でノイズの中から特定の声だ
  けを聞きとる能力は、何十年も科学者たちを悩ませてきまし
  た。しかし、ようやくその仕組みが明らかになり、音声認識
  技術に革命をもたらす可能性がでてきました。
   この現象の代表例として挙げられるのはカクテルパーティ
  ー効果。複数の会話が同時進行していても、私たちは特定の
  誰かの声を拾うことができますよね。この仕組みを解明する
  ため、カリフォルニア大学の研究チームは脳外科手術を受け
  る患者に対して実験を実施。この調査結果はネイチェア誌に
  掲載されています。
   手術を行う際、被験者の神経活動を記録するために、聴覚
  皮質がある側頭葉に256枚の電極シートを設置します。そ
  して手術後、複数の声を重ねた音声トラックを再生して特定
  の話し手の言葉を認識してもらい、患者の脳活動を観察して
  いきます。観察には脳活動の様子を再構築するソフトウェア
  が使われ、複数の声が聞こえる環境でどのような変化が起き
  るかを評価。すると驚くべきことに、聴覚皮質が一度に認識
  するのはひとつの声で、そのほかの音は効果的にシャットア
  ウトしていることが見えてきたのです。
                  https://bit.ly/2tAqihX
  ───────────────────────────

音響モデルと言語モデル.jpg
 
音響モデルと言語モデル
posted by 平野 浩 at 00:00| Comment(1) | 次世代テクノロージ論U | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
「上杉謙信武士の情けでポーランドへ塩を送る」ヒルマニアとM3へ投稿

ワールドカップ日本代表監督西野君は衣笠選手のように相手のポーランドチームになって考えたのさ。
https://www.youtube.com/watch?v=k222higdNXA

思わぬ敗退が決まった優れたチームポーランドに武士の情けで最終戦で塩を送ったんだよ。
もしポーランドが勝ち点ゼロで帰国したらチームの誰かが怒り狂った国民に暴力で傷つけられるかも知れない。
昔オウンゴールした選手が帰国後撃ち殺されたこともあるほどワールドカップは人の心を狂わせる。
グループリーグの前評判はコロンビアとポーランドの2強だった。
2敗のポーランドは国民の怒りを買っている。
もし日本が全力で最終戦を勝ちや引き分けに持ちこんだらポーランドは史上初めて勝ち点ゼロで帰国することになって、怒り狂った国民にすぐれた選手や監督が暴力で迫害されでもしたら親や家族にとって最悪の不幸であり世界の損失である。
日本は最強チームコロンビアに勝って4点になっているので、セネガルとコロンビアの実力差からすれば1点差以上でセネガルが敗れるだろうから、この試合ではポーランドに勝ち点3を譲っても1点差ならセネガルに得失点差で上回って2位で通過出来るから、死者にむち打つような無慈悲な戦いを避けて、相手が2点以上を求めてきたときにだけカウンターで反撃して自分のグループリーグ敗退を食い止めながらポーランドチームに勝ち点3を譲ろうと固く決心して、為せば成るで為し遂げたのである。
ポーランドチームも西野君の武士の情けを以心伝心試合で感じたから、先制点をあげたあとは1点以上は必要ない、折角の日本の己を捨てた親切を無にしないよう1点で攻撃を止めて武士の情けの勝ち点3を有り難く受けとったと言うことである。
ポーランドチームの監督や選手の話を聞けばわかるだろ。
https://www.youtube.com/watch?v=NVUqw8cyaHo

日本人は水に落ちた犬は叩かずに助けるし、窮鳥懐に入れば猟師もこれを射ず、とにかく自分を犠牲にしても弱った相手に親切を貫く。

これが衣笠選手のつねに【相手に成る】ほとけのこころ、
和を以て貴しの三つ子の魂百まで親孝行で人に親切な仏心慈悲布施菩薩武士道、
先祖伝来親子相伝の躾け大和魂仏道である。

上杉鷹山
https://homepage2.nifty.com/sohbukan_karatedo/lesson/lesson2013/lesson201301.pdf
https://homepage2.nifty.com/sohbukan_karatedo/lesson/lesson2013/lesson201302.pdf

山岡鉄舟「武士道」
dl.ndl.go.jp/info:ndljp/pid/758905/1
Posted by 豊岳正彦 at 2018年07月01日 11:31
コメントを書く
お名前: [必須入力]

メールアドレス: [必須入力]

ホームページアドレス:

コメント: [必須入力]

RDF Site Summary