2018年06月04日

●「AI導入によるグーグル検索技術」(EJ第4777号)

 元グーグルのCEOのエリック・シュミット氏は、次のような
ことをいっています。
─────────────────────────────
 文明の始まりから21世紀初頭までに生産された情報量は、約
5エクサ・バイト(エクサは10の18乗)だが、これと同じ情
報量が現代社会では、たった2日間で生産される。
                 ──小林雅一著/朝日新書
                  『クラウドからAIへ/
    アップル、グーグル、フェイスブックの次なる主戦場』
─────────────────────────────
 「エクサ」といってもピンとこないと思います。百万を意味す
る「メガ」、10億を意味する「ギガ」までは誰でも知っていま
すが、その先は、「テラ」(兆)「ペタ」(千兆)ときて、次が
「エクサ」(百京)になります。
 このように、現在、ウェブ上の情報が加速度的に増加している
のです。グーグルは基本的には検索エンジンの会社ですが、この
ような情報の爆発的増加は、検索というものを一段と困難にしま
す。それは、本当に探したい情報以外のノイズが、劇的に増える
ことを意味するからです。たとえると、今までは砂場に落ちた指
輪を探す程度だったものが、現在では、砂漠に落ちた指輪を探す
レベルに検索困難度が上昇してしているのです。
 そこでグーグルは、検索エンジンにAIを導入し、人間の要求
するウェブサイトを、高速で、一発検索することに成功したので
す。これを「セマンティック検索」といっています。それは日々
その精度を増しつつあります。
 グーグルは、いわゆる知識を人間がコンピュータに与えている
限り、AI開発の意味はないと考えていたのです。すべての機械
は、人間を単純な繰り返し作業、マニュアル・レーバーから解放
し、ラクをさせることに目的があります。そのためには、何とか
コンピュータが、自動的に学習して知識量を増やし、それをベー
スに判断させることができないかと工夫したのです。その結果、
できたのが「ナレッジグラフ」という知識ベースです。このグー
グルのセマンティック検索について、小林雅一氏は、次のように
解説しています。機械が学習するプロセスがよくわかります。
─────────────────────────────
 グーグルのセマンティック検索では、そのシステムが自動的に
ナレッジ・グラフ(知識ベース)を構築していきます。グーグル
の機械学習システムは、ウェブ上にある無数のホームページを読
み漁り、それらを統計的に分析することによって得た知識を、あ
る種の知識体系の上にマッピングしていきます。たとえば、「東
京」というのは90%の確率で地名らしい。「日本」というのは
95%の確率で国名らしい。そして「東京」は85%の確率で日
本の首都らしい。(中略)システムはこれらの確率事象を照合し
それらが互いに矛盾していないことを確認します。このようにし
て作られる「知識の関係」リストがオントロジーで、それらが大
量に積みあがったものが知識ベース、つまりナレッジ・グラフな
のです。            ──小林雅一著の前掲書より
─────────────────────────────
 上記にある「オントロジー」とは、エキスパートシステムの世
界で使われる概念で「知識の表現」に当たります。対象世界にか
かわる諸概念を整理して体系づけ,コンピュータにも理解可能な
形式で記述したものをいいます。
 2回目の「AIの冬」の後、ベイズ理論をベースとする統計確
率的AIが発展します。その創始者のジュディア・パール氏の弟
子たちの多くは、グーグルをはじめとするシリコンバレーの企業
に入社し、AIの発展に貢献しています。なかでもグーグルに入
社した統計学を専門とする研究者は、セマンティック検索や機械
翻訳の分野でも活躍をします。
 グーグルの機械翻訳チームは、ウェブ上から、オリジナルの文
書とそれが別の言語の訳文の文書のペア──たとえば、英語の原
文とフランス語の訳文など──をかき集め、それをグーグルの強
力なサーバー・コンピュータに読み込ませて、知識ベースを構築
したのです。これは、比較的簡単な作業です。
 これは、コンピュータにとって、自学自習用のテキストになり
ます。コンピュータは原書と訳文を突き合わせて、ベイズ理論に
基づく推論をし、たとえば、上記の例であれば、英文を与えると
フランス語に翻訳するし、フランス語から英訳も、ほぼ正確にこ
なしたのです。ここで重要なことは、推論型AIが重視した文法
や構文を完全に無視したことです。これによってさらに精度が向
上し、ウェブサイト上の翻訳として使われています。
 英語を日本語に訳すのは、まだそこそこではあるものの、精度
は確実に向上しています。このグーグルの機械翻訳の技術の凄さ
については、小林雅一氏の次のエピソードによって、十分証明さ
れると思います。
─────────────────────────────
 アメリカ国立標準技術研究所(NIST)が数年に一度主催す
る機械翻訳のコンテストがあります。そこには毎回、全米の著名
な大学や研究機関の機械翻訳チームが参加していましたが、20
05年に初めてグーグルが参戦しました。他のチームが、中国語
やアラビア語などの専門家を必ずメンバーに入れていたのに対し
グーグルの機械翻訳チームにはそうした言語学者は一人もいませ
んでした。グーグル・チームは統計の専門家だけで固められてい
たのです。そして驚くべきことに、世界各国の言語に関しては全
く無知のグーグル・チームが、機械翻訳の分野で何十年という経
験を持つ他のチームを圧倒したのです。これは統計・確率的なA
Iが、文法などルール・ベースのAIに勝利を収めた瞬間として
専門家の問で語り草になつています。
                ──小林雅一著の前掲書より
─────────────────────────────
          ──[次世代テクノロジー論U/021]

≪画像および関連情報≫
 ●自動翻訳なぜ急速進化/2つのブレークスルー
  ───────────────────────────
   コンピューターで外国語を翻訳する機械翻訳(自動翻訳)
  技術が、長足の進歩を遂げている。人工知能(AI)技術を
  採用したことで翻訳精度が向上、最新の翻訳システムを組み
  込んだ音声翻訳などの製品やサービスが、続々と登場してい
  る。通訳なしで外国人と相当なレベルのコミュニケーション
  ができる時代が確実に近づいている。
   ディスプレーに現れた外国人が英語でスピーチを始める。
  話を追いかけるように画面下に映画の字幕のような英文が表
  示され、その下にこれを翻訳した日本語の字幕が表れる。情
  報通信研究機構(NICT)が開発中の、「同時通訳システ
  ム」のプロトタイプ。会議などで将来、同時通訳の代わりに
  使うことを想定している。
   話者の英語の音声を認識して文章を書き起こすシステムと
  英語の文章を和訳するシステムを組み合わせた。「どのくら
  いの長さで切って翻訳するかで、使い勝手や翻訳の精度も変
  わる。今後5年くらいで完成したい」。NICTの隅田英一
  郎・先進的翻訳技術研究室長は説明する。NICTはこれに
  先立ち、富士通と共同で日本人医師と外国人の患者が、タブ
  レットをはさんで会話ができる医療向けの多言語音声翻訳シ
  ステムを開発した。医師が「体調が悪いのは、いつからです
  か」などと話しかけると、タブレットから翻訳された音声が
  流れ、患者の答えを日本語にして返してくれる。
                  https://bit.ly/2J572Da
  ───────────────────────────

エリック・シュミット元グーグルCEO.jpg
エリック・シュミット元グーグルCEO
posted by 平野 浩 at 00:00| Comment(0) | 次世代テクノロージ論U | このブログの読者になる | 更新情報をチェックする
RDF Site Summary