所長講演

5月30日(木) 13:20-13:50

人に迫り、人を究め、人に寄り添う

~人とAIが共生し共創する未来へ~

コミュニケーション科学基礎研究所 所長  山田 武士

概要

  コミュニケーション科学基礎研究所(以下、CS研)は、人と人、あるいはコンピュータと人の間の「こころまで伝わる」コミュニケーションの実現をめざし、基礎理論の構築と革新技術の創出に取り組んでいます。最近のAI(人工知能)技術の発展にはめざましいものがあります。もともとコンピュータは人間が処理できない大量のデータを一度に処理し、人間が苦手な処理を人間に代わって高速に処理するのが得意です。しかし特に深層学習の発展のおかげで、本来人間が得意で、なかなかコンピュータが追いつけなかった音声や画像の認や自然言語処理などにおいても、人間の能力に迫り、場合によっては凌駕する性能を実現しつつあります。今後さらにAIの進歩は加速すると期待されますが、とはいえAIの性能が複雑な人間の脳を超えるほどに進歩するのはまだ先と言えます。一方で人間は認知バイアスにとらわれ間違いを犯したり、実際にはありもしない錯覚をリアルに感じてしまうなど、複雑であるが故に一見すると不完全な存在でもあります。このように、限定された範囲で急速に発展を続けるコンピュータと、複雑であるがゆえに不完全でもある人間とをつなぎ、両者のギャップを埋めることが「心まで伝わる」を目指すCS研の使命と言えます。そのためには、人間の能力に迫る技術をさらに追求するのはもちろんのこと、人間の機能、特性を解明し、人間のことをよく理解すること、その上で人間に寄り添う技術の実現をめざすこと、そのための基礎研究が一層重要であると考えています[1]。

人間の能力に迫る技術

  世の中にはまだまだ、人間は得意でも、コンピュータには苦手な処理が多数存在します。確かに機械翻訳の精度が上がり、大学入試の英語穴埋め問題をある程度正解できるようにはなりましたが[2]、文章の意味を深く理解したり、常識を身につけたり、というレベルにはまだ達していません。一方で、深層学習技術を駆使することで、画像認識や音声認識など、特定の面では人間の能力に迫ってきたことも事実です。例えば、会議やパーティでの歓談などにおいて、複数の人が同時に話したり、背景に音楽が流れているとします。人間はこのような状況においても「聞きたい」人の声の特徴を選り分けて、話す内容を聞き取ることができます。これは人間の聴覚の優れた能力の一つで、選択的聴取と呼ばれます。従来、このような選択的聴取を、コンピュータは苦手でしたが、CS研では独自の深層学習技術により、人間同様、コンピュータが目的話者の声の特徴に基づき、その声だけを聞き取る技術を実現し、さらにそれを発展させています。

  これらの技術が今後さらに進歩し、人間に近づく、その手掛かりの一つがクロスメディアです。従来、「音声」「映像」「テキスト」などのメディアはそれぞれ解析手法も異なり、別々に研究されてきました。しかしここに来て、深層学習といういわば「共通言語」が整備されたおかげで、メディアの種類を越えた(=クロスメディア)「認識」「生成」「変換」が可能になりつつあります。人間は、例えば、音声を聞いただけでその場の情景をある程度頭の中に思い浮かべることができるなど、このような処理を日常生活の中で当たり前のように行っています。CS研はこれをコンピュータで実現する、言わば「音から画像認識」するクロスメディア情景分析技術に取り組んでいます。実現するとカメラでは死角になってしまうような箇所の情報も音を使って予測できるようになるでしょう。また、人間はTVの視聴を通じて日々新たな知識を身につけています。コンピュータも将来はTV放送のようなメディアデータから、音と映像の共起を見つけながら自律的にモノやコトの概念を学習し賢くなる、それを目指した基礎研究にも取り組んでいます。

人間を深く理解し究める技術

  このように特定の場面ではコンピュータの能力は人間に近づき、凌駕しつつあります。しかし、AIの性能が複雑な人間の脳を超えるほどに進歩するのはまだ先でしょう。一方で人間は、「振り込め詐欺」にも簡単に騙されるなど、時として「認知バイアス」に支配され、思わぬ誤りを犯します。また、人間の脳は錯覚します。CS研が運営するウェブサイト「イリュージョンフォーラム」には様々な錯覚が取り上げられています[3]。

  複雑かつ不完全な人間と今のところ限定的なAI、この両者のギャップを埋めるためには、人間をもっと深く知ることが必要です。そのために、CS研では「視覚」「聴覚」「運動感覚」といった人間の基本的な感覚に関する「潜在的な脳の働き」の解明に注力しています。錯覚もその重要な手掛かりです。また、一流のアスリートを題材として、その優れた能力を脳科学の視点から解明し、人間の「心・技・体」の関係の本質に迫る、スポーツ脳科学にも取り組んでいます。例えば、優れた打者がわずか0.1秒という短い時間で、如何に遅い球と早い球を見極めて球種に応じたタイミングで動いているか、その仕組みの解明などに挑んでいます。スポーツ脳科学は、最新技術で主に体を鍛える、従来のスポーツ科学やスポーツ分析手法とは一線を画した、野心的な取り組みと言えます。

人間に寄り添う技術

  スポーツ脳科学で得られる成果はスポーツに限らず、人間が普段の生活の中で心身の潜在能力を最大限に発揮する、すなわち、ウェルビーイングのための知見として生かすことができます。この、人間のウェルビーイングという、一見、定性的でとらえどころのない課題を人間科学の立場から定量的に扱い、これを向上させるための設計指針を確立することにもチャレンジしています。例えば、複数の人間が、場を一緒に共有することによって生じる共感的コミュニケーションの効果測定などがその例です。

  一方、錯覚は「潜在的な脳の働き」解明の手掛かりとして重要なのはもちろんのこと、人間とAIとのギャップを埋め、人間に寄り添うインターフェースやフィードバックのための鍵でもあります。CS研ではこれまで人間の錯覚を利用したインターフェースとして、引っ張られる錯覚を生じさせるデバイス「ぶるなび」を考案しました。さらには、座っているのにあたかも歩いているような感覚の生成にも取り組んでいます。また、印刷した絵や写真に光を当てるだけで動き出して見える「変幻灯」、3Dメガネを掛けると3D映像に、メガネを外すと鮮明な2D映像を楽しめる「Hidden Stereo」、印刷物などの2次元平面上の対象に対して影に見えるパターンを投影することで、その対象があたかも3次元的に浮き上がって見える光投影技術「浮像(うくぞう)」などを次々と生み出してきました。これからも、錯覚を利用した新たなインターフェースの提案と同時に、錯覚を通して物理的には生じ得ない体験を生み出すことによる、斬新な知覚表現の可能性も追究していきます。

おわりに

  昨今のAI技術の著しい進歩は、人々に夢を与えると同時に、それがもたらす予測し難い変化の兆しは、例えばAIが職を奪うのでは、など、時として人々を不安にします。それでなくとも、「地球温暖化」には科学的根拠がないとか、それどころか、「地球平面説」を信じる人までも現れているようです。日本においても、2019年は折しも、元号が新しくなり、オリンピックを間近に控えた年です。我々はいろいろな意味で、時代の変化点にいるのかもしれません。今後ますます技術の進歩のスピードが速くなり、競争が厳しくなる中で、CS研は、人に迫り、人を究め、人に寄り添う技術を中心に、これからも新たなチャレンジに大胆かつ粘り強く取り組んでまいります。本オープンハウスがみなさまにとって、最新技術の体験を通じて、確かな未来の手応えを感じ取って頂く何らかの機会となれば幸いです。


【関連文献】
[1] 新たな次元へとシフトする──さらに深化するコミュニケーション科学の取り組み NTT技術ジャーナル 2018.9, http://www.ntt.co.jp/journal/1809/files/JN20180908.pdf
[2] 「ロボットは東大に入れるか」における英語問題の回答手法, NTT技術ジャーナル 2015.4, http://www.ntt.co.jp/journal/1504/files/jn201504063.pdf
[3] 錯視と錯聴を体験!Illusion Forum イリュージョンフォーラム, https://www.rd.ntt/cs/team_project/IllusionForum/

講演アーカイブ

下記のサムネイルをクリックすると、動画再生ウィンドウが開きます。

当日の様子

講演者紹介

コミュニケーション科学基礎研究所 所長
山田 武士