コンピュータイメージフロンティアIII
電脳映像空間の進化(9)

サイバーエージェント:電脳世界の代理人(その2)


4.エージェントとの対話:ジョニーを訪ねて

 名古屋で見たジョニー君の振舞いが気になって,つくば市の電子技術総合研究所を訪れた。お相手して下さったのは,ジョニーの生みの親,「適応ビジョンラボ」の長谷川修博士である。これは,エージェントの視覚を担当する研究グループである。彼は「情報統合対話ラボ」というマルチモーダル対話のシステム構築を担当するグループにも所属している。この2つのラボのジョイントで「ジョニー」が成り立っているという。
 もともとは,音声認識と自然言語処理の研究が中心であった。不特定ユーザーの問い合わせに答えてくれる音声対話システムに,視覚認識機能が加わり,そして大学院時代からインタフェース・エージェントの研究をしていた長谷川氏の加入により,一気に本格的な擬人化エージェントの研究へと進んだのである。
 この流れは,知的インタフェース・エージェントの研究の歴史とも符合する。ジョニーとの対話の前に,この歴史を振り返ってみよう。

 日常語でコンピュータと対話

 コンピュータとの対話は,かつてはキーボードで入力し,文字列で出力された答を読むしかなかった。コンピュータに自然言語を解析する力のない頃は,質問を選択肢の中から選ぶか,短いコマンド(命令文)を打ち込むのがもっぱらであった。コンピュータからの応答の方は,予めでき上がった文章を用意しておき,これを組み合せればよいのであるから,比較的容易である。質問や命令が単純であるうちは,状況や意図に応じた柔軟な対応は必要なかったのである。
 コンピュータの処理能力が上がり,複雑な仕事をさせようとすると,問い合わせや命令の形態も複雑化する。多くなりすぎたコマンドの種類や形式など覚えるのは煩わしいから,我々が日常使っている(のに近い)言葉で語りかけたくなってくる。この種のユーザーインタフェースを「自然言語インタフェース」という。
 自然言語I/Fを比較的早くから導入しようとしたのはデータベース検索分野である。データベースへの問い合わせ(query)言語は,理論的基盤がしっかりしているし,用いる単語も限られている。それでいて,コンピュータの能力を引き出しやすい対象である。たとえば,SQLで
 select プロジェクトID from XXXX where プログラム言語 = COBOL and システム要件書の規模 > 600
と書くべきところを
 プログラム言語 = COBOでシステム要件書の規模 > 600のプロジェクトIDは?
と問いかけるのである。コンピュータ用の言語への変換しやすさを重視しているので,この程度ではまだまだ日常語には遠い。
 もう少し多様なユーザーの目的を分析し,問い合わせに答える本格的な自然言語I/Fは,1980年代の前半にカリフォルニア大学バークレイ校で開発されたUC(UNIX Consultant)である。これは,UNIXの操作法を案内する対話システムである。当時は,まだGUIが一般的ではなく,文字端末がごく普通であった。研究用に開発され,商用の印刷されたマニュアルのないUNIXに関しては,こうしたオンラインでの問い合わせシステムはUNIXユーザー達にとっては大いに意味があった。
 UCに啓発されて,類似した自然言語I/Fが開発された。その基本的なメカニズムを,日本語の場合について説明しよう。
 ユーザーからの入力文に対して,コンピュータは言語解析を行ない,その意図を「要求」「提示」「挨拶」「肯否」等に分類する。これを「発話意図抽出」という。コンピュータ側がどのような反応をすべきか,その種類を決めるのである。たとえば,図1に示すように文末の調子(伝達ムード)から「命令」「依頼」「希望」に小分類し,「要求」に再分類する。
 ここで使われる単語(名詞や動詞)が,コンピュータで用意したコマンドと1:1対応では柔軟性に欠ける。うろ覚えで話しても,似た言い廻しを受けつけて欲しい。図2に示すような同義語の言い換えを「パラフレーズ」と呼ぶ。こうした方法を駆使して,自然言語で入力した文にコンピュータが答えられるようになってきたのである。
 元来,質問応答システムはAI分野で研究されてきた。自然言語が理解でき,ユーザーの意図や状況が把握できるのであれば,もっと賢い振舞いをするシステムが欲しくなってくる。質問の不備な点をコンピュータ側から問い直したり,誘導尋問したり,ユーザーの知識レベルや理解度に応じた応答ができる知的インタフェースである。自然言語による対話の中から,ユーザモデルを構築することにより,そうした知的対話が可能であるという。そのための知識ベースの利用や推論方式が研究されているが,これはまだ実用に耐えるレベルには達していない。
 もう1つ,自然言語が本来結びつくのは,音声による会話である。音声認識と音声規則合成技術が向上して,コンピュータに向かって肉声で話しかけ,声で応答が帰ってくることも可能になってきた。自然言語I/Fの中でも,音声入出力を伴うものを「音声対話システム」と呼んでいる。

 耳と口の発達史

 音声認識研究の歴史は古く,1950年代に溯る。それでも,特定話者による事前学習,孤立した単語発声,語彙100単語程度の認識システムが商用化されたのは,ようやく1980年頃のことである。これは,簡略化していえば,波形パターンを丸ごと覚えておいて,それを伸縮させながら照合する技術であった。何語にでも使える反面,事前のトレーニングは煩しかった。
 その後,不特定話者で,1000語以上の大語彙を含む連続発声の発話の認識をめざした研究が続けられてきた。不特定話者に対応できるようにするには,音声波形と音素(母音,子音等)に分解する技術が必要になり,認識の手法は全く違ったものになってくる。目下のところ,HMM(隠れマルコフモデル)という手法が最有力で,障害のない明瞭な環境下で入力されたものなら,パソコンのソフト処理で出来るレベルに達している。最近は,電話回線等で重畳される雑音や,オフィスや家庭内で他の騒音のある条件下での認識能力の向上への努力が続けられている。
 一方の音声出力では,文字列を声にして読み上げることを「規則合成」という。自動車やエレベータの中で聞かれる「シートベルトを締めて下さい」や「次は14階です」といった声は,予め人間の声をディジタル圧縮して録音・再生しているだけである。これでは決まった文章しか話せない。コンピュータに任意の文をしゃべらせるには,生成された文に「読み」をつけ,抑揚をつけて話せる規則合成技術が必要となる。
 いくつかの音節をつないで声にするには,自然な声に聞こえる「音響処理技術」が要る。単語の読みは一意的ではないから,正しく発音するには前後関係を判断し読みを割り当てる「自然言語処理技術」も不可欠である。欧米語に比べると,単語が分かち書きされていない日本語文の解析の方が数段難しいのは言うまでもない。アクセントやイントネーションまでつけ,感情をもったような発声にするには,さらに高度な技術を必要とする。
 かつては実時間の音声合成には,特殊なハードウェアが必要であったが,最近のコンピュータの処理速度はこれを楽々とクリアしている。音質については,まだまだ機械的な声という印象をぬぐえない。英語では,DEC社の開発したDECtalkが有名である。障害者のS. ホーキング博士が使っているあの声である。日本語の規則合成はずっと後れてスタートしたが,今ではこれに近いかそれ以上の水準に達していると思われる。誰しも母国語音声については評価が厳しいから,本当はどちらが進んでいるのか,よく分からない。
 不自然さは残るものの,擬人化エージェントとの対話を実現する他の要素技術,即ち,音声認識,自然言語理解,人物像合成,ユーザーの表情・動作の認識等と比べると,音声規則合成は相対的に最も安定していて実用に耐え得るレベルだといえる。

 旅行案内からハンバーガー販売へ

 こうした音声認識・合成のモジュールを得て,自然言語I/Fは音声対話システムへと発展した。初期の著名な研究例は,MITで開発されたVoyagerである。これは,地理案内システムで,MIT周辺にあるホテルやレストランを問い合わせると,予算や好みに合った店を地図つきで紹介してくれる。音声認識を利用したフライトの案内,航行券の予約システム等は,それまでにも具現化されていたが,認識できる単語数が限られていた。
Voyagerは,比較的大語彙で自由な発話を受けつけ,マルチメディアを活用した対話システムということで注目された。
 日本語での音声対話システムの代表例は,1992年にキヤノンの開発した旅行案内システムTARSANである。このシステムは,表1に見るように,ユーザーからの指定条件が十分でない場合に,コンピュータが巧みに問い返す形で,満足な答が出るように会話をつないでいる。
表1 TARSANの対話例
User :東京都にある温泉を教えて。 ジャンル:温泉
所在地:東京都(初期条件)
Agent :港区に2件,神津島村に2件,八丈町に2件,新島本村に2件など,合計で16件あります。  
User :効能が神経痛では。 検索条件追加
効能:神経痛(確認なし)
Agent :神津島温泉です。  
User :所在地が神奈川県では。 検索条件変更
所在地:神奈川県
Agent :効能が神経痛という条件を残しますか。 確認
User :はい。  
Agent :阿部倉温泉,大楠温泉,奥湯河原温泉です。  

 この種の研究では,実験室で用意した小さな対象でしか動かないトイ・システムがほとんどであるが,TARSANは市販のCD-ROM『旅蔵』『JTBの宿泊情報』等の全データを扱える頑健性を備えていた。CD-ROMの全固有名詞を全て認識対象とすると認識率の低下を招くが,状況に応じて認識対象を動的に変化させるという方法で対処している。TARSANのI/Fモジュールは1つであり,音声合成も1種類であるが,今後は,状況によって得意分野のエージェントが別の声で答えてくるといった応対の仕方も出てくるだろう。
 VoyagerやTARSANは声だけで応答してくる姿なきエージェントであったが,マンガ風の人物像を登場させたのは東芝のTOSBURG-である(図3)。ハンバーガー店での接客店員を想定したこのエージェントは,目や口を単純に動かすだけだが,顔があるだけでかなり親しみが感じられた。技術的には,店員(エージェント)の応答発声中に客が話かけても,その内容を聞きとれるという音声のスポッティングに特長があるシステムであった。
 エージェントの頭部を3次元CG化し,実写の顔画像を貼りつけて表情を変化させたのは,(本シリーズの1995年5月号に掲載した)ソニーのTalkmanである。Talkmanの意義は,音声対話システムとしての実現過程の中で,対話の典型的状況(たとえば,「話題の導入」や「意見の強調」など)を分類し,これに「すくめ顔」や「不安の表情」などを対応させ,さらに顔の部品の動きに変換させたことである。マルチモーダル・インタフェースの事例としても,ユーザーと音声対話できる擬人化エージェントとしても,1つのあるべき姿を具現化していた。この開発時点では,Knowledge Navigatorの描くエージェントに最も近い存在だったといえよう。
 Talkmanの表情変化は単純なもので,今から見るとかなりぎこちなかった。CGによる人物像の表情合成や動きの表現の研究は,最近特に活発で,リアリティもどんどん向上している。仮想都市空間内でのアバタ(化身)の表現や,ビデオゲームにも利用できるからである。アバタとエージェントは混合されやすいが,用途は異なる。アバタは自分で操作する分身であり,インタフェース・エージェントはユーザーのお相手をしてくれる接客代理人である。バーチャル・ヒューマンは,その両方を包含するもっと広い概念である。
 その後の知的インタフェース・エージェントの研究では,ユーザー側は音声入力だけでなく,頭や手を動かすジェスチャー認識や,さらに表情認識も取り入れようとしている。また,1人のユーザーだけでなく,複数のユーザーの会話をアシストするエージェントも研究対象になっている。

 オーバーアクションが魅力的

 前置きが長くなったが,ここまでの歴史を踏まえて,いよいよジョニー君とのご対面である。この擬人化エージェントシステムには,音声認識・合成による対話能力に加えて,ユーザー(の顔)の識別,ユーザーが提示する物体の記憶・識別能力が備わっている。仕事の実行能力としては,電子メールのチェック,伝言,物の場所の指示が想定されている。
 写真1に示すように,ジョニー君は小さなウィンドウの中ではなく,コンピュータの画面全体に上半身が入っている。コンピュータ・モニタの上部にあるカメラでユーザーの顔や提示される物体をとらえる。
 顔や物を見せて,予め名前を登録しておく。次からは,ユーザーを識別して名前で呼んでくれる。物を見せながら「これは何ですか?」と問えば,「それは〜です」と答えられるのである。人の顔を目・鼻・口といった部品の特徴に分解しているのではない。小さなマスクパターンの集合として捉えているようだ。顔と物体の区別もない。物体の種類や形状に限定はなく,画像として入力できるものなら何でも受けつけるというのが,このグループの視覚認識技術の特長だ。
 また,「本棚はどこにありますか?」と問えば,予め記憶されている部屋の中の備品について,「本棚はあちらです」と右や左を向き,派手なアクションで指さして教えてくれる。このオーバーアクションが実にいい。指も1本ずつ微妙に動かせる。いかにも,考えた上で問いかけに丁寧に答えてくれると感じる。まだ,ユーザーの動きに追随したり,環境の変化に適応する能力はないが,それは時間の問題だろう。
 ユーザーが語りかけない時も,ジョニー君はじっとしていない。たえず,少しずつゆっくり動いている。時々,まばたきもする。目の動きは特に重要なポイントである。視線を合わせたり,そらせたりのタイミングも対話システムと連動している。顔とは別に眼球だけをモデリングして,目を描いているという。
 こうした細かな配慮が,エージェントの存在感を高めている。何となく親しみがもてるのである。CGで描いた人物像としては,ポリゴン近似も粗く,音声合成(市販のボードを利用)の質も高くないが,それはあまり気にならない。
 難を言えば,やや反応が遅いことである。個々のモジュール間通信のプログラミングの問題だろう。いずれ解決することだが,個々の要素技術が向上し,トータルシステムとしてのインタフェース・エージェントを評価するとなると,このちょっとした遅れが気になるのである(その後,かなり改善されたそうだ)。
 上半身のアクションを取り入れた長谷川氏(写真2)らの試みは成功していると思う。コンピュータの処理能力から,全身を入れることやポリゴンをこれ以上細かくすることは断念したというが,方向としては間違っていない。言葉での対話能力の次は,ユーザーの感性に訴える擬人化エージェントの存在なのである。
 残念なのは,この感覚は体験してみないと分からないことである。静止画はもとより,ビデオで対話風景を見てもダメで,自分で直接対話体験してみて感じるしかない。
 ジョニーの他にもう2人いて,「ハルナ」と「ゼアビ」というそうだ。顔は3人分あるが,胴体(上半身)は1人分なので,ホラー映画のように首だけすぐにすげかえられる。このデータは,擬人化エージェントの研究用に長谷川氏のグループから公開されている。指定事項に合意すれば,誰でもこの動きのプログラムつきのキャラクタ達を入手することができる。

 実在感はトータル評価で

 Dr.SPIDER ずいぶんジョニー君との対話を楽しんでいましたね。
 Yuko 想像していたよりもずっと良くできていました。顔を覚えていてくれて,「こんにちは,若月さん」と呼びかけられると,親しみもわいてきました(笑)。途中で,本当にそこに存在しているかのような気になったんですよ。
  インタフェース・エージェントには,対話の間まの取り方も大切だし,ユーザーをそうした催眠状態にする技法も必要ですね。
  もっと没入した感じにするには,画面が大きい方がいいですね。できれば等身大くらいに。
  コンピュータの箱の中に閉じ込めておくのがもったいないね。どうせなら足をつけて動き回らせたいねぇ。実在感を出すのに立体視は要ると思いますか?
  有ってもいいですが,特殊メガネの装着感もトータル評価の1つになると思います。リアリティという点では,私は顔の写実性はあまり欲しくありません。今のレベルじゃかえって気味悪いだけで,アニメっぽいキャラクタの方が好きです。
  合成音声の人工的な感じと,バランスが取れているという気もしますね。私は,何だまだこの程度の仕事しかできないのかと思って見ていました。もっと任せるに足るしっかりした仕事をしてくれるなら,エージェントの存在感も増すでしょう。
  これまで,様々な分野のエージェントを調査してきましたが,ユーザーの分身として働く代行エージェントと,不特定の他者のお相手する応対エージェントと,エージェント間の分業・協調メカニズムの研究とは,まだまだ別の分野だと感じました。
  GUIとしての擬人化エージェントは,このジョニーのようにそこそこ使えると思うのに,まだ研究事例にとどまっていますね。後にいる他の代行エージェントと陰で連携・協調して,というのが理想だけど,まだ実用的にはそうならないでしょう。いずれ必ずそちらに向かうでしょうから,擬人化エージェントそのものの研究が進むのはいいことだと思います。

5.エージェント研究の行末

 西の拠点を訪問

 エージェント技術の調査を締めくくるに当たり,専門家の意見を聞いて,共通項や疑問点を整理してみることにした。東の「つくば」に対して訪れたのは西の「けいはんな」である。ここでのお目当ては,(株)ATR知能映像通信研究所の間瀬健二室長と,奈良先端科学技術大学院大学の西田豊明教授である。
 関西学研都市の中心にあるATRは,組織的には時限つきの4つの会社(研究所)に分かれている。第1世代の4研究所は,試験研究期間を終了して,いずれも第2世代の後継研究所に入れ替わった。臨場感通信会議を大いにアピールした通信システム研究所に対して,知能映像通信研究所は,同じコンセプトを受け継いだかに思われがちだが,研究の守備範囲はずっと広がっている。アートとテクノロジーの境界を探究するかと思えば,コミュニケーション支援,思考支援のツール開発も手がけている。
 5つある研究室のうち,コミュニケーション支援のためのインタフェース・エージェントを研究しているのが第二研究室の間瀬室長である。間瀬氏(写真3)はもともとパターン認識・画像処理の研究者。原籍のNTTヒューマンインタフェース研究所では,ジェスチャー認識,人物像の表情認識や生成にいち早く着手したことで知られる。
 第二研究室のエージェント関連の主なテーマは,次のようなものである。
 (1)A-HA
 階層型のエージェント・アーキテクチャを研究している。かなりエージェントを汎用的にとらえ,動機(motivation),行動(behaviours),動作(actions)といった6つの階層に分けて,インタフェース・エージェントを設計できるツールを開発している。
 (2)AIDE
 対話活性化支援システムで,ユーザー同士の会話を傍受している「座敷童」的なエージェントが中にいる。同じ話題が続くと,話題を転換,発展させるためのキーワードを提示する。『現代用語の基礎知識 '96』をデータベースとしてもっている。
 (3)VisTA-Walk(メタミュージアム)
 新しい博物館のコンセプトを具現化しようというプロジェクト。仮想空間に作られた遺跡に関して,来館者が自分に合った個人向き展示を眺められる。170インチの大画面ディスプレイを前に,ユーザーはジェスチャー・コマンドで意思を伝えながらウォークスルーする。
 研究のアプローチは多方向からで,1つのまとまったエージェント・システムをめざしているという感じはしない。ある意味では,エージェント研究の現状を象徴している。2002年春の試験研究期間終了までには,まだ時間的余裕があるので,まずは自由な発想に立ち,エージェントとは何かを考えてみようというスタンスだと受け取れた。
 色々と見学して回って気がついたのだが,インタフェース・エージェントを研究しているというのに,姿・形のあるエージェントが全く見えないのである。メタミュージアムなどは,ガイド役のエージェントがいて,遺跡の案内くらいしてくれてもよさそうなものだ。間瀬室長によれば,「昔からやっていたし,いつでも作れるので…」とのことである。ちょっと淋しい気もするが,やがてあっといわせるような擬人化エージェントが登場することを期待しておこう(その後,VisTA-Walkには埴輪の姿をしたガイド役エージェントが登場したようだ)。

 知識共有側からのアプローチ

 ATRが京都府の南端にあるのに対して,そこからクルマで約15分の奈良先端大(フルネームは長くて2度書く気がしない)は奈良県の北端(先端?)に位置している。北陸先端大に続いて設置された大学院教育のみの国立大学である。阪神大震災時のインターネットでの情報発信で,一役その名を世界に知られるところとなった。
 キャンパスは広くてきれいだ(写真4)。この種の新設大学は,設備や予算的にも恵まれている。かつての筑波大学がそうであったように,文部省が力を入れ,集まった教授陣も著名人が多いから活気がある。学生も京大・阪大の学部卒がかなりの比率を占める。社会人の受け入れにも力を入れているので,他大学にはない独特のカラーが出始めてきている。
 西田豊明教授(写真5)は,京都大学助教授からの移籍組の1人で,自然言語処理,定性推論,知識ベースの研究者として知られている。エージェント研究に一早く着目した我が国のリーダー的存在で,FIPA(先月号参照)のフェロー(名誉会員)でもある。最近では,「知識コミュニティ」というマルチエージェント・システムのコンセプトを提唱しておられる。
 西田研究室は,ソフトウェアの研究だけかと思っていたら,物理的エージェントとしての移動ロボットが置いてあるのに驚いた(写真6)。自作ではなく,工場で荷物の搬送に利用されているロボットである。人間と物理的エージェントとの対話や,エージェント同士の協調作業が研究対象だという。
 このロボットには目があり,人間のジェスチャーを識別する。規則合成で話せる機能もある。移動のためには地図を内蔵して,視覚を使って動くわけではない。頭脳は離れた場所のコンピュータにあり,ワイヤレス・イーサネットで通信している。このロボットは,物理世界とのインタフェース・エージェントと位置づけられていて,移動ロボットそのものを研究しているのではない。ロボット同士は,KQMLのメッセージをやり取りして協調動作するそうだ。
 このロボットには,ロボカップのサッカー・プレーヤほど過酷な判断と行動を求められてはいない。かなり武骨だが,実務型の物理的エージェントは,こうしてどっしり構えているのが健全なのかもしれない。
 他に見学したのは,CoMeMoと称する人間の記憶を助ける連想構造構築支援システムと,ICoBというマニュアル的知識やノウハウの共有化のためのシステムである。前者は特にエージェントの存在が表に出たシステムではなかったが,後者ではマイクロソフト・エージェントのGenieが画面を飛び廻っていた。βバージョンを入手して,西田研究室のICoBのGUIとして用いているようである。マイクロソフト社ご推奨のサイトを除いて,本格的にMSエージェントを使っている事例を見るのは初めてであった。
 研究室には活気があった。エージェント研究が表看板の1つになっているだけあって,世の中で「エージェント」と名乗るシステムの大半は一通り試されているようである。残念ながら,ここでも自作の擬人化エージェントにはお目にかかれなかった。間瀬グループが「コミュニケーション」に力点をおいたエージェント研究であるのに対して,西田研究室は「知識共有」というテーマに重きが置かれているという印象であった。

 結局,エージェントとは?

 研究室訪問のルポはこんなものだが,訪問目的の主眼は「エージェントとは何なのか?」「どんな機能をもつべきか?」の整理である。インタビューから可能な限り両氏の意見を再現してみよう。
(1)エージェントの定義
 まず,あえて「エージェント」を定義をしてもらった。
 「自律的に動くソフトウェア。他のプログラムやユーザーのために仕事をする存在」(間瀬氏)
とのことである。よくある妥当な線である。他のプログラムとユーザーを共にあげているところに,現在「インタフェース・エージェント」がやや別格的存在であることも物語っている。
 「擬人化された人工システム。約束ごとを守る,交渉を行うなどの社会性をもつ」(西田氏)
これはややユニークな答である。西田氏のいう「擬人化」は,姿・形をもつといったビジュアルな存在というより,もっと広い概念である。身体的に人の形をしていなくても,人になぞらえて考えることができるあらゆるシステムをエージェントとしている。人間社会の一部として機能できる存在という考え方である。これまで「エージェント」と称して作られたシステムがこれに当てはまるかといえば,大半まだまだ未熟で社会的存在とまでは言い難い。
 間瀬氏の意図する「擬人化エージェント」はもっと直観的で,
 「相対的位置や形を表わすには,自分と同じ形の方が良い。エージェントに人間的なことをさせるなら,身体性を基準にして,人間の構造をしていた方が考えやすい」(間瀬氏)
という。「身体性」という言葉もエージェント研究ではよく使われる用語である。
(2)自律 vs. 自動
 間瀬室長はじめとする,多くの人々がエージェント要件としてあげる「自律性」とは何なのだろうか。
 「環境や周囲の状況を認識し適応する能力。学習能力をもち,場に応じた判断をし,行動をとること」(間瀬氏)
この定義も理解できる。しかし,コンピュータにこの能力がそこそこ備わったとして,それは本当に「自律」なのだろうか? 一見,エージェントが自分で考えて行動しているように見えても,それは予めプログラムされている以上,我々の予想できる範囲の行動ではないか。
 この素朴な疑問に対して,両氏とも「自律」は「自動」より明らかにレベルが上としていたのが,議論が進む中でだんだん,その境界が明確でなくなってきた。
 「意志や意図のようなものが,外から見てとれる行動」(西田氏)
という解釈が出てきた。何だ,そう見えるだけでいいのか。初対面の相手に「知的」に見えりゃよくて,馴れてどう反応してくるか分かってしまえば「意志」のように見えなくなるんじゃないのか。そう切り返すと,
 「自動は環境が予めデザインされたものであり,自律は環境がオープンなもの」(西田氏)
と返ってきた。なるほど,もっともらしい分け方だ。そうした環境に適応できれば「自律的」であるだろうが,果してそんなエージェントが作れるのだろうか。「自律 vs. 自動」論議は,「自律的といえるかどうかは,主観的で,自動とは程度の違い」ということになってしまった。
(3)学習機能について
 話題はこうなると,エージェントにとっての「学習機能」の是非に及ぶ。
 「欠かせない能力。個人の興味や行動パターン,履歴などを学習させる」(間瀬氏)
という。古典的なパターン学習法が及ぶ対象なら,それでいい。インタフェース・エージェントにこの機能を埋め込むのはそう難しくはない。問題はかつてのパターン認識理論や単純な帰納的推論ではカバーできない,類推や発見的学習に属する学習の能力である。
 「本来のエージェントは持っているべきだが,いま要求するのは難しい。学習機能はなくてもエージェントになり得るが,プラスアルファとしてあった方がいい」(西田氏)
という意見に落ちついた。「学習機能」についての評価と期待は,従来からのAI分野のそれをそのまま継承していると思われる。比較的単純であっても個人差が生きてくる場合には,学習機能は重宝されるだろう。
(4)AIとエージェントの関係
 では,AIとエージェントの関係はどうなのだろうか。エージェントはAIの一分野であるのか,エージェントがAI機能を包含していると考えるのかという疑問をぶつけてみた。
 「エージェントとAIは,どちらが広いとか狭いという関係ではなく別物である」(西田氏)
という意見である。
 「AIは個人的な知能の実現が目的だったが,エージェントは意図を伝えるコミュニケーションの機能をもち,社会的知能をもつことが目的」(西田氏)
だからだそうだ。ここでいう「社会的知能」もまた,ある種の人工知能だろう。
 確かに従来のAI研究は,コンピュータが人工知能機械として(1人の)人間の脳の働きを模擬しようとしていた。これに対して,エージェント・システムは,複数の人間同士の協調的振舞いを模擬しようとしているのだと考えられる。そう考えると
 「エージェントはAIの発展形」(間瀬氏)
という見方もうなずける。
 「同じ言葉を使ってはいられない」(西田氏)
AIという言葉が古く,流行遅れで,限界が見えたと感じられていることに問題がありそうだ。エージェントという言葉が,かつてのAIの限界を超えて,異なった発想から新しい機能や用途を開拓しようという動きの象徴であるのなら,それはそれで意義のあることだ。

 共通項はコミュニケーション

  いよいよまとめです。3ヶ月近くにわたる調査の結果,満足の行く解釈に達したんでしょうかね。
  楽しい話題である反面,奥が深いなと感じました。
  Knowledge Navigatorの描いたエージェントには近づいたと思いますか? あるいは,あれを超えるコンセプトが出てきたのか…。
  あのビデオの中では,分散協調という概念は明確には表われていませんね。モバイル性もないです。それを除くと,やはり今でもエージェントの目指すべき1つの姿だったと思います。
  一私企業のプロモーションが,研究社会に影響を与えたのだから,大したものです。その点では,『2001年宇宙の旅』のHAL(付録1参照)と同等かそれ以上でしょう。
  驚いたのは,間瀬さんも西田先生もKnowledge Navigatorは話に聞いてはいたが,ビデオを見たことがないとおっしゃってたことです。
  もはや伝説的存在になりつつあるのか(笑)。現実に存在しているエージェントは,そのある側面だけを捉えて具現化したものと言えるでしょう。
  エージェントを皆さんが欲しいと思うようになったということは,サイバースペース内でやって欲しいことが次々と出てきたということかと思います。
  任せていいなと思えるくらい,コンピュータの性能もソフトウェアの信頼性も上がってきた証拠ですね。「エージェント」という考え方に,AI分野もHI(ヒューマン・インタフェース)分野も歩み寄れるものがあることが,研究の裾野やインターネット上の具体的サービスを拡げつつあるんだと思いますね。
  宿題になっていたさまざまなエージェントの「共通項」なんですが,これは「コミュニケーション能力」だと思うんです。相手が他のエージェントであれ,ユーザーであれ,コミュニケーションするという機能は不可欠です。逆にいえば,それを実現できるソフトウェア環境やネットワーク環境が整ってきたから,必然的な流れとして「エージェント」が各方面で取り上げられるようになったのだと思います。
  いい答えですね。合格点でしょう(笑)。まだまだ言葉が先行しているなと実感した調査でした。しかし,「コミュニケーション能力」の向上は誰しも望むところですから,これからエージェントに絡めてどんどん素晴しいプロダクツやサービスが出てくることに期待しましょう。

付録1 書評コーナー

 ■デイヴィッド・G・ストーク(編)(日暮雅通監訳)『HAL伝説−2001年コンピュータの夢と現実』(早川書房,4,800円,1997年)(
 いうまでもなく映画『2001年宇宙の旅』で,宇宙船ディスカバリー号の中枢であったコンピュータHAL9000に関する書である。映画では,1992年1月12日にイリノイ州アーバナの工場で始動されたとなっている。その日には,世界各地で誕生パーティーが催され,現実にはHAL並みの頭脳を持つコンピュータが作れなかったことが話題になっていた。
 ところが,アーサー・C・クラークの原作小説では,1997年1月12日が生誕の日であるという。そして,この日を前に改めて,HALの機能と現在のコンピュータ,人工知能の実力を対比して科学的分析を試みたのが本書である。
 何かと理由をつけて記念日を設けるのは,デパートの大安売り並みで感心しない。きっと,2001年にもまた似たような企画がいくつも出てくるのだろう。
 そう思いながら買ったのだが,内容的には重厚でかなりコクがあった。HALの持つ知能や心について,16章にわたり一流の学者・技術者たちが,専門的視点からの解説を書いている。画像認識のA. ローゼンフェルド,自然言語理解のR. シャンク,機械学習のD.B.レナト,認知科学のD. A. ノーマンらが自ら筆をとり,そして,人工知能の創始者M.ミンスキー,人工生命のS.ウォルフラムは編者のインタビューに答えている。まさに斯界の第一人者たちが,HALを分析し今後の展望を語っているのである。
 翻訳書は,HALの生誕から約半年遅れで,SF小説の老舗早川書房から出版された。訳者はプロの翻訳家たちだが,専門用語も大きな誤りなくこなしている。全434ページのボリュームある中味は,難解ではないが,読み通すにはかなりの技術的素養がいる。マニア向けの読み物としてはレベルが高すぎる。大学か大学院での人工知能(AI)の講義のサブテキストとしても十分使える。いや,主テキストでもいい。それくらい魅力ある講義をしないと,AIは単なる記号的推論だけの退屈な学問かと,学生に嫌われてしまうだろう。ただし,これだけの内容を一人の先生が教えられるかどうかは疑問だ。
 このレベルになると,編者にもかなりの力量がいる。
編者のD.G.ストークは,リコー・カリフォルニア研究センターの主任研究員で,専門はコンピュータによる視話(読唇術)である。この専門テーマなら,かねてからHALに興味があったのは当然だ。こう書いて何のことだか分からない読者は,まだこの本を読む資格はない。映画をじっくり観賞し,かつAIに興味のある者でなければ,この本の面白さは猫に小判だろう。
 レナト,シャンク,ノーマンらは,HALやこの映画を題材としながらも,軽いタッチの読み物にし上げている。一方,ローゼンフェルド(第10章)は,実際にデイブ・ボーマン船長やクルーのフランクの映像から顔や表情の認識を試み,コンピュータ・ビジョンの最近の進歩を大真面目に論じている。同様に,音声合成(第6章)のJ. P. オリーブ,音声認識・理解(第7章)のR. カーツワイルも,HALの声や会話を分析し,当該分野の歴史と現状を述べている。「感情」についてのR.W.ピカードの第13章や「プランニング」に関するD.E.ウィルキンズの第14章も力作だ。
 これだけの分担執筆者が揃うと,スタンスの違いがあるのも止むを得ないだろう。第6章のオリーブは,
 「2001年が近づきつつある現在,俳優ダクラス・レインが演じたHALの声――温かさと感情をそなえ,人間らしくて好感をもてる声で話せるコンピュータがあるだろうか? 答えはいまのところ,まだだ。」(p.152)
とやや否定的な答をしている。一方,第10章のローゼンフェルドは,
 「HALは視話の能力,そしておそらくボディランゲージを読みとる能力で,現在のコンピュータを(さしあたってのところでは)凌いでいるかもしれない。しかし1990年代のコンピュータ視覚システムは,きっとHALが誇りにするような多くの能力を――この章ではそのほとんどを述べていないが――すでに備えている。そして,こうした発展にいまだに限界は見えていないのだ。」(p.263)
と,楽観的すぎる見方をしている。評者の私には,HALへの距離はむしろ音声合成の方が近いと思う。このレベルの議論になると,見解の相違でかなり異なった結論に達してしまいがちだ。
 映画のシーンがカラー写真であちこちに散りばめられ,楽しい本に仕上がっている(その分,値段も高
い!)。マニアが喜ぶ話も載っている。HALが接続を切られる前に歌った『デイジー,デイジー』は,かつてベル研究所で音声規則合成でコンピュータに初めて歌わせた歌だったという。A. C. クラークがそこまで知っていたということも,実に意味ありげなエピソードだ。
 SF好きのAI研究者,あるいはAIに興味のあるSFファンにとって白眉の章は,第5章「とても楽しいゲームでした――HALはどのようにチェスをプレイするか」だろう。執筆者はM. S. キャンベル。チェスの世界チャンピオン,ガルリ・カスパロフを破ったIBM社のディープ・ブルーの開発メンバーの1人である。映画中のフランクとHALのチェス対戦の棋譜を一手ずつ分析し,HALとディープ・ブルーの違いを詳細に論じている。
 本書は1997年1月の生誕記念出版であるから,原稿締切は1996年である。したがって,この年の6番勝負でディープ・ブルーは1勝しかできなかった(1勝3敗2分け)ことが前提となっている。1997年ディープ・ブルーのリターンマッチでの勝利(2勝1敗3分け)を知ってからなら,論調はかなり違っていたかもしれない。偶然とはいえ,この1年の違いは残念である。見方を変えれば,HALが誕生した1997年にディープ・ブルーが人間を完全に負かしたことは,AI史において象徴的出来事であるともいえる。
 最後に,興味深い2つの記述を引用しておきたい。
 「もしHALが大きな目玉ではなく,きちんと顔をもっていたら,あれほど簡単にスイッチを切って殺せただろうか?」(p.155)
 「それではわたしたちはHALのような,知的で扱いやすくて柔軟な機械をつくりたがっているのだろうか? イエス。感情は,そのような機械に不可欠なのだろうか? おそらくイエス。実際,現在まで人工知能がこのような仕事をこなせないおもな理由は,感情の欠如だと思われる。ただし,もうひとつ疑問があって――わたしにはその答えがわからない。情緒的コンピュータをもつにあたって,人々の準備はととのっているのだろうか?」(p.334)
擬人化エージェントを研究する者にとって,励ましでもあり戒めともとれる,実に意味ありげな問題点の指摘である。数ヶ月前に出たこの本の書評を,なぜこの号まで取っておいたかご理解いただけるだろう。
) 

付録2 SFX映画時評

 ■『メン・イン・ブラック』(コロンビア映画/ソニー・ピクチャーズ)
 赤字続きだったソニー・ピクチャーズを一躍97年度配収No.1に押し上げたヒット作である。製作総指揮S.スピルバーグ,監督B.ソネンフェルド,SFX担当はお馴染みのIML社。MIB(Men In Black)とは,地球上で暮らすエイリアン達の監視機関で,その捜査官が「黒ずくめの服」を着用している。『バットマン』や『マスク』と同様,コミックがベースになっていて,荒唐無稽なエイリアン達(付写真1)が続々と登場するスラップ・スティック調のコメディである。
 Web上の(米国での)映画評では,『T2』や『ジュラシック・パーク』ほどCGを用いる必要性はなく,ストーリーだけで十分通用するとあったが,そんなことはない。やはり,エイリアン達の描写にはSFXは不可欠で,とりわけCGなしではここまで楽しめる作品に仕上がらなかっただろう。これが半分の量だったら,実につまらなかったと思う。
 『ジュラシック・パーク』の60カット,続編の『ロスト・ワールド』の190カットに対して,SFXシーンが約250シーンもあるという。なるほど,それぞれは短いが,様々なSFX技術を駆使したカットのオンパレードである。SFX史の記念碑となるようなエポックはないが,IMLの実力ならではと思わせるものがある。(もっとも,後半の円盤の墜落シーンだけは,かなり安手の作りでIMLにしては手抜きだと感じた。)昨年の10月号(No.215)で報告したように,SIGGRAPH '97のElectronic Theaterでは,6〜7本の劇場用映画が含まれていたが,中でもこの作品は「さすがIML!」と声に出したくなるほど光っていた。
 実際,どこかで使っていた技法だなと思わせるシーンが少なくない。クルマの変形は『T2』以来お馴染みのモルフ,犬がしゃべる口元は『ベイブ』のそれ,MIB本部に寄生するワームの動きは『ロスト・ワールド』のコンピーに似ている。主役(?)の大ゴキブリ型エイリアン,バグ・マスターの狂暴な顔付きと派手なアクションは『ジュラシック・パーク』のラプターで磨いた技だろうなと想像できる。これだけ何本も凝視してきたので,我々にはCGキャラクタと模型の区別がつくようになったが,一般観客にはまず分からないだろう。
 この手の恐竜や怪獣はもうお手のものだろうから驚かないが,その他にもプロだなと感心させられるシーンがある。エンディングで,MIB本部のあるニューヨークからキャメラを引いて,アメリカ,北米,地球全体,太陽系,銀河系…へと一気にスケールアップする。これは,なかなか見事な出来栄えだ。途中には,他のビルやヘリ等から撮った実写や,ランドサット画像あたりも使っていたと思われる。銀河系は当然CGだろう。解像度の変換もカット間のつなぎもディジタル処理ならではである。ビデオが入手できれば,1コマずつ追いかけてどうつないでいるのか,じっくり眺めてみたいものだ。
 映画のタッチは,『インデペンデンス・デイ』ほどパニック映画風でなく,『エイリアン』ほどホラー調でもない。『ゴースト・バスターズ』や『マスク』の路線に近い。エイリアンのキャラクタのバラエティと楽しさは『スター・ウォーズ』のモス・アイズリー空港の酒場のシーンに匹敵する。
 キャスティングも成功している。MIB捜査官K(トミー・リー・ジョーンズ)とJ(ウィル・スミス)のコンビの妙は出色だ(付写真2)。『48時間』のニック・ノルティとエディ・マーフィー,『リーサル・ウエポン』のメル・ギブソンとダニー・グローバーのコンビか,それ以上だろう。映画の結末でKは引退したことになっているが,復活させてシリーズものにすることも大いに考えられる。
 そんな風に色々と想像し,他の映画と比べながら見るのが楽しい映画である。セリフもしゃれていて,UFOマニアが喜ぶシーンも満載,ということも米国での大ヒットの要因だったようだ。このアップテンポのコメディのノリを日本の観客は理解するだろうか? 映画館よりも,レンタルビデオで大ヒットしそうだ。
 に色々と講釈しながら見ていたら,隣の席のこわそうなオバサンに「静かにしてよ!」と叱られてしまった。ゴメンナサイ。
) 

Dr. SPIDER(田村秀行) & Yuko(若月裕子)
[(株)MRシステム研究所]

←前の回へ↑目次へ→次の回へ