コンピュータイメージフロンティアIII
電脳映像空間の進化(5)

因特網空間の探索と可視化


プロローグ

 ゲストへのインタビューを3回続けたので,そろそろ自分たちの調査とルポによるサイバースペース論議に戻ろう。第1回「2つのサイバースペース」(5月号)では,「第1のCS」と「第2のCS」に二分し対比してみた。現在の勢いをそのまま反映させるなら,「第2のCS」,とりも直さずインターネット界の話題が中心とならざるを得ない。
 そうはいっても,この巨大な新メディアの生態のどこから切り込めばいいのだろう?番外編「峠の群像(下)」(96年6月号)で告白したように,CIFシリーズとしては,当初のインターネットの爆発的普及を取り上げる暇もなく過ごしてしまった。誰を対象にどのレベルまで掘り下げるべきか,迷っていたのである。
 この迷いはいまも続いている。技術的な観点から分析し解説するのか,読者の代表としてメディア革命の様相をレポートするのか。いずれにしてもO plus E誌の読者の平均的レベルを想定しなければならない。ところが,このインターネットについては,誰がどこまでの知識があり,どれほど使いこなしているのか,さっぱり分からないのである。学歴,職種,年齢等とインターネット経験との相関が極めて低いからである。
 悩んでいるうち,いずこも同じなんだろうと思えてきた。周りにやたら詳しいハッカーがいるかと思えば,食わず嫌いで拒絶反応を示す輩もいる。ならば,素直にこの混沌状態をそのまま俎上に乗せてみようと考えた。
 インターネット習熟度については,私(Dr. SPIDER)とパートナーのYukoは,情報分野を生業とする同世代人の平均か少し上といったところだろう。習熟度と分析力は比例するわけではないが,平均的な着座位置からこの「サイバースペース革命」の模様を眺めて論じることにしよう。
) 

1. 因特網の文明開化

 モザイク伝来の頃

 インターネットは,コンピュータ・ネットワークのネットワークであり,世界規模であることから,もはや唯一無二の存在である。そのルーツが,冷戦時代に米国防総省のARPANETに端を発していること,NSFがその後研究ネットワークとしての発展を支えてきたこと等,歴史的経緯もあちこちで語られているが,爆発的普及の要因は,商用サービスの開始とWWW(World Wide Web)の登場であることは論を待たないだろう。
 そのWWWは,1989年にスイスにあるCERN(欧州粒子物理学研究所)のトム・バーナーズ・リーが考案した分散型情報システムである。ということをほとんどの人が知ったのは後年で,WWWというコンセプトが一躍注目を集めたのは,イリノイ大学アーバナシャンペーン校のNCSAが「モザイク」(Mosaic)なるブラウザ・ソフトを開発し,これをフリーソフトとして公開してからのことである。
 モザイクの公開は1993年の初めで,またたく間に噂が噂を呼んで広まったというが,それはUNIXマシンで稼働するフリーソフトをたえず物色している若い研究者達の間でのことだ。当初は,Xウィンドウ上で動くのでXモザイクと呼ばれていた。春から夏頃までに数十万件のダウンロードがあったという。
 モザイクがもう一段階上の市民権を得るのは,93年10月から11月にかけてPC版がリリースされてからである。これが業界のニュースとして伝わり,日本でも話題になってきたのは1994年の夏頃からである。何やら海の向こうでは新しい話題で湧いているらしいことが,アチコチから聞こえてきた。筆者らの所属する企業の研究所は,社内では情報分野の最先端を走っていて,物好き達がこのフリーソフトを入手して試していた。
 秋口になると,モザイクでウェブのページを見てみたいという社内の連中が集まってきた。まだ外部のネットワークへの接続を許された部署は極めて限られていたからである。既に,日本でもウェブサイトがいくつも立ち上がっていて,首相官邸のページには村山首相(当時)の顔写真が貼ってあった。意識の高いボランティアがいたのだろう。中身は大したことなかったが,ホームページをもつことが格好いいことであり,そうしないと時代遅れになるというムードが,もうこの時点で芽生えていたようだ。
 この年の夏は,「マルチメディア」と題した啓蒙書・解説書の最盛期で,「インターネット」がこれらにとって代わり,書店店頭を賑わすのは95年の上半期のことである。アダルト・ページもすぐに登場し,個人のマニアによるリンク集も次々と現われた。社内では,有志がそれぞれの部署のホームページを立ち上げていた。
 こうして,身の廻りでの出来事までなぞって語るのは,いつどのレベルまで広がっていたのかを確認するためである。既にインターネットとWWWの地位が確立し,その社会的意義が揺るぎないものになってから,自分がいかに早くこの変化に気づいていたかを誇張して言う人々が少なくないからである。
 93年にモザイクが一気に広まったと聞くと,94年にはもう皆が使い始めていたかと思いがちだが,そんなことはない。少なくとも日本では,電子メールを常用していた人々の中での話題に過ぎなかった。WWWが一気にマルチメディアの主役に躍り出たわけでもない。1994年のマルチメディア界の話題は,まだ双方向CATVによる情報ハイウェイであり,ビデオ・オン・デマンドであった。

 広帯域実験の停滞

 1994年10月に発行された日経エレクトロニクス別冊「米国情報スーパーハイウェイを支える技術」という冊子がある。ほとんどがビデオサーバやセットトップボックスに関する記事である。その中に「詰めが足りないNII構想,インターネットにも課題あり」と題した記事があった。初出は,同誌6月20日号で,米国の業界人の記事の翻訳ものである。
 この記事では,NIIのバックボーンとしてインターネットに注目が集まってきたが,守秘性に問題があり,「主として大学向けネットワークとして機能し続けよう。さらに,企業も一部の商用アプリケーション用ネットワークとして使う程度だろう」としている。本場のアメリカでも,まだ当時はこの程度の認識だったのである。
 NTTが「マルチメディア通信の共同利用実験」として,2年間広帯域のディジタルネットワークを無償で貸与するとアナウンスしたのが1994年4月であった。この年の秋は,殺到した申し込み(百数十グループ,約200社が参加)の対応におおわらわで,ようやくこの実験がスタートしたのが1995年4月のことである。何しろ,日本の主要企業のほとんどがこれに参加表明していた。このことからも,当時のマルチメディアの話題の中心は広帯域ネットワークであったことが分かる。ここに参加していた人達の多くは,インターネットのWWWとモザイクは注目すべきものであっても,それはメディアとして別の意義をもつものだと捉えていたのである。
 この共同利用実験は1997年3月までで終了する。各々のグループに技術蓄積はできたろうが,全体としては盛り上がりに欠け,竜頭蛇尾に終わってしまった。NTT自身方針変更して,OCNサービスの開始を前面に押し出してきた。この間にも海の向こうからは,双方向CATVをめぐっての企業提携の破談や実験中止の報が次々と伝わってきた。

 あっという間のメディア維新

 情報ハイウェイ・ブームで盛り上がっていた広帯域のマルチメディア通信実験を,あっという間に葬り去ったのがインターネットであることは間違いない。ATM交換機,ルーター,光ファイバ…。色々と投資して,果たしてそれだけの価値のあるアプリケーションが出てくるのかと,皆が多少けげんに思っているところへ,パソコンとモデムとプロバイダへの接続費用さえ用意すれば,曲がりなりにもマルチメディア・データをやりとりできる新しいメディアが登場したのである。
 成功要因の一つは,この参入障壁の低さだろう。初期投資が少なくて,話題の新技術に触れられるということで,一気に広まった。まさに爆発的というに相応しい。ここで,フリーソフトの果たした役割は大きい。多少使い勝手は悪く,扱える画像は貧弱でも,人々はこの手軽なメディアを支持したのである。
 こうした解釈は後づけの理屈で,この程度のクオリティのものが一夜にして大衆に受け入れられると予想できなかったことを,ビル・ゲイツは『ビル・ゲイツ未来を語る アップデート版』(アスキー,1997年)の中で正直に告白している。この思いは筆者も同じである。
 もう一つの成功要因は,無料のコンテンツの大量供給である。驚くほどのスピードで,世界中が自発的にウェブサイトを作ったのである。流行に対して誰もがもつ,ある種の強迫観念の仕業だとも言えるだろうが,それにしても,これだけ短期的に価値のあるコンテンツが揃うというのは珍しい。行政府がどんな政策を表明しようと,国家プロジェクトで何を支援しようとしてもこうは行くまい。研究開発史から見ても,メディア史から見ても,まさに他に例のない出来事であったといえる。
 それにしても,あっという間に広大な情報空間と,それにまつわる新興企業群ができてしまったものだ。この間のドラマは今後もジャーナリズムにとっての恰好の題材として扱われ,伝説として残ることだろう。最近出た本の中では『インターネット激動の1000日』(日経BP社)がよくこの間の事情を物語っている(付録の書評参照)。

 原典に戻ってみると

 いまや,インターネット全体では,無料のサイトだけでも全部で2テラバイト,3,000万ページとも5,000万ページとも言われている。サイバースペースとしても空前のデータ規模である。これをどう活用して行ったら良いのか,その凄さが分かれば分かるほど誰もが途方に暮れてしまう。
 データ量もさることながら,インターネットに関する技術開発やサービス形態も急速に成長している。そのスピードが余りに急であるため,一体何がしたいのか,何ができるのかさえ見失いがちである。
 そんな時は原点,いや原典に戻るに限る。W.ギブスンの3部作に立ち帰ってみよう。
「電極(トロード)を着ければ,そっちに出て行け,世界じゅうの全データが積み重なったひとつの巨大なネオン都市。人はそこでぶらついたり,いわば把握したり。視覚的に,だ。というのも,視覚的にできないと,あまりに複雑で必要とする特定のデータに行き着けないからだ。」(『モナリザ・オーヴァドライヴ』,p.35)
 この「世界じゅうの全データ」とは,インターネット上のウェブサイトそのものだろう。夜な夜なこの「ネオン都市」に集い,徘徊するには,この因特網(インターネット)都市空間を道案内してくれるガイドが要る。「ぶらついたり,いわば把握したり」は,まさにネットサーフィンだ。ブラウザや検索ツールが,その定番ソフトであることとも符合する。「視覚的に〜行き着けないからだ」からは,WWWのリンク構造を可視化するツール類が思い浮かぶ。
 そんなことから今回は,「情報検索ツール」と「ウェブの可視化技術」について,その現状とこれからの方向性を述べることにしよう。

 自分のページが出てきて感激

 Yuko 94年当時,私はまだ学生で,CATVのことはよく知りませんでした。
 Dr. SPIDER 私はマルチメディア・ブームにどっぷりつかっていたので,逆にモザイクの立ち上がりの頃の実感がうすいんです。
  大学の研究室では誰ともなく使い始めて,すぐ日常的になりました。学内のあちこちで研究室紹介や個人のページが立ち上がり,友人のページを見て楽しんでいました。いつの間にかブラウザは,ネットスケープになっていましたが…。
  外のページは見なかったんですか?
  初めの頃,日本語では面白いページがほとんどなかったんです。海外のだと,英語なのでよく分からなくて,やっぱり面白くなくて(笑)。やがて,新聞社のニュースとか,趣味のページとか出て来ました。
  学内からスタートして,研究仲間に広がって,そして外を見たら,世の中にも一杯ウェブのページがあった。というのが,典型的なパターンですね。
  リンク集や検索ページが沢山できて,その後は楽でした。
  勝手にリンクを張れるというのがWWWの最大の特色でしょう。これで情報の流通が一気に加速しましたからね。
  ネットニュースや電子メールで意見を交換していたのが,WWWで一挙に世界が変わった感じです。
  もともと私は,ネットニュースはアマチュア無線と深夜放送のリクエストの合いの子のような存在だと思っていたんです。同好の士の語らいの場であり,その一方で自分のハガキを読んでもらいたい者の自己主張の場であると(笑)。WWWは,そのいずれをも増強できる場だったから,これだけ伸びたんでしょう。
  ニュースは消えてしまいますが,ウェブページはいつまでも見てもらえますね。私は,初めて作った自分のページが,検索サービスで出てきた時は感激しました(笑)。
  自分の収集したものを他人に見せたくて仕方がないマニアにはもってこいのメディアで,その結果が歴史に残る情報の大爆発ですね。インターネット≒WWWがここまで成長したのも,単なる偶然ではなく,機が熟していたからでしょう。マルチメディアや情報ハイウェイのフィーバーで,世の中に本物を受け入れる素地があったからだと思います。

2. 検索サービスの2つの形態

 WWWの利用で不可欠なのは,モザイクに端を発したウェブブラウザである。数あったブラウザ・ソフトも,いまやNetscape NavigatorとマイクロソフトのInternet Explorerの2大勢力に落ち着きつつある。ブラウザは別格的な存在として,次に誰もが使うサービスは検索ツールだろう。単にサイバースペースをぶらついていたのでは,時間つぶしにはなっても目的地(所望のページ)には辿り着けない。検索ツールもまた,電脳空間活用には欠かせないものになっている。
 検索ツールは,大別するとYahoo!に代表される「ディレクトリ・サービス」とAltaVistaHotBotに代表される「検索(サーチ)エンジン」の2つに分けられる。最近は,いずこもこの2つを併存させた検索サービスのサイトになりつつあるが,ここではその原理的な違いを踏まえて,現状を眺めてみよう。

 ディレクトリの基本は分類作業

 ディレクトリは,ウェブページの職業別電話帳のようなものである。分類を頼りに,欲しいページのアドレスを探すためのオーソドックスな手段だ。電話帳と異なるのは,コンピュータの画面は狭いからトップページには大分類のメニューが並び,それぞれが中分類,小分類の項目へと階層を降りて行く構造になっている。最下層に目的となるウェブサイトのリストがあり,リンクが張られている。インターネットが成長するにつれ,このリストが膨大になり,階層がどんどん深くなっている。
 このサービスの仕組みは次のようになる。
  1.  サーファがネットサーフィンをしてページを探してくる。
  2.  内容に応じて適当な項目に分類し,簡単な説明を添える。
  3.  ユーザが辿りついた最終項目をクリックすると,目的とするページへジャンプする。
 分類する側と選択する側の常識がずれていると役に立たないから,分類作業は内容を把握できる人手に頼らざるを得ない。ページ保有者からの登録制をとっているところは分類項目を申請させているが,このサービスの老舗Yahoo!では,いまも自前の手作業による分類を続けている。数十人のサーファ達がサイバースペース内を動き廻り,1人1日約100のサイトを分類しているという。まさに人海戦術で,サービスのクオリティを保っているのである。
 大分類は,「ビジネスと経済」「教育」「健康と医学」「趣味とスポーツ」…といった項目が並ぶ。Yahoo!は当初19あった大分類を14に再分類し,「Yahoo! Japan」もこれを踏襲している。「NTTディレクトリ」は21項目,Infoseekは米国で13項目,日本で12項目だが,項目名はどこでも似たようなものだ。
 インターネットにおけるディレクトリ・サービスの歴史は,Yahoo!の成長物語に象徴される。スタンフォード大学の博士課程の学生であったジェリー・ヤンとデビッド・ファイロの2人が,1994年4月に自分たちの趣味で始めた「ジェリーのWWWガイド」がその発端である。いつの間にか人気が高まり,Yahoo(Yet Another Hierarchical Officious Oracle)と名付ける経緯や,1995年4月にベンチャー企業として船出する物語は,前述の『インターネット激動の1000日』の第6章「インターネット検索サービス」で詳しく語られている。
 Yahoo!の成長は,ウェブサイトの増加とともにユーザが求めていた情報検索サービスに合致していたからであるが,ネットスケープに続くインターネット界の希望の星として,アメリカン・ドリームの期待が込められていることも見逃せない。ボランティア活動,無償の情報提供という形が,UNIXからインターネットに至るコンピュータ界の文化の正統派であると認知されたからだと指摘する声もある。圧倒的シェアを誇ったNetscape Navigatorの検索ボタンがYahoo!にリンクされていたことが,一気に知名度を上げるのにも役立った。
 Yahoo!がこうしてディレクトリ・サービスの確固たる地位を築いて以来,同種のサービスへの参入が相次いだが,現在に至るまでそれを脅かす存在は出現していない。一旦確立した知名度ゆえに,抜群のヒット数を保てることが企業経営の大きな強みとなっている。さらに,後述の検索エンジン主体のサービスに比べて,データベースのメンテナンスに大きな労力を要することが新規参入に対する障壁となっている。
 人手による分類作業がいつまで続けられるのかという危惧はあるが,ユーザにとってはこんなサービスが無料であるのは有難いことだ。

 検索エンジンはスピードが命

 もう一方の検索エンジンは,キーワードを入力するとそれを含むページのリストを返してくれるサービスである。その仕組みは次の通りである(図1参照)。
  1.  「ロボット」(WebCrawler,Spiderとも呼ばれる)は,予めリンクを辿りながら世界中のサイトを巡って集められるだけのページを収集してくる。
  2.  ページ内に含まれる単語を抽出して索引データベース(インデックス・ファイル)を作成する。
  3.  ユーザがキーワードを入力すると,条件を満たすページを索引データベースから検索し,得点の高い順にリストとして出力する。
 ディレクトリ・サービスが手作業を要するのに対して,検索エンジンはすべてコンピュータ・プログラムで実行できる。このため類似の検索エンジンが次々と登場している。基本はパターンマッチングによる全文検索技術であり,工夫はインデックス・ファイルの作り方にある。検索要求のたびに,指定されたキーワードが含まれるかどうかを調べていたのでは,結果が得られるまでに時間がかかってしまうので,(2)で検索に都合のよいファイルを作っておくのである。英語の場合は単語が明確な区切りとなるが,日本語の場合には若干工夫を要する。
 検索エンジンの命は,そのスピードである。(1)のデータ収集とAのインデックス作成が速ければ,より広範囲なサイトを巡れるし,更新の頻度も高く,最新の情報をユーザに提供できる。また,(3)の速度が速ければそれだけ快適な応答を達成できる。数ある検索エンジンは,このために速度を競い,サービスとしては保有ページ数の多さを誇っている。
 ワシントン大学のWebCrawler,カーネギーメロン大学のLycos,コロラド大学のWorld Wide Web Worm,カリフォルニア大学バークレイ校のInktomi等,WWWの夜明けとともに大学で作られた検索エンジンは,大半は企業に買収されたり,自らベンチャー企業としての道を歩んでいる。この種の検索サービスの場合も,Yahoo!と同様,無料が普通である。当初,入会金を取っていたInfoseekも,その後広告料収入に頼って無償化を図った。
 1995年12月に後発で登場したDEC社のAltaVistaが,その高速性を売り物に一挙に検索エンジンNo.1の名声を得た。同社は,αチップの高速性をアピールするためにAltaVistaサービスを始めたと言われている。その後,HotBotやUltraseek(Infoseekの高速検索エンジン)とデッドヒートを演じているが,一度得た名声は揺るがず,検索エンジンの代表格として知名度は高い。
 日本語の検索エンジンはあまり強力なものがなかったが,1997年3月に高速のgoo(グー)が登場した。収録ページ数も数十万件を数え,一躍本邦最大級の検索サービスとして注目されるようになった。

 まとめて面倒みるメタ検索

 検索エンジンが世の中にいくつもあるなら,これを片っ端から使ってしまおうというのが「メタ検索エンジン」である。各検索サービスのキーワード入力部を1つのページにまとめたものと,1回のキーワード入力で複数のエンジンに自動入力できるタイプとがある。ユーザが複数の検索サイトを渡り歩かなくても,これをまとめてサービスしようという訳である。いずれも,自分自身ではエンジンもデータベースも持たずに,他のサービスを借用しているだけである。いわば,「他人のふんどし」で相撲を取ろうというお手軽なインターネット・サービスである(そもそもリンク集自体もそうであるが…)。
 こうした検索サービスは,サイバースペースとしてのWWW空間が広がれば広がるほど,その有用性を増している。その反面,検索用ロボットが絶えずウェブサイトを歩き廻ったり,クリック1つで複数の検索エンジンが起動してしまうというのは恐ろしいことだ。インターネットの負荷を検索サービスが増大させているのである。検索エンジンが高速化すればするほど,探索力が上がり,負荷が増してインターネット全体の反応が鈍くなるのだから皮肉である。

 インターネット・ウォーズ特別篇

  いくつも無料のサービスがあるけど,皆さんは何をどの程度使っているんでしょうね。
  昨年の秋ですが,研究所内と関連部署内でアンケートを取ってみたんです。インターネットの利用者のほぼ全員が検索サービスを知っていて,使っていました。利用度は,Yahoo!とAltaVistaが圧倒的でした。
  何か関連情報がないかと探すときと,目的地は分かっていて辿りつきたいときとでは使い方も違うでしょうね。ツール自体はどうやって見つけているんですか?
  特に誰に教わったということはなく,雑誌やネットニュース,そして口コミで知って使い始めたようです。
  よくぞこんな充実したサービスが無料だなんて感心しますね。コスト的に考えて,ソフトウェア産業としては成り立ちませんよ。
  インターネットの世界は,ボランティア精神で始めないと認めてもらえないんです。いきなり商業主義を表に出すと嫌われるんです。
  アメリカのコンピュータサイエンス本流の伝統でしょうね。GNUは言うまでもなく,UNIXもXウィンドウもそうでした。モザイクやネットスケープには,その非営利主義のマインドを受け継いでいるという感じがするんでしょう。
  Yahoo!にもその香りがするんですね。スマートでエネルギッシュなハッカー達が作ったソフトやサービスを,成功させてあげたいという応援団がいっぱいいる感じです。
  そう。素性がそちらサイドにあれば,会社を作って成功するのは許せる。サンマイクロやアップルもその類いの企業でしょう。それに対してかつてのIBM,いまのマイクロソフトはアンチヒーローで仮想敵国になっている。
  ビジネス最優先で,ボランティア精神はあまり感じられませんね。
  IBMはかつて繁栄した帝国の総統。ビル・ゲイツはその暗黒面に魂を奪われたダース・ベーダー(笑)。ネットスケープのマーク・アンドリーセンは,最後のジェダイの戦士ルーク・スカイウォーカーで,ジム・クラークはオビ・ワン・ケノービ。彼らに味方するサンとオラクルは,さしずめハン・ソロとチューバッカ。もっとも,アップルのレイア姫を救うには,もはやちょっとやそっとのフォースを使っても駄目みたいですけどね(笑)。
  確かに,いくらExplorerが無償で提供されても,Navigatorを倒すための策略としか見えませんね。これは『帝国の逆襲』ですか(笑)。
  映画の通りに『ジェダイの復讐』が成功するかどうか分かりませんね(笑)。インターネットは,もはやUNIX文化圏を離れて,ビジネスソフトやあらゆるメディア産業に影響を与える存在になってしまったから,そちらのビジネス・モデルで考える必要があると思います。

囲み記事Infoseek JapanとNTTディレクトリ

3. 検索サービスの多様化と将来

 どのサービスも似たり寄ったりに

 階層型のディレクトリとロボット型の検索エンジンの2つに大別して話を進めてきたが,現実の検索サービス・サイトは両者が混在しようとしている。Yahoo!やNTTディレクトリにはキーワード検索機能が備わったし,InfoseekやLycosにはディレクトリも用意されている。とはいえ,それぞれの出自と得意分野は明らかで,Yahoo!のキーワード検索範囲はもともとのディレクトリの中が優先で,検索専用エンジンの誇る母集団にはかなわない。AltaVistaやgooは,今でもキーワード検索専用である。
 また,検索サービス間の相互乗り入れもあるし,NavigatorやExplorerの検索ボタンもメタ検索ページ化している。現時点での生き残っている検索サービスも生き残りをかけて必死である。単にリンク集を提供するだけでなく,最新のイベント情報や地域情報など独自のコンテンツを用意したり,ニュースや天気予報も提供するなど,総合情報センタ化しつつある。そのためトップページにはゴテゴテと様々なボタンが並ぶことになった。
 サービスを無料に保つためにはバナー広告が頼りであり,広告主に毎日のユーザからのヒット数(ページビューという単位で数える)を保証するには,あの手この手の魅力的なサービスでユーザをつなぎ止める必要がある。これはテレビの視聴率や雑誌の購読部数のようでいて,デパートでの美術展やサイン会をも思い出す。検索サイトに客を呼び込むと同時に,すぐに通過してしまわないよういかにつなぎ留めるか,再度戻ってくる工夫をするなど,固定客の確保に必死である。
 いずこも似たサービスなら,こんなに沢山ある必要はない。業界内でも,このままで生き残れるところは少なく,やがて淘汰される運命であることを知っている。

 多すぎるのも困りもの

 Yahoo!の知名度は別格として,各検索エンジンはいきおいエンジンの性能と収集ページ数をセールスポイントとしようとする。エンジンは並列処理で速度をかせぐ第2世代に入ったといわれている。索引データベースの更新速度も従来の数週間から数日以内に縮まっている。更新されていないページを飛ばしたり,ミラーサイトで重複したものを除くなどの工夫もなされている。
 この種の検索エンジンの比較をして,毎月性能比較表を作ったり,検索ツールに関するニュースを集めているマニアもいる。まるで検索サービス評論家で克明なコメントが彼らのページに載っている。
 強力な検索エンジンの欠点は,キーワード検索の結果,何10万件もの該当ページを見つけてしまうことである。大切なページを逃さないのはいいが,多ければいいってものでもない。これだけあるととても全部は見切れない。検索結果は大抵の場合,10件ごとにリストとして表示される。これを数回めくるだけでウンザリするから,せいぜい数十件しか見ていられないのである。
 出力の順位づけは,それぞれの検索サービスで独自の判断基準を用いている。一例としては,
  1.  キーワードがタイトルの中に出てくる
  2.  キーワードがページの中に複数回出てくる
  3.  キーワードがページの最初の方に出てくる
等がある。こうした機能を逆手にとって,意味のないページを設けたり,キーワードを飾りのようにして背景に埋め込むなど,高順位で出力されるように仕向けたページ作成側の作意も見受けられるという。
 多すぎる検索結果を絞り込むのに,複数のキーワードのAND,OR,NOT等の論理演算を検索コマンドとして許す機能は,ほとんどの検索エンジンが備えている。もっと長い「犬も歩けば棒に当たる」といったフレーズや,「おいしいラーメンの作り方」といった思いつくままの文章での高度な検索機能を提供しているエンジンもある。日本語のページの場合,自然言語処理技術が必要なことは言うまでもない。
 単純なパターンマッチングから,あいまい検索や類似検索といったAI研究に属す機能も盛り込まれ始めている。WWWという広大な情報空間を対象にした情報フィルタリングや分類の自動化も活発に研究されている。いまや,検索エンジンは情報技術の華やかな活躍の場となりつつある。
 その一方,ウェブページにはきらびやかなカラー画像で溢れているのに,画像の内容で検索することはできない。ウェブページの画像検索とうたっているのは,画像データに付されたタイトルをキーワードで検索している程度に過ぎない。画像データベースの類似検索は20年近く前から研究されているが,実用に耐え得るレベルに達していない。
 電脳空間が映像化されつつあるといっても,まだ自分の目で確かめながらたどるしかないのである。それゆえにYahoo!のように人手による分類作業が大きな価値をもっているのである。

 複雑な機能は嫌われる

  便利なツールが無料で利用できるのは有難いんだけれど,どこもかしこも派手な広告だらけで,しかもチカチカ点滅したり,目が疲れます。「ネオン都市」だから仕方ないか(笑)。
  私は広告以外も画像は表示しないモードにしています。
  TVコマーシャルを飛ばして録画するのと同じですね。それじゃ,広告主がいなくなってインターネット・ビジネスは成り立たなくなるかも知れませんよ。
  ボランティア精神で始めておいて,せっせと広告を求めるというのは,少し堕落のような気もします。エンドユーザに無料サービスを続けるには,仕方ないのかも知れませんが…。
  情報経済学的に見て,インターネットは極めて興味深い対象なんですよ。でも,まともに広告料収入だけでウェブサイトは経営できないみたいです。
  色々と高度な機能がついてきていますが,皆さん余り使っていないようです。単純で役立つから広まったので,複雑な操作は好まれないみたいです。そうしても,多少のことじゃうまく絞り込めないからのようです。
  数万件が数千件になっても,やはり見切れませんね。情報洪水から身を守ろうにも,土石流に対して折りたたみ傘と雨合羽で立ち向かうようなもんですね(笑)。でもね,検索エンジンのメカニズムを利用して,世界中のウェブ情報をほぼすべて保存しようと考えている人もいるんですよ。
  これだけの分量を記録できるんですか?
  画像や音声ははずしてテキスト情報に限れば,初期作業に1年あればよい。あとは,数ヶ月おきに更新されているページだけを拾うといっています。インターネット・アーカイブ社というベンチャー企業ですけどね。
  貯め込むだけじゃ困りますね。情報をフィルタリングするため各ページにラベルづけしておいたり,予め索引データを情報発信側が用意しておくという試みもあるようです。
  皆がそうしてくれるとロボットが収集するデータが少なくなるから,ネットワークの負荷も減りますね。でも,そうした約束事は,簡単には浸透しないと思いますよ。
  ブラウザ側がそうした規約を取り入れない限り,ウェブサーバ側は新しい試みをできない状況にありますね。
  だから,ますます有力ブラウザに取り入れられないと生き残れない構図になりつつあります。
  いよいよ,ダースベーダー対ルーク・スカイウォーカーの対決ですか(笑)。

4. WWWのビジュアリゼーション

 サイバースペースは迷子になりやすい

 ロボットはたくみにWWWの空間を走り廻っているようだが,これはネットサーファにとっては容易なことではない。WWW上のデータは複雑に入り組んでいて,まさにW.ギブスンの予見したように,視覚的に把握できないとサイバースペース内で迷子になってしまいそうだ。
 そもそも,なぜWWWが複雑かというと,
  1. 1つのページにいくつものリンクが張られている。 
  2. 外へ出ていくリンクは分かるが,他から参照されているリンクはすぐには分からない。
  3. リンクの相手先は,クリックしてみないと何があるか分からない。
  4. 入れたいデータが多すぎて,複数のページに別れていることがある。
  5. 名前はブラウザであっても,紙の本のようにパラパラめくって拾い読みできない。
  6. ページ間のリンク構造の全体が把握できない。
等々の要因が考えられる。
 もともと,T.ネルソンの提唱したハイパーテキスト自体に迷子現象の恐れがあることが指摘されてきた。WWWデータの場合,各ウェブサイトがハイパーテキストである上に,そのどのページからでも世界中のURLにリンクが貼れるのだから始末が悪い。たどれる空間が広大であるのに,目の前で眺められるページ情報の視野が限られているのも困る。いわば,複雑に入り組んだ坑道の中を,ヘルメットにつけたサーチライト1つで歩いているようなものだ。
 ネットサーフィンに興じて思わず時間が経ってしまった経験は誰にもあるだろう。同時に本来の道筋をはずれて,脇道に迷い込んだことも少なくないはずだ。ブラウザで同時に開けるページが1つだけのせいにしていたら,最近は勝手にヘルパーのウィンドウが立ち上がったり,もう1つのブラウザの画面が現れたりするようになった。こうなると,ますます自分がどこにいるのか分からなくなってしまう。

 ページ間リンクの可視化事例

 情報の可視化(Information Visualization;IV)なる研究分野が活発化してきた。3次元CG技術を科学技術計算結果の表示に活用するScientific Visualization分野には,約10年の歴史がある。流体力学や有限要素法の計算結果を視覚化,さらにはアニメーション化することにより,不可視情報や多次元データの把握が容易になったのである。
 科学技術データにとどまらず,この技術をもっと広く活用し,データベースやソフトウェアの構造の可視化に役立てようというのがIV技術である。そのIVの一分野として,WWWデータの可視化もまた大きなターゲットになってきたのである。
 IV分野自体がまだ若く,IEEEのInformation Visualizationシンポジウム(InfoViz)も1995年秋にスタートしたばかりである。その中で‘Visualizing the Internet’というセッションが組まれていた。AltaVistaで“web visualization”or“WWW visualization”をサーチしたところ,約100件が見つかった。大半は,ページ間のハイパーリンク構造やページ内容をビジュアルに表現し,迷子現象を回避する海図として利用する技術についてである。
 原典のW.ギブソンの意図したビジュアル化は,もう少し広い意味にも解釈できる。VRMLで表現した3Dのサイバースペースは,その究極の形かも知れない。ただし,VRMLのビューアも現在のようなハイパーリンクで別の空間に移動できるのなら,やはり迷子現象を引き起こしてしまう。ここでは,ページ間のリンク構造を可視化する技術に絞って話を進めよう。
 現在開発されているシステムのほとんどは,ハイパーリンク構造をノードとアークのグラフとして3次元的に表示する方法をとっている。複雑にからみ合ったリンク,膨大に広がるページの山をどうさばいてうまく見せるかが鍵である。一度に沢山のノードは表示し切れないし,対象とするWWW空間の大きさも制限しなければ有限のウィンドウの中に収まってくれない。WWWを扱うのは,技術的にそう簡単ではないのである。以下では,いくつかシステムの例を紹介しよう。
納豆ビュー(慶應大学松下研究室)
 URLを指示して起動させると,そのページを起点として,リンクでつながったページが,球状のノードとして表示される。それぞれのリンクに応じてアークがつながっている(図2)。注目したノードを持ち上げたり,様々な角度から眺めることができる。この持ち上げたときに,他のノードがくっついてくる様が納豆のようなので,「納豆ビュー」と呼ばれている。
 ブラウザと連動させてページ内容も見ることができる。納豆ビューはどんなサイトでも対象として可視化できるが,SparcStation上で実装されていて,PCでは利用できない。
Cone Tree(ゼロックス社)
 階層構造を3次元的に表示するシステムとして先駆的なものである。親ノードを円錐の頂点に,子ノードを円錐の底面に均等に配置して階層関係を3次元的に視覚化する(図3)。
 この可視化ツールは円錐を回転して,注目する子ノードを最前面に出せる点に特色がある。特にWWWに特化しているわけではなく,一般的な階層データの可視化ツールとして開発されている。
HotSauce(アップルコンピュータ社)
 ページを表すノードが空間(X space)内に浮かんでいる(図4)。リンク情報は表示されていないが,ツリー構造を想定して,各階層が異なった色で表示される。
 注目ページを指定すると,そこを中心にズームアップし,空間中を各ノードが浮遊する。ページ名をクリックすれば,ページ内容をブラウザ上で見ることができる。
 このシステムはプラグイン・ソフトとして供給されているので,ブラウザに取り込んで実際に動かせる実用レベルに達している。ただし,HotSauceビューアで可視化して眺めるためには,ページ発信側がアップルの提唱するMCF(Meta-Content Format)と呼ばれる形式のファイルを用意しておく必要がある。納豆ビューのように,ビューア側だけで可視化が達成できるわけではない。
 この他に,バーミンガム大学のNarcissusもノードとアークでリンク構造を可視化するツールであり,一方,Fourth Planet社のWebSightはウェブマスターが自分のサイトを管理するためのツールで,リンク構造と文書構造の他にウェブへのアクセスの統計等も可視化する機能を備えている。

 まだ使いたくはならない

  色々面白い事例はあるようだけど,まだまだこれからといったところですね。
  正直いって,まだ使いたくなるようなレベルに達していないんです。
  2次元の簡単なサイトマップがついたウェブサイトもあるくらいだから,3次元的に可視化したい要求も根強いと思いますよ。
  そうなんですが,入手しやすいHotSauceも対象となるサイトが余りないんです。Hot-Sauce用のMCFファイルの自動生成ツールもあるんですが,やはり発信側の負荷が大きいと余り採用されないみたいです。
  そういうページが増えてこないと,予めプラグイン・ソフトをダウンロードするユーザもいないし,発信側にとってもメリットが少ない。だから対応ページも増えないという悪循環に陥るんでしょう。この場合も,有力ブラウザが標準仕様として採用してくれないと,伸び悩みますよ。もっとも,HTMLをブラウザ大手2社が,自分で勝手なところだけ変更したり拡張したりするのは困りものですがね。
  本来のHTMLのもつ文書の構造記述が充分に使われていないという意見もあるようです。この構造をうまく活用すれば検索エンジンにも可視化ツールにも役立つはずなのですが…。
  一直線に突き進んできたインターネットの爆発的成長も,ここへきていくつか反省すべきところが見えてきたということでしょうね。
 それでも,技術的問題ならそれを克服する工夫が次々と提案されてくるでしょう。インターネットが発展し,広帯域化されることは間違いないから,その映像化・可視化の方向に進むことも確実だと思います。

付録 マルチメディア書評コーナー
 ■ロバート・リード(山岡洋一訳)『インターネット激動の1000日 上・下』(日経BP社,各本体1,500円,1997年)(☆☆)

 『シリコンバレー・アドベンチャー』の書評(96年6月号参照)時にも書いたが,日経BP社はこの種のハイテク・ビジネス書を発掘してくるのがうまい。インターネットにまつわる企業群の話題など,各種報道で耳にタコができるほど聞いていたつもりだったが,これだけのボリュームの取材は,やはり新たな視点を与えてくれる。少なくとも,日経本紙や日経BP社の各誌の表層的で刺激的なタイトルの記事よりはコクがある。米国の調査会社からの毎月のレポートに比べると,一歩引いた立場で各企業の成り立ちを眺め,これからの推移を考え直す余裕を与えてくれる。
 邦訳の副題は「WWWの地平を切り開くパイオニアたち」で,原書の表題は『Architects of the Web』(ウェブの建築家たち)である。WWWの世界をリードするキーパーソン8人を選び,1人(1社)に1章ずつを割り当てたオムニバス形式のドキュメンタリーである。大抵の人は,「モザイク」を創ったM. アンドリーセンや,「ヤフー」のJ. ヤンの存在は知っていたが,「リアル・オーディオ」のロブ・グレーザー,「C/NET」のホールシ・マイナー,「ホットワイヤード」のアンドリュー・アンカーなど聞いたことなかっただろう。フィルタがかかって日本に伝わってくるシリコンバレー情報を,もう一度元に戻してくれるという意味で良いビジネス書である。
著者のR. リードは,元SGI社でネットスケープ社との提携責任者を努め,現在はベンチャー・キャピタル勤務だという。シリコンバレー現地情報の奥深くにまで入り込んでいる感じが行間からも伝わってくる。各章の主人公の何人かには数十時間ものインタビューをしたというから凄い。取材する方もされる方も,気力と体力がよく続くなと思う。
 第3章のキム・ポレーゼー(マリンバ)と第6章のJ. ヤン(ヤフー)がよく書けていて面白かった。VRML開発のボランティア,マーク・ペッシの章も,VRMLのこれからの動勢を読む上で役に立つ話だ。
 アメリカン・ビジネスならではと思わせるエピソードにも溢れている。Javaの開発チーム・メンバーではなく,マーケティング担当者だったK. ポレーゼーが,サンをスピンオフしたチームのまとめ役となり,やがて新会社マリンバのCEO(最高経営責任者)となる。研究開発と事業経営の人事の切り分けを納得して読んでいながら,それでもこのCEOが女性であったことに後で気づいて,やはりアメリカだなと感心してしまう。
 ヤフー社の設立,資金繰りをめぐるベンチャー・キャピタルとのやり取りにもリアリティがある。フルタイムのCEOを探す間,つなぎのCEOを雇うという事実にも驚く。派遣の女子社員並みにCEOがひょこひょこやって来るなんて,日本じゃとても考えられない。
 サンの創業者の1人,ビル・ジョイがJavaの前身の「ライブオーク」の開発に突如として関与を始めたり,VRMLの仕様をめぐるM. ペッシとマイクロソフトとのいざこざも生々しくて面白い。こうした海の向こうの人間模様やビジネス・スタイルの違いを知らずに,日本企業がこの世界に飛び込んでも火傷するだけだろう(知っていても,何もできないだろうが…)。
 情報量は多く,興味深いドキュメンタリーであるが,一気に読み通すには退屈な部分も少なくない。起業家の物語と業界事情の現状分析が入り混じっていて,ストーリーテリングになっていないせいだろう。50〜100ページもある各章の中で,何の見出しもなくダラダラ書かれているので,読む側もどこで一呼吸置けばいいのか分からなくなってくる。☆☆に留めたのはそのためである。
 巻末に(原書では序文として)J. ニール・ワインラント氏とやらの「背景解説」がついている。日本の文庫本の解説に比べると随分と長いが,この1000日の解釈としてはよくまとまっていて役に立つ。その文末に「本書を2001年に読み返し,これらの企業がどうなったか,業界と技術がどうなったかを,現時点での見方と比較してみると,面白いにちがいない」とある。まったく同感である。
) 

← 前の回へ↑ 目次へ→ 次の回へ ">