文字サイズ
検索

ホーム > プレステージレクチャーズ講義録 > 第11回 長尾 真 先生 『人工知能を目指して』 4/5ページ

第11回 長尾 真 先生 『人工知能を目指して』 4/5ページ

電子図書館の研究

そのような研究を進めながら、60歳近くになり、この研究分野の研究者の数も増えてきたので、この辺で自分がこれまでやってきた研究成果を利用して、何か新しいことができないかと考えました。その結果、電子図書館の研究をやることがいいのではないかとやり始めたのが、1990年頃です。

これからは全てがデジタルの世界に変わっていくだろうと。いままでは情報分野でもコンピューターのハードウェアは一所懸命やられている、コンピューターのソフトウェアも一所懸命やられている。しかし、それだけでは何もできません。先ほど言ったようにコーパスの問題があります。つまりこれからコンテンツの時代になっていくのだと考えました。コンテンツの時代とは何かというと、情報集積の場である図書館の電子化がまず、必要になるのではないかということになるわけです。画像処理と言語情報処理の2つの技術を用い、電子図書館をつくろうと考えたわけです。図書館は本を集めているわけですが、本はテキスト、言語から成り立っています。しかし、中には写真もたくさんあります。ですから、写真と画像、その両者を組み合わせることによって電子図書館がうまくつくれるのではないかと考えたわけです。

まず、書物をコンピューターに入れるということです。いまの図書館は、本を借りたい場合、著者やタイトル、いろいろなものを入れたらポンと出てきます。図書館の情報の出し入れは本が単位になっているわけです。ところが電子図書館にしてテキストを全部コンピューターの中に入れると、出し入れする単位は本の単位である必要はなく、単語単位でもよい。文章単位でもよい。1つの本の章単位でもいい。どんな単位でも取り出すことができるという利便があります。ですから、マイクロコンテンツで出し入れする。電子図書館での検索単位は、章、節、パラグラフ、ページ、図など、自由に選ぶことができるわけです。それが実現しないと面白みがない。たとえば皆さんが博士課程で論文を書くときに、誰々の本を探したいとき、何百ページもある本を始めから終わりまで読むわけにもいかない。参照するわけにもいかないので、何ページから何ページまでを参照し、自由な単位で参照できる。そういう図書館をつくる必要があるわけです。その結果、いくつもの本のあちこちの箇所でマイクロコンテンツを取り出してきて自由に編集することによっておもしろいことができるのではないかと考えました。つまり編集工学もこれからおもしろいテーマになるわけです。

それを実現するために、たとえば1つの本をこのような構造にする。本の第1章は第1節から第何節まであり、それがどのページに対応しているか。このような構造で入れることによって、いろいろなところから取り出すことができるようになります。それを取り出すとき、表題の部分から取り出す。これは普通の図書館がやっていることです。それに対してキーワードで取り出すことは、本の最後に書いてある索引のようなものです。また、目次から取り出す。抄録を取り出す。あるいは本文の好きなところを取り出すことができる。こういう形で、電子図書館に本を入れるということです。

もう1つ、電子図書館で大事なことがあります。普通の図書館でしたら、本を取り出してみて、読者に渡せば、その人がどういうふうに読むかということについて図書館は関係しなかったわけです。しかし、電子図書館にすると、書物をコンピューターの中に入れることだけではなく、取り出したものが自由に読めるような判別装置を導入しなければいけません。スマホはいい例でしょう。そこで電子読書端末、電子読書のための機能をきっちり表現してあげないと、一般読者は利用できないことになります。ですから、検索の結果得られるテキストの、読書における種々の付加的機能を充実することが大切だと考えました。辞書参照機能、関連情報参照機能、あるいは自動朗読機能、読み上げです。本の内容を音で聞きたい。特に目の不自由な方などには自動朗読機能も必要です。また、機械翻訳機能もあります。しおりを挿入したり、付箋を付けたり、メモを記入したり、また、画像を見られるようにする。そういった機能を付けるということです。

そのような研究を行い、1994年、プロトタイプをつくり、デモンストレーションして社会に披露しました。そして、1996年には京都大学付属図書館で部分的ではありますが、電子図書館を実現させました。

講義の様子

国立国会図書館

そこまで行ったあと、もっと研究しようと思っていたのですが、突然、京大の総長に推挙されて断れず、6年間総長を務めました。リタイアしたあと、情報通信研究機構の理事長をやったのですが、それをやっている最中に「国立国会図書館長」になれと言われ、そちらに行きました。そこで電子図書館をつくろうと考えたのです。

国立国会図書館は、ご存じのように、日本の知的資産の網羅的な収集をやっています。日本で出版される本は全て集めています。大学図書館や公立図書館になくても、国会図書館に問い合わせるとあります。ネット上からもアクセスできます。そういうことをやっていますから、とにかくこれを電子図書館化すると、日本中の人がどこにいても利用できるようになる、それをやりたいと考えました。

現在の国会図書館の規模ですが、これは六十周年のときの資料で7、8年前の資料ですので、現在はもう少し増えています。図書は約1,000万冊。雑誌も1,000万冊。新聞、レコード、音盤、画像・映像もいろいろあります。現在は総計約4,000万点の資料を持っています。そういうものが自由に使える。これは世界で5、6番目ぐらいでしょう。また、国会図書館は「国会」と付いているように、国会議員に対するサービスを第一義務としています。国会でいろいろ質疑応答する場合の資料も全て国会図書館に提出しており、議員の活動をサポートしています。そのほかにもちろん、一般社会の人たちも使っていただけるわけです。

資料への迅速なアクセスができるようにしなければいけないのですが、国会図書館の場合は、毎日2,000~3,000冊の資料が届き、それを整理し、書棚に入れるためには、1ヶ月ぐらい、大変な時間がかかります。難しい本もいろいろあり、この本はどこに分類すればいいかわからないときもあります。たとえば経済学に分類してもよいが、エンジニアリングに分類してもよいという内容のものがざらにあるわけで、分類に手間がかかります。私は、これから電子図書館に変わっていくのだから、分類項目を詳細に付けておいても、それは意味がなくなっていくのではないかと思いました。電子図書館にすると、自由な検索の仕方、キーワードで検索するといったことができますから、あまりそちらのほうに時間を取られるより、早く電子化をして皆さんが使えるようにしたほうがいいのではないかと言っています。しかし、なかなかそうはいかず、コツコツとやっています。900人近くの職員がいるのですが、毎日とても大変な作業をしています。

ということで、電子図書館はこれから非常に大事になっていきます。デジタル化の現在の状況ですが、図書が約90万点しかデジタル化できていません。400万点ほどあるうちの4分の1ほどです。また、古典籍という明治以前のものが30万点ほどあるのですが、9万点ぐらいが電子化されて、見られるようになっています。そのほかに雑誌が100万点ほど、博士論文もある程度電子化されております。いまは250万点ぐらいの資料が電子化されています。しかし、著作権の問題がありますので、著作権の切れているものは48万点、これはネット上で誰でも見ることができます。また、残りの131万点は大学図書館や公共図書館を経由して見ることができます。残りの51万点は国会図書館に行かないと見られない、それが現在の著作権法の限界です。

また、国会関係のデジタル資料はいつでも見られます。安倍総理が10年前の予算委員会でどういう発言をしたかと検索するとすぐに出てきます。また、検索システムを併用できるようにしました。国の予算が乏しいので、完璧な電子図書館をつくることはなかなか大変です。あと数百億円あればできるのですが。そうすれば国会図書館の全資料を電子図書館化できるのですが、残念ながら、いまはとてもできていません。

理想の電子図書館

理想の電子図書館はどういうものでしょうか。そこを目指して何をすればいいかについて考えたいと思います。

まずは、知識ネットワークの構築です。人間の頭には知識が山ほど詰まっています。それは本の形で詰まっているのではなく、概念のネットワークとして頭の中に詰まっていると考えていいと思います。ですから、本の内容を概念構造で捉え、いろいろな本の間でどういう関係になっているかというネットワークをうまくつくり出す。たとえば因果関係を考える。上位下位関係を考える。原因結果を考える。情報全体の部分全体関係を考える。そういうことで概念構造をうまくつくり上げます。これは、現在の情報科学で最も必要とされていることですが、非常に難しく、しかも膨大な情報を扱わなければいけないので、まだできていません。しかし、人工知能の研究を進めるための基礎情報として、知識をいかに整備するかということが最も大事です。

もう1つ、情報検索は、情報の含まれている方法を取り出すことです。あることを調べるときに、その内容が書かれている本ごとに出している、その本の中から自分の欲しい情報を取り出すということをやっています。しかし、申したように、マイクロコンテンツのように、本の中のここにはこういうことが書いてあるとすると、その書いてある部分だけを取り出すことができます。マイクロコンテンツを取り出すことになるわけですから、そこでは事実関係が書いてあるわけです。たとえば「富士山の高さはいくらですか」といったとき、いままでの図書館でしたら、「日本の山」といった本を出して「これに書いてありますから、見てください」と渡していました。しかし、電子図書館にすると、「富士山の高さ」と検索すると「3,776m」とすぐに出てきます。事実を検索して取り出す、あるいは真理を直接取り出す、電子図書館はそういうことができるわけです。そのように電子図書館、検索システムをつくることが必要になります。

つまり、情報検索から事実検索あるいは知識検索に変わっていくということだと考える必要があります。ウィキペディアのようなものです。そのような百科事典を検索することで、そこに自分の欲しい内容が書かれている、それを取り出すわけです。電子図書館の理想は、そういう新しいシステムをつくり上げることです。また、連想機能など、いろいろな機能によって有機的に結合する必要があるわけですが、それがどういうものであるべきかということについては、これからの研究に委ねることになると思います。

そのようにして、知識インフラストラクチャー、知識をできる限り蓄え、誰でも使えるという環境をつくることは、これからの情報科学の1つの大きな課題ではないかと思っています。人間の知識構造に電子図書館を近づけることの課題であると言えるでしょう。

研究に対する私の考え方

私は、このようにこんにちまでやってきたのですが、そこにおける私の研究に対する考え方をお話しておきます。

研究には波があります。簡単に言いますと、分野を開拓する時期、発展する時期、成熟している時期、衰退していく時期に分かれます。おもしろいことが起こる、あるいは見つけたときに、そこから発展がはじまるわけです。たとえば京大の山中先生がiPS細胞を見つけた、それが素晴らしいということで、いろいろな人がいろいろなものの考え方からどんどん研究を進めています。iPS細胞について、いまは発展期の段階にあるわけです。しかし、あるところまで行くと、その発展がある程度止まり、応用分野が開拓される時期になります。iPS細胞も、いまではどんどん応用分野に展開していっています。ある意味成熟期と見ることができます。そして衰退期に移っていく、つまり、あまりみんなが関心を示さなくなる時期になっていきます。1つの分野がだいたいこのようになっていきます。その耐用スパンがどこであるかというものは、学問の性格によっていろいろ違います。

このように移行していくわけですから、自分で新しい実を見つけることが肝要です。私の場合ですと、画像処理でいろいろなことをやりました。初期の段階でいろいろやり、多くの人がそれに参加してきました。言語処理はやっていたのですが、そういう段階を経て、並行して画像処理をやり始め、これはおもしろいと宣伝しながらやっていましたら、日本中で画像処理の研究をやる人たちが何百人と増えました。そしていろいろな応用研究が行われるようになりましたので、私は、そういう人がたくさんいるのなら自分はそれよりもう少し新しいものを見つけ、新しいことをやりたいと思うようになりました。成熟期に入る段階では新しいテーマを発見する。それを一所懸命研究することによって、また人気を得て多くの人が研究するようになってきます。画像処理をしてから、次は機械翻訳研究を行い、そして電子図書館の研究に入りました。

近年、電子図書館の研究も峠に来たので、私は情報の信憑性、信頼性の研究をやろうということで、私の教え子の先生方を 入れて、情報の信頼性の研究をやり始めています。現在、ネット上にあふれている情報はいろいろありますが、それがどのぐらいの信頼性で出るかについて、ちゃんとチェックする、調べる。それにはどうしたらいいのかという研究テーマはほとんどなされていないので、それをうまくやらないと駄目だと思い、進めています。現在は、情報分析研究、情報分析を行い、どの程度信頼性があるかということについて調べています。

そのような点から考えますと、情報処理の学問の特徴とは何かということになります。情報の構造は物理学などのような明確な法則に支えられたものではありません。対象に関して、第一次近似のレベル、あるいは第二次近似レベル、第三次近似レベルというふうに精度を上げていくことによって実用に繋がっていきます。情報科学というのはオールサイエンスですので、数学で全て解けるわけではないのです。数学はあくまで基盤として使うけれど、情報の本質を把握しようとすると、非常にきめの細かい、デリケートなところまで考えなければいけない。それを第三次近似と言っています。そのようなところに持っていこうとすると、結局人間のデリカシーの微妙なことがわかることとは何かを考えないとなりません。そこでは「意味」というものを避けて通ることはできないので、意味をどう把握するのかということになります。しかし、意味というものはなかなか定義できません。定義するということは内包的定義ですから、できませんので、仕方ないので外延的定義、用例に頼るということになります。用例を膨大に集め、これを、意味を表現するものであるとして使うわけです。コーパスベース、意味というものをどう表現するかといったとき、外延的定義に頼っている、つまり用例を全部見せることによって意味を表現しているとなります。そこでコーパスベースが非常に大事になっていきます。

21世紀の学問の方法論

20世紀の科学的方法論は divide & conquer、部品に分けていき、各部品がこうであると、正しいことがわかれば全体が正しいという考え方でした。自然科学は全部これで行っており、それが成功を導くことに繋がりました。

しかし、情報分野、つまり人間のやっていることは何かというと、これは divide & conquer では扱えないものです。全体を全体として捉えることを考えなければいけないわけです。ところが全体を全体として捉える方法論は、残念ながら、ないのです。そこが大きな問題です。今日のコンピューターの巨大メモリーと処理速度のおかげで、膨大なデータ、つまり用例を用いることができるようになったので、これが1つの全体を全体として捉える、人間的に捉えることの1つの突破口になっているのではないかと思っています。

知識は全ての人の共有財産であるわけで、オールマインドで透明性の高い、誰でも使える環境をつくることが情報科学において非常に大切なことではないかと思っております。

講義の様子

飛び飛びの話になって申し訳ありませんでした。別途プリントがあります。私の歩んできたことが書かれておりますので、時間がおありでしたらご覧いただければと思います。特にこのプリントの最後から2、3ページ手前に、井佐原先生と一緒にいろいろなことをやった内容も書かれています。お読みいただければ幸甚です。これで話を終わります。ご清聴ありがとうございました。

ページトップへ