野尻抱介の「ぱられる・シンギュラリティ」第22回 奥村晴彦先生の情報リテラシー

SF小説家・野尻抱介氏が、原始的な遊びを通して人類のテクノロジー史を辿り直す本連載。
人工知能や仮想現実などなど、先進技術を怖がらず、翻弄されず、つかず離れず「ぱられる=横並び」に生きていく。プレ・シンギュラリティ時代の人類のたしなみを実践します。

今までの【ぱられる・シンギュラリティ】

第22回 奥村晴彦先生の情報リテラシー

1章 伝説のハッカーに会いに行く

 1990年代のはじめ、松阪大学の先生ですごいハッカーがいる、と話題になったのを憶えている。『コンピュータ・アルゴリズム事典』 『C言語による最新アルゴリズム事典』 『LaTeX美文書作成入門』などの著書で知られる、奥村晴彦 先生のことだ。
 世の中の科学者や技術者に「知らないうちにお世話になっている」ことはよくあるが、奥村先生もその一人だ。その頃はパソコン通信、NIfty ServeやPC-VANの全盛期で、人々はPC-9801やDOS-V機に低速のモデムをつないでアクセスしていた。たかだか数百KBの画像をやりとりするのにひいひい言っていた時代だから、通信にはLHarcもしくはLHAというデータ圧縮アプリケーションを使った。その元になった圧縮アルゴリズム、LZARIを考案したのが奥村先生である。(データ圧縮の昔話 )

 奥村先生は1951年、京都生まれ。名古屋大学理学部物理学科に進み、神奈川県で高校教諭になった。この頃、シャープの8ビットパソコンMZ-80Kを購入してプログラミングに熱中した。興味の対象はゲームよりも計算アルゴリズム。この頃の著書が縁で松阪大学に招かれ、その後、岐阜県の核融合研究所を経て三重大学教育学部の教授に就いた。

 奥村先生が自分と同じ市内にお住まいと知って、直接お目にかかったのは2011年6月、東日本大震災の発生から3か月ほど経った頃だ。
 当時は原発事故にまつわるデマや誤解、風評がさかんに流布されていた。奥村先生はTwitterで客観性の高い、有用な情報発信をされていた。下記の文献では奥村先生が東電のPDF文書をコンピューターで利用しやすいCSVファイルに変換する活動が報告されている。

大震災で見えてきた情報教育の課題(PDFファイル) 

 及ばずながら、私も放射能デマと戦っていた。中学生程度の科学知識で払拭できるのに、デマは風評被害や過剰対応を引き起こしていた。放射能そのものでは一人も死ななかったのに、デマや無知が元で暮らしを壊したり自殺する人が出てしまったのはまことにやるせない。情報が人を殺すところを目の当たりにすると、作家として平静でいられなかった。そこでTwitter で連絡を取り、三重大学の奥村研究室を訪ねた。
 この日は水産学者の勝川俊雄先生も同席された。その後も放射線測定をしたり、現地を取材したりして、冗談まじりに「チーム三重」と名乗ったりした。

画面右から奥村晴彦、勝川俊雄、私

奥村先生とは2012年7月のGCM ガイガーカウンターミーティングふくしまでもご一緒した。飯舘村での活動を視察したり、福島市、郡山市での交流会に参加した。

福島県飯舘村の惑星圏飯舘観測所にて
福島青少年会館にて。右から奥村晴彦、しりあがり寿、鈴木みそ、橋本麻里、早野龍五

 原発事故が一段落した2020年、コロナ禍が始まった。奥村先生はここでもコンピューター・フレンドリーではない行政の文書から情報を取り出し、統計処理を加えてTwitterに投稿されていた。感染状況のデイリーレポートは新型コロナウイルスが5類に移行するまで続き、私も重宝していた。
 コロナ禍では全国民へのワクチン接種という壮大な事業が進められたが、あきれたことにここでも反ワクチン派のデマが流布され、大きな勢力となってしまった。

 コロナ禍もそろそろ一段落かなと思えた2022年、第4次AIブームが勃発した。それは空騒ぎではなく、本物のブレークスルーだった。夏から秋にかけての画像生成AIの爆発的普及、12月からのChatGPTショックで毎日が産業革命状態になった。このことは本連載の過去記事を参照されたい。
 ここでもアンチAI活動やAI doomerと呼ばれるAIを危険視する人々の活動が持ち上がり、ネットの言論空間は混沌としてきた。
 そんな中、奥村先生は新情報をキャッチアップして、ローカルで動かせるものはダウンロードして実行し、ネット経由で試せるものは自分のプログラムからAPIを呼ぶなど、自ら確かめた上で情報発信されている

 この経緯をまとめると、それはパソコン通信の開闢とともに始まり、原発事故、コロナ禍、AIブームと、社会的な騒動が起きるたびに、私は奥村先生のお世話になってきたことになる。
 もちろん、誰かを盲信するなんてことは、他ならぬ奥村先生が戒めるだろう。しかし情報を得るなら信頼度の高い人を選ぶのがリテラシーというものではないか。
 この2023年も世界は混迷の中にあり、『君たちはどう生きるか』なんてタイトルの映画もヒットしている。そこで私は自転車を漕いで奥村先生を訪ね、インタビューを試みた。そこで得たことを、以下にシェアしよう。

2章 LLMとは何か

 奥村先生のご自宅は高台にある立派なお屋敷だった。緊張して玄関を通り、書斎に通されてみると、そこは壁面を埋める書棚とコの字型に配置されたデスク、ハイバックチェア、Mac、大型モニター2台、Happy Hacking キーボードと、なんだかとても親しみのある空間になっていた。

 いろんなことを聞いたのだが、まずLLM(大規模言語モデル。ChatGPTなどで使われているAI)についての質疑応答から紹介しよう。

――LLMはなぜうまく動くんでしょう? よく「言語モデルは次の単語を探す、オートコンプリートみたいなものだ」と言われるんですが、映画の台本を考えたり、企画書を作るなど、高次の問題に答えられるのはどうしてなのか、どうも納得がいきません。

 LLMをよく知っている人は「実はよくわからない」という答えが多いと思います。一般の人は「統計的に過去の文章から次の言葉を統計的に割り出しているだけで、実は簡単なんだ」と矮小化しがちです。
 よくあるのが「むかしむかしあるところに」に続く語は「おじいさん」が何%だから統計で出るんだ、というたとえなんですが、それで納得してはいけない。
 GPT-4だと過去4000〜32000トークン(≒単語)の文脈から次の語を予測する。でも、そんな長い文章に一致するのはインターネットを探してもみつからない。
 だから単なる統計処理だというのはミスリーディングで、なんらかの情報処理をしている。それがどういう処理かというと、アルゴリズムはTransformer なんだけど、パラメーターが何千億となってくると、どういう挙動をするかはわからない。そしてまだまだできないと思われていたことが、GPT-3でできてしまった。(注: 文字の強調は筆者による)

――LLMのスペックとしてよく言われるパラメーター数とはなんでしょう?

 脳細胞でたとえると、1個の脳細胞(ニューロン)には他の脳細胞から届いた信号を受け取るシナプスが1000~10000個ぐらいあって、シナプスごとに接触抵抗(重み付け)がある。この抵抗値がパラメーターにあたります。
 入ってきた信号の重みがある値になると脳細胞はパルスを出力する。脳細胞の入力はシナプスの数だけありますが、出力は1本だけある軸索を通っていく。そのような軸索がたくさん他の脳細胞に接続します。
 ニューラルネットも同様の構造をしています。
 一個の脳細胞に入るシナプスの数 ✕ 脳細胞の総数 = パラメーター数で、GPT-4では1兆程度と推定されている。人間の脳細胞は約1000億個(大脳だけなら140億個程度)で脳細胞一個あたりのシナプスは1000~10000個ぐらい。つまり人の脳は100兆~1000兆パラメーターで、GPT-4の100~1000倍くらいになる見当です。

――そして一個の単語に1000個ぐらいの数値の配列がくっついているのが特徴量のベクトルですよね。属性のリストというのか。

 単語のデータとしてはそうですね。でもそれを言うとかえって難しくなるかなあ。Transformerの仕組みはとても複雑なので、
 出力=関数(入力)
というブラックボックスで考えたほうが無難だと思います。
 文章を入力すると何千億もパラメーターがある非線形な関数で変換する。すると次の単語が出てくる。正しい答えが出るように何千億もあるパラメーターを少しずつ調節する。10年前にはとてもできなかったけど、GPUの発達でできるようになりました。
 パラメーターが多すぎて、何がどうしてこうなったのか、人間にはとてもわからない。しかし単純な統計処理ではなく、なんらかの情報処理をしていることは確かです。

 ChatGPTでのやりとりは、対話を積み重ねているように見えるけど、実際には、これまでの会話を合計した一個のプロンプトで初めて質問するのと同じ。過去のことをまったく憶えていません。こんな感じです。

1回めのやりとり 出力1=関数(入力1)
2回めのやりとり 出力2=関数(入力1+出力1+入力2)
3回めのやりとり 出力3=関数(入力1+出力1+入力2+出力2+入力3)
4回めのやりとり 出力4=関数(入力1+出力1+入力2+出力2+入力3+出力3+入力4)

対話を続けると、関数に渡す文章はどんどん長くなります。LLMで「4000トークンまでOK」というのは関数に渡す文章の単語が4000個までいけるということ。上限を超えると、古いやり取りは考慮されなくなります。(本稿ではトークン=単語、としておく)
 LLMは人間が考えているように見える会話ができるので、人間のように悪さをするんじゃないかという錯覚に陥るんだけど、実は学習はすでに終わっていて、ユーザーとの会話は学習しません。

――でもジェフリー・ヒントン(ディープラーニングの発明者)が危険性を訴えていることはちょっと不安になるんですが。

 うーん、ちょっとお歳ですし……(笑) 作っている人が理解しているわけではないですから。
AGIの定義にもよるけれど、いまの人が恐れているような、勝手に考えて悪さをするようなものには、LLMはなりようがない。

――AGI(汎用人工知能。人工知能開発のひとつのゴールとされる。 artificial general intelligence)はLLMの延長上にあるんでしょうか?

 LLMの拡張になるかもしれない。いまやっていることが無駄になるわけではないけど、いまあるものだけでは実現できない。

――LLMがAGIになるためには何が必要でしょう?

 まず記憶ですね。会話が終わったら消えるのではなく経験として残ってだんだん賢くなっていく。

――それは法的にはできないけど、技術的には可能なんでしょうか。たとえば中国みたいな国家が会話からの学習をがんがん推し進めたら、できちゃう可能性はありますか。

 可能性はありますね。

――日本は欧米よりAIへの反発が低いようですが、日本でもイラストの学習と生成には強い反発があります。ベーシックインカムのようなもので富の再配分ができるなら、仕事はどんどん奪われてほしいわけですが。

 そうなんです。それはAGIがなくても、普通のコンピューターでも達成できたはずのことなんだけど、話をどんどん複雑にする人がいるものだから、なかなか進まない。

――そのへんでマイナンバーの話とつながってきますね。

3章 つまらない仕事はコンピューターにやらせよう

――マイナンバー制度、およびマイナンバーカードについては賛否ありますが、奥村先生は推進する姿勢ですね。

 マイナンバーに限らず、消えた年金問題などもそうですが、データはユニークな何かで管理しないと収拾がつかなくなる。(ユニークとは奇抜という意味ではなく、ID番号のように対象を一意に示す識別子のこと) でも背番号をつけるなんて言うと、プライバシー派のひとが嫌う。番号を隠せばよかったのかもしれません。
 マイナンバーができれば公務員の仕事はほとんど自動化できるはずです。たとえばマイナンバーカードがあれば住民票なんかいらなくなるはずだったけど、コンビニに行って紙でもらわなくてはいけなくて、そのための紐づけで間違いが出た。これは要らないことをしたからこうなったんです。

――公務員は自分たちが正しく税金を使っていると証明するための仕事が9割とかいいますね。

 そうですね。マイナンバーがあれば確定申告もいらなくなるはずなんだけど、そうならない。面倒な電子申告をしなくても、紙に印刷して郵便で送るだけでも確定申告できる。マイナンバーがあってもぜんぜん便利にならないじゃないか、というのが庶民的な感覚です。よく考えて設計しないと、「新しいものを作ったらかえって不便になった。そんなのはやめちまえ」と言われてしまう。
 マイナンバーカードを使えばマイナポータルから自分の情報がどう使われているかを調べられるので、むしろ行政を監視する力になる。返納するとその力を放棄することになってしまいます。

――AIの開発や運用についても、みんなが足を引っ張っている感があります。情報リテラシーをみんなが身につけるってほんと大事だなと思います。
 いま情報学を教えるのは中学からでしたっけ。情報の授業をするのは大変じゃないですか。タブレットなど配ってもすぐ陳腐化するし。スマホもiPhoneとAndroidがあるし。

 ブラウザが動けばいいので、大丈夫ですよ。いまはブラウザで何でもできるので。
 コンピューターがあれば楽になる。そうなればベーシックインカムも実現する。そういう考えを持ってくれればいいんだけど、仕事がなくなると思う人がいる。

――エンジニアの世界では「怠けるためなら骨身を惜しまない」というのがあります。
そしてベーシックインカムももっと連続的、流動的にできないかと思います。仕事が5%減ったらBIも5%増える、みたいな。

 サム・アルトマン(OpenAIのCEO)はそういう宗派の人じゃないかと思ってるんですが。
 そういうことをみんなで共有できればいいんですが、リテラシーを教えればすむという感じでも、なかなか、なさそうです。

――「遊んで暮らせる世界は作れるんだ」という認識をみんなが持てば、そこに近づく方向になると思うんですが、なかなか信じてくれないですね。「働かざる者食うべからず」と思っていて。

 効率化しても資本家が搾取していくんだ、と思われてしまいますしね。

4章 ChatGPTの使い方

――ChatGPTを役立てる方法について聞かせてください。

 大学の先生でもChatGPTはまったく役に立たないという人と、すごく役に立つという人がいます。役に立たないという人はLLMがどういうものか、わかってないのではないかな。

――質問しちゃう人とか。質問ではなく指図するのがLLMの使い方だと思います。

 そうですね。僕の場合、最も役に立っているのは英作文と英文読解です。プログラミングは、もちろん役に立つんだけど、自分でできるし。
 英文は、ネットに流れてくるすごく口語的な表現だといくら勉強してもわからない。ChatGPTに聞くと、いとも簡単に訳してくれる。英作文も、こういう趣旨で書いてくれというと、うまくまとめてくれる。LLMは言語モデルだから、こういうことは得意ですね。

――プログラミング支援についてはどうでしょう?

 「Python でスペース インベーダー プログラムを作成して(Write a Space Invaders program in Python.)」 
という、一行のプロンプトを送った結果がこれです。すぐにプログラムを出してくれたので、実行してみたらエラーが出た。そこで「こんなエラーが出たよ」というと、ChatGPTは申し訳ありませんと謝ったあと、修正したプログラムを出力した。これはちゃんと動きました。


 このエラーは意外なものでした。定数のように使っているグローバル変数を関数内部で書き換えようとしてエラーになりました。Pythonは関数内で書き換える変数をローカル変数とみなす。するとその変数は未定義となるのでエラーになった。ChatGPTはこのことを例をあげて丁寧に説明してくれました

――ほんとに有用ですね。しかしLLMにオープンソースのプログラムを学習させることは問題ないんですか?

 反対運動がありました。オープンソースにはライセンスというものがあって、パブリックドメインではない。BSDライセンスだと「どこから持ってきたかを書く限り自由に使える」というのがあって、LLMはそれができない。ライセンスを出力できないので。
 ChatGPTが出てくる前に、GitHubでCopilotというAI支援システムがあって、そこで議論になりました。

――コーディングをLLMにまかせたとして、バグを見逃すことはありますよね。

 あります。しかし自分で書いてもLLMが書いても、どのみちテストはしなきゃいけないので、そこでわかればいいでしょう。

――なるほど。英訳などの言語処理と、プログラムについては非常に役に立つということですね。

 そうですね。LLMをうまく使えない人は検索と勘違いしています。さっきのスペースインベーダーのコーディングも最初はうまくいかなかった。その時点であきらめると「役に立たない」とみなしてしまう。何度もエラーが出たことがありましたが、根気よく直してと言ったら解決しました。そのスキルがあれば、LLMを使いこなせます。

――ハルシネーション(幻覚。LLMがつく嘘)についてはどうでしょう。

 昔のGPT-3では答えの候補を複数示すことができて、確からしさがわかりました。現在のChatGPTでは何度か質問して、答えが違うならハルシネーションとわかります。
 人間のほうでその問題をある程度知っていれば、ハルシネーションかどうかは大体見当がつきます。まったく知らないとLLMは使いこなせない。プログラミングでもエラーに対処できないと収束しません。
 勉強の仕方は変わるかもしれないけど、基本的な勉強は必要であり続けるでしょう。

ーーインタビュー終了ーー

 2時間ほどのインタビューを終えて、「はて、自分は奥村先生から何が引き出せただろう?」と考えた。話題は多岐に渡ったが、通底するのは、さまざまな問題に直面したとき、奥村先生が着実に、おそらく最短コースで対処していることだ。
 放射能のデマと向き合うのも、ChatGPTを使いこなすのも、マイナンバー制度を評価するのも、まず数学や物理学、情報学の知識に照らして見極め、理解する。そのうえで有用な情報を選別し、コンピューターで扱える形にして自動化し、誰でも利用したり検証できる形にしてシェアする。
 これが情報リテラシーというものだ、とあらためて思った。それは私達がプレ・シンギュラリティ期を生きるとき、まず身につけなければならない能力である。

(第22回 おわり)

▶今までの「ぱられる・シンギュラリティ」

野尻抱介

野尻先生
SF作家、Maker、ニコニコ技術部員。1961年生まれ。三重県津市在住。計測制御・CADのプログラマー、ゲームデザイナーをへて専業作家になったが、現在は狩猟を通して自給自足を模索する兼業作家。『ふわふわの泉』『太陽の簒奪者』『沈黙のフライバイ』『南極点のピアピア動画』ほかで星雲賞7回受賞。宇宙作家クラブ会員。第一種銃猟免許、わな猟免許所持、第三級アマチュア無線技師。JQ2OYC。Twitter ID @nojiri_h

あわせて読みたい