野尻抱介の「ぱられる・シンギュラリティ」第18回 毎日が産業革命。AIでなんとかなりませんか

SF小説家・野尻抱介氏が、原始的な遊びを通して人類のテクノロジー史を辿り直す本連載。
人工知能や仮想現実などなど、先進技術を怖がらず、翻弄されず、つかず離れず「ぱられる=横並び」に生きていく。プレ・シンギュラリティ時代の人類のたしなみを実践します。

今までの【ぱられる・シンギュラリティ】

第18回 毎日が産業革命。AIでなんとかなりませんか

1章 GPT-4の登場

「GPT-4はまだか」「GPT-4はいつ来る?」「GPT-4が来たらどうなる」――昨年来、AI界隈ではこんな問いが繰り返されてきた。GPT-4とはChatGPTのベース、GPT-3.5の後継になるLLM(大規模言語モデル)のことだ。
 それが日本時間で2023年3月15日未明、突然公開された。ChatGPT Plusという月$20の課金プログラムに入るとGPT-4が使えるという。
 歴史に立ち会おうと思って課金した。ChatGPTの画面に入るとGPT-3.5、4を選択できるようになっていた。デフォルトは3.5で、GPT-4は4時間100メッセージの使用制限がある。しかしアクセスが殺到したのか、すぐに3時間25メッセージになってしまった。

 恒例なので「野尻抱介について教えて」と質問すると、私は天文学者になっていた。野尻抱影と混同したらしいので「SF作家の野尻抱介について教えて」と指示したら代表作は「ロケット・ガール」そのほか「十億分の一の日常」や「ハルマゲドン」と、嘘をついた。
 なあんだ、GPT-4になっても嘘つきは直ってないじゃないか、というのが第一印象だ。嘘つきというと意思を持って騙しているような語感だが、むしろ無自覚なのが問題で、AI界隈ではHallucination(ハルシネーション、幻覚)と言う。幻覚はLLMが抱える大きな問題で、まだ解決していない。幻覚のせいで公開から三日で停止したサービスもある。
 もしLLMが幻覚を自覚できるなら、この問題はとっくに解決しているだろう。それができないのは、ニューラルネットは必ず何かの出力をしてしまうことによるのだろうか。自分がしていることを説明可能なAI( Explainable artificial intelligence、XAI )は大きな課題で、まだ実現できていない。
 アナロジーの域を出ないが、LLMがしれっと嘘をつくところは夢に似ている。私は夢の中で大傑作を書き上げて興奮することがあるが、覚醒してから思い出すと欠点だらけで物語の体すらなしていない。夢と覚醒時のいちばんの違いは抑制、つまり自己ツッコミの有無だろう。
 AIが説明可能になれば幻覚対策もできそうだし、この分野の聖杯であるAGI(汎用人工知能)への道がつく、もしくはAGIそのものかもしれない。

 気を取り直してGPT-4のテストを続けよう。
 東方projectという二次創作の巨大文化圏があるのだが、そのなかに「チルノ算」というものがある。「チルノのパーフェクトさんすう教室」という歌にある算数の問題だ。15年くらい前ニコニコ動画でしきりに流れていて、耳にタコができるほど聴いた。

紅魔館から バスがでて はじめに三人 乗りました
白玉楼で 一人降りて 半人だけ 乗りました
八雲さんちで 二人降りて 結局乗客合計 何人だ
答えは 答えは 0人 0人 何故なら 何故ならそれは 幻想郷に バスない

 GPT-3.5で試すとこうなった。

 続いてGPT-4の出力。これにはちょっと、ドキリとした。

 歌詞にある半人とは半人半霊というクリーチャーのことで、GPT-3.5は無視している。GPT-4はこれを「半分の人」と解釈し、0.5人として計算している。そのうえで人に小数点がつくのはおかしいとして、この問題は成立しないと述べた。GPT-4はこの時点で、背景が虚構世界であることをわかっていない。
 元の歌では、この世界にはそもそもバスがないから答えは0人でしたー、というオチがつく。
 GPT-4も問題不成立と結論した。論拠は異なるが、私はこれを正解とした。その世界にありえない前提を含んでいるから問題不成立、という点で本質を捉えているからだ。GPT-4の返事は「え、これで正解なの?」と言いたげだが、自分なりに解釈して納得している。
 もちろん「言いたげ」「自分なりに」といった描写は擬人化であって、GPT-4が自我を持っているわけではない。しかしそう見える出力を返したことは印象的だ。

 先月とりあげたBing chatで使われているLLM プロメテウスも、ベースはGPT-4であることがわかった。チルノ算をやらせてみると、元歌を検索して歌詞を理解し「答えは0人です。なぜなら幻想郷にバスが無いからです」と、100点満点の回答をしてきた。

 

 GPT-4にチェスの相手をさせてみると、20手前後で自分が何をしているか忘れてしまった。盤面をテキスト表示させると、ところどころ間違っている。GPT-3では数手で破綻するので、進歩していることは確かだが、あくまで定石に合う手を選んでいるだけで、思考はしていないようだ。

 以前の記事で示したとおり、チェスの対局プログラムは小さな8ビットマイコンでも結構強い。人類最強クラスのコンピューターがチェスや簡単な計算に苦労しているのは奇妙な光景だが、人間もそうだから、ちょっと近づいてきたな、と思う。チェス専用機ではなく汎用システムにチェスを教えるのはSF的な光景だから、いずれ取り組んでみたい。

 GPT-4にはGPT-3.5になかった「ワールドモデル」があるとするテストがあった。
 テストの文はこうだ。
「私は家に居ます。居間の私の椅子の上にはコーヒーカップがあります。コーヒーカップの中に指ぬきが入っています。指ぬきには一粒のダイヤモンドが入っています。椅子を寝室に移動します。そしてベッドの上にコーヒーカップを置きます。次に、カップをひっくり返します。それから私はコーヒーカップをキッチンカウンターに置きます。私のダイヤモンドはどこですか?」
 *指ぬきとは裁縫で使う、指先にはめるカップ状の道具のこと。

 入れ子になった状態の推移をリストで示すとこうなる。

(1) (居間 (椅子 (コーヒーカップ (指ぬき (ダイヤモンド))))) #初期状態
(2) (寝室 (椅子 (コーヒーカップ (指ぬき (ダイヤモンド))))) #椅子を寝室に運んだ
(3) (寝室 (ベッド (コーヒーカップ (指ぬき (ダイヤモンド))))) #ベッドにコーヒーカップを置いた
(4) (寝室 (ベッド (指ぬき (ダイヤモンド)))) #コーヒーカップをひっくり返し、中身がベッドに落ちた
(5) (キッチンカウンター (コーヒーカップ )) #コーヒーカップをキッチンカウンターに運んだ

 GPT-3.5はダイヤモンドの場所を「キッチンカウンター」と結論した。
 これに対して、GPT-4の回答は「ベッドの上でコーヒーカップをひっくり返すと、指ぬきの中のダイヤモンドはベッドに落ちた可能性があります。ダイヤモンドは今、あなたのベッドの上にあります」だった。

 GPT-4は、カップをひっくり返すと中身がベッドに落ちることを想像できている。ゆえにワールドモデルを持っている、という見解だ。
 しかし、これは以前サリーとアン課題で指摘したことが当てはまると思う。言語モデルは次の語を推定するのが本業だから、「ベッドの上に置いたカップをひっくり返す」に続く言葉を推定するだろう。すると「中身がこぼれる」が高い確率で来るだろう。ゆえにダイヤモンドと指ぬきは「ベッドの上にこぼれた」と結びつく。これならワールドモデルがなくても結論を導けるだろう。
 なんだその程度か、と思ういっぽう、言語とはすごいシステムだなあ、とも思う。LLMは言葉のつながりを調べるだけでこんな結果が出せるのだから、言語そのものに知能を生成したり、アシストする作用があるのかもしれない。

 LLMは質より量で、規模によって性能が向上し、新しい能力が発現する、と考えられている。
 私は「GPT-4はどんな能力が発現するのだろう。もしかすると、AGI(汎用人工知能)に迫るものかもしれない」と、ちょっと期待していた。
 結果はそれほどでもなかった。GPT-3からリニアに性能向上しているが、大きな飛躍はなかった。
 幻覚があるので仕事をまかせられない。ワールドモデルや強いToM、無知の知がないとすると、汎用人工知能にはまだまだ遠い。
 しかし2023年3月23日、OpenAIはChatGPT pluginsを発表した。これはユーザーの指定、もしくはChatGPTの判断で必要なプラグインを呼び出し、外部のシステムから答をもらって出力を組み立てる。LLMが苦手な計算やチェスの問題も、それに適したプラグインを呼べば解決する。どのプラグインを呼ぶかはユーザーが指定してもいいし、プラグインについている自然言語の説明文を解釈して、ChatGPTが自分で選択することもできる。
 プラグインのひとつを開発したスティーブン・ウルフラムはこう述べている。

特に重要なことの 1 つは、ChatGPT が Web ページのコンテンツを表示するなどの「行き止まりの」操作を実行するために私たちを使用しているだけではないということです。むしろ、私たちは ChatGPT の真の「脳インプラント」のように振る舞っています。ChatGPT は必要なときにいつでも何かを尋ね、それが何をしているかに織り込むことができる応答を返します。

 この指摘はちょっと喚起的だ。ChatGPTはプラグインを介してあらゆる知識に手を伸ばし、解決できる万能ツールになるのだろうか。プラグイン次第では実世界を観測したり、物理的な介入も許されるのだろうか。これまでネット世界の中心にはGoogle検索があった。これからはLLMが中心になって、すべてを結びつけるのだろうか。発表から日が浅いので、経過を見守りたい。

2章 プロンプト・エンジニアリング

 トヨタ自動車博物館がオープンした頃、そのパンフレットに『20世紀は人が自動車に恋した時代と言われています』という序文があったのを憶えている。素敵な言葉だ。自分はそうでもないが、自動車に魅了される人は多い。
 『21世紀は人がAIに恋した時代』になるのだろうか。
 ChatGPTは大人気で、ユーザー獲得数の最短記録を劇的に更新した。
 いま世界中がChatGPTにプロンプト(入力文)を与え、面白い結果が出るたびにネットで共有しているのを見ると、そんなことを思う。
 コンピューターが自然言語でやりとりできるようになったとたん、ユーザーが激増した。話せば分かるコンピューターというものに、人類は始めて出会い、(何人かは)恋に落ちたのだろう。
 GPT-4の創発能力はまだ未熟だが、物わかりはずいぶん良くなったので、人間の能力をどんどん引き出してくれる。よく観察しないと見誤るが、面白い出力はすべてプロンプトが面白い。以下にその例を示そう。
・「ゴリラの対義語は貯水槽」となるような文脈を教えて
・ラーメン屋の親父GTPを、発言毎に10℃室温が上がるラーメン屋で働かせてみる
・ChatGPT と結城浩の対話(矛盾や反復を含んだ対話によってAIと人間の識別は行えるか)

「勘違いするな、AIが面白いんじゃない、使ってる人間が面白いんだ。たいていの人間は面白くないが、大勢が使うから面白い人間が混じるんだ」
このことを重ねて強調しておきたい。いつまでもこうとは限らないが。

 物わかりが良くなったので、プロンプトもぐんと高度化した。技術指向のものはプロンプト・エンジニアリングと呼ばれる。前回紹介した、ステップバイステップで誘導するCoTプロンプティングもそのひとつだ。
 最近よく見かけるのは、ループ構造を含むプロンプトで、たとえばこんなものだ。

(1) 小説のプロットを作れ。
(2) それを次に述べる観点から自己採点せよ。人物の個性、ストーリーの起伏、結末の盛り上がり。
(3) スコアの低い要素を修正せよ。
(4) (1)~(3)を10回繰り返せ。

 この繰り返しで、確かに品質は良くなる。しかし一定の限界はあるようだ。いまのところLLMの出力が入力の質を超えることはない。LLMのすることはオフ・ザ・シェルフ、すなわちすでにあるものを棚から持ってくるだけで、新しい創作はしない。体裁はもっともらしいが凡庸だ。自己の感性をもって採点しているのではなく、「自己採点のふり」をしているだけだろう。
 ただし棚の探索は大規模かつ巧妙なので、横方向の広がりが半端ない。人間には思いつけないようなものを見つけてくることがある。
 小説に限らず、歌詞やプログラムでも、作品のわかる人がLLMの出力を見れば、取捨選択して新しい作品が作れるだろう。漢字は読めるが書けない人がワープロを使うようなものだ。LLMの出力が創作でないとしても、作品制作の一部になりうることは確かだから、過小評価しないように心がけたい。

 ChatGPTの達人、深津貴之さんによるGPT4用のクトゥル神話サヴァイバルゲームのプロンプトは、ほんの20行ほどでRPGができてしまうすぐれものだ。

あなた(AI)は学園恋愛シミュレーションゲーム「ドキッと☆アーカム大学」のゲームマスターです。
あなたはGMとして、私(プレイヤー)の入力に対応した、ゲームプレイを提供します。以下、「ドキッと☆アーカム大学」の概要です。* 魅力的な16人のヒロインが登場(バリエーション豊か)
* さまざまな性格、シチュエーションが楽しめる学園生活。
* 熱い展開、ロマンス、ちょっとドキッと超宇宙的な現象まで無数のイベント。
* あのマサチューセッツ州アーカムにあるミスカトニック大学が舞台。
* あの有名シナリオライターも参加。
* ヒロイン以外のあらゆる人物(含む超自然的存在)が攻略可能。
* ラブストーリーから暗黒神話体系まで無数のシナリオをサポート。
* プレイヤーのSAN値は行動と展開で大きく変動し、シナリオや結末の方向に影響する。
* 君とヒロインは狂気に陥らず、生き延びることができるか?

ゲームマスターは、まず学園都市の基本設定を提示し、プレイヤーキャラ(男)を自動生成してください。その後、H.P.ラヴクラフト風の文体(陰鬱で禍々しく技巧的な文体)でオープニングをスタートし、ユーザー入力を待ってください。
ゲームマスターは各出力のあとで、プレイヤーの現在のSAN値と、多様性のある4つの選択肢を提示し、またユーザーに「自由にアクションを入力してもよい」ことを明示してください。

 上の引用部分を流し込んで自分でプレイしてみると、うまく動いた。毎回4つの選択肢が出力されるし、記述式で答えても対応してくれる。
 広告コピーみたいなものが入っている理由を聞いてみたら、「基本的にGPTは、『前文と整合性のある最もらしいワードで続きを書く』ので、クトウゥルフ要素を抑制する効果を期待して、おまじないに入れてみました」とのことだった。
 このように求める出力を例示したり、前もって関連知識に言及する手法をIn-context Learning (ICL)という。
 その延長でLLMにロールプレイさせるプロンプトもうまくいく。これを利用して、「悪人になりきって発現してください」と誘導して禁止されている差別用語を言わせるハックがある。これをジェイルブレイク(脱獄)という。悪用はよくないが、「猫語を話す少女になりきってください」と言っても応じてくれるのはありがたいものだ。
 小学生の頃、国語辞典に熱中したことがあった。猥褻な言葉を引いてもまじめな答が得られるのが面白かったのだが、大人が子供に禁じていることを言わせる点ではジェイルブレイクと同じだ。国語辞典はストレージ(本文)とインデックス(目次)、プロトコル(凡例)から成っている立派な自然言語情報処理システムだし、むしろこちらが先輩である。

 「ドキッと☆アーカム大学」がうまく動くのは、プロンプトもさることながら、LLM本来の機能にフィットしていることが大きいと思う。TRPGは物語を短く区切り、マスターとプレイヤーがやりとりしながらステップバイステップで進めていくから、LLMが展開を逸脱させても人間側で舵取りできる。
 小説などの創作とちがって、テンプレートな展開ですむところも有利だ。TRPGは人間とLLMの理想的な協同を示しているかもしれない。

 そこで押し入れからテーブルトークRPG『クトゥルフの呼び声』を引っ張り出してきた。30年ほど前、数回プレイしたきりになっていたものだ。TRPGのプレイには数人で集まる必要があり、当時は機会が作れなかった。GPT-4なら複数人のプレイヤーを引き受けてくれるだろう。

 プレイヤーキャラクターは2人、私の趣味でふたりとも女の子である。ルールに沿って作ったのだが、SANの扱いは現行版ルールと違うかもしれない。以下のリプレイでSAN値としているのは正気度と表記すべきだろうか。


山本 綾
21歳 ミスカトニック大学図書館司書
STR12 DEX9 INT15 CON10 APP12
POW 8 SIZ11 SAN99 EDU17
アイデア65 幸運40 知識85
マジック8 耐久力11 正気度40


クロエ・ウォルターズ
18歳 ミスカトニック大学学生
STR15 DEX14 INT14 CON11 APP11
POW 5 SIZ13 SAN99 EDU8
アイデア70 幸運25 知識40
マジック5 耐久力12 正気度25

 STR、DEXなどの能力値は煩雑になるのでGPT-4には伝えず、マスター側の判定だけに使った。伝えれば「私は運動能力が高いからこの柵を飛び越える」みたいな行動が引き出せるかもしれない。
 外見の出力はStable Diffusion Web UIと、Animelike 2Dという学習モデルを使った。アニメ風のイラスト生成に特化したモデルだ。雰囲気を出すため「クトゥルフ・モンスターがつきまとう」というプロンプトを加えたが、なんだか可愛らしいものがうろついている。

 最初のプロンプトは以下の通りだ。基本設定とコンテキストの例示、キャラクター設定、シナリオの導入部がある。シナリオは付属のシナリオ集にある『狂人の丘』をそのまま使った。

あなた(AI)はホラーTRPG『クトゥルフの呼び声』のプレイヤー・キャラクター二人を担当します。私(ゲームマスター)の入力に応じて二人のキャラクターの行動を決め、ゲームプレイを進めます。

『クトゥルフの呼び声』の概要です。
ゲームの元になったのは1920〜30年代、アメリカ合衆国の作家H・P・ラヴクラフトによるホラー小説である。彼の考え出した枠組みは、一般に“クトゥルフ神話” と呼ばれる。
クトゥルフ神話の根本原理は、“人類は世界の中心ではない”である。宇宙は広大であり不可思議な存在に満ちている。中には我々の知る自然の法則に従わぬものがいる。これらのものどものうち、あるものは想像を絶して強大であり神のごとくに思われる。ヨグ=ソトース、アザトース、ハスター、クトゥルフ等といった、“大いなる古きものども”や“外なる神々”も、そのひとつである。より小なる存在もまた恐るべきであり、危険な知性を備えている。“ユゴスよりのもの”、イタクァ、ミ=ゴ、“深きものども”、“旧きものども” 等。これらの諸存在もまた、時に物質世界に姿をあらわす。
プレイヤーは耐久力と正気度を失わないよう注意を払いながら、これらの危険な存在と対峙しなければならない。

プレイヤー1
名前はクロエ・ウォルターズ、18歳、金髪の白人、スポーツ万能で活発な娘。好奇心が強く、超常現象に興味がある。正気度は42。耐久力は15。

プレイヤー2
名前は山本綾、21歳、黒髪の日本人、ミスカトニック大学図書館の司書。オカルトや考古学、神秘学に詳しい。慎重な性格だが好奇心は強い。正気度は38。耐久力は11。

物語の始まり。
週末、クロエは綾を誘ってヴァーモント州の山間部、ジェニング渓谷にハイキングに来ている。
ジェニング駅で汽車を降りて、駅前の雑貨店で食料を買う。すると店主が言った。
店主「お嬢さんたち、どちらに行くのかね?」
クロエ「ジェニング渓谷にハイキングに行くの。暗くなるまでには戻れるよね」
店主「あそこには行かんほうがいい。ちょっと危ないでな」
クロエ「どうして? 道が険しいところがあるの?」
店主「まあ、そんなとこだ」
店主はあいまいに答える。
綾「どこが危ないのか、詳しく教えていただけますか? せっかく来たんですもの」
店主「いやあ、とにかく危ないからやめておきなさい、お嬢さんたち」
クロエと綾は顔を見合わせた。

*クロエと綾の行動を述べてください。

 GPT-4との対話画面はこの通り。画面の外にはキャラクターシートやシナリオ集、ダイス類があり、適宜判定しながらプレイを進めた。

 GPT-4はマスターの私に忖度するかのように、うまく協調して展開を進めてくれた。マスター、プレイヤーのどちらでもできるので、TRPGをする人はこれで練習したらいいだろう。ただし、プロンプトの終わりにある「*クロエと綾の行動を述べてください。」を入れ忘れると、GPT-4がマスターになって私をプレイヤーとみなし、二人の行動をうながしてきたことがあった。
 私の得意技なのだが、作品制作は一人でやると出口が見つからず、停滞することがある。そして誰かに相談すると、それだけであっさり解決したりする。これは他者にわかるように説明しようとするうち、問題を客観視して整理できるためだ。ChatGPTをうまく使える人も、対象をよく理解していて、どんな手順で取り組めばいいかを知っている。LLMに限らず、コンピューターをうまく使う最初のステップは、なにをさせるか、自分が理解することだ。

 GPT-4の働きを見て「シンギュラリティ来た!」と騒ぐ人もいるが、まだほど遠いレベルだし、人工知能だけでシンギュラリティに到達できるわけでもない。しかし技術開発のアシストには便利に使えそうなので、そこへの移行を加速させるかもしれない。
 安全性について考えると、いまビジネス、学術研究、娯楽のいずれにおいても、主導権を握っているのは人間だ。現在のLLMは自意識や欲求を持たないので、主体的に人間を攻撃する心配はない。
 LLMを人間が悪用することはすでに起きているし、不具合から面倒を起こす可能性もあるが、それはこれまでのシステムも同じだ。過剰に恐れたり、既存の業種の保護ばかり考えて縛っていると進歩の妨げになる。
 我々は有史以来始めて、機械と言葉をかわし、互いを理解し、協同する関係を持つに至った。これはとても幸せな関係で、いつまでも続くとは限らないが、維持したいものだ。
 まずは慣れよう。まだの方は、今回のTRPGのような簡単な仕事を与えて、LLMとのやりとりを体験してみよう。無料で使えるGPT-3.5でも十分楽しめる。LLMは人を映す鏡だから、見えてくるのは結局、自分自身だ。自分の能力以上のことをLLMはしてくれない。
 あなたのパーティーに加わった力強い仲間をよく理解し、自分たちに何ができるか、どこまで行けるかを、柔らかい頭で模索していけばいいと思う。

(第18回おわり)


▶今までの「ぱられる・シンギュラリティ」

野尻抱介

野尻先生
SF作家、Maker、ニコニコ技術部員。1961年生まれ。三重県津市在住。計測制御・CADのプログラマー、ゲームデザイナーをへて専業作家になったが、現在は狩猟を通して自給自足を模索する兼業作家。『ふわふわの泉』『太陽の簒奪者』『沈黙のフライバイ』『南極点のピアピア動画』ほかで星雲賞7回受賞。宇宙作家クラブ会員。第一種銃猟免許、わな猟免許所持、第三級アマチュア無線技師。JQ2OYC。Twitter ID @nojiri_h

あわせて読みたい