意味とニューラルネットワーク

　まず初めに、私はその手の技術や学問分野の専門家ではないし、体系立った学習も行っていないことを告白しておく。つまり以下の文章は素人の妄想だ。

　最近Google翻訳にニューラルネットが導入されたようで、いろいろな文章が翻訳にかけられては様々な人が意見を言い合っていた。そして「機械は意味を解釈していない」という批判が出ていた。「意味の理解」をぞんざいに扱ったままこのような話をするのは危険な気がするが、踏み込むと帰ってこれなくなるので、ここでは私と読者にある程度のコンセンサスがあるとしよう。するとニューラルネットによる翻訳は出力が非常に「文章らしい」が、確かに「意味」はわかっていないのだ。わかってほしいかどうかは別として。では我々は何なのか。ニューラルネットと我々と、どこに違いがあるのだろう。

　ニューラルネットによる翻訳は正しく機能しない場面がある。掛詞や言外の意味、状況に関する知識がないと一意に定まらない文章というものはあって、多くの人間はそのような文の意味を状況に対する推論や知識によって「常識的に」判断しているのだが、機械翻訳はそれができずに間違うことが多い。ニューラルネットはそのような文章でも翻訳例が多くあれば（もしくは適切なフィードバックによって）学習して正しく翻訳できるが、それと本質的に同じ状況を指すような、だが登場人物などが少し変わってあまり例のない文章を作ると、途端に間違えたりする。

　では我々はどうしているのか? 我々にとっての「意味」とは何だ?

　我々は生まれたときから、言語だけを入力されるのではない。五感の全てから情報が入力される。形、色、香り、手触り、音を放つものならそれも、全てが別の経路から入力され、それぞれの入力についてパターンを認識し、記憶できる。そのなかで、いくつかのパターン同士の共起性や時間的相関から、複数のパターンを結びつけて一つの、しかしそれぞれの要素がまた別の要素と結びついている、多角的なシンボルを作ることができる。言葉もその一つだ。言語特有のパターンやルールの中で、単語がシンボルのいくつかと強力に、またはゆるく繋がり、また言語のパターンやそれが持つメタなパターン自体もがまた一つのシンボルとなる。それらの共起関係から因果関係が、推論が生じていく。

　さらに、何らかの変化をするものについて、その挙動を再現・予測しようと試みるモデルもあるだろう。シンボル群の入力からシンボル群の出力を返すブラックボックス。例えば我々は他人の感情について、自分のそれと似た形で、しかしその人の行動によってある程度修正された感情のモデルを考え、たまにそのモデルが生成した状態に共感したり、怒りを覚えたりしている。もちろんそれができるには自分の感情や思考のモデルがあることが前提だ。自分が何を考えているかのモデル。自己認識。

　こうして想像してみると、我々は一貫したルールに基づく様々な毛色の異なる時系列データ（またはそう解釈できるというだけかもしれないが、まあ）を入力されて、自分にとっての意味やモデルを構築しているように思う。とすると、そのような過程を経ずに、単に記号列の対応関係だけを入力されるとどうなるのだろうか。倫理的に許されることではないが、いかに人間でも生まれてこの方感覚器官入力を完全に制御されて文章（と捉えられないだろうデータ列）の対応関係だけが与えられ続ければ、機械翻訳と同レベルの対訳しかできないのではないか。正常に発生することができたならば、だが。

　語学が得意な留学生に語学の学び方を（どちらの母語でもない英語で）尋ねたことがあったのを思い出す。その時、彼が「最初に言葉を覚えて、その後situationを覚える」ということを言っていたのを思い出す。これは外国語の単語を日本語の単語に単純に繋ぐだけではなく、シンボルとの直結を図るという意味合いで理解できる。これこそが求められる「意味」の解釈、自身の思考モデルと言語の直結であり、高度なスキルをもつ翻訳者が備えている能力だろう。

　とすれば、「意味」を解釈して、つまり一度シンボル群を経由して単語を繋ぎ直して、世界について起こりそうなことのモデルを駆使して文章を生成するためには、単に文章や対訳のサンプルを掻き集めるだけでは足りないのだろうか。人間が常に世界から受け取っているのと同じような形で、一貫性があるように様々な形式の入力を与えなければ、人間と同様の世界のモデルを作ることはできないだろうか。

　それもまた微妙な気もする。我々が出力する文章の裏にはその人自身の世界に関するモデルがあって、それは隠れ状態のようなものとして学習できるかもしれないからだ。あまりにも背後のモデルが大きいからといって、学習は不可能かといわれると違うように思う。ただ、それを実現するためのデータと資源が大きすぎるだけだ。もしかしたら文章を本当に本当にたくさん入力すれば、そして十分に複雑で適切にモデル化されたネットワークがあれば、単に文章だけから世界のモデルを構築できるのかもしれない。そのように構築された世界のモデルは、非常に興味深いものになるだろう。

　もちろん以上の言説はニューラルネットワークを擬人化しすぎである。ニューラルネットワークは神経にインスパイアされてはいるが、神経の持つ様々な特質を細部として単に落としたり、別の何かで置き換えている。それで十分かもしれないし、そうした細部に何かがあるかもしれない。ネットワークにとって重要であろうノード同士の結合のしかたもモデルによって様々だが、人間の脳のコネクトームが完成していない以上人間の脳と完全に一致させることは不可能だ。重要な特徴を既に十分再現できているかもしれないし、できていないかもしれない。まだ解明されていない意識にとって何が本質的かわからない以上、人間の脳と同じ方式で、と発言するのは慎重になるべきだろうし、そのあたりを棚上げしたまま直接的に我々の脳と比較する行為はあまり筋がよくないのではないか。

　それでも、我々の脳が単にたくさんの学習機が折り重なったものでしかないとしても（私は半ばそう信じているが）現行の機械翻訳とはズレがあるという認識は持っていてよかろうし、どのように違うかを少し考えてみるのはそこまで悪いことではないだろう。そこから出てきた結論をあたかも真理を悟ったかのように信じきってしまうのは、また別の話だが。