「世にもあいまいなことばの秘密」川添愛著を読みました。著者の川添愛博士は、九州大学大学院にて博士号を取得。2008年津田塾大学女性研究者支援センター特任准教授、2012年から2016年まで国立情報研究所社会共有知研究センター特任准教授。専門は言語学、自然言語処理。著書に『自動人形の城ー人工知能の意図理解をめぐる物語』『言語学バーリ・トゥードRound1 AIは「絶対に押すなよ」を理解できるか』などがあります。ちなみに論文を検索すると「確実性アノテーション:『確実性判断を表す意味的文脈』を記述したコーパスの構築2008ー2010研究代表者、「形式意味論に基づく含意関係テストセット構築の方法論」2015共著などが検索されるので、人工知能と自然言語処理に関する研究を中心とされているようです。このブログを読んでいただいている方は、ご存知だったでしょうか?・・アノテーションとは、データーに情報を付け加える作業で、テキストや音声、画像、動画などさまざまな形式のデータにタグやメタデータを付与することを指し、具体的には、AIが正確に学習できるようにするために、特定の特徴やカテゴリーをデータに付与する作業だそうです。またコーパスとは自然言語の文章や使い方を大規模に収集し、コンピューターで検索できるように整理されたデータベースのことをいい、AIはコーパスを参照しながら構造化されていない文章を読むことができるのだそうです。そこでちょっと気になったので「大規模言語モデルLLMはコーパスとどのような関係があるのか?」という質問をCOPILOTに聞いてみました。それによると、LLMはコーパスを活用することで、単語の使用頻度を知ることができ、ことばの使い分けや言い回しの適切さを確認できるとのこと、さらに「マルチモーダル言語モデルとアノテーションの関係は?」という質問もしてみました。それには、マルチモーダル言語モデルの訓練には、アノテーションされたマルチモーダル対話データが必要で、たとえば、画像とテキストのペアを用いて、モデルが適切に関連情報を理解できるように学習します。アノテーションによってデータの正確性と多様性を保ち、モデルの性能向上に寄与しますとの回答が返ってきました。何やら川添博士の研究はAIに大切なもののようです。
今回の本は、日本語におけるあいまいな表現や意味の変化について探究しています。言葉の使い方や読み方によって意味が変わる例を多く取り上げ、日常的な表現の不思議さに迫っています。たとえば「大丈夫です」「冷房を上げてください」など、私たちがよく使う言葉に隠された曖昧さを解明しています。(COPILOT作)
この本を読んで、日頃から言い間違い、聞き間違い、誤変換でボコボコにされている私は、なるほど言葉というのはもともと曖昧にできているものなのだ・・と妙なところで納得してしまいました。もちろん間違いがおこならないように注意することは当然ですが、むしろ曖昧にできていることで、文脈や状況から判断して日常生活が円滑に進むようになっている側面もあると頭に入れておいて、その“あいまいさ”を“余裕”や“遊び”と捉えられるようにしていきたいと思います。
おまけ
ちょっと興味があったので、言語研究家の中村明裕さんが考案された「頭が赤い魚を食べる猫」(この本の中で出てくる五つの異なる解釈を持つ例)をCOPILOTに描いてもらいました。結果→池から打ち上げられた赤いまだら模様のある鯉にふさふさした毛を持つトラ猫が齧り付いている絵でした。
あまりにもリアルだったので漫画チックにしてという条件をつけたら結果→先ほどのトラ猫(なぜかトラ猫が好き)が窓際に座って真っ赤な小さいビスケットを咥えている画になりました。
ただ興味があっただけで、特に何か理由があったわけではないのですが、多少AIにも遊びがあるようです。