日本語大規模言語モデルにおける知識グラフを活用した意味理解性能の向上~言語処理学会第29回年次大会 登壇レポート~
SCSKは2021年度より、東京工業大学の岡崎研究室と自然言語処理に関する共同研究を実施しており、その研究成果を2023年3月に開催された「言語処理学会第29回年次大会」にて発表しました。
本稿では研究成果の概要を紹介し、同学会での言語処理の有識者による「ChatGPT」に関するパネルディスカッションについても取り上げます。
言語処理学会とは
言語処理学会は、言語処理分野の発展、応用技術の発展と普及、国際的なレベルでの研究者・技術者・ユーザ相互間のコミュニケーションと人材育成を図る機関として活動しています。
「言語処理学会第29回年次大会(NLP2023)」は、現地とオンラインのハイブリッド開催で、学術研究に携わる方、企業の研究者など1,800人前後という多くの方が参加されました。また、今回はChatGPTをはじめとする生成AIが社会的に大きな反響を呼び、自然言語処理研究界隈でも大きな影響があることから、自然言語処理有識者の方々によるChatGPTに関するパネルディスカッションが実施されました。
発表「日本語大規模言語モデルにおける知識グラフを活用した意味理解性能の向上」
今回発表した研究は、大規模言語モデル「BERT」で外部リソースの1つである「知識グラフ」上で記載された知識を扱えるようにする研究です。
近年、BERTをはじめとする大規模言語モデルが自然言語処理の幅広いタスクで高精度を達成しており、チャットボットやカスタマーレビュー分析など様々なビジネスシーンで活用されています。
BERTはWikipediaのような大量のテキストを用いて汎用的な学習を行う「事前学習」と、ドメインごとのデータを用いて文章分類や質問応答といったタスクごとに特化させる「事後学習」の2段階の学習を行います。事前学習の段階で大量のテキストを用いて学習することで、事後学習に要するテキスト量が少量で済み、さらにBERT以前の手法より高精度を達成できるというメリットがあります。
しかし、業界特有の専門用語や知識を扱った処理を行えるようにするためには、それらが記載された学習用データを大量に用意する必要があり、データ確保のコストやモデルチューニングのコストが障壁となります。また、テキスト上で明示されていない知識を扱えないことから、学習時に獲得していない知識を必要とする処理では、精度が低下するという問題があります。これらの解決方法として、知識グラフをBERTに適用する研究が英語や中国語などのテキストを対象に盛んに行われています。ここでいう知識グラフとは図1のように事物の関係をグラフ上で整理したものを指します。
日本語においても知識グラフをはじめとする外部知識を考慮することで精度改善される例は報告されていますが、他言語と比べ、日本語BERTを用いた手法の提案はまだ少ないのが現状です。
これらの背景を受け、SCSKでは、BERTが事後学習の段階で知識グラフを参照する機構を追加することにより、業界特有の専門用語・知識が記載されたテキストを大量に用意することなく、AIの予測時にそれらの知識を考慮可能なアルゴリズムの開発を行いました。図2はアルゴリズムのイメージ図です。PrimeAgentのような製品名についてAI関連の製品だという情報を知識グラフから獲得することで、クラス分類で正しくAIに関する文章だと予測できるイメージです。
一般的な日本語理解能力を測ることを目的としたJGLUEデータ(文章分類:MARC-ja、文ペア分類:JSTS・JNLI、質問応答タスク:JSQuAD・JCommonsenseQA)や自治体でのチャットボット利活用促進を目的に公開されているデータ(質問応答タスク:子育てFAQ)で、BERTと知識グラフを適用したBERT(提案手法)の比較実験を行い、複数のタスクで提案手法の精度向上を確認することができました(図3)。
今回開発したアルゴリズムでは、同音異義語のような異なる意味を持つ単語について、正しく知識グラフから知識獲得を行えず、入力文章中での語義とは異なる単語の情報が追加されるケースを確認しています。一例として、「アートスクール」が入力文中に出現した際に、本来であれば「アートスクール」は「美術学校」であるという情報が補足されることを期待しますが、実際には「ART-SCHOOL」というバンドの情報を補足するケースがありました。このような本来欲しい情報とは異なる情報の補足がノイズになり、AIが誤った予測をするケースがあります。したがって、日本語BERTで知識グラフの情報を活用するためには、知識グラフから入力文章中の語義に沿った知識を正しく獲得するための検索機構を今後は検討していく必要があると考えます。
発表論文: 日本語大規模言語モデルにおける 知識グラフを活用した意味理解性能の向上
ChatGPTパネルディスカッションの概要と所感
学会開催中、現地にて「ChatGPTで自然言語処理は終わるのか?」というテーマで自然言語処理有識者の方々によるパネルディスカッションが実施されました。
学術研究の側面からは、ChatGPTの登場により形態素解析や構文解析、要約といった従来の自然言語処理のタスクを突き詰めるというより、これからは人がAIの生成過程や生成したものを把握できる仕組みを考え、出力に対して納得感を得ることや、出力内容の信頼性を向上させる分野が盛り上がるのではないかという意見がありました。また、ChatGPTの学習データの一部には日本語テキストも使用されていますが、大半が他言語であるため、より日本語に特化したオープンの日本語大規模言語モデルを作る必要があるのではないかという意見もありました。私個人としても、ChatGPTの利点は活かしつつ、ChatGPTで実現できないことや研究分野を選定しスピード感をもって動くことが、この自然言語処理ブームの中で求められていると考えます。
最後に
言語処理学会の開催期間は3月13日~16日でしたが、開催中の3月14日にGPT-4がOpenAIより公開されるなど、2023年は自然言語処理関連の技術・サービスに大きな変化が訪れる年であると考えます。各企業がChatGPTのAPIを使用してアプリケーション開発やサービス展開を行う中、SCSKとしてもChatGPTを業務にどう生かしていくか考え、実行するスピードが求められています。