IJCKG 2023登壇レポート~ビジネスにおける生成AI活用と知識グラフへの期待~
2023年12月8日(金)~9日(土)、知識グラフに関する国際学術フォーラム「The 12th International Joint Conference on Knowledge Graphs (以下、IJCKG 2023)」が日本科学未来館で開催されました。IJCKG 2023は、知識グラフのコミュニティおよびその他の関連分野の国際的な研究者を集め、革新的な研究結果や知識グラフの新しい応用を発表することを目的としています。
https://ijckg2023.knowledge-graph.jp/
本会議にて、「ビジネスにおける生成AI活用と知識グラフへの期待」と題して、SCSK 技術戦略本部 技術開発部 中本が講演を行いました。本記事では講演内容を抜粋してご紹介します。
講演内容「ビジネスにおける生成AI活用と知識グラフへの期待」
SCSKの自然言語処理AI研究開発の取り組み
2018年以降、BERTを始めとするLLM(大規模言語モデル)は、言語処理の多岐にわたるタスクで高い精度を達成しています。これらのモデルは、少ないデータ量でのファインチューニングを通じて、低コストで運用することが可能です。ビジネス分野では、AIチャットボットやカスタマーレビュー分析といった、BERTを用いた多様なソリューションが様々な分野で提案されています。
SCSKでは、言語モデルのビジネス活用の障壁を取り除くための自然言語処理の研究を実施しています。
「未知語学習の処理精度向上の研究」では、学習アルゴリズムに未知語を考慮した事前学習を行うというアプローチで、2021年8月に特許を取得しました。
プレスリリース:言語AIにおける未知語学習の処理精度向上に関する特許権を取得~学習処理時間の軽減およびコスト削減に寄与~
その後、「日本語の大規模言語モデルにおける知識グラフを活用した意味理解性能の向上研究」では、日本語BERTモデルに知識グラフを利用する新たな機構を提案し、複数の自然言語処理タスクで日本語理解性能を評価しました。この研究成果は、言語処理学会の第29回年次大会で発表しました。
生成AIのビジネス活用
現在SCSKでは、システム開発の各工程において、生成AIの導入を進めています。特に、システム開発の上流工程やプロジェクト遅延の予兆検知のようなマネジメント支援での生成AI活用に注力し、生産性と品質の向上を目指しています。
また、2023年5月から、自社専用の生成AIブラウザアプリ環境(「SCSK Generative AI」)を構築し、全役職員による業務利用を開始しました。そして、約半年で約12,000名(SCSKグループ・協力会社含む)が利用するようになりました。SCSKでは、社内での生成AIの安全な利用環境の整備を通じて、業務の効率化や新たなビジネスアイデアの創出を目指しています。
2023年7月には、SCSK Generative AIを活用した質疑応答システムの概念検証を開始しました。このシステムは、社内文書などの非公開情報を参照し、RAG (Retrieval Augmented Generation)を用いて適切な回答を生成します。
RAGの仕組みと課題
RAGの仕組み
RAGは、LLMによる回答生成時に外部情報を参照することで、回答性能を向上させる技術です。RAGでは、まず独自のデータセットを適切なサイズのチャンクに分割します。チャンクとは、一定の長さや内容上の区切りに従ってデータを分割した塊を意味し、ここではテキストデータの塊を指します。RAGは分割されたチャンクをベクトル化し、ユーザーの質問との間でベクトル類似度を計算します。計算の結果、最も類似度が高い上位N件のチャンクを含むドキュメントを参照して、その内容を基に回答が生成されます。
RAGの課題
外部知識の参照結果に基づいて回答を行うRAGは、LLM単体の回答と比較してハルシネーション(誤回答)を低減できますが、複数のドキュメントの情報をもとに回答する質問において、単純なベクトル類似度検索手法では回答に必要な情報を入手できず、ハルシネーションを起こす可能性があります。
1. 検索により取得したドキュメントが必要十分であるか
RAGにおいてLLMの回答生成に必要な参照情報を検索した際、取得したチャンク群内に回答生成に必要な情報がすべて含まれていることは保証されていません。
これは、類似度検索結果のスコアに基づいてチャンクを獲得するため、回答に無関係な情報が含まれる可能性があるからです。この課題の解決策として、チャンクの数を増やして入力することが考えられますが、これには以下の問題があります。
回答に不要なチャンクが増加した際に回答生成のノイズとなる可能性がある。
有料モデルを利用している場合、多くのチャンクを入力することで、1回の回答にかかるコストが増大する。
2. エンティティの参照問題
異なるチャンク間で同一のエンティティ(事物)について言及されている情報を結びつけることは困難です。
これらの課題を解決するための一つの方法として、「知識グラフ」の活用が挙げられます。
生成AIへの知識グラフ適用の期待と課題
知識グラフは、あらゆる事象やその関係性をシステム上で表現するために、「主語 – 関係 – 目的語」で構築されたグラフ構造データです。
生成AIが登場する以前から、言語モデルでの外部知識利用方法の1つとして知識グラフに着目した研究が多数行われていました。
知識グラフ上の情報を利用することにより、テキスト中の文脈に含まれない情報を考慮することが可能となる、ERNIEやLUKE、K-BERTやKI-BERTといった手法が提案されました。
生成AI登場後は、RAG構成の中で知識グラフを活用する試みが行われています。
RAGでの外部知識参照機能を知識グラフに基づく検索機構に置換することで、ドキュメント間を横断した情報の検索が可能になります。具体的には、複数のドキュメントを知識グラフとして統合することで、各エンティティについての情報やエンティティ間の関係を整理することができます。
また、重複した情報や不要な情報の入力によるノイズ対策や入力文字数の減少によるコスト削減も期待できます。さらに、ハルシネーション対策として、複数のドキュメントから得た情報から事実とは異なる情報を推測することがないのも特徴です。
ただし、知識グラフに記載されている情報が常に最新の状態であるとは限りません。また、知識グラフ化が完了していないドキュメントに含まれる情報を取り込みたい場合もあります。このような場合には、知識グラフを基盤としつつ、ウェブ上の情報を活用して不足している情報を補完するハイブリッド型の検索機構を採用することが有効です。
知識グラフを用いた生成AIシステムの活用は、生成AIの可能性を広げると考えられますが、実際の運用にあたってはいくつかの課題が存在します。
1. 知識グラフの構築
多数の社内ドキュメントを手作業で知識グラフへ変換するのは、コストが高いため、知識グラフへの変換を自動かつ高品質で行える必要があります。
2. 知識の検索
質問文に関連する知識を知識グラフから抽出するため、質問文を知識グラフの検索言語へ適切に変換する必要があります。
3.ドキュメントとの知識結合
テキスト中のエンティティ(事物)と知識グラフ中のエンティティが同一であるかの判定が必要です。また、知識グラフ上の情報とドキュメント内の情報を比較し、どちらが最新の情報であるかを判断する必要があります。
知識グラフ活用の動向とSCSKの取り組み
現在、様々なコミュニティで知識グラフ活用のためのサービス開発や研究が活発に行われています。
LangChainやLlamaIndexといったLLMと外部データを接続可能とするフレームワークでも、知識グラフとの連携がサポートされています。
さらに、知識グラフとテキストデータを関連(リンキング)付けるハイブリッド検索には今後も大きな需要が見込まれており、日本語を含め様々な言語において高精度なリンキングが可能となることで、一般利用もさらに容易になると考えられます。
SCSKでは、今後も知識グラフを組み込んだRAG環境構築をはじめ知識グラフ活用のための研究開発に取り組んでいきます。
まとめ
知識グラフは、今後の生成AIの活用において重要な技術要素の一つです。しかし、知識グラフを言語モデルの知識拡張に使用するには、解決すべき課題も多く残っています。知識グラフの有識者と言語モデルの有識者が連携し、知識グラフを言語モデルで活用するための取り組みが、今後さらに盛んになることを期待しています。