ACL2024 参加報告　後半 - Taste of Tech Topics

こんにちは。タイに来ても日本にある食べ物ばかり食べてしまっている@Ssk1029Takashiです。
この記事はACL2024参加報告記事の後半になります。
前半記事はこちらになります。
acro-engineer.hatenablog.com

後半記事ということで、本会議最終日からWorkshopまでのことを書いていきます。

4日目（本会議最終日）

本会議最終日はSessionも少なめにAwardの発表やClosingがありました。
前半記事と同じく、SessionやPosterについては気になった論文という形で後述します。

Keynote 3

最後のKeynoteでは「Are LLMs Narrowing Our Horizon? Let’s Embrace Variation in NLP!」というタイトルでの発表でした。
この発表では近年LLMが出てから大きなパラダイムシフトがある中で、とはいえLLMにも多くの問題があり、その解決のための研究が必要という内容でした。
問題点の一つが過度な均質化というもので、例えばとある写真を見て笑顔かどうかは文化圏によって異なるが、LLMは一つの答えにまとまってしまうという例が出ていました。
これまでの小規模なモデルがメインの時代では、それぞれの文化圏でデータを学習していたが、LLMは複数の文化圏にまたがる膨大なデータを学習するため、こういった事態が起きやすいということでした。
これの解消のためには、データを作成するときのラベリングのVariationが必要とのことで、そのための取り組みが紹介されていました。
こういった話もLLMが出てきたからこその流れだと思うので、今後の動きの一つとして追っておく必要がありそうです。

Paper Award

最終日ということで、ACL2024の中でのPaper Awardの発表がありました。
ACL Best Paper AwardsやBest Theme Paper Awardなどのいくつかの部門で表彰がありました。
選ばれた論文は今のところは公式の投稿から確認することができます。

🏆 ACL Best Social Impact Paper Awards:

- How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs by Zeng et al.
- DIALECTBENCH: An NLP Benchmark for Dialects, Varieties, and Closely-Related Languages by Faisal et al.
— ACL 2024 (@aclmeeting) 2024年8月14日

この中で、すごいと思ったのは、Best Theme Paper Awardである「OLMo: Accelerating the Science of Language Models」です。
arxiv.org
この論文では、完全にオープンなLLM研究を目指すという取り組みで、モデルのパラメータだけでなく、データセットやソースコード、または学習過程のW＆Bなどの記録などあらゆるものをオープンにすることで、後続の他のLLMのモデル作成がよりしやすくなるようにしたいという活動を論文にしたものです。
データセットの作成方法なども公開しているため、今後作成したモデルを使って研究することや、改善したモデルの作成などがしやすくLLM自体の研究が進みやすくなるため、コミュニティの貢献としてはかなり大きいものに感じました。
実際にHugging Faceにモデルが公開されてました。
huggingface.co

Closing Celemony

Closingでは簡単に今年の参加者数や運営の紹介で終わりました。
今年の参加者としては3,800人いたそうなので、かなり大人数ですね。

5日目（Workshop 1日目）

5日目はWorkshopがあり、いくつかのテーマに分かれてKeynoteやPoster Sessionなどがありました。
Workshop初日は、以下のWorkshopに参加しました

KaLLM: Knowledge Graphs and Large Language Models (KaLLM)

このWorkshopでは名前の通り、Knowledge GraphとLLMをどのように組み合わせて活用できるかをメインに扱っています。
特に印象に残ったのはKeynoteの一つである、「The Journey to A Knowledgeable Assistant with Retrieval-Augmented Generation (RAG)」の発表でした。
通常のRAGだと解決できないポイントをKnowledge Graphを使って解決するための取り組みについてがメインの内容でした。
この発表の中で、RAGを適用する場合とLLMだけで応えた場合の比較で、RAGを適用した場合は正答を出す確率は上がったけど、Hallucinationを出す確率も上昇したという実験結果があり、RAGを適用する際にはHallucinationの軽減が特に重要になるという話が面白かったです。
そのうえで、Knowledge GraphとWebからのRetrieveを合わせることで、応答速度を高速にしつつ、Hallucinationが改善できたという話だったので、完全に再現は無理でもいくつか取り入れてみたい内容が多かったです。

6日目（Workshop 2日目）

いよいよ全体最終日となる6日目はWorkshopの2日目になります。
自分は以下のWorkshopに参加しました。

Workshop on Knowledge-Augmented Methods for Natural Language Processing (Knowledge Augmentation)

このWorkshopではLLMがどのように正しく外部知識を参照して答えが出力できるかについてを取り扱ったWorkshopになります。
自分が普段RAGを扱っていることもあり、こちらのWorkshopも関連するところが多く興味深く聞けました。
その中でも「Improving the Reliability of LLMs in Socially-Oriented Knowledge-Intensive Tasks」というKeynoteでの取り組みが面白かったです。
このKeynoteではLLMの出力でHallucinationがあるかを判定するタスクについてメインで解説がありました。
Hallucinationを検知するための手法でいくつか手法があり、例えば一番簡単なのはプロンプトに検知するための文言を追加することでLLMの出力を抑制する方法や、Hallucinationを抑制するための学習データでFine-tuningする手法、LLMが出力するトークンのProbabilityを見て、Tokenの確からしさからHallucinationを検知する手法などあります。
Keynoteの中では、複数のLLMモデルを正誤判定器として導入する方法を提案しており、知識範囲や得意分野が異なるモデルでLLMの出力が事実かを判定することで精度を上げられるというものでした。
異なるモデルの判定用モデルを置くという発想は汎用的に今後必要になりそうなので、それが複数ではなくても単体でも一定の性能を発揮できればより実世界での適用も広がりそうだと思いました。

面白かった論文

後半ではAwardsやWorkshopをメインに扱ったので、論文紹介は一件だけ前半で紹介しきれてなかった以下を紹介します。

Spiral of Silence: How is Large Language Model Killing Information Retrieval?—A Case Study on Open Domain Question Answering

arxiv.org

この論文では、LLMが生成した文章が元データの中に増えていくにつれてQuestion Answeringの精度にどのような影響が出るかをシミュレーションしたものになります。
現実世界でも、ネットにLLMが生成した記事などが増え続けており、学習データなども汚染されているということは聞きますが、そういった現実世界の状況とこれから起こりうることをシミュレーションするという実験が面白かったです。
細かい実験の条件などは省略しますが、簡単に言うとQueryをもとにRAGで生成した回答で参照元のドキュメントを書き替える、ということを何回も繰り返していって回答の精度の変化を見ていくというものでした。
結果として、短期的には精度は向上するが、長期的には精度が悪化するという結果が得られたとのことです。
長期的に精度が悪化するのはLLMが生成するテキストにバイアスがあり、特定の傾向で間違えるケースが増えてくるということと、LLMが参照元としてLLMが生成した文章を選ぶことが増えるため、間違えた参照をさらに間違えたもので更新して、それをもう一度参照して、、と言ったことが発生したようです。
LLM自身が持つバイアスという問題を実際にシミュレーションで解き明かしつつ、どのように悪影響が出るのかを複数の軸で評価する実験手法が面白かったです。

総括

というわけで1週間に及ぶ学会が一通り終了しました。
学会の内容としてはほとんどがLLMを扱ったものでしたが、LLMの既存の課題を解決するための手法だったり、LLMをツールのように使う手法だったり、それぞれ多種多様な向き合い方があり面白かったです。
また、データセットを構築する論文が多めに感じました。
おそらくCoTなどのLLMが出てきたことで新しく評価したいタスクが生まれてきているためだと思いました。この中から研究としてどれが続いていくのかはACL以外の学会含めてみていく必要がありそうです。
海外の学会に参加するのは初めてでしたが、やはり現地だからこそ感じ取れるものがあるので、現地参加は良いなと思いました。
来年もぜひ参加してみたいですね。
それではまた。

Acroquest Technologyでは、キャリア採用を行っています。

Azure OpenAI／Amazon Bedrock等を使った生成AIソリューションの開発

ディープラーニング等を使った自然言語／画像／音声／動画解析の研究開発

マイクロサービス、DevOps、最新のOSSやクラウドサービスを利用する開発プロジェクト

書籍・雑誌等の執筆や、社内外での技術の発信・共有によるエンジニアとしての成長

少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。
www.wantedly.com