概要
背景・目的
本研究の貢献
実験
考察
- GPT-4が勝手に任意の観点を盛り込んで、意図通りの評価をしていないとは？
- データセット作成における他手法との大きな差分
まとめ
- 貢献
- 今後の展開
参考文献

DROBEで機械学習エンジニアをしております、藤崎です。

DROBEの岸本がJSAIのヒューマン・イン・ザ・ループAIのOSで発表した「ファッションコーディネートの説明文生成における人間の評価と相関する評価関数の探索」という萌芽的な研究について内容を共有します。

概要

このブログでは、ファッションコーディネートの説明文生成における人間の評価と相関する評価関数の探索についてJSAI2024での発表内容のサマリを説明しています。
DROBEのサービスにおいて、AIを用いてコーディネート説明文を自動生成することでスタイリストの業務を補助することを目指しており、その際に必要な評価関数の探索を行いました。
実験の結果、一部の観点で一定の相関が見られたものの、概ね相関が低いことが分かりました。
今後は、複数のアノテーターを用いた信頼性の高いデータセットの構築や評価関数の開発に取り組んでいく予定です。

背景・目的

DROBEでは、ユーザーの好みに合わせて、ファッションの専門家であるスタイリストがコーディネートを選定し、ユーザーは自宅で試着して気に入ったものだけを購入するというサービスを提供しています。

スタイリストは、なぜそのコーディネートを選んだのかをユーザーに理解してもらうために、コーディネートのポイントをテキストで説明しますが、この作業は負担が大きいものです。

そこで、AIを用いてコーディネート説明文を自動生成することで、スタイリストの業務を補助することを目指しています。しかし、"良い"テキストを生成するためには、その良さを測る評価関数を設定する必要があります。今回は、自然言語生成(NLG)タスクにおける要約の評価関数を探索し、人間の評価とアラインするものがあるかを調査しました。

本研究の貢献

ファッション分野において評価関数の適用可能性を検討したことが、本研究の新規性であると考えられます。従来は、ニュース記事のデータセットにおいて、評価関数の適用可能性が多く議論されてきました*1。

そして先行研究で使われたニュース記事のデータセットはニュース記事とその要約(ハイライト)が対になっているものです。ただ、このニュース記事の要約は比較的簡単なタスクであると指摘されています。*2そこで、より難しいタスクにおいてこの評価関数がどの程度機能するかを確認する必要がありました。

要約タスクの評価関数に絞った理由は、要約タスクが豊富な情報量の文書から特定の重要な要素を抜き出すタスクであり、今回のコーディネート作成タスクと同一視できると考えたためです。自然言語生成(NLG)におけるタスクの分類は以下のように考えております。

#	タスクの一覧	タスクの内容
1	機械翻訳	ソース言語の文章や文書をターゲット言語に変換するタスク
2	要約	ソース文書を短縮し、ソース文書の内容を簡潔に表現する新しいフレーズを使用して要約を作成するタスク
3	自由形式の質問応答	与えられたテキストの一部分を答えとして選択するのではなく、自然言語で答えを生成するタスク
4	質問生成	入力ソースとオプションで答えに基づいて質問を作成するタスク
5	データからテキストの生成	構造化または半構造化されたデータソースから自然言語のテキストを生成するタスク
6	対話生成	人間との会話を行うタスク
7	画像キャプションの生成	与えられた画像のテキスト説明を生成するタスク

実験

評価関数とは何か

評価関数とは、例えばニュース記事から作成された要約の良さを測る関数を指します。

従来は、人間が作成した正解の要約と、何らかの方法で生成された要約を対として、文字の一致を考えるROUGEや、BERTのEmbeddingのコサイン類似度を計算する手法がありました。

しかしながら、最近では、ベンチマークにおいてGPT-4などの大規模言語モデル(LLM)にこれらを計算させる手法の性能が良いことが主張されており、様々な評価関数が開発されております。

LLMベースの評価関数を説明する上でまず下記の用語を知る必要があります。

#	用語	説明	例
1	Document	文書	ニュース記事
2	Summary	Documentを元に生成された要約	ニュース記事を元にLLMが生成した要約
3	Instruction	タスクの指示	あなたはニュース記事のために書かれた要約を一つ与えられます。あなたのタスクは、その要約を一つの指標で評価することです。これらの指示を注意深く読んで理解してください。レビュー中はこの文書を開いたままにし、必要に応じて参照してください。
4	Aspect	評価観点	一貫性
5	Output Space	評価値のレンジ	1~5
6	Criteria	評価基準	要約は「よく構造化され、整理されているべきです。要約は関連情報の山であるべきではなく、文から文へとトピックに関する一貫した情報の体を構築すべきです。」
7	Evaluation Steps	評価手順	- 1. ニュース記事を注意深く読み、主要なトピックと重要なポイントを特定します。 - 2. 要約を読み、ニュース記事と比較します。要約がニュース記事の主要なトピックと重要なポイントをカバーしているか、そしてそれらを明確かつ論理的な順序で提示しているかを確認します。
8	Data Sample	1サンプル or バッチ	1サンプルを文書と要約の単一ペアとした時に、1サンプルごとに評価するかバッチで評価するか
9	Multiple Score sample	評価値のサンプル回数	1回しかサンプルしない場合、あるいは20回サンプルし、それらを平均するような手法もある
10	Score-Explanation	LLMに評価値の説明をさせるか	-
11	ICL	インコンテキスト学習の有無	-

LLMベースの評価関数の区別

LLMベースの評価関数は上述した用語のあり / なしで区別されます。

#	Paper Name	Name	Instruction	Aspect	Output Space	Criteria	Data sample	Evaluation Procedure	Multiple Score sample	Score-Explanation	ICL
1	CALIBRATING LLM-BASED EVALUATOR*3	Liu2023b	○	○	○	Estimate	Single	×	×	○	×
2	Is ChatGPT a Good NLG Evaluator? A Preliminary Study*4	Wang2023	○	○	○	Given	Single	×	×	×	×
3	G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment*5	Liu2023a	○	○	○	Given	Single	○	○ normalize	×	×
4	A Closer Look into Automatic Evaluation Using Large Language Models*6	Chiang2023	○	○	○	Given	Single	○	○ average	○	×
5	BatchEval: Towards Human-like Text Evaluation*7	Yuan2023	○	○	○	Given	Batch	×	○ average	○	×
6	CoAScore: Chain-of-Aspects Prompting for NLG Evaluation*8	Gong2023	○	○ + Estimate sub	○	Given	Single	×	×	×	×
7	Multi-Dimensional Evaluation of Text Summarization with In-Context Learning*9	Jain2023	×	×	×	×	Single	×	×	×	○

データのアノテーション

本研究では1人の熟練のスタイリストがデータのアノテーションを実行しました。アノテーションはスタイリストがDocumentとSummaryの1つのペアに対して、4つの評価観点(aspect)から評価を行いました。各aspectは1から3の評価値で採点されています。

#	観点	呼び名	説明
1	文章の成立性	Coherence	文章が論理的に一貫しており、文章のつながりが不自然ではないか
2	アイテムの特徴の正確性	Accuracy	提供された説明が実際のアイテムに基づいており、架空の特徴や機能に言及していないか
3	アイテムの特徴の適切性	Feature appropriateness	各アイテムの説明が、そのアイテムのアピールポイントや特徴を正確にかつ適切に表現しているか
4	組み合わせの適切性	Combination appropriateness	アイテム同士の着こなしや組み合わせがスタイル的に合致しており、提案されたコーディネートがファッションの原則に従っているか

ここでDocumentとは、今回はファッションコーディネートを構成する各アイテムの詳細な情報です。カテゴリ、色、柄、素材などの情報が含まれます。一方、Summaryは、DocumentをもとにGPT-4が作成したコーディネートの説明文です。

ただ、従来の手法では、複数のアノテーター間のアラインメントを取っていましたが、本研究ではスタイリスト一人の結果を用いてデータセットを構築しています。（後ほどこの点言及します）

実験の設定

GPT-4oを使ってDocumentを踏まえてSummaryの良さを評価しました。

実験で検証したいことは人間の評価と、GPT-4oでの評価がどれほど相関するか？です。

実験の結果

Pearsonの相関については以下の通りです。 一部のaspect（Accuracy = アイテムの特徴の正確性）のみ相関が0.4弱ありますが、他の観点においては概ね相関が低い結果となりました。

ここで、先行研究*10ではPearsonの相関係数がおおよそ0.35 ~ 0.6程度となっており、一部のaspectでもこの性能に達したことが確認できました。つまりタスクの難易度が上がっても、aspectによっては一部の評価関数が有効に機能することが示されました。

考察

以下は性能の改善がありそうな事象とその改善案のまとめです。内容としては以下の通りで、特に重要と考える1, 4をこの後言及します。

1が最も性能改善への寄与が大きいことが確認された
2はデータのインバランスの影響が大きく、期待通りの挙動とはならなかった
3は一部のデータで確認されたが、全体への影響は小さいと考えらえる
4は今後のFuture workで取り組む内容であると考えている

#	見られた事象	見られた事象の詳細	改善案	性能改善への寄与
1	GPT-4にうまく評価観点が伝達できていない	GPT-4が勝手に任意の観点を盛り込んで、意図通りの評価をしていない	aspectの文言の改善	△
2	GPT-4がファッションの知識が乏しい可能性がある	専門家が注目する点とGPT-4が注目する点とが一致していない	Fine-tuningなどで傾向を学習する	×
3	アノテーターのスコアに間違いがありそう	実験立案者とアノテーターの意図が合致していない	データセット作成者とアノテーター間の認識の差異を埋める	×
4	アノテーター間でスコアのクロスチェックができていない	データセット作成における他手法との大きな差分となっている	アノテーターを複数用意する	？

GPT-4が勝手に任意の観点を盛り込んで、意図通りの評価をしていないとは？

以下はある手法（Chiang 2023）の出力結果についての具体例です。素朴に定義したaspectだと単一観点に限定せず、他の観点を盛り込んでしまっていることが確認できます。これについて、aspectを試行錯誤することで意図通りの出力となっていくことを確認しました。

#	version	Coherence における評価観点の説明	出力の結果
1	V1	Summaryが文章として論理的に一貫しており、文章のつながりが不自然ではないかを評価します。	"意図通りではない - DocumentとSummaryとを比較して、内容が網羅的かを評価 - アイテム間の関連性を評価"
2	V2	Summary単体のみに注目した際に、これが文章として成立しており、文頭から文末まで首尾一貫した内容になっているか。（この観点のみについて評価をし、それ以外の観点は勝手に盛り込まない）	"意図通りとなった - 単一の観点のみの評価に限定できた"

少数のサンプルでこのような改善が確認できたので、aspectの定義の改善により、どれだけ相関が上がるかを一部の有望な手法で検証しました。結果として、ほぼ全ての手法においてオリジナルのaspectの定義よりもアップデートしたpromptの方が性能が向上しています。

データセット作成における他手法との大きな差分

他の手法においては、複数のアノテーターを用意し、そのアノテーター間のアライメントを高めるための試行錯誤がなされていました。例えば、*11ではアノテーションスコアがクロスチェックされ、実質的に信頼性の低い値が補正される作用がありました。一方で、我々は1人のアノテーターのみで実施していたため、信頼性の低い可能性のあるアノテーションスコアが残っていた可能性があります。上述した研究*12では、以下のようなアノテーションの手順が踏まれていました。

3人のアノテーターを用意する
3人中2人が一致し、1人が異なるアノテーションになったスコアについて、該当のアノテーターに再考するチャンスが与えられる
再考時には他のアノテーターのスコアを確認できる

我々はこのようなやり方でアノテーションを行わなかったため、信頼性の低いスコアが補正される余地を残しておりました。

まとめ

貢献

従来の要約の評価関数は、比較的難易度の低いタスクとされるニュースでの要約タスクで議論されていました。そこで我々はより難易度の高いファッションというドメインにおいてこの評価関数を適用しました。

その結果一部の評価関数は先行研究とは異なるドメインに適用しても依然として有効に機能することが実証され、実用的な応用可能性を示唆しています。

今後の展開

本研究の貢献により、より信頼性の高いデータセットの作成に時間的コストを投資する意義が明確になりました。今後は、高品質なデータセットの構築に注力していく予定です。さらに、構築したデータセットを活用してより洗練された評価関数の開発に取り組みます。これにより、コーディネート説明文生成タスクにおける評価の精度と効率性の向上を目指していきます。

参考文献

*1:A. R. Fabbri, W. Kryściński, B. McCann, C. Xiong, R. Socher, and D. Radev, “SummEval: Re-evaluating Summarization Evaluation,” arXiv [cs.CL], Jul. 24, 2020. [Online]. Available: http://arxiv.org/abs/2007.12626

*2:W. Kryscinski, B. McCann, C. Xiong, and R. Socher, “Evaluating the Factual Consistency of Abstractive Text Summarization,” in Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), B. Webber, T. Cohn, Y. He, and Y. Liu, Eds., Online: Association for Computational Linguistics, Nov. 2020, pp. 9332–9346.

*3:Y. Liu et al., “Calibrating LLM-Based Evaluator,” arXiv [cs.CL], Sep. 23, 2023. [Online]. Available: http://arxiv.org/abs/2309.13308

*4:J. Wang et al., “Is ChatGPT a Good NLG Evaluator? A Preliminary Study,” in Proceedings of the 4th New Frontiers in Summarization Workshop, Y. Dong, W. Xiao, L. Wang, F. Liu, and G. Carenini, Eds., Singapore: Association for Computational Linguistics, Dec. 2023, pp. 1–11.

*5:Y. Liu, D. Iter, Y. Xu, S. Wang, R. Xu, and C. Zhu, “G-Eval: NLG Evaluation using Gpt-4 with Better Human Alignment,” in Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, H. Bouamor, J. Pino, and K. Bali, Eds., Singapore: Association for Computational Linguistics, Dec. 2023, pp. 2511–2522.

*6:C.-H. Chiang and H.-Y. Lee, “A Closer Look into Using Large Language Models for Automatic Evaluation,” in Findings of the Association for Computational Linguistics: EMNLP 2023, H. Bouamor, J. Pino, and K. Bali, Eds., Singapore: Association for Computational Linguistics, Dec. 2023, pp. 8928–8942.

*7:P. Yuan et al., “BatchEval: Towards Human-like Text Evaluation,” arXiv [cs.CL], Dec. 31, 2023. [Online]. Available: http://arxiv.org/abs/2401.00437

*8:P. Gong and J. Mao, “CoAScore: Chain-of-Aspects Prompting for NLG Evaluation,” arXiv [cs.CL], Dec. 16, 2023. [Online]. Available: http://arxiv.org/abs/2312.10355

*9:S. Jain et al., “Multi-Dimensional Evaluation of Text Summarization with In-Context Learning,” in Findings of the Association for Computational Linguistics: ACL 2023, A. Rogers, J. Boyd-Graber, and N. Okazaki, Eds., Toronto, Canada: Association for Computational Linguistics, Jul. 2023, pp. 8487–8495.

*10:A. R. Fabbri, W. Kryściński, B. McCann, C. Xiong, R. Socher, and D. Radev, “SummEval: Re-evaluating Summarization Evaluation,” arXiv [cs.CL], Jul. 24, 2020. [Online]. Available: http://arxiv.org/abs/2007.12626

*11:A. R. Fabbri, W. Kryściński, B. McCann, C. Xiong, R. Socher, and D. Radev, “SummEval: Re-evaluating Summarization Evaluation,” arXiv [cs.CL], Jul. 24, 2020. [Online]. Available: http://arxiv.org/abs/2007.12626

*12:A. R. Fabbri, W. Kryściński, B. McCann, C. Xiong, R. Socher, and D. Radev, “SummEval: Re-evaluating Summarization Evaluation,” arXiv [cs.CL], Jul. 24, 2020. [Online]. Available: http://arxiv.org/abs/2007.12626

DROBEプロダクト開発ブログ

DROBEのプロダクト開発周辺の知見や考え方の共有をしていきます

人間とアラインする要約評価関数の探索 - JSAI 2024発表内容解説

概要

背景・目的

本研究の貢献

実験

評価関数とは何か

LLMベースの評価関数の区別

データのアノテーション

実験の設定

実験の結果

考察

GPT-4が勝手に任意の観点を盛り込んで、意図通りの評価をしていないとは？

データセット作成における他手法との大きな差分

まとめ

貢献

今後の展開

参考文献

概要

背景・目的

本研究の貢献

実験

評価関数とは何か

LLMベースの評価関数の区別

データのアノテーション

実験の設定

実験の結果

考察

GPT-4が勝手に任意の観点を盛り込んで、意図通りの評価をしていない とは？

データセット作成における他手法との大きな差分

まとめ

貢献

今後の展開

参考文献

GPT-4が勝手に任意の観点を盛り込んで、意図通りの評価をしていないとは？