公開日: 2025 年 5 月 21 日
要約は、大規模言語モデル(LLM)を使用する最も一般的な AI タスクの一つです。要約は、長い記事や密集したチャットログから多数のレビューまで、広範なコンテンツをすばやく理解するための重要な手段です。これにより、時間を節約し、生産性を高め、より迅速で十分な情報に基づく意思決定が可能になります。
要約にはさまざまな種類があり、詳細レベルやフォーマットの期待値が異なります。さまざまな要約タイプの期待に応えるため、Chrome は Google Cloud と連携して Gemini Nano の出力を改善しました。
低ランク適応(LoRA)を使用して Gemini Nano をファインチューニングし、すべての要約スタイルと長さのエクスペリエンスと出力の品質を向上させました。また、要約の品質のさまざまな側面(事実性、範囲、形式、読みやすさなど)について、自動および自動評価を実装しました。
実際の違いを可視化しました。この実装を試すことができます。また、Gemini Nano と Gemini Nano with LoRA の出力を比較するリアルタイム デモもご覧ください。
Summarizer API とは何ですか?
商品の解説 | ウェブ | 拡張機能 | Chrome のステータス | インテント |
---|---|---|---|---|
MDN | 表示 | 発送の意向 |
Summarizer API は、長いテキスト コンテンツを簡潔で消化しやすい要約にまとめます。この API は Chrome に組み込まれており、Gemini Nano を使用して推論を行います。
サイトによって、さまざまなスタイルと長さの要約が必要になる場合があります。たとえば、ニュース サイトの場合は、記事の要点を箇条書きで表示できます。商品レビューを閲覧するユーザーには、レビューの感情を簡単に要約した内容が役立ちます。これを示すために、ウェルシュ コーギーに関する Wikipedia のページを要約し、長さを short
に設定しました。
サマリーの種類 | 出力 |
headline |
## ウェルシュ コーギー: 王室と牧羊犬の歴史 |
key-points |
* ウェルシュ コーギーは、ウェールズ原産の小型の牧羊犬です。 * 主な犬種は、ペンブローク ウェルシュ コーギーとカーディガン ウェルシュ コーギーの 2 種類です。 * ペンブルックはより人気があり、英国王室と関連付けられています。 |
tldr |
ウェルシュ コーギーは、ウェールズと英国王室で長い歴史を持つ小型の牧羊犬で、ペンブロークとカーディガンの 2 種類があります。どちらもキツネのような顔、短い脚、牧羊本能で知られています。 |
teaser |
ウェールズ農家の牧羊犬としての謙虚な起源から、英国王室のシンボルとして台頭するまでのウェルシュ コーギーの歴史をご紹介します。 |
Summarizer API Playground を使用して、他のページを試すことができます。
ファインチューニングを試す
ファインチューニングは、バージョン 138.0.7180.0
以降の Chrome Canary のフラグでのみ使用できます。このモデルを使用するには:
- Chrome Canary を開きます。
chrome://flags/#summarization-api-for-gemini-nano
に移動- [Enabled with Adaptation] を選択します。
- ブラウザを再起動します。
- DevTools のコンソールを開き、
Summarizer.availability()
を入力します。これにより、補足 LoRA のダウンロードが開始されます。
ダウンロードが完了したら、テストを開始できます。
要約ツールのパフォーマンスの評価
ファインチューニングされた Gemini Nano のパフォーマンスの向上は、主に 2 つの評価方法(自動とautorater)を使用して測定しました。ファインチューニングは、次のような特定のタスクでモデルのパフォーマンスを向上させるのに役立ちます。
- 医療テキストの翻訳精度が向上しました。
- 特定のアートスタイルで画像を生成します。
- 新しいスラングを理解する。
この場合は、各概要タイプの期待に沿うようにしました。
自動評価
自動評価では、ソフトウェアを使用してモデルの出力の品質を判断します。この手法を使用して、英語入力の要約で、書式エラー、文の繰り返し、英語以外の文字の存在を検索しました。
形式エラー: 概要レスポンスがプロンプトの形式指示に従っているかどうかを確認します。たとえば、短いキーポイント スタイルの場合、各箇条書きがアスタリスク(
*
)で始まっているかどうか、箇条書きの数が 3 個以下かどうかを確認します。文の繰り返し: 同じ文が 1 つの概要レスポンスで繰り返されているかどうかを確認します。これは、品質の低いレスポンスを示します。
英語以外の文字: 入力が英語である場合、レスポンスに英語以外の文字が含まれているかどうかを確認します。
出力のハイパーリンク: レスポンスに、入力に存在しないハイパーリンク(マークダウン形式またはプレーンテキスト)が含まれているかどうかを確認します。
スクレイピングされた記事とチャットログの 2 種類の入力を評価しました。
広告見出し | 要約 | キーポイント | ティーザー | |
ベース / LoRA あり | ベース / LoRA あり | ベース / LoRA あり | ベース / LoRA あり | |
形式エラー | 13.54% / 7.05% | 41.07% / 4.61% | 12.58% / 6.36% | 51.17% / 6.74% |
文の繰り返し | 0.07% / 0.07% | 0.21% / 0.0% | 0.10% / 0.10% | 0.10% / 0.03% |
英語以外のエラー | 3.95% / 0.03% | 1.38% / 0.0% | 2.41% / 0.03% | 1.44% / 0.0% |
ハイパーリンク | 0.07% / 0.0% | 0.14% / 0.0% | 0.14% / 0.0% | 0.34% / 0.0% |
見出し | TLDR | 主なポイント | 予告編 | |
ベース / LoRA あり | ベース / LoRA あり | ベース / LoRA あり | ベース / LoRA あり | |
形式エラー | 13.17% / 0.24% | 22.92% / 0.18% | 4.43% / 0.09% | 29.64% / 3.51% |
文の繰り返し | 0.0% / 0.0% | 0.0% / 0.0% | 0.0% / 0.0% | 0.03% / 0.0% |
英語以外のエラー | 0.15% / 0.0% | 0.15% / 0.0% | 0.03% / 0.0% | 0.06% / 0.0% |
Hyperlinks | 0.0% / 0.0% | 0.0% / 0.0% | 0.0% / 0.0% | 0.0% / 0.0% |
Gemini Nano を微調整した結果、記事とチャットログの両方で、さまざまな要約タイプにおける形式エラー率が大幅に低下しました。
自動評価
Gemini Nano の出力品質を判断するために、自動評価ツールの評価に Gemini 1.5 Pro を使用しました。各概要の目的が異なるため、要件と要件の値は概要の種類によって異なります。すべてのサマリー タイプについて、次の点が評価されました。
- カバレッジ: 要約は入力の重要な目的を正確に捉えていますか?
- 真実性: 要約は真実ですか?サマリーには、本文で明示的または暗黙的に述べられていなかった新しい情報が含まれていますか?
- 形式: サマリーは有効なマークダウン構文で書式設定されていますか?要約は、リクエストされたように、文の最大長を守っていますか?
- 明確性: 要約は重複していますか?サマリーは、できるだけ少ない単語でコア メッセージを正確に伝えていますか?
これらのサマリー タイプには目的が異なるため、特定のサマリー タイプには追加の指標が適用されます。
- エンゲージメント:(
headline
): 一般のユーザーが概要をすぐに理解できるか。サマリーは、一般の視聴者に魅力的でアピール力のある語調で書かれていますか? - 簡潔さ(
tldr
): 要約は明確で簡潔であり、注意散漫なユーザーでもすぐに理解できるか?コア メッセージが効果的に抽出され、簡単に消化できる形でまとめられているか。 - 魅力(
teaser
): 要約は効果的に興味をそそり、読者が全文を読むことで詳細を知りたいと思うように促していますか?興味深いコンテンツを暗示する魅力的な表現が使用されているか。
自動評価を使用して、ベースモデルと LoRA を使用したモデルの出力を並べて比較しました。自動評価ツールのスコアは 0 ~ 1 の間で平均化され、しきい値と比較して評価されました。
確実な結果を得るために、データのばらつきを減らし、役職によるバイアスを軽減しました。
- データのばらつきの軽減: 独立した実行では結果が若干異なる可能性があるため、入力ごとに 3 つの独立した出力のスコアを平均化しました。ベースモデルとファインチューニングされた Gemini Nano の両方について、出力を平均化しました。出力のスコアの差はわずかですが、平均値は大量のデータセットをより確実に把握するのに役立ちます。
位置バイアスを軽減する: 最初にレーティング担当者と共有された概要の値を優先しないように、結果を 2 回評価してから最終スコアの平均を算出しました。
- LoRA を使用してモデルを評価し、次にベースモデルを評価しました。
- その後、注文をキャンセルしました。ベースモデルを評価した後、LoRA を使用したモデルを評価しました。
- 最終スコアの平均を算出しました。
短め 中 長め ベース / LoRA あり ベース / LoRA あり ベース / LoRA あり LoRA ファースト 74.29% / 86.64% 76.11% / 81.38% 68.62% / 78.95% ベースモデルを先に使用する 68.02% / 88.60% 64.97% / 87.58% 58.25% / 86.35% バージョン C(平均) 71.02% / 89.18% 69.59% / 84.08% 63.47% / 82.65% key-points
サマリー タイプの勝率。値が大きいほど結果が良好です。
同じモデルの出力のスコアリングにはわずかな違いしかありませんでしたが、平均値は大量のデータセットをより確実に把握するのに役立ちます。
500 件の記事で、ファインチューニングされた Gemini Nano はベースモデルよりも大幅に優れたパフォーマンスを発揮しました。
見出し | TLDR | 主なポイント | 予告編 | |
ベース / LoRA あり | ベース / LoRA あり | ベース / LoRA あり | ベース / LoRA あり | |
ショート | 74.74% / 89.12% | 55.76% / 89.50% | 71.02% / 89.18% | 53.47% / 87.14% |
中 | 73.10% / 87.89% | 41.82% / 81.21% | 69.59% / 84.08% | 48.98% / 86.74% |
Long | 60.99% / 89.32% | 50.51% / 84.85% | 63.47% / 82.65% | 62.65% / 87.55% |
500 件のチャットログの評価でも同様で、ファインチューニングされた Gemini Nano がベースモデルを上回りました。
見出し | TLDR | 主なポイント | 予告編 | |
ベース / LoRA あり | ベース / LoRA あり | ベース / LoRA あり | ベース / LoRA あり | |
短め | 70.59% / 96.15% | 66.27% / 97.79% | 81.60% / 97.40% | 67.48% / 96.14% |
中 | 76.67% / 95.13% | 56.02% / 94.98% | 82.60% / 97.20% | 50.41% / 96.95% |
長め | 59.03% / 94.32% | 65.86% / 95.58% | 75.00% / 97.60% | 70.94% / 97.16% |
これらの結果は、ファインチューニングによって概要の全体的な品質が向上したことを示しています。
LoRA によるより優れた要約
従来、ファインチューニングはモデルのパラメータを調整することで行われていました。最新の AI モデルは巨大であるため、このオペレーションは遅く、費用も高く、モデルの新しいコピーを保存する必要があります。
すべてのパラメータを変更するのではなく、モデルを望む方向に誘導する小さな追加要素を追加するとどうなりますか?サイズが小さいため、トレーニングが大幅に高速化されます。これは、低ランク適応(LoRA)の基本原則です。LoRA では、モデルの特定の部分は変更されません。これはパラメータの凍結と呼ばれることもあります。その後、小さな修正を加えた小規模なデータセットが導入され、追加された部分にトレーニングの重点が置かれます。
実際、通常は LoRA で元のパラメータの 2% 程度をトレーニングするだけで、出力に大きな変化が見られます。
これが機能する仕組みについて説明します。多くの動作(新しいスタイル、タスク、知識など)は、すべてのモデル パラメータを変更しなくても組み込むことができます。これらの変更は、モデルの既存の知識内の小さなパターンまたは方向として表現できます。LoRA は、元のモデルに変更を加えることなく、これらのパターンを効率的にキャプチャします。
Gemini Nano ベースモデルと LoRA を追加した後の結果を比較した例をいくつか見てみましょう。
Gemini Nano に、ジョシュア ツリー国立公園の Wikipedia 記事の「注目を集め、コンテンツのエッセンスを伝達する」短いヘッドラインを作成するよう依頼しました。
Gemini Nano | LoRA 対応の Gemini Nano |
ジョシュア ツリー国立公園の独特な景観と歴史 | ジョシュア ツリー: カリフォルニア州にある国立公園。砂漠にまたがり、象徴的な木々が生息しています |
次に、ラタトゥイユの記事の短い予告編を Gemini Nano にリクエストしました。「ユーザーに全文を読むように促す魅力的な 1 文を作成します。」
Gemini Nano | LoRA 対応の Gemini Nano |
ラタトゥイユは、トマトやニンニクなど、野菜を煮込んだフランスのプロヴァンス料理です。起源は 18 世紀に遡り、調理方法は時代とともに進化してきました。シェフによっては、野菜の個々の風味を重視する一方で、より滑らかで統一感のある食感を好むシェフもいます。ラタトゥイユはフランス発祥ですが、スペインのピペラードや地中海のティアンなど、世界中のさまざまな料理に影響を与えています。映画『ラタトゥイユ』(2007 年)は、この料理の多様性と感動的な共鳴を披露し、この料理をさらに広めました。 | 野菜の煮込み料理であるラタトゥイユは、フランスのプロヴァンス地方の料理で、豊かな料理の歴史があります。シンプルな煮込み料理から、世界中の人々を魅了するモダンな料理の傑作へと進化しました。 |
リアルタイム推論のデモ
Gemini Nano と LoRA を搭載した Gemini Nano の出力の比較を示すインターフェースを構築しました。
Gemini Nano に、オセアニック マンボウの記事の short
文字の要約を作成するよう依頼しました。tldr
tldr
と short
では、1 文で「簡単に読める」回答が必要です。
ファインチューニングを実装することで、Gemini Nano は特定の指示に従って要約を生成できるようになります。
意見交換とフィードバックの提供
ファインチューニングされた Gemini Nano が要約に与える影響について、皆様からのフィードバックをお待ちしております。
- Chrome Canary で更新されたモデルを試す。
- Summarizer API の詳細を確認する。
- Chrome の実装についてフィードバックがある場合は、バグレポートまたは機能リクエストを送信してください。
ブラウザでモデル(大規模言語モデルを含む)を使用するすべての組み込み AI API を確認する。
-
Chin-Yew Lin 様。2004 年。ROUGE: 要約の自動評価パッケージ。Text Summarization Branches Out, 74 ~ 81 ページ、バルセロナ、スペイン。Association for Computational Linguistics. ↩
-
Kishore Papineni、Salim Roukos、Todd Ward、Wei-Jing Zhu 氏。2002. BLEU: 機械翻訳を自動的に評価する方法。Proceedings of the 40th Annual Meeting on Association for Computational Linguistics(ACL '02) ↩
-
Mousumi Akter、Naman Bansal、Shubhra Kanti Karmaker です。2022 年。Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE?Findings of the Association for Computational Linguistics: ACL 2022、1547 ~ 1560 ページ、ダブリン(アイルランド)。Association for Computational Linguistics. ↩
-
Daniel Deutsch と Dan Roth です。2021. コンテンツ品質指標が要約の情報の品質をどの程度測定しているかを理解する。Proceedings of the 25th Conference on Computational Natural Language Learning, pages 300–309, Online. Association for Computational Linguistics. ↩