改进 Gemini Nano:利用 LoRA 提供更高质量的摘要

发布时间:2025 年 5 月 21 日

总结是使用大语言模型 (LLM) 进行的最常见且最重要的 AI 任务之一。摘要是快速了解大量内容(从冗长的文章和密集的聊天记录到众多评价)的重要方式,可节省时间、提高工作效率,并让您能够更快地做出更明智的决策。

摘要有多种类型,详细程度和格式要求各不相同。为了满足各种摘要类型的预期,Chrome 与 Google Cloud 合作改进了 Gemini Nano 的输出。

我们使用低秩适应 (LoRA) 微调了 Gemini Nano,以便针对所有摘要样式和长度提升体验和输出质量。此外,我们还针对摘要质量的不同方面(包括事实性、覆盖面、格式和可读性)实现了自动自动评分器评估。

我们通过可视化图表展示了这种差异在实际中的表现。您可以试用此实现,并查看实时演示,比较 Gemini Nano 和 Gemini Nano with LoRA 的输出。

什么是 Summarizer API?

解说 Web 扩展程序 Chrome 状态 意向
MDN 在标志后面 Chrome 138 Beta 版 在标志后面 Chrome 138 Beta 版 视图 发货意图

Summarizer API 可将冗长的文本内容浓缩为简短易懂的摘要。该 API 内置于 Chrome 中,并使用 Gemini Nano 执行推理。

不同的网站可能要求摘要采用各种样式和长度。例如,如果您是新闻网站,则可能需要在文章中提供要点的要点列表。或者,浏览商品评价的用户可以通过简短的评价情感摘要受益。为演示起见,我们总结了 Wikipedia 上关于威尔士柯基犬的页面,并将长度设置为 short

摘要类型 输出
headline ## 威尔士柯基犬:皇家犬和牧羊犬的历史
key-points * 威尔士柯基犬是一种起源于威尔士的小型牧羊犬。
* 主要有两种品种:彭布罗克威尔士柯基犬和卡迪根威尔士柯基犬。
* Pembroke 更受欢迎,与英国皇室有联系。
tldr 威尔士柯基犬是一种小型牧羊犬,在威尔士和英国皇室中历史悠久。这种犬有两种类型:彭布罗克和卡迪根,它们都以狐狸般的面孔、短腿和牧羊本能而闻名。
teaser 了解威尔士柯基犬的历史,从其作为威尔士农民的牧羊犬的卑微起源,到成为英国皇室象征的崛起。

您可以使用 Summarizer API Playground 试用其他网页。

对微调进行实验

138.0.7180.0 版开始,微调功能仅作为 Chrome Canary 中的标志提供。如需使用此模型,请执行以下操作:

  1. 打开 Chrome Canary
  2. 转到 chrome://flags/#summarization-api-for-gemini-nano
  3. 选择已启用(有自适应功能)
  4. 重启浏览器。
  5. 打开开发者工具 控制台,然后输入 Summarizer.availability()。这会开始下载补充 LoRA。

下载完成后,您就可以开始进行实验了。

评估总结器的性能

我们主要使用两种评估方法(自动自动评分器)来衡量经过微调的 Gemini Nano 的效果提升。微调有助于模型更好地执行特定任务,例如:

  • 更好地翻译医学文本。
  • 生成特定艺术风格的图片。
  • 了解新俚语。

在本例中,我们希望更好地满足每种摘要类型的预期。

自动评估

自动评估使用软件来判断模型的输出质量。我们使用此技术在英语输入内容的摘要中搜索格式错误、重复的句子以及非英语字符。

  • 格式错误:我们会检查摘要回答是否遵循了问题的格式说明。例如,对于简短的要点样式,我们会检查每个项目符号是否以星号 (*) 开头,以及项目符号的数量是否不超过 3 个。

  • 重复使用同一句子:我们会检查单个摘要回答中是否重复使用了同一句子,因为这表示回答质量较差。

  • 非英文字符:如果输入内容应为英语,我们会检查响应中是否包含非英文字符。

  • 输出中的超链接:我们会检查响应中是否存在输入中不存在的 Markdown 格式或纯文本超链接。

我们评估了两种输入内容:抓取的文章和聊天记录。

  标题 TLDR 要点 宣传片
  基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA
格式错误 13.54% / 7.05% 41.07% / 4.61% 12.58% / 6.36% 51.17% / 6.74%
重复句子 0.07% / 0.07% 0.21% / 0.0% 0.10% / 0.10% 0.10% / 0.03%
非英语错误 3.95% / 0.03% 1.38% / 0.0% 2.41% / 0.03% 1.44% / 0.0%
超链接 0.07% / 0.0% 0.14% / 0.0% 0.14% / 0.0% 0.34% / 0.0%
对 970 篇不同摘要类型的文章进行了自动评估。
  Headline TLDR 要点 预告片
  基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA
格式错误 13.17% / 0.24% 22.92% / 0.18% 4.43% / 0.09% 29.64% / 3.51%
重复句子 0.0% / 0.0% 0.0% / 0.0% 0.0% / 0.0% 0.03% / 0.0%
非英语错误 0.15% / 0.0% 0.15% / 0.0% 0.03% / 0.0% 0.06% / 0.0%
超链接 0.0% / 0.0% 0.0% / 0.0% 0.0% / 0.0% 0.0% / 0.0%
对 1091 条聊天条目样本进行的自动评估。

优化 Gemini Nano 后,我们发现不同类型的摘要(文章和聊天记录)的格式错误率显著降低。

自动评估器评估

我们使用 Gemini 1.5 Pro 进行了自动评估,以评判 Gemini Nano 的输出质量。由于每种摘要都有不同的用途,因此不同摘要类型的条件和条件值也不同。我们对所有摘要类型进行了评估,以确保:

  • 覆盖率:摘要是否准确捕捉了输入内容的根本目的?
  • 真实性:摘要是否真实?摘要是否引入了文本中未明确说明或暗示的新信息?
  • 格式:摘要的格式是否采用了有效的 Markdown 语法?摘要是否遵循了要求的句子长度上限?
  • 清晰度:摘要是否重复?摘要是否使用尽可能少的字词准确传达了核心信息?

由于这些摘要类型的用途不同,因此特定摘要类型适用额外的指标:

  • 互动度:(headline):一般观众能否立即理解摘要?摘要的措辞是否能吸引普通观众并激发他们的兴趣?
  • 简洁明了 (tldr):对于注意力时间非常短的用户,摘要是否清晰、简洁且能够立即理解?它是否能有效地将核心信息提炼成易于理解的形式,以便读者快速阅读?
  • 诱惑力 (teaser):摘要能否有效地激发读者的兴趣,并鼓励他们阅读完整文本以了解更多信息?其用词是否吸引人,并暗示有趣的内容?

我们使用自动评估器对比了基本模型和使用 LoRA 的模型的输出。自动评分器的分数介于 0 到 1 之间,然后根据阈值进行评估。

为了确保结果有依据,我们减少了数据方差并缓解了位置偏差。

  • 减少数据方差:由于独立运行可能会产生略有不同的结果,因此我们对每个输入的三个独立输出的得分进行了平均。我们对基准模型和微调后的 Gemini Nano 的输出进行了平均。虽然各个输出的得分差异很小,但平均值有助于我们更可靠地了解大量数据。
  • 减少位置偏差:为避免优先考虑先与评分者分享的摘要的价值,我们对结果进行了两次评估,然后对最终得分进行了平均。

    1. 我们先评估了 LoRA 模型,然后评估了基准模型。
    2. 然后,我们撤消了该订单。我们先评估了基准模型,然后评估了使用 LoRA 的模型。
    3. 我们会对最终得分求平均值。
      Short 中等
      基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA
    LoRA 优先 74.29% / 86.64% 76.11% / 81.38% 68.62% / 78.95%
    先使用基本模型 68.02% / 88.60% 64.97% / 87.58% 58.25% / 86.35%
    版本 C(平均) 71.02% / 89.18% 69.59% / 84.08% 63.47% / 82.65%
    key-points 摘要类型的胜出率。值越高,结果越好。

虽然同一模型的输出得分差异不大,但平均值有助于我们更可靠地了解大量数据。

在 500 篇文章中,经过微调的 Gemini Nano 的表现明显优于基准模型。

  Headline TLDR 要点 预告片
  基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA
短视频 74.74% / 89.12% 55.76% / 89.50% 71.02% / 89.18% 53.47% / 87.14%
73.10% / 87.89% 41.82% / 81.21% 69.59% / 84.08% 48.98% / 86.74%
60.99% / 89.32% 50.51% / 84.85% 63.47% / 82.65% 62.65% / 87.55%
Autorarer 在 500 篇不同摘要和长度类型的文章中的胜出率。得分越高,表示效果越好。

在对 500 条聊天记录进行评估时,我们也发现经过微调的 Gemini Nano 的效果优于基准模型。

  Headline TLDR 要点 预告片
  基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA
Short 70.59% / 96.15% 66.27% / 97.79% 81.60% / 97.40% 67.48% / 96.14%
中等 76.67% / 95.13% 56.02% / 94.98% 82.60% / 97.20% 50.41% / 96.95%
59.03% / 94.32% 65.86% / 95.58% 75.00% / 97.60% 70.94% / 97.16%
自动评分器在 500 条聊天记录中的胜出率,涵盖不同摘要和长度类型。得分越高,表示效果越好。

这些结果表明,我们的微调提升了摘要的整体质量。

利用 LoRA 生成更准确的摘要

传统上,微调是通过调整模型的参数来执行的。现代 AI 模型非常庞大,因此此操作速度缓慢、成本高昂,并且需要存储模型的全新副本。

如果我们添加一些额外的细节来引导模型朝着我们想要的方向发展,而不是更改所有参数,会怎么样?由于其体积较小,因此训练速度会更快。这是低秩自适应 (LoRA) 的核心理念。使用 LoRA 时,模型的某些部分会保持不变,这通常称为冻结参数。然后,引入一组较小的数据并进行小幅更正,将训练工作重点放在这些添加的数据上。

事实上,通常您只需使用 LoRA 训练原始参数的 2% 即可,输出结果仍会出现显著变化。

这种做法为何有效?无需更改每个模型参数,即可纳入许多行为(例如新样式、任务或知识)。这些变化可以表示为模型现有知识中的小模式或方向。LoRA 可高效捕获这些模式,而无需更改原始模型。

请查看下面一些示例,它们比较了添加 LoRA 后 Gemini Nano 基本模型与结果的对比情况。

我们让 Gemini Nano 为 Wikipedia 上的“约书亚树国家公园”文章创建一个简短的标题,要求该标题“能吸引注意力并传达内容的精髓”。

Gemini Nano Gemini Nano 与 LoRA
约书亚树国家公园的独特地貌和历史 约书亚树国家公园:位于加利福尼亚州,横跨沙漠,是著名树木的家园

接下来,我们让 Gemini Nano 为《Ratatouille》一文撰写了一段简短的预告片。“撰写一个诱人的单句,鼓励用户阅读完整文本。”

Gemini Nano Gemini Nano 与 LoRA
蔬菜杂烩是法国普罗旺斯地区深受喜爱的一道菜,主要由炖蔬菜组成,通常包括西红柿和大蒜。它的起源可追溯到 18 世纪,其制作方法也随着时间的推移而不断演变,有些厨师注重突出蔬菜的个别风味,而有些厨师则更喜欢口感更细腻、更统一的口感。除了法国起源之外,全世界各种菜系的类似菜肴也受到了 ratatouille 的启发,包括西班牙的 piperade 和地中海的 tian。2007 年的电影《美食总动员》进一步普及了这种菜肴,展示了其烹饪多样性和情感共鸣。 法国普罗旺斯地区的蔬菜炖菜“拉塔图”,有着丰富的烹饪历史,从简单的炖菜演变为现代烹饪杰作,吸引了全世界的食客。

实时推理演示

我们构建了一个界面,演示了 Gemini Nano 和 Gemini Nano with LoRA 之间的输出对比。

我们让 Gemini Nano 为大洋鲷一文创建了长度为 shorttldr 摘要。请注意,tldrshort 要求回答内容为 1 句话,且“一目了然”。

实时查看生成结果和读取输出所需的时间。

通过实现微调,Gemini Nano 可以更好地生成遵循具体说明的摘要。

互动和分享反馈

我们非常期待收到您对经过微调的 Gemini Nano 对摘要的影响的反馈。

探索在浏览器中使用模型(包括大语言模型)的所有内置 AI API


  1. Chin-Yew Lin. 2004。ROUGE:用于自动评估摘要的软件包。In Text Summarization Branches Out, pages 74–81, Barcelona, Spain. 计算语言学协会。 

  2. Kishore Papineni、Salim Roukos、Todd Ward 和 Wei-Jing Zhu。2002 年。BLEU:一种用于自动评估机器翻译的方法。In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02). 

  3. Mousumi Akter、Naman Bansal 和 Shubhra Kanti Karmaker。2022 年。Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE?. 发表在《计算语言学协会论文集:ACL 2022》(爱尔兰都柏林),第 1547-1560 页。计算语言学协会。 

  4. Daniel Deutsch 和 Dan Roth。2021 年。了解内容质量指标衡量摘要信息质量的程度。发表在《第 25 届计算自然语言学习会议论文集》(在线版),第 300-309 页。计算语言学协会。