发布时间:2025 年 5 月 21 日
总结是使用大语言模型 (LLM) 进行的最常见且最重要的 AI 任务之一。摘要是快速了解大量内容(从冗长的文章和密集的聊天记录到众多评价)的重要方式,可节省时间、提高工作效率,并让您能够更快地做出更明智的决策。
摘要有多种类型,详细程度和格式要求各不相同。为了满足各种摘要类型的预期,Chrome 与 Google Cloud 合作改进了 Gemini Nano 的输出。
我们使用低秩适应 (LoRA) 微调了 Gemini Nano,以便针对所有摘要样式和长度提升体验和输出质量。此外,我们还针对摘要质量的不同方面(包括事实性、覆盖面、格式和可读性)实现了自动和自动评分器评估。
我们通过可视化图表展示了这种差异在实际中的表现。您可以试用此实现,并查看实时演示,比较 Gemini Nano 和 Gemini Nano with LoRA 的输出。
什么是 Summarizer API?
解说 | Web | 扩展程序 | Chrome 状态 | 意向 |
---|---|---|---|---|
MDN | 视图 | 发货意图 |
Summarizer API 可将冗长的文本内容浓缩为简短易懂的摘要。该 API 内置于 Chrome 中,并使用 Gemini Nano 执行推理。
不同的网站可能要求摘要采用各种样式和长度。例如,如果您是新闻网站,则可能需要在文章中提供要点的要点列表。或者,浏览商品评价的用户可以通过简短的评价情感摘要受益。为演示起见,我们总结了 Wikipedia 上关于威尔士柯基犬的页面,并将长度设置为 short
。
摘要类型 | 输出 |
headline |
## 威尔士柯基犬:皇家犬和牧羊犬的历史 |
key-points |
* 威尔士柯基犬是一种起源于威尔士的小型牧羊犬。 * 主要有两种品种:彭布罗克威尔士柯基犬和卡迪根威尔士柯基犬。 * Pembroke 更受欢迎,与英国皇室有联系。 |
tldr |
威尔士柯基犬是一种小型牧羊犬,在威尔士和英国皇室中历史悠久。这种犬有两种类型:彭布罗克和卡迪根,它们都以狐狸般的面孔、短腿和牧羊本能而闻名。 |
teaser |
了解威尔士柯基犬的历史,从其作为威尔士农民的牧羊犬的卑微起源,到成为英国皇室象征的崛起。 |
您可以使用 Summarizer API Playground 试用其他网页。
对微调进行实验
从 138.0.7180.0
版开始,微调功能仅作为 Chrome Canary 中的标志提供。如需使用此模型,请执行以下操作:
- 打开 Chrome Canary。
- 转到
chrome://flags/#summarization-api-for-gemini-nano
- 选择已启用(有自适应功能)。
- 重启浏览器。
- 打开开发者工具 控制台,然后输入
Summarizer.availability()
。这会开始下载补充 LoRA。
下载完成后,您就可以开始进行实验了。
评估总结器的性能
我们主要使用两种评估方法(自动和自动评分器)来衡量经过微调的 Gemini Nano 的效果提升。微调有助于模型更好地执行特定任务,例如:
- 更好地翻译医学文本。
- 生成特定艺术风格的图片。
- 了解新俚语。
在本例中,我们希望更好地满足每种摘要类型的预期。
自动评估
自动评估使用软件来判断模型的输出质量。我们使用此技术在英语输入内容的摘要中搜索格式错误、重复的句子以及非英语字符。
格式错误:我们会检查摘要回答是否遵循了问题的格式说明。例如,对于简短的要点样式,我们会检查每个项目符号是否以星号 (
*
) 开头,以及项目符号的数量是否不超过 3 个。重复使用同一句子:我们会检查单个摘要回答中是否重复使用了同一句子,因为这表示回答质量较差。
非英文字符:如果输入内容应为英语,我们会检查响应中是否包含非英文字符。
输出中的超链接:我们会检查响应中是否存在输入中不存在的 Markdown 格式或纯文本超链接。
我们评估了两种输入内容:抓取的文章和聊天记录。
标题 | TLDR | 要点 | 宣传片 | |
基准 / 使用 LoRA | 基准 / 使用 LoRA | 基准 / 使用 LoRA | 基准 / 使用 LoRA | |
格式错误 | 13.54% / 7.05% | 41.07% / 4.61% | 12.58% / 6.36% | 51.17% / 6.74% |
重复句子 | 0.07% / 0.07% | 0.21% / 0.0% | 0.10% / 0.10% | 0.10% / 0.03% |
非英语错误 | 3.95% / 0.03% | 1.38% / 0.0% | 2.41% / 0.03% | 1.44% / 0.0% |
超链接 | 0.07% / 0.0% | 0.14% / 0.0% | 0.14% / 0.0% | 0.34% / 0.0% |
Headline | TLDR | 要点 | 预告片 | |
基准 / 使用 LoRA | 基准 / 使用 LoRA | 基准 / 使用 LoRA | 基准 / 使用 LoRA | |
格式错误 | 13.17% / 0.24% | 22.92% / 0.18% | 4.43% / 0.09% | 29.64% / 3.51% |
重复句子 | 0.0% / 0.0% | 0.0% / 0.0% | 0.0% / 0.0% | 0.03% / 0.0% |
非英语错误 | 0.15% / 0.0% | 0.15% / 0.0% | 0.03% / 0.0% | 0.06% / 0.0% |
超链接 | 0.0% / 0.0% | 0.0% / 0.0% | 0.0% / 0.0% | 0.0% / 0.0% |
优化 Gemini Nano 后,我们发现不同类型的摘要(文章和聊天记录)的格式错误率显著降低。
自动评估器评估
我们使用 Gemini 1.5 Pro 进行了自动评估,以评判 Gemini Nano 的输出质量。由于每种摘要都有不同的用途,因此不同摘要类型的条件和条件值也不同。我们对所有摘要类型进行了评估,以确保:
- 覆盖率:摘要是否准确捕捉了输入内容的根本目的?
- 真实性:摘要是否真实?摘要是否引入了文本中未明确说明或暗示的新信息?
- 格式:摘要的格式是否采用了有效的 Markdown 语法?摘要是否遵循了要求的句子长度上限?
- 清晰度:摘要是否重复?摘要是否使用尽可能少的字词准确传达了核心信息?
由于这些摘要类型的用途不同,因此特定摘要类型适用额外的指标:
- 互动度:(
headline
):一般观众能否立即理解摘要?摘要的措辞是否能吸引普通观众并激发他们的兴趣? - 简洁明了 (
tldr
):对于注意力时间非常短的用户,摘要是否清晰、简洁且能够立即理解?它是否能有效地将核心信息提炼成易于理解的形式,以便读者快速阅读? - 诱惑力 (
teaser
):摘要能否有效地激发读者的兴趣,并鼓励他们阅读完整文本以了解更多信息?其用词是否吸引人,并暗示有趣的内容?
我们使用自动评估器对比了基本模型和使用 LoRA 的模型的输出。自动评分器的分数介于 0 到 1 之间,然后根据阈值进行评估。
为了确保结果有依据,我们减少了数据方差并缓解了位置偏差。
- 减少数据方差:由于独立运行可能会产生略有不同的结果,因此我们对每个输入的三个独立输出的得分进行了平均。我们对基准模型和微调后的 Gemini Nano 的输出进行了平均。虽然各个输出的得分差异很小,但平均值有助于我们更可靠地了解大量数据。
减少位置偏差:为避免优先考虑先与评分者分享的摘要的价值,我们对结果进行了两次评估,然后对最终得分进行了平均。
- 我们先评估了 LoRA 模型,然后评估了基准模型。
- 然后,我们撤消了该订单。我们先评估了基准模型,然后评估了使用 LoRA 的模型。
- 我们会对最终得分求平均值。
Short 中等 长 基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA LoRA 优先 74.29% / 86.64% 76.11% / 81.38% 68.62% / 78.95% 先使用基本模型 68.02% / 88.60% 64.97% / 87.58% 58.25% / 86.35% 版本 C(平均) 71.02% / 89.18% 69.59% / 84.08% 63.47% / 82.65% key-points
摘要类型的胜出率。值越高,结果越好。
虽然同一模型的输出得分差异不大,但平均值有助于我们更可靠地了解大量数据。
在 500 篇文章中,经过微调的 Gemini Nano 的表现明显优于基准模型。
Headline | TLDR | 要点 | 预告片 | |
基准 / 使用 LoRA | 基准 / 使用 LoRA | 基准 / 使用 LoRA | 基准 / 使用 LoRA | |
短视频 | 74.74% / 89.12% | 55.76% / 89.50% | 71.02% / 89.18% | 53.47% / 87.14% |
中 | 73.10% / 87.89% | 41.82% / 81.21% | 69.59% / 84.08% | 48.98% / 86.74% |
长 | 60.99% / 89.32% | 50.51% / 84.85% | 63.47% / 82.65% | 62.65% / 87.55% |
在对 500 条聊天记录进行评估时,我们也发现经过微调的 Gemini Nano 的效果优于基准模型。
Headline | TLDR | 要点 | 预告片 | |
基准 / 使用 LoRA | 基准 / 使用 LoRA | 基准 / 使用 LoRA | 基准 / 使用 LoRA | |
Short | 70.59% / 96.15% | 66.27% / 97.79% | 81.60% / 97.40% | 67.48% / 96.14% |
中等 | 76.67% / 95.13% | 56.02% / 94.98% | 82.60% / 97.20% | 50.41% / 96.95% |
长 | 59.03% / 94.32% | 65.86% / 95.58% | 75.00% / 97.60% | 70.94% / 97.16% |
这些结果表明,我们的微调提升了摘要的整体质量。
利用 LoRA 生成更准确的摘要
传统上,微调是通过调整模型的参数来执行的。现代 AI 模型非常庞大,因此此操作速度缓慢、成本高昂,并且需要存储模型的全新副本。
如果我们添加一些额外的细节来引导模型朝着我们想要的方向发展,而不是更改所有参数,会怎么样?由于其体积较小,因此训练速度会更快。这是低秩自适应 (LoRA) 的核心理念。使用 LoRA 时,模型的某些部分会保持不变,这通常称为冻结参数。然后,引入一组较小的数据并进行小幅更正,将训练工作重点放在这些添加的数据上。
事实上,通常您只需使用 LoRA 训练原始参数的 2% 即可,输出结果仍会出现显著变化。
这种做法为何有效?无需更改每个模型参数,即可纳入许多行为(例如新样式、任务或知识)。这些变化可以表示为模型现有知识中的小模式或方向。LoRA 可高效捕获这些模式,而无需更改原始模型。
请查看下面一些示例,它们比较了添加 LoRA 后 Gemini Nano 基本模型与结果的对比情况。
我们让 Gemini Nano 为 Wikipedia 上的“约书亚树国家公园”文章创建一个简短的标题,要求该标题“能吸引注意力并传达内容的精髓”。
Gemini Nano | Gemini Nano 与 LoRA |
约书亚树国家公园的独特地貌和历史 | 约书亚树国家公园:位于加利福尼亚州,横跨沙漠,是著名树木的家园 |
接下来,我们让 Gemini Nano 为《Ratatouille》一文撰写了一段简短的预告片。“撰写一个诱人的单句,鼓励用户阅读完整文本。”
Gemini Nano | Gemini Nano 与 LoRA |
蔬菜杂烩是法国普罗旺斯地区深受喜爱的一道菜,主要由炖蔬菜组成,通常包括西红柿和大蒜。它的起源可追溯到 18 世纪,其制作方法也随着时间的推移而不断演变,有些厨师注重突出蔬菜的个别风味,而有些厨师则更喜欢口感更细腻、更统一的口感。除了法国起源之外,全世界各种菜系的类似菜肴也受到了 ratatouille 的启发,包括西班牙的 piperade 和地中海的 tian。2007 年的电影《美食总动员》进一步普及了这种菜肴,展示了其烹饪多样性和情感共鸣。 | 法国普罗旺斯地区的蔬菜炖菜“拉塔图”,有着丰富的烹饪历史,从简单的炖菜演变为现代烹饪杰作,吸引了全世界的食客。 |
实时推理演示
我们构建了一个界面,演示了 Gemini Nano 和 Gemini Nano with LoRA 之间的输出对比。
我们让 Gemini Nano 为大洋鲷一文创建了长度为 short
的 tldr
摘要。请注意,tldr
和 short
要求回答内容为 1 句话,且“一目了然”。
通过实现微调,Gemini Nano 可以更好地生成遵循具体说明的摘要。
互动和分享反馈
我们非常期待收到您对经过微调的 Gemini Nano 对摘要的影响的反馈。
- 在 Chrome Canary 中试用更新后的模型。
- 详细了解 Summarizer API。
- 如果您对 Chrome 的实现有任何意见/建议,请提交bug 报告或功能请求。
探索在浏览器中使用模型(包括大语言模型)的所有内置 AI API。
-
Chin-Yew Lin. 2004。ROUGE:用于自动评估摘要的软件包。In Text Summarization Branches Out, pages 74–81, Barcelona, Spain. 计算语言学协会。 ↩
-
Kishore Papineni、Salim Roukos、Todd Ward 和 Wei-Jing Zhu。2002 年。BLEU:一种用于自动评估机器翻译的方法。In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02). ↩
-
Mousumi Akter、Naman Bansal 和 Shubhra Kanti Karmaker。2022 年。Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE?. 发表在《计算语言学协会论文集:ACL 2022》(爱尔兰都柏林),第 1547-1560 页。计算语言学协会。 ↩
-
Daniel Deutsch 和 Dan Roth。2021 年。了解内容质量指标衡量摘要信息质量的程度。发表在《第 25 届计算自然语言学习会议论文集》(在线版),第 300-309 页。计算语言学协会。 ↩