发布时间:2025 年 5 月 22 日
AI 正在改变 Web 开发者构建网站和 Web 应用的方式。在 2025 年 Google I/O 大会上,我们分享了过去一年来的工作成果,展示了合作伙伴如何在 Web 上利用 AI,并宣布了新的内置 AI API。
错过了活动?好消息,您现在可以点播观看这些演讲了!
使用 Chrome 中的 Gemini Nano 实现实用的内置 AI
我们的核心使命是为所有开发者和所有用户打造更智能的 Chrome 和 Web 平台。在本演讲中,Thomas Steiner 分享了内置 AI 的最新动态、实用场景,并展望了未来。
内置 AI 会在浏览器中运行客户端模型,这具有以下几点优势:
- 隐私:敏感的用户数据会保留在设备上,而无需离开浏览器。
- 离线:应用无需连接到互联网即可使用 AI 功能。
- 高性能:得益于硬件加速,这些 API 可提供出色的性能。
查看每个内置 AI API 的代码示例,了解其最新状态,以及哪些公司在实现这项技术。
多模态 API
我们正在开发全新的多模态 API。这意味着,您可以询问 Gemini Nano 它在视觉内容中“看到”了什么,或在音频内容中“听到”了什么。例如,在博客平台上针对上传的图片获取替代文本建议,供用户优化和调整。或者,您也可以让 Gemini Nano 为播客撰写说明或转写内容。
混合 AI
开发者在使用客户端 AI 时面临的一个挑战是,并非所有平台和浏览器都满足在设备上运行模型的硬件要求。Gemini 和 Firebase 合作构建了 Firebase Web SDK,以便在客户端实现不可用时,您可以回退到服务器上的 Gemini Nano。
与您合作
我们很高兴能与这么多开发者合作,共同使用内置 AI API。我们离不开您的支持。
- 抢先体验计划:已有超过 16,000 名开发者加入了 EPP,他们在测试新 API、发现新用例并提供反馈,以便为 Web 构建更好的 AI。
- 黑客马拉松:我们举办了两场黑客马拉松,您构建了一些令人惊叹的网站和扩展程序。
您的工作还未完成。请继续分享您的反馈,测试新的内置 API,我们会不断迭代改进。您甚至可以加入 W3C 的Web 机器学习社区群组,帮助规范这些 API。
在浏览器中使用 Gemini 的 Chrome 扩展程序的未来
过去两年内,依托 AI 技术的扩展程序数量翻了一番。事实上,从 Chrome 应用商店安装的所有扩展程序中,有 10% 使用 AI 技术。在本演讲中,Sebastian Benz 通过实例说明了 Chrome 扩展程序和 Gemini 为何如此强大。
示例包括如何使用 Chrome 新推出的提示 API 从客户端提取和处理网站数据,从而让浏览器变得更加实用。
演示了 Chrome 提示 API 在 Chrome 扩展程序中的多模式新功能的潜力,让用户更轻松地访问音频和图片。
介绍 Google DeepMind 的 Project Mariner 如何使用 Chrome 扩展程序和最新的 Gemini Cloud API 构建完整的浏览器代理,从而了解浏览器的未来。
探索在Chrome 扩展程序中使用 Gemini 在云端或在浏览器中的潜力,以打造全新的浏览体验,让浏览器变得更加实用。
Web AI 在现实世界的应用场景和策略
Yuriko Hirota 和 Swetha Gopalakrishnan 重点介绍了一些企业在 Web 上使用 AI 来改善业务和用户体验的真实案例。无论其解决方案是使用客户端模型、服务器端模型还是混合解决方案,重要的是您能立即为用户提供令人兴奋的新功能。
BILIBILI推出了一项新功能:弹幕评论,让视频直播更具互动性。它们会在视频中提供实时用户评论,并在讲者背后呈现。为此,他们使用图像分割,这是一个众所周知的机器学习概念。结果,会话时长提高了 30%!Tokopedia 使用人脸检测模型来评估上传的照片质量,从而简化了卖家验证流程。因此,手动审批工作量减少了近 70%。
Vision Nanny 是一个面向脑视觉损伤 (CVI) 儿童的 Web 平台,提供 AI 赋能的视觉刺激活动。它们使用多个 MediaPipe 库,包括手部地标检测模型,该模型可在图片、视频中或实时定位手部的关键点。一项针对 50 名儿童的试点研究表明,与人工视觉刺激活动相比,视觉保姆的响应速度要快 5 倍。心理治疗师表示,通过移除手动设置,他们每节课平均可节省 3 小时的时间。
Google Meet 提供多项 AI 赋能的功能,从改善光线到减少视频模糊不清,应有尽有。最大的挑战是,这些功能需要实时运行。这时,WebAssembly (Wasm) 就派上用场了,它可以充分利用计算机 CPU 的强大性能,实现实时视频处理。
以上只是 Web 上 AI 应用的几个真实示例。还有一些其他公司尝试过内置 AI API,其中一些公司在案例研究中分享了他们的工作成果。
客户端 Web AI 智能体,打造更智能的未来用户体验
Jason Mayes 介绍了互联网的未来:Web AI 代理。网络拥有智能代理的未来,它可以将 AI 功能直接引入浏览器,代表您执行有用的工作,而这超出了大语言模型 (LLM) 的功能。
采用客户端方法可增强隐私保护、缩短延迟时间,并有望大幅降低费用。借助代理,您可以升级现有网站,为用户自主执行任务,动态选择和使用公开的工具(可能以循环方式),从而让代理完成可能复杂或多步的任务。
客服人员可以:
- 规划和划分子任务,通过多步规划来处理更复杂的问题,将任务分解为逻辑步骤以便完成。
- 选择最佳工具,无论是函数、API 使用,还是数据存储区访问增强型语言模型的基本知识,然后对外界执行操作。
- 保留基于上下文的内存,基于代理或外部工具的先前输出。短期记忆类似于上下文历史记录的 FIFO 缓冲区(大小不超过模型的上下文窗口大小),而长期记忆则可以使用矢量数据库存储信息,以便根据需要从之前的对话会话或其他数据源中完全检索。
Web AI 代理旨在集成到 JavaScript 中的现有 Web 技术。最终,我们必须继续加速硬件,以便在浏览器中以最佳方式运行模型,这一点至关重要。展望未来,WebNN 等技术将在优化 CPU、GPU 和 NPU 上的模型执行方面发挥关键作用。随着 LLM 越来越小且不断进步,这种技术在未来只会变得更强大。
不妨考虑采用混合方法,将设备端处理与战略性云端调用相结合,以便立即在浏览器中打造智能、响应迅速且个性化的用户体验。随着设备能够更轻松地运行 LLM,您对 Web AI 方法的投资很快就会带来回报。
了解 2025 年 Google I/O 大会
我们已发布 2025 年 Google I/O 大会的所有演讲,其中包含一个专门面向Web 开发者的播放列表。如需观看更多内容,请访问 io.google/2025。