I/O 2025 の AI に関するセッションを見る

公開日: 2025 年 5 月 22 日

AI は、ウェブ デベロッパーがウェブサイトやウェブ アプリケーションを構築する方法を変えています。Google I/O 2025 では、Google がこの 1 年で取り組んできたことを共有し、パートナーがウェブで AI を活用している方法をデモしました。また、新しい組み込み AI API を発表しました。

イベントを見逃した方なお、講演はオンデマンドで視聴できます。

Chrome の Gemini Nano による実用的な組み込み AI

すべてのデベロッパーとすべてのユーザーにとって、Chrome とウェブをよりスマートにすること。これが Google の中心的なミッションです。この講演では、Thomas Steiner が組み込み AI の最新情報、実用的なユースケース、今後の展望について説明します。

組み込み AI は、ブラウザでクライアントサイド モデルを実行します。これには次のような利点があります。

  • 非公開: 機密性の高いユーザーデータはデバイス上に保持され、ブラウザから外部に送信されることはありません。
  • オフライン: インターネットに接続していなくても、アプリケーションは AI 機能にアクセスできます。
  • 高パフォーマンス: ハードウェア アクセラレーションにより、これらの API は優れたパフォーマンスを発揮します。

組み込み AI API の各コードサンプルを確認し、ステータスの最新情報や、このテクノロジーを導入している企業を確認しましょう。

マルチモーダル API

Google は現在、まったく新しいマルチモーダル API の開発に取り組んでいます。つまり、Gemini Nano に、映像コンテンツで「見えるもの」や音声コンテンツで「聞こえるもの」について質問できます。たとえば、ブログ プラットフォームにアップロードされた画像の代替テキストの候補を取得し、ユーザーが調整できるようにします。また、Gemini Nano にポッドキャストの説明や文字起こしを作成するよう依頼することもできます。

ハイブリッド AI

クライアントサイド AI でデベロッパーが直面する課題の 1 つは、すべてのプラットフォームとブラウザが、モデルをデバイス上で実行するためのハードウェア要件を満たしているわけではないことです。Gemini と Firebase は提携して Firebase Web SDK を構築しました。これにより、クライアントサイドの実装を使用できない場合は、サーバー上の Gemini Nano にフォールバックできます。

お客様との連携

組み込み AI API について、多くのデベロッパーと連携できたことを嬉しく思います。皆様のご協力なしでは、Google の取り組みは実現できません。

  • 早期プレビュー プログラム: 16,000 人以上のデベロッパーが EPP に参加して、新しい API のテスト、新しいユースケースの発見、フィードバックの提供を行い、ウェブ向けの AI の改善に貢献しています。
  • ハッカソン: 2 回ハッカソンを開催し、参加者の皆様は素晴らしいウェブサイトと拡張機能を作成しました。

作業はこれで終わりではありません。引き続きフィードバックをお寄せいただき、新しい組み込み API をテストしていただきますようお願いいたします。Google は、皆様からのフィードバックを参考に、改善に努めてまいります。W3C の Web Machine Learning Community Group に参加して、これらの API の標準化に貢献することもできます。

ブラウザでの Gemini を使用した Chrome 拡張機能の今後

AI を活用した拡張機能の数は、過去 2 年間で倍増しています。実際、Chrome ウェブストアからインストールされたすべての拡張機能の 10% が AI を使用しています。このセッションでは、Sebastian Benz が、Chrome 拡張機能と Gemini が非常に強力な組み合わせである理由を実際の例で説明します。

たとえば、Chrome で新しくリリースされたプロンプト API を使用して、クライアント上のウェブサイトからデータを抽出して処理し、ブラウザの利便性を高める方法などがあります。

Chrome 拡張機能の Chrome プロンプト API の新しいマルチモーダル機能の可能性を示すことで、ユーザーが音声と画像にアクセスしやすくなります。

Google DeepMind の Project Mariner が Chrome 拡張機能と最新の Gemini Cloud API を使用して本格的なブラウザ エージェントを構築する方法について説明することで、ブラウジングの未来を探ります。

Chrome 拡張機能で Gemini をクラウドまたはブラウザ内で使用することで、新しいブラウジング エクスペリエンスを構築し、ブラウザをより便利に活用する方法をご覧ください。

実際のウェブ AI のユースケースと戦略

Yuriko Hirota
Yuriko Hirota
Swetha Gopalakrishnan
Swetha Gopalakrishnan

Yuriko Hirota と Swetha Gopalakrishnan は、ウェブで AI を使用してビジネスとユーザー エクスペリエンスを改善している企業の実際の例を紹介しました。ソリューションでクライアントサイド モデル、サーバーサイド、ハイブリッド ソリューションのいずれを使用しているかにかかわらず、重要なのは、今すぐユーザーに提供できる魅力的な新機能です。

BILIBILI は、弾幕コメントという新機能を導入し、動画配信のエンゲージメントを高めました。動画内でリアルタイムのユーザー コメントを表示し、スピーカーの後ろにレンダリングします。そのためには、よく理解されている機械学習のコンセプトである画像分割を使用します。その結果、セッション継続時間が 30% 増加しました。Tokopedia は、顔検出モデルを使用して販売者の確認プロセスの摩擦を軽減し、アップロードされた写真の品質を評価しました。その結果、手動承認がほぼ 70% 削減されました。

脳性視覚障害(CVI)のある子ども向けのウェブ プラットフォームである Vision Nanny は、AI を活用した視覚刺激アクティビティを提供します。これらの機能は、画像や動画、またはリアルタイムで手のキーポイントを検出する手のマーカー検出モデルなど、複数の MediaPipe ライブラリを使用します。50 人の子どもを対象とした試験運用では、Vision Nanny が手動の視覚刺激アクティビティよりも 5 倍速く反応することが実証されました。セラピストは、手動設定を排除することで、セッションごとに平均 3 時間を節約したと報告しています。

Google Meet には、明るさの補正から動画のぼやけや不鮮明さの軽減まで、AI を活用したさまざまな機能が搭載されています。最大の課題は、これらの機能がリアルタイムで動作する必要があることです。そこで、WebAssembly(Wasm)が登場します。コンピュータの CPU の全機能を活用して、リアルタイムの動画処理を可能にします。

これらは、ウェブで AI が活用されている実例のほんの一部にすぎません。他の複数の企業も組み込み AI API をテストしており、そのうちのいくつかはケーススタディで成果を共有しています。

クライアントサイドのウェブ AI エージェントによる、よりスマートなユーザー エクスペリエンスの構築

ジェイソン メイズは、インターネットの未来であるウェブ AI エージェントについて説明しました。ウェブにはエージェントとしての未来があります。AI 機能をブラウザに直接導入し、大規模言語モデル(LLM)の能力を超えて、ユーザーに代わって有用な作業を実行します。

クライアントサイド アプローチでは、プライバシーが強化され、レイテンシが短縮され、大幅な費用削減が期待できます。エージェントを使用すると、既存のウェブサイトをアップグレードし、ユーザーに代わってタスクを自動的に実行できます。公開されているツールを動的に選択して使用し、必要に応じてループで実行することで、複雑なタスクや複数のステップを含むタスクをエージェントが完了できます。

エージェントは次のことができます。

  • サブタスクを計画して分割する: タスクを論理的なステップに分割して完了し、複数のステップの計画を通じてより複雑な問題に対処します。
  • 関数、API の使用、拡張言語モデルの基本知識へのデータストア アクセスなど、最適なツールを選択し、外部に対してアクションを実行します。
  • エージェントまたは外部ツールからの以前の出力に基づいて、コンテキストベースのメモリを保持します。短期記憶は、モデルのコンテキスト ウィンドウ サイズまでのコンテキスト履歴の FIFO バッファとして機能します。これに対し、長期記憶では、ベクトル データベースを使用して情報を保存し、必要に応じて以前の会話セッションや他のデータソースから完全に復元できます。

Web AI エージェントは、JavaScript の既存のウェブ技術に統合するように設計されています。最終的には、ブラウザでモデルを最適に実行できるように、ハードウェアの高速化を継続することが重要です。今後、WebNN などの技術は、CPU、GPU、NPU 全体でモデル実行を最適化するうえで重要な役割を果たすでしょう。LLM の小型化と継続的な進歩により、この傾向は今後さらに強まっていくでしょう。

オンデバイス処理と戦略的なクラウド呼び出しを組み合わせたハイブリッド アプローチの使用を検討してください。これにより、ブラウザでインテリジェントでレスポンシブなパーソナライズされたユーザー エクスペリエンスを今すぐ作成できます。デバイスの LLM 実行能力が向上するにつれて、ウェブ AI アプローチへの投資はすぐに収益につながるはずです。

Google I/O 2025 の最新情報

Google I/O 2025 のすべてのトークが公開されました。ウェブ デベロッパー向けの再生リストも用意されています。io.google/2025 でさらに視聴できます。