发布时间:2025 年 2 月 26 日
利用子群组改进机器学习工作负载
经过一年的开发和试用,现在可以使用子群组 WebGPU 功能,该功能支持 SIMD 级并行处理。它允许工作组中的线程进行通信并执行集体数学运算(例如计算数字之和),并提供了一种高效的跨线程数据共享方法。请参阅原始提案和chromestatus 条目。
作为参考,在源试用期间,当针对某些设备上的矩阵向量乘法着色器对子群组与打包整数点积进行基准评测时,Google Meet 的速度提高了 2.3-2.9 倍。
当 "subgroups" 功能在 GPUAdapter 中提供时,请求具有此功能的 GPUDevice 以在 WGSL 中获得子群组支持。检查 subgroupMinSize 和 subgroupMaxSize 适配器信息值很有帮助,例如,如果您有一个需要特定大小的子群组的硬编码算法。
您还需要使用 enable subgroups; 在 WGSL 代码中显式启用此扩展程序,才能在计算和片段着色器阶段访问以下内置值:
subgroup_invocation_id:子群组中线程索引的内置值。subgroup_size:用于访问子群组大小的内置值。
众多 子群组内置函数(例如 subgroupAdd()、subgroupBallot()、subgroupBroadcast()、subgroupShuffle())支持子群组内调用之间进行高效的通信和计算。这些子群组运算被归类为单指令多线程 (SIMT) 运算。此外,对调用四元组进行运算的四元组内置函数有助于四元组内的数据通信。
当您请求具有 "shader-f16" 和 "subgroups" 功能的 GPUDevice 时,可以将 f16 值与子群组搭配使用。
以下示例是探索子群组的良好起点:它展示了一个着色器,该着色器使用 subgroupExclusiveMul() 内置函数来计算阶乘,而无需读取或写入内存来传递中间结果。
移除对浮点数可过滤纹理类型的可混合支持
现在,通过 "float32-blendable" 功能可以进行 32 位浮点数纹理混合,因此移除了对浮点数可过滤纹理类型的错误可混合支持。请参阅问题 364987733。
Dawn 更新
Dawn 现在需要 macOS 11 和 iOS 14,并且仅支持 Metal 2.3+。请参阅问题 381117827。
wgpu::Instance 的新 GetWGSLLanguageFeatures() 方法现在取代了 EnumerateWGSLLanguageFeatures()。请参阅问题 368672124。
以下绑定类型具有 Undefined 值,并且其在绑定布局中的默认值已更改。请参阅问题 377820810。
wgpu::BufferBindingType::Undefined现在为Uniformwgpu::SamplerBindingType::Undefined现在为Filteringwgpu::TextureSampleType::Undefined现在为Floatwgpu::StorageTextureAccess::Undefined现在为WriteOnly
这仅涵盖了一些主要亮点。请查看提交的完整列表。
WebGPU 的新变化
WebGPU 新变化系列中涵盖的所有内容的列表。
Chrome 149-150
Chrome 147-148
Chrome 146
Chrome 145
Chrome 144
- WGSL subgroup_id 扩展程序
- WGSL uniform_buffer_standard_layout 扩展程序
- Linux 上的 WebGPU
- 更快的 writeBuffer 和 writeTexture
- Dawn 更新
Chrome 143
Chrome 142
Chrome 141
Chrome 140
- 设备请求会使用适配器
- 在纹理视图中使用纹理的简写
- WGSL textureSampleLevel 支持一维纹理
- 弃用 bgra8unorm 只读存储纹理使用情况
- 移除 GPUAdapter isFallbackAdapter 属性
- Dawn 更新
Chrome 139
Chrome 138
Chrome 137
- 将纹理视图用于 externalTexture 绑定
- 复制缓冲区,无需指定偏移量和大小
- WGSL workgroupUniformLoad 使用指向原子的指针
- GPUAdapterInfo powerPreference 属性
- 移除 GPURequestAdapterOptions compatibilityMode 属性
- Dawn 更新
Chrome 136
Chrome 135
- 允许使用 null 绑定组布局创建流水线布局
- 允许视口超出渲染目标边界
- 更轻松地访问 Android 上的实验性兼容模式
- 移除 maxInterStageShaderComponents 限制
- Dawn 更新
Chrome 134
Chrome 133
- 其他 unorm8x4-bgra 和 1 分量顶点格式
- 允许使用未定义值请求未知限制
- WGSL 对齐规则变更
- 通过舍弃获得 WGSL 性能提升
- 将 VideoFrame displaySize 用于外部纹理
- 使用 copyExternalImageToTexture 处理具有非默认方向的图片
- 提升开发者体验
- 使用 featureLevel 启用兼容模式
- 实验性子群组功能清理
- 弃用 maxInterStageShaderComponents 限制
- Dawn 更新
Chrome 132
- 纹理视图使用情况
- 32 位浮点数纹理混合
- GPUDevice adapterInfo 属性
- 使用无效格式配置画布上下文会抛出 JavaScript 错误
- 对纹理的过滤采样器限制
- 扩展子群组实验
- 提升开发者体验
- 实验性支持 16 位标准化纹理格式
- Dawn 更新
Chrome 131
- WGSL 中的剪辑距离
- GPUCanvasContext getConfiguration()
- 点和线基元不得具有深度偏差
- 子群组的包含扫描内置函数
- 实验性支持多重间接绘制
- 着色器模块编译选项 strict math
- 移除 GPUAdapter requestAdapterInfo()
- Dawn 更新
Chrome 130
Chrome 129
Chrome 128
Chrome 127
Chrome 126
Chrome 125
Chrome 124
Chrome 123
Chrome 122
Chrome 121
- 支持 Android 上的 WebGPU
- 在 Windows 上使用 DXC 而不是 FXC 进行着色器编译
- 计算和渲染通道中的时间戳查询
- 着色器模块的默认入口点
- 支持将 display-p3 作为 GPUExternalTexture 色彩空间
- 内存堆信息
- Dawn 更新
Chrome 120
Chrome 119
Chrome 118
- copyExternalImageToTexture()
copyExternalImageToTexture()中支持 HTMLImageElement 和 ImageData - 实验性支持读写和只读存储纹理
- Dawn 更新
Chrome 117
Chrome 116
- WebCodecs 集成
- GPUAdapter
requestDevice()返回的丢失设备 - 如果调用
importExternalTexture(),则保持视频播放流畅 - 规范一致性
- 提升开发者体验
- Dawn 更新
Chrome 115
Chrome 114
Chrome 113
- 在
importExternalTexture()中使用 WebCodecs VideoFrame 来源