1. 首页
  2. 青稞Talk
  3. Dr. Kernel: 突破大模型 GPU Kernel 生成的多轮 RL 训练瓶颈

Dr. Kernel: 突破大模型 GPU Kernel 生成的多轮 RL 训练瓶颈

  • 发布于 2026-03-03
  • 74 次阅读

直播平台

哔哩哔哩

YouTube

视频号

相关资源

演示文稿 (PPT)

直播配套幻灯片

下载

比肩 GPT-5 的 Kernel Coding 模型!Dr. Kernel 用多轮 RL 训练大模型 GPU Kernel 生成

让大模型通过强化学习(RL)生成 GPU Kernel 是业界共同的期望。但由于极易受“钻漏洞(reward hacking)”和“惰性优化(lazy optimization)”等长程训练不稳定问题的干扰,一直缺乏系统化方案 。

来自港科大、字节跳动、港中深和南洋理工的研究者们提出了Dr. Kernel,一套包含稳定、可大规模并行的分布式 GPU环境和创新 RL训练算法的解决方案,使得大模型在Kernel生成上的RL真正可行。

论文:Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations
链接:https://arxiv.org/abs/2602.05885
代码:https://github.com/hkust-nlp/KernelGYM

3月7日(周六)上午10点,青稞社区和减论平台将联合组织青稞Talk 第110期,香港科技大学(HKUST)在读博士刘威,将直播分享《Dr. Kernel:突破大模型 GPU Kernel 生成的多轮 RL 训练瓶颈》。

本次分享将探讨如何突破大模型利用强化学习生成 GPU Kernel 的训练瓶颈,介绍Dr. Kernel 解决方案 。

该方案从构建稳定的大规模并行分布式 GPU 环境出发,并提出创新的多轮 RL 算法,使得大模型在 Kernel 生成上的长期 RL 训练真正可行 。

最终得到的 Dr. Kernel-14B 模型在结合序列测试时扩展(STTS)后,于 KernelBench 的 Level-2 子集中实现了 47.8% 的有效提速代码(相对参考实现至少快 1.2 倍)生成比例,成功超越了前沿模型例如 GPT-5 与 Claude-4.5-Sonnet 。

分享嘉宾

刘威,香港科技大学(HKUST)在读博士生,导师是何俊贤教授。他的研究方向致力于开发具有理论基础且可扩展的方法,旨在构建能够与复杂真实环境互动的模型。近期,他的研究重点涵盖了强化学习(包括 M-STaR, LASER, SimpleRL, Dr. Kernel 等项目)、可扩展合成数据(Deita)以及智能体系统(Toolathlon)和测试时训练。他已在 ICLR、ICML、ACL 等顶级机器学习与自然语言处理会议上发表论文 10 余篇,总被引次数超过 1,000 次,其开源项目在 GitHub 上获得超过 4,000 Stars。

主题提纲

Dr. Kernel:突破大模型 GPU Kernel 生成的多轮 RL 训练瓶颈

1、Kernel 代码生成的背景与核心挑战
2、KernelGYM: 为 Kernel RL 打造的开源、分布式 GPU RL 环境
3、TRLOO 解决 GRPO 的 Self-inclusion 偏差,实现无偏多轮 RL
4、从缓解训推不一致 (MRS) 到对齐优化目标 (PR/PRS) 改善模型行为
5、未来方向 & AMA (Ask Me Anything)

直播时间

3月7日(周六)10:00 - 11:00