K

Kernelllm

由 facebook 开发
基于Llama 3.1 Instruct的8B参数大语言模型,专为使用Triton编写GPU内核任务训练,能将PyTorch模块转换为Triton内核
下载量 4,895
发布时间 : 4/14/2025
模型介绍
内容详情
替代品

模型简介

KernelLLM是一个专门用于GPU内核开发的AI模型,旨在通过自动化生成高效Triton实现方案来降低内核开发门槛,推动GPU编程民主化。

模型特点

高效内核生成
能将PyTorch模块高效转换为Triton内核实现,在KernelBench-Triton基准测试中表现优异
小模型高性能
仅8B参数却在单次推理性能上超越GPT-4o和DeepSeek V3等大模型
多轮推理优化
通过多次推理(pass@k)可显著提升性能,20次推理时表现优于DeepSeek R1
专项训练数据
使用25,000组PyTorch-Triton数据对和合成数据进行监督式微调

模型能力

PyTorch代码转换
Triton内核生成
GPU编程辅助
高性能计算优化

使用案例

GPU编程
PyTorch到Triton转换
将PyTorch模块自动转换为优化的Triton GPU内核实现
在KernelBench-Triton基准测试中得分20.2(pass@1)
高性能计算优化
为特定计算任务生成定制化的高效GPU内核
生成的内核经过随机形状输入的单元测试验证