license: mit
library_name: transformers
pipeline_tag: text-generation
Seed-Coder-8B-基础版
简介
我们很高兴推出Seed-Coder,这是一个强大、透明且参数高效的8B规模开源代码模型家族,包含基础版、指令版和推理版。Seed-Coder通过以下亮点推动开源代码模型的演进。
- 以模型为中心: Seed-Coder主要利用LLM而非手工规则进行代码数据过滤,最小化预训练数据构建中的人工干预。
- 透明开放: 我们公开分享了以模型为中心的数据流水线细节,包括GitHub数据、提交数据和代码相关网络数据的处理方法。
- 性能强大: Seed-Coder在同类规模的开源模型中,在多样化编码任务上实现了最先进的性能。
本仓库包含Seed-Coder-8B-基础版模型,具有以下特点:
- 类型:因果语言模型
- 训练阶段:预训练
- 数据来源:GitHub数据、代码相关网络数据
- 训练token数:6万亿
- 支持功能:代码补全、代码填充(中间填充)
- 上下文长度:32,768
模型下载
模型名称 |
长度 |
下载链接 |
说明 |
👉 Seed-Coder-8B-基础版 |
32K |
🤗 模型 |
基于模型中心化代码数据预训练 |
Seed-Coder-8B-指令版 |
32K |
🤗 模型 |
经过指令微调以适应用户意图 |
Seed-Coder-8B-推理版 |
64K |
🤗 模型 |
通过强化学习提升推理能力 |
Seed-Coder-8B-推理版-bf16 |
64K |
🤗 模型 |
通过强化学习提升推理能力 |
环境要求
需要安装最新版本的transformers
和accelerate
:
pip install -U transformers accelerate
快速开始
以下是一个简单示例,展示如何使用Hugging Face的pipeline
API加载模型并执行代码生成:
import transformers
import torch
model_id = "ByteDance-Seed/Seed-Coder-8B-Base"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
output = pipeline("def say_hello_world():", max_new_tokens=100)
print(output[0]["generated_text"])
中间填充(FIM)示例
Seed-Coder-8B-基础版原生支持**中间填充(FIM)**任务,模型接收前缀和后缀并预测缺失的中间内容。这适用于代码填充场景,如补全函数体或在两段代码间插入缺失逻辑。
典型示例:
import transformers
import torch
model_id = "ByteDance-Seed/Seed-Coder-8B-Base"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
prefix = "def add_numbers(a, b):\n "
suffix = "\n return result"
fim_input = '<[fim-suffix]>' + suffix + '<[fim-prefix]>' + prefix + '<[fim-middle]>'
output = pipeline(fim_input, max_new_tokens=512)
print(output[0]["generated_text"])
评估
Seed-Coder-8B-基础版已在代码生成、代码补全和代码推理基准测试中进行了评估,在约8B规模的开源模型中实现了最先进的性能。
|
DeepSeek-Coder-6.7B-基础版 |
OpenCoder-8B-基础版 |
Qwen2.5-Coder-7B |
Seed-Coder-8B-基础版 |
HumanEval |
47.6 |
66.5 |
72.0 |
77.4 |
MBPP |
70.2 |
79.9 |
79.4 |
82.0 |
MultiPL-E |
44.7 |
61.0 |
58.8 |
67.6 |
cruxeval-O |
41.0 |
43.9 |
56.0 |
54.8 |
详细基准测试性能请参阅我们的📑 技术报告。
许可证
本项目采用MIT许可证。详见许可证文件。