language:
- 英文
- 韩文
library_name: transformers
tags:
- pytorch
- Yi-Ko
- 01-ai
- Yi
extra_gated_heading: 访问Hugging Face上的beomi/Yi-Ko-6B
extra_gated_button_content: 提交
extra_gated_fields:
我同意分享我的姓名、电子邮箱和用户名: checkbox
? 我确认理解本项目仅用于研究目的,并同意遵守该模型的许可证条款
: checkbox
pipeline_tag: text-generation
inference: false
model-index:
- name: Yi-Ko-6B
results:
- task:
type: 文本生成
name: 文本生成
dataset:
name: AI2推理挑战赛(25样本)
type: ai2_arc
config: ARC挑战赛
split: 测试集
args:
num_few_shot: 25
metrics:
- type: 标准化准确率
value: 48.89
name: 标准化准确率
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=beomi/Yi-Ko-6B
name: 开放大语言模型排行榜
- task:
type: 文本生成
name: 文本生成
dataset:
name: HellaSwag(10样本)
type: hellaswag
split: 验证集
args:
num_few_shot: 10
metrics:
- type: 标准化准确率
value: 74.48
name: 标准化准确率
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=beomi/Yi-Ko-6B
name: 开放大语言模型排行榜
- task:
type: 文本生成
name: 文本生成
dataset:
name: MMLU(5样本)
type: cais/mmlu
config: 全部
split: 测试集
args:
num_few_shot: 5
metrics:
- type: 准确率
value: 55.72
name: 准确率
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=beomi/Yi-Ko-6B
name: 开放大语言模型排行榜
- task:
type: 文本生成
name: 文本生成
dataset:
name: TruthfulQA(0样本)
type: truthful_qa
config: 多选
split: 验证集
args:
num_few_shot: 0
metrics:
- type: mc2
value: 37.09
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=beomi/Yi-Ko-6B
name: 开放大语言模型排行榜
- task:
type: 文本生成
name: 文本生成
dataset:
name: Winogrande(5样本)
type: winogrande
config: winogrande_xl
split: 验证集
args:
num_few_shot: 5
metrics:
- type: 准确率
value: 72.93
name: 准确率
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=beomi/Yi-Ko-6B
name: 开放大语言模型排行榜
- task:
type: 文本生成
name: 文本生成
dataset:
name: GSM8k(5样本)
type: gsm8k
config: 主集
split: 测试集
args:
num_few_shot: 5
metrics:
- type: 准确率
value: 12.51
name: 准确率
source:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=beomi/Yi-Ko-6B
name: 开放大语言模型排行榜
license: apache-2.0
2024年1月29日更新 新模型beomi/Yi-Ko-DUS-9B发布!🎉
2023年12月3日更新 Yi-Ko(韩英)-6B在开放韩语大语言模型排行榜获得预训练模型第一名🥇!🎉
2023年12月1日更新 Yi-Ko(韩英)-6B模型Alpha版本发布🎉
beomi/Yi-Ko-6B
Yi-Ko系列模型是01-ai/Yi模型的进阶版本,通过扩展词汇表并加入韩语/英语语料进行进一步预训练。与前辈模型类似,Yi-Ko系列模型覆盖了从60亿到340亿参数的广泛生成式文本模型范围。本仓库聚焦于适配Hugging Face Transformers格式的6B预训练版本。如需其他模型,请参考下方索引。
模型详情
模型开发者 李俊范(Beomi)
变体 Yi-Ko系列将提供不同参数规模——6B和34B变体。
输入 模型仅接受文本输入。
输出 模型仅生成文本。
模型架构
Yi-Ko系列模型是基于Llama-2*优化的自回归语言模型,采用改进的Transformer架构。
*Yi模型架构基于Llama2,因此可通过HF的LlamaForCausalLM
类加载。
模型名称 |
训练数据 |
参数量 |
上下文长度 |
GQA |
训练token数 |
学习率 |
每步批量大小 |
Yi-Ko-6B |
韩语+英语在线数据混合 |
6B |
4k |
启用 |
>600亿 |
5e-5 |
2048 |
词汇表扩展
模型名称 |
词汇量 |
描述 |
原始Yi系列 |
64000 |
Sentencepiece BPE |
扩展版Yi-Ko系列 |
78464 |
Sentencepiece BPE。新增韩语词汇及合并规则 |
分词示例"안녕하세요, 오늘은 날씨가 좋네요.ㅎㅎ"
模型 |
token数量 |
分词结果 |
原始Yi系列 |
47 |
['<0xEC>', '<0x95>', '<0x88>', '<0xEB>', '<0x85>', '<0x95>', '하', '<0xEC>', '<0x84>', '<0xB8>', '<0xEC>', '<0x9A>', '<0x94>', ',', '▁', '<0xEC>', '<0x98>', '<0xA4>', '<0xEB>', '<0x8A>', '<0x98>', '은', '▁', '<0xEB>', '<0x82>', '<0xA0>', '<0xEC>', '<0x94>', '<0xA8>', '가', '▁', '<0xEC>', '<0xA2>', '<0x8B>', '<0xEB>', '<0x84>', '<0xA4>', '<0xEC>', '<0x9A>', '<0x94>', '.', '<0xE3>', '<0x85>', '<0x8E>', '<0xE3>', '<0x85>', '<0x8E>'] |
扩展版Yi-Ko系列 |
10 |
['▁안녕', '하세요', ',', '▁오늘은', '▁날', '씨가', '▁좋네요', '.', 'ㅎ', 'ㅎ'] |
*与Llama-2-Ko系列采用相同韩语词汇表 |
|
|
分词示例"Llama 2: Open Foundation and Fine-Tuned Chat Models"
模型 |
token数量 |
分词结果 |
原始Yi系列 |
21 |
['The', '▁Y', 'i', '▁series', '▁models', '▁are', '▁large', '▁language', '▁models', '▁trained', '▁from', '▁scratch', '▁by', '▁developers', '▁at', '▁', '0', '1', '.', 'AI', '.'] |
扩展版Yi-Ko系列 |
21 |
['▁The', '▁Y', 'i', '▁series', '▁models', '▁are', '▁large', '▁language', '▁models', '▁trained', '▁from', '▁scratch', '▁by', '▁developers', '▁at', '▁', '0', '1', '.', 'AI', '.'] |
*与Llama-2-Ko系列采用相同韩语词汇表 |
|
*由于扩展版Yi-Ko系列在文本起始处添加_ (确保韩语句子分词一致性),英文分词首token存在细微差异。 |
模型基准测试
LM评估工具集 - 韩语(polyglot分支)
beomi/Yi-Ko-6B |
0样本 |
5样本 |
10样本 |
50样本 |
kobest_boolq (宏观F1) |
0.705806 |
0.79905 |
0.814299 |
0.81704 |
kobest_copa (宏观F1) |
0.775604 |
0.808899 |
0.816866 |
0.842943 |
kobest_hellaswag (宏观F1) |
0.500876 |
0.498673 |
0.493507 |
0.492183 |
kobest_sentineg (宏观F1) |
0.404371 |
0.967254 |
0.982368 |
0.974811 |
kohatespeech (宏观F1) |
0.353428 |
0.351804 |
0.402423 |
0.503764 |
kohatespeech_apeach (宏观F1) |
0.337667 |
0.498679 |
0.471962 |
0.608401 |
kohatespeech_gen_bias (宏观F1) |
0.124535 |
0.484745 |
0.474475 |
0.461714 |
korunsmile (F1) |
0.382804 |
0.349344 |
0.391383 |
0.432875 |
nsmc (准确率) |
0.55064 |
0.8801 |
0.89866 |
0.9071 |
pawsx_ko (准确率) |
0.5145 |
0.54 |
0.538 |
0.5165 |
许可证
Apache 2.0(研究用途)
商业用途请联系:
jun@beomi.net获取Yi-Ko系列商业许可证。
引用
请使用以下BibTeX格式:
@misc {lee_junbum_2024,
author = { {李俊范} },
title = { Yi-Ko-6B(修订版205083a) },
year = 2024,
url = { https://huggingface.co/beomi/Yi-Ko-6B },
doi = { 10.57967/hf/1708 },
publisher = { Hugging Face }
}
致谢
训练过程得到TPU研究云计划支持。
详细结果参见此处
指标 |
数值 |
平均得分 |
50.27 |
AI2推理挑战赛(25样本) |
48.89 |
HellaSwag(10样本) |
74.48 |
MMLU(5样本) |
55.72 |
TruthfulQA(0样本) |
37.09 |
Winogrande(5样本) |
72.93 |
GSM8k(5样本) |
12.51 |