语言:
语鲸-8B
🚀 Github仓库 • 🤖 ModelScope • ⛵ Wisemodel
深言科技联合清华大学NLP实验室开源语鲸-8B模型 🎉
目录
模型介绍
语鲸-8B是深言科技推出的语鲸系列大模型中首个开源的中英双语大语言模型。
该模型基于数万亿token的高质量中英数据进行预训练,具备强大的基础能力,在多个公开评测基准中表现优异。预训练阶段采用8K上下文窗口,能够处理长文本理解与生成任务。
语鲸-8B对学术研究完全开放,商用需通过邮件申请获得官方授权许可。
我们同步开源了适配Huggingface接口的模型权重,并提供LoRA等参数高效微调方案,方便开发者快速应用。
需注意,受模型规模限制,语鲸-8B仍存在大模型常见的幻觉问题与数学计算能力不足等局限。后续版本将重点优化这些问题。
测评结果
我们在以下基准测试集上进行了全面评估:
- C-Eval:涵盖52个学科的中文评估基准,使用dev集作为few-shot来源,test集进行5-shot测试
- MMLU:包含57个跨领域任务的英文基准,采用5-shot测试
- CMMLU:覆盖67个主题的中文评测,使用dev集few-shot,test集5-shot
- Gaokao:基于高考题目的评估,保留四选一题型进行5-shot测试
- HumanEval:编程能力测试,采用zero-shot计算Pass@1
- GSM8K:小学数学应用题集,进行8-shot测试
- BBH:Big-Bench困难任务子集,3-shot测试
- AGIEval:类人认知能力评估,保留四选一题型5-shot测试
评测结果如下表所示:
模型 |
C-Eval |
MMLU |
CMMLU |
高考 |
编程 |
数学 |
BBH |
AGIEval |
|
5-shot |
5-shot |
5-shot |
5-shot |
0-shot |
8-shot |
3-shot |
5-shot |
GPT-4 |
68.4 |
83.9 |
70.3 |
66.2 |
69.5 |
90.0 |
75.1 |
63.3 |
GPT-3.5 Turbo |
51.1 |
68.5 |
54.1 |
47.1 |
52.4 |
57.8 |
61.6 |
46.1 |
LLaMA2-7B |
28.9 |
45.7 |
31.4 |
26.0 |
12.8 |
16.2 |
39.2 |
26.5 |
ChatGLM2-6B* |
51.7 |
47.9 |
- |
- |
- |
32.4 |
33.7 |
- |
Baichuan2-7B* |
54.0 |
54.2 |
57.1 |
47.5 |
18.3 |
24.5 |
41.6 |
42.7 |
Qwen-7B v1.1* |
63.5 |
58.2 |
62.2 |
- |
29.9 |
51.7 |
45.0 |
- |
语鲸-8B基础版 |
63.6 |
60.2 |
62.8 |
50.3 |
32.9 |
55.0 |
47.5 |
43.8 |
*标注结果来自官方数据,所有数值保留1位小数
生成样例
以下样例基于语鲸-8B微调后的对话模型生成
数学计算
问题:f(x)为偶函数,f(1)=3,f(2)=4,求f(1)+f(-2)^2的值?请分步说明
解答:根据题意:
- 偶函数性质:f(-x)=f(x)
- 已知f(1)=3,f(2)=4
计算步骤:
f(-2)=f(2)=4
f(1)+f(-2)^2=3+4^2=3+16=19
最终结果为19。
营销策划
情境:618大促期间提升国产精品眉笔销售额
方案:
- 限时特惠:买赠组合+折扣
- 社交媒体矩阵传播:微博/抖音产品种草
- KOL合作:美妆博主实测推荐
- 直播带货:邀请头部主播专场推广
- 平台活动:参与天猫/京东满减促销
通过"线上种草+直播转化"的组合拳实现销售增长。
诗词创作
要求:宋代风格七言诗赞岳飞
作品:
《岳飞》
铁马金戈壮士魂,
精忠报国志凌云。
千古英雄谁可及,
岳家军威震乾坤。
文化解说
问题:武侯祠参观前了解诸葛亮生平
解答:诸葛亮(181-234),字孔明,号卧龙,三国时期蜀汉丞相,集政治家、军事家、文学家于一身。主要事迹包括:
- 隆中对策定三分
- 赤壁之战联吴抗曹
- 治理蜀汉推行屯田
- 五次北伐鞠躬尽瘁
- 发明木牛流马等器械
被誉为"忠武侯",是忠臣与智者的典范。
编程实现
需求:Python正则验证手机号
import re
def validate_phone(phone):
pattern = r'^1[3-9]\d{9}$'
return bool(re.match(pattern, phone))
print(validate_phone('13800138000'))
print(validate_phone('12345678901'))
部署和推理
环境安装
pip install -r requirements.txt
Python示例
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("deeplang-ai/LingoWhale-8B", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("deeplang-ai/LingoWhale-8B", device_map="auto", trust_remote_code=True)
inputs = tokenizer("陋室铭\n唐 刘禹锡\n", return_tensors="pt").to("cuda:0")
output = model.generate(**inputs, max_new_tokens=100, repetition_penalty=1.1)
print(tokenizer.decode(output.cpu()[0], skip_special_tokens=True))
微调方法
单机训练
使用COIG数据集示例:
deepspeed finetune/finetune.py \
--data_path "finetune/data/coig_10k.json" \
--model_name_or_path deeplang-ai/LingoWhale-8B \
--output_dir "output" \
--per_device_train_batch_size 4 \
--gradient_accumulation_steps 1 \
--learning_rate 2e-5 \
--deepspeed finetune/ds_config.json \
--bf16 True
数据格式要求:
[
{
"conversations": [
{"from": "human", "value": "问题内容"},
{"from": "model", "value": "回答内容"}
]
}
]
多机训练
配置hostfile文件后执行:
ip1 slots=8
ip2 slots=8
运行命令与单机类似,增加--hostfile
参数。
高效微调
添加--use_lora True
启用LoRA,微调后模型加载方式:
from peft import AutoPeftModelForCausalLM
model = AutoPeftModelForCausalLM.from_pretrained("output")
开源协议
使用需遵守Apache 2.0和《语鲸-8B模型许可协议》。商业用途请通过申请表申请授权,审核通过后可免费商用。