Dolphin 2.9.1 Yi 1.5 34b
D
Dolphin 2.9.1 Yi 1.5 34b
由 dphn 开发
Dolphin 2.9.1 Yi 1.5 34b是一款高性能大语言模型,基于Yi-1.5-34b架构,经过精心训练,提供高质量的交互体验。
下载量 4.7M
发布时间 : 5/18/2024
模型简介
该模型具备强大的知识理解和应用能力,支持长序列处理和多技能融合,适用于多种指令处理、对话和编码任务。
模型特点
高性能表现
在MMLU测试中取得77.4的高分,展现出强大的知识理解和应用能力。
长序列处理
通过特殊设置实现8k序列长度的训练,支持处理长文本。
多技能融合
具备多种指令处理、对话和编码技能,支持函数调用和初步的智能体能力。
无审查设计
数据集经过过滤,去除对齐和偏差,模型更加灵活,但需自行添加对齐层。
模型能力
文本生成
对话系统
代码生成
函数调用
长文本处理
使用案例
对话系统
智能助手
作为智能助手提供高质量的对话交互。
对话表现十分出色
代码生成
代码补全
支持代码生成和补全任务。
🚀 Dolphin 2.9.1 Yi 1.5 34b 🐬
Dolphin 2.9.1 Yi 1.5 34b是一款经过精心训练的模型,由Eric Hartford、Lucas Atkins、Fernando Fernandes以及Cognitive Computations团队打造。该模型在性能上表现出色,能为用户提供高质量的交互体验。
🚀 快速开始
此模型基于Yi - 1.5 - 34b,采用了FFT技术,所有参数均为16bit。在34b的模型上,MMLU得分达到了77.4,并且对话表现十分出色。虽然最大位置嵌入为4k,但使用了rope theta为1000000.0,并以8k的序列长度进行训练,后续还计划在即将推出的32k版本上进行训练。
✨ 主要特性
- 高性能表现:在MMLU测试中取得了77.4的高分,展现出强大的知识理解和应用能力。
- 长序列处理:尽管基础模型上下文为4k,但通过特殊设置,实现了8k序列长度的训练,为处理长文本提供了支持。
- 多技能融合:具备多种指令处理、对话和编码技能,还拥有初步的智能体能力,支持函数调用。
- 无审查设计:对数据集进行了过滤,去除了对齐和偏差,使模型更加灵活,但使用时建议自行添加对齐层。
📦 安装指南
文档未提供具体安装步骤,暂不展示。
💻 使用示例
基础用法
Dolphin 2.9.1使用ChatML提示模板格式,示例如下:
<|im_start|>system
You are Dolphin, a helpful AI assistant.<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
📚 详细文档
评估结果
训练配置
该模型使用Axolotl进行训练,以下是详细的Axolotl配置:
查看axolotl配置
axolotl版本:0.4.0
base_model: 01-ai/Yi-1.5-34B
model_type: LlamaForCausalLM
tokenizer_type: LlamaTokenizer
trust_remote_code: true
# load_in_8bit: false
# load_in_4bit: true
# strict: false
# adapter: qlora
# lora_modules_to_save: [embed_tokens, lm_head]
# lora_r: 32
# lora_alpha: 16
# lora_dropout: 0.05
# lora_target_linear: True
# lora_fan_in_fan_out:
datasets:
- path: /workspace/datasets/dolphin-2.9/dolphin201-sharegpt2.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/dolphin-coder-translate-sharegpt2.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/dolphin-coder-codegen-sharegpt2.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/m-a-p_Code-Feedback-sharegpt-unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/m-a-p_CodeFeedback-Filtered-Instruction-sharegpt-unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/not_samantha_norefusals.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/Orca-Math-resort-unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/agent_instruct_react_unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/toolbench_instruct_j1s1_3k_unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/toolbench_negative_unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/toolbench_react_10p_unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/toolbench_tflan_cot_30p_unfiltered.jsonl
type: sharegpt
conversation: chatml
- path: /workspace/datasets/dolphin-2.9/openhermes200k_unfiltered.jsonl
type: sharegpt
conversation: chatml
chat_template: chatml
dataset_prepared_path: yi34b
val_set_size: 0.01
output_dir: ./out-yi
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
wandb_project: dolphin-2.9-yi-34b
wandb_watch:
wandb_run_id:
wandb_log_model:
gradient_accumulation_steps: 8
micro_batch_size: 1
num_epochs: 3
optimizer: adamw_8bit
lr_scheduler: cosine
learning_rate: 1e-5
train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: true
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
early_stopping_patience:
# resume_from_checkpoint: /workspace/axolotl/dbrx-checkpoint
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 10
evals_per_epoch: 4
eval_table_size:
saves_per_epoch: 4
save_total_limit: 2
save_steps:
debug:
deepspeed: /workspace/axolotl/deepspeed_configs/zero3_bf16.json
weight_decay: 0.05
fsdp:
fsdp_config:
special_tokens:
bos_token: "<|startoftext|>"
eos_token: "<|im_end|>"
pad_token: "<unk>"
unk_token: "<unk>"
tokens:
- "<|im_start|>"
🔧 技术细节
训练超参数
属性 | 详情 |
---|---|
学习率 | 1e - 05 |
训练批次大小 | 1 |
评估批次大小 | 1 |
随机种子 | 42 |
分布式类型 | 多GPU |
设备数量 | 8 |
梯度累积步数 | 8 |
总训练批次大小 | 64 |
总评估批次大小 | 8 |
优化器 | Adam(betas = (0.9, 0.999),epsilon = 1e - 08) |
学习率调度器类型 | 余弦 |
学习率调度器热身步数 | 10 |
训练轮数 | 3 |
训练结果
训练损失 | 轮数 | 步数 | 验证损失 |
---|---|---|---|
0.6265 | 0.0 | 1 | 0.6035 |
0.4674 | 0.25 | 327 | 0.4344 |
0.4337 | 0.5 | 654 | 0.4250 |
0.4346 | 0.75 | 981 | 0.4179 |
0.3985 | 1.0 | 1308 | 0.4118 |
0.3128 | 1.23 | 1635 | 0.4201 |
0.3261 | 1.48 | 1962 | 0.4157 |
0.3259 | 1.73 | 2289 | 0.4122 |
0.3126 | 1.98 | 2616 | 0.4079 |
0.2265 | 2.21 | 2943 | 0.4441 |
0.2297 | 2.46 | 3270 | 0.4427 |
0.2424 | 2.71 | 3597 | 0.4425 |
框架版本
- Transformers 4.40.0.dev0
- Pytorch 2.2.2+cu121
- Datasets 2.15.0
- Tokenizers 0.15.0
📄 许可证
该模型基于Apache 2.0许可证,允许包括商业用途在内的任何使用方式。模型训练数据来源于GPT4等其他模型。
⚠️ 重要提示
此模型未经过审查,对数据集进行了过滤以去除对齐和偏差。这使得模型更加灵活,但也可能会生成一些不符合伦理的内容。建议在将模型作为服务公开之前,自行实现对齐层。用户需对使用该模型生成的任何内容负责,请谨慎使用。
💡 使用建议
在使用过程中,可根据实际需求调整训练参数,以获得更好的性能表现。同时,关注模型的更新动态,以便及时应用新的功能和优化。
赞助致谢
感谢以下赞助商对Dolphin 2.9.1的支持:
- Crusoe Cloud - 提供了出色的按需8xH100节点。
- OnDemand - 提供推理赞助。
社区链接
- Discord:点击链接加入社区,与开发者和其他用户交流。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文