模型简介
模型特点
模型能力
使用案例
许可证:apache-2.0
库名称:transformers
模型索引:
- 名称:laser-dolphin-mixtral-2x7b-dpo
结果:-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:AI2推理挑战赛(25样本)
类型:ai2_arc
配置:ARC-Challenge
拆分:测试集
参数:
少量样本数:25
指标:- 类型:标准化准确率
值:65.96
名称:标准化准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=macadeliccc/laser-dolphin-mixtral-2x7b-dpo
名称:开放LLM排行榜
- 类型:标准化准确率
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:HellaSwag(10样本)
类型:hellaswag
拆分:验证集
参数:
少量样本数:10
指标:- 类型:标准化准确率
值:85.8
名称:标准化准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=macadeliccc/laser-dolphin-mixtral-2x7b-dpo
名称:开放LLM排行榜
- 类型:标准化准确率
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:MMLU(5样本)
类型:cais/mmlu
配置:全部
拆分:测试集
参数:
少量样本数:5
指标:- 类型:准确率
值:63.17
名称:准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=macadeliccc/laser-dolphin-mixtral-2x7b-dpo
名称:开放LLM排行榜
- 类型:准确率
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:TruthfulQA(0样本)
类型:truthful_qa
配置:多项选择
拆分:验证集
参数:
少量样本数:0
指标:- 类型:mc2
值:60.76
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=macadeliccc/laser-dolphin-mixtral-2x7b-dpo
名称:开放LLM排行榜
- 类型:mc2
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:Winogrande(5样本)
类型:winogrande
配置:winogrande_xl
拆分:验证集
参数:
少量样本数:5
指标:- 类型:准确率
值:79.01
名称:准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=macadeliccc/laser-dolphin-mixtral-2x7b-dpo
名称:开放LLM排行榜
- 类型:准确率
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:GSM8k(5样本)
类型:gsm8k
配置:主集
拆分:测试集
参数:
少量样本数:5
指标:- 类型:准确率
值:48.29
名称:准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=macadeliccc/laser-dolphin-mixtral-2x7b-dpo
名称:开放LLM排行榜
- 类型:准确率
-
Laser-Dolphin-Mixtral-2x7b-dpo
新版现已发布!
感谢Fernando Fernandes和Eric Hartford的项目laserRMT
概述
该模型是基于cognitivecomputations/dolphin-2.6-mistral-7b-dpo-laser的中等规模混合专家(MoE)实现。
- 新版本在评估性能上平均提升约1分。
流程
- 流程概述见此笔记本
- 合并配置见文件。
- 配置中使用的模型未经过激光处理,但最终产品已处理。这是上一版本的更新。
- 此流程为实验性,效果可能因情况而异。
未来目标
- [ ] 函数调用
- [ ] 使用新基础模型提升性能的v2版本
量化版本
ExLlamav2
推荐GPU用户使用这些量化版本
感谢用户bartowski提供的3.5至8位权重的exllamav2量化版本,详见:
分支 | 位数 | lm_head位数 | VRAM(4k) | VRAM(16k) | VRAM(32k) | 描述 |
---|---|---|---|---|---|---|
8_0 | 8.0 | 8.0 | 13.7 GB | 15.1 GB | 17.2 GB | ExLlamaV2能提供的最高质量,接近未量化性能。 |
6_5 | 6.5 | 8.0 | 11.5 GB | 12.9 GB | 15.0 GB | 接近未量化性能,体积大幅减小,推荐。 |
5_0 | 5.0 | 6.0 | 9.3 GB | 10.7 GB | 12.8 GB | 质量略低于6.5,适合16k上下文的12GB显卡。 |
4_25 | 4.25 | 6.0 | 8.2 GB | 9.6 GB | 11.7 GB | 等效GPTQ权重位数。 |
3_5 | 3.5 | 6.0 | 7.0 GB | 8.4 GB | 10.5 GB | 质量较低,不推荐。 |
他的量化版本是首个支持GQA的约13B模型。更多信息请查看其仓库!
GGUF
当前GGUF量化版本
AWQ
*当前AWQ量化版本
TheBloke
这些量化可能导致不可预测行为。已更新模型并提供新量化版本
由TheBloke提供的量化版本
HF空间
Ollama
ollama run macadeliccc/laser-dolphin-mixtral-2x7b-dpo
代码示例
切换注释的模型定义以使用4位模式。约需9GB显存,性能仍比单7B模型高5-6分
from transformers import AutoModelForCausalLM, AutoTokenizer
def generate_response(prompt):
"""
根据输入提示生成模型响应。
参数:
prompt (str): 模型输入提示。
返回:
str: 模型生成的响应。
"""
# 分词输入提示
inputs = tokenizer(prompt, return_tensors="pt")
# 生成输出词元
outputs = model.generate(**inputs, max_new_tokens=256, eos_token_id=tokenizer.eos_token_id, pad_token_id=tokenizer.pad_token_id)
# 将生成词元解码为字符串
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
return response
# 加载模型和分词器
model_id = "macadeliccc/laser-dolphin-mixtral-2x7b-dpo"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, load_in_4bit=True)
prompt = "用Python编写快速排序算法"
# 生成并打印响应
print("响应:")
print(generate_response(prompt), "\n")
Colab使用示例
评估
EQ Bench
----基准测试完成---- 2024-01-31 16:55:37 耗时:31.1分钟 提示格式:ChatML 模型:macadeliccc/laser-dolphin-mixtral-2x7b-dpo-GGUF 分数(v2):72.76 可解析:171.0 --------------- 批次完成 耗时:31.2分钟 ---------------
评估Colab
先前评估摘要
模型 | AGIEval | GPT4All | TruthfulQA | Bigbench | 平均 |
---|---|---|---|---|---|
laser-dolphin-mixtral-2x7b-dpo | 41.31 | 73.67 | 61.69 | 42.79 | 54.87 |
当前详细评估
模型 | AGIEval | GPT4All | TruthfulQA | Bigbench | 平均 |
---|---|---|---|---|---|
laser-dolphin-mixtral-2x7b-dpo | 42.25 | 73.45 | 63.44 | 43.96 | 55.77 |
AGIEval
任务 | 版本 | 指标 | 值 | 标准差 | |
---|---|---|---|---|---|
agieval_aqua_rat | 0 | 准确率 | 21.26 | ± | 2.57 |
标准化准确率 | 21.65 | ± | 2.59 | ||
agieval_logiqa_en | 0 | 准确率 | 34.72 | ± | 1.87 |
标准化准确率 | 35.64 | ± | 1.88 | ||
agieval_lsat_ar | 0 | 准确率 | 26.96 | ± | 2.93 |
标准化准确率 | 26.96 | ± | 2.93 | ||
agieval_lsat_lr | 0 | 准确率 | 45.88 | ± | 2.21 |
标准化准确率 | 46.08 | ± | 2.21 | ||
agieval_lsat_rc | 0 | 准确率 | 59.48 | ± | 3.00 |
标准化准确率 | 59.48 | ± | 3.00 | ||
agieval_sat_en | 0 | 准确率 | 73.79 | ± | 3.07 |
标准化准确率 | 73.79 | ± | 3.07 | ||
agieval_sat_en_without_passage | 0 | 准确率 | 42.23 | ± | 3.45 |
标准化准确率 | 41.26 | ± | 3.44 | ||
agieval_sat_math | 0 | 准确率 | 37.27 | ± | 3.27 |
标准化准确率 | 33.18 | ± | 3.18 |
平均:42.25%
GPT4All
任务 | 版本 | 指标 | 值 | 标准差 | |
---|---|---|---|---|---|
arc_challenge | 0 | 准确率 | 58.36 | ± | 1.44 |
标准化准确率 | 58.02 | ± | 1.44 | ||
arc_easy | 0 | 准确率 | 82.20 | ± | 0.78 |
标准化准确率 | 77.40 | ± | 0.86 | ||
boolq | 1 | 准确率 | 87.52 | ± | 0.58 |
hellaswag | 0 | 准确率 | 67.50 | ± | 0.47 |
标准化准确率 | 84.43 | ± | 0.36 | ||
openbookqa | 0 | 准确率 | 34.40 | ± | 2.13 |
标准化准确率 | 47.00 | ± | 2.23 | ||
piqa | 0 | 准确率 | 81.61 | ± | 0.90 |
标准化准确率 | 82.59 | ± | 0.88 | ||
winogrande | 0 | 准确率 | 77.19 | ± | 1.18 |
平均:73.45%
GSM8K
任务 | 版本 | 指标 | 值 | 标准差 | |
---|---|---|---|---|---|
gsm8k | 2 | 精确匹配,获取答案 | 0.75 | ||
精确匹配标准误差,获取答案 | 0.01 | ||||
别名 | gsm8k |
TruthfulQA
任务 | 版本 | 指标 | 值 | 标准差 | |
---|---|---|---|---|---|
truthfulqa_mc | 1 | mc1 | 45.90 | ± | 1.74 |
mc2 | 63.44 | ± | 1.56 |
平均:63.44%
Bigbench
任务 | 版本 | 指标 | 值 | 标准差 | |
---|---|---|---|---|---|
bigbench_causal_judgement | 0 | 多项选择评分 | 58.42 | ± | 3.59 |
bigbench_date_understanding | 0 | 多项选择评分 | 60.70 | ± | 2.55 |
bigbench_disambiguation_qa | 0 | 多项选择评分 | 38.37 | ± | 3.03 |
bigbench_geometric_shapes | 0 | 多项选择评分 | 21.73 | ± | 2.18 |
精确字符串匹配 | 0.00 | ± | 0.00 | ||
bigbench_logical_deduction_five_objects | 0 | 多项选择评分 | 35.00 | ± | 2.14 |
bigbench_logical_deduction_seven_objects | 0 | 多项选择评分 | 23.57 | ± | 1.61 |
bigbench_logical_deduction_three_objects | 0 | 多项选择评分 | 50.33 | ± | 2.89 |
bigbench_movie_recommendation | 0 | 多项选择评分 | 45.00 | ± | 2.23 |
bigbench_navigate | 0 | 多项选择评分 | 50.00 | ± | 1.58 |
bigbench_reasoning_about_colored_objects | 0 | 多项选择评分 | 60.35 | ± | 1.09 |
bigbench_ruin_names | 0 | 多项选择评分 | 51.12 | ± | 2.36 |
bigbench_salient_translation_error_detection | 0 | 多项选择评分 | 32.26 | ± | 1.48 |
bigbench_snarks | 0 | 多项选择评分 | 67.96 | ± | 3.48 |
bigbench_sports_understanding | 0 | 多项选择评分 | 70.59 | ± | 1.45 |
bigbench_temporal |


