语言:
- 英文
许可证: mit
库名称: transformers
标签:
- orpo
- qwen2
- sft
- chatml
基础模型:
- MaziyarPanahi/calme-2.4-rys-78b
数据集:
- mlabonne/orpo-dpo-mix-40k
管道标签: 文本生成
推理: 否
模型创建者: dfurman
量化者: dfurman
模型索引:
- 名称: CalmeRys-78B-Orpo-v0.1
结果:
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: IFEval (0-Shot)
类型: HuggingFaceH4/ifeval
参数:
num_few_shot: 0
指标:
- 类型: inst_level_strict_acc 和 prompt_level_strict_acc
值: 81.63
名称: 严格准确率
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dfurman/CalmeRys-78B-Orpo-v0.1
名称: Open LLM Leaderboard
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: BBH (3-Shot)
类型: BBH
参数:
num_few_shot: 3
指标:
- 类型: acc_norm
值: 61.92
名称: 标准化准确率
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dfurman/CalmeRys-78B-Orpo-v0.1
名称: Open LLM Leaderboard
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MATH Lvl 5 (4-Shot)
类型: hendrycks/competition_math
参数:
num_few_shot: 4
指标:
- 类型: exact_match
值: 37.92
名称: 精确匹配
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dfurman/CalmeRys-78B-Orpo-v0.1
名称: Open LLM Leaderboard
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: GPQA (0-shot)
类型: Idavidrein/gpqa
参数:
num_few_shot: 0
指标:
- 类型: acc_norm
值: 20.02
名称: acc_norm
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dfurman/CalmeRys-78B-Orpo-v0.1
名称: Open LLM Leaderboard
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MuSR (0-shot)
类型: TAUR-Lab/MuSR
参数:
num_few_shot: 0
指标:
- 类型: acc_norm
值: 36.37
名称: acc_norm
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dfurman/CalmeRys-78B-Orpo-v0.1
名称: Open LLM Leaderboard
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MMLU-PRO (5-shot)
类型: TIGER-Lab/MMLU-Pro
配置: main
分割: test
参数:
num_few_shot: 5
指标:
- 类型: acc
值: 66.8
名称: 准确率
来源:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dfurman/CalmeRys-78B-Orpo-v0.1
名称: Open LLM Leaderboard
dfurman/CalmeRys-78B-Orpo-v0.1
该模型是基于 MaziyarPanahi/calme-2.4-rys-78b
在 mlabonne/orpo-dpo-mix-40k
数据集的1.5k行上进行微调的。它被训练为一个通用的语言模型,适用于多种文本生成场景,包括支持代理能力、角色扮演、推理、多轮对话、长上下文连贯性等。
截至2024年10月,这是 Open LLM Leaderboard 上排名最高的模型 🏆。
感谢 mlabonne、MaziyarPanahi 等人提供的数据集和基础模型。
🦾 训练
您可以在 W&B 上找到实验记录,链接 在此。以下是一些可视化图表:



💻 使用
设置
!pip install -qU transformers accelerate bitsandbytes
!huggingface-cli download dfurman/CalmeRys-78B-Orpo-v0.1
from transformers import AutoTokenizer, BitsAndBytesConfig
import transformers
import torch
if torch.cuda.get_device_capability()[0] >= 8:
!pip install -qqq flash-attn
attn_implementation = "flash_attention_2"
torch_dtype = torch.bfloat16
else:
attn_implementation = "eager"
torch_dtype = torch.float16
model = "dfurman/CalmeRys-78B-Orpo-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
"text-generation",
model=model,
model_kwargs={
"torch_dtype": torch_dtype,
"device_map": "auto",
"attn_implementation": attn_implementation,
}
)
示例1
question = "数字9.11比9.9大吗?"
messages = [
{"role": "system", "content": "你是一个逐步思考的助手。"},
{"role": "user", "content": question},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipeline(
prompt, max_new_tokens=1000, do_sample=True, temperature=0.7, top_k=50, top_p=0.95
)
print("***生成结果:")
print(outputs[0]["generated_text"][len(prompt) :])
***生成结果:
要比较这两个数字,重要的是看它们小数点后的部分。比较十分位,9.11的十分位是'1',而9.9的十分位是'9'。由于'9'大于'1',所以9.9比9.11大。
示例2
question = """比佛利山庄面包店的烘焙师周一早上烤了200条面包。
他们早上卖出了93条,下午卖出了39条。
一家杂货店随后退回了6条未售出的面包。
面包店还剩下多少条面包?
尽可能简洁地回答。将回答格式化为完成此表格:
|步骤|子问题|过程|结果|
|:---|:----------|:--------|:-----:|"""
messages = [
{"role": "system", "content": "你是一个乐于助人的助手。"},
{"role": "user", "content": question},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipeline(prompt, max_new_tokens=1000, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print("***生成结果:")
print(outputs[0]["generated_text"][len(prompt):])
***生成结果:
|1|计算总销量|将早上和下午的销量相加|132|
|2|从总数中减去销量|200 - 132|68|
|3|调整退货|将退回的面包加到剩余数量中|74|
示例3
question = "辣味玛格丽塔的好配方是什么?"
messages = [
{"role": "system", "content": "你是一个乐于助人的助手。"},
{"role": "user", "content": question},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipeline(prompt, max_new_tokens=1000, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print("***生成结果:")
print(outputs[0]["generated_text"][len(prompt):])
***生成结果:
制作辣味玛格丽塔,你需要在经典玛格丽塔配方中加入辣椒或胡椒元素。以下是一个简单的方法:
### 材料:
- 2盎司龙舌兰酒(白标或陈年)
- 1盎司新鲜青柠汁
- 1/2盎司三重橙酒(君度或柑曼怡)
- 1/2盎司龙舌兰糖浆或简单糖浆
- 1-2片墨西哥辣椒(根据个人口味调整)
- 盐和/或辣椒粉用于杯口装饰
- 冰块
- 青柠片作为装饰
### 步骤:
1. **捣碎辣椒**:在调酒器中轻轻捣碎辣椒片,释放辣椒的油脂和辣味。
2. **加入其他材料**:加入龙舌兰酒、青柠汁、三重橙酒和龙舌兰糖浆或简单糖浆。
3. **摇匀并过滤**:在调酒器中加入冰块,用力摇晃至冷却。过滤到杯口装饰有盐和/或辣椒粉的杯中,加冰。
4. **装饰并享用**:用青柠片装饰,即可享用。
如果你喜欢更温和的辣味,可以考虑制作墨西哥辣椒浸泡的龙舌兰酒:将辣椒片放入龙舌兰酒瓶中浸泡几小时至几天,根据个人口味调整时间。然后使用这种浸泡过的龙舌兰酒代替普通龙舌兰酒。
另一种变体是使用辣味糖浆。制作方法:将等量的水和糖与几片墨西哥辣椒放入锅中煮沸,搅拌至糖溶解。小火煮约5分钟。冷却后过滤掉辣椒,密封冷藏备用。在配方中使用这种辣味糖浆代替普通糖浆。
根据个人口味调整辣椒用量或种类。请理性享用!
详细结果可查看 此处
指标 |
值 |
平均 |
50.78 |
IFEval (0-Shot) |
81.63 |
BBH (3-Shot) |
61.92 |
MATH Lvl 5 (4-Shot) |
37.92 |
GPQA (0-shot) |
20.02 |
MuSR (0-shot) |
36.37 |
MMLU-PRO (5-shot) |
66.80 |