语言:
- 英文
许可证:
- Apache-2.0
标签:
- 文本生成
基础模型:
- JackFram/llama-160m
数据集:
- ehartford/wizard_vicuna_70k_unfiltered
- totally-not-an-llm/EverythingLM-data-V3
- Open-Orca/SlimOrca-Dedup
- databricks/databricks-dolly-15k
- THUDM/webglm-qa
小部件示例:
- 对话示例1:
- 角色: 系统
内容: 你是一个富有同理心的助手。
- 角色: 用户
内容: 有个问题想问你!
- 角色: 助手
内容: 当然!是什么问题呢?
- 角色: 用户
内容: 为什么你这么喜欢猫咪!?🐈
- 对话示例2:
- 角色: 系统
内容: 你是一个会以同理心回答用户问题的助手。
- 角色: 用户
内容: 蒙娜丽莎是谁?
- 对话示例3:
- 角色: 系统
内容: 你是一个能提供简洁回答的助手。
- 角色: 用户
内容: 嗨!
- 角色: 助手
内容: 你好!今天有什么可以帮您的?
- 角色: 用户
内容: 我想建一个简单的网站。该从哪里开始学习网页开发?
- 对话示例4:
- 角色: 用户
内容: 今天邀请了一些朋友来家里。给我推荐些能和他们一起玩的游戏吧!
- 对话示例5:
- 角色: 系统
内容: 你是一个会以详细且充满好奇心的方式回答问题的助手。
- 角色: 用户
内容: 量子计算有哪些潜在应用?
- 对话示例6:
- 角色: 系统
内容: 你是一个能给出创意回答的助手。
- 角色: 用户
内容: 写一个关于奇幻世界法师的游戏设定。
- 对话示例7:
- 角色: 系统
内容: 你是一个会详细回答用户问题的助手。
- 角色: 用户
内容: 告诉我社交媒体的优缺点。
- 对话示例8:
- 角色: 系统
内容: 你是一个能自信回答用户问题的助手。
- 角色: 用户
内容: 狗是什么?
- 角色: 助手
内容: 狗是一种四足家养动物,属于哺乳纲。它们以忠诚、活泼和可训练性著称,常用于狩猎、牧羊和作为服务动物。
- 角色: 用户
内容: 苹果是什么颜色的?
推理参数:
max_new_tokens: 250
penalty_alpha: 0.5
top_k: 4
repetition_penalty: 1.01
模型索引:
- 名称: Llama-160M-Chat-v1
测试结果:
- 任务: 文本生成
数据集: AI2推理挑战赛(25样本)
指标: 标准化准确率24.74%
- 任务: 文本生成
数据集: HellaSwag(10样本)
指标: 标准化准确率35.29%
- 任务: 文本生成
数据集: MMLU(5样本)
指标: 准确率26.13%
- 任务: 文本生成
数据集: TruthfulQA(0样本)
指标: 多选准确率44.16%
- 任务: 文本生成
数据集: Winogrande(5样本)
指标: 准确率51.3%
- 任务: 文本生成
数据集: GSM8k(5样本)
指标: 准确率0.0%
- 任务: 文本生成
数据集: IFEval(0样本)
指标: 严格准确率15.75%
- 任务: 文本生成
数据集: BBH(3样本)
指标: 标准化准确率3.17%
- 任务: 文本生成
数据集: MATH(4样本)
指标: 完全匹配0.0%
- 任务: 文本生成
数据集: GPQA(0样本)
指标: 标准化准确率1.01%
- 任务: 文本生成
数据集: MuSR(0样本)
指标: 标准化准确率3.17%
- 任务: 文本生成
数据集: MMLU-PRO(5样本)
指标: 准确率1.51%
160M参数的Llama聊天模型
推荐提示格式
<|im_start|>system
{系统消息}<|im_end|>
<|im_start|>user
{用户消息}<|im_end|>
<|im_start|>assistant
推荐推理参数
惩罚系数: 0.5
top_k采样: 4
重复惩罚: 1.01
使用示例
from transformers import pipeline
generate = pipeline("text-generation", "Felladrin/Llama-160M-Chat-v1")
messages = [
{
"role": "system",
"content": "你是一个会以详细且充满好奇心的方式回答问题的助手。",
},
{
"role": "user",
"content": "量子计算有哪些潜在应用?",
},
]
prompt = generate.tokenizer.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
output = generate(
prompt,
max_new_tokens=1024,
penalty_alpha=0.5,
top_k=4,
repetition_penalty=1.01,
)
print(output[0]["generated_text"])
旧版Open LLM排行榜评估结果
指标 |
值 |
平均得分 |
30.27 |
AI2推理挑战赛(25样本) |
24.74 |
HellaSwag(10样本) |
35.29 |
MMLU(5样本) |
26.13 |
TruthfulQA(0样本) |
44.16 |
Winogrande(5样本) |
51.30 |
GSM8k(5样本) |
0.00 |
详细结果请查看这里
指标 |
值 |
平均得分 |
4.10 |
IFEval(0样本) |
15.75 |
BBH(3样本) |
3.17 |
MATH(4样本) |
0.00 |
GPQA(0样本) |
1.01 |
MuSR(0样本) |
3.17 |
MMLU-PRO(5样本) |
1.51 |