许可证:llama3
模型索引:
- 名称:llama-3-cat-8b-instruct-v1
结果:
- 任务:
类型:文本生成
名称:文本生成
数据集:
名称:AI2推理挑战赛(25样本)
类型:ai2_arc
配置:ARC挑战赛
拆分:测试集
参数:
少量样本数:25
指标:
- 类型:标准化准确率
值:59.04
名称:标准化准确率
来源:
网址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=TheSkullery/llama-3-cat-8b-instruct-v1
名称:开放大模型排行榜
- 任务:
类型:文本生成
名称:文本生成
数据集:
名称:HellaSwag(10样本)
类型:hellaswag
拆分:验证集
参数:
少量样本数:10
指标:
- 类型:标准化准确率
值:79.2
名称:标准化准确率
来源:
网址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=TheSkullery/llama-3-cat-8b-instruct-v1
名称:开放大模型排行榜
- 任务:
类型:文本生成
名称:文本生成
数据集:
名称:MMLU(5样本)
类型:cais/mmlu
配置:全部
拆分:测试集
参数:
少量样本数:5
指标:
- 类型:准确率
值:62.99
名称:准确率
来源:
网址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=TheSkullery/llama-3-cat-8b-instruct-v1
名称:开放大模型排行榜
- 任务:
类型:文本生成
名称:文本生成
数据集:
名称:TruthfulQA(0样本)
类型:truthful_qa
配置:多项选择
拆分:验证集
参数:
少量样本数:0
指标:
- 类型:mc2
值:50.8
来源:
网址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=TheSkullery/llama-3-cat-8b-instruct-v1
名称:开放大模型排行榜
- 任务:
类型:文本生成
名称:文本生成
数据集:
名称:Winogrande(5样本)
类型:winogrande
配置:winogrande_xl
拆分:验证集
参数:
少量样本数:5
指标:
- 类型:准确率
值:75.93
名称:准确率
来源:
网址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=TheSkullery/llama-3-cat-8b-instruct-v1
名称:开放大模型排行榜
- 任务:
类型:文本生成
名称:文本生成
数据集:
名称:GSM8k(5样本)
类型:gsm8k
配置:主集
拆分:测试集
参数:
少量样本数:5
指标:
- 类型:准确率
值:60.5
名称:准确率
来源:
网址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=TheSkullery/llama-3-cat-8b-instruct-v1
名称:开放大模型排行榜
猫-llama3-指令数据卡
呈现者:
- 数据集构建者:Kal'tsit博士(Kat)
- 训练者/资助者:SteelSkull
- 协调者:Potatooff
模型的70b变体(由Kal'tsit博士训练,由Turboderp发布),请查看!
关于:
猫-llama3-指令是一个基于llama 3 8b的微调模型,专注于系统提示的忠实度、帮助性和角色沉浸感。该模型旨在极度尊重系统提示,在任何情况下提供有用的信息,并在给定场景中提供最大程度的角色沉浸感(角色扮演)。
具体目标:
- 系统指令的忠实度
- 思维链(COT)
- 角色沉浸感
- 对生物科学和一般科学的帮助性
方法
数据集准备
系统地从Huggingface数据集中提取了包含指令-响应对的数据集。一个GPT模型被专门训练以生成高质量和有用的响应,作为标准模型。
(图1. Huggingface数据集各组成部分的分布和过滤)
数据集进一步根据长度和COT响应进行了过滤:
(图2. COT响应均超过50个令牌的单轮)
还从Chat Doctor中提取了健康相关数据,偏好详细和逐步的诊断:
(图3. 健康相关任务均超过100个令牌,峰值达到450个令牌的单轮)
模型训练
1*a100显卡训练6天,4个周期
使用方法:
提示格式:llama 3
量化版本:
<|begin_of_text|>以下是用户与AI助手之间的对话。AI助手根据用户的问题提供响应。用户:用户:根据任务定义和输入,回复输出。在此任务中,你将获得一个问题和答案,你需要根据提供的问答创建句子。句子应包含在提供的问答中。
问题:人类中由原生动物引起的疾病类型是什么?答案:原生生物疾病
助手:AI:任务说明:
在此任务中,你需要使用给定的问题和提供的答案创建一个句子。你创建的句子应以简洁连贯的方式包含问题和答案中的信息。
指南:
- 仔细阅读给定的问题和答案。
- 结合问题和答案中的信息创建一个新句子。
- 确保你的新句子包含问题的信息和提供的答案。
- 检查句子的语法和标点是否正确。
找到答案的步骤:
- 阅读问题:"人类中由原生动物引起的疾病类型是什么?"
- 阅读答案:"原生生物疾病"
- 结合问题和答案中的信息创建新句子:"在人类中,原生生物疾病是由原生动物引起的。"
- 再次检查句子的语法和标点,必要时进行调整。
最终输出:
在人类中,原生生物疾病是由原生动物引起的。< / s ><|end_of_text|>
展示:
模型以灰色显示COT,以黑色显示计算出的响应;注意这种行为是通过系统卡指令展示系统卡的忠实度,而不是通过微调实现的。
(图4. 展示模型通过COT解决复杂任务,扩展和丰富其答案)
# [开放大模型排行榜评估结果](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)
详细结果可查看[此处](https://huggingface.co/datasets/open-llm-leaderboard/details_TheSkullery__llama-3-cat-8b-instruct-v1)
指标 |
值 |
平均 |
64.74 |
AI2推理挑战赛(25样本) |
59.04 |
HellaSwag(10样本) |
79.20 |
MMLU(5样本) |
62.99 |
TruthfulQA(0样本) |
50.80 |
Winogrande(5样本) |
75.93 |
GSM8k(5样本) |
60.50 |