许可证:cc-by-nc-4.0
库名称:transformers
标签:
- 傅里叶
- 任务叠加
- 融合
基础模型:
- maldv/badger-lambda-llama-3-8b
- maldv/llama-3-fantasy-writer-8b
- dreamgen-preview/opus-v1.2-llama-3-8b-instruct-run3.5-epoch2.5
模型索引:
- 名称:badger-writer-llama-3-8b
结果:
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:IFEval(0样本)
类型:HuggingFaceH4/ifeval
参数:
num_few_shot: 0
指标:
- 类型:inst_level_strict_acc 和 prompt_level_strict_acc
值:53.03
名称:严格准确率
来源:
url:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=maldv/badger-writer-llama-3-8b
名称:Open LLM 排行榜
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:BBH(3样本)
类型:BBH
参数:
num_few_shot: 3
指标:
- 类型:acc_norm
值:26.88
名称:归一化准确率
来源:
url:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=maldv/badger-writer-llama-3-8b
名称:Open LLM 排行榜
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:MATH Lvl 5(4样本)
类型:hendrycks/competition_math
参数:
num_few_shot: 4
指标:
- 类型:exact_match
值:6.57
名称:精确匹配
来源:
url:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=maldv/badger-writer-llama-3-8b
名称:Open LLM 排行榜
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:GPQA(0样本)
类型:Idavidrein/gpqa
参数:
num_few_shot: 0
指标:
- 类型:acc_norm
值:5.26
名称:归一化准确率
来源:
url:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=maldv/badger-writer-llama-3-8b
名称:Open LLM 排行榜
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:MuSR(0样本)
类型:TAUR-Lab/MuSR
参数:
num_few_shot: 0
指标:
- 类型:acc_norm
值:3.2
名称:归一化准确率
来源:
url:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=maldv/badger-writer-llama-3-8b
名称:Open LLM 排行榜
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:MMLU-PRO(5样本)
类型:TIGER-Lab/MMLU-Pro
配置:main
拆分:test
参数:
num_few_shot: 5
指标:
- 类型:acc
值:30.67
名称:准确率
来源:
url:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=maldv/badger-writer-llama-3-8b
名称:Open LLM 排行榜

Badger Writer 是 maldv/badger-lambda-llama-3-8b 和 maldv/llama-3-fantasy-writer-8b 的归一化傅里叶任务叠加模型。
由于明显的优势,我还直接使用了 dreamgen-preview/opus-v1.2-llama-3-8b-instruct-run3.5-epoch2.5 的第一层和最后一层。我没有在 fantasy-writer 上训练 lm_head 或 embed_tokens 层,但 opus 是 lambda 的一部分;因此它们完美地融合在一起。
重复惩罚:1.05-1.1;最小概率:0.01;温度:0.7;动态温度:0.4;32k24k 上下文;llama 3 指令模板
<|start_header_id|>system<|end_header_id|>
坐下来让我看你写作真是太棒了,科幻大师。
作者:艾萨克·阿西莫夫;布鲁斯·斯特林
标题:终端连接
标签:冒险、计算机科学、身体交换
<|eot_id|>
{{[INPUT]}}
```story
背景:2050年11月20日
地点:拉斯维加斯
时间:晚上11:17
角色:莎莉
目的:阐述;描述;视觉细节,角色外貌
```
// 第一章
{{[OUTPUT]}}
莎莉身后的霓虹天空像频闪灯下的污迹。她面前的街道在数百辆不同汽车的前灯照射下,呈现出湿漉漉的路面光泽,每辆车都载着人们离开这个派对,前往某个更隐秘的目的地。
她又吸了一口烟,让烟雾在唇间舞动,思考着这次会面以及它是如何促成的。
莎莉身高五英尺二英寸,但她的运动型身材让她看起来更高。她的头发乌黑,修剪得很短。她穿着一件低领的黄色毛衣,展示出丰满的胸部,搭配紧贴臀部的黑色皮裤。一条银项链垂在她裸露的肩膀上,链子上镶着一条小金蛇。她的皮肤黝黑,不是因为晒伤,而是因为涂了美黑霜。深棕色的眼睛凝视着夜晚,微微眯起以对抗刺眼的光线。她看起来像个毫不在乎的女孩,但她其实在乎。
她的左肩上挂着通往银星酒店顶层套房的门。门后,人们跳舞、欢笑,彻夜饮酒。但莎莉没有兴趣参与其中,至少现在没有。他们得等到以后。
街上有五十多个人,有的在闲逛,有的在看风景或等朋友,有的沉浸在思绪中,可能也在抽烟。来自各行各业的人——游客、当地人、赌徒、街头艺人和毒贩——从她身边经过,总是匆匆赶往别处,从未停留足够长的时间去注意那里可能站着的最有趣的东西。
里面的音乐声很大,通过墙壁传来,形成一种低音节奏,震动到莎莉的脚下。它来自角落里旋转唱片的DJ,他的工作得到了头顶上脉动的频闪灯的补充。莎莉即使关着门也能看到一切:酒保疯狂地工作,递出饮料;服务员倒酒,从未停歇,瓶子在黑光照射下发出霓虹绿光;男男女女一起跳舞,沉浸在音乐或彼此中;房间的远端,五六桌扑克游戏正酣,筹码在他们之间飞来飞去。空气中弥漫着烟味、汗水和性的气息,流到人行道上。
这是拉斯维加斯众多派对中的一个,但这个派对吸引了一批独特的客户。它被称为“聚会”,如果你知道要找什么,很容易就能找到这里。这就是为什么莎莉发现自己站在这些门外,凝视着夜晚。
{{[INPUT]}}
// 继续
{{[OUTPUT]}}
详细结果请参见此处
指标 |
值 |
平均 |
20.93 |
IFEval(0样本) |
53.03 |
BBH(3样本) |
26.88 |
MATH Lvl 5(4样本) |
6.57 |
GPQA(0样本) |
5.26 |
MuSR(0样本) |
3.20 |
MMLU-PRO(5样本) |
30.67 |