语言:
- 德语
许可证: apache-2.0
标签:
- hermeo
- laser
数据集:
- LeoLM/OpenSchnabeltier
管道标签: conversational
模型索引:
- 名称: germeo-7b-laser
结果:
- 任务:
类型: text-generation
名称: 文本生成
数据集:
名称: AI2推理挑战赛 (25-Shot)
类型: ai2_arc
配置: ARC-Challenge
分割: test
参数:
num_few_shot: 25
指标:
- 类型: acc_norm
值: 60.75
名称: 归一化准确率
来源:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=aari1995/germeo-7b-laser
名称: Open LLM排行榜
- 任务:
类型: text-generation
名称: 文本生成
数据集:
名称: HellaSwag (10-Shot)
类型: hellaswag
分割: validation
参数:
num_few_shot: 10
指标:
- 类型: acc_norm
值: 82.81
名称: 归一化准确率
来源:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=aari1995/germeo-7b-laser
名称: Open LLM排行榜
- 任务:
类型: text-generation
名称: 文本生成
数据集:
名称: MMLU (5-Shot)
类型: cais/mmlu
配置: all
分割: test
参数:
num_few_shot: 5
指标:
- 类型: acc
值: 60.57
名称: 准确率
来源:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=aari1995/germeo-7b-laser
名称: Open LLM排行榜
- 任务:
类型: text-generation
名称: 文本生成
数据集:
名称: TruthfulQA (0-shot)
类型: truthful_qa
配置: multiple_choice
分割: validation
参数:
num_few_shot: 0
指标:
- 类型: mc2
值: 53.83
来源:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=aari1995/germeo-7b-laser
名称: Open LLM排行榜
- 任务:
类型: text-generation
名称: 文本生成
数据集:
名称: Winogrande (5-shot)
类型: winogrande
配置: winogrande_xl
分割: validation
参数:
num_few_shot: 5
指标:
- 类型: acc
值: 75.61
名称: 准确率
来源:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=aari1995/germeo-7b-laser
名称: Open LLM排行榜
- 任务:
类型: text-generation
名称: 文本生成
数据集:
名称: GSM8k (5-shot)
类型: gsm8k
配置: main
分割: test
参数:
num_few_shot: 5
指标:
- 类型: acc
值: 43.37
名称: 准确率
来源:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=aari1995/germeo-7b-laser
名称: Open LLM排行榜
(评估进行中)
Hermes + Leo + German Laser = Germeo
Germeo-7B-Laser
一个由Hermeo-7B合并而来的德英理解但仅说德语的模型。
模型详情
合并自: leo-mistral-hessianai-7b-chat 和 DPOpenHermes-7B-v2
模型类型: 仅解码器的因果变换器语言模型
语言: 德语回答,具备英语理解能力
Laser-Data: LeoLM/OpenSchnabeltier
这是关于激光及其对语言理解影响的早期实验。它通常能提升语言理解能力。
假设是它会降低英语回答的概率,增加德语回答的概率。模型的内部德语能力得到了提升。
将持续更新...
致谢:
我要感谢所有参与制作此模型并使其训练成为可能的人:
感谢 @malteos 的hermeo
感谢 @cognitivecomputations 和 Fernando Fernandes Neto 对LASER的实现
感谢 @LeoLM 和 Björn 提供的OpenSchnabeltier数据集。
提示格式:
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
prompt_template = """<|im_start|>system
你是一个乐于助人的助手。<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant"""
prompt = "为AXA写一份数据科学家的招聘广告!"
final_prompt = prompt_template.format(prompt=prompt)
限制模型仅输出回复:
为此,你需要实现一个自定义的停止标准:
from transformers import StoppingCriteria
class GermeoStoppingCriteria(StoppingCriteria):
def __init__(self, target_sequence, prompt):
self.target_sequence = target_sequence
self.prompt=prompt
def __call__(self, input_ids, scores, **kwargs):
generated_text = tokenizer.decode(input_ids[0])
generated_text = generated_text.replace(self.prompt,'')
if self.target_sequence in generated_text:
return True
return False
def __len__(self):
return 1
def __iter__(self):
yield self
这需要你的输入提示(按照给定的格式输入模型)和一个停止标准,在这种情况下是im_end令牌。只需将其添加到生成中:
generation_output = model.generate(
tokens,
streamer=streamer,
max_new_tokens=1012,
stopping_criteria=GermeoStoppingCriteria("<|im_end|>", prompt_template.format(prompt=prompt))
)
德语基准测试
德语任务: |
MMLU-DE |
Hellaswag-DE |
ARC-DE |
平均 |
模型 / Few-shots: |
(5 shots) |
(10 shots) |
(24 shots) |
|
7B参数 |
|
|
|
|
llama-2-7b |
0.400 |
0.513 |
0.381 |
0.431 |
leo-hessianai-7b |
0.400 |
0.609 |
0.429 |
0.479 |
bloom-6b4-clp-german |
0.274 |
0.550 |
0.351 |
0.392 |
mistral-7b |
0.524 |
0.588 |
0.473 |
0.528 |
leo-mistral-hessianai-7b |
0.481 |
0.663 |
0.485 |
0.543 |
leo-mistral-hessianai-7b-chat |
0.458 |
0.617 |
0.465 |
0.513 |
DPOpenHermes-7B-v2 |
0.517 |
0.603 |
0.515 |
0.545 |
hermeo-7b |
0.511 |
0.668 |
0.528 |
0.569 |
germeo-7b-laser (本模型) |
? |
? |
? |
? |
13B参数 |
|
|
|
|
llama-2-13b |
0.469 |
0.581 |
0.468 |
0.506 |
leo-hessianai-13b |
0.486 |
0.658 |
0.509 |
0.551 |
70B参数 |
|
|
|
|
llama-2-70b |
0.597 |
0.674 |
0.561 |
0.611 |
leo-hessianai-70b |
0.653 |
0.721 |
0.600 |
0.658 |
尽管模型在没有明确要求的情况下不会生成英语文本,但在英语基准测试中的表现仍然不错:
英语基准测试
英语任务: |
MMLU |
Hellaswag |
ARC |
平均 |
模型 / Few-shots: |
(5 shots) |
(10 shots) |
(24 shots) |
|
llama-2-7b |
0.466 |
0.786 |
0.530 |
0.594 |
leolm-hessianai-7b |
0.423 |
0.759 |
0.522 |
0.568 |
bloom-6b4-clp-german |
0.264 |
0.525 |
0.328 |
0.372 |
mistral-7b |
0.635 |
0.832 |
0.607 |
0.691 |
leolm-mistral-hessianai-7b |
0.550 |
0.777 |
0.518 |
0.615 |
hermeo-7b |
0.601 |
0.821 |
0.620 |
0.681 |
germeo-7b-laser (本模型) |
0.601 |
0.828 |
0.608 |
0.679 |
详细结果可在此处找到此处
指标 |
值 |
平均 |
62.82 |
AI2推理挑战赛 (25-Shot) |
60.75 |
HellaSwag (10-Shot) |
82.81 |
MMLU (5-Shot) |
60.57 |
TruthfulQA (0-shot) |
53.83 |
Winogrande (5-shot) |
75.61 |
GSM8k (5-shot) |
43.37 |