license: llama3
language:
- en
- fa
pipeline_tag: text-generation
模型详情
本仓库是Dorna-Llama3-8B-Instruct模型的4位量化版本,旨在提高内存使用效率。Dorna模型是一个仅解码器架构的模型,专门针对波斯语数据进行了训练/微调。同时集成了Flash Attention 2技术以加速推理过程。
优势特点
- 内存占用优化:4位量化技术显著降低内存需求
- 推理加速:Flash Attention 2技术提升处理速度
- 部署便捷:无需额外安装LlamaCPP或Candle等库
- 开箱即用:兼容Langchain、Haystack、LlamaIndex 2等框架
- Colab适配:可在T4 GPU的免费版Google Colab环境运行(GPU显存需求低于15GB)
使用指南
通过Transformers的Auto类配合generate()
函数即可进行对话推理。以下是典型示例:
import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "amirMohammadi/Dorna-Llama3-8B-Instruct-Quantized4Bit"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype=torch.bfloat16,
device_map="auto",
)
messages = [
{"role": "system",
"content": "你是一个波斯语助手。请使用提问语言回答问题。"},
{"role": "user", "content": "اصفهان بزرگ تر است یا قم؟"},
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
terminators = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = model.generate(
input_ids,
max_new_tokens=256,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))
原始模型评估
本模型在多项任务中进行评估,包括布尔问答、代码生成、长文本响应、数学运算、新闻问答、文本复述、常识问答和摘要生成等。大多数任务设置难易两个级别进行评估。
评估采用人工评测和自动评测(以GPT-4作为裁判)双轨制。以下表格中Dorna-8B-it为Dorna-Llama3-8B-Instruct的简称。
总体人工评估结果如下:
对比模型 |
参数量 |
胜率% |
败率% |
平局% |
Dorna-8B-it 对比 Meta-Llama-3-8B-Instruct |
8B |
36.94 |
17.39 |
45.67 |
Dorna-8B-it 对比 GPT 3.5 turbo-1106 |
不适用 |
32.01 |
26.94 |
41.05 |
Dorna-8B-it 对比 Persian Mind |
7B |
55.77 |
10.49 |
33.74 |
分项人工评估结果如下(各项胜/败/平局比例):
对比模型 |
参数量 |
复杂布尔 |
简单布尔 |
代码生成 |
通用长文本 |
历史长文本 |
复杂数学 |
简单数学 |
复杂新闻QA |
简单新闻QA |
文本复述 |
简单常识 |
复杂常识 |
摘要生成 |
Dorna-8B-it 对比 Meta-Llama-3-8B-Instruct |
8B |
0.25/0.25/0.5 |
0.28/0.35/0.38 |
0.6/0.1/0.3 |
0.8/0.08/0.12 |
0.4/0.3/0.3 |
0.28/0.08/0.65 |
0.47/0.00/0.53 |
0.55/0.07/0.38 |
0.43/0.15/0.42 |
0.1/0.05/0.85 |
0.31/0.2/0.49 |
0.59/0.13/0.28 |
0.28/0.2/0.53 |
Dorna-8B-it 对比 GPT 3.5 turbo-1106 |
不适用 |
0.35/0.35/0.3 |
0.3/0.3/0.4 |
0.1/0.3/.06 |
0.2/0.45/0.35 |
0.46/0.27/0.27 |
0.25/0.1/0.65 |
0.05/0.1/0.85 |
0.12/0.35/0.53 |
0.15/0.1/0.75 |
0.25/0.15/0.6 |
0.3/0.32/0.38 |
0.22/0.53/0.25 |
0.35/0.55/0.1 |
Dorna-8B-it 对比 Persian Mind |
7B |
0.47/0.25/0.28 |
0.57/0.15/0.28 |
0.9/0.1/0.0 |
0.82/0.08/0.1 |
0.4/0.17/0.42 |
0.3/0.0/0.7 |
0.22/0.08/0.7 |
0.72/0.07/0.2 |
0.7/0.0/0.3 |
0.7/0.05/0.25 |
0.51/0.12/0.37 |
0.61/0.1/0.29 |
0.93/0.0/0.07 |
自动评估结果如下:
对比模型 |
参数量 |
总体胜率% |
简单题胜率% |
难题胜率% |
Dorna-8B-it 对比 Llama 3 base |
8B |
58.96 |
56.00 |
64.49 |
Dorna-8B-it 对比 Part Mistral |
7B |
77.20 |
73.00 |
85.05 |
Dorna-8B-it 对比 Persian Mind |
7B |
90.88 |
87.50 |
97.20 |
Dorna-8B-it 对比 Neuraorca Gemma 7b |
7B |
86.32 |
86.50 |
85.98 |
Dorna-8B-it 对比 Maral 7b |
7B |
97.39 |
97.00 |
98.13 |
Dorna-8B-it 对比 PersianLlama 7b |
7B |
98.70 |
98.00 |
100.00 |
Dorna-8B-it 对比 Aya-23-8B |
8B |
52.77 |
56.50 |
45.79 |
Dorna-8B-it 对比 Aya-23-35B |
35B |
45.93 |
54.00 |
30.84 |
Dorna-8B-it 对比 Command R |
35B |
58.63 |
61.00 |
54.21 |
联系我们
如有关于本模型的任何问题,可通过Hugging Face社区讨论区与我们联系。