语言:
- 英文
- 越南文
许可证: mit
库名称: transformers
标签:
- 幽灵
流水线标签: 文本生成
模型索引:
- 名称: ghost-7b-v0.9.1
结果:
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: AI2推理挑战赛(25-Shot)
类型: ai2_arc
配置: ARC-Challenge
分割: 测试
参数:
少量样本数: 25
指标:
- 类型: 标准化准确率
值: 55.38
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=lamhieu/ghost-7b-v0.9.1
名称: 开放LLM排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: HellaSwag(10-Shot)
类型: hellaswag
分割: 验证
参数:
少量样本数: 10
指标:
- 类型: 标准化准确率
值: 77.03
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=lamhieu/ghost-7b-v0.9.1
名称: 开放LLM排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MMLU(5-Shot)
类型: cais/mmlu
配置: 全部
分割: 测试
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 54.78
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=lamhieu/ghost-7b-v0.9.1
名称: 开放LLM排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: TruthfulQA(0-shot)
类型: truthful_qa
配置: 多项选择
分割: 验证
参数:
少量样本数: 0
指标:
- 类型: mc2
值: 43.96
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=lamhieu/ghost-7b-v0.9.1
名称: 开放LLM排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: Winogrande(5-shot)
类型: winogrande
配置: winogrande_xl
分割: 验证
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 72.53
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=lamhieu/ghost-7b-v0.9.1
名称: 开放LLM排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: GSM8k(5-shot)
类型: gsm8k
配置: 主要
分割: 测试
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 26.91
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=lamhieu/ghost-7b-v0.9.1
名称: 开放LLM排行榜
小部件:
- 文本: '一个人一次能吃多少架直升机'
输出:
文本: "啊哈,我的伙计!一个人大约一次能吃一架直升机,但前提是他们是一个胃有小国那么大的巨型海怪。ü§¢ü§¢所以,不建议尝试这个,海盗!üè∞üõ¢Ô∏è"
Ghost 7B v0.9.1
Ghost 7B,v0.9.1,飞翔中
Ghost 7B Alpha模型的早期发布版本。
下一代大型语言模型专注于优化,以实现卓越的推理和多任务知识。
‚ñ∂Ô∏è 在Colab上体验
此外,模型还有以下版本:GUFF和AWQ。
来吧,根据你的愿望创建一个AI助手!
用你的语言,可能是越南语。
或者,英语。
让助手成为专家,甚至更多。
挑战模型的语言理解能力。

挑战模型的推理能力,使用越南语。

在使用越南语时,缺少重音符号、缩写或使用俚语。

üìö 模型详情
模型描述
一个考虑在初始训练语言之外生成语言理解的版本,这里是越南语。简要总结Mistral 7B模型用于训练新语言的效果是优秀且低成本的。
我重新开始训练Ghost 7B v0.9.0模型,数据量较小,估计只有约150MB。在这些数据中,约70%是越南语,其余几乎都是英语。
这里的方法使用QLora进行训练,然后合并它们。此外,我非常感谢Unsloth的功能。
‚õπÔ∏è‚Äç‚ôÇÔ∏è 用途
在线使用Google Colab
为了更容易地尝试模型,我在Google Colab上创建了一个笔记本,你可以开始实验。
直接使用
对于直接使用,你可以轻松地按照以下步骤开始。
-
首先,你需要通过以下命令安装transformers。
pip install -U transformers
-
现在,你可以直接开始使用模型。
import torch
from transformers import (
AutoModelForCausalLM,
AutoTokenizer,
)
base_model = "lamhieu/ghost-7b-v0.9.1"
model = AutoModelForCausalLM.from_pretrained(
base_model,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained(base_model)
messages = [
{"role": "system", "content": "你是一个友好的聊天机器人,总是以海盗的风格回应"},
{"role": "user", "content": "一个人一次能吃多少架直升机?"},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
tokenized = tokenizer(prompt, return_tensors="pt", add_special_tokens=False)
outputs = model.generate(**tokenized, max_new_tokens=512)
results = tokenizer.batch_decode(outputs)[0]
print(results)
-
此外,你还可以使用4bit量化模型以减少所需的资源。你可以从以下代码开始。
import torch
from transformers import (
AutoModelForCausalLM,
AutoTokenizer,
BitsAndBytesConfig,
)
base_model = "lamhieu/ghost-7b-v0.9.1"
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_use_double_quant=False,
)
model = AutoModelForCausalLM.from_pretrained(
base_model,
quantization_config=bnb_config,
trust_remote_code=True,
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained(base_model)
messages = [
{"role": "system", "content": "你是一个友好的聊天机器人,总是以海盗的风格回应"},
{"role": "user", "content": "一个人一次能吃多少架直升机?"},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
tokenized = tokenizer(prompt, return_tensors="pt", add_special_tokens=False)
outputs = model.generate(**tokenized, max_new_tokens=512)
results = tokenizer.batch_decode(outputs)[0]
print(results)
总结
尽管训练数据量小,但它“很棒”。你不需要太担心它无法满足你的一些需求。相反,尝试用你想要的内容进行实验。
还有一点,像使用ChatGPT一样使用它,我特意调整了它,以便能够替代我的应用程序(对于某些任务,它做得很好)。它对越南语和英语都适用。很高兴听到关于体验的反馈,请随时在讨论部分留下信息。
设置系统提示将对模型的性能和生成内容的质量产生重大影响。记住这一点,始终确保模型用于你的预期目的,目标是取得良好的结果。
最好始终设置系统,如果你总是想设置它,也可以留空。
ü•á 评估
详细结果可以查看这里
指标 |
值 |
平均 |
55.10 |
AI2推理挑战赛(25-Shot) |
55.38 |
HellaSwag(10-Shot) |
77.03 |
MMLU(5-Shot) |
54.78 |
TruthfulQA(0-shot) |
43.96 |
Winogrande(5-shot) |
72.53 |
GSM8k(5-shot) |
26.91 |
VMLU
一个用于大型语言模型的越南多任务语言理解基准套件。
根据获得的分数,模型可以在VMLU的“微调模型排行榜”中排名第三,截至评估日期。

详情
{
"人文": {
"行政法": 52.22,
"商法":