许可证: 其他
库名称: transformers
标签:
- llama-factory
- 完整版
- 训练生成
基础模型: hon9kon9ize/CantoneseLLM-v1.0
模型索引:
- 名称: CantoneseLLMChat-v1.0-7B
结果: []
CantoneseLLMChat-v1.0-7B

Cantonese LLM Chat v1.0 是 hon9kon9ize 推出的第一代粤语大语言模型。
基于 v0.5 预览版 的成功,该模型在香港相关知识和粤语对话方面表现出色。
模型描述
基础模型通过对 Qwen 2.5 7B 进行持续预训练获得,使用了 6 亿篇公开的香港新闻文章和粤语网站数据。
指令微调模型使用了一个包含 75,000 条指令对的数据集进行训练,其中 45,000 条是由其他大语言模型生成并由人工审核的粤语指令。
模型在 玄界超级计算机 上使用 1 块 Nvidia H100 80GB HBM3 GPU 训练完成。
基本用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "hon9kon9ize/CantoneseLLMChat-v1.0-7B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
def chat(messages, temperature=0.9, max_new_tokens=200):
input_ids = tokenizer.apply_chat_template(conversation=messages, tokenize=True, add_generation_prompt=True, return_tensors='pt').to('cuda:0')
output_ids = model.generate(input_ids, max_new_tokens=max_new_tokens, temperature=temperature)
response = tokenizer.decode(output_ids[0][input_ids.shape[1]:], skip_special_tokens=False)
return response
prompt = "邊個係香港特首?"
messages = [
{"role": "system", "content": "you are a helpful assistant."},
{"role": "user", "content": prompt}
]
print(chat(messages))
性能表现
在 HK-Eval 基准测试 中,该模型是理解粤语和香港文化的顶级开源大语言模型。
然而,正如观察到的,推理模型的性能明显优于其他模型。我们目前正在为 v2 版本开发推理模型。
模型 |
香港文化(零样本) |
粤语语言学 |
CantonesellmChat v0.5 6B |
52.0% |
12.8% |
CantonesellmChat v0.5 34B |
72.5% |
54.5% |
CantonesellmChat v1.0 3B |
56.0% |
45.7% |
CantonesellmChat v1.0 7B |
60.3% |
46.5% |
CantonesellmChat v1.0 32B |
69.8% |
52.7% |
CantonesellmChat v1.0 72B |
75.4% |
59.6% |
Llama 3.1 8B Instruct |
45.6% |
35.1% |
Llama 3.1 70B Instruct |
63.0% |
50.3% |
Qwen2.5 7B Instruct |
51.2% |
30.3% |
Qwen2.5 32B Instruct |
59.9% |
45.1% |
Qwen2.5 72B Instruct |
65.9% |
45.9% |
Claude 3.5 Sonnet |
71.7% |
63.2% |
DeepSeek R1 |
88.8% |
77.5% |
Gemini 2.0 Flash |
80.2% |
75.3% |
Gemini 2.5 Pro |
92.1% |
87.3% |
GPT4o |
77.5% |
63.8% |
GPT4o-mini |
55.6% |
57.3% |