CantoneseLLMChat-v1.0-7B开源粤语大语言模型 - 聚焦香港知识畅聊粤语话题

首页

Cantonesellmchat V1.0 7B

由 hon9kon9ize 开发

Cantonese LLM Chat v1.0 是 hon9kon9ize 推出的第一代粤语大语言模型，专注于香港相关知识和粤语对话。

大型语言模型

Transformers

开源协议:其他 #粤语对话 #香港文化理解 #粤语指令微调

下载量 2,198

发布时间 : 10/2/2024

模型简介

该模型基于 Qwen 2.5 7B 进行持续预训练，使用大量香港新闻和粤语网站数据，并在指令微调阶段使用了人工审核的粤语指令数据集。

模型特点

粤语优化

专门针对粤语对话进行优化，能够流畅地进行粤语交流

香港文化知识

包含丰富的香港本地知识和文化背景信息

多尺寸选择

提供从3B到72B不同参数规模的模型版本

模型能力

粤语对话生成

香港知识问答

粤语文本理解

多轮对话

使用案例

对话系统

粤语聊天机器人

用于构建粤语对话机器人

能够流畅地进行粤语日常对话

香港文化问答

回答关于香港历史、文化和时事的问题

在香港文化理解方面表现优异

教育

粤语学习辅助

帮助非粤语母语者学习粤语

🚀 粤语大语言模型聊天版 v1.0 - 7B

粤语大语言模型聊天版 v1.0 是 hon9kon9ize 推出的第一代粤语大语言模型，在香港相关特定知识和粤语对话方面表现出色，为粤语交流和香港文化相关的知识问答提供了强大支持。

front_image

粤语大语言模型聊天版 v1.0 是 hon9kon9ize 推出的第一代粤语大语言模型。该模型在 v0.5 预览版的成功基础上进行构建，在与香港相关的特定知识和粤语对话方面表现出色。

✨ 主要特性

模型描述

基础模型是通过对通义千问 2.5 7B 进行持续预训练得到的，使用了 6 亿篇公开可用的香港新闻文章和粤语网站数据。指令微调模型则是使用包含 75,000 对指令的数据集进行训练的，其中 45,000 对是由其他大语言模型生成并经过人工审核的粤语指令。

该模型使用 1 块英伟达 H100 80GB HBM3 GPU 在玄海超级计算机上进行训练。

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "hon9kon9ize/CantoneseLLMChat-v1.0-7B"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16, 
    device_map="auto", 
)

def chat(messages, temperature=0.9, max_new_tokens=200):
    input_ids = tokenizer.apply_chat_template(conversation=messages, tokenize=True, add_generation_prompt=True, return_tensors='pt').to('cuda:0')
    output_ids = model.generate(input_ids, max_new_tokens=max_new_tokens, temperature=temperature)
    response = tokenizer.decode(output_ids[0][input_ids.shape[1]:], skip_special_tokens=False)
    return response

prompt = "邊個係香港特首？"

messages = [
    {"role": "system", "content": "you are a helpful assistant."},
    {"role": "user", "content": prompt}
]

print(chat(messages)) # 香港特別行政區行政長官係李家超。<|im_end|>

📚 详细文档

性能表现

该模型在 HK - Eval 基准测试中，在理解粤语和香港文化方面是同类开源大语言模型中的佼佼者。不过，正如大家所见，推理模型的表现明显优于其他模型。目前团队正在为 v2 版本开发推理模型。

模型	香港文化（零样本）	粤语语言学
粤语大语言模型聊天版 v0.5 6B	52.0%	12.8%
粤语大语言模型聊天版 v0.5 34B	72.5%	54.5%
粤语大语言模型聊天版 v1.0 3B	56.0%	45.7%
粤语大语言模型聊天版 v1.0 7B	60.3%	46.5%
粤语大语言模型聊天版 v1.0 32B	69.8%	52.7%
粤语大语言模型聊天版 v1.0 72B	75.4%	59.6%
Llama 3.1 8B 指令版	45.6%	35.1%
Llama 3.1 70B 指令版	63.0%	50.3%
通义千问 2.5 7B 指令版	51.2%	30.3%
通义千问 2.5 32B 指令版	59.9%	45.1%
通义千问 2.5 72B 指令版	65.9%	45.9%
Claude 3.5 Sonnet	71.7%	63.2%
DeepSeek R1	88.8%	77.5%
Gemini 2.0 Flash	80.2%	75.3%
Gemini 2.5 Pro	92.1%	87.3%
GPT4o	77.5%	63.8%
GPT4o - mini	55.6%	57.3%