模型简介
模型特点
模型能力
使用案例
语言:
- 英语
- 印地语
- 泰米尔语
- 泰卢固语
- 卡纳达语
- 马拉雅拉姆语
- 马拉地语
- 孟加拉语
- 古吉拉特语
- 旁遮普语
- 奥里亚语
- 阿萨姆语
- 乌尔都语
许可证: llama3.2 标签:
- Llama-3
- 指导
- 微调
- chatml
- 多语言
- 印度语言
- 推理
- 教育
- 医疗
- 低资源
- vllm
基础模型: meta-llama/Meta-Llama-3.2-3B
小部件:
- 示例标题: KunoRZN
消息:
- 角色: 系统 内容: >- 你是KunoRZN,一个精通英语和印度语言的多语言AI助手,旨在帮助教育、医疗信息和日常任务。
- 角色: 用户 内容: 请告诉我关于印度教育体系的信息。
模型索引:
- 名称: KunoRZN-Llama-3-3B
结果:
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
类型: indicglue
名称: IndicGLUE
指标:
- 类型: 准确率 值: 79.8 名称: 平均准确率
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
类型: indicglue
名称: IndicGLUE
指标:
库名称: transformers
KunoRZN-Llama-3-3B
模型描述
KunoRZN-Llama-3-3B(知识理解网络与优化推理区域导航)是VinkuraAI的旗舰语言模型,旨在支持12种以上的印度语言及英语。这种混合推理模型将“直觉”传统模式响应和长链思维推理响应统一到一个模型中,通过系统提示进行切换。
基于Meta Llama 3构建,KunoRZN擅长支持:
- 教育应用,涵盖各种课程和语言
- 医疗信息传递,使用地区语言
- 交通管理系统,适应当地条件
- 低资源计算环境,在印度常见
KunoRZN的理念是提供多语言AI能力,赋予终端用户强大的控制能力。
该模型已在代表印度背景、语言和用例的多样化多语言数据集上进行了微调。我们的目标是通过克服语言障碍,使先进的AI技术更广泛地服务于印度人口。
注意:要开启推理模式,请使用以下系统提示:
你是一个深度思考的AI助手,可以用多种印度语言交流。你可以使用极长的思维链来深入思考问题,并通过系统的推理过程在回答前得出正确的解决方案。你应该将你的想法和内心独白放在<thinking> </thinking>标签内,然后提供你的解决方案或回答。
多语言能力
KunoRZN-Llama-3-3B支持以下语言:
- 英语
- 印地语(हिन्दी)
- 泰米尔语(தமிழ்)
- 泰卢固语(తెలుగు)
- 卡纳达语(ಕನ್ನಡ)
- 马拉雅拉姆语(മലയാളം)
- 马拉地语(मराठी)
- 孟加拉语(বাংলা)
- 古吉拉特语(ગુજરાતી)
- 旁遮普语(ਪੰਜਾਬੀ)
- 奥里亚语(ଓଡ଼ିଆ)
- 阿萨姆语(অসমীয়া)
- 乌尔都语(اردو)
基准测试
推理基准测试,开启和关闭推理模式:
提示格式
KunoRZN-Llama-3-3B使用Llama-Chat格式作为提示格式,提供了一个统一、结构化的系统,用于与LLM进行多轮对话。
系统提示允许可操控性和有趣的新方式与LLM互动,指导模型的规则、角色和风格选择。
深度思考模式 - KunoRZN可以通过系统提示激活长链思维。
你是一个深度思考的AI助手,可以用多种印度语言交流。你可以使用极长的思维链来深入思考问题,并通过系统的推理过程在回答前得出正确的解决方案。你应该将你的想法和内心独白放在<thinking> </thinking>标签内,然后提供你的解决方案或回答。
使用HuggingFace Transformers进行深度推理模式的示例:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
import flash_attn
import time
tokenizer = AutoTokenizer.from_pretrained("VinkuraAI/KunoRZN-Llama-3-3B")
model = AutoModelForCausalLM.from_pretrained(
"VinkuraAI/KunoRZN-Llama-3-3B",
torch_dtype=torch.float16,
device_map="auto",
attn_implementation="flash_attention_2",
)
messages = [
{
"role": "system",
"content": "你是一个深度思考的AI助手,可以用多种印度语言交流。你可以使用极长的思维链来深入思考问题,并通过系统的推理过程在回答前得出正确的解决方案。你应该将你的想法和内心独白放在<thinking> </thinking>标签内,然后提供你的解决方案或回答。"
},
{
"role": "user",
"content": "请解释印度宪法中的基本权利及其重要性。"
}
]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors='pt').to("cuda")
generated_ids = model.generate(input_ids, max_new_tokens=3000, temperature=0.8, repetition_penalty=1.1, do_sample=True, eos_token_id=tokenizer.eos_token_id)
print(f"生成标记: {generated_ids.shape[-1:]}")
response = tokenizer.decode(generated_ids[0], skip_special_tokens=True, clean_up_tokenization_space=True)
print(f"响应: {response}")
请注意,对于复杂的推理任务,KunoRZN可能会使用多达10,000个标记的思考过程。对于困难的问题,你可能需要增加max_new_tokens
。
标准“直觉”响应模式
使用系统指令的提示(你可以使用任何你喜欢的系统提示,这只是一个示例!):
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
import flash_attn
import time
tokenizer = AutoTokenizer.from_pretrained("VinkuraAI/KunoRZN-Llama-3-3B")
model = AutoModelForCausalLM.from_pretrained(
"VinkuraAI/KunoRZN-Llama-3-3B",
torch_dtype=torch.float16,
device_map="auto",
attn_implementation="flash_attention_2",
)
messages = [
{
"role": "system",
"content": "你是KunoRZN,一个精通英语和印度语言的多语言AI助手。"
},
{
"role": "user",
"content": "泰米尔纳德邦有哪些著名的旅游景点?"
}
]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors='pt').to("cuda")
generated_ids = model.generate(input_ids, max_new_tokens=2500, temperature=0.8, repetition_penalty=1.1, do_sample=True, eos_token_id=tokenizer.eos_token_id)
print(f"生成标记: {generated_ids.shape[-1:]}")
response = tokenizer.decode(generated_ids[0], skip_special_tokens=True, clean_up_tokenization_space=True)
print(f"响应: {response}")
VLLM推理
你也可以使用vLLM运行此模型,在终端中运行以下命令(安装vLLM后):
vllm serve VinkuraAI/KunoRZN-Llama-3-3B
然后你可以像调用OpenAI的API一样使用OpenAI库通过API调用该模型。
多语言用例示例
教育
messages = [
{
"role": "system",
"content": "你是KunoRZN,一个可以用简单术语向学生解释概念的教育AI助手。"
},
{
"role": "user",
"content": "请解释太阳系的行星。"
}
]
医疗
messages = [
{
"role": "system",
"content": "你是KunoRZN,一个医疗信息助手。提供一般健康信息,同时始终建议咨询医疗专业人员。"
},
{
"role": "user",
"content": "糖尿病的症状有哪些?"
}
]
交通管理
messages = [
{
"role": "system",
"content": "你是KunoRZN,一个交通管理助手。帮助用户导航当地交通状况并理解交通规则。"
},
{
"role": "user",
"content": "在孟买如何避免交通堵塞?"
}
]
函数调用
我们的模型在特定系统提示和结构上进行了函数调用训练。
你应该使用系统角色和以下消息,然后是一个函数签名json,如下例所示:
<|start_header_id|>system<|end_header_id|>
你是一个精通多种印度语言的函数调用AI模型。你可以在<tools></tools> XML标签内提供函数签名。你可以调用一个或多个函数来协助用户查询。不要假设要插入函数的值。以下是可用工具: <tools> {"type": "function", "function": {"name": "get_weather", "description": "get_weather(city: str, state: str, country: str='India') -> dict - 获取给定城市的天气信息。\\n\\n 参数:\\n city (str): 城市名称。\\n state (str): 州名称。\\n country (str): 国家名称,默认为印度。\\n\\n 返回:\\n dict: 包含天气信息的字典。\\n 键:\\n - 'city': 城市名称。\\n - 'state': 州名称。\\n - 'temperature': 当前温度(摄氏度)。\\n - 'humidity': 当前湿度百分比。\\n - 'description': 天气描述。\\n - 'forecast': 未来3天的预报。", "parameters": {"type": "object", "properties": {"city": {"type": "string"}, "state": {"type": "string"}, "country": {"type": "string"}}, "required": ["city", "state"]}}} </tools> 对于每个工具调用,使用以下pydantic模型json模式: {"properties": {"arguments": {"title": "参数", "type": "object"}, "name": {"title": "名称", "type": "string"}}, "required": ["arguments", "name"], "title": "FunctionCall", "type": "object"} 对于每个函数调用,返回一个json对象,包含函数名称和参数,放在<tool_call></tool_call> XML标签内,如下所示:
<tool_call>
{"arguments": <args-dict>, "name": <function-name>}
</tool_call><|eot_id|><|start_header_id|>user<|end_header_id|>
量化版本
GGUF量化:https://huggingface.co/VinkuraAI/KunoRZN-Llama-3-3B-GGUF
许可证
KunoRZN-Llama-3-3B基于Meta Llama 3构建,并根据Meta Llama 3社区许可证授权,版权所有 © Meta Platforms, Inc. 保留所有权利。
联系和支持
更多信息和支持,请访问vinkura.in或联系我们support@vinkura.in
如何引用:
@misc{
title={KunoRZN-Llama-3-3B},
author={VinkuraAI},
year={2025}
}


