tamil-llama-7b-instruct-v0.2开源模型 - 支持英泰双语处理的指导工具

首页

Tamil Llama 7b Instruct V0.2

由 abhinand 开发

这是一个基于LLaMA-2的7B参数泰米尔语指导模型，支持英语和泰米尔双语处理。

大型语言模型

Transformers

支持多种语言#泰米尔语支持 #双语指令跟随 #农业文化问答

下载量 197

发布时间 : 1/23/2024

模型简介

该模型是推动泰米尔语言大模型发展的重要一步，已准备好进行推理或进一步微调以满足特定自然语言处理任务需求。

模型特点

双语支持

同时支持英语和泰米尔语处理

泰米尔语增强

在原始LLaMA-2基础上增加了约16,000个泰米尔词汇

指令跟随

专门针对指令跟随任务进行了优化

模型能力

泰米尔语文本生成

英语文本生成

指令理解与执行

多轮对话

使用案例

教育

泰米尔文化解释

解释泰米尔节日和传统

示例中成功解释了Pongal节日的意义

客服

双语客服助手

为泰米尔语用户提供英语-泰米尔双语客服支持

🚀 泰米尔语LLaMA 7B指令模型v0.2

泰米尔语LLaMA 7B指令模型的首次发布是推进泰米尔语大语言模型发展的重要一步。该模型可立即用于推理，也可进一步微调以满足您特定的自然语言处理任务需求。

若您想深入了解该模型的开发过程和能力，请阅读研究论文和介绍性博客文章（待完成），其中概述了我们的研究历程以及该模型的潜在影响。

🚀 快速开始

本模型可立即用于推理，也可进一步微调以满足您特定的自然语言处理任务需求。您可以通过以下方式深入了解模型：

阅读研究论文，了解模型的开发过程和能力。
查看介绍性博客文章（待完成），了解我们的研究历程以及该模型的潜在影响。

✨ 主要特性

双语支持：支持英语和泰米尔语，适用于双语自然语言处理任务。
可微调：可进一步微调以满足特定的自然语言处理任务需求。
高性能：在多个基准测试中表现出色，如ARC Challenge、TruthfulQA等。

📦 安装指南

文档未提供具体安装步骤，暂不展示。

💻 使用示例

基础用法

from transformers import LlamaForCausalLM, AutoTokenizer, pipeline

model = LlamaForCausalLM.from_pretrained(
    "abhinand/tamil-llama-instruct-v0.2",
    #load_in_8bit=True, # Set this depending on the GPU you have
    torch_dtype=torch.bfloat16,
    device_map={"": 0}, # Set this depending on the number of GPUs you have
    local_files_only=False # Optional
)
model.eval()

tokenizer = AutoTokenizer.from_pretrained("abhinand/tamil-llama-instruct-v0.2")

inf_pipeline = pipeline("conversational", model=model, tokenizer=tokenizer)


def format_instruction(system_prompt, question, return_dict=False):
	if system_prompt is None:
		messages = [
			{'content': question, 'role': 'user'},
		]
	else:
		messages = [
			{'content': system_prompt, 'role': 'system'},
			{'content': question, 'role': 'user'},
		]

	if return_dict:
		return messages

	prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

	return prompt


# Set the generation configuration according to your needs
temperature = 0.6
repetition_penalty = 1.1
max_new_tokens = 256

SYSTEM_PROMPT = "You are an AI assistant who follows instructions extremely well. Do your best your best to help."
INPUT = "Can you explain the significance of Tamil festival Pongal?"

instruction = format_instruction(
    system_prompt=SYSTEM_PROMPT,
    question=INPUT,
    return_dict=True,
)

output = inf_pipeline(
    instruction,
    temperature=temperature,
    max_new_tokens=max_new_tokens,
    repetition_penalty=repetition_penalty
)
print(output)

示例输出

Conversation id: d57cdf33-01ff-4328-8efe-5c4fefdd6e77
system: You are an AI assistant who follows instructions extremely well. Do your best your best to help.
user: Can you explain the significance of Tamil festival Pongal?
assistant: Pongal is a significant harvest festival celebrated in Tamil Nadu and other parts of southern India. It marks the end of the rainy season and beginning of the agricultural year. The festival primarily revolves around giving gratitude to nature, particularly the Sun God Surya for his bountiful gifts like agriculture and health. People offer prayers to cattle, which play a significant role in agriculture, as well as their families for their continued support during the harvest season. The festival is marked by various colorful events, including preparing traditional Pongal dishes like rice cooked with milk, sugarcane, and banana, followed by exchanging gifts and celebrating among family members and friends. It also serves as a time for unity and strengthens the bond between people in their communities.

📚 详细文档

模型描述

泰米尔语LLaMA模型在原始LLaMA - 2的基础上进行了增强和定制，拥有约16,000个标记的广泛泰米尔语词汇。

属性	详情
模型类型	一个70亿参数的类GPT模型，在约500,000个样本上进行微调，这些样本中英语和泰米尔语样本比例相等。（数据集即将发布）
语言	双语，英语和泰米尔语
许可证	GNU通用公共许可证v3.0
微调基础模型	即将发布
训练精度	`bfloat16`
代码	GitHub（即将更新）

提示模板：ChatML

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

基准测试结果

使用LLM - Autoeval在runpod的RTX 3090上进行基准测试。

⚠️ 重要提示

请注意，在Open LLM排行榜分数与使用LM Eval Harness在相同配置下本地运行获得的分数之间存在差异。此处提到的结果基于我们自己的基准测试。若要复现这些结果，您可以使用LLM - Autoeval或在本地使用lm - evaluation - harness，并按照Open LLM排行榜“关于”页面中描述的配置进行操作。

基准测试	Llama 2 Chat	泰米尔语Llama v0.2指令模型	泰卢固语Llama指令模型	马拉雅拉姆语Llama指令模型
ARC挑战（25次射击）	52.9	53.75	52.47	52.82
TruthfulQA（0次射击）	45.57	47.23	48.47	47.46
Hellaswag（10次射击）	78.55	76.11	76.13	76.91
Winogrande（5次射击）	71.74	73.95	71.74	73.16
AGI评估（0次射击）	29.3	30.95	28.44	29.6
BigBench（0次射击）	32.6	33.08	32.99	33.26
平均值	51.78	52.51	51.71	52.2

模型	类型	数据	基础模型	参数数量	下载链接
泰米尔语LLaMA 7B v0.1基础模型	基础模型	12GB	LLaMA 7B	70亿	HF Hub
泰米尔语LLaMA 13B v0.1基础模型	基础模型	4GB	LLaMA 13B	130亿	HF Hub
泰米尔语LLaMA 7B v0.1指令模型	指令跟随模型	14.5万条指令	泰米尔语LLaMA 7B基础模型	70亿	HF Hub
泰米尔语LLaMA 13B v0.1指令模型	指令跟随模型	14.5万条指令	泰米尔语LLaMA 13B基础模型	130亿	HF Hub
泰卢固语LLaMA 7B v0.1指令模型	指令/聊天模型	42万条指令	泰卢固语LLaMA 7B基础模型v0.1	70亿	HF Hub
马拉雅拉姆语LLaMA 7B v0.2指令模型	指令/聊天模型	42万条指令	马拉雅拉姆语LLaMA 7B基础模型v0.1	70亿	HF Hub

使用注意事项

⚠️ 重要提示

请注意，这些模型未经过去毒化/审查处理。因此，虽然它们具有出色的语言能力，但有可能生成被认为有害或冒犯性的内容。我们敦促用户谨慎使用，并密切监督模型的输出，特别是在公共或敏感应用场景中。

开发者介绍

认识一下这款创新模型背后的开发者，并关注他们在该领域的贡献：

Abhinand Balachandran

引用

如果您在研究中使用了该模型或任何与泰米尔语LLaMA相关的工作，请引用：

@misc{balachandran2023tamilllama,
      title={Tamil-Llama: A New Tamil Language Model Based on Llama 2}, 
      author={Abhinand Balachandran},
      year={2023},
      eprint={2311.05845},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

我们希望该模型能成为您自然语言处理工具包中的宝贵工具，并期待看到它在泰米尔语理解和生成方面带来的进步。