Taiwan LLaMa V1.0

由 yentinglin 开发

台湾LLM是一款专为繁体中文优化的先进语言模型，深度适配台湾语言文化语境，在TC-Eval等基准测试中表现优异。

大型语言模型

Transformers

中文

#繁体中文优化 #台湾文化适配 #高参数生成

下载量 81

发布时间 : 8/10/2023

模型介绍

内容详情

替代品

模型简介

基于大模型开发，通过融合多元台湾文本数据与监督微调技术，显著提升语言理解与生成能力，精准捕捉台湾文化特质。

模型特点

文化适配

深度优化台湾语言文化语境，精准捕捉本地化表达

高性能

在TC-Eval等基准测试中表现优异，体现优秀的语境理解能力

专业微调

通过监督微调技术显著提升语言理解与生成质量

模型能力

繁体中文文本生成

语境理解

文化相关问答

使用案例

教育

台湾文化教学

用于解释台湾特有的文化现象和语言表达

提供符合当地语境的准确解释

商业

本地化内容创作

生成符合台湾市场的营销文案和广告内容

产出自然流畅的本地化文本

许可证：llama2
数据集：

yentinglin/zh_TW_c4
yentinglin/traditional_mandarin_instructions
语言：
中文（zh）
交互示例：
文本："一位好奇用户与人工智能助手之间的对话。助手对用户问题提供有用、详尽且礼貌的回答。用户：你好，请问你可以帮我写一封推荐信吗？助手："
库名称：transformers
流水线标签：文本生成
访问许可声明标题：确认许可证以访问仓库
访问许可提示：请联系作者获取访问权限
许可确认按钮：同意以上内容
访问许可字段：
姓名：文本
邮箱：文本
机构：文本
国家：文本
使用台湾LLM仓库必须明确注明原作者归属：复选框

![台湾LLM标志](https://cdn-uploads.huggingface.co/production/uploads/5df9c78eda6d0311fd3d541f/CmusIT5OlSXvFrbTJ7l-C.png "台湾LLM Logo" width="800" style="margin-left:'auto' margin-right:'auto' display:'block'")

🌟 访问Taiwan-LLM演示聊天界面 🌟

台湾LLM 13B v1.0聊天模型卡

台湾LLM是一款专为繁体中文优化的先进语言模型，深度适配台湾语言文化语境。基于大模型开发，通过融合多元台湾文本数据与监督微调技术，显著提升语言理解与生成能力，精准捕捉台湾文化特质。在TC-Eval等基准测试中表现优异，体现其语境理解与文化关联性优势。完整技术细节请参阅技术报告。

模型描述

模型类型：基于公开数据集与合成数据微调的130亿参数GPT类模型
支持语言：主要面向繁体中文（zh-tw）
基础模型：yentinglin/Taiwan-LLaMa-v1.0-base

模型来源

代码库：https://github.com/MiuLab/Taiwan-LLaMa
演示平台：https://twllm.com/

性能表现

性能图表

使用方式

通过🤗 Transformers库的pipeline函数调用模型：

# 安装依赖：pip install transformers>=4.34 accelerate

import torch
from transformers import pipeline

pipe = pipeline("text-generation", model="yentinglin/Taiwan-LLaMa-v1.0", torch_dtype=torch.bfloat16, device_map="auto")

# 使用聊天模板格式化消息（参见HuggingFace文档）
messages = [
    {"role": "system", "content": "你是一个人工智能助理"},
    {"role": "user", "content": "东北季风如何影响台湾气候？"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])

训练超参数

超参数图表1
超参数图表2
超参数图表3

训练采用以下超参数：

学习率：5e-05
分布式类型：多GPU
优化器：Adam（beta1=0.9，beta2=0.999，epsilon=1e-08）
学习率调度器：余弦退火
预热比例：0.03
训练轮次：5.0

引用

若台湾LLM对您的研究有帮助，请引用：

@misc{lin2023taiwan,
      title={Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned Language Model}, 
      author={Yen-Ting Lin and Yun-Nung Chen},
      year={2023},
      eprint={2311.17487},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}