Taiwan LLM 13B V2.0 Chat

由 yentinglin 开发

专为繁体中文优化的先进语言模型，深度融合台湾语言文化语境，在语言理解生成任务中表现卓越。

大型语言模型

Transformers

中文

开源协议:Apache-2.0 #繁体中文优化 #台湾文化适配 #130亿参数GPT

下载量 116

发布时间 : 10/17/2023

模型介绍

内容详情

替代品

模型简介

基于大规模基础模型，通过台湾多元文本资源增强与监督微调，精准契合台湾文化特质。

模型特点

文化适配

深度融合台湾语言文化语境，精准理解本地表达方式和文化背景

性能优越

在TC-Eval等基准测试中展现优异的语境理解与文化适配能力

专业微调

基于公开数据集与合成数据精心微调，优化繁体中文处理能力

模型能力

繁体中文文本生成

文化语境理解

多轮对话处理

专业文本创作

使用案例

教育

学术写作辅助

帮助学生和研究人员撰写符合学术规范的繁体中文论文

提高写作效率和质量

商业

商业文件生成

自动生成符合台湾商业惯例的合同、报告等文件

节省人力成本，提高文档一致性

模型卡片元数据规范参考：https://github.com/huggingface/hub-docs/blob/main/modelcard.md?plain=1

文档指南：https://huggingface.co/docs/hub/model-cards

许可证: apache-2.0 支持语言:

中文交互示例:
文本: >- 好奇用户与人工智能助手之间的对话。助手以专业、详尽且礼貌的方式回答用户问题。用户：你好，请问你可以帮我写一封推荐信吗？助手：库名称: transformers 任务标签: 文本生成授权确认标题: 请确认许可协议以访问仓库授权确认提示: 请联系作者获取访问权限授权确认按钮: 同意许可条款授权表单字段: 姓名: 文本邮箱: 文本机构: 文本国家: 文本使用Taiwan LLM必须明确注明原作者归属: 复选框使用Taiwan LLM须声明致谢优必达株式会社Ubitus及原作者: 复选框

台湾大语言模型标志

🌟 体验Taiwan-LLM演示聊天界面 🌟

Taiwan LLM 13B v2.0聊天模型卡片

Taiwan LLM是专为繁体中文优化的先进语言模型，深度融合台湾语言文化语境。基于大规模基础模型，通过台湾多元文本资源增强与监督微调，在语言理解生成任务中表现卓越，精准契合台湾文化特质。TC-Eval等基准测试显示其优异的语境理解与文化适配能力。完整技术细节请参阅技术报告。

模型描述

模型类型: 130亿参数GPT架构模型，基于公开数据集与合成数据微调
支持语言: 主要面向繁体中文(zh-tw)
基础模型: yentinglin/Taiwan-LLM-13B-v2.0-base

模型来源

代码库: https://github.com/MiuLab/Taiwan-LLaMa
演示平台: https://twllm.com/

性能表现

性能图表

TMMLUS+得分: 24.76727075757576

使用方式

通过🤗 Transformers库调用示例：

# 安装依赖: transformers>=4.34, accelerate
import torch
from transformers import pipeline

pipe = pipeline("text-generation", model="yentinglin/Taiwan-LLM-13B-v2.0-chat", torch_dtype=torch.bfloat16, device_map="auto")

# 使用聊天模板格式化消息 - 参见https://huggingface.co/docs/transformers/main/en/chat_templating
messages = [
    {"role": "system", "content": "你是一个人工智能助理"},
    {"role": "user", "content": "东北季风如何影响台湾气候？"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])

训练参数

训练参数图表1

训练参数图表2

训练参数图表3

核心训练超参数：

学习率: 5e-05
分布式训练: 多GPU
优化器: Adam (betas=(0.9,0.999), epsilon=1e-08)
学习率调度: 余弦退火
预热比例: 0.03
训练轮次: 5.0

引用规范

若Taiwan LLM对您的研究有帮助，请引用：

@misc{lin2023taiwan,
      title={Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned Language Model}, 
      author={Yen-Ting Lin and Yun-Nung Chen},
      year={2023},
      eprint={2311.17487},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}