模型卡片元数据规范参考:https://github.com/huggingface/hub-docs/blob/main/modelcard.md?plain=1
文档指南:https://huggingface.co/docs/hub/model-cards
许可证: apache-2.0
支持语言:
- 中文
交互示例:
- 文本: >-
好奇用户与人工智能助手之间的对话。助手为用户的问题提供有用、详细且礼貌的回答。用户: 你好,请问你可以帮我写一封推荐信吗? 助手:
库名称: transformers
任务标签: 文本生成
许可确认标题: 请确认许可协议以访问该仓库
许可确认提示: 请联系作者获取访问权限
许可确认按钮: 同意以上内容
许可确认字段:
姓名: 文本
邮箱: 文本
机构: 文本
国家: 文本
使用台湾LLM仓库必须明确注明原作者归属: 复选框
使用Taiwan LLM必须明确标注优必达株式会社Ubitus及原作者贡献: 复选框
Taiwan LLM 7B v2.0聊天模型卡片
台湾LLM是针对繁体中文优化的先进语言模型,专注于台湾地区的语言文化语境。基于大模型开发,通过融入多样化的台湾文本资源并进行监督微调强化。该模型在语言理解与生成方面表现卓越,精准契合台湾文化特质。在TC-Eval等多项基准测试中展现出优异的上下文理解与文化关联性表现。完整技术细节请参阅我们的技术报告。
模型描述
模型来源
- 代码仓库: https://github.com/MiuLab/Taiwan-LLaMa
- 演示地址: https://twllm.com/
性能表现

使用场景
以下示例展示如何使用🤗 Transformers的pipeline()
函数运行模型:
import torch
from transformers import pipeline
pipe = pipeline("text-generation", model="yentinglin/Taiwan-LLM-7B-v2.0-chat", torch_dtype=torch.bfloat16, device_map="auto")
messages = [
{
"role": "system",
"content": "你是一个人工智能助理",
},
{"role": "user", "content": "东北季风如何影响台湾气候?"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])
训练超参数



训练采用以下超参数:
- 学习率: 5e-05
- 分布式类型: 多GPU
- 优化器: Adam (beta1=0.9, beta2=0.999, epsilon=1e-08)
- 学习率调度器: 余弦退火
- 预热比例: 0.03
- 训练轮次: 5.0
引用
如果您的研究工作使用了台湾LLM,请引用:
@misc{lin2023taiwan,
title={Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned Language Model},
author={Yen-Ting Lin and Yun-Nung Chen},
year={2023},
eprint={2311.17487},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
致谢
台湾LLM v2版本与优必达株式会社合作开发,感谢优必达为本项目提供的宝贵计算资源。
免责声明
本模型「按现状」提供,不作任何明示或默示担保。使用者应自行评估输出结果的准确性与适用性,开发者对因使用本模型导致的任何直接或间接损失不承担法律责任。
严禁将本模型用于医疗诊断、法律咨询、金融投资等高风险场景,此类需求请咨询专业资质人士。