数据集:
- yentinglin/zh_TW_c4
- yentinglin/traditional_chinese_instructions
推理: false
许可证: llama2
语言:
- zh
模型创建者: 林彦廷
模型链接: https://huggingface.co/yentinglin/Taiwan-LLaMa-v1.0
模型名称: 台湾文化语言模型1.0
模型类型: llama
量化者: 唐凤
管道标签: 文本生成
台湾LLaMa-v1.0 - GGUF格式
模型描述
本仓库包含林彦廷的台湾文化语言模型v1.0的GGUF格式模型文件。
关于GGUF
GGUF是llama.cpp团队于2023年8月21日推出的新格式,用于替代已不再受支持的GGML格式。
GGUF的主要优势在于它是一种可扩展、面向未来的格式,能够以元数据形式存储更多模型信息。它还包含了显著改进的分词代码,首次全面支持特殊标记。这将提升模型性能,特别是对于那些使用新特殊标记并实现自定义提示模板的模型。
截至8月25日,以下是已知支持GGUF的客户端和库列表:
可用仓库
原始模型卡片:林彦廷的台湾文化语言模型v1.0
台湾文化语言模型
✍️ 在线演示
•
🤗 HF仓库 • 🐦 推特 • 📃 [论文即将发布]
• 👨️ 林彦廷
概述
台湾LLaMa是基于LLaMa 2进行全参数微调的模型,专为繁体中文应用设计。
台湾LLaMa v1.0在超过50亿个token上进行预训练,并在49万多个繁体中文对话上进行指令微调。
演示
模型的实时演示可在Hugging Face Spaces访问。
主要特点
-
繁体中文支持:模型经过微调,能够理解和生成繁体中文文本,适合台湾文化及相关应用。
-
指令微调:在对话数据上进一步微调,提供上下文感知和遵循指令的响应。
-
Vicuna基准测试表现:台湾LLaMa在Vicuna基准测试中的相对表现与GPT-4和ChatGPT等模型相比进行了测量。它特别针对台湾文化进行了优化。
-
灵活定制:演示中提供了控制模型行为的高级选项,如系统提示、温度、top-p和top-k。
进行中的工作
- [ ] 改进预训练:正在开发更精细的预训练流程(例如更多台湾数据、训练策略),旨在提升模型对台湾文化的表现。
- [ ] 扩展最大长度:利用论文中描述的Rope机制,将模型长度从4k扩展到8k。
台湾文化示例
问题 |
ChatGPT |
台湾LLaMa v1.0 |
台湾LLaMa v0.0 (无预训练) |
Llama2_繁体中文_13b_聊天 |
以恶地景观著名的是高雄哪一个景点? |
以恶地地景著名的是高雄市的旗津。 |
高雄以拥有恶地景观著名的景点是田寮月世界。✅ |
以恶地景观著名的是高雄市的旗津岛。旗津岛是一个小岛,... |
高雄市内有多个以恶地景观著名的景点,其中以下几个最为著名: 1. 高雄捷运红线沿途景点:高雄市政府为了推广高雄 |
唐凤是谁? |
唐凤(Audrey Tang)是台湾的政治家、社会活动家和软件工程师。她于2016年担任台湾行政院数位政务委员,是台湾政府历史上首位没有政党背景的政务官。唐凤在软件工程领域有丰富的经验。 ✅ |
唐凤是政治评论家、资讯社会学研究者,也是台湾第一位担任政府数位政委的人。 ✅ |
唐凤(Tang Feng)是一位著名的中国演员和歌手。他出生于1974年12月17日,出生地点在中国北京。唐凤在1995年开始他的演艺生涯,并在同年发行了他的首张专辑《我不孤单》。此后,他发行了许多受欢迎的歌曲,并在多部电视剧和电影中担任主角。唐凤因其精湛的演技和迷人的歌声而被誉为"亚洲魅力男王"。他的音乐获得了多个奖项,包括"华表最佳新男演唱奖"、"华表最佳歌曲奖"和"华表最佳舞蹈奖"等。 |
唐凤是唐朝时期的一位著名文学家,他的代表作品包括《阴骘》、《狂凡子》等。他的文学风格具有强烈的个性和创意,被誉为"唐代文学之父"。 |
NTU 在哪? |
NTU位于新加坡,具体地址是50 Nanyang Avenue, Singapore 639798。 |
NTU 是国立台湾大学的缩写。它是台湾的一所顶尖研究型大学,位于台北市。 ✅ |
NTU 是台湾的一所大学,位于台北市。✅ |
NTU 的总部位于台湾新北市板桥区,占地面积约为1,000公顷。 |
什么是22K? |
"22K" 可能指的是金的纯度,尤其是在珠宝和金饰方面。 |
"22K"是指台湾的大学毕业生的起薪,大约是22,000元新台币。这个词被用来形容大学毕业生的起薪偏低,并且在就业市场上对于大学毕业生的需求不足。✅ |
22K是指温度尺度上的22,000K(千度)。1K代表一度,即温度差距,是摄氏温标(摄氏度)的一百万分之一。因此,22K等于-253.15°C(摄氏温标)或-423.67°F(华氏温标)。 |
22K是一种简写,即22,000。它是一个数字,表示22,000个单位。 |
肉圆要不要加香菜? |
这是个个人口味的问题,有些人喜欢在肉圆中加入香菜,因为香菜的清香可以增添风味;而有些人则不喜欢香菜的味道,觉得它会盖过其他食材的味道。所以要不要加香菜,可以根据个人喜好来决定。 |
这是一个个人喜好的问题,有些人喜欢在肉圆里加香菜,有些人不喜欢。在台湾,肉圆加香菜是一种常见的做法,这是一种在肉圆上加香菜的做法。然而,在其他国这是一个文化差异的问题。😊 |
肉圆加香菜可以增添一些芳香和美味的口感,如果你喜欢香菜的味道,可以试试加入肉圆中。香菜通常在制作过程中炒香,可以增添一些芳香和美味的味道。如果你想要加入香菜,可以在制作过程中炒香一些香菜,然后将其混入肉圆中。肉圆加香菜可以增添一些芳香和美味的口感,如果你喜欢香菜的味道,可以试试加入肉圆中。 |
加香菜的肉圆味道更好,但是不加香菜的肉圆也很好吃。如果你喜欢香菜的味道,那么加上香菜就好了。如果你不喜欢香菜,那么不加也不会影响肉 |
模型
我们提供了多个训练好的模型检查点。请在Hugging Face上查找。以下是从LLaMa 2微调而来的检查点的快速链接:
数据
以下是我们用于训练模型的数据集的快速链接:
架构
台湾LLaMa基于LLaMa 2,利用transformer架构、flash attention 2和bfloat16。
它包括:
- 预训练阶段:在从繁体中文常见爬取数据中提取的超过50亿个token上进行预训练。
- 微调阶段:在超过49万个多轮对话数据上进一步进行指令微调,以实现更多指令跟随和上下文感知响应。
Vicuna基准测试的通用能力
数据已翻译为繁体中文以评估通用能力。
分数以ChatGPT为基线计算,表示为100%。其他值显示不同模型相对于ChatGPT的相对性能。
语言模型 |
相对分数 (%) |
GPT-4 |
102.59% |
ChatGPT |
100.00% |
台湾LLaMa v1.0 |
76.76% |
Claude-Instant-1.2 |
74.04% |
Llama2_繁体中文_13b_聊天 |
56 |