微件:
- 文本: "土耳其的首都是哪里?"
示例标题: "首都"
- 文本: "针对水资源短缺问题有哪些可能的解决方案?"
示例标题: "水资源短缺"
- 文本: "人工智能会带来失业风险吗?"
示例标题: "人工智能失业风险"
- 文本: "为以下文章建议一个标题:本文探讨了互联网在彻底改变企业与客户沟通方式中所扮演的角色。"
示例标题: "生成标题"
- 文本: "在以下情境中说一句原创的话:你刚结束一场工作面试,想向雇主表达对这个职位的兴趣。"
示例标题: "角色扮演"
- 文本: "企业应采取哪些措施来加强网络安全?"
示例标题: "网络安全"
- 文本: "最流行的5种编程语言是什么?"
示例标题: "编程语言"
- 文本: "列举人类历史上最具影响力的几项发明。"
示例标题: "发明创造"
- 文本: "大量阅读能培养孩子的哪些技能?"
示例标题: "阅读益处"
- 文本: "围绕'气候变化'主题列出5个关键词"
示例标题: "气候变化关键词"
- 文本: "计算机有哪些好处?"
示例标题: "计算机优势"
许可证: MIT协议
语言:
- 土耳其语
任务标签: 文本生成
基础模型: ytu-ce-cosmos/turkish-gpt2-medium
标签:
- 土耳其语
- turkish
- gpt2
- 指令微调
- alpaca

土耳其语GPT2中型指令微调版v0.1
本模型基于ytu-ce-cosmos/turkish-gpt2-medium开发,是通过3.5万条指令数据集微调的土耳其语言模型(LLM)。由于训练数据来自网站、书籍等多源文本,模型可能存在偏见或生成错误答案。使用者需注意这些潜在偏差并负责任地使用。
快速开始
import torch
from transformers import AutoTokenizer, GPT2LMHeadModel
from transformers import pipeline
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device_id = 0 if torch.cuda.is_available() else -1
model = GPT2LMHeadModel.from_pretrained("ytu-ce-cosmos/turkish-gpt2-medium-350m-instruct-v0.1").to(device)
tokenizer = AutoTokenizer.from_pretrained("ytu-ce-cosmos/turkish-gpt2-medium-350m-instruct-v0.1")
text_generator = pipeline('text-generation', model=model, tokenizer=tokenizer, device=device_id, max_new_tokens=256)
def get_model_response(instruction):
instruction_prompt = f"### 用户:\n{instruction}\n### 助手:\n"
result = text_generator(instruction_prompt)
generated_response = result[0]['generated_text']
return generated_response[len(instruction_prompt):]
model_response = get_model_response("解释在家锻炼的好处。")
print(model_response)
"""
在家锻炼是提升身心健康的绝佳方式。定期锻炼能带来诸多益处,包括提高能量水平、增强肌肉力量与柔韧性、改善睡眠质量以及提升整体幸福感。家庭锻炼还有助于减压、增强肌力并改善总体健康状况。
"""
使用对话模板:
chat_generator = pipeline("conversational", model=model, tokenizer=tokenizer, device=device_id, max_new_tokens=256)
messages = [
{"role": "user", "content": "解释在家锻炼的好处。"}
]
chat_outputs = chat_generator(messages)
print(chat_outputs)
"""
对话ID: 236ffc4a-2a36-4191-92fb-90d6753df1ae
用户: 解释在家锻炼的好处。
助手: 家庭锻炼能为身心健康发展提供诸多优势。规律运动有助于减压、增强肌力并改善整体健康。此外,家庭锻炼还能带来更好的睡眠质量、更高能量水平和更佳认知功能等身心益处。这种锻炼方式还能提升柔韧性、平衡协调能力,促进心脏健康和骨骼健康。
"""
训练详情
- 我们使用3.5万条土耳其语指令数据集进行精细微调,显著提升了模型的精确度和适应性
- 通过LoRA(低秩自适应)技术,将模型性能推向巅峰
- LoRA配置:
- 秩 = 256
- lora_alpha = 512
- lora_dropout = 0.05
- 偏置="无"
- 任务类型="因果语言模型"
- 除监控损失值外,我们创新性地将Rouge评分纳入系统评估体系
- 采用模型清洗数据的创新技术
更多细节详见论文。
模型说明
- 开发团队: 伊斯坦布尔理工大学COSMOS实验室
- 基础模型:
ytu-ce-cosmos/turkish-gpt2-medium
致谢
- 感谢Hugging Face团队提供模型下载支持 🤗
- 研究使用Google TPU研究云(TRC)提供的Cloud TPU完成
引用
@article{kesgin2024introducing,
title={推出cosmosGPT:土耳其语模型的单语训练},
author={凯斯金, H·托普拉克 等},
journal={arXiv预印本},
year={2024}
}
框架版本
联系方式
伊斯坦布尔理工大学计算机工程系COSMOS人工智能研究组
https://cosmos.yildiz.edu.tr/
cosmos@yildiz.edu.tr