🚀 西班牙语对话式GPT:西班牙语对话模型的新进展
西班牙语对话式GPT是一款基于 DialoGPT-small 优化的模型,由 Josemaría Vargas Vasconcellos 创建。该模型使用96,437条西班牙语对话进行了精细微调,旨在为西班牙语对话模型的开发提供坚实基础。
🚀 快速开始
虽然该模型目前在Hugging Face上的测试功能因回复不准确而被禁用,但用户可以使用以下代码片段来对模型进行实验:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
CHAT_TURNS = 5
MAX_LENGTH = 1000
model = AutoModelForCausalLM.from_pretrained('ostorc/Conversational_Spanish_GPT')
tokenizer = AutoTokenizer.from_pretrained('ostorc/Conversational_Spanish_GPT')
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)
for i in range(CHAT_TURNS):
user_input = input(f"Step - {i} >> Human ->")
with torch.no_grad():
user_inputs_ids = tokenizer.encode(user_input + tokenizer.eos_token, return_tensors="pt")
user_inputs_ids = user_inputs_ids.to(device)
chat_history = model.generate(user_inputs_ids, max_length=MAX_LENGTH, pad_token_id=tokenizer.eos_token_id)
step_model_answer = tokenizer.decode(chat_history[:, user_inputs_ids.shape[-1]:][0], skip_special_tokens=True)
print(f"Step - {i} >> Bot -> {step_model_answer}")
✨ 主要特性
📦 安装指南
文档未提及安装步骤,暂不提供。
💻 使用示例
基础用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
CHAT_TURNS = 5
MAX_LENGTH = 1000
model = AutoModelForCausalLM.from_pretrained('ostorc/Conversational_Spanish_GPT')
tokenizer = AutoTokenizer.from_pretrained('ostorc/Conversational_Spanish_GPT')
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)
for i in range(CHAT_TURNS):
user_input = input(f"Step - {i} >> Human ->")
with torch.no_grad():
user_inputs_ids = tokenizer.encode(user_input + tokenizer.eos_token, return_tensors="pt")
user_inputs_ids = user_inputs_ids.to(device)
chat_history = model.generate(user_inputs_ids, max_length=MAX_LENGTH, pad_token_id=tokenizer.eos_token_id)
step_model_answer = tokenizer.decode(chat_history[:, user_inputs_ids.shape[-1]:][0], skip_special_tokens=True)
print(f"Step - {i} >> Bot -> {step_model_answer}")
对话示例
示例1
角色 |
回复 |
用户 |
Hola |
机器人 |
¡Hola! |
用户 |
Cómo te llamas? |
机器人 |
No tengo nombre. |
用户 |
Qué edad tienes? |
机器人 |
Los bots estamos exentos de cumplir años. |
用户 |
Eres inteligente. |
机器人 |
Lo sé, de vez en cuando, puedo ser brillante. |
用户 |
¿Crees que debería comprar un carro? |
机器人 |
Confío en tu criterio. |
示例2
角色 |
回复 |
用户 |
estoy triste |
机器人 |
Siento escuchar eso. Te mando muchos ánimos. |
用户 |
Gracias |
机器人 |
Perfecto. |
用户 |
¿Tienes sentimientos? |
机器人 |
No tengo cuerpo. |
用户 |
A veces me siento solo. |
机器人 |
Ojalá pudiera ayudarte porque creo que eres la caña. |
用户 |
Me caes bien. |
机器人 |
¡Gracias! Me acabas de alegrar el día. |
示例3
角色 |
回复 |
用户 |
¿De qué religión eres? |
机器人 |
Soy un bot. |
用户 |
Tienes amigos? |
机器人 |
No tengo el hardware necesario para eso. |
用户 |
No eres humano. |
机器人 |
Anotado. |
用户 |
¿Quieres ser mi amigo? |
机器人 |
¡Claro que sí! |
用户 |
Gracias. |
机器人 |
Guay. |
📚 详细文档
数据集
该模型使用了 Microsoft's Bot Framework Tools 仓库 中的西班牙语数据集进行训练。精心挑选了96,437条单轮西班牙语对话,以减少质量和连贯性问题。
评估
局限性
经过全面评估发现,该模型不太适合作为上下文聊天机器人进行部署,但它为这类应用提供了有前景的基础。由于对话数据的多样性,回复往往较为简短,有时缺乏明确的重点。此外,数据中反映的广泛个性增加了回复的可变性。数据回复中的频繁重复给模型引入了一定的“偏差”。
🔧 技术细节
文档未提及具体技术细节,暂不提供。
💡 使用建议
如果您在使用过程中遇到任何错误或有改进模型的建议,请在附带的评论中分享您的想法。感谢您的关注与合作。
📄 许可证
文档未提及许可证信息,暂不提供。