polka-1.1b-chat开源波兰语对话助手 - 本地运行畅聊无障碍

首页

Polka 1.1b Chat

由 eryk-mazus 开发

首个专为本地运行设计的波兰语对话助手模型，基于TinyLlama-1.1B扩展波兰语分词器并进行预训练和DPO优化

大型语言模型

Transformers

其他开源协议:MIT #波兰语对话 #本地部署优化 #DPO微调

下载量 91

发布时间 : 2/7/2024

模型简介

专为波兰语对话优化的1.1B参数语言模型，支持多轮对话场景

模型特点

波兰语优化

扩展分词器并增加57亿token的波兰语预训练

对话优化

在6万条多轮对话数据上微调并应用DPO技术

本地部署友好

专为本地运行设计的小型化模型

长上下文支持

4096token的上下文长度

模型能力

波兰语文本生成

多轮对话处理

创意写作

问答系统

使用案例

客服助手

波兰语客户支持

处理波兰语用户的咨询和问题解答

可生成符合波兰语习惯的礼貌回复

教育应用

波兰语学习助手

帮助学习者练习波兰语对话

提供自然流畅的波兰语表达示例

🚀 Polka-1.1B-Chat

eryk-mazus/polka-1.1b-chat 是首个经过训练的波兰语模型，可作为实用的对话助手，并且能够在本地运行。该模型基于 TinyLlama-1.1B，采用了自定义的扩展分词器，能更高效地生成波兰语文本，还在 57 亿个标记上进行了额外的预训练。之后，它在大约 6 万个合成生成并经过机器翻译的多轮对话上进行了微调，并在此基础上执行了直接偏好优化（DPO）。

上下文大小：4096 个标记

image/png

✨ 主要特性

首个可本地运行的波兰语对话助手模型。
基于 TinyLlama-1.1B，采用自定义扩展分词器，高效生成波兰语文本。
经过额外预训练和微调，执行 DPO 优化。

📦 安装指南

文档未提及安装步骤，暂不提供。

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, TextStreamer

model_name = "eryk-mazus/polka-1.1b-chat"

tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
tokenizer.pad_token = tokenizer.eos_token

model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float16,
    device_map="auto"
)
streamer = TextStreamer(tokenizer, skip_prompt=True)

# You are a helpful assistant.
system_prompt = "Jesteś pomocnym asystentem."
chat = [{"role": "system", "content": system_prompt}]

# Compose a short song on programming.
user_input = "Napisz krótką piosenkę o programowaniu."
chat.append({"role": "user", "content": user_input})

# Generate - add_generation_prompt to make sure it continues as assistant
inputs = tokenizer.apply_chat_template(chat, add_generation_prompt=True, return_tensors="pt")
# For multi-GPU, find the device of the first parameter of the model
first_param_device = next(model.parameters()).device
inputs = inputs.to(first_param_device)

with torch.no_grad():
    outputs = model.generate(
        inputs,
        pad_token_id=tokenizer.eos_token_id,
        max_new_tokens=512,
        temperature=0.2,
        repetition_penalty=1.15,
        top_p=0.95,
        do_sample=True,
        streamer=streamer,
    )

# Add just the new tokens to our chat
new_tokens = outputs[0, inputs.size(1):]
response = tokenizer.decode(new_tokens, skip_special_tokens=True)
chat.append({"role": "assistant", "content": response})

高级用法

该模型也能与 vLLM 无缝协作。

📚 详细文档

提示格式

此模型采用 ChatML 作为提示格式：

<|im_start|>system
Jesteś pomocnym asystentem.
<|im_start|>user
Jakie jest dzienne zapotrzebowanie kaloryczne dorosłej osoby?<|im_end|>
<|im_start|>assistant
Dla dorosłych osób zaleca się spożywanie około 2000-3000 kcal dziennie, aby utrzymać optymalne zdrowie i dobre samopoczucie.<|im_end|>

这个提示可以作为聊天模板使用，这意味着你可以使用 tokenizer.apply_chat_template() 方法来格式化消息，如上述示例所示。

📄 许可证

本项目采用 MIT 许可证。

📋 模型信息

属性	详情
模型类型	基于 TinyLlama-1.1B 的波兰语对话模型
训练数据	57 亿个标记的预训练数据，约 6 万个合成生成并机器翻译的多轮对话微调数据
数据集	eryk-mazus/polka-dpo-v1
上下文大小	4096 个标记