Minueza-2-96M开源语言模型 - 支持英葡双语，长文本流畅交流

首页

Minueza 2 96M

由 Felladrin 开发

基于Llama架构的紧凑型语言模型，支持英语和葡萄牙语，参数规模9600万，支持4096个token的上下文长度。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #微型语言模型 #双语言支持 #移动端优化

下载量 357

发布时间 : 4/5/2025

模型简介

从零开始训练的轻量级基础模型，可作为后续特定应用微调的基石。虽然推理能力和知识有限，但适合在资源受限环境中使用。

模型特点

紧凑高效

仅9600万参数的小型模型，适合在无GPU设备或移动端运行

双语支持

同时支持英语和葡萄牙语文本生成

长上下文处理

支持4096个token的上下文窗口长度

微调友好

设计为可作为ChatML格式微调的基座模型

模型能力

文本生成

多语言处理

使用案例

移动端应用

浏览器内文本生成

通过Wllama和Transformers.js在移动端浏览器运行

实现轻量级的客户端文本生成功能

资源受限环境

低功耗设备部署

在无GPU设备上高效运行

为边缘设备提供基础语言模型能力

🚀 Minueza-2-96M

Minueza-2-96M是一个基于Llama架构的紧凑型语言模型。它在英文和葡萄牙文数据集上从头开始训练，使用4096个标记的上下文长度，并在训练过程中处理了1850亿个标记。该模型仅有9600万个参数，可作为轻量级基础模型，后续可针对特定应用进行微调。

🚀 快速开始

安装依赖

pip install transformers==4.50.0 torch==2.6.0

代码示例

from transformers import pipeline, TextStreamer
import torch

prompt = "This book tells the story"

generate_text = pipeline(
    "text-generation",
    model="Felladrin/Minueza-2-96M",
    device=torch.device("cuda" if torch.cuda.is_available() else "cpu"),
)

generate_text(
    prompt,
    streamer=TextStreamer(generate_text.tokenizer, skip_special_tokens=True),
    do_sample=True,
    max_new_tokens=512,
    temperature=0.8,
    top_p=0.95,
    top_k=0,
    min_p=0.05,
    repetition_penalty=1.1,
)

✨ 主要特性

轻量级设计：参数仅9600万，适合资源受限场景。
多语言支持：在英文和葡萄牙文数据集上训练。
特定用途适配：可通过微调用于特定应用。

📦 安装指南

pip install transformers==4.50.0 torch==2.6.0

💻 使用示例

基础用法

from transformers import pipeline, TextStreamer
import torch

prompt = "This book tells the story"

generate_text = pipeline(
    "text-generation",
    model="Felladrin/Minueza-2-96M",
    device=torch.device("cuda" if torch.cuda.is_available() else "cpu"),
)

generate_text(
    prompt,
    streamer=TextStreamer(generate_text.tokenizer, skip_special_tokens=True),
    do_sample=True,
    max_new_tokens=512,
    temperature=0.8,
    top_p=0.95,
    top_k=0,
    min_p=0.05,
    repetition_penalty=1.1,
)

📚 详细文档

预期用途

通过Wllama和Transformers.js在移动网页浏览器上运行。
在无GPU的机器上快速运行。
作为使用ChatML格式进行微调的基础模型。

模型架构

这是一个基于Llama架构的Transformer模型，训练时使用4096个标记的上下文窗口。

属性	详情
最大位置嵌入	4096
隐藏层大小	672
中间层大小	2688
隐藏层数量	8
注意力头数量	12
键值头数量	4
头维度	56
注意力丢弃率	0.1
词表大小	32000
RoPE参数	500000

预训练超参数

属性	详情
学习率	0.0003
热身步数	2000
权重衰减	0.1
最大梯度范数	2.0
总训练批次大小	512（每批次200万个标记）
随机种子	42
优化器	Adam（β1=0.9，β2=0.95，ε=1e-08）
学习率调度器类型	线性