TinyMistral-248M-GGUF开源小语言模型 - 免费用于下游任务微调！

Tinymistral 248M GGUF

由 afrideva 开发

TinyMistral-248M 是一个基于 Mistral 7B 模型预训练的小型语言模型，参数规模缩减至约2.48亿，主要用于下游任务的微调。

下载量 211

发布时间 : 11/14/2023

模型简介

这是一个基于Mistral 7B模型预训练的语言模型，参数规模缩减至约2.48亿。该模型已在7,488,000个样本上进行训练，主要用于下游任务的微调。

小型化设计

参数规模缩减至约2.48亿，适合在资源有限的设备上运行。

高效预训练

在单个GPU（Titan V）上完成预训练，所需数据集较小。

长上下文支持

上下文长度约为32,768个token，适合处理长文本任务。

文本生成

下游任务微调

自然语言处理

文本生成

用于生成连贯的英文文本。

在InstructMix评估中，平均困惑度得分为6.3。

下游任务微调

适用于需要小型语言模型的各种NLP任务。

本项目提供了来自 Locutusque 的 TinyMistral-248M 模型的量化 GGUF 格式文件。该模型基于 Mistral 7B 模型进行缩减，适用于下游任务的微调。

属性	详情
基础模型	Locutusque/TinyMistral-248M
模型创建者	Locutusque
模型名称	TinyMistral-248M
任务类型	文本生成
量化者	afrideva
模型类型	gguf、ggml、量化模型（包含 q2_k、q3_k_m、q4_k_m、q5_k_m、q6_k、q8_0 等量化方法）
训练数据	Skylion007/openwebtext、JeanKaddour/minipile
许可证	apache - 2.0

这是一个基于 Mistral 7B 模型的预训练语言模型，参数规模缩减至约 2.48 亿。该模型在 748.8 万个示例上进行了训练，不建议直接使用，而是用于下游任务的微调。

该模型的上下文长度约为 32768 个标记。由于保存模型权重时出现问题，已移除安全序列化。

在 InstructMix 上进行评估时，该模型的平均困惑度得分为 6.3。计划在不同数据集上对该模型进行更多轮次的训练。

详细结果可查看此处