轻量级预训练

# 轻量级预训练

Mamba-1B是一个基于Mamba架构的1B参数规模的语言模型，支持英文文本生成任务。

大型语言模型

Transformers 英语

Tinymistral 248M GGUF

TinyMistral-248M 是一个基于 Mistral 7B 模型预训练的小型语言模型，参数规模缩减至约2.48亿，主要用于下游任务的微调。

大型语言模型英语

Tinymistral 248M

基于Mistral 7B模型缩减至2.48亿参数的语言模型，专为文本生成任务设计，适用于下游任务微调。

大型语言模型

Transformers 英语

T5 Finetune Cnndaily News

基于Transformer架构的轻量级预训练编码器-解码器模型，专用于中文新闻摘要生成任务。

Transformers 英语

一个小型BERT语言模型，采用首字符预测作为预训练目标

大型语言模型

Bert Ascii Small

一个小型BERT语言模型，通过预测被遮蔽标记中字符的ASCII码值之和作为预训练目标进行预训练。

大型语言模型

Chinese Roberta L 4 H 768

基于CLUECorpusSmall预训练的24个中文RoBERTa模型系列之一，采用UER-py框架训练，支持掩码语言建模和文本特征提取。

大型语言模型中文

Chinese Roberta L 2 H 512

基于CLUECorpusSmall预训练的中文RoBERTa模型，包含8层网络和512维隐藏层，适用于多种中文NLP任务。

大型语言模型中文

Chinese Roberta L 8 H 512

基于CLUECorpusSmall预训练的中文RoBERTa模型，参数规模为8层512隐藏单元，支持掩码语言建模任务。

大型语言模型中文

SEW-tiny是由ASAPP Research开发的压缩高效型语音预训练模型，基于16kHz采样的语音音频进行预训练，适用于多种下游语音任务。

Transformers 支持多种语言

Bert L12 H256 A4

基于知识蒸馏技术预训练的轻量级BERT模型，隐藏层维度为256，配备4个注意力头，适用于掩码语言建模任务。

大型语言模型

Chinese Roberta L 12 H 768

基于RoBERTa架构的中文预训练语言模型，隐藏层维度512，包含8层Transformer结构

大型语言模型中文

Chinese Roberta L 4 H 512

这是一个基于RoBERTa架构的中文预训练语言模型，参数规模为8层512隐藏单元，适用于多种中文自然语言处理任务。

大型语言模型中文

Chinese Legal Electra Small Generator

中文ELECTRA是哈工大-讯飞联合实验室基于谷歌ELECTRA模型发布的中文预训练模型，体积小且性能优越。

大型语言模型

Transformers 中文

Roberta Medium Word Chinese Cluecorpussmall

基于CLUECorpusSmall预训练的中文分词版RoBERTa中型模型，采用8层512隐藏层架构，相比字符版模型在多项任务中表现更优

大型语言模型中文

Chinese Roberta L 2 H 128

这是一个基于CLUECorpusSmall预训练的中文RoBERTa中型模型，具有8层网络和512维隐藏层，适用于多种中文自然语言处理任务。

大型语言模型中文

Chinese Roberta L 4 H 256

基于CLUECorpusSmall预训练的中文RoBERTa模型，参数规模为8层512隐藏层，适用于多种中文NLP任务。

大型语言模型中文

Chinese Roberta L 6 H 256

基于CLUECorpusSmall预训练的中文RoBERTa模型，参数规模为8层512隐藏单元

大型语言模型中文

Chinese Roberta L 6 H 768

基于CLUECorpusSmall预训练的中文RoBERTa中型模型，具有8层网络和512维隐藏层，适用于多种中文NLP任务。

大型语言模型中文

Bert Base Arabic Camelbert Msa Sixteenth

针对阿拉伯语NLP任务的预训练模型，在缩减规模(1/16)的现代标准阿拉伯语(MSA)数据集上训练

大型语言模型阿拉伯语

Mengzi Oscar Base Caption

基于中文多模态预训练模型孟子-奥斯卡，在AIC-ICC中文图像描述数据集上微调而成的中文多模态图像描述模型

图像生成文本

Transformers 中文

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24