Modernbert Base Squad2 V0.2
Apache-2.0
基于ModernBERT-base-nli微调的问答模型,支持长上下文处理
问答系统
Transformers

M
Praise2112
42
2
Tweety 7b Dutch V24a
Apache-2.0
Tweety-7b-dutch是一个专注于荷兰语的基础大语言模型,基于mistral架构,使用荷兰语分词器优化荷兰语文本处理能力。
大型语言模型
Transformers

其他
T
Tweeties
1,568
13
Mistral 7B Instruct V0.2 Sparsity 20 V0.1
Apache-2.0
Mistral-7B-Instruct-v0.2是基于Mistral-7B-Instruct-v0.1改进的指令微调大语言模型,采用Wanda剪枝方法压缩至2%稀疏度,无需重新训练即可保持竞争力性能。
大型语言模型
Transformers

M
wang7776
80
1
Mistral 7B Instruct V0.2 Sparsity 30 V0.1
Apache-2.0
Mistral-7B-Instruct-v0.2是基于Mistral-7B-Instruct-v0.1增强的指令微调大语言模型,采用Wanda剪枝方法实现30%稀疏化,无需重新训练即可保持竞争力性能。
大型语言模型
Transformers

M
wang7776
75
1
Nystromformer 4096
基于WikiText-103 v1数据集训练的长序列Nyströmformer模型,支持4096长度的序列处理
大型语言模型
Transformers

N
uw-madison
74
3
Nystromformer 2048
基于WikiText-103数据集训练的Nystromformer模型,支持长序列处理(2048 tokens)
大型语言模型
Transformers

N
uw-madison
38
1
Long T5 Tglobal Base
Apache-2.0
LongT5是基于T5架构的文本到文本转换模型,采用瞬态全局注意力机制高效处理长序列输入
大型语言模型
英语
L
google
71.38k
42
Bart Base Cnn R2 18.7 D23 Hybrid
Apache-2.0
这是一个经过剪枝优化的BART-base模型,专门针对CNN/DailyMail数据集进行微调,用于摘要生成任务。
文本生成
Transformers

英语
B
echarlaix
18
0
Deit Tiny Distilled Patch16 224
Apache-2.0
该模型为蒸馏版数据高效图像Transformer(DeiT),在ImageNet-1k上以224x224分辨率进行预训练和微调,通过蒸馏从教师模型高效学习。
图像分类
Transformers

D
facebook
6,016
6
Chinese Bigbird Mini 1024
Apache-2.0
这是一个基于BigBird架构的中文预训练模型,针对中文文本处理进行了优化,支持长文本序列处理。
大型语言模型
Transformers

中文
C
Lowin
14
1
Chinese Bigbird Base 4096
Apache-2.0
基于BigBird架构的中文预训练模型,支持4096长度的上下文处理
大型语言模型
Transformers

中文
C
Lowin
48
3
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文