Open Qwen2VL
CC
Open-Qwen2VL是一个多模态模型,能够接收图像和文本作为输入并生成文本输出。
图像生成文本
英语
O
weizhiwang
568
15
Olmo2 11B SuperBPE T180k
Apache-2.0
110亿参数大语言模型,采用创新的SuperBPE分词器训练,支持超词单元识别和子词分词能力。
大型语言模型
Transformers

英语
O
UW
29
2
Genmedclip
MIT
GenMedClip 是一个基于 open_clip 库的零样本图像分类模型,专注于医学图像分析。
图像分类
G
wisdomik
40
0
Gte Multilingual Mlm Base
Apache-2.0
mGTE系列多语言文本编码器,支持75种语言,最大上下文长度8192,基于BERT+RoPE+GLU架构,在GLUE和XTREME-R基准上表现优异
大型语言模型
Safetensors
G
Alibaba-NLP
342
12
Llama3 German 8B 32k
基于Meta Llama3-8B优化的德语大语言模型,通过650亿德语语料持续预训练,专为德语优化并支持32k长上下文
大型语言模型
Transformers

德语
L
DiscoResearch
91
13
Rho Math 1b V0.1
MIT
Rho-1是一个专注于数学领域的语言模型,通过选择性语言建模(SLM)方法进行预训练,显著提升了数学问题解决的准确率。
大型语言模型
Transformers

英语
R
microsoft
1,451
15
Tinyllama V1.1 Math Code
Apache-2.0
TinyLlama是一个11亿参数的紧凑型语言模型,采用与Llama 2相同的架构和分词器,适用于计算和内存资源有限的应用场景。
大型语言模型
Transformers

英语
T
TinyLlama
3,436
11
Tinyllama V1.1
Apache-2.0
TinyLlama是一个11亿参数的小型语言模型,采用与Llama 2相同的架构和分词器,适用于资源受限的应用场景。
大型语言模型
Transformers

英语
T
TinyLlama
42.11k
92
Ltg Bert Babylm
基于100MW BabyLM挑战赛数据集训练的BERT变体,优化了在中等规模语料库上的表现
大型语言模型
Transformers

英语
L
ltg
594
2
Tinyllama 1.1B Intermediate Step 1431k 3T
Apache-2.0
TinyLlama是一个1.1B参数的Llama模型,预训练使用了3万亿标记,旨在提供紧凑高效的文本生成能力。
大型语言模型
Transformers

英语
T
TinyLlama
25.04k
173
Tinyllama 1.1B Intermediate Step 1195k Token 2.5T
Apache-2.0
TinyLlama是一个1.1B参数的小型Llama模型,在3万亿token上预训练,设计用于资源有限的环境。
大型语言模型
Transformers

英语
T
TinyLlama
419
52
M2 Bert 80M 2k Retrieval
Apache-2.0
这是一个80M参数的M2-BERT预训练检查点,序列长度为2048,并已针对长上下文检索任务进行微调。
文本嵌入
Transformers

英语
M
togethercomputer
538
15
Retromae Small Cs
基于RetroMAE目标在捷克语网络语料库上预训练的BERT-small模型,由Seznam.cz开发,适用于多种自然语言处理任务。
文本嵌入
Transformers

其他
R
Seznam
7,759
5
Sheared LLaMA 2.7B
Apache-2.0
Sheared-LLaMA-2.7B是基于Llama-2-7b通过剪枝和继续预训练得到的轻量级语言模型,仅消耗50B tokens预算。
大型语言模型
Transformers

S
princeton-nlp
1,131
60
Sheared LLaMA 1.3B
Apache-2.0
Sheared-LLaMA-1.3B是基于LLaMA-2-7B通过结构化剪枝和持续预训练得到的高效语言模型
大型语言模型
Transformers

S
princeton-nlp
11.09k
94
Tinyllama 1.1B Step 50K 105b
Apache-2.0
TinyLlama是一个1.1B参数的Llama模型,计划在3万亿token上进行预训练,优化后可在16块A100-40G GPU上90天内完成训练。
大型语言模型
Transformers

英语
T
TinyLlama
14.41k
133
Codet5p 16b
Bsd-3-clause
CodeT5+ 16B是一个开源的代码大语言模型家族,采用编码器-解码器架构,支持多种模式,适用于广泛的代码理解与生成任务。
大型语言模型
Transformers

C
Salesforce
292
65
Videomae Small Finetuned Kinetics
VideoMAE是视频领域的掩码自编码器模型,通过自监督预训练并在Kinetics-400数据集上进行监督微调,适用于视频分类任务。
视频处理
Transformers

V
MCG-NJU
2,152
1
Videomae Huge Finetuned Kinetics
VideoMAE是基于掩码自编码器(MAE)的视频预训练模型,通过自监督学习在Kinetics-400数据集上微调,适用于视频分类任务。
视频处理
Transformers

V
MCG-NJU
2,984
4
Videomae Base
VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型,通过预测被掩码视频块的像素值学习视频内部表示。
视频处理
Transformers

V
MCG-NJU
48.66k
45
Efficient Mlm M0.15
该模型研究了在掩码语言建模中遮蔽15%内容的有效性,采用了前置层归一化方法。
大型语言模型
Transformers

E
princeton-nlp
116
1
Distilbert Mlm 750k
DistilBERT 是 BERT 的轻量级蒸馏版本,保留了大部分性能但参数更少。
大型语言模型
Transformers

D
vocab-transformers
26
0
Chinese Electra Large Generator
Apache-2.0
中文ELECTRA是由哈工大-讯飞联合实验室基于谷歌ELECTRA模型开发的中文预训练模型,具有参数量小但性能优越的特点。
大型语言模型
Transformers

中文
C
hfl
14
0
Distilcamembert Base
MIT
DistilCamemBERT是法语CamemBERT模型的蒸馏版本,通过知识蒸馏技术显著降低模型复杂度,同时保持性能。
大型语言模型
Transformers

法语
D
cmarkea
15.79k
31
Rugpt3small Based On Gpt2
由SberDevices团队开发的俄语预训练Transformer语言模型,基于GPT2架构,支持1024序列长度,训练数据达800亿token。
大型语言模型
其他
R
ai-forever
46.92k
42
Arabictransformer Base
基于漏斗Transformer和ELECTRA目标的高效阿拉伯语模型,计算成本低且性能优越
大型语言模型
Transformers

A
sultan
17
1
Roberta Base Wechsel Swahili
MIT
使用WECHSEL方法训练的RoBERTa基础模型,专门针对斯瓦希里语进行优化,实现高效跨语言迁移。
大型语言模型
Transformers

其他
R
benjamin
222
1
Bertin Roberta Base Spanish
BERTIN是一系列基于BERT的西班牙语模型,当前模型是在西班牙语mC4部分上使用Flax从头训练的RoBERTa-base模型。
大型语言模型
西班牙语
B
bertin-project
1,845
36
Chinese Mobile Bert
Apache-2.0
该模型基于2.5亿中文语料库,采用MobileBERT架构进行预训练,训练周期为15天,在单张A100显卡上完成100万步迭代。
大型语言模型
Transformers

C
Ayou
25
5
Bert Base Uncased Sparse 90 Unstructured Pruneofa
Apache-2.0
这是一个稀疏预训练的BERT-Base模型,通过一次性修剪方法实现90%权重稀疏化,适用于多种语言任务微调。
大型语言模型
Transformers

英语
B
Intel
178
0
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文