Bart Large Empathetic Dialogues
该模型是一个基于transformers库的模型,具体用途和功能需要进一步的信息来确定。
大型语言模型
Transformers

B
sourname
199
1
Openclip ViT H 14 FARE2
MIT
基于Transformers库的稳健图像编码器模型,专注于图像特征提取任务
大型语言模型
Transformers

O
RCLIP
24
0
Mixtex Finetune
MIT
MixTex base_ZhEn 是一个支持中文和英语的图像转文本模型,基于MIT许可证发布。
图像生成文本
支持多种语言
M
wzmmmm
27
0
Gemma 3 Glitter 4B
基于Gemma 3 4B模型,采用与Glitter 12b相同的数据混合方案优化的模型
大型语言模型
Safetensors
G
allura-org
140
3
Smoldocling 256M Preview Mlx Fp16
Apache-2.0
该模型是从 ds4sd/SmolDocling-256M-preview 转换为 MLX 格式的视觉语言模型,支持图像文本到文本任务。
图像生成文本
Transformers

英语
S
ahishamm
24
1
Kaleidoscope Large V1
基于sberbank-ai/ruBert-large微调的文档问答专用模型,支持俄语和英语的文档问答任务。
问答系统
Transformers

支持多种语言
K
2KKLabs
214
2
Kaleidoscope Large V1
基于sberbank-ai/ruBert-large微调的文档问答模型,擅长从文档中提取答案,支持俄语和英语。
问答系统
Transformers

支持多种语言
K
LaciaStudio
297
0
Kaleidoscope Small V1
基于sberbank-ai/ruBert-base微调的文档问答模型,擅长从文档上下文中提取答案,支持俄语和英语。
问答系统
Transformers

支持多种语言
K
2KKLabs
98
0
Ola Image
Apache-2.0
Ola-7B是由腾讯、清华大学和南洋理工大学联合开发的多模态语言模型,基于Qwen2.5架构,支持处理图像、视频、音频和文本输入,并输出文本。
多模态融合
支持多种语言
O
THUdyh
61
3
Ola 7b
Apache-2.0
Ola-7B是由腾讯、清华大学和南洋理工大学联合开发的多模态大语言模型,基于Qwen2.5架构,支持处理文本、图像、视频和音频输入,并生成文本输出。
多模态融合
Safetensors
支持多种语言
O
THUdyh
1,020
37
Mineru
Apache-2.0
该模型能够将PDF文档转换为Markdown格式,保持原始文档排版结构,准确识别数学公式和表格。
图像生成文本
Transformers

支持多种语言
M
kitjesen
122
12
Florence 2 FT DocVQA
MIT
基于Florence-2-base微调的文档视觉问答模型,专门用于处理文档图像中的问答任务。
图像生成文本
Transformers

英语
F
sahilnishad
4,928
0
Longvu Llama3 2 1B
Apache-2.0
LongVU 是一种面向长视频语言理解的时空自适应压缩技术,旨在高效处理长视频内容,提升语言理解能力。
视频生成文本
L
Vision-CAIR
465
11
Oryx 1.5 7B
Apache-2.0
Oryx-1.5-7B是基于Qwen2.5语言模型开发的7B参数模型,支持32K tokens上下文窗口,专注于高效处理任意空间尺寸和时长的视觉输入。
文本生成视频
Safetensors
支持多种语言
O
THUdyh
133
7
Longvu Llama3 2 3B
Apache-2.0
LongVU是一种面向长视频语言理解的时空自适应压缩技术,旨在高效处理长视频内容。
视频生成文本
PyTorch
L
Vision-CAIR
1,079
7
H2ovl Mississippi 800m
Apache-2.0
H2O.ai推出的8亿参数视觉语言模型,专注于OCR和文档理解,性能优异
图像生成文本
Transformers

英语
H
h2oai
77.67k
33
Florence 2 DocVQA
基于微软Florence-2模型使用Docmatix数据集(5%数据量)微调1天的版本,适用于图像文本理解任务
文本生成图像
Transformers

F
impactframes
30
1
Pixtral 12b Nf4
Apache-2.0
基于Mistral社区Pixtral-12B的4位量化版本,专注于图像文本到文本任务,支持中文描述生成
图像生成文本
Transformers

P
SeanScripts
236
20
Florence 2 Large Florence 2 Large Nsfw Pretrain Gt
该模型是一个基于transformers库的模型,具体功能和用途需要进一步信息确认。
大型语言模型
Transformers

F
ljnlonoljpiljm
55
6
Ucmt Sam On Depth
MIT
基于PyTorch实现的掩码生成模型,通过PytorchModelHubMixin集成推送至Hub
图像分割
U
weihao1115
35
1
Ecot Openvla 7b Oxe
适用于机器人控制任务的预训练Transformer模型,支持运动规划、物体抓取等基础功能
大型语言模型
Transformers

E
Embodied-CoT
2,003
0
Florence 2 DocVQA
这是微软Florence-2模型使用Docmatix数据集(5%数据量)以1e-6学习率微调1天后的版本
文本生成图像
Transformers

F
HuggingFaceM4
3,096
60
Horus OCR
Donut 是一个基于 Transformer 的图像转文本模型,能够从图像中提取和生成文本内容。
图像生成文本
Transformers

H
TeeA
21
0
Kosmos 2 PokemonCards Trl Merged
这是一个基于微软Kosmos-2模型微调的多模态模型,专门用于识别宝可梦卡牌中的宝可梦名称。
图像生成文本
Transformers

英语
K
Mit1208
51
1
Icon Captioning Model
Bsd-3-clause
这是一个基于BLIP架构的图像描述生成模型,专门用于为图标或简单图像生成文本描述。
图像生成文本
Transformers

I
Revrse
98
5
Fine Tuned Rvl Cdip
基于microsoft/layoutlmv3-base模型在文档图像分类任务上微调的版本,在评估集上F1分数达到0.8177
文字识别
Transformers

F
davidhajdu
21
1
Interpret Cxr Impression Baseline
该模型能够将输入的医学图像(如X光片)转换为描述性文本,辅助医疗诊断。
图像生成文本
Transformers

I
IAMJB
17
0
Output LayoutLMv3 V7
基于microsoft/layoutlmv3-base微调的文档理解模型,擅长处理文档布局分析任务
文字识别
Transformers

O
Noureddinesa
18
1
Donut Base Handwriting Recognition
MIT
基于naver-clova-ix/donut-base微调的手写识别模型
文字识别
Transformers

D
Cdywalst
140
1
Llava Maid 7B DPO GGUF
LLaVA 是一个大型语言和视觉助手模型,能够处理图像和文本的多模态任务。
图像生成文本
L
megaaziib
99
4
Docllm Baichuan2 7b
DocLLM_reimplementation 是一个针对文档理解任务的大语言模型实现项目,旨在重新实现和改进文档理解能力。
大型语言模型
Transformers

D
JinghuiLuAstronaut
185
5
Chart To Table
Apache-2.0
该模型用于将图表转换为结构化表格,基于UniChart架构构建,生成的表格使用特定分隔符表示行列结构。
图像生成文本
Transformers

英语
C
khhuang
345
17
Trained Model
该模型是基于microsoft/layoutlmv2-base-uncased在generator数据集上微调的版本,适用于文档理解和布局分析任务。
大型语言模型
Transformers

T
vfu
14
0
Git Base Next Refined
MIT
基于microsoft/git-base微调的图像转文本模型
大型语言模型
Transformers

其他
G
swaroopajit
24
0
Git Base Next
MIT
基于microsoft/git-base微调的图像转文本模型
图像生成文本
Transformers

其他
G
swaroopajit
19
1
Nougat
该模型已过时,建议使用官方Nougat模型。
图像生成文本
Transformers

N
nielsr
14
4
Git Base Fashion
MIT
基于microsoft/git-base微调的图像转文本模型,适用于时尚领域
图像生成文本
Transformers

其他
G
swaroopajit
41
1
Donut Trained Example 2
MIT
基于naver-clova-ix/donut-base微调的模型,具体用途未明确说明
大型语言模型
Transformers

D
anarenteriare
13
0
Thesisdonut
MIT
基于naver-clova-ix/donut-base微调的模型,具体用途和功能需要更多信息
图像生成文本
Transformers

T
Humayoun
13
0
Wavlm Bert Fusion S Emotion Russian Resd
基于WavLM和BERT的多模态融合模型,适用于语音和文本的联合任务处理。
语音识别
Transformers

W
Aniemore
298
3
- 1
- 2
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文