网页端适配

# 网页端适配

Qwen3 1.7B ONNX

Qwen3-1.7B 是阿里云推出的1.7B参数规模的开源大语言模型，基于Transformer架构，支持多种自然语言处理任务。

大型语言模型

LaMini-Flan-T5-783M 是一个基于T5架构的轻量级文本生成模型，支持英语、俄语和乌克兰语，适用于多种自然语言处理任务。

大型语言模型

Transformers 支持多种语言

Nsfw Image Detection

用于检测图像是否包含不适宜工作场所（NSFW）内容的模型，支持网页端部署

Whisper Large V3 Turbo

基于ONNX格式优化的Whisper大型语音识别模型，专为网页端部署设计

Hiera Small 224 Hf

Hiera是一种高效的视觉Transformer模型，专为图像分类任务设计，具有较小的参数量和高效的计算性能。

Timesformer Base Finetuned K600

TimeSformer 是一个基于 Transformer 架构的视频理解模型，专门用于处理视频分类任务。

Whisper Base.en

Whisper是一个通用的语音识别模型，由OpenAI训练。该模型基于大规模弱监督训练，支持多种语言的语音转录。

Whisper是一个自动语音识别(ASR)系统，由OpenAI训练，支持多语言语音转录。

MusicGen Small 是一个基于 Transformer 架构的音乐生成模型，能够根据文本描述生成高质量的音乐片段。

基于 YOLOv9 的目标检测模型，适配 Transformers.js，支持在浏览器中运行

基于 YOLOv9 (GELAN-C) 架构的目标检测模型，专为 Transformers.js 优化的 ONNX 版本

Depth Anything Large Hf

基于Transformers.js的深度估计模型ONNX版本，适用于网页端应用

Hubert Base Superb Ks

基于HuBERT架构的语音指令识别模型，专为关键词识别任务优化

DINOv2是Facebook Research发布的视觉模型，通过自监督学习提取通用视觉特征，适用于多种下游任务。

Owlvit Base Patch32

OWL-ViT是一个基于视觉Transformer的零样本目标检测模型，能够在不进行微调的情况下检测新类别的物体。

Dpt Hybrid Midas

Intel开发的混合深度估计模型，结合了卷积神经网络和Transformer架构的优势

Nougat是一个基于视觉的学术文档理解模型，能够将科学PDF图像转换为Markdown格式文本。

图像生成文本

Trocr Base Printed

TrOCR是基于Transformer的OCR模型，专门用于识别印刷体文本。

Trocr Small Printed

TrOCR-small-printed 是一个小型的光学字符识别（OCR）模型，专门用于识别印刷体文本。

Distilbart Cnn 12 6

DistilBART-CNN-12-6是BART模型的蒸馏版本，专为文本摘要任务优化，体积更小但保持较高性能。

YOLOS是基于Transformer架构的目标检测模型，专为高效处理视觉任务而设计。

YOLOS-small 是一个基于 Transformer 架构的小型目标检测模型，专为高效视觉任务设计。

Deberta V3 Large Tasksource Nli

基于DeBERTa-v3-large架构的自然语言推理模型，适配Transformers.js的ONNX权重版

Nli Deberta Base

基于DeBERTa架构的自然语言推理(NLI)模型，适用于零样本分类任务，已转换为ONNX格式以兼容Transformers.js

Deberta V3 Base Mnli Fever Anli

基于DeBERTa-v3的零样本分类模型，支持多任务自然语言推理（MNLI）、FEVER和ANLI任务，已转换为ONNX格式以适配Transformers.js

大型语言模型

Nli Deberta V3 Small

基于DeBERTa-v3的小型自然语言推理模型，适用于零样本分类任务

E5-small-v2 是一个高效的文本嵌入模型，适用于多种自然语言处理任务。

Wav2vec2 Base Superb Ks

基于wav2vec2架构的音频分类模型，适用于关键词检测任务

Wav2vec2 Base 960h

基于Facebook wav2vec2-base-960h模型的ONNX格式转换版本，专为Transformers.js设计，支持浏览器端语音识别

MMS-LID-4017 是一个支持4017种语言的语音识别模型，由Facebook开发，专注于语言识别任务。

MMS-LID-126 是 Facebook 发布的多语言语音识别模型，支持 126 种语言的识别。

Ast Finetuned Speech Commands V2

基于AST架构的语音命令识别模型，专为网页端部署优化的ONNX格式版本

Ast Finetuned Audioset 10 10 0.4593

基于AudioSet数据集微调的音频谱图变换器(AST)模型，用于音频分类任务

Whisper Medium 是 OpenAI 开发的中等规模语音识别模型，支持多种语言的自动语音识别（ASR）任务。

Detr Resnet 101

基于Transformer架构的端到端目标检测模型，结合ResNet-101特征提取器

Whisper Small 是 OpenAI 开发的一个小型自动语音识别（ASR）模型，能够将语音转换为文本。

Whisper是一个自动语音识别(ASR)系统，由OpenAI训练，支持多种语言的语音转文本任务。

基于BART架构的大型文本摘要模型，专为CNN/DailyMail数据集优化

Whisper Tiny.en

OpenAI Whisper-tiny.en 模型的 ONNX 权重版本，专为 Transformers.js 设计，用于英语语音转录。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24