多源数据训练

# 多源数据训练

一个基于Keras框架构建的卷积神经网络（CNN），专用于从64×64灰度图像中识别单个日文字符，支持手写体与印刷体识别。

文字识别日语

Navaistt V1 Medium

基于Whisper medium模型微调的乌兹别克语语音识别模型，支持塔什干方言，训练数据约700小时

语音识别其他

Ko Reranker V1.1

基于Alibaba-NLP/gte-multilingual-reranker-base微调的韩语重排序模型，适用于搜索、问答等场景的文本相关性优化

文本嵌入支持多种语言

Kategoriopoiitis Ellinikon Poikilion

一个基于GreekBERT的文本分类器，用于将希腊语文本分类为四种变体：古代/中世纪希腊语、标准现代希腊语、通俗希腊语和纯正希腊语。

文本分类其他

kazRush-kk-ru 是一个基于T5配置的哈萨克语到俄语的翻译模型，在多个平行数据集上训练而成。

Transformers 其他

Skywork Critic Llama 3.1 8B

天工评判系列模型是先进的评判模型，擅长进行成对偏好评估，能够对输入的一对内容进行比较和评估，给出细致的判断。

大型语言模型

基于GPT-2微调的文本分类模型，用于区分AI生成文本、知乎用户回答文本和其他来源文本。

文本分类中文

Real3D是一个基于TripoSR架构的2D到3D映射Transformer模型，通过无监督自训练和自动数据筛选扩展了真实世界图像的处理能力。

Turkish Llama 8b V0.1

基于LLaMA-3 8B模型，使用30GB土耳其语数据集进行完整微调的土耳其语文本生成模型

大型语言模型

Transformers 其他

Music Large 800k

这是一个拥有7.8亿参数的大型Transformer模型，专门用于音乐生成和转录任务，采用前瞻性训练方法。

Distill Whisper Th Medium

基于Whisper架构的蒸馏版自动语音识别模型，专为泰语优化，性能与效率兼备

Russian Text Normalizer

基于FRED-T5-large微调的俄语文本规范化模型，支持数字和拉丁字符的规范化处理

大型语言模型

Transformers 其他

Bert Fda Nutrition Ner

这是一个专门为营养标签领域的命名实体识别(NER)设计的BERT模型，用于检测和分类不同的营养成分。

Transformers 英语

Titulm Mpt 1b V1.0

TituLM-1B-BN-V1 是一个专为生成和理解孟加拉语文本而训练的大型语言模型，基于包含45.1亿孟加拉语标记的数据集进行了广泛训练。

大型语言模型

Transformers 其他

Hamsa V0.1 Beta

Hamsa是基于Whisper模型构建的阿拉伯语语音识别模型，专注于中东和北非地区的语言需求。

Transformers 阿拉伯语

基于ELECTRA架构的文本分类模型，用于检测文本中的自杀倾向表达

Transformers 英语

Lodestone Base 4096 V1

由Hum开发的sentence-transformers模型，支持4096 tokens长文本嵌入，适用于语义搜索和聚类任务

文本嵌入英语

UniNER系列中的最优版本，融合了三大数据来源的命名实体识别模型

Transformers 英语

Trocr Base Printed Fr

基于Transformer的法语印刷体OCR模型，填补了TrOCR模型法语版本的空白

图像生成文本

Transformers 法语

Roberta Fact Check

基于Roberta架构的文本分类模型，用于根据证据判断断言的真伪。

Deberta V1 Distill

针对俄语预训练的双向编码器模型，通过标准掩码语言建模目标在大规模文本语料上训练完成

大型语言模型

Transformers 支持多种语言

Google Safesearch Mini V2

超高精度的多类图像分类器，可准确检测敏感内容

Dutch Sarcasm Detector

基于BERT架构的荷兰语文本分类模型，用于检测新闻标题中的讽刺内容

Transformers 其他

Japanese Gpt Neox Small

基于GPT-NeoX架构的小型日语语言模型，支持文本生成任务

大型语言模型

Transformers 支持多种语言

Wav2vec2 Large Chinese Zh Cn

基于XLSR-53大模型微调的中文语音识别模型，支持16kHz采样率的语音输入

Transformers 中文

Bert Base Swedish Cased Ner

瑞典国家图书馆/KBLab发布的瑞典语BERT基础模型，基于多源文本训练

大型语言模型其他

Bert Base Swedish Cased

瑞典国家图书馆/KBLab发布的瑞典语BERT基础模型，基于多源文本训练

大型语言模型其他

Deberta V3 Base Finetuned Finance Text Classification

基于microsoft/deberta-v3-base微调的金融文本情感分析模型，专门用于分析财经新闻和市场情绪

基于保加利亚语使用掩码语言建模（MLM）目标预训练的模型，区分大小写。

大型语言模型

Transformers 其他

Multi Qa V1 Distilbert Mean Cos

基于DistilBERT的句子嵌入模型，专为问答相似度任务优化，通过对比学习在多种问答数据集上微调

flax-sentence-embeddings

AlephBERT 是一个针对希伯来语的尖端语言模型，基于谷歌的BERT架构，专门为处理希伯来语文本设计。

大型语言模型

Transformers 其他

Wav2vec2 Large Xlsr Catala

基于facebook/wav2vec2-large-xlsr-53模型微调的加泰罗尼亚语自动语音识别模型

语音识别其他

Roberta Small Bulgarian

这是一个精简版的保加利亚语RoBERTa模型，仅包含6个隐藏层，但保持了相近的性能表现。

大型语言模型其他

Wav2vec2 Large 100k Voxpopuli Catala

基于facebook/wav2vec2-large-100k-voxpopuli模型微调的加泰罗尼亚语语音识别模型

语音识别其他

Wav2vec2 Large Xlsr 53 Finnish

基于XLSR-53大模型微调的芬兰语语音识别模型，支持16kHz音频输入

语音识别其他

当前最先进的希伯来语语言模型，基于BERT架构

大型语言模型其他

Wav2vec2 Xls R 300m Cv6 Turkish

基于facebook/wav2vec2-xls-r-300m微调的土耳其语自动语音识别模型

Transformers 其他

Rubertconv Toxic Clf

基于rubert-base-cased-conversational模型的俄语毒性文本分类器

Transformers 其他

Distilgpt2 Base Pretrained He

基于GPT2架构的微型希伯来文本生成模型，通过TPU和GPU训练完成

大型语言模型其他

Bert Tagalog Base Uncased

这是一个针对他加禄语（Tagalog）的预训练语言模型，基于多源数据训练而成，适用于自然语言处理任务。

大型语言模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24