低资源语言处理

# 低资源语言处理

Mbart50 Saraiki News Summarization

基于mBART-50多语言模型微调的萨拉基语新闻摘要模型，支持从萨拉基语新闻内容生成简洁摘要

Transformers 其他

Aidman Wav2vec2 Large Xls R 300m Irish Colab

这是一个基于facebook/wav2vec2-xls-r-300m在通用语音数据集上微调的语音识别模型，支持爱尔兰语。

骆驼模型是一个基于变换器架构的文本生成模型，支持阿塞拜疆语，采用强化学习进行训练。

大型语言模型

Transformers 其他

Whisper Fleurs Small Te In

该模型是基于OpenAI的Whisper Small在FLEURS数据集上微调的版本，专注于语音识别任务，支持泰卢固语(te)。

Transformers 其他

Mt5 Sinhala News Finetunedv3

基于Google的mT5-small模型在僧伽罗语新闻数据上微调的文本摘要模型

Transformers 其他

基于BERT架构的小规模语言模型，专为吉尔吉斯语自然语言处理应用设计。

大型语言模型

Transformers 其他

Bodo Bart Large Summ

该模型是基于facebook/bart-large在Bodo法律摘要数据集上微调的文本摘要生成模型

基于XLM-RoBERTa-large微调的乌兹别克语命名实体识别模型，支持21种实体类型识别

Transformers 其他

Whisper Base Pl

基于OpenAI Whisper-base模型在波兰语Common Voice 17.0数据集上微调的语音识别模型

Transformers 其他

Mt5 Large HuAMR

基于google/mt5-large在匈牙利语AMR数据集上微调的抽象意义表示解析器

大型语言模型

Transformers 其他

Turkish Medical Question Answering

基于BERT架构微调的土耳其语医疗领域问答模型，专门用于从医疗文本中提取答案

Transformers 其他

Shark Finetuned Kde4 Ar En

基于Helsinki-NLP/opus-mt-ar-en在kde4数据集上微调的阿拉伯语到英语翻译模型

Opus Mt Tc Bible Big Deu Eng Fra Por Spa Mul

支持超过100种语言的通用Transformer模型，适用于多种自然语言处理任务

大型语言模型

Transformers 支持多种语言

Romaneng2nep V3

该模型是基于google/mt5-small微调的罗马化尼泊尔语到尼泊尔语文本的转换模型

Transformers 支持多种语言

Prototype Tibetan To English Translation V1

这是一个用于将藏文文学作品翻译成英文的神经机器翻译模型，有效解决藏文到英文的翻译难题。

Transformers 支持多种语言

BnTQA-mBart 是一个基于 mBART 架构的低资源孟加拉语表格问答模型，专门用于处理孟加拉语的结构化表格数据问题回答任务。

问答系统其他

Llama 3.1 Carballo

Llama-3.1-Carballo 是一款基于Transformer架构的因果语言模型，拥有80亿参数，支持加利西亚语、葡萄牙语、西班牙语、加泰罗尼亚语和英语。

大型语言模型

Transformers 支持多种语言

Bert Base Turkish Uncased Ner

基于dbmdz/bert-base-turkish-uncased微调的土耳其语命名实体识别模型

Transformers 其他

该模型为古希腊语和英语文本创建共享向量空间中的句子嵌入，基于改进的HLM架构并通过多语言知识蒸馏方法训练。

Transformers 支持多种语言

Mms Tts Div Finetuned Md F02

这是一个基于Transformer架构的语音模型，支持马尔代夫语（Dhivehi）的语音处理任务。

大型语言模型

Transformers 其他

Mt5 XLSUM Ua News

基于mT5多语言大模型在乌克兰语新闻数据集上微调的标题生成模型，能够为乌克兰语新闻文章生成简洁准确的标题。

Transformers 其他

Whisper Large V3 Telugu Romanized

基于openai/whisper-large-v3微调的罗马化泰卢固语语音识别模型

Transformers 其他

Health Qa Myanmar Mgpt Finetune V2

这是一个基于Transformer架构的缅甸语文本生成模型，支持多种文本生成任务。

大型语言模型

Transformers 其他

Whisper Sinhala Audio To Text

基于openai/whisper-small微调的僧伽罗语语音识别模型，支持将僧伽罗语语音转换为文本。

Urdu Emotions Whisper Medium

基于Whisper-medium微调的乌尔都语情感识别模型，在评估集上准确率达91.67%

Pak-Speech-Processing

MizBERT是基于米佐语文本语料库预训练的掩码语言模型（MLM），采用BERT架构，能有效学习米佐语词汇的上下文表征。

大型语言模型

Whisper Small Kyrgyz

基于Whisper架构的吉尔吉斯语自动语音识别(ASR)模型，由吉尔吉斯共和国总统下属国家语言与语言政策全国委员会支持开发

Transformers 其他

Kubert Central Kurdish BERT Model

KuBERT是基于BERT框架的中库尔德语模型，旨在解决库尔德语资源匮乏问题，提升计算语言学能力。

大型语言模型

Gibberish Sentence Detection Model Tr

该模型基于BERT架构微调，用于检测土耳其语中的无意义文本（如随机字符组合）。

Transformers 其他

English To Urdu Translation Mbart

这是一个针对英语到乌尔都语翻译任务微调的mBART模型，基于facebook/mbart-large-50架构，在定制数据集上训练完成。

Transformers 支持多种语言

Mt5 Small Amharic Text Summaization

基于google/mt5-small微调的阿姆哈拉语文本摘要模型，适用于新闻文章标题生成任务。

Nllb 200 3.3B Ct2 Int8

一个支持超过100种语言和文字系统的多语言处理模型，涵盖从主流语言到多种方言和少数民族语言

大型语言模型

Transformers 支持多种语言

Mmlw Roberta Base

基于RoBERTa架构的波兰语句子嵌入模型，专注于句子相似度计算和特征提取任务。

Transformers 其他

Nllb Clip Base Siglip

NLLB-CLIP-SigLIP 是一个结合了NLLB模型的文本编码器和SigLIP模型的图像编码器的多语言视觉语言模型，支持201种语言。

文本生成图像

一个支持多种语言的模型，特别关注非洲、亚洲和欧洲的少数民族语言。

大型语言模型支持多种语言

SERENGETI是一个覆盖517种非洲语言及方言的大规模多语言预训练模型，专注于填补非洲语言技术资源匮乏的空白。

大型语言模型

Transformers 其他

M2m100 1.2B Ft Ru Kbd 63K

基于facebook/m2m100_1.2B模型在俄语-卡巴尔达语数据集上微调的翻译模型

Transformers 其他

Sinhala Roberta Sentence Transformer

这是一个基于sentence-transformers的模型，用于将僧伽罗语句子映射到768维向量空间，支持句子相似度计算和语义搜索等任务。

Eng Nah Svo Translation

这是一个基于未知数据集从头开始训练的翻译模型，支持英语到纳瓦特尔语的翻译任务。

MLEAFIT Es2ptt5

这是一个基于T5-small架构微调的西班牙语到葡萄牙语翻译模型，在tatoeba数据集上训练，评估BLEU得分为11.2994。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24