模型简介
该模型基于 BLOOM-7b1 架构,专门针对句子相似度和特征提取任务进行了优化。它在 MTEB (Massive Text Embedding Benchmark) 的各种任务上进行了评估,包括分类、聚类、检索和双语文本挖掘等。
模型特点
多语言支持
支持多种语言处理,包括英文、德文、西班牙文、法文、日文和中文等。
多功能任务处理
能够处理多种自然语言处理任务,包括句子相似度计算、特征提取、分类、聚类和检索等。
大规模基准测试
在 MTEB (Massive Text Embedding Benchmark) 的各种任务上进行了全面评估。
模型能力
句子相似度计算
特征提取
文本分类
文本聚类
信息检索
双语文本挖掘
使用案例
电子商务
产品评论分类
对亚马逊等电商平台的产品评论进行分类和分析。
在 MTEB Amazon 评论分类任务中,英文准确率达到 33.86%,德文 29.70%,西班牙文 35.97%,法文 35.92%,日文 27.64%,中文 32.63%
反事实分类
识别和分析电商平台上的反事实评论。
在 MTEB Amazon 反事实分类任务中,英文准确率 68.06%,德文 61.35%,日文 58.23%
学术研究
学术论文聚类
对 arXiv 和 Biorxiv 上的学术论文进行聚类分析。
在 Arxiv 聚类 P2P 任务中 V 度量 44.59,S2S 任务中 38.03;Biorxiv 聚类 P2P 任务中 V 度量 36.03,S2S 任务中 32.48
问答系统
重复问题识别
识别问答平台上的重复问题。
在 AskUbuntu 重复问题重排序任务中,平均精度 59.97%,平均倒数排名 73.18%
跨语言信息检索
双语文本对齐
识别不同语言间的平行文本。
在 BUCC 双语文本挖掘任务中,德-英准确率 54.28%,法-英 97.34%,俄-英 46.05%,中-英 98.10%
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文