一个支持多语言的文本向量化模型,专注于句子相似度计算和特征提取任务
下载量 17
发布时间 : 9/20/2023
模型介绍
内容详情
替代品
模型简介
该模型是一个多语言文本嵌入模型,能够将不同语言的文本转换为向量表示,主要用于句子相似度计算、文本分类和聚类等任务。支持包括中文、英文、德语、法语等多种语言。
模型特点
多语言支持
支持包括中文、英文、德语、法语等多种语言的文本向量化
句子相似度计算
专门优化用于计算不同句子之间的语义相似度
跨语言能力
能够处理跨语言的文本相似度比较任务
高效特征提取
可以快速提取文本的语义特征表示
模型能力
文本向量化
句子相似度计算
跨语言文本比较
文本特征提取
文本分类
文本聚类
使用案例
电子商务
多语言评论分类
对亚马逊不同语言的商品评论进行分类
在MTEB亚马逊多语言评论分类任务中,英文准确率33.13%,中文准确率32.52%
评论极性分析
分析商品评论的情感极性(正面/负面)
在MTEB亚马逊极性分类任务中准确率达到66.10%
意图识别
多语言意图分类
识别用户查询的意图类别
在MTEB MTOP意图分类任务中,英文准确率62.79%,德语55.29%
学术研究
论文聚类
对学术论文进行主题聚类
在MTEB arXiv论文聚类P2P任务中V测量值32.32%
pipeline_tag: 句子相似度 license: apache-2.0 tags:
- 文本向量化
- 特征提取
- 句子相似度
- 变换器
- 多语言文本嵌入基准 datasets:
-
- 中文
- 英文
- 德语
- 法语
- 意大利语
- 荷兰语
- 葡萄牙语
- 波兰语
- 俄语 metrics:
- 斯皮尔曼相关系数 library_name: transformers model-index:
- name: 多语言基础版文本向量模型
results:
- task:
type: 分类
dataset:
type: 反事实亚马逊评论分类数据集
name: MTEB亚马逊反事实分类(英文)
config: 英文
split: 测试集
revision: e8379541af4e31359cca9fbcf4b00f2671dba205
metrics:
- type: 准确率 value: 70.97014925373134
- type: 平均精度 value: 33.95151328318672
- type: F1分数 value: 65.14740155705596
- task:
type: 分类
dataset:
type: 反事实亚马逊评论分类数据集
name: MTEB亚马逊反事实分类(德语)
config: 德语
split: 测试集
revision: e8379541af4e31359cca9fbcf4b00f2671dba205
metrics:
- type: 准确率 value: 68.69379014989293
- type: 平均精度 value: 79.68277579733802
- type: F1分数 value: 66.54960052336921
- task:
type: 分类
dataset:
type: 反事实亚马逊评论分类数据集
name: MTEB亚马逊反事实分类(英文扩展版)
config: 英文扩展版
split: 测试集
revision: e8379541af4e31359cca9fbcf4b00f2671dba205
metrics:
- type: 准确率 value: 70.90704647676162
- type: 平均精度 value: 20.747518928580437
- type: F1分数 value: 58.64365465884924
- task:
type: 分类
dataset:
type: 反事实亚马逊评论分类数据集
name: MTEB亚马逊反事实分类(日语)
config: 日语
split: 测试集
revision: e8379541af4e31359cca9fbcf4b00f2671dba205
metrics:
- type: 准确率 value: 61.605995717344754
- type: 平均精度 value: 14.135974879487028
- type: F1分数 value: 49.980224800472136
- task:
type: 分类
dataset:
type: 亚马逊评论极性分类数据集
name: MTEB亚马逊极性分类
config: 默认
split: 测试集
revision: e2d317d38cd51312af73b3d32a06d1a08b442046
metrics:
- type: 准确率 value: 66.103375
- type: 平均精度 value: 61.10087197664471
- type: F1分数 value: 65.75198509894145
- task:
type: 分类
dataset:
type: 多语言亚马逊评论数据集
name: MTEB亚马逊多语言评论分类(英文)
config: 英文
split: 测试集
revision: 1399c76144fd37290681b995c656ef9b2e06e26d
metrics:
- type: 准确率 value: 33.134
- type: F1分数 value: 32.7905397597083
- task:
type: 分类
dataset:
type: 多语言亚马逊评论数据集
name: MTEB亚马逊多语言评论分类(德语)
config: 德语
split: 测试集
revision: 1399c76144fd37290681b995c656ef9b2e06e26d
metrics:
- type: 准确率 value: 33.388
- type: F1分数 value: 33.190561196873084
- task:
type: 分类
dataset:
type: 多语言亚马逊评论数据集
name: MTEB亚马逊多语言评论分类(西班牙语)
config: 西班牙语
split: 测试集
revision: 1399c76144fd37290681b995c656ef9b2e06e26d
metrics:
- type: 准确率 value: 34.824
- type: F1分数 value: 34.297290157740726
- task:
type: 分类
dataset:
type: 多语言亚马逊评论数据集
name: MTEB亚马逊多语言评论分类(法语)
config: 法语
split: 测试集
revision: 1399c76144fd37290681b995c656ef9b2e06e26d
metrics:
- type: 准确率 value: 33.449999999999996
- type: F1分数 value: 33.08017234412433
- task:
type: 分类
dataset:
type: 多语言亚马逊评论数据集
name: MTEB亚马逊多语言评论分类(日语)
config: 日语
split: 测试集
revision: 1399c76144fd37290681b995c656ef9b2e06e26d
metrics:
- type: 准确率 value: 30.046
- type: F1分数 value: 29.857141661482228
- task:
type: 分类
dataset:
type: 多语言亚马逊评论数据集
name: MTEB亚马逊多语言评论分类(中文)
config: 中文
split: 测试集
revision: 1399c76144fd37290681b995c656ef9b2e06e26d
metrics:
- type: 准确率 value: 32.522
- type: F1分数 value: 31.854699911472174
- task:
type: 聚类
dataset:
type: 论文点对点聚类数据集
name: MTEB arXiv论文聚类P2P
config: 默认
split: 测试集
revision: a122ad7f3f0291bf49cc6f4d32aa80929df69d5d
metrics:
- type: V测量值 value: 32.31918856561886
- task:
type: 聚类
dataset:
type: 论文句子对句子聚类数据集
name: MTEB arXiv论文聚类S2S
config: 默认
split: 测试集
revision: f910caf1a6075f7329cdf8c1a6135696f37dbd53
metrics:
- type: V测量值 value: 25.503481615956137
- task:
type: 重排序
dataset:
type: AskUbuntu重复问题重排序数据集
name: MTEB AskUbuntu重复问题
config: 默认
split: 测试集
revision: 2000358ca161889fa9c082cb41daa8dcfb161a54
metrics:
- type: 平均精度均值 value: 57.91471462820568
- type: 平均倒数排名 value: 71.82990370663501
- task:
type: 语义文本相似度
dataset:
type: BIOSSES语义相似度数据集
name: MTEB BIOSSES
config: 默认
split: 测试集
revision: d3fb88f8f02e40887cd149695127462bbcf29b4a
metrics:
- type: 余弦相似度皮尔逊系数 value: 68.83853315193127
- type: 余弦相似度斯皮尔曼系数 value: 66.16174850417771
- type: 欧氏距离皮尔逊系数 value: 56.65313897263153
- type: 欧氏距离斯皮尔曼系数 value: 52.69156205876939
- type: 曼哈顿距离皮尔逊系数 value: 56.97282154658304
- type: 曼哈顿距离斯皮尔曼系数 value: 53.167476517261015
- task:
type: 分类
dataset:
type: 银行77分类数据集
name: MTEB Banking77分类
config: 默认
split: 测试集
revision: 0fd18e25b25c072e09e0d92ab615fda904d66300
metrics:
- type: 准确率 value: 78.08441558441558
- type: F1分数 value: 77.99825264827898
- task:
type: 聚类
dataset:
type: 生物预印本点对点聚类数据集
name: MTEB生物预印本聚类P2P
config: 默认
split: 测试集
revision: 65b79d1d13f80053f67aca9498d9402c2d9f1f40
metrics:
- type: V测量值 value: 28.98583420521256
- task:
type: 聚类
dataset:
type: 生物预印本句子对句子聚类数据集
name: MTEB生物预印本聚类S2S
config: 默认
split: 测试集
revision: 258694dd0231531bc1fd9de6ceb52a0853c6d908
metrics:
- type: V测量值 value: 23.195091778460892
- task:
type: 分类
dataset:
type: 情感分类数据集
name: MTEB情感分类
config: 默认
split: 测试集
revision: 4f58c6b202a23cf9a4da393831edf4f9183cad37
metrics:
- type: 准确率 value: 43.35
- type: F1分数 value: 38.80269436557695
- task:
type: 分类
dataset:
type: IMDB影评分类数据集
name: MTEB IMDB分类
config: 默认
split: 测试集
revision: 3d86128a09e091d6018b6d26cad27f2739fc2db7
metrics:
- type: 准确率 value: 59.348
- type: 平均精度 value: 55.75065220262251
- type: F1分数 value: 58.72117519082607
- task:
type: 分类
dataset:
type: 多语言MTOP领域分类数据集
name: MTEB MTOP领域分类(英文)
config: 英文
split: 测试集
revision: d80d48c1eb48d3562165c59d59d0034df9fff0bf
metrics:
- type: 准确率 value: 81.04879160966712
- type: F1分数 value: 80.86889779192701
- task:
type: 分类
dataset:
type: 多语言MTOP领域分类数据集
name: MTEB MTOP领域分类(德语)
config: 德语
split: 测试集
revision: d80d48c1eb48d3562165c59d59d0034df9fff0bf
metrics:
- type: 准确率 value: 78.59397013243168
- type: F1分数 value: 77.09902761555972
- task:
type: 分类
dataset:
type: 多语言MTOP领域分类数据集
name: MTEB MTOP领域分类(西班牙语)
config: 西班牙语
split: 测试集
revision: d80d48c1eb48d3562165c59d59d0034df9fff0bf
metrics:
- type: 准确率 value: 79.24282855236824
- type: F1分数 value: 78.75883867079015
- task:
type: 分类
dataset:
type: 多语言MTOP领域分类数据集
name: MTEB MTOP领域分类(法语)
config: 法语
split: 测试集
revision: d80d48c1eb48d3562165c59d59d0034df9fff0bf
metrics:
- type: 准确率 value: 76.16661446915127
- type: F1分数 value: 76.30204722831901
- task:
type: 分类
dataset:
type: 多语言MTOP领域分类数据集
name: MTEB MTOP领域分类(印地语)
config: 印地语
split: 测试集
revision: d80d48c1eb48d3562165c59d59d0034df9fff0bf
metrics:
- type: 准确率 value: 78.74506991753317
- type: F1分数 value: 77.50560442779701
- task:
type: 分类
dataset:
type: 多语言MTOP领域分类数据集
name: MTEB MTOP领域分类(泰语)
config: 泰语
split: 测试集
revision: d80d48c1eb48d3562165c59d59d0034df9fff0bf
metrics:
- type: 准确率 value: 77.67088607594937
- type: F1分数 value: 77.21442956887493
- task:
type: 分类
dataset:
type: 多语言MTOP意图分类数据集
name: MTEB MTOP意图分类(英文)
config: 英文
split: 测试集
revision: ae001d0e6b1228650b7bd1c2c65fb50ad11a8aba
metrics:
- type: 准确率 value: 62.786137710898316
- type: F1分数 value: 46.23474201126368
- task:
type: 分类
dataset:
type: 多语言MTOP意图分类数据集
name: MTEB MTOP意图分类(德语)
config: 德语
split: 测试集
revision: ae001d0e6b1228650b7bd1c2c65fb50ad11a8aba
metrics:
- type: 准确率 value: 55.285996055226825
- type: F1分数 value: 37.98039513682919
- task:
type: 分类
dataset:
type: 多语言MTOP意图分类数据集
name: MTEB MTOP意图分类(西班牙语)
config: 西班牙语
split: 测试集
revision: ae001d0e6b1228650b7bd1c2c65fb50ad11a8aba
metrics:
- type: 准确率 value: 58.67911941294196
- type: F1分数 value: 40.541410807124954
- task:
type: 分类
dataset:
type: 多语言MTOP意图分类数据集
name: MTEB MTOP意图分类(法语)
config: 法语
split: 测试集
revision: ae001d0e6b1228650b7bd1c2c65fb50ad11a8aba
metrics:
- type: 准确率 value: 53.257124960851854
- type: F1分数 value: 38.42982319259366
- task:
type: 分类
dataset:
type: 多语言MTOP意图分类数据集
name: MTEB MTOP意图分类(印地语)
config: 印地语
split: 测试集
revision: ae001d0e6b1228650b7bd1c2c65fb50ad11a8aba
metrics:
- type: 准确率 value: 59.62352097525995
- type: F1分数 value: 41.28886486568534
- task:
type: 分类
dataset:
type: 多语言MTOP意图分类数据集
name: MTEB MTOP意图分类(泰语)
config: 泰语
split: 测试集
revision: ae001d0e6b1228650b7bd1c2c65fb50ad11a8aba
metrics:
- type: 准确率 value: 58.799276672694404
- type: F1分数 value: 43.68379466247341
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(南非荷兰语)
config: 南非荷兰语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 45.42030934767989
- type: F1分数 value: 44.12201543566376
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(阿姆哈拉语)
config: 阿姆哈拉语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 37.67652992602556
- type: F1分数 value: 35.422091900843164
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(阿拉伯语)
config: 阿拉伯语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 45.02353732347007
- type: F1分数 value: 41.852484084738194
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(阿塞拜疆语)
config: 阿塞拜疆语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 48.70880968392737
- type: F1分数 value: 46.904360615435046
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(孟加拉语)
config: 孟加拉语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 43.78950907868191
- type: F1分数 value: 41.58872353920405
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(威尔士语)
config: 威尔士语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 28.759246805648957
- type: F1分数 value: 27.41182001374226
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(丹麦语)
config: 丹麦语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 56.74176193678547
- type: F1分数 value: 53.82727354182497
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(德语)
config: 德语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 51.55682582380632
- type: F1分数 value: 49.41963627941866
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(希腊语)
config: 希腊语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 56.46940147948891
- type: F1分数 value: 55.28178711367465
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(英语)
config: 英语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 63.83322125084063
- type: F1分数 value: 61.836172900845554
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(西班牙语)
config: 西班牙语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 58.27505043712172
- type: F1分数 value: 57.642436374361154
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(波斯语)
config: 波斯语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 59.05178211163417
- type: F1分数 value: 56.858998820504056
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(芬兰语)
config: 芬兰语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 57.357094821788834
- type: F1分数 value: 54.79711189260453
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(法语)
config: 法语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 58.79959650302623
- type: F1分数 value: 57.59158671719513
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(希伯来语)
config: 希伯来语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 51.1768661735037
- type: F1分数 value: 48.886397276270515
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(印地语)
config: 印地语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 57.06455951580362
- type: F1分数 value: 55.01530952684585
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(匈牙利语)
config: 匈牙利语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 58.3591123066577
- type: F1分数 value: 55.9277783370191
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(亚美尼亚语)
config: 亚美尼亚语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 52.108271687962336
- type: F1分数 value: 51.195023400664596
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(印尼语)
config: 印尼语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 58.26832548755883
- type: F1分数 value: 56.60774065423401
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(冰岛语)
config: 冰岛语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 35.806993947545394
- type: F1分数 value: 34.290418953173294
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(意大利语)
config: 意大利语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 58.27841291190315
- type: F1分数 value: 56.9438998642419
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(日语)
config: 日语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 60.78009414929389
- type: F1分数 value: 59.15780842483667
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(爪哇语)
config: 爪哇语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 31.153328850033624
- type: F1分数 value: 30.11004596099605
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(格鲁吉亚语)
config: 格鲁吉亚语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 44.50235373234701
- type: F1分数 value: 44.040585262624745
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(高棉语)
config: 高棉语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 40.99193006052455
- type: F1分数 value: 39.505480119272484
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(卡纳达语)
config: 卡纳达语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 46.95696032279758
- type: F1分数 value: 43.093638940785326
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(韩语)
config: 韩语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 54.73100201748486
- type: F1分数 value: 52.79750744404114
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(拉脱维亚语)
config: 拉脱维亚语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 54.865501008742434
- type: F1分数 value: 53.64798408964839
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(马拉雅拉姆语)
config: 马拉雅拉姆语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 47.891728312037664
- type: F1分数 value: 45.261229414636055
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(蒙古语)
config: 蒙古语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 52.2259583053127
- type: F1分数 value: 50.5903419246987
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(马来语)
config: 马来语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 54.277067921990586
- type: F1分数 value: 52.472042479965886
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(缅甸语)
config: 缅甸语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 51.95696032279757
- type: F1分数 value: 49.79330411854258
- task:
type: 分类
dataset:
type: 亚马逊大规模意图分类数据集
name: MTEB大规模意图分类(挪威书面语)
config: 挪威书面语
split: 测试集
revision: 31efe3c427b0bae9c22cbb560b8f15491cc6bed7
metrics:
- type: 准确率 value: 54.63685272360457
- type: F1分数 value: 52.81267480650003
- task:
type: 分类
dataset:
type: 反事实亚马逊评论分类数据集
name: MTEB亚马逊反事实分类(英文)
config: 英文
split: 测试集
revision: e8379541af4e31359cca9fbcf4b00f2671dba205
metrics:
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文