M
Minicpm Embedding Light
由 openbmb 开发
该模型在多个中文和英文数据集上进行了测试,包括语义文本相似度和分类任务。
下载量 2,172
发布时间 : 1/17/2025
模型介绍
内容详情
替代品
模型简介
该模型主要用于语义文本相似度和分类任务,支持中文和英文。
模型特点
多语言支持
支持中文和英文的语义文本相似度和分类任务。
多任务能力
能够处理语义文本相似度和分类等多种任务。
模型能力
语义文本相似度计算
文本分类
多语言处理
使用案例
电子商务
亚马逊评论分类
对亚马逊商品评论进行情感分类。
英文评论分类准确率47.95%,中文评论分类准确率43.92%。
语义分析
语义文本相似度计算
计算两段文本的语义相似度。
在AFQMC数据集上余弦皮尔逊值为31.60,在ATEC数据集上为40.90。
model-index:
- name: 无可用模型名称
results:
- dataset:
config: 默认
name: MTEB AFQMC (默认)
revision: b44c3b011063adb25877c13823db83bb193913c4
split: 验证集
type: C-MTEB/AFQMC
metrics:
- type: 余弦皮尔逊 value: 31.60219205269865
- type: 余弦斯皮尔曼 value: 32.26566089398552
- type: 欧几里得皮尔逊 value: 31.38659295608159
- type: 欧几里德斯皮尔曼 value: 32.265680997074284
- type: 主评分 value: 32.26566089398552
- type: 曼哈顿皮尔逊 value: 31.012318343485934
- type: 曼哈顿斯皮尔曼 value: 31.881347232593882
- type: 皮尔逊 value: 31.60219205269865
- type: 斯皮尔曼 value: 32.26566089398552 task: type: 语义文本相似度
- dataset:
config: 默认
name: MTEB ATEC (默认)
revision: 0f319b1142f28d00e055a6770f3f726ae9b7d865
split: 测试集
type: C-MTEB/ATEC
metrics:
- type: 余弦皮尔逊 value: 40.89963324512739
- type: 余弦斯皮尔曼 value: 40.342262626966686
- type: 欧几里得皮尔逊 value: 43.26579075620696
- type: 欧几里德斯皮尔曼 value: 40.34226375259283
- type: 主评分 value: 40.342262626966686
- type: 曼哈顿皮尔逊 value: 43.09428997760782
- type: 曼哈顿斯皮尔曼 value: 40.132604575720485
- type: 皮尔逊 value: 40.89963324512739
- type: 斯皮尔曼 value: 40.342262626966686 task: type: 语义文本相似度
- dataset:
config: 默认
name: MTEB ATEC (默认)
revision: 0f319b1142f28d00e055a6770f3f726ae9b7d865
split: 验证集
type: C-MTEB/ATEC
metrics:
- type: 余弦皮尔逊 value: 40.97674579633659
- type: 余弦斯皮尔曼 value: 41.15073385665892
- type: 欧几里得皮尔逊 value: 43.12674145119401
- type: 欧几里德斯皮尔曼 value: 41.15073497290901
- type: 主评分 value: 41.15073385665892
- type: 曼哈顿皮尔逊 value: 43.016332350517416
- type: 曼哈顿斯皮尔曼 value: 40.99128368771293
- type: 皮尔逊 value: 40.97674579633659
- type: 斯皮尔曼 value: 41.15073385665892 task: type: 语义文本相似度
- dataset:
config: 英文
name: MTEB 亚马逊反事实分类 (英文)
revision: e8379541af4e31359cca9fbcf4b00f2671dba205
split: 测试集
type: mteb/amazon_counterfactual
metrics:
- type: 准确率 value: 74.1492537313433
- type: 平均精度 value: 36.58820102143676
- type: 加权平均精度 value: 36.58820102143676
- type: F1分数 value: 67.93641050300623
- type: 加权F1分数 value: 76.47946936836382
- type: 主评分 value: 74.1492537313433 task: type: 分类
- dataset:
config: 默认
name: MTEB 亚马逊极性分类 (默认)
revision: e2d317d38cd51312af73b3d32a06d1a08b442046
split: 测试集
type: mteb/amazon_polarity
metrics:
- type: 准确率 value: 92.57937499999998
- type: 平均精度 value: 89.09881932276382
- type: 加权平均精度 value: 89.09881932276382
- type: F1分数 value: 92.57389464257594
- type: 加权F1分数 value: 92.57389464257594
- type: 主评分 value: 92.57937499999998 task: type: 分类
- dataset:
config: 英文
name: MTEB 亚马逊评论分类 (英文)
revision: 1399c76144fd37290681b995c656ef9b2e06e26d
split: 测试集
type: mteb/amazon_reviews_multi
metrics:
- type: 准确率 value: 47.95399999999999
- type: F1分数 value: 45.23480325168402
- type: 加权F1分数 value: 45.23480325168403
- type: 主评分 value: 47.95399999999999 task: type: 分类
- dataset:
config: 中文
name: MTEB 亚马逊评论分类 (中文)
revision: 1399c76144fd37290681b995c656ef9b2e06e26d
split: 测试集
type: mteb/amazon_reviews_multi
metrics:
- type: 准确率 value: 43.916000000000004
- type: F1分数 value: 40.79038102586015
- type: 加权F1分数 value: 40.79038102586015
- type: 主评分 value: 43.916000000000004 task: type: 分类
- dataset:
config: 英文
name: MTEB 亚马逊评论分类 (英文)
revision: 1399c76144fd37290681b995c656ef9b2e06e26d
split: 验证集
type: mteb/amazon_reviews_multi
metrics:
- type: 准确率 value: 47.716
- type: F1分数 value: 44.97469896514136
- type: 加权F1分数 value: 44.97469896514136
- type: 主评分 value: 47.716 task: type: 分类
- dataset:
config: 中文
name: MTEB 亚马逊评论分类 (中文)
revision: 1399c76144fd37290681b995c656ef9b2e06e26d
split: 验证集
type: mteb/amazon_reviews_multi
metrics:
- type: 准确率 value: 43.016000000000005
- type: F1分数 value: 39.88062282479835
- type: 加权F1分数 value: 39.88062282479835
- type: 主评分 value: 43.016000000000005 task: type: 分类
- dataset:
config: 默认
name: MTEB ArguAna (默认)
revision: c22ab2a51041ffd869aaddef7af8d8215647e41a
split: 测试集
type: mteb/arguana
metrics:
- type: 主评分 value: 55.97299999999999
- type: 平均精度@1 value: 31.009999999999998
- type: 平均精度@10 value: 46.951
- type: 平均精度@100 value: 47.788000000000004
- type: 平均精度@1000 value: 47.794
- type: 平均精度@20 value: 47.656
- type: 平均精度@3 value: 41.69
- type: 平均精度@5 value: 44.795
- type: 平均倒数排名@1 value: 31.57894736842105
- type: 平均倒数排名@10 value: 47.150336426652245
- type: 平均倒数排名@100 value: 48.00003421265431
- type: 平均倒数排名@1000 value: 48.006517491673485
- type: 平均倒数排名@20 value: 47.86823495425013
- type: 平均倒数排名@3 value: 41.90374585111427
- type: 平均倒数排名@5 value: 45.00474158368897
- type: nauc_平均精度@1000_diff1 value: 14.400156277962079
- type: nauc_平均精度@1000_max value: -6.074701279893042
- type: nauc_平均精度@1000_std value: -12.047730490841793
- type: nauc_平均精度@100_diff1 value: 14.400167976253817
- type: nauc_平均精度@100_max value: -6.0697710559623825
- type: nauc_平均精度@100_std value: -12.03623231778573
- type: nauc_平均精度@10_diff1 value: 14.39390977335818
- type: nauc_平均精度@10_max value: -5.937292882369333
- type: nauc_平均精度@10_std value: -11.955448521986341
- type: nauc_平均精度@1_diff1 value: 18.2188090059407
- type: nauc_平均精度@1_max value: -6.90680836409332
- type: nauc_平均精度@1_std value: -11.42044016086847
- type: nauc_平均精度@20_diff1 value: 14.25797265657041
- type: nauc_平均精度@20_max value: -6.136254023725178
- type: nauc_平均精度@20_std value: -12.095812481204513
- type: nauc_平均精度@3_diff1 value: 14.694055542759067
- type: nauc_平均精度@3_max value: -5.922208526639951
- type: nauc_平均精度@3_std value: -12.637146606706324
- type: nauc_平均精度@5_diff1 value: 14.034909746881796
- type: nauc_平均精度@5_max value: -6.037648673220035
- type: nauc_平均精度@5_std value: -12.488119466760367
- type: nauc_平均倒数排名@1000_diff1 value: 12.907349893032888
- type: nauc_平均倒数排名@1000_max value: -6.476631933744489
- type: nauc_平均倒数排名@1000_std value: -12.135655638319898
- type: nauc_平均倒数排名@100_diff1 value: 12.90767904668398
- type: nauc_平均倒数排名@100_max value: -6.471625560815013
- type: nauc_平均倒数排名@100_std value: -12.124160525865376
- type: nauc_平均倒数排名@10_diff1 value: 12.898084989549307
- type: nauc_平均倒数排名@10_max value: -6.371999485392878
- type: nauc_平均倒数排名@10_std value: -12.060712822104344
- type: nauc_平均倒数排名@1_diff1 value: 16.534028417854632
- type: nauc_平均倒数排名@1_max value: -6.531221880816804
- type: nauc_平均倒数排名@1_std value: -11.427032725801363
- type: nauc_平均倒数排名@20_diff1 value: 12.772149932536516
- type: nauc_平均倒数排名@20_max value: -6.536237532046593
- type: nauc_平均倒数排名@20_std value: -12.18322445801735
- type: nauc_平均倒数排名@3_diff1 value: 13.294722540439723
- type: nauc_平均倒数排名@3_max value: -6.270285589254632
- type: nauc_平均倒数排名@3_std value: -12.590739373950477
- type: nauc_平均倒数排名@5_diff1 value: 12.701572066028916
- type: nauc_平均倒数排名@5_max value: -6.35025779804965
- type: nauc_平均倒数排名@5_std value: -12.567997847961006
- type: nauc_标准化折损累积增益@1000_diff1 value: 14.04477346308097
- type: nauc_标准化折损累积增益@1000_max value: -5.805803656284627
- type: nauc_标准化折损累积增益@1000_std value: -11.903389341799974
- type: nauc_标准化折损累积增益@100_diff1 value: 14.046024694124535
- type: nauc_标准化折损累积增益@100_max value: -5.638595406841976
- type: nauc_标准化折损累积增益@100_std value: -11.563718937605266
- type: nauc_标准化折损累积增益@10_diff1 value: 13.774482728152659
- type: nauc_标准化折损累积增益@10_max value: -5.112671934691593
- type: nauc_标准化折损累积增益@10_std value: -11.45598979914733
- type: nauc_标准化折损累积增益@1_diff1 value: 18.2188090059407
- type: nauc_标准化折损累积增益@1_max value: -6.90680836409332
- type: nauc_标准化折损累积增益@1_std value: -11.42044016086847
- type: nauc_标准化折损累积增益@20_diff1 value: 13.19308743032763
- type: nauc_标准化折损累积增益@20_max value: -5.925869069550241
- type: nauc_标准化折损累积增益@20_std value: -12.002174058926709
- type: nauc_标准化折损累积增益@3_diff1 value: 14.098445595476438
- type: nauc_标准化折损累积增益@3_max value: -5.438990657735945
- type: nauc_标准化折损累积增益@3_std value: -13.026198448199588
- type: nauc_标准化折损累积增益@5_diff1 value: 12.88769582520402
- dataset:
config: 默认
name: MTEB AFQMC (默认)
revision: b44c3b011063adb25877c13823db83bb193913c4
split: 验证集
type: C-MTEB/AFQMC
metrics:
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型
支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型
英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型
英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型
英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型
英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型
英语
O
facebook
6.3M
198
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers

支持多种语言
L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型
支持多种语言
T
google-t5
5.4M
702
Xlm Roberta Large
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
5.3M
431
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文