模型介绍
内容详情
替代品
模型简介
该模型能够将句子转换为高维向量表示,适用于多种自然语言处理任务,如句子相似度计算、文本分类、信息检索等。
模型特点
高性能句子嵌入
在多个基准测试中表现出色,能够准确捕捉句子语义。
多功能应用
支持多种自然语言处理任务,包括分类、聚类、检索等。
高效特征提取
能够快速将句子转换为高维向量,便于后续处理和分析。
模型能力
句子相似度计算
文本分类
信息检索
文本聚类
特征提取
使用案例
电子商务
商品评论分类
用于对亚马逊商品评论进行情感分析(正面/负面)。
准确率:93.51%
反事实评论检测
识别亚马逊平台上的反事实评论。
准确率:75.96%
学术研究
论文聚类
对arXiv和biorxiv上的学术论文进行主题聚类。
v_measure:42.74-48.29
问答系统
重复问题识别
在AskUbuntu社区中识别重复的技术问题。
mrr:75.46
language:
- en
library_name: sentence-transformers
license: mit
pipeline_tag: sentence-similarity
tags:
- feature-extraction
- mteb
- sentence-similarity
- sentence-transformers
model-index:
- name: GIST-Embedding-v0
results:
- task:
type: Classification
dataset:
type: mteb/amazon_counterfactual
name: MTEB AmazonCounterfactualClassification (en)
config: en
split: test
revision: e8379541af4e31359cca9fbcf4b00f2671dba205
metrics:
- type: accuracy value: 75.95522388059702
- type: ap value: 38.940434354439276
- type: f1 value: 69.88686275888114
- task:
type: Classification
dataset:
type: mteb/amazon_polarity
name: MTEB AmazonPolarityClassification
config: default
split: test
revision: e2d317d38cd51312af73b3d32a06d1a08b442046
metrics:
- type: accuracy value: 93.51357499999999
- type: ap value: 90.30414241486682
- type: f1 value: 93.50552829047328
- task:
type: Classification
dataset:
type: mteb/amazon_reviews_multi
name: MTEB AmazonReviewsClassification (en)
config: en
split: test
revision: 1399c76144fd37290681b995c656ef9b2e06e26d
metrics:
- type: accuracy value: 50.446000000000005
- type: f1 value: 49.76432659699279
- task:
type: Retrieval
dataset:
type: arguana
name: MTEB ArguAna
config: default
split: test
revision: None
metrics:
- type: map_at_1 value: 38.265
- type: map_at_10 value: 54.236
- type: map_at_100 value: 54.81399999999999
- type: map_at_1000 value: 54.81700000000001
- type: map_at_3 value: 49.881
- type: map_at_5 value: 52.431000000000004
- type: mrr_at_1 value: 38.265
- type: mrr_at_10 value: 54.152
- type: mrr_at_100 value: 54.730000000000004
- type: mrr_at_1000 value: 54.733
- type: mrr_at_3 value: 49.644
- type: mrr_at_5 value: 52.32599999999999
- type: ndcg_at_1 value: 38.265
- type: ndcg_at_10 value: 62.62
- type: ndcg_at_100 value: 64.96600000000001
- type: ndcg_at_1000 value: 65.035
- type: ndcg_at_3 value: 53.691
- type: ndcg_at_5 value: 58.303000000000004
- type: precision_at_1 value: 38.265
- type: precision_at_10 value: 8.919
- type: precision_at_100 value: 0.991
- type: precision_at_1000 value: 0.1
- type: precision_at_3 value: 21.573999999999998
- type: precision_at_5 value: 15.192
- type: recall_at_1 value: 38.265
- type: recall_at_10 value: 89.189
- type: recall_at_100 value: 99.14699999999999
- type: recall_at_1000 value: 99.644
- type: recall_at_3 value: 64.723
- type: recall_at_5 value: 75.96000000000001
- task:
type: Clustering
dataset:
type: mteb/arxiv-clustering-p2p
name: MTEB ArxivClusteringP2P
config: default
split: test
revision: a122ad7f3f0291bf49cc6f4d32aa80929df69d5d
metrics:
- type: v_measure value: 48.287087887491744
- task:
type: Clustering
dataset:
type: mteb/arxiv-clustering-s2s
name: MTEB ArxivClusteringS2S
config: default
split: test
revision: f910caf1a6075f7329cdf8c1a6135696f37dbd53
metrics:
- type: v_measure value: 42.74244928943812
- task:
type: Reranking
dataset:
type: mteb/askubuntudupquestions-reranking
name: MTEB AskUbuntuDupQuestions
config: default
split: test
revision: 2000358ca161889fa9c082cb41daa8dcfb161a54
metrics:
- type: map value: 62.68814324295771
- type: mrr value: 75.46266983247591
- task:
type: STS
dataset:
type: mteb/biosses-sts
name: MTEB BIOSSES
config: default
split: test
revision: d3fb88f8f02e40887cd149695127462bbcf29b4a
metrics:
- type: cos_sim_pearson value: 90.45240209600391
- type: cos_sim_spearman value: 87.95079919934645
- type: euclidean_pearson value: 88.93438602492702
- type: euclidean_spearman value: 88.28152962682988
- type: manhattan_pearson value: 88.92193964325268
- type: manhattan_spearman value: 88.21466063329498
- task:
type: BitextMining
dataset:
type: mteb/bucc-bitext-mining
name: MTEB BUCC (de-en)
config: de-en
split: test
revision: d51519689f32196a32af33b075a01d0e7c51e252
metrics:
- type: accuracy value: 15.605427974947808
- type: f1 value: 14.989877233698866
- type: precision value: 14.77906814441261
- type: recall value: 15.605427974947808
- task:
type: BitextMining
dataset:
type: mteb/bucc-bitext-mining
name: MTEB BUCC (fr-en)
config: fr-en
split: test
revision: d51519689f32196a32af33b075a01d0e7c51e252
metrics:
- type: accuracy value: 33.38102575390711
- type: f1 value: 32.41704114719127
- type: precision value: 32.057363829835964
- type: recall value: 33.38102575390711
- task:
type: BitextMining
dataset:
type: mteb/bucc-bitext-mining
name: MTEB BUCC (ru-en)
config: ru-en
split: test
revision: d51519689f32196a32af33b075a01d0e7c51e252
metrics:
- type: accuracy value: 0.1939729823346034
- type: f1 value: 0.17832215223820772
- type: precision value: 0.17639155671715423
- type: recall value: 0.1939729823346034
- task:
type: BitextMining
dataset:
type: mteb/bucc-bitext-mining
name: MTEB BUCC (zh-en)
config: zh-en
split: test
revision: d51519689f32196a32af33b075a01d0e7c51e252
metrics:
- type: accuracy value: 3.0542390731964195
- type: f1 value: 2.762857644374232
- type: precision value: 2.6505178163945935
- type: recall value: 3.0542390731964195
- task:
type: Classification
dataset:
type: mteb/banking77
name: MTEB Banking77Classification
config: default
split: test
revision: 0fd18e25b25c072e09e0d92ab615fda904d66300
metrics:
- type: accuracy value: 87.29545454545453
- type: f1 value: 87.26415991342238
- task:
type: Clustering
dataset:
type: mteb/biorxiv-clustering-p2p
name: MTEB BiorxivClusteringP2P
config: default
split: test
revision: 65b79d1d13f80053f67aca9498d9402c2d9f1f40
metrics:
- type: v_measure value: 39.035319537839484
- task:
type: Clustering
dataset:
type: mteb/biorxiv-clustering-s2s
name: MTEB BiorxivClusteringS2S
config: default
split: test
revision: 258694dd0231531bc1fd9de6ceb52a0853c6d908
metrics:
- type: v_measure value: 36.667313307057285
- task:
type: Retrieval
dataset:
type: BeIR/cqadupstack
name: MTEB CQADupstackAndroidRetrieval
config: default
split: test
revision: None
metrics:
- type: map_at_1 value: 33.979
- type: map_at_10 value: 46.275
- type: map_at_100 value: 47.975
- type: map_at_1000 value: 48.089
- type: map_at_3 value: 42.507
- type: map_at_5 value: 44.504
- type: mrr_at_1 value: 42.346000000000004
- type: mrr_at_10 value: 53.013
- type: mrr_at_100 value: 53.717000000000006
- type: mrr_at_1000 value: 53.749
- type: mrr_at_3 value: 50.405
- type: mrr_at_5 value: 51.915
- type: ndcg_at_1 value: 42.346000000000004
- type: ndcg_at_10 value: 53.179
- type: ndcg_at_100 value: 58.458
- type: ndcg_at_1000 value: 60.057
- type: ndcg_at_3 value: 48.076
- type: ndcg_at_5 value: 50.283
- type: precision_at_1 value: 42.346000000000004
- type: precision_at_10 value: 10.386
- type: precision_at_100 value: 1.635
- type: precision_at_1000 value: 0.206000000000
- task:
type: Classification
dataset:
type: mteb/amazon_counterfactual
name: MTEB AmazonCounterfactualClassification (en)
config: en
split: test
revision: e8379541af4e31359cca9fbcf4b00f2671dba205
metrics:
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文