G
Gte Tiny
由 TaylorAI 开发
GTE Tiny 是一个小型通用文本嵌入模型,适用于多种自然语言处理任务。
下载量 74.46k
发布时间 : 10/5/2023
模型介绍
内容详情
替代品
模型简介
GTE Tiny 是一个高效的文本嵌入模型,支持多种文本相关任务,包括分类、聚类、检索和语义相似度计算等。
模型特点
多任务支持
支持多种文本相关任务,包括分类、聚类、检索和语义相似度计算。
高效性能
在多个基准测试中表现良好,尤其是在分类和检索任务上。
轻量级
模型规模较小,适合资源有限的环境。
模型能力
文本分类
文本聚类
文本检索
语义相似度计算
文本嵌入生成
使用案例
电子商务
亚马逊评论分类
对亚马逊商品评论进行情感分类。
准确率86.61%,F1分数86.59%
亚马逊反事实分类
识别亚马逊商品评论中的反事实陈述。
准确率71.76%,F1分数65.89%
金融
银行客服分类
对银行客服请求进行分类。
准确率81.73%,F1分数81.66%
学术研究
论文聚类
对arXiv和biorxiv论文进行主题聚类。
v_measure得分36.01-46.64
问答系统
技术问答检索
在技术问答社区中检索相关问题。
MAP@10得分36.39-40.47
model-index:
- name: gte_tiny
results:
- task:
type: Classification
dataset:
type: mteb/amazon_counterfactual
name: MTEB AmazonCounterfactualClassification (en)
config: en
split: test
revision: e8379541af4e31359cca9fbcf4b00f2671dba205
metrics:
- type: accuracy value: 71.76119402985076
- type: ap value: 34.63659287952359
- type: f1 value: 65.88939512571113
- task:
type: Classification
dataset:
type: mteb/amazon_polarity
name: MTEB AmazonPolarityClassification
config: default
split: test
revision: e2d317d38cd51312af73b3d32a06d1a08b442046
metrics:
- type: accuracy value: 86.61324999999998
- type: ap value: 81.7476302802319
- type: f1 value: 86.5863470912001
- task:
type: Classification
dataset:
type: mteb/amazon_reviews_multi
name: MTEB AmazonReviewsClassification (en)
config: en
split: test
revision: 1399c76144fd37290681b995c656ef9b2e06e26d
metrics:
- type: accuracy value: 42.61000000000001
- type: f1 value: 42.2217180000715
- task:
type: Retrieval
dataset:
type: arguana
name: MTEB ArguAna
config: default
split: test
revision: None
metrics:
- type: map_at_1 value: 28.377999999999997
- type: map_at_10 value: 44.565
- type: map_at_100 value: 45.48
- type: map_at_1000 value: 45.487
- type: map_at_3 value: 39.841
- type: map_at_5 value: 42.284
- type: mrr_at_1 value: 29.445
- type: mrr_at_10 value: 44.956
- type: mrr_at_100 value: 45.877
- type: mrr_at_1000 value: 45.884
- type: mrr_at_3 value: 40.209
- type: mrr_at_5 value: 42.719
- type: ndcg_at_1 value: 28.377999999999997
- type: ndcg_at_10 value: 53.638
- type: ndcg_at_100 value: 57.354000000000006
- type: ndcg_at_1000 value: 57.513000000000005
- type: ndcg_at_3 value: 43.701
- type: ndcg_at_5 value: 48.114000000000004
- type: precision_at_1 value: 28.377999999999997
- type: precision_at_10 value: 8.272
- type: precision_at_100 value: 0.984
- type: precision_at_1000 value: 0.1
- type: precision_at_3 value: 18.303
- type: precision_at_5 value: 13.129
- type: recall_at_1 value: 28.377999999999997
- type: recall_at_10 value: 82.717
- type: recall_at_100 value: 98.43499999999999
- type: recall_at_1000 value: 99.644
- type: recall_at_3 value: 54.908
- type: recall_at_5 value: 65.647
- task:
type: Clustering
dataset:
type: mteb/arxiv-clustering-p2p
name: MTEB ArxivClusteringP2P
config: default
split: test
revision: a122ad7f3f0291bf49cc6f4d32aa80929df69d5d
metrics:
- type: v_measure value: 46.637318326729876
- task:
type: Clustering
dataset:
type: mteb/arxiv-clustering-s2s
name: MTEB ArxivClusteringS2S
config: default
split: test
revision: f910caf1a6075f7329cdf8c1a6135696f37dbd53
metrics:
- type: v_measure value: 36.01134479855804
- task:
type: Reranking
dataset:
type: mteb/askubuntudupquestions-reranking
name: MTEB AskUbuntuDupQuestions
config: default
split: test
revision: 2000358ca161889fa9c082cb41daa8dcfb161a54
metrics:
- type: map value: 59.82917555338909
- type: mrr value: 74.7888361254012
- task:
type: STS
dataset:
type: mteb/biosses-sts
name: MTEB BIOSSES
config: default
split: test
revision: d3fb88f8f02e40887cd149695127462bbcf29b4a
metrics:
- type: cos_sim_pearson value: 87.1657730995964
- type: cos_sim_spearman value: 86.62787748941281
- type: euclidean_pearson value: 85.48127914481798
- type: euclidean_spearman value: 86.48148861167424
- type: manhattan_pearson value: 85.07496934780823
- type: manhattan_spearman value: 86.39473964708843
- task:
type: Classification
dataset:
type: mteb/banking77
name: MTEB Banking77Classification
config: default
split: test
revision: 0fd18e25b25c072e09e0d92ab615fda904d66300
metrics:
- type: accuracy value: 81.73051948051948
- type: f1 value: 81.66368364988331
- task:
type: Clustering
dataset:
type: mteb/biorxiv-clustering-p2p
name: MTEB BiorxivClusteringP2P
config: default
split: test
revision: 65b79d1d13f80053f67aca9498d9402c2d9f1f40
metrics:
- type: v_measure value: 39.18623707448217
- task:
type: Clustering
dataset:
type: mteb/biorxiv-clustering-s2s
name: MTEB BiorxivClusteringS2S
config: default
split: test
revision: 258694dd0231531bc1fd9de6ceb52a0853c6d908
metrics:
- type: v_measure value: 32.12697757150375
- task:
type: Retrieval
dataset:
type: BeIR/cqadupstack
name: MTEB CQADupstackAndroidRetrieval
config: default
split: test
revision: None
metrics:
- type: map_at_1 value: 29.160000000000004
- type: map_at_10 value: 40.474
- type: map_at_100 value: 41.905
- type: map_at_1000 value: 42.041000000000004
- type: map_at_3 value: 37.147000000000006
- type: map_at_5 value: 38.873999999999995
- type: mrr_at_1 value: 36.91
- type: mrr_at_10 value: 46.495999999999995
- type: mrr_at_100 value: 47.288000000000004
- type: mrr_at_1000 value: 47.339999999999996
- type: mrr_at_3 value: 43.777
- type: mrr_at_5 value: 45.257999999999996
- type: ndcg_at_1 value: 36.91
- type: ndcg_at_10 value: 46.722
- type: ndcg_at_100 value: 51.969
- type: ndcg_at_1000 value: 54.232
- type: ndcg_at_3 value: 41.783
- type: ndcg_at_5 value: 43.797000000000004
- type: precision_at_1 value: 36.91
- type: precision_at_10 value: 9.013
- type: precision_at_100 value: 1.455
- type: precision_at_1000 value: 0.193
- type: precision_at_3 value: 20.124
- type: precision_at_5 value: 14.363000000000001
- type: recall_at_1 value: 29.160000000000004
- type: recall_at_10 value: 58.521
- type: recall_at_100 value: 80.323
- type: recall_at_1000 value: 95.13000000000001
- type: recall_at_3 value: 44.205
- type: recall_at_5 value: 49.97
- task:
type: Retrieval
dataset:
type: BeIR/cqadupstack
name: MTEB CQADupstackEnglishRetrieval
config: default
split: test
revision: None
metrics:
- type: map_at_1 value: 27.750000000000004
- type: map_at_10 value: 36.39
- type: map_at_100 value: 37.5
- type: map_at_1000 value: 37.625
- type: map_at_3 value: 33.853
- type: map_at_5 value: 35.397
- type: mrr_at_1 value: 34.14
- type: mrr_at_10 value: 41.841
- type: mrr_at_100 value: 42.469
- type: mrr_at_1000 value: 42.521
- type: mrr_at_3 value: 39.724
- type: mrr_at_5 value: 40.955999999999996
- type: ndcg_at_1 value: 34.14
- type: ndcg_at_10 value: 41.409
- type: ndcg_at_100 value: 45.668
- type: ndcg_at_1000 value: 47.916
- type: ndcg_at_3 value: 37.836
- type: ndcg_at_5 value: 39.650999999999996
- type: precision_at_1 value: 34.14
- type: precision_at_10 value: 7.739
- type: precision_at_100 value: 1.2630000000000001
- type: precision_at_1000 value: 0.173
- type: precision_at_3 value: 18.217
- type: precision_at_5 value: 12.854
- type: recall_at_1 value: 27.750000000000004
- type:
- task:
type: Classification
dataset:
type: mteb/amazon_counterfactual
name: MTEB AmazonCounterfactualClassification (en)
config: en
split: test
revision: e8379541af4e31359cca9fbcf4b00f2671dba205
metrics:
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文