S

Sgpt Bloom 7b1 Msmarco

由 bigscience 开发
SGPT-Bloom-7b1-msmarco 是一个基于 BLOOM 架构的句子转换器模型,主要用于句子相似度计算和特征提取任务。
下载量 31
发布时间 : 8/26/2022
模型介绍
内容详情
替代品

模型简介

该模型基于 BLOOM-7b1 架构,专门针对句子相似度和特征提取任务进行了优化。它在 MTEB (Massive Text Embedding Benchmark) 的各种任务上进行了评估,包括分类、聚类、检索和双语文本挖掘等。

模型特点

多语言支持
支持多种语言处理,包括英文、德文、西班牙文、法文、日文和中文等。
多功能任务处理
能够处理多种自然语言处理任务,包括句子相似度计算、特征提取、分类、聚类和检索等。
大规模基准测试
在 MTEB (Massive Text Embedding Benchmark) 的各种任务上进行了全面评估。

模型能力

句子相似度计算
特征提取
文本分类
文本聚类
信息检索
双语文本挖掘

使用案例

电子商务
产品评论分类
对亚马逊等电商平台的产品评论进行分类和分析。
在 MTEB Amazon 评论分类任务中,英文准确率达到 33.86%,德文 29.70%,西班牙文 35.97%,法文 35.92%,日文 27.64%,中文 32.63%
反事实分类
识别和分析电商平台上的反事实评论。
在 MTEB Amazon 反事实分类任务中,英文准确率 68.06%,德文 61.35%,日文 58.23%
学术研究
学术论文聚类
对 arXiv 和 Biorxiv 上的学术论文进行聚类分析。
在 Arxiv 聚类 P2P 任务中 V 度量 44.59,S2S 任务中 38.03;Biorxiv 聚类 P2P 任务中 V 度量 36.03,S2S 任务中 32.48
问答系统
重复问题识别
识别问答平台上的重复问题。
在 AskUbuntu 重复问题重排序任务中,平均精度 59.97%,平均倒数排名 73.18%
跨语言信息检索
双语文本对齐
识别不同语言间的平行文本。
在 BUCC 双语文本挖掘任务中,德-英准确率 54.28%,法-英 97.34%,俄-英 46.05%,中-英 98.10%