R

Rosetta Base Ja

由 pkshatech 开发
RoSEtta是一款通用日语文本嵌入模型,擅长检索任务,支持1024标记的序列长度,适用于句子相似度计算和段落检索。
下载量 1,760
发布时间 : 8/22/2024
模型介绍
内容详情
替代品

模型简介

基于RoFormer架构的日语文本嵌入模型,通过蒸馏和多阶段对比学习优化,专为检索任务设计,支持长句输入和CPU运行。

模型特点

长文本处理能力
支持最大1024标记的序列长度,可有效处理长句输入
检索优化设计
通过多阶段对比学习和蒸馏训练,专门优化了检索任务性能
高效推理
模型规模适中(0.2B参数),可在CPU上高效运行
旋转位置编码
采用RoPE(旋转位置编码)技术,增强位置信息处理能力

模型能力

计算句子语义相似度
文本特征提取
基于查询的段落检索
长文本语义理解

使用案例

信息检索
问答系统检索
在问答系统中快速检索与问题最相关的答案段落
在MIRACL-ja数据集上达到79.3的召回率@5
文档相似度分析
计算文档或句子间的语义相似度
在JMTEB评估中STS任务得分81.39
内容管理
重复内容检测
识别网站或文档集中的重复或高度相似内容