R

Ruri Large

由 cl-nagoya 开发
Ruri-Large 是一个专注于日语文本相似度计算的高性能嵌入模型,基于 transformer 架构,支持长文本处理(最大长度8192)。
下载量 6,784
发布时间 : 8/28/2024
模型介绍
内容详情
替代品

模型简介

该模型主要用于日语文本的语义相似度计算和特征提取,在JMTEB基准测试中表现出色。特别优化了查询和段落文本的区分能力,需在输入前添加'クエリ:'或'文章:'前缀。

模型特点

高性能日语处理
在JMTEB基准测试中平均得分73.31,优于同类日语嵌入模型
长文本支持
支持最大8192长度的文本处理,适合长文档分析
查询/段落区分
通过前缀标记区分查询文本和段落文本,优化检索效果

模型能力

日语文本嵌入
语义相似度计算
文本特征提取
信息检索
文本聚类

使用案例

信息检索
问答系统
通过计算查询与知识库段落的相似度实现精准问答
在JMTEB检索任务中获得73.02分
内容分析
文本聚类
对大量日语文本进行语义聚类分析
在JMTEB聚类任务中获得51.82分