R

Ruri Base

由 cl-nagoya 开发
Ruri是一个针对日语的通用文本嵌入模型,专注于句子相似度和特征提取任务。
下载量 523.56k
发布时间 : 8/28/2024
模型介绍
内容详情
替代品

模型简介

Ruri是一个基于BERT架构的日语文本嵌入模型,主要用于计算句子相似度和提取文本特征。模型支持在查询和段落文本前添加特定前缀以获得更好的效果。

模型特点

日语优化
专门针对日语文本进行优化,在日语任务上表现优异
长文本支持
最大序列长度达512个标记,能处理较长文本
高性能
在JMTEB基准测试中表现优于同类日语模型
前缀增强
支持通过添加查询/文章前缀提升相似度计算效果

模型能力

句子相似度计算
文本特征提取
语义搜索
文本聚类
信息检索

使用案例

信息检索
问答系统
通过计算查询与候选答案的相似度实现问答功能
在JMTEB检索任务上得分69.82
文本分析
文本聚类
对相似文本进行自动分组
在JMTEB聚类任务上得分54.16