G

Glucose Base Ja V2

由 pkshatech 开发
通用日语文本嵌入模型,专为检索任务优化,在CPU上运行表现优异
下载量 25.25k
发布时间 : 8/22/2024
模型介绍
内容详情
替代品

模型简介

一款专注于日语文本处理的通用嵌入模型,特别擅长检索任务和句子相似度计算,可作为基于查询的段落检索系统使用

模型特点

检索任务优化
在MIRACL等检索任务中展现同尺寸模型中的最高性能
日语专用优化
专门针对日语文本处理进行优化训练
轻量高效
支持CPU运行,适合资源有限的环境
多阶段训练
通过集成蒸馏和多阶段对比学习进行微调

模型能力

句子相似度计算
语义检索
特征提取
段落检索

使用案例

信息检索
企业知识库检索
用于企业内部知识库的语义检索系统
在MIRACL-ja数据集上达到85.5的Recall@5
问答系统
构建基于检索的问答系统
在JQaRA数据集上达到60.6的nDCG@10
文本分析
文本聚类
对日语文本进行语义聚类分析
语义相似度计算
计算句子间的语义相似度