G

Glucose Base Ja

由 pkshatech 开发
GLuCoSE是基于LUKE的日语文本嵌入模型,适用于句子相似度和语义搜索任务。
下载量 70.71k
发布时间 : 7/16/2023
模型介绍
内容详情
替代品

模型简介

GLuCoSE是一个通用且用户友好的日语文本嵌入模型,通过混合训练网页数据和多种自然语言推理及搜索相关数据集构建而成。

模型特点

多任务训练
在网页数据和多种自然语言推理及搜索相关数据集上进行混合训练,增强了模型的通用性。
高维度输出
输出维度为768,能够捕捉丰富的语义信息。
长文本支持
最大支持512个token,适合处理较长的日语文本。
均值池化
采用均值池化方式生成句子嵌入,提高了句子表示的稳定性。

模型能力

句子向量相似度计算
语义搜索
日语文本特征提取

使用案例

信息检索
文档搜索
使用语义相似度在文档库中查找相关内容
在AIO3开发集上Top-1准确率达到36.1%
自然语言处理
句子相似度计算
计算两个日语句子之间的语义相似度
在JSTS开发集上斯皮尔曼相关系数达到0.864