S

Scitopicnomicembed

由 Corran 开发
基于nomic-ai/nomic-embed-text-v1.5微调的句子转换器模型,专为科学文献主题相似性任务优化
下载量 114
发布时间 : 2/2/2025
模型介绍
内容详情
替代品

模型简介

该模型将句子和段落映射到768维密集向量空间,适用于语义文本相似性、语义搜索、释义挖掘等任务,特别针对科学文献主题分析进行了优化。

模型特点

长文本处理能力
支持最大8192个标记的序列长度,适合处理科学文献中的长段落
科学主题优化
在SciTopicTriplets数据集上微调,特别擅长科学文献的主题相似性分析
多层次嵌入
采用MatryoshkaLoss训练,可生成768/384/256/128/64维的多层次嵌入

模型能力

语义文本相似性计算
科学文献主题匹配
语义搜索
文本聚类
特征提取

使用案例

学术研究
文献推荐系统
基于内容相似性为研究人员推荐相关文献
在SciGen评估集上达到0.5664的归一化折损累积增益
研究主题分析
识别和聚类科学文献中的相关主题
信息检索
科学文献检索
改进科学数据库中的语义搜索功能
在准确率@10指标上达到0.9893