G

Gbert Large Paraphrase Euclidean

由 deutsche-telekom 开发
基于sentence-transformers的德语句子嵌入模型,将文本映射到1024维向量空间,专为小样本分类优化
下载量 19.03k
发布时间 : 1/13/2023
模型介绍
内容详情
替代品

模型简介

该模型是基于deepset/gbert-large构建的德语句子嵌入模型,使用欧式距离作为相似度度量,特别设计用于与SetFit结合提升德语小样本分类性能。

模型特点

欧式距离优化
使用BatchHardSoftMarginTripletLoss配合欧式距离进行训练,适合特定距离度量需求
高质量训练数据
基于严格筛选的德语回译和释义数据集,确保训练质量
小样本优化
特别设计用于提升德语小样本场景下的文本分类性能
孪生模型支持
提供余弦相似度版本作为互补选择(deutsche-telekom/gbert-large-paraphrase-cosine)

模型能力

德语文本嵌入
句子相似度计算
小样本学习
文本分类支持

使用案例

文本分类
小样本分类任务
在标注数据有限的情况下进行德语文本分类
在NLU小样本基准测试中表现优异
语义搜索
德语文档检索
基于语义相似度的德语文档搜索系统