专注于德语语义理解的Sentence-Transformer模型,支持可变序列长度和套娃式嵌入,在德语场景中表现优异
下载量 1,763
发布时间 : 6/15/2024
模型简介
该模型是German_Semantic_STS_V2的升级版本,专注于德语语义相似度计算和特征提取,特别优化了德国文化理解和拼写容错能力
模型特点
可变序列长度
支持最多8192个token的嵌入处理,是前代模型的16倍
套娃式嵌入
支持从1024到64的多种嵌入尺寸,能以极小的质量损失大幅缩减存储空间
拼写容错
增强了对拼写错误和大小写的鲁棒性,提升了实际应用的稳定性
德国文化理解
专注德语场景,富含德国文化知识,使用专用分词器处理短查询更高效
灵活池化方式
采用CLS标记池化方式,在第二阶段预训练后学习效果更优
模型能力
德语语义相似度计算
德语文本特征提取
德语句子嵌入生成
德语文本匹配
使用案例
文本相似度
语义搜索
用于德语文档或问答系统的语义搜索功能
能准确匹配语义相似但表述不同的德语句子
重复内容检测
识别不同表述但含义相同的德语内容
有效减少内容重复率
信息检索
文档聚类
对德语文档进行语义聚类
提高文档组织效率
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文