D

Dek21 Hcmute Embedding

由 huyydangg 开发
专注于RAG和生产效率的越南语文本嵌入模型,在10万条法律问题数据集上训练
下载量 696
发布时间 : 1/25/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个越南语句子转换器模型,专门用于法律文本的相似度计算和信息检索,采用俄罗斯套娃损失训练以提高效率。

模型特点

俄罗斯套娃损失训练
允许以最小性能损失截断嵌入向量,使较小嵌入向量能更快进行比较,提高生产效率
法律领域优化
在约10万条法律问题及其相关上下文的内部数据集上进行训练,特别适合法律文本处理
高效向量比较
支持多种维度(768/512/256/128/64)的嵌入向量,可根据性能需求灵活选择

模型能力

法律文本相似度计算
法律信息检索
法律条款匹配
越南语文本特征提取

使用案例

法律信息检索
法律条款匹配
匹配用户查询与相关法律条款
在测试数据集上达到0.5856的余弦准确率@1
法律问答系统
构建基于法律知识的问答系统
在VMTEB-Zalo-legel-retrieval-wseg数据集上ndcg@3达到0.9084
法律文档处理
法律文档分类
对法律文档进行自动分类
法律文档聚类
将相似法律文档自动聚类