Dek21 Hcmute Embedding
模型简介
模型特点
模型能力
使用案例
language:
-
越南语 license: apache-2.0 tags:
-
句子转换器
-
句子相似度
-
特征提取
-
训练生成
-
数据集规模:100000
-
损失函数:俄罗斯套娃损失
-
损失函数:多重负样本排序损失 base_model: bkai-foundation-models/vietnamese-bi-encoder widget:
-
source_sentence: '1998年槟椥省土地价格表第185/QĐ-UB号决定第2条内容如下:
第2条. 上述地价适用于以下情况:计算土地使用权转让税的情况:计算土地使用权转让税、预缴登记费、土地出让金、土地租赁费、土地交付时资产价值计算、国家收回土地时的土地损失赔偿。
若以拍卖形式交付土地,则地价由省人民委员会根据具体情况确定。
外国组织、个人或外资企业的土地租赁价格按政府规定执行。' sentences:
- 2012年平阳省预算分配第55/2012/QĐ-UBND号决定第2条
- 1998年槟椥省土地价格表第185/QĐ-UB号决定第2条
- 2019年顺化学前教育学费标准及管理使用第79/2019/QĐ-UBND号决定第3条
-
source_sentence: '2018年林同省行政手续控制活动计划第94/QĐ-UBND号决定第3条内容如下:
第3条. 省人民委员会办公室主任;各部门、机构负责人;各县、市人民委员会主席;省内各乡、坊、镇人民委员会主席负责执行本决定' sentences:
- 2018年林同省行政手续控制活动计划第94/QĐ-UBND号决定第3条
- 解雇劳动者时,国家主管机关在解决劳动争议中有何责任?
- '教师晋升:较低职级连续任职时间条件'
-
source_sentence: '2013年柬埔寨-老挝-越南陆路运输备忘录指引第63/2013/TT-BGTVT号通知第8条内容如下:
第8条. CLV联运许可证申请材料
- 商业车辆:
a) 商业车辆CLV联运许可证申请表(按本通知附录VI规定);
b) 汽车运输经营许可证或汽车运输经营单位登记证书(无需取得汽车运输经营许可证的单位需提供经核证的复印件或附原件核对);
c) 车辆登记证(经核证的复印件或附原件核对);
d) 线路经营批准文件(固定线路客运车辆);
đ) 若车辆非运输经营单位所有,需额外提供单位合法使用该车辆的证明文件(经核证的复印件或附原件核对)。
- 非商业车辆:
a) 非商业车辆CLV联运许可证申请表(按本通知附录VII规定);
b) 车辆登记证(经核证的复印件或附原件核对)。若车辆非组织或个人所有,需附组织或个人合法使用该车辆的证明文件(经核证的复印件或附原件核对);
c) 在老挝或柬埔寨境内实施工程、项目或经营活动的企业、合作社需附合同或证明文件(经核证)。' sentences:
- 建设部记录关于城乡规划的建言
- 2020年补充麻疹风疹疫苗接种计划第2106/QĐ-BYT号决定第3条
- 2013年柬埔寨-老挝-越南陆路运输备忘录指引第63/2013/TT-BGTVT号通知第8条
-
source_sentence: '2010年同奈省工业废水废气接收环境分区第16/2010/QĐ-UBND号决定第2条内容如下:
第2条. 工业废水废气排放源流量的确定与计算
-
生产经营服务单位负责监测、统计、审计废物以计算确定工业废水废气排放流量,应用排放源流量系数。
-
组织个人有责任向国家环境管理部门提供真实、完整、准确的工业废水废气流量信息。若数据不可靠,国家环境管理部门将依法计算确定或要求鉴定。
-
根据项目规模性质、生产经营服务条件、废水废气接收环境条件、项目地点和地方经济社会发展规划,同奈省人民委员会可制定特殊规定。' sentences:
- 2010年同奈省工业废水废气接收环境分区第16/2010/QĐ-UBND号决定第2条
- 2010年评选标准程序指引第14/2010/TT-BKHCN号通知第16条
- 劳动者在获任命何职务时可单方终止劳动合同?
-
-
source_sentence: 2015年第46/2015/NĐ-CP号令第29条关于施工过程中工程结构抗力试验、质量检验的规定。请问,在交通工程概算中有暂定检验费用,投资方是否有权编制大纲、概算后交审核部门得出有效结果,再聘请有检验功能的咨询单位实施检验?建设部对此答复如下:根据2015年5月12日政府关于建设工程质量管理和维护的第46/2015/NĐ-CP号令第29条第2款a、b、c点(施工过程中对比试验、质量检验、工程结构抗力试验)规定的检验,由符合法律规定的资质机构编制检验大纲和概算。对于第29条第2款đ点规定的检验,按建设部2016年10月26日关于建设工程质量管理和维护若干内容的第26/2016/TT-BXD号通知第18条规定执行。 sentences:
- 年老体弱离任乡干部补助规定
- 可委托工程质量检验吗?
- 企业从事监理咨询业务的条件 pipeline_tag: 句子相似度 library_name: 句子转换器 metrics:
-
余弦准确率@1
-
余弦准确率@3
-
余弦准确率@5
-
余弦准确率@10
-
余弦精确率@1
-
余弦精确率@3
-
余弦精确率@5
-
余弦精确率@10
-
余弦召回率@1
-
余弦召回率@3
-
余弦召回率@5
-
余弦召回率@10
-
余弦归一化折损累积增益@10
-
余弦平均倒数排名@10
-
余弦平均精度@100 model-index:
-
name: bkai-fine-tuned-legal results:
- task:
type: 信息检索
name: 信息检索
dataset:
name: 维度 768
type: dim_768
metrics:
- type: 余弦准确率@1 value: 0.5855925639039504 name: 余弦准确率@1
- type: 余弦准确率@3 value: 0.7033307513555384 name: 余弦准确率@3
- type: 余弦准确率@5 value: 0.7500645494448748 name: 余弦准确率@5
- type: 余弦准确率@10 value: 0.8109992254066615 name: 余弦准确率@10
- type: 余弦精确率@1 value: 0.5855925639039504 name: 余弦精确率@1
- type: 余弦精确率@3 value: 0.23444358378517946 name: 余弦精确率@3
- type: 余弦精确率@5 value: 0.15001290988897495 name: 余弦精确率@5
- type: 余弦精确率@10 value: 0.08109992254066614 name: 余弦精确率@10
- type: 余弦召回率@1 value: 0.5855925639039504 name: 余弦召回率@1
- type: 余弦召回率@3 value: 0.7033307513555384 name: 余弦召回率@3
- type: 余弦召回率@5 value: 0.7500645494448748 name: 余弦召回率@5
- type: 余弦召回率@10 value: 0.8109992254066615 name: 余弦召回率@10
- type: 余弦归一化折损累积增益@10 value: 0.6937880818561333 name: 余弦归一化折损累积增益@10
- type: 余弦平均倒数排名@10 value: 0.6568145771089225 name: 余弦平均倒数排名@10
- type: 余弦平均精度@100 value: 0.6626061839086153 name: 余弦平均精度@100
- task:
type: 信息检索
name: 信息检索
dataset:
name: 维度 512
type: dim_512
metrics:
- type: 余弦准确率@1 value: 0.5848179705654531 name: 余弦准确率@1
- type: 余弦准确率@3 value: 0.7002323780015491 name: 余弦准确率@3
- type: 余弦准确率@5 value: 0.7490317583268784 name: 余弦准确率@5
- type: 余弦准确率@10 value: 0.8073844564936742 name: 余弦准确率@10
- type: 余弦精确率@1 value: 0.5848179705654531 name: 余弦精确率@1
- type: 余弦精确率@3 value: 0.23341079266718306 name: 余弦精确率@3
- type: 余弦精确率@5 value: 0.1498063516653757 name: 余弦精确率@5
- type: 余弦精确率@10 value: 0.0807384456493674 name: 余弦精确率@10
- type: 余弦召回率@1 value: 0.5848179705654531 name: 余弦召回率@1
- type: 余弦召回率@3 value: 0.7002323780015491 name: 余弦召回率@3
- type: 余弦召回率@5 value: 0.7490317583268784 name: 余弦召回率@5
- type: 余弦召回率@10 value: 0.8073844564936742 name: 余弦召回率@10
- type: 余弦归一化折损累积增益@10 value: 0.6917119064236622 name: 余弦归一化折损累积增益@10
- type: 余弦平均倒数排名@10 value: 0.6551604719691482 name: 余弦平均倒数排名@10
- type: 余弦平均精度@100 value: 0.6611599622252305 name: 余弦平均精度@100
- task:
type: 信息检索
name: 信息检索
dataset:
name: 维度 256
type: dim_256
metrics:
- type: 余弦准确率@1 value: 0.5814613994319648 name: 余弦准确率@1
- type: 余弦准确率@3 value: 0.6935192357345726 name: 余弦准确率@3
- type: 余弦准确率@5 value: 0.7428350116189001 name: 余弦准确率@5
- type: 余弦准确率@10 value: 0.8022205009036922 name: 余弦准确率@10
- type: 余弦精确率@1 value: 0.5814613994319648 name: 余弦精确率@1
- type: 余弦精确率@3 value: 0.2311730785781909 name: 余弦精确率@3
- type: 余弦精确率@5 value: 0.14856700232378 name: 余弦精确率@5
- type: 余弦精确率@10 value: 0.08022205009036923 name: 余弦精确率@10
- type: 余弦召回率@1 value: 0.5814613994319648 name: 余弦召回率@1
- type: 余弦召回率@3 value: 0.6935192357345726 name: 余弦召回率@3
- type: 余弦召回率@5 value: 0.7428350116189001 name: 余弦召回率@5
- type: 余弦召回率@10 value: 0.8022205009036922 name: 余弦召回率@10
- type: 余弦归一化折损累积增益@10 value: 0.6871061609559359 name: 余弦归一化折损累积增益@10
- type: 余弦平均倒数排名@10 value: 0.6508078926552976 name: 余弦平均倒数排名@10
- type: 余弦平均精度@100 value: 0.6566099087487134 name: 余弦平均精度@100
- task:
type: 信息检索
name: 信息检索
dataset:
name: 维度 128
type: dim_128
metrics:
- type: 余弦准确率@1 value: 0.5695843015750065 name: 余弦准确率@1
- type: 余弦准确率@3 value: 0.6785437645236251 name: 余弦准确率@3
- type: 余弦准确率@5 value: 0.7273431448489543 name: 余弦准确率@5
- type: 余弦准确率@10 value: 0.7936999741802221 name: 余弦准确率@10
- type: 余弦精确率@1 value: 0.5695843015750065 name: 余弦精确率@1
- type: 余弦精确率@3 value: 0.22618125484120832 name: 余弦精确率@3
- type: 余弦精确率@5 value: 0.14546862896979085 name: 余弦精确率@5
- type: 余弦精确率@10 value: 0.0793699974180222 name: 余弦精确率@10
- type: 余弦召回率@1 value: 0.5695843015750065 name: 余弦召回率@1
- type: 余弦召回率@3 value: 0.6785437645236251 name: 余弦召回率@3
- type: 余弦召回率@5 value: 0.7273431448489543 name: 余弦召回率@5
- type: 余弦召回率@10 value: 0.7936999741802221 name: 余弦召回率@10
- type: 余弦归一化折损累积增益@10 value: 0.6754615621699942 name: 余弦归一化折损累积增益@10
- type: 余弦平均倒数排名@10 value: 0.6384098910241435 name: 余弦平均倒数排名@10
- type: 余弦平均精度@100 value: 0.6443976474654151 name: 余弦平均精度@100
- task:
type: 信息检索
name: 信息检索
dataset:
name: 维度 64
type: dim_64
metrics:
- type: 余弦准确率@1 value: 0.5543506325845597 name: 余弦准确率@1
- type: 余弦准确率@3 value: 0.6609863155176865 name: 余弦准确率@3
- type: 余弦准确率@5 value: 0.7061709269300284 name: 余弦准确率@5
- type: 余弦准确率@10 value: 0.7717531629227988 name: 余弦准确率@10
- type: 余弦精确率@1 value: 0.5543506325845597 name: 余弦精确率@1
- type: 余弦精确率@3 value: 0.22032877183922883 name: 余弦精确率@3
- type: 余弦精确率@5 value: 0.14123418538600568 name: 余弦精确率@5
- type: 余弦精确率@10 value: 0.07717531629227987 name: 余弦精确率@10
- type: 余弦召回率@1 value: 0.5543506325845597 name: 余弦召回率@1
- type: 余弦召回率@3 value: 0.6609863155176865 name: 余弦召回率@3
- type: 余弦召回率@5 value: 0.7061709269300284 name: 余弦召回率@5
- type: 余弦召回率@10 value: 0.7717531629227988 name: 余弦召回率@10
- type: 余弦归一化折损累积增益@10 value: 0.6571206813679893 name: 余弦归一化折损累积增益@10
- type: 余弦平均倒数排名@10 value: 0.6212180172869554 name: 余弦平均倒数排名@10
- type: 余弦平均精度@100 value: 0.6275272633144896 name: 余弦平均精度@100
- task:
type: 信息检索
name: 信息检索
dataset:
name: 维度 768
type: dim_768
metrics:
DEk21_hcmute_embedding
DEk21_hcmute_embedding 是一个专注于RAG和生产效率的越南语文本嵌入模型:
📚 训练数据集:
该模型在约10万条法律问题及其相关上下文的内部数据集上进行训练。
🪆 高效性:
采用俄罗斯套娃损失训练,允许以最小性能损失截断嵌入向量。这确保了较小嵌入向量能更快进行比较,使模型在实际生产环境中更高效。
模型详情
模型描述
- 模型类型:句子转换器
- 最大序列长度:512个标记
- 输出维度:768维
- 相似度函数:余弦相似度
- 语言:越南语
- 许可证:apache-2.0
模型来源
- 文档:句子转换器文档
- 代码库:GitHub上的句子转换器
- Hugging Face:Hugging Face上的句子转换器
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
使用方式
直接使用(句子转换器)
首先安装句子转换器库:
pip install -U sentence-transformers
然后可以加载该模型并运行推理。
from sentence_transformers import SentenceTransformer
import torch
# 从🤗 Hub下载
model = SentenceTransformer("huyydangg/DEk21_hcmute_embedding")
# 定义查询(法律问题)和文档(法律条款)
query = "合法结婚的条件是什么?"
docs = [
"2015年民法典第8条关于公民在家庭关系中的权利义务规定",
"2014年婚姻家庭法第18条关于男女结婚年龄的规定",
"2015年民法典第14条关于个人参与合同时的权利义务规定",
"2014年婚姻家庭法第27条关于禁止结婚的情形规定",
"2014年婚姻家庭法第51条关于越南公民与外国人结婚的规定"
]
# 编码查询和文档
query_embedding = model.encode([query])
doc_embeddings = model.encode(docs)
similarities = torch.nn.functional.cosine_similarity(
torch.tensor(query_embedding), torch.tensor(doc_embeddings)
).flatten()
# 按余弦相似度排序文档
sorted_indices = torch.argsort(similarities, descending=True)
sorted_docs = [docs[idx] for idx in sorted_indices]
sorted_scores = [similarities[idx].item() for idx in sorted_indices]
# 打印排序后的文档及其余弦分数
for doc, score in zip(sorted_docs, sorted_scores):
print(f"文档:{doc} - 余弦相似度:{score:.4f}")
评估
指标
信息检索
模型 | 类型 | ndcg@3 | ndcg@5 | ndcg@10 | mrr@3 | mrr@5 | mrr@10 |
---|---|---|---|---|---|---|---|
huyydangg/DEk21_hcmute_embedding_wseg | 稠密 | 0.908405 | 0.914792 | 0.917742 | 0.889583 | 0.893099 | 0.894266 |
AITeamVN/Vietnamese_Embedding | 稠密 | 0.842687 | 0.854993 | 0.865006 | 0.822135 | 0.82901 | 0.833389 |
bkai-foundation-models/vietnamese-bi-encoder | 混合 | 0.827247 | 0.844781 | 0.846937 | 0.799219 | 0.809505 | 0.806771 |
bkai-foundation-models/vietnamese-bi-encoder | 稠密 | 0.814116 | 0.82965 | 0.839567 | 0.796615 | 0.805286 | 0.809572 |
AITeamVN/Vietnamese_Embedding | 混合 | 0.788724 | 0.810062 | 0.820797 | 0.758333 | 0.77224 | 0.776461 |
BAAI/bge-m3 | 稠密 | 0.784056 | 0.80665 | 0.817016 | 0.763281 | 0.775859 | 0.780293 |
BAAI/bge-m3 | 混合 | 0.775239 | 0.797382 | 0.811962 | 0.747656 | 0.763333 | 0.77128 |
huyydangg/DEk21_hcmute_embedding | 稠密 | 0.752173 | 0.769259 | 0.785101 | 0.72474 | 0.734427 | 0.741076 |
hiieu/halong_embedding | 混合 | 0.73627 | 0.757183 | 0.779169 | 0.710417 | 0.721901 | 0.731976 |
bm25 | bm25 | 0.728122 | 0.74974 | 0.761612 | 0.699479 | 0.711198 | 0.715738 |
dangvantuan/vietnamese-embedding | 稠密 | 0.718971 | 0.746521 | 0.763416 | 0.696354 | 0.711953 | 0.718854 |
dangvantuan/vietnamese-embedding | 混合 | 0.71711 | 0.743537 | 0.758315 | 0.690104 | 0.704792 | 0.712261 |
VoVanPhuc/sup-SimCSE-VietNamese-phobert-base | 混合 | 0.688483 | 0.713829 | 0.733894 | 0.660156 | 0.671198 | 0.676961 |
hiieu/halong_embedding | 稠密 | 0.656377 | 0.675881 | 0.701368 | 0.630469 | 0.641406 | 0.652057 |
VoVanPhuc/sup-SimCSE-VietNamese-phobert-base | 稠密 | 0.558852 | 0.584799 | 0.611329 | 0.536979 | 0.55112 | 0.562218 |
引用
您可以按以下方式引用我们的工作:
@misc{DEk21_hcmute_embedding,
title={DEk21_hcmute_embedding: 越南语文本嵌入模型},
author={QUANG HUY},
year={2025},
publisher={Huggingface},
}
BibTeX
句子转换器
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: 使用孪生BERT网络的句子嵌入",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "2019年自然语言处理实证方法会议论文集",
month = "11",
year = "2019",
publisher = "计算语言学协会",
url = "https://arxiv.org/abs/1908.10084",
}
俄罗斯套娃损失
@misc{kusupati2024matryoshka,
title={俄罗斯套娃表示学习},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
多重负样本排序损失
@misc{henderson2017efficient,
title={智能回复的高效自然语言响应建议},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}







