V

Vietnamese Embedding

由 dangvantuan 开发
专为越南语设计的嵌入模型,基于PhoBERT优化,能将越南语句子编码为768维向量空间,适用于语义搜索、文本聚类等多种场景。
下载量 6,063
发布时间 : 4/20/2024
模型介绍
内容详情
替代品

模型简介

该模型基于PhoBERT(采用RoBERTa架构的预训练语言模型)进行优化,能够精准捕捉越南语的词汇和上下文语义层次,生成高质量的句子嵌入向量。

模型特点

越南语优化
专门针对越南语设计和优化,能够更好地处理越南语的词汇和语法结构。
多阶段训练
通过四个阶段的训练流程逐步优化,包括初始训练、持续微调、STS基准微调和高级数据增强微调。
高性能
在越南语STS数据集上表现出色,皮尔逊和斯皮尔曼相关系数均超过88%。
语义捕捉能力强
能够精准捕捉越南语句子的语义层次和上下文关系。

模型能力

句子嵌入
语义搜索
文本聚类
句子相似度计算

使用案例

自然语言处理
语义搜索
用于构建越南语语义搜索引擎,提高搜索结果的相关性。
能够更准确地匹配查询和文档的语义
文本聚类
对越南语文本进行聚类分析,发现文本中的主题和模式。
生成高质量的文本聚类结果
句子相似度计算
计算两个越南语句子之间的语义相似度。
皮尔逊相关系数达到88.33%