模型卡片:GIST小型嵌入模型v0
GISTEmbed:文本嵌入微调中的训练负样本引导式内部选择
本模型基于BAAI/bge-small-en-v1.5模型,通过融合MEDI数据集与MTEB分类任务训练集(剔除亚马逊极性分类数据)挖掘的三元组进行微调。
该模型生成嵌入向量时无需指令输入,这意味着检索任务的查询可直接编码而无需构造提示语句。
技术论文:GISTEmbed:文本嵌入微调中的训练负样本引导式内部选择
▌数据构成
训练数据集整合了MEDI与MTEB分类任务数据集。第三方数据受各自许可协议约束。使用的特定版本数据集可通过以下链接获取:
数据集包含task_type
字段,可用于筛选MTEB分类任务数据(前缀为mteb_
)。
MEDI数据集发表于论文:One Embedder, Any Task: Instruction-Finetuned Text Embeddings
MTEB基准测试显示,相比基础模型,本微调模型在部分任务显著提升的同时,某些任务性能出现下降。值得注意的是TRECCOVID检索任务的性能变化,可能源于训练数据缺乏COVID-19相关主题知识(论文中提供了相关证据)。
▌使用方法
通过Sentence Transformers库加载模型:
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("avsolatorio/GIST-small-Embedding-v0")
texts = [
"REaLTabFormer模型示意图。左区块展示使用GPT-2因果语言模型头的非关系型表格建模,右区块展示关系型数据子表如何通过序列到序列(Seq2Seq)模型建模。",
"GeoFormer是基于GPT架构的纯解码器Transformer模型,用于预测人类移动轨迹,在灾害风险规划与疫情模拟等领域具有应用价值。",
"随着东南亚经济体数字化进程加速,政策制定者日益关注如何培养适应新兴劳动力需求的技能。"
]
embeddings = model.encode(texts, convert_to_tensor=True)
scores = F.cosine_similarity(embeddings.unsqueeze(1), embeddings.unsqueeze(0), dim=-1)
print(scores.cpu().numpy())
▌训练参数
训练轮次 = 40
预热比例 = 0.1
学习率 = 5e-6
批量大小 = 16
检查点步长 = 102000
对比损失温度系数 = 0.01
▌评估
使用MTEB评估套件进行模型评估。
▌引用规范
@article{solatorio2024gistembed,
title={GISTEmbed: 文本嵌入微调中的训练负样本引导式内部选择},
author={Aivin V. Solatorio},
journal={arXiv预印本 arXiv:2402.16829},
year={2024},
URL={https://arxiv.org/abs/2402.16829}
}
▌致谢
本研究由世界银行"知识变革计划(KCP)"资助的"KCP IV - 利用大语言模型探索发展经济学文献中的数据应用"项目支持(项目编号RA-P503405-RESE-TF0C3444)。
本成果观点不代表世界银行及其附属机构、执行董事或所代表政府的立场。