许可证: mit
数据集:
- sujet-ai/Sujet-Financial-RAG-FR-Dataset
语言:
- fr
评估指标:
- accuracy
任务标签: sentence-similarity
标签:
- 金融
- 嵌入模型
- 金融问答
- 法语嵌入模型
- 句子转换器
- 金融检索增强生成
Marsilia-Embeddings-FR-Base 🚀
简介 🌟
Marsilia-Embeddings-FR-Base 是一款专为金融领域任务设计的法语嵌入模型。该模型作为概念验证,展示了在检索增强生成(RAG)应用中针对特定任务微调嵌入模型的至关重要性。
通过专注于金融领域,Marsilia-Embeddings-FR-Base 实现了超越 OpenAI 等闭源模型的性能,同时提供了更具成本效益的解决方案。这展示了有针对性的微调如何显著增强开源模型的能力,使其在专业领域与专有替代方案相比具有竞争力甚至更优。
模型详情 📊
使用方法 💻
要使用此模型与 Sentence Transformers 库:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("sujet-ai/Marsilia-Embeddings-FR-Base")
sentences = [
"HCSF 和 CERS 的决策如何影响金融机构的投资策略?",
'HCSF 对法国的分析认为风险较低,并决定不为这些风险敞口激活专门的逆周期资本缓冲45。在对欧盟重要的第三国进行分析后,负责协调欧洲宏观审慎行动的 CERS 并未建议为第三国设定逆周期资本缓冲率。41 2022 年 12 月 27 日第 D-HCSF-2022-6 号决定关于逆周期资本缓冲率。42 CRD 第 138 和 139 条 43 欧洲系统性风险委员会 2015 年 12 月 11 日关于识别和设定适用于第三国风险敞口的逆周期资本缓冲率的建议(CERS/2015/1),建议 B2。44 实际上,CRD 第 139 条规定,当第三国未设定缓冲率或其设定的缓冲率被认为不足时,指定当局可以为国内机构对第三国的风险敞口采用 CCyB 率。45 当国家被欧盟认定为重要时,风险监控由 CERS 执行。',
'2023 年度报告 金融稳定高级委员会 18 非金融企业的银行存款余额从 2019 年底的 6890 亿欧元增至 2022 年底的 9130 亿欧元,而非金融企业的总流动资金从 2019 年第四季度的 8170 亿欧元增至 2022 年第四季度的 10770 亿欧元,占非金融企业总债务的略高于 50%。然而,相对于危机前水平,非金融企业的总债务动态相对于国内生产总值(GDP)或企业利润27 显得更为克制。截至 2022 年底,非金融企业的合并总债务余额为企业年利润的 4.8 倍,而 2019 年底为 4.2 倍,同时非金融企业的合并总债务占 GDP 的比例从 2019 年底的 73% 增至 2022 年底的 80.8%。合并净债务相对于 GDP 或以企业利润年数衡量,在 2022 年保持稳定,与 2010-2021 年期间的平均水平相当(图表 18)。27 以营业盈余(EBE)衡量。图表 16 – 中小企业对流动资金贷款的需求和获取(%) 图表 17 – 2019-2022 年期间企业债务和流动资金年度流量(十亿欧元) 来源: 法国银行。最新数据: 2023 年第一季度。阅读说明: 2023 年第一季度,4.8% 的中小企业表示申请了流动资金贷款,其中 95.6% 获得了超过申请金额 75% 的贷款。来源: 法国银行。',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
预期用途 🎯
该模型设计用于生成法语文本的句子嵌入,特别是在金融领域。可用于各种自然语言处理任务,如语义搜索、聚类和信息检索。
训练数据 📚
该模型在 sujet-ai/Sujet-Financial-RAG-FR-Dataset 上进行了微调。该数据集包含法语金融主题的问题-上下文对。
训练过程 🛠️
训练超参数
- 损失函数: MultipleNegativesRankingLoss
- 评估策略: 按步骤
- 每设备训练批次大小: 100
- 每设备评估批次大小: 100
- 训练周期数: 10
- 批次采样器: no_duplicates
- 多数据集批次采样器: round_robin
- 调度器: 预热余弦
框架版本
- Python: 3.10.13
- Sentence Transformers: 3.0.1
- Transformers: 4.42.3
- PyTorch: 2.5.0.dev20240704+cu124
- Accelerate: 0.32.1
- Datasets: 2.20.0
- Tokenizers: 0.19.1
评估 📈
该模型使用 InformationRetrievalEvaluator
在 sujet-ai/Sujet-Financial-RAG-FR-Dataset 的测试集上进行了评估。
限制 ⚠️
该模型专门针对法语金融文本进行训练,可能在其他领域或语言上表现不佳。用户应注意训练数据中可能存在的偏见。
引用 📄
如果您在研究中或应用中使用此模型,请引用:
@software{Marsilia-Embeddings-FR-Base,
author = {Sujet AI, Allaa Boutaleb, Hamed Rahimi},
title = {Marsilia-Embeddings-FR-Base: 针对金融文本微调的法语嵌入模型},
year = {2024},
url = {https://huggingface.co/sujet-ai/Marsilia-Embeddings-FR-Base}
}
联系方式 📧
如有问题、反馈或合作意向,请通过 LinkedIn 联系我们或访问我们的网站 https://sujet.ai。