language: zh
datasets:
- FinTalk-19k
tags:
- 文本摘要
- 分类
- 翻译
- 自然语言处理
- 金融
- 领域专用大模型
license: apache-2.0
pipeline_tag: text-generation
金融通
金融通是一款专为金融经济对话设计的尖端开源聊天模型。基于强大的Llama2-13B架构,该模型通过FinTalk-19k和Alpaca数据集的联合微调,成为金融从业者、研究人员及爱好者的宝贵资源。
模型详情
采用数据集:FinTalk-19k与Alpaca
依托专注于金融知识的FinTalk-19k和Alpaca数据集,本模型能提供与金融行业相关的深度洞察。数据集详情请访问:FinTalk-19k、Alpaca
模型规格
- 开发团队:CeADAR Connect Group
- 模型类型:大语言模型
- 支持语言:英语
- 基础模型:Llama2-13B
核心功能
- 领域专精:专攻金融对话场景,服务于金融研究者与爱好者
- API集成:提供简洁的Python接口生成金融内容洞察
- 性能优化:在CPU和GPU平台均表现高效
- 数据表征:融合专业金融数据集,确保内容产出符合行业标准
基准测试
测试项 |
彭博GPT 50B |
金融通13B |
MMLU |
39.8 |
52.08 |
FPB |
51.1 |
57.2 |
成本 |
267万美元 |
27美元 |
测试项 |
金融通13B |
MMLU |
52.08 |
ARC |
55.12 |
HellaSwag |
77.73 |
TruthfulQA |
38.80 |
Winogrande |
71.82 |
GSM8K |
1.6 |
使用指南
通过结构化的Python接口体验金融通模型能力。参考以下步骤快速开始:
环境准备
1. 确保安装依赖包
import torch
from typing import Any, Dict
from transformers import (
AutoModelForCausalLM,
AutoTokenizer,
BitsAndBytesConfig,
HfArgumentParser,
TrainingArguments,
PreTrainedTokenizerFast,
pipeline,
logging,
)
import time
2. 初始化模型与分词器
model_name = "ceadar-ie/FinanceConnect-13B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, load_in_8bit = True, device_map = "auto", trust_remote_code=True)
3. 创建文本生成函数
def generate_text(input_text):
tokenizer.padding_side = "right"
num_words_input = len(input_text.split())
start_time = time.time()
pipe = pipeline(task="text-generation", model=model, tokenizer=tokenizer, max_length = 1000)
prompt = f"<s>[INST] {input_text} [/INST]"
result = pipe(prompt)
generated_text = result[0]['generated_text'].replace(prompt, "").strip()
end_time = time.time()
time_taken = end_time - start_time
num_words_generated = len(generated_text.split())
print("生成结果:")
print(generated_text)
print('=' * 60 )
print("\n输入文本词数:", num_words_input)
print("生成文本词数:", num_words_generated)
print("生成耗时:{:.2f}秒".format(time_taken))
使用示例
示例问题1:
详细列出影响当前全球经济状况的十大关键因素。
生成结果:
当前全球经济受以下因素影响:
- 全球化:通过贸易、投资和人口流动增强的经济互联性
- 技术进步:快速创新对产业和就业的影响
- 政治因素:影响经济增长与稳定的政府决策
- 人口结构:老龄化等变化对经济的影响
- 环境因素:气候变化与自然灾害对经济活动的干扰
- 国际贸易:保护主义抬头与贸易紧张关系
- 金融因素:市场表现与信贷可获得性
- 基础设施:交通通信网络的质量与覆盖
- 教育水平:影响技能劳动力供给与国家适应能力
- 健康状况:决定劳动力生产力与人才吸引力
示例问题2:
解释量化宽松政策及其对金融市场的影响。
生成结果:
量化宽松是央行通过购买国债等资产来刺激经济的货币政策工具。其通过增加货币供应、降低利率来促进银行放贷,但若实施不当可能导致通胀超过工资增长幅度。
示例问题3:
我刚参加工作需要理财,请分10点详细说明如何制定预算?
生成结果:
预算制定指南:
- 统计收入与支出
- 包含房租等必要开支
- 预留储蓄投资份额
- 定期检视调整预算
- 优先使用借记卡避免透支
- 削减非必要消费
- 借助预算管理工具
- 根据财务目标优先排序
- 定期复审预算方案
- 保持预算灵活性
训练参数
- 单设备训练批量大小 = 10
- 梯度累积步数 = 4
- 优化器 = "paged_adamw_32bit"
- 学习率 = 2e-4
- 最大梯度范数 = 0.3
- 预热比例 = 0.03
许可协议
本模型融合Llama2、FinTalk-8k和Alpaca的许可框架。根据Meta条款,用户可获得非排他性、全球性、不可转让的免费许可。再分发时需包含原始协议及署名声明。根据FinTalk(Apache 2.0)和Alpaca(cc-by-nc-4.0)许可,模型遵循三重许可协议。
使用限制
非适用场景
本模型不适用于:
风险提示
- 数据偏差:训练数据集可能存在固有偏差
- 辅助性质:不可替代专业金融建议
- 认知局限:缺乏人类级理解能力
- 语言限制:主要支持英语
- 知识时效:训练数据存在时间截止点
引用格式
@misc {ceadar_2023,
author = { {CeADAR} },
title = { FinanceConnect-13B (版本号 5f7841d) },
year = 2023,
url = { https://huggingface.co/ceadar-ie/FinanceConnect-13B },
doi = { 10.57967/hf/1405 },
publisher = { Hugging Face }
}
联系方式
如有垂询请致邮:ahtsham.zafar@ucd.ie