🚀 DISC-LawLLM
DISC-LawLLM 是由复旦大学数据智能与社会计算实验室(Fudan-DISC)开发并开源的大型语言模型,以百川 13B 基座模型为基础,专注于中文法律领域,旨在提供全面的智能法律服务。
⚠️ 重要提示
由于项目仍在持续开发中,此仓库中的模型权重可能与我们当前部署的演示版本有所不同。
🚀 快速开始
本仓库包含 DISC-LawLLM,它以 Baichuan-13b-base 为基座模型。下面为你展示如何通过 Hugging Face Transformers 使用该模型:
>>>import torch
>>>>>>from transformers import AutoModelForCausalLM, AutoTokenizer
>>>from transformers.generation.utils import GenerationConfig
>>>tokenizer = AutoTokenizer.from_pretrained("ShengbinYue/DISC-LawLLM", use_fast=False, trust_remote_code=True)
>>>model = AutoModelForCausalLM.from_pretrained("ShengbinYue/DISC-LawLLM", device_map="auto", torch_dtype=torch.float16, trust_remote_code=True)
>>>model.generation_config = GenerationConfig.from_pretrained("ShengbinYue/DISC-LawLLM")
>>>messages = []
>>>messages.append({"role": "user", "content": "生产销售假冒伪劣商品罪如何判刑?"})
>>>response = model.chat(tokenizer, messages)
>>>print(response)
✨ 主要特性
DISC-LawLLM 的优势显著,具备以下能力:
- 法律文本通用处理能力
- 法律思维与推理能力
- 法律知识检索能力
此外,该项目的贡献还包括:
- 高质量的 SFT 数据集和有效的训练范式
- 中文法律大语言模型评估框架
更多信息请查看 HOME。
📦 DISC-Law-SFT 数据集
我们构建了一个高质量的监督微调数据集 DISC-Law-SFT,它包含两个子集,分别是 DISC-Law-SFT-Pair 和 DISC-Law-SFT-Triplet。该数据集涵盖了一系列法律任务,如法律信息提取、判决预测、文档摘要和法律问答等,确保能覆盖多样化的场景。
数据集 |
任务/来源 |
规模 |
场景 |
DISC-LawLLM-SFT-Pair |
法律信息提取 |
32K |
法律专业助理 |
DISC-LawLLM-SFT-Pair |
法律事件检测 |
27K |
法律专业助理 |
DISC-LawLLM-SFT-Pair |
法律案例分类 |
20K |
法律专业助理 |
DISC-LawLLM-SFT-Pair |
法律判决预测 |
11K |
法律专业助理 |
DISC-LawLLM-SFT-Pair |
法律案例匹配 |
8K |
法律专业助理 |
DISC-LawLLM-SFT-Pair |
法律文本摘要 |
9K |
法律专业助理 |
DISC-LawLLM-SFT-Pair |
司法舆情摘要 |
6K |
法律专业助理 |
DISC-LawLLM-SFT-Pair |
法律问答 |
93K |
法律咨询服务 |
DISC-LawLLM-SFT-Pair |
法律阅读理解 |
38K |
司法考试助理 |
DISC-LawLLM-SFT-Pair |
司法考试 |
12K |
司法考试助理 |
DISC-LawLLM-SFT-Triple |
法律判决预测 |
16K |
法律专业助理 |
DISC-LawLLM-SFT-Triple |
法律问答 |
23K |
法律咨询服务 |
通用 |
Alpaca-GPT4 |
48K |
通用场景 |
通用 |
Firefly |
60K |
通用场景 |
总计 |
- |
403K |
- |
📄 免责声明
DISC-LawLLM 存在当前大语言模型尚未克服的问题和局限性。尽管它能在多种法律任务和场景中提供中文法律服务,但该模型仅供参考,不能替代专业律师和法律专家的意见。我们鼓励用户对 DISC-LawLLM 进行批判性评估。对于使用 DISC-LawLLM 可能产生的任何问题、风险或不良后果,我们不承担责任。
📖 引用
如果我们的工作对你有帮助,请按以下方式引用:
@misc{yue2023disclawllm,
title={DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services},
author={Shengbin Yue and Wei Chen and Siyuan Wang and Bingxuan Li and Chenchen Shen and Shujun Liu and Yuxuan Zhou and Yao Xiao and Song Yun and Wei Lin and Xuanjing Huang and Zhongyu Wei},
year={2023},
eprint={2309.11325},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{yue2024lawllm,
title={LawLLM: Intelligent Legal System with Legal Reasoning and Verifiable Retrieval},
author={Yue, Shengbin and Liu, Shujun and Zhou, Yuxuan and Shen, Chenchen and Wang, Siyuan and Xiao, Yao and Li, Bingxuan and Song, Yun and Shen, Xiaoyu and Chen, Wei and others},
booktitle={International Conference on Database Systems for Advanced Applications},
pages={304--321},
year={2024},
organization={Springer}
}
📄 许可证
本仓库中的源代码使用遵循 Apache 2.0 许可证。