L

Llama 2 7b Longlora 100k Ft

由 Yukang 开发
LongLoRA是一种高效的微调方法,能够在有限的计算成本下扩展预训练大语言模型的上下文长度。
下载量 1,053
发布时间 : 9/13/2023

模型简介

LongLoRA通过稀疏的局部注意力和改进的LoRA方法,显著降低了扩展上下文长度所需的计算资源,适用于需要处理长文本的任务。

模型特点

高效上下文扩展
通过偏移短注意力机制,在微调阶段使用稀疏局部注意力替代密集全局注意力,显著降低计算成本。
兼容现有技术
保留原始模型架构,与FlashAttention-2等现有技术兼容,便于集成到现有系统中。
多规模支持
提供从7B到70B不同规模的模型版本,支持8k到100k不等的上下文长度扩展。

模型能力

长上下文文本生成
长文档理解
问答系统
文本摘要

使用案例

文档处理
长文档问答
处理长达100k token的文档并回答相关问题
在LongQA数据集上表现良好
法律文书分析
解析和理解长篇法律文书
研究应用
学术论文理解
处理和理解长篇学术论文
AIbase
智启未来,您的人工智能解决方案智库
简体中文