L

Latxa 7b V1.2

由 HiTZ 开发
Latxa是基于LLaMA-2架构的巴斯克语大语言模型,专为低资源语言设计,在42亿token的巴斯克语料库上训练
下载量 875
发布时间 : 6/11/2024
模型介绍
内容详情
替代品

模型简介

Latxa系列模型包含7B至70B参数规模,针对巴斯克语优化,在语言理解和生成任务上表现优异,支持英语和巴斯克语

模型特点

低资源语言优化
专门针对巴斯克语等低资源语言设计,填补高低资源语言间的技术鸿沟
高质量语料训练
使用严格筛选的42亿token巴斯克语料库训练,确保语言质量
多规模可选
提供7B、13B和70B三种参数规模,满足不同计算需求
开放许可
遵循LLaMA-2许可协议,允许商业和研究用途

模型能力

巴斯克语文本生成
多选问答
阅读理解
语言理解
英语文本生成(辅助能力)

使用案例

教育
语言能力测试
用于评估巴斯克语C1水平考试题
在EusProficiency数据集上达到30.26%准确率(5样本)
阅读理解辅助
帮助学生理解巴斯克语文章内容
在EusReading数据集上达到25%准确率(5样本)
研究
低资源语言研究
为巴斯克语等低资源语言的大模型研究提供基准
发布完整工具链包括模型、语料库和评估数据集