语言:
- gl
许可证:
- MIT
标签:
- 加利西亚语
- FLOR
- bloom
许可证: mit
推理参数:
top_k: 10
do_sample: true
temperature: 0.4
示例:
-
文本: |-
将这句英语翻译成加利西亚语:
英语: "my sister is studying Biology at the university."
加利西亚语: "a miña irmá está a estudar bioloxía na universidade."
将这句英语翻译成加利西亚语:
英语: "You are working with my mother on a very interesting project."
加利西亚语: "Estás a traballar coa miña nai nun proxecto moi interesante"
将这句英语翻译成加利西亚语:
英语: "You have to fix the computer now"
加利西亚语:
示例标题: 翻译
-
文本: |-
回答以下问题。
问题: "挪威的首都是哪里?"
回答: "挪威的首都是奥斯陆。"
回答以下问题。
问题: "葡萄牙的货币是什么"
回答: "葡萄牙的货币是欧元。"
回答以下问题。
问题: "瑞典的首都是哪里?"
回答:
示例标题: 问答
-
文本: |-
判断以下句子的情感是积极还是消极:
文本: "我非常开心"
极性: 积极
判断以下句子的情感是积极还是消极:
文本: "我不喜欢喝啤酒"
极性: 消极
判断以下句子的情感是积极还是消极:
文本: "我父亲讨厌他的工作"
极性: 消极
判断以下句子的情感是积极还是消极:
文本: "Uxía喜欢踢足球"
极性: 积极
判断以下句子的情感是积极还是消极:
文本: "孩子对成绩不满意"
极性:
示例标题: 情感分析
-
文本: |-
从以下文本中提取命名实体:
文本: "我叫Wolfgang,住在柏林"
实体: Wolfgang:PER, Berlin:LOC
从以下文本中提取命名实体:
文本: "María和Miguel没有任何问题"
实体: María:PER, Miguel:PER
从以下文本中提取命名实体:
文本: "巴塞罗那最棒的是我朋友Pablo的酒吧"
实体: Pablo:PER, Barcelona:LOC
从以下文本中提取命名实体:
文本: "Carlos和Marc合租"
实体:
示例标题: 命名实体识别(NER)
- 文本: 传统煎饼的配方是
示例标题: 煎饼
- 文本: 男孩住在靠近
示例标题: 男孩
Carballo-bloom-1.3B
目录
点击展开
模型描述
Carballo-bloom-1.3B是一个拥有13亿参数的基于Transformer的加利西亚语因果语言模型。它是在AINA项目开发的FLOR-1.3B(基于BLOOM-1.7B)基础上,使用加利西亚语语料库CorpusNos进行持续预训练的结果。
预期用途与限制
Carballo-bloom-1.3B模型目前仅支持因果语言建模任务。它可以执行文本生成任务,并针对特定场景进行微调。
使用方法
import torch
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
input_text = "今天天气很好。阳光"
model_id = "proxectonos/Carballo-bloom-1.3B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
generator = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto",
)
generation = generator(
input_text,
do_sample=True,
top_k=10,
eos_token_id=tokenizer.eos_token_id
)
print(f"生成结果: {generation[0]['generated_text']}")
训练过程
工具
训练使用了HuggingFace Transformers和Pytorch框架,基于因果语言建模脚本
语言适应与训练
Carballo-bloom-1.3B采用的语言适应技术与FLOR-1.3B相同,其作者在这篇Medium文章中进行了说明。主要步骤如下:
- 我们训练了专用的加利西亚语BPE分词器,替换了原始FLOR-1.3B的分词器和词汇表
- 对原始词汇表和目标词汇表中都存在的匹配token,保留其原始嵌入向量
- 新词汇的嵌入向量初始化为所有嵌入向量的平均值
- 模型使用FLOR-1.3B的权重初始化,并加载适配后的分词器(步骤1)和嵌入层(步骤2-3)
- 最后在加利西亚语语料库上进行训练
训练数据
CorpusNÓS是一个包含21亿单词的大规模加利西亚语语料库,专为训练大语言模型设计。语料来源多样,覆盖了较广的文本类型。
语料库结构如下:
子语料库 |
类型 |
词数 |
文档数 |
协议获取数据 |
图书 |
7,255,784 |
104 |
|
研究论文 |
2,665,351 |
664 |
|
新闻 |
124,253,084 |
224,419 |
|
政府文件 |
245,897,880 |
654,505 |
|
网络内容 |
15,946,686 |
44,165 |
|
百科 |
4,799,214 |
47,396 |
|
小计 |
400,817,999 |
971,253 |
子语料库 |
类型 |
词数 |
文档数 |
公开数据 |
新闻和博客 |
153,497,883 |
665,265 |
|
百科 |
57,164,848 |
184,628 |
|
网络爬取 |
1,384,015,664 |
3,366,449 |
|
翻译语料 |
133,726,004 |
4,745,799 |
|
小计 |
1,728,404,399 |
8,777,514 |
|
总计 |
2,129,222,398 |
9,748,767 |
下载地址(Zenodo) |
https://zenodo.org/records/10687642 |
|
|
训练超参数
- 随机种子: 42
- 设备数量: 1
- 训练批次大小: 2
- 评估批次大小: 2
- 梯度累积: 4
- 优化器: AdamW
- betas参数: (0.9,0.999)
- epsilon: 1e-08
- 权重衰减率: 0.1
- 学习率调度器: "Linear"
- 学习率: 5e-05
- 训练轮次: 1.2
训练框架
训练在加利西亚超级计算中心(CESGA)完成,使用了1个节点配备5块NVIDIA A100 GPU。
评估结果
模型 |
Belebele |
CoLA |
OpenBookQA |
Parafrases-gl |
PAWS-X |
Carballo-Bloom |
0.231±0.014 |
0.499±0.012 |
0.364±0.022 |
0.523±0.031 |
0.541±0.011 |
Carballo-Cerebras |
0.271±0.015 |
0.502±0.012 |
0.368±0.022 |
0.496±0.031 |
0.531±0.011 |
Bloom-1b1 |
0.234±0.014 |
0.507±0.012 |
0.338±0.021 |
0.485±0.031 |
0.508±0.011 |
Bloom-1b7 |
0.218±0.014 |
0.500±0.012 |
0.338±0.021 |
0.539±0.031 |
0.539±0.011 |
mGPT |
0.229±0.014 |
0.494±0.012 |
0.332±0.021 |
0.423±0.031 |
0.517±0.011 |
Flor-1.3B |
0.220±0.014 |
0.504±0.012 |
0.342±0.021 |
0.516±0.031 |
0.536±0.011 |
Cerebras-1.3B |
0.221±0.014 |
0.497±0.012 |
0.300±0.021 |
0.492±0.031 |
0.531±0.011 |
附加信息
联系方式
如需更多信息,请发送邮件至proxecto.nos@usc.gal
许可证
MIT许可证
版权所有(c) 2024 Nós项目
特此免费授予任何获得本软件及相关文档文件(以下简称"软件")副本的人不受限制地使用本软件的权利,包括但不限于使用、复制、修改、合并、发布、分发、再许可和/或销售本软件副本的权利,并允许获得本软件的人这样做,但须符合以下条件:
上述版权声明和本许可声明应包含在本软件的所有副本或主要部分中。
本软件按"原样"提供,不作任何明示或暗示的保证,包括但不限于对适销性、特定用途适用性和非侵权性的保证。在任何情况下,作者或版权持有人均不对任何索赔、损害或其他责任负责,无论是在合同诉讼、侵权诉讼或其他诉讼中,由软件或软件的使用或其他交易引起、由软件引起或与之相关的。
资助声明
本模型的开发属于Nós项目的一部分,由西班牙数字转型与公共职能部资助 - 资金来自欧盟NextGenerationEU计划,项目编号2022/TL22/00215336,属于ILENIA项目框架。
引用方式
如果使用本模型,请引用以下论文:
Gamallo, Pablo, Pablo Rodríguez Fernández, Iria de Dios Flores, Susana Sotelo, Silvia Paniagua, José Ramom Pichel, Daniel Bardanca, Marcos Garcia (2024) "加利西亚语开放生成大语言模型", Procesamiento del Lenguaje Natural, 73期, 259-270页. ISSN: 1135-5948.