Albert Large Chinese Cluecorpussmall
基于UER-py框架预训练的中文ALBERT模型,使用CLUECorpusSmall语料训练,适用于中文文本处理任务。
下载量 17
发布时间 : 3/2/2022
模型简介
该模型是轻量级的ALBERT中文版本,主要用于中文文本的掩码语言建模和特征提取任务。
模型特点
轻量级设计
采用ALBERT架构,通过参数共享技术减少模型参数,保持性能的同时降低计算资源需求。
中文优化
专门针对中文文本进行预训练,使用CLUECorpusSmall语料库,适应中文语言特点。
多阶段训练
采用两阶段训练策略,先以短序列训练,再以长序列微调,提升模型性能。
模型能力
文本特征提取
掩码语言预测
中文文本理解
使用案例
文本补全
中文文本掩码预测
预测被[MASK]标记的中文词语
示例中'中国的首都是[MASK]京'预测为'北京',准确率85.28%
文本特征提取
中文文本表示学习
获取中文文本的向量表示
可用于下游任务如分类、聚类等
🚀 中文ALBERT模型
中文ALBERT模型是专为中文自然语言处理任务设计的预训练语言模型,它基于ALBERT架构,在大规模中文语料上进行预训练,能够为各种下游任务提供强大的语言理解能力。
🚀 快速开始
你可以直接使用文本生成管道来使用该模型:
>>> from transformers import BertTokenizer, AlbertForMaskedLM, FillMaskPipeline
>>> tokenizer = BertTokenizer.from_pretrained("uer/albert-base-chinese-cluecorpussmall")
>>> model = AlbertForMaskedLM.from_pretrained("uer/albert-base-chinese-cluecorpussmall")
>>> unmasker = FillMaskPipeline(model, tokenizer)
>>> unmasker("中国的首都是[MASK]京。")
[
{'sequence': '中 国 的 首 都 是 北 京 。',
'score': 0.8528032898902893,
'token': 1266,
'token_str': '北'},
{'sequence': '中 国 的 首 都 是 南 京 。',
'score': 0.07667620480060577,
'token': 1298,
'token_str': '南'},
{'sequence': '中 国 的 首 都 是 东 京 。',
'score': 0.020440367981791496,
'token': 691,
'token_str': '东'},
{'sequence': '中 国 的 首 都 是 维 京 。',
'score': 0.010197942145168781,
'token': 5335,
'token_str': '维'},
{'sequence': '中 国 的 首 都 是 汴 京 。',
'score': 0.0075391442514956,
'token': 3745,
'token_str': '汴'}
]
以下是在PyTorch中使用该模型获取给定文本特征的方法:
from transformers import BertTokenizer, AlbertModel
tokenizer = BertTokenizer.from_pretrained("uer/albert-base-chinese-cluecorpussmall")
model = AlbertModel.from_pretrained("uer/albert-base-chinese-cluecorpussmall")
text = "用你喜欢的任何文本替换我。"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
在TensorFlow中的使用方法如下:
from transformers import BertTokenizer, TFAlbertModel
tokenizer = BertTokenizer.from_pretrained("uer/albert-base-chinese-cluecorpussmall")
model = TFAlbertModel.from_pretrained("uer/albert-base-chinese-cluecorpussmall")
text = "用你喜欢的任何文本替换我。"
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
✨ 主要特性
这是由 UER-py 预训练的一组中文ALBERT模型,相关内容在 这篇论文 中有所介绍。此外,这些模型也可以通过 TencentPretrain 进行预训练,该工具在 这篇论文 中有介绍,它继承了UER-py,支持参数超过十亿的模型,并将其扩展为多模态预训练框架。
你可以从 UER-py模型库页面 下载模型,也可以通过HuggingFace从以下链接下载:
模型 | 链接 |
---|---|
ALBERT-Base | L=12/H=768 (Base) |
ALBERT-Large | L=24/H=1024 (Large) |
📦 安装指南
文档中未提及安装相关内容,若有需要可参考对应工具(如UER-py、TencentPretrain、transformers库等)的官方安装文档。
💻 使用示例
基础用法
# 使用文本生成管道直接使用模型
>>> from transformers import BertTokenizer, AlbertForMaskedLM, FillMaskPipeline
>>> tokenizer = BertTokenizer.from_pretrained("uer/albert-base-chinese-cluecorpussmall")
>>> model = AlbertForMaskedLM.from_pretrained("uer/albert-base-chinese-cluecorpussmall")
>>> unmasker = FillMaskPipeline(model, tokenizer)
>>> unmasker("中国的首都是[MASK]京。")
[
{'sequence': '中 国 的 首 都 是 北 京 。',
'score': 0.8528032898902893,
'token': 1266,
'token_str': '北'},
{'sequence': '中 国 的 首 都 是 南 京 。',
'score': 0.07667620480060577,
'token': 1298,
'token_str': '南'},
{'sequence': '中 国 的 首 都 是 东 京 。',
'score': 0.020440367981791496,
'token': 691,
'token_str': '东'},
{'sequence': '中 国 的 首 都 是 维 京 。',
'score': 0.010197942145168781,
'token': 5335,
'token_str': '维'},
{'sequence': '中 国 的 首 都 是 汴 京 。',
'score': 0.0075391442514956,
'token': 3745,
'token_str': '汴'}
]
高级用法
在不同深度学习框架中获取文本特征:
# 在PyTorch中获取文本特征
from transformers import BertTokenizer, AlbertModel
tokenizer = BertTokenizer.from_pretrained("uer/albert-base-chinese-cluecorpussmall")
model = AlbertModel.from_pretrained("uer/albert-base-chinese-cluecorpussmall")
text = "用你喜欢的任何文本替换我。"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
# 在TensorFlow中获取文本特征
from transformers import BertTokenizer, TFAlbertModel
tokenizer = BertTokenizer.from_pretrained("uer/albert-base-chinese-cluecorpussmall")
model = TFAlbertModel.from_pretrained("uer/albert-base-chinese-cluecorpussmall")
text = "用你喜欢的任何文本替换我。"
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
📚 详细文档
训练数据
使用 CLUECorpusSmall 作为训练数据。
训练过程
该模型在 腾讯云 上使用 UER-py 进行预训练。我们以序列长度为128进行了1,000,000步的预训练,然后以序列长度为512额外进行了250,000步的预训练。在不同模型大小上使用相同的超参数。
以ALBERT-Base为例:
阶段1:
python3 preprocess.py --corpus_path corpora/cluecorpussmall_bert.txt \
--vocab_path models/google_zh_vocab.txt \
--dataset_path cluecorpussmall_albert_seq128_dataset.pt \
--seq_length 128 --processes_num 32 --data_processor albert
python3 pretrain.py --dataset_path cluecorpussmall_albert_seq128_dataset.pt \
--vocab_path models/google_zh_vocab.txt \
--config_path models/albert/base_config.json \
--output_model_path models/cluecorpussmall_albert_base_seq128_model.bin \
--world_size 8 --gpu_ranks 0 1 2 3 4 5 6 7 \
--total_steps 1000000 --save_checkpoint_steps 100000 --report_steps 50000 \
--learning_rate 1e-4 --batch_size 64
阶段2:
python3 preprocess.py --corpus_path corpora/cluecorpussmall_bert.txt \
--vocab_path models/google_zh_vocab.txt \
--dataset_path cluecorpussmall_albert_seq512_dataset.pt \
--seq_length 512 --processes_num 32 --data_processor albert
python3 pretrain.py --dataset_path cluecorpussmall_albert_seq512_dataset.pt \
--vocab_path models/google_zh_vocab.txt \
--pretrained_model_path models/cluecorpussmall_albert_base_seq128_model.bin-1000000 \
--config_path models/albert/base_config.json \
--output_model_path models/cluecorpussmall_albert_base_seq512_model.bin \
--world_size 8 --gpu_ranks 0 1 2 3 4 5 6 7 \
--total_steps 1000000 --save_checkpoint_steps 100000 --report_steps 50000 \
--learning_rate 1e-4 --batch_size 64
最后,我们将预训练模型转换为Huggingface格式:
python3 scripts/convert_albert_from_uer_to_huggingface.py --input_model_path models/cluecorpussmall_albert_base_seq512_model.bin-1000000 \
--output_model_path pytorch_model.bin
BibTeX引用和引用信息
@article{lan2019albert,
title={Albert: A lite bert for self-supervised learning of language representations},
author={Lan, Zhenzhong and Chen, Mingda and Goodman, Sebastian and Gimpel, Kevin and Sharma, Piyush and Soricut, Radu},
journal={arXiv preprint arXiv:1909.11942},
year={2019}
}
@article{zhao2019uer,
title={UER: An Open-Source Toolkit for Pre-training Models},
author={Zhao, Zhe and Chen, Hui and Zhang, Jinbin and Zhao, Xin and Liu, Tao and Lu, Wei and Chen, Xi and Deng, Haotang and Ju, Qi and Du, Xiaoyong},
journal={EMNLP-IJCNLP 2019},
pages={241},
year={2019}
}
@article{zhao2023tencentpretrain,
title={TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities},
author={Zhao, Zhe and Li, Yudong and Hou, Cheng and Zhao, Jing and others},
journal={ACL 2023},
pages={217},
year={2023}
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文