license: apache-2.0
pipeline_tag: text-generation
language:
- en
- he
tags:
- pretrained
inference:
parameters:
temperature: 0.7

大语言模型希伯来语适配:揭秘增强词汇与指令能力的DictaLM 2.0
DictaLM-2.0大语言模型(LLM)是一个拥有70亿参数的预训练生成文本模型,专为希伯来语文本优化。
关于本模型的完整详情,请阅读我们的发布博客或技术报告。
此为全精度基础模型。
您可在此查看并访问DictaLM-2.0
全系列基础/指令、未量化/量化版本合集。
示例代码
from transformers import pipeline
import torch
model = pipeline('text-generation', 'dicta-il/dictalm2.0', torch_dtype=torch.bfloat16, device_map='cuda')
prompt = """
过去时: 我走了
将来时: 我将走
过去时: 我守护了
将来时: 我将守护
过去时: 我听到了
将来时: 我将听到
过去时: 我理解了
将来时:
"""
print(model(prompt.strip(), do_sample=False, max_new_tokens=8, stop_sequence='\n'))
4比特量化示例代码
我们已提供采用GPTQ
和AWQ
方法的预量化4比特模型:DictaLM-2.0-AWQ与DictaLM-2.0-GPTQ。
如需动态量化,以下示例代码通过bitsandbytes
包将模型加载至GPU:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model = AutoModelForCausalLM.from_pretrained('dicta-il/dictalm2.0', torch_dtype=torch.bfloat16, device_map='cuda', load_in_4bit=True)
tokenizer = AutoTokenizer.from_pretrained('dicta-il/dictalm2.0')
prompt = """
过去时: 我走了
将来时: 我将走
过去时: 我守护了
将来时: 我将守护
过去时: 我听到了
将来时: 我将听到
过去时: 我理解了
将来时:
"""
encoded = tokenizer(prompt.strip(), return_tensors='pt').to(model.device)
print(tokenizer.batch_decode(model.generate(**encoded, do_sample=False, max_new_tokens=4)))
模型架构
DictaLM-2.0基于Mistral-7B-v0.1模型,主要改进包括:
- 扩展的分词器新增1,000个希伯来语专用标记,将压缩率从5.78标记/词提升至2.76标记/词
- 在1900亿标记的自然文本(50%希伯来语+50%英语)上持续预训练
注意事项
DictaLM 2.0是预训练基础模型,未内置内容审核机制。
引用
若使用本模型,请引用:
@misc{shmidman2024adaptingllmshebrewunveiling,
title={大语言模型希伯来语适配:揭秘增强词汇与指令能力的DictaLM 2.0},
author={Shaltiel Shmidman and Avi Shmidman and Amir DN Cohen and Moshe Koppel},
year={2024},
eprint={2407.07080},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.07080},
}