license: apache-2.0
language:
- en
- he
library_name: transformers
希伯来语-Mistral-7B大模型
希伯来语-Mistral-7B是一个基于Mistral的Mistral-7B-v1.0框架、拥有70亿参数的开源大语言模型(LLM),支持希伯来语和英语预训练。
该模型扩展了包含64,000个标记的希伯来语分词器,并在Mistral-7B基础上持续进行了英语和希伯来语文本的预训练。
最终形成的模型是一个功能强大的通用语言模型,适用于各类自然语言处理任务,尤其擅长希伯来语的理解与生成。
使用指南
以下快速入门代码片段展示如何运行模型。请先执行pip install -U transformers
安装依赖,然后根据使用场景选择对应代码段。
CPU环境运行
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
input_text = "你好!今天过得怎么样?"
input_ids = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
GPU环境运行
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Mistral-7B", device_map="auto")
input_text = "你好!今天过得怎么样?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
4比特精度模式运行
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Mistral-7B", quantization_config = BitsAndBytesConfig(load_in_4bit=True))
input_text = "你好!今天过得怎么样?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0])
重要说明
希伯来语-Mistral-7B是预训练基础模型,未内置任何内容审核机制。
开发团队
- 训练负责人:Yam Peleg
- 合作方:Jonathan Rouach与Arjeo公司