许可协议:llama2
支持语言:
ELYZA日语Llama-2-7b模型

模型说明
ELYZA日语Llama-2-7b是基于Llama2架构,通过追加预训练扩展日语能力的语言模型。
详情请参阅技术博客。
使用方式
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
B_INST, E_INST = "[指令开始]", "[指令结束]"
B_SYS, E_SYS = "<<系统>>\n", "\n<<系统结束>>\n\n"
DEFAULT_SYSTEM_PROMPT = "你是一位诚实可靠的日本智能助手。"
text = "请创作一篇短篇小说,讲述熊去海边与海豹成为朋友,最终回家的故事。"
model_name = "elyza/ELYZA-japanese-Llama-2-7b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto")
if torch.cuda.is_available():
model = model.to("cuda")
prompt = "{起始符}{指令开始} {系统提示}{内容} {指令结束} ".format(
起始符=tokenizer.bos_token,
指令开始=B_INST,
系统提示=f"{B_SYS}{DEFAULT_SYSTEM_PROMPT}{E_SYS}",
内容=text,
指令结束=E_INST,
)
with torch.no_grad():
token_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
output_ids = model.generate(
token_ids.to(model.device),
max_new_tokens=256,
pad_token_id=tokenizer.pad_token_id,
eos_token_id=tokenizer.eos_token_id,
)
output = tokenizer.decode(output_ids.tolist()[0][token_ids.size(1) :], skip_special_tokens=True)
print(output)
"""
明白了。以下是关于熊去海边与海豹成为朋友,最终回家的短篇小说:
熊正在山林里酣睡。
沉睡中的熊梦见自己漫步在海边。
那里有只海豹。
熊主动向海豹搭话。
"早上好"熊说道,海豹惊讶地抬起头。
"啊,你好"海豹回应。
熊想和海豹做朋友。
"我是熊先生。"熊继续说着...
"""
ELYZA日语Llama-2-7b系列模型
开发团队
(按字母顺序排列)
许可协议
Llama 2采用LLAMA 2社区许可协议,版权归Meta Platforms, Inc.所有。
引用格式
@misc{elyzallama2023,
title={ELYZA日语Llama-2-7b},
url={https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b},
author={Akira Sasaki and Masato Hirakawa and Shintaro Horie and Tomoaki Nakamura},
year={2023},
}
参考文献
@misc{touvron2023llama,
title={Llama 2:开放基础与微调对话模型},
author={Hugo Touvron等83位作者},
year={2023},
eprint={2307.09288},
archivePrefix={arXiv},
primaryClass={cs.CL}
}