语言:
- 英语
- 韩语
许可证: 其他
标签:
- facebook
- meta
- pytorch
- llama
- llama-3
- llama-3-ko
任务类型: 文本生成
许可证名称: llama3
许可证链接: LICENSE
Llama-3-Open-Ko-8B-Instruct-preview(Llama-3-开放韩语-8B指令预览版)
2024.05.01更新:预发布Llama-3-KoEn-8B模型及Llama-3-KoEn-8B-Instruct-preview指令模型
2024.04.24更新:发布Llama-3-Open-Ko-8B基础模型和Llama-3-Open-Ko-8B-Instruct-preview指令模型
模型详情
Llama-3-开放韩语-8B指令预览版
本模型是基于Llama-3-8B继续预训练的语言模型,完全使用公开可获取的资源训练,数据量达60GB+经过去重的文本。采用新版Llama-3分词器,训练token数量超过177亿,略高于韩语专用分词器(Llama-2-Ko分词器)。训练在Google TRC项目支持下,使用TPUv5e-256集群完成。
受Chat Vector论文启发,我们发布了名为Llama-3-Open-Ko-8B-Instruct-preview的指令模型。虽然该模型尚未使用任何韩语指令集进行微调(目前为预览版
),但将成为创建新对话/指令模型的优质起点。
使用示例
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "beomi/Llama-3-Open-Ko-8B-Instruct-preview"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype="auto",
device_map="auto",
)
messages = [
{"role": "system", "content": "作为友善的聊天机器人,请尽可能详细且礼貌地回应对方请求。所有回答请使用韩语。"},
{"role": "user", "content": "什么是斐波那契数列?能用Python写个斐波那契数列的代码吗?"},
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
terminators = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = model.generate(
input_ids,
max_new_tokens=512,
eos_token_id=terminators,
do_sample=True,
temperature=1,
top_p=0.9,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))
示例输出
(此处保留韩语输出原文,因其为演示模型韩语能力的核心内容)
更多示例
(以下对话示例均保持韩语原文,展示模型对韩国历史、文化等主题的理解能力)
-
关于韩国制宪宪法
模型详细说明了1948年韩国宪法的制定背景、三权分立原则、国民主权等核心内容,展现了对韩国政治制度的理解。
-
李舜臣将军生平
准确描述这位朝鲜时代抗倭名将的出生年份(1545年)、主要战绩(鸣梁海战等)和历史地位,包含具体年代和战役细节。
-
世宗大王"集贤殿MacBook投掷事件"
针对这个虚构历史事件(注:实际为测试模型创造力的假设性问题),模型构建了完整的背景故事:1399年因学术争论引发,涉及《周解》与《医山录》的学术争议,展示了处理虚构历史场景的能力。
-
数学应用题解答
正确解答"现有5个苹果,昨天吃掉2个,剩余数量"的基础数学问题,并附有友好表情符号😉,体现交互亲和力。
(注:所有韩语输出内容均保留原貌,此处仅作格式调整。实际使用时可观察到模型在保持韩国语敬语体系、历史专有名词准确性等方面的表现。)