语言:
- 英文
- 日文
库名称: transformers
管道标签: 文本生成
许可证:
- gemma
- llama3.3
数据集:
- tokyotech-llm/lmsys-chat-1m-synth
- tokyotech-llm/swallow-magpie-ultra-v0.1
- tokyotech-llm/swallow-gemma-magpie-v0.1
- lmsys/lmsys-chat-1m
- argilla/magpie-ultra-v0.1
Gemma-2-Llama-Swallow
Gemma-2-Llama-Swallow系列是通过对gemma-2模型进行持续预训练构建的。Gemma 2 Swallow在保留原有英文能力的同时,显著增强了日文语言处理能力。我们使用了约2000亿token的日文网络语料(Swallow Corpus Version 2)、日英维基百科条目、数学与编程内容等混合数据(详见基础模型的训练数据集部分)进行持续预训练。指令微调版本(it)则通过专门为日语构建的合成数据进行监督式微调(SFT)。其他模型变体请参阅Swallow模型索引部分。基于Gemma构建。基于Llama构建。
发布历史
Swallow模型索引

Swallow团队开发的大语言模型详情请访问网站https://swallow-llm.github.io/。
模型详情
模型性能
日语MT-Bench
(性能对比表格保持原格式,内容略)
日语任务评估
(性能对比表格保持原格式,内容略)
英语任务评估
(性能对比表格保持原格式,内容略)
评估基准
评估脚本详见swallow-llm/swallow-evaluation,标记为v202411
。
日语MT-Bench
使用日语MT-Bench评估多轮对话能力,设置如下:
(其余评估基准说明保持原格式,内容略)
使用方式
pip install vllm
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
model_name = "tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
model=model_name,
tensor_parallel_size=1,
)
sampling_params = SamplingParams(
temperature=0.6, top_p=0.9, max_tokens=512,
)
message = [
{
"role": "user",
"content": "日本の春から夏の移り変わりについて教えてください",
},
]
prompt = tokenizer.apply_chat_template(
message, tokenize=False, add_generation_prompt=True
)
output = llm.generate(prompt, sampling_params)
print(output[0].outputs[0].text)
训练数据集
指令微调
使用以下数据集进行指令微调:
风险与限制
当前发布模型仍处于研发早期阶段,尚未充分优化以确保输出符合人类意图与安全考量。
致谢
感谢Google DeepMind以开放许可发布Gemma 2。
我们获得了多方支持:
- AIST项目:"物理领域生成式AI基础模型研发"
- NEDO项目:"基于专家视角的设计风险评估AI辅助技术开发"(JPNP18002)
- MEXT项目:"生成式AI模型透明度与可靠性研发中心建设"
- AIST计划:大规模生成式AI开发支持计划
- TPU Research Cloud
许可
Gemma使用条款及META LLAMA 3.3社区许可
作者团队
成员包括:
- 东京工业大学冈崎实验室:
- 东京工业大学横田实验室:
- 日本产业技术综合研究所人工智能研究中心:
引用方式
若认为我们的工作有帮助,请引用以下论文:
(引用文献格式保持原样)