base_model:
- meta-llama/Meta-Llama-3-70B
language:
- en
- ko
library_name: transformers
license: llama3
最新动态
- [2024.08.30] 预训练数据量扩充至250GB的Bllossom ELO模型已更新(未扩展词汇表)。如需使用原版长上下文扩展词汇模型,请私信联系!
- [2024.05.08] 词汇扩展模型更新
- [2024.04.25] 基于llama-3的Bllossom v2.0正式发布
- [2023/12] 基于Bllossom的多模态模型Bllossom-Vision v1.0发布
- [2023/08] 基于llama-2的Bllossom v1.0发布
- [2023/07] 基于polyglot-ko的Bllossom v0.7发布
我们Bllossom项目团队正式发布韩英双语模型Bllossom-70.8B!
这是首尔科技大学超级计算中心支持下,用超100GB韩语数据全参数微调的韩语增强型双语模型!
您是否在寻找擅长韩语的AI模型?
- 韩国首创!突破3万词汇量的韩语词表扩展
- 相比Llama3处理韩语上下文长度提升约25%
- 基于韩英平行语料库的知识关联预训练
- 采用语言学家定制的韩语文化适配数据进行指令微调
- 应用强化学习技术
集上述优势于一体且支持商用的Bllossom,助您打造专属AI模型!
GPU不足?可直接使用量化模型服务 [量化模型](https://huggingface.co/Bllossom/llama-3-Korean-Bllossom-70B-gguf-Q4_K_M)!!
1. Bllossom-70.8B是首尔科大、Teddysum公司与延世大学语言资源实验室语言学家协作开发的实用主义语言模型!将持续更新维护,欢迎多多使用 🙂
2. 我们还有超强性能的Advanced-Bllossom 8B/70B模型及视觉-语言模型!(感兴趣请私信咨询!!)
3. Bllossom相关成果已被NAACL2024和LREC-COLING2024(口头报告)收录
4. 我们将持续优化语言模型!诚邀韩语增强方向的合作研究(特别是论文合作)!
即便仅有少量GPU资源的团队也欢迎随时联系!我们愿助力实现您的创意
Bllossom是基于开源LLama3的韩英双语语言模型,通过以下特性强化了双语知识关联:
- 知识关联:通过额外训练建立韩英知识链接
- 词汇扩展:扩展韩语词表以增强表达力
- 指令微调:使用专为韩语文化定制的指令数据进行调优
- 人类反馈:应用了DPO优化
- 视觉对齐:视觉Transformer与本语言模型的对齐
本模型由首尔科大MLP实验室、Teddysum与延世大学联合开发
演示视频
Bllossom-V演示
Bllossom演示(Kakao)
示例代码
Colab教程
安装依赖
pip install torch transformers==4.40.0 accelerate
Pipeline调用方式
import transformers
import torch
model_id = "Bllossom/llama-3-Korean-Bllossom-70B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
pipeline.model.eval()
PROMPT = '''你是乐于助人的AI助手,请友好回答用户问题。당신은 유능한 AI 어시스턴트 입니다. 사용자의 질문에 대해 친절하게 답변해주세요.'''
instruction = "介绍下首尔科技大学MLP实验室"
messages = [
{"role": "system", "content": f"{PROMPT}"},
{"role": "user", "content": f"{instruction}"}
]
prompt = pipeline.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
terminators = [
pipeline.tokenizer.eos_token_id,
pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = pipeline(
prompt,
max_new_tokens=2048,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])
AutoModel调用方式
import os
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = 'Bllossom/llama-3-Korean-Bllossom-70B'
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
model.eval()
PROMPT = '''你是乐于助人的AI助手,请友好回答用户问题。당신은 유능한 AI 어시스턴트 입니다. 사용자의 질문에 대해 친절하게 답변해주세요.'''
instruction = "介绍下首尔科技大学MLP实验室"
messages = [
{"role": "system", "content": f"{PROMPT}"},
{"role": "user", "content": f"{instruction}"}
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
terminators = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = model.generate(
input_ids,
max_new_tokens=2048,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9
)
print(tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True))
支持机构
- 韩国人工智能融合院

引用文献
语言模型
@misc{bllossom,
author = {崔昌秀、郑容彬、朴瑞昀、元仁浩、林贤锡、金尚民、姜艺瑟、尹赞赫、朴在莞、李艺瑟、李惠珍、咸泳均、金汉森、林炅泰},
title = {多语言大语言模型的语种增强优化:以韩语为例},
year = {2024},
journal = {LREC-COLING 2024},
paperLink = {\url{https://arxiv.org/pdf/2403.10882}},
}
视觉语言模型
@misc{bllossom-V,
author = {申东宰、林贤锡、元仁浩、崔昌秀、金敏俊、宋承宇、柳韩决、金尚民、林炅泰},
title = {X-LLaVA:双语大视觉语言对齐优化},
year = {2024},
publisher = {GitHub},
journal = {NAACL 2024成果},
paperLink = {\url{https://arxiv.org/pdf/2403.11399}},
}
联系方式
- 林炅泰,首尔科大教授
ktlim@seoultech.ac.kr
- 咸泳均,Teddysum CEO
hahmyg@teddysum.ai
- 金汉森,延世大学教授
khss@yonsei.ac.kr
核心贡献者
- 崔昌秀 choics2623@seoultech.ac.kr
- 金尚民 sangmin9708@naver.com
- 元仁浩 wih1226@seoultech.ac.kr
- 金敏俊 mjkmain@seoultech.ac.kr
- 宋承宇 sswoo@seoultech.ac.kr
- 申东宰 dylan1998@seoultech.ac.kr
- 林贤锡 gustjrantk@seoultech.ac.kr
- 陆正勋 usually670@gmail.com
- 柳韩决 21102372@seoultech.ac.kr
- 宋书贤 alexalex225225@gmail.com