Openthaigpt 1.0.0 13b Chat

由 openthaigpt 开发

OpenThaiGPT 13b 1.0.0是基于LLaMA v2的130亿参数泰语聊天模型，专门针对泰语指令进行了优化

大型语言模型

支持多种语言

#泰语大模型 #多轮对话 #检索增强生成

下载量 181

发布时间 : 4/4/2024

模型介绍

内容详情

替代品

模型简介

这是一个针对泰语优化的开源大语言模型，支持泰语和英语，专注于问答和对话任务，在多项泰语考试中表现优异

模型特点

领先的泰语能力

在多项泰语考试中平均得分最高，超越其他开源泰语LLM

优化的词典设计

整合超过10,000个常用泰语词汇，使生成速度提升十倍

大规模训练数据

基于超过650亿泰语词汇预训练，并微调了100万条泰语指令示例

长上下文支持

能够处理最多4096个泰语单词的输入上下文

多轮对话能力

支持扩展的多轮对话交互

模型能力

泰语文本生成

英语文本生成

问答系统

对话系统

检索增强生成(RAG)

使用案例

教育

泰语考试辅导

帮助学生准备泰语相关考试

在多项泰语考试中表现优异

客服

泰语客服机器人

提供泰语客户服务支持

能够处理复杂的泰语查询

内容创作

泰语内容生成

生成泰语文章、故事等内容

生成流畅自然的泰语文本

license: llama2 language:

泰语
英语 library_name: transformers pipeline_tag: 文本生成 tags:
openthaigpt
llama

🇹🇭 OpenThaiGPT 13b 1.0.0

OpenThaiGPT
更多信息

🇹🇭 OpenThaiGPT 13b 1.0.0版本是2024年4月8日发布的基于LLaMA v2的130亿参数泰语聊天模型。该模型专门针对泰语指令进行了微调，并通过在大型语言模型（LLM）词典中整合超过10,000个最常用泰语词汇，显著提升了响应速度。

亮点

领先的泰语LLM，在与所有其他开源泰语LLM的比较中，多项泰语考试平均得分最高，树立了新标杆。
首个700亿参数泰语开源LLM，在泰语考试中得分超过OpenAI GPT 3.5、Google Gemini和Claude 3 Haiku。
支持多轮扩展对话。
支持**检索增强生成（RAG）**用例，以丰富响应生成。
生成速度提升十倍，得益于模型词典中新增的10,000个常用泰语词汇。
基于超过650亿泰语词汇进行预训练，并精心微调了超过100万条泰语指令示例。
能够理解和处理最多4096个泰语单词的输入上下文，支持详细和复杂的指令。

OpenThaiGPT评估基准

**请查看OTG 13b (2024年4月)以获取本模型的评估结果。

考试	OTG 7b (2023年8月)	OTG 13b (2023年12月)	OTG 7b (2024年4月)	OTG 13b (2024年4月)	OTG 70b (2024年4月)	SeaLLM 7b v1	SeaLLM 7b v2	SeaLion 7b	WanchanGLM 7b	Sailor-7b-Chat	TyphoonGPT 7b Instruct	GPT3.5	GPT4	Gemini Pro	Gemini 1.5	Claude 3 Haiku	Claude 3 Sonnet	Claude 3 Opus
A-Level	17.50%	34.17%	25.00%	30.83%	45.83%	18.33%	34.17%	21.67%	17.50%	40.00%	37.50%	38.33%	65.83%	56.67%	55.83%	58.33%	59.17%	77.50%
TGAT	24.00%	22.00%	22.00%	36.00%	36.00%	14.00%	28.00%	24.00%	16.00%	34.00%	30.00%	28.00%	44.00%	22.00%	28.00%	36.00%	34.00%	46.00%
TPAT1	22.50%	47.50%	42.50%	27.50%	62.50%	22.50%	27.50%	22.50%	17.50%	40.00%	47.50%	45.00%	52.50%	52.50%	50.00%	52.50%	50.00%	62.50%
thai_investment_consultant_exams	8.00%	28.00%	76.00%	84.00%	68.00%	16.00%	28.00%	24.00%	16.00%	24.00%	32.00%	40.00%	64.00%	52.00%	32.00%	44.00%	64.00%	72.00%
facebook_beleble_tha_200	25.00%	45.00%	34.50%	39.50%	70.00%	13.50%	51.00%	27.00%	24.50%	63.00%	51.50%	50.00%	72.50%	65.00%	74.00%	63.50%	77.00%	90.00%
xcopa_th_200	45.00%	56.50%	49.50%	51.50%	74.50%	26.50%	47.00%	51.50%	48.50%	68.50%	65.00%	64.00%	82.00%	68.00%	74.00%	64.00%	80.00%	86.00%
xnli2.0_th_200	33.50%	34.50%	39.50%	31.00%	47.00%	21.00%	43.00%	37.50%	33.50%	16.00%	20.00%	50.00%	69.00%	53.00%	54.50%	50.00%	68.00%	68.50%
ONET M3	17.85%	38.86%	34.11%	39.36%	56.15%	15.58%	23.92%	21.79%	19.56%	21.37%	28.03%	37.91%	49.97%	55.99%	57.41%	52.73%	40.60%	63.87%
ONET M6	21.14%	28.87%	22.53%	23.32%	42.85%	15.09%	19.48%	16.96%	20.67%	28.64%	27.46%	34.44%	46.29%	45.53%	50.23%	34.79%	38.49%	48.56%
平均得分	23.83%	37.27%	38.40%	40.33%	55.87%	18.06%	33.56%	27.44%	23.75%	37.28%	37.67%	43.07%	60.68%	52.30%	52.89%	50.65%	56.81%	68.32%
泰语多项选择题考试，测试未见过的测试集，零样本学习。基准源代码和考试信息：https://github.com/OpenThaiGPT/openthaigpt_eval

（更新于：2024年4月7日）

外部评估（Float16.cloud）的M3Exam基准

模型	英语 (M3EXAM)	泰语 (M3EXAM)
OTG-7b	40.92 %	25.14 %
OTG-13b	53.69 %	36.49 %
OTG-70b	72.58 %	48.29 %
GPT-3.5-turbo-0613*	-	34.1 %
GPT-4-0613*	-	56.0 %
更多信息：https://blog.float16.cloud/the-first-70b-thai-llm/

许可证

源代码：Apache Software License 2.0许可证。
权重：研究和商业用途。

赞助商

支持

官方网站：https://openthaigpt.aieat.or.th
Facebook页面：https://web.facebook.com/groups/openthaigpt
讨论和支持的Discord服务器这里
电子邮件：kobkrit@aieat.or.th

提示格式

提示格式基于Llama2，并进行了小幅修改（添加“###”以指定上下文部分）

<s>[INST] <<SYS>
{system_prompt}
<</SYS>>

{human_turn1}###{context_turn1} [/INST]{assistant_turn1}</s><s>{human_turn2}###{context_turn2} [/INST] ...

系统提示：

你是一个问答助手。尽可能真实和有帮助地回答这个问题 คุณคือผู้ช่วยตอบคำถาม จงตอบคำถามอย่างถูกต้องและมีประโยชน์ที่สุด

示例

单轮对话示例

<s>[INST] <<SYS>
你是一个问答助手。尽可能真实和有帮助地回答这个问题 คุณคือผู้ช่วยตอบคำถาม จงตอบคำถามอย่างถูกต้องและมีประโยชน์ที่สุด
<</SYS>>

สวัสดีครับ [/INST]

带上下文的单轮对话（RAG）示例

<s>[INST] <<SYS>
你是一个问答助手。尽可能真实和有帮助地回答这个问题 คุณคือผู้ช่วยตอบคำถาม จงตอบคำถามอย่างถูกต้องและมีประโยชน์ที่สุด
<</SYS>>

กรุงเทพมีพื้นที่เท่าไร่###กรุงเทพมหานคร เป็นเมืองหลวง นครและมหานครที่มีประชากรมากที่สุดของประเทศไทย กรุงเทพมหานครมีพื้นที่ทั้งหมด 1,568.737 ตร.กม. มีประชากรตามทะเบียนราษฎรกว่า 8 ล้านคน [/INST]

多轮对话示例

第一轮

<s>[INST] <<SYS>
你是一个问答助手。尽可能真实和有帮助地回答这个问题 คุณคือผู้ช่วยตอบคำถาม จงตอบคำถามอย่างถูกต้องและมีประโยชน์ที่สุด
<</SYS>>

สวัสดีครับ [/INST]

第二轮

<s>[INST] <<SYS>
你是一个问答助手。尽可能真实和有帮助地回答这个问题 คุณคือผู้ช่วยตอบคำถาม จงตอบคำถามอย่างถูกต้องและมีประโยชน์ที่สุด
<</SYS>>

สวัสดีครับ [/INST]สวัสดีค่ะ มีคำถามอะไร ถามได้เลย</s><s>ขอสูตรทำส้มตำหน่อย [/INST]

第三轮

<s>[INST] <<SYS>
你是一个问答助手。尽可能真实和有帮助地回答这个问题 คุณคือผู้ช่วยตอบคำถาม จงตอบคำถามอย่างถูกต้องและมีประโยชน์ที่สุด
<</SYS>>

สวัสดีครับ [/INST]สวัสดีค่ะ มีคำถามอะไร ถามได้เลย</s><s>ขอสูตรทำส้มตำหน่อย [/INST]ได้เลยค่ะ ส้มตำเป็นเมนูที่ทำง่ายและอร่อย มาเริ่มกันเลยนะคะ</s><s>เริ่มได้เลย [/INST]

第四轮

<s>[INST] <<SYS>
你是一个问答助手。尽可能真实和有帮助地回答这个问题 คุณคือผู้ช่วยตอบคำถาม จงตอบคำถามอย่างถูกต้องและมีประโยชน์ที่สุด
<</SYS>>

สวัสดีครับ [/INST]สวัสดีค่ะ มีคำถามอะไร ถามได้เลย</s><s>ขอสูตรทำส้มตำหน่อย [/INST]ได้เลยค่ะ ส้มตำเป็นเมนูที่ทำง่ายและอร่อย มาเริ่มกันเลยนะคะ</s><s>เริ่มได้เลย [/INST]
ตำไทยเป็นเมนูที่ใครๆ ก็คุ้นเคย ด้วยรสชาติที่กลมกล่อม หวาน เปรี้ยว เค็ม เผ็ด ครบรส วันนี้เราจะมาทำส้มตำด้วยกันค่ะ สิ่งแรกที่ต้องมีคือเครื่องปรุงดังนี้
- มะละกอดิบ 1 ลูก
- กุ้งแห้ง 1/2 ถ้วย
- กระเทียม 3 กลีบ
- พริกขี้หนู 3 เม็ด
- น้ำตาลปี๊บ 1 ช้อนโต๊ะ
- น้ำปลา 2 ช้อนโต๊ะ
- มะนาว 1 ลูก
- งาขาวคั่ว 1/4 ถ้วย

วิธีทำมีดังนี้ค่ะ
1. เริ่มจากล้างมะละกอให้สะอาด แล้วใช้มีดปอกเปลือก เอาไส้ออก หั่นเป็นเส้นบางๆ เตรียมไว้
2. ตำกุ้งแห้งให้ละเอียด แล้วตักขึ้นพักไว้
3. ใช้ครกหินหรือเครื่องปั่น บดพริกขี้หนูกับกระเทียมให้ละเอียด
4. ใส่กุ้งแห้งที่ตำแล้วลงไปผสม ตามด้วยน้ำตาลปี๊บ น้ำปลา มะนาว และเส้นมะละกอ คลุกเคล้าให้เข้ากัน
5. ชิมรสให้ได้รสหวาน เปรี้ยว เค็ม เผ็ด จากนั้นตักขึ้นเสิร์ฟพร้อมผักสด อาทิ กะหล่ำปลี ถั่วงอก แครอท ผักบุ้ง</s><s>ขอบคุณครับ [/INST]

带上下文的多轮对话（RAG）示例

<s>[INST] <<SYS>
你是一个问答助手。尽可能真实和有帮助地回答这个问题 คุณคือผู้ช่วยตอบคำถาม จงตอบคำถามอย่างถูกต้องและมีประโยชน์ที่สุด
<</SYS>>

กรุงเทพมีพื้นที่เท่าไร่###กรุงเทพมหานคร เป็นเมืองหลวง นครและมหานครที่มีประชากรมากที่สุดของประเทศไทย กรุงเทพมหานครมีพื้นที่ทั้งหมด 1,568.737 ตร.กม. มีประชากรตามทะเบียนราษฎรกว่า 8 ล้านคน [/INST]
กรุงเทพมหานครมีพื้นที่ทั้งหมด 1,568.737 ตร.กม.</s><s>และประชากรล่ะ [/INST]

使用方法

Huggingface

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 确保CUDA可用
device = 'cuda' if torch.cuda.is_available() else 'cpu'
print(f"使用设备: {device}")

# 初始化模型
model_path="openthaigpt/openthaigpt-1.0.0-7b-chat"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True, torch_dtype=torch.float16)
model.to(device)

# 提示
prompt = "สวัสดีครับ OpenThaiGPT"
llama_prompt = f"<s>[INST] <<SYS>>\n你是一个问答助手。尽可能真实和有帮助地回答这个问题 คุณคือผู้ช่วยตอบคำถาม จงตอบคำถามอย่างถูกต้องและมีประโยชน์ที่สุด<</SYS>>\n\n{prompt} [/INST]"
inputs = tokenizer.encode(llama_prompt, return_tensors="pt")
inputs = inputs.to(device)

# 生成
outputs = model.generate(inputs, max_length=512, num_return_sequences=1)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

vLLM

安装VLLM (https://github.com/vllm-project/vllm)
运行服务器

python -m vllm.entrypoints.api_server --model /path/to/model --tensor-parallel-size num_gpus

运行推理（CURL示例）

curl --request POST \
    --url http://localhost:8000/generate \
    --header "Content-Type: application/json" \
    --data '{"prompt": "<s>[INST] <<SYS>>\n你是一个问答助手。尽可能真实和有帮助地回答这个问题 คุณคือผู้ช่วยตอบคำถาม จงตอบคำถามอย่างถูกต้องและมีประโยชน์ที่สุด\n<</SYS>>\n\nอยากลดความอ้วนต้องทำอย่างไร [/INST]","use_beam_search": false, "temperature": 0.1, "max_tokens": 512, "top_p": 0.75, "top_k": 40, "frequency_penalty": 0.3 "stop": "</s>"}'

LlamaCPP（用于GGUF）

构建并安装LlamaCPP（LLAMA_CUBLAS=1用于GPU推理）

git clone https://github.com/ggerganov/llama.cpp.git \
  && cd llama.cpp \
  && make -j LLAMA_CUBLAS=1 CUDA_DOCKER_ARCH=all

运行服务器

./server -m /path/to/ggml-model-f16.gguf -c 3072 -ngl 81 -ts 1,1 --host 0.0.0.0

运行推理（CURL示例）

curl --location 'http://localhost:8000/completion' \
--header 'Content-Type: application/json' \
--data '{
    "prompt":"<s>[INST] <<SYS>>\n你是一个问答助手。尽可能真实和有帮助地回答这个问题 คุณคือผู้ช่วยตอบคำถาม จงตอบคำถามอย่างถูกต้องและมีประโยชน์ที่สุด friendly\n\n<<SYS>>\n\nอยากลดความอ้วนต้องทำอย่างไร [/INST]",
    "max_tokens": 512,
    "stop":"</s>"
}'

GPU内存需求

参数数量	FP 16位	8位（量化）	4位（量化）	4位示例显卡
7b	24 GB	12 GB	6 GB	Nvidia RTX 4060 8GB
13b	48 GB	24 GB	12 GB	Nvidia RTX 4070 16GB
70b	192 GB	96 GB	48 GB	Nvidia RTX 4090 24GB x 2张显卡

OpenThaiGPT团队

Kobkrit Viriyayudhakorn (kobkrit@aieat.or.th)
Sumeth Yuenyong (sumeth.yue@mahidol.edu)
Thaweewat Rugsujarit (thaweewr@scg.com)
Jillaphat Jaroenkantasima (autsadang41@gmail.com)
Norapat Buppodom (new@norapat.com)
Koravich Sangkaew (kwankoravich@gmail.com)
Peerawat Rojratchadakorn (peerawat.roj@gmail.com)
Surapon Nonesung (nonesungsurapon@gmail.com)
Chanon Utupon (chanon.utupon@gmail.com)
Sadhis Wongprayoon (sadhis.tae@gmail.com)
Nucharee Thongthungwong (nuchhub@hotmail.com)
Chawakorn Phiantham (mondcha1507@gmail.com)
Patteera Triamamornwooth (patt.patteera@gmail.com)
Nattarika Juntarapaoraya (natt.juntara@gmail.com)
Kriangkrai Saetan (kraitan.ss21@gmail.com)
Pitikorn Khlaisamniang (pitikorn32@gmail.com)

引用

如果OpenThaiGPT对您的工作有所帮助，请考虑引用如下：

Bibtex

@misc{yuenyong2024openthaigpt15thaicentricopen,
      title={OpenThaiGPT 1.5: A Thai-Centric Open Source Large Language Model}, 
      author={Sumeth Yuenyong and Kobkrit Viriyayudhakorn and Apivadee Piyatumrong and Jillaphat Jaroenkantasima},
      year={2024},
      eprint={2411.07238},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.07238}, 
}

APA格式（用于TXT、MS Word）

Yuenyong, S., Viriyayudhakorn, K., Piyatumrong, A., & Jaroenkantasima, J. (2024). OpenThaiGPT 1.5: A Thai-Centric Open Source Large Language Model. arXiv [Cs.CL]. Retrieved from http://arxiv.org/abs/2411.07238

免责声明：提供的响应不保证准确性。