CabraLlama3-8b开源AI模型 - 免费部署优化葡萄牙语理解与应答

首页

Cabrallama3 8b

由 botbot-ai 开发

基于Meta-Llama-3-8B-Instruct的增强版本，通过卡布拉30k数据集进行微调优化，特别针对葡萄牙语理解和应答进行了专项优化。

大型语言模型支持多种语言#葡萄牙语优化 #巴西教育评估 #法律考试辅助

下载量 66

发布时间 : 4/21/2024

模型简介

卡布拉美洲驼3代8B是一个针对葡萄牙语优化的文本生成模型，适用于多种自然语言处理任务，包括问答、文本生成和语义理解等。

模型特点

葡萄牙语优化

通过卡布拉30k数据集进行微调，特别针对葡萄牙语理解和应答进行了专项优化。

多任务能力

在多项葡萄牙语基准测试中表现优异，包括文本蕴含识别、语义相似度和自然语言推理等任务。

量化支持

提供多种量化版本的GGUF格式模型，便于在不同硬件上部署。

模型能力

文本生成

问答系统

语义理解

文本蕴含识别

语义相似度计算

自然语言推理

情感分析

仇恨言论检测

使用案例

教育

ENEM挑战赛

用于巴西国家中等教育考试(ENEM)相关问题的解答

准确率74.67

法律

OAB律师资格考试

用于巴西律师资格考试相关问题的解答

准确率49.29

社交媒体分析

巴西推特情感分析

用于分析葡萄牙语推文的情感倾向

宏观F1值68.08

仇恨言论检测

用于检测葡萄牙语中的仇恨言论

宏观F1值85.05(HateBR)

🚀 Cabra Llama-3 8B

Cabra Llama-3 8B是Meta-Llama-3-8B-Instruct的改进版本，使用Cabra 30k数据集进行了微调。该模型经过特别优化，能够理解并使用葡萄牙语进行回复。

🚀 快速开始

你可以在我们的聊天界面体验这个模型。还可以了解我们的其他模型和数据集，以及Cabra Llama 3 70b。

✨ 主要特性

语言优化：特别针对葡萄牙语进行了优化，在理解和回复葡萄牙语方面表现出色。
基于强大基础模型：基于Meta-Llama-3-8B-Instruct改进而来，继承了其优秀的文本生成能力。

📚 详细文档

基础模型详情

模型：Meta-Llama-3-8B-Instruct Meta开发并发布了Llama 3系列模型，这是一组预训练和指令微调的文本生成模型，有8B和70B两种规模。经过指令微调的Llama 3模型针对对话用例进行了优化，在行业常见的基准测试中超越了许多可用的开源聊天模型。此外，在开发这些模型时，我们非常注重优化其实用性和安全性。模型架构：Llama 3是一个自回归语言模型，采用了优化的Transformer架构。微调版本使用了监督微调（SFT）和基于人类反馈的强化学习（RLHF）来符合人类在实用性和安全性方面的偏好。
数据集：Cabra 30k 这是一个用于微调的内部数据集，我们将很快发布。
量化 / GGUF 我们在“quantanization”分支上提供了多种量化版本（GGUF）。

使用示例

<s> [INST] 请告诉我一些关于巴西利亚的有趣事实。 [/INST] 

巴西利亚是巴西的首都，由巴西建筑师奥斯卡·尼迈耶（Oscar Niemeyer）和城市规划师卢西奥·科斯塔（Lúcio Costa）设计。以下是一些关于巴西利亚的有趣事实：

1. 巴西利亚建于20世纪60年代。这座城市的建设是为了取代当时过于拥挤的巴西旧首都里约热内卢。
2. 巴西利亚的建筑风格独特，以现代主义和抽象形式为特点。城市主要分为两个区域：中央的规划区和住宅区域。
3. 巴西利亚以其标志性建筑而闻名，如大都会大教堂（Catedral Metropolitana Nossa Senhora da Aparecida）、阿尔沃拉达宫（Palácio da Alvorada）和总统府（Palácio do Planalto），这些都是巴西总统的办公地点。
4. 这座城市拥有国家体育场（Estádio Nacional Mane Garrincha），可容纳72,788名观众，该体育场以著名足球运动员加林查（Garrincha）命名，他出生于巴西利亚。
5. 巴西利亚是一座相对较新的城市，人口约300万。尽管建城时间不长，但它以充满活力的文化而闻名，是巴西的旅游、商业和政治中心。
</s>

🔧 技术细节

模型目前仅用于研究目的，可能的研究领域和任务包括：

生成式模型的研究。
探究和理解生成式模型的局限性和偏差。

📄 许可证

本模型采用CC BY-NC 2.0许可证，禁止用于商业用途，仅可用于研究。如需更多信息，请联系我们。

评估结果

评估表格

任务	指标	LLAMA3基础指令值	标准误差	Cabra微调值	标准误差
assin2_rte	f1_macro	0.9091	0.0041	0.9036	0.0042
	acc	0.9093	0.0041	0.9036	0.0042
assin2_sts	pearson	0.7517	0.0074	0.6989	0.0082
	mse	0.5985	N/A	0.6958	N/A
bluex	acc	0.5786	0.0106	0.5786	0.0106
	...	...	...	...	...
enem	acc	0.7012	0.0070	0.7439	0.0067
faquad_nli	f1_macro	0.7516	0.0132	0.6988	0.0139
	acc	0.7938	0.0112	0.7508	0.0120
hatebr_offensive_binary	f1_macro	0.8699	0.0064	0.8528	0.0067
	acc	0.8700	0.0064	0.8536	0.0067
oab_exams	acc	0.5062	0.0062	0.4911	0.0062
portuguese_hate_speech_binary	f1_macro	0.5982	0.0120	0.5954	0.0120
	acc	0.5993	0.0119	0.5993	0.0119

开放葡萄牙语大语言模型排行榜评估结果

详细结果可在此处和🚀 开放葡萄牙语大语言模型排行榜查看。

指标	值
平均值	69.42
巴西国家高考挑战（无图像）	74.67
BLUEX（无图像）	56.88
巴西律师考试	49.29
Assin2 RTE	90.44
Assin2 STS	69.85
FaQuAD NLI	70.38
HateBR 二分类	85.05
葡萄牙语仇恨言论二分类	60.10
tweetSentBR	68.08