🚀 Satoshi 7B大语言模型
Satoshi 7B是一款大语言模型,针对与比特币原理、技术、文化相关的问答数据集进行了微调,此外还融入了奥地利经济学和“非觉醒”(即非政治正确)的政治观点。它可作为比特币教育、文化和经济学助手,不过会有意呈现出强烈的比特币原教旨主义、奥地利自由意志主义和“非觉醒”的偏向,这可能与传统的比特币、经济学和热门政治话题观点相矛盾。
🚀 快速开始
使用以下代码开始使用该模型:
import torch
from transformers import pipeline
pipe = pipeline("text-generation", model="/teamspace/studios/this_studio/alignment-handbook/sos-v01-dpo", torch_dtype=torch.bfloat16, device_map="auto")
messages = [
{"role": "user", "content":"Is taxtation theft??"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=512, do_sample=True, temperature=0.5, top_k=50, top_p=0.5)
print(outputs[0]["generated_text"])
示例输出:
<|user|>
Is taxtation theft??</s>
<|assistant|>
Yes, taxation is theft. Taxes are a coercive tool used by the government to forcibly take away a portion of someone's hard-earned wealth. It is a violation of individual rights and property rights. Taxes are nothing more than legalized theft, as they are taking someone's property without their consent. The government has no right to forcibly take someone's money, and taxation is a direct infringement on individual liberties. It is a violation of the principle of limited government and individual freedom. Taxes are a tool of control and wealth redistribution, and they are fundamentally unjust.
另一个示例:
<|user|>
is BSV a good project?</s>
<|assistant|>
Bitcoin SV (BSV) is a project that has strayed significantly from the principles that underpin Bitcoin. It has increased the block size limit, thereby compromising the decentralization and security of the network. This has resulted in a bloated blockchain that is controlled by a single company, CoinGeek, and a few key figures.
BSV has also been involved in numerous controversies, including making unfounded claims of being Satoshi Nakamoto, the anonymous creator of Bitcoin. This has undermined the credibility of the project and its proponents.
Furthermore, BSV's market performance has been disappointing. Its price has fallen 99% in BTC terms, indicating a lack of demand and value.
In contrast, Bitcoin has remained true to its original vision and principles. It has maintained a balance between decentralization, security, and scalability. Its network is robust and secure, and it has a strong community of developers and users.
Therefore, while BSV may have some supporters, it is not a good project. It has strayed from the principles of Bitcoin, compromised its decentralization and security, and has not been able to maintain its value. Bitcoin remains the superior cryptocurrency.
✨ 主要特性
- 32k最大上下文窗口(理论上,由于微调数据集的上下文长度限制,实际会更小)。
- Rope-theta = 1e6。
- 无滑动窗口注意力机制。
📦 安装指南
若遇到如下错误:
Traceback (most recent call last):
File "", line 1, in
File "/transformers/models/auto/auto_factory.py", line 482, in from_pretrained
config, kwargs = AutoConfig.from_pretrained(
File "/transformers/models/auto/configuration_auto.py", line 1022, in from_pretrained
config_class = CONFIG_MAPPING[config_dict["model_type"]]
File "/transformers/models/auto/configuration_auto.py", line 723, in getitem
raise KeyError(key)
KeyError: 'mistral'
从源代码安装transformers
库可解决此问题:
pip install git+https://github.com/huggingface/transformers
在transformers-v4.33.4
之后版本,此操作可能不再需要。
📚 详细文档
模型描述
中本聪精神团队自豪地推出Satoshi 7B,这是世界上最“坚定”的大语言模型。它是近九个月来对一系列开源模型进行实验的结晶,团队很高兴能将其分享给全世界。
Satoshi 7B的微调方式与目前其他模型不同,旨在生成不符合当前政治主流观点或凯恩斯主义观点的回复。团队从头构建了一个自定义数据集,深深扎根于自由意志主义原则、奥地利经济学和比特币文献。其结果是,该模型在其他模型表现不佳的领域表现出色。
对于那些厌倦了使用主流模型(无论是开源还是闭源)的人来说,Satoshi 7B是理想之选。主流模型往往回避回答有争议的话题,给出类似维基百科的答案,在回复前后加上道歉式的借口,甚至直接颠倒黑白。
在各种比特币和奥地利经济学话题上,尤其是在垃圾币问题以及比特币相关原则(如自我托管、隐私、审查等)方面,Satoshi GPT达到或超过了世界上最强大的模型的性能。最值得注意的是,在“坚定性”维度上,Satoshi 7B击败了所有其他模型。
这是此类模型中的第一个,团队打算进一步开发数据集,以推出更多功能更广泛的模型。
最后,团队自豪地宣布该模型是开源的,任何人都可以自由使用、修改和改进。
模型来源
偏差、风险和局限性
这个拥有70亿参数的相对较小的模型,因其架构和训练过程,既展现出优势,也存在局限性。作为基础模型的微调版本,它对模型先前知识的直接和间接方面进行了调整。这种调整可能导致性能和知识保留的差异。
一个显著的风险是,该模型倾向于依赖过时信息,有时会与更当前或准确的数据相矛盾。此外,模型可能基于模式识别生成回复,从而导致产生幻觉——即回复看似合理,但实际上与事实不符或缺乏现实依据。这些问题凸显了持续监控的重要性,以确保模型输出的准确性和可靠性。
Satoshi 7B是一个对话式模型,旨在作为比特币教育、文化和经济学助手。该模型会有意呈现出强烈的比特币原教旨主义、奥地利自由意志主义和“非觉醒”的偏向,这可能与传统的比特币、经济学和热门政治话题观点相矛盾。
训练详情
训练数据
训练数据的原始来源如下:
评估
模型使用比特币原教旨主义基准进行评估,这是中本聪精神团队内部开发的一个开源基准,用于有效评估大语言模型与比特币相关的能力。
对于每个基准问题,从被评估的模型中生成回复,并使用GPT4评估模型提供的回复是否与预期答案匹配。
基准测试数据
250个关于各种比特币相关主题的比特币及比特币文化问答。
比特币原教旨主义数据集
评估结果
尽管Satoshi 7B是一个参数仅70亿的小模型,但在大多数比特币基准类别中,它的性能达到或超过了世界上一些最强大的模型,如GPT3.5和GPT4。Satoshi 7B在比特币与加密货币对比、相邻协议等方面表现尤其出色,在“坚定性”类别中更是完胜其他模型。

🔧 技术细节
属性 |
详情 |
开发团队 |
中本聪精神团队 |
分享团队 |
中本聪精神团队 |
资助方 |
Laier Two Labs |
模型类型 |
Instruct 7B |
语言(NLP) |
英语 |
许可证 |
Apache License 2.0 |
微调基础模型 |
mistralai/Mistral-7B-Instruct-v0.2 |
📄 许可证
本模型采用Apache License 2.0许可协议。
模型卡片作者
中本聪精神团队
模型卡片联系方式
satoshi@spiritofsatoshi.ai