标签:
- bertopic
库名称: bertopic
流水线标签: 文本分类
许可证: mit
数据集:
- OpenAssistant/oasst1
语言:
- en
聊天话题模型
这是一个基于BERTopic的模型。
BERTopic是一个灵活模块化的话题建模框架,能够从海量数据中生成易于解释的话题分类。
使用方法
安装BERTopic库:
pip install -U bertopic
调用模型示例:
from bertopic import BERTopic
topic_model = BERTopic.load("davanstrien/chat_topics")
topic_model.get_topic_info()
话题概览
点击展开完整话题列表
话题ID |
关键词 |
出现频次 |
标签 |
-1 |
提供-使用-信息-确认-帮助 |
26 |
-1_提供_使用_信息_确认 |
0 |
openai-ai-chatgpt-助手-语言 |
7837 |
生成式AI |
1 |
随时-欢迎-协助-有帮助-感谢 |
1342 |
1_随时_欢迎_协助_有帮助 |
2 |
量子-粒子-物理-微粒-相对论 |
778 |
物理学 |
3 |
故事-生活-人生-小说-感受 |
569 |
3_故事_生活_人生_小说 |
4 |
信件-诚挚-问候-邮件-尊敬的 |
516 |
4_信件_诚挚_问候_邮件 |
5 |
rust-haskell-编程-java-语言 |
504 |
编程语言 |
6 |
css-html-样式-div-js |
494 |
网页编程 |
7 |
linux-ubuntu-debian-fedora-安装 |
440 |
7_linux_ubuntu_debian_fedora |
8 |
食谱-烘焙-原料-面团-烤箱 |
425 |
8_食谱_烘焙_原料_面团 |
9 |
websocket-json-套接字-api-discord |
425 |
9_websocket_json_套接字_api |
10 |
共产主义-资本主义-马克思-经济-经济体 |
424 |
10_共产主义_资本主义_马克思_经济 |
11 |
狗狗-宠物-品种-饲养-萌宠 |
408 |
11_狗狗_宠物_品种_饲养 |
12 |
哲学-神学-哲学思想-信仰-意识 |
394 |
12_哲学_神学_哲学思想_信仰 |
13 |
git-github-仓库-软件-提交 |
381 |
13_git_github_仓库_软件 |
14 |
音乐-歌曲-乐谱-歌词-演唱 |
370 |
14_音乐_歌曲_乐谱_歌词 |
15 |
运维-开发-开发者-产业-研发 |
323 |
15_运维_开发_开发者_产业 |
16 |
勾股定理-斜边-三角形-数学-平方根 |
302 |
16_勾股定理_斜边_三角形_数学 |
17 |
欧盟-欧洲-经济-战争-经济体 |
291 |
17_欧盟_欧洲_经济_战争 |
18 |
睡眠-失眠-就寝-拖延症-抑郁 |
280 |
18_睡眠_失眠_就寝_拖延症 |
19 |
克莱默-宋飞-杰瑞-咖啡馆-伊莱恩 |
279 |
19_克莱默_宋飞_杰瑞_咖啡馆 |
20 |
打印-印刷品-打印机-印刷-打印店 |
276 |
20_打印_印刷品_打印机_印刷 |
21 |
流感-恐慌-症状-医疗-发热 |
251 |
21_流感_恐慌_症状_医疗 |
22 |
国际象棋-棋盘-练习-策略-学习 |
242 |
22_国际象棋_棋盘_练习_策略 |
23 |
算法-质数-数组-整数-python |
240 |
23_算法_质数_数组_整数 |
24 |
youtube-观众-媒体-谷歌-流媒体 |
240 |
24_youtube_观众_媒体_谷歌 |
25 |
毒药-化学品-粉末-松节油-烟雾 |
226 |
25_毒药_化学品_粉末_松节油 |
26 |
周一-周日-周末计数-日历-日期 |
216 |
26_周一_周日_周末计数_日历 |
27 |
色彩-颜料-蓝色-调色-色谱 |
208 |
27_色彩_颜料_蓝色_调色 |
28 |
罗马-阿提拉-帝国-战争-罗马帝国 |
205 |
28_罗马_阿提拉_帝国_战争 |
29 |
投资-股票-金融-理财-资产 |
204 |
29_投资_股票_金融_理财 |
30 |
词汇-wordle-单词-拼字游戏-词库 |
201 |
30_词汇_wordle_单词_拼字游戏 |
31 |
行星-太阳-地球-冥王星-天体 |
198 |
31_行星_太阳_地球_冥王星 |
32 |
可再生能源-太阳能-电力-能源-电气 |
190 |
32_可再生能源_太阳能_电力_能源 |
33 |
pygame-球体半径-绘制-圆形-画布 |
181 |
33_pygame_球体半径_绘制_圆形 |
34 |
钓鱼-鱼类-船只-徒步-露营 |
176 |
34_钓鱼_鱼类_船只_徒步 |
35 |
显卡-GPU-主板-CPU-硬件 |
162 |
35_显卡_GPU_主板_CPU |
36 |
暖通-装修-能源-千瓦时-住宅 |
159 |
36_暖通_装修_能源_千瓦时 |
37 |
数据库-graphql-postgresql-sql-数据存储 |
159 |
37_数据库_graphql_postgresql_sql |
38 |
信息-含义-如何-系统-西班牙语 |
158 |
38_信息_含义_如何_系统 |
39 |
主板-PCIE-显卡-BIOS-计算机 |
153 |
39_主板_PCIE_显卡_BIOS |
40 |
农作物-种植-辣椒-植物-农产品 |
148 |
40_农作物_种植_辣椒_植物 |
41 |
绘画-艺术-现代主义-艺术家-当代 |
148 |
41_绘画_艺术_现代主义_艺术家 |
42 |
锻炼-哑铃-运动-健身-训练 |
147 |
42_锻炼_哑铃_运动_健身 |
43 |
气候-变暖-污染-环境-排放 |
142 |
43_气候_变暖_污染_环境 |
44 |
咖啡-浓缩-冲泡-茶叶-咖啡豆 |
137 |
44_咖啡_浓缩_冲泡_茶叶 |
45 |
速度-阻力-加速度-密度-公式 |
132 |
45_速度_阻力_加速度_密度 |
46 |
土拨鼠-计量单位-千克-公斤 |
130 |
46_土拨鼠_计量单位_千克 |
47 |
ASCII-字形-平假名-艺术-字体 |
129 |
47_ASCII_字形_平假名_艺术 |
48 |
吉他-琴弦-吉他手-乐器-演奏 |
127 |
48_吉他_琴弦_吉他手_乐器 |
49 |
摩天大楼-建筑-哈利法塔-迪拜 |
114 |
49_摩天大楼_建筑_哈利法塔 |
50 |
地平论-曲率-球体-板块构造 |
111 |
50_地平论_曲率_球体_板块 |
51 |
论文-认知-理解-存在-生命 |
102 |
51_论文_认知_理解_存在 |
52 |
传送门-末地-黑曜石-下界合金 |
102 |
52_传送门_末地_黑曜石_下界 |
53 |
安卓-苹果-手机-设备-汽车 |
101 |
53_安卓_苹果_手机_设备 |
54 |
禁食-饮食-节食-代谢-进食 |
101 |
54_禁食_饮食_节食_代谢 |
55 |
冥想-缓解-疼痛-健康-痛觉 |
99 |
55_冥想_缓解_疼痛_健康 |
56 |
天气-预报-降雨-降水-气象 |
95 |
56_天气_预报_降雨_降水 |
57 |
总统-宪法-拜登-任期-政体 |
94 |
57_总统_宪法_拜登_任期 |
58 |
不-否定-是的-可能-不确定 |
94 |
58_不_否定_是的_可能 |
59 |
游隼-空速-猎鹰-速度-鸟类 |
90 |
59_游隼_空速_猎鹰_速度 |
60 |
crontab-定时任务-脚本-bash |
83 |
60_crontab_定时任务_脚本_bash |
61 |
视频博主-主播-CEO-马斯克-创始人 |
83 |
61_视频博主_主播_CEO_马斯克 |
62 |
中转航班-环球旅行-经停-旅行 |
83 |
62_中转航班_环球旅行_经停 |
63 |
键盘-机械轴-QWERTY-键帽 |
83 |
63_键盘_机械轴_QWERTY_键帽 |
64 |
文件路径1-文件路径2-CSV文件-目录 |
80 |
64_文件路径1_文件路径2_CSV文件_目录 |
65 |
贝利-马拉多纳-詹姆斯-罗纳尔多-NBA |
76 |
65_贝利_马拉多纳_詹姆斯_罗纳尔多 |
66 |
脱发-发型-头皮-毛发-护理 |
66 |
66_脱发_发型_头皮_毛发 |
67 |
nginx-docker-kubernetes-代理-nodeport |
65 |
67_nginx_docker_kubernetes_代理 |
68 |
目录-文件夹-sudo-文件系统 |
62 |
68_目录_文件夹_sudo_文件系统 |
69 |
GPS-地图-地理寻宝-亚美尼亚 |
52 |
69_GPS_地图_地理寻宝 |
70 |
减数分裂-有丝分裂-受精-生殖-排卵 |
51 |
70_减数分裂_有丝分裂_受精_生殖 |
71 |
大学-招生-校园-高校-录取 |
43 |
71_大学_招生_校园_高校 |
72 |
独角兽-小马-神话生物-幻想 |
32 |
72_独角兽_小马_神话生物 |
73 |
超能力-英雄-超级人类-异能 |
28 |
73_超能力_英雄_超级人类_异能 |
训练超参数
- 概率计算:关闭
- 语言:未指定
- 低内存模式:关闭
- 最小话题规模:20
- N元语法范围:(1,1)
- 话题数量:75
- 种子话题列表:无
- 关键词数量:10
- 详细日志:开启
框架版本
- Numpy:1.22.4
- HDBSCAN:0.8.29
- UMAP:0.5.3
- Pandas:1.5.3
- Scikit-Learn:1.2.2
- Sentence-transformers:2.2.2
- Transformers:4.29.2
- Numba:0.56.4
- Plotly:5.13.1
- Python:3.10.11