品葱可以专门设置一个管理标签的用户组,这样窝可以帮你们维护标签(模仿九头鸟
更新:品葱所有简体和繁体标签的合并已经完成,主要由Amenbreak(一派胡言)手动完成,以及K8kMrgQwRR的整理工作,感谢这两位。以后只要专注整理同义词就可以了。
1.15更新:写了一个查找同义词的脚本,目测找到了216个同义标签,可能会有一点用处。
word list 1 (100)
婚恋 / 恋爱
品 / 评价
摄影 / 修养
探子 / 特工
舆论 / 舆情
思想 / 主义
国共 / 中共
启蒙 / 教育
世界 / 寰宇
国民 / 公民
华人 / 华裔
寿终正寝 / 死亡
特工 / 信息员
青年 / 青年人
枪 / 枪械
官逼民反 / 造反
经济 / 占便宜
道 / 道家
八路 / 志愿军
金融 / 财经
道 / 艺术
右翼 / 右派
传言 / 小道消息
剧本 / 脚本
反驳 / 辩论
建议 / 提议
举报 / 告密
道 / 德性
公司 / 供销社
黑幕 / 内幕
中华民族 / 民族
同胞 / 国人
派系 / 法家
人民 / 公民
共 / 共产党
思想 / 心理
宪政 / 党政
举报 / 反馈
漫画 / 卡通
分裂 / 解体
义士 / 武侠
党 / 中国共产党
推理 / 推演
外文 / 外语
改进 / 改良
性 / 人性
空想 / 胡思乱想
辩论 / 理论
造反 / 官逼民反
解体 / 分裂
书籍 / 书本
理论 / 主义
叛国 / 卖国
助纣为虐 / 为虎作伥
时政 / 党政
演说 / 演讲
黑社会 / 黑帮
理论 / 反驳
诗 / 诗词
市场 / 商场
情绪 / 心态
乡土 / 家乡
汉语 / 中文
空想 / 白日梦
后代 / 接班人
左派 / 左翼
书 / 书籍
时 / 时间
审核 / 审查
中国共产党 / 中共
间谍 / 信息员
意识 / 发现
老百姓 / 公民
道 / 道德
老百姓 / 人民
努力 / 斗争
经济 / 金融
汉奸 / 狗腿子
历史 / 旧闻
歌 / 歌曲
告密 / 检举
恋爱 / 婚恋
探子 / 信息员
愚昧 / 愚蠢
通货膨胀 / 毛
间谍 / 特务
以史为鉴 / 前车之鉴
英雄 / 勇武
神经病 / 精神病
民俗 / 传统
选择 / 精选
志愿军 / 八路
计划 / 设计
党 / 国共
教师 / 老师
屠杀 / 大屠杀
观念 / 价值观
揪斗 / 格斗
文艺 / 文学
精选 / 选择
==========
我提议品葱学习一下知乎的标签系统,把所有标签的关系用有根DAG表示,这样就不用纠结同义词要不要合并了。我看到表结构里有parent_id这个字段,似乎是为这个功能准备的。
可惜品葱后端是用某世界上最好的语言写的。如果你们接受Python代码,窝可以帮助开发一下这个功能(再模仿九头鸟
==========
@K8kMrgQwRR ,@Amenbreak 简繁体合并我写脚本来做,你们两位可以合并同义词
品葱时间1.14更新:品葱数据库更新了,一共有188个繁体标签可以合并
==========
品葱时间1.12更新:
python可以查找能合并的繁体标签:
简繁判断
def is_simplified_chinese(s):
is_simplified = False
try:
s.encode('big5hkscs')
except UnicodeEncodeError:
is_simplified = True
return is_simplified
测试
s1 = '光复香港,时代革命'
s2 = '光復香港,時代革命'
print('s1:', is_simplified_chinese(s1))
print('s2:', is_simplified_chinese(s2))
hanziconv这个包可以做简繁转换
安装: pip install hanziconv
查找可以合并的繁体标签
topic_name = [a[0] for a in query('select XXXX from YYYY')] # your database
simplified_tag = []
traditional_tag = []
for name in topic_name:
if is_simplified_chinese(name):
simplified_tag.append(name)
else:
traditional_tag.append(name)
print(f'We got {len(simplified_tag)} simplified tag, {len(traditional_tag)} traditional tag.')
t2s = [HanziConv.toSimplified(a).strip() for a in traditional_tag]
merge = {s: d for s, d in zip(traditional_tag, t2s) if d in set(simplified_tag)}
print(merge) # 测试
最后发现有174个可以合并的标签,一部分输出大概这样:
{'不排華行嗎': '不排华行吗', '世界大戰': '世界大战', '中國間諜': '中国间谍',
'中美關係': '中美关系', '九二共識': '九二共识'}
==========
我好像现在有这个权限了赵家人,点开某个topic在右侧栏有操作入口
(√): 已合并
Type I:简繁字合并
优先合并这一类标签。由于桂葱界面是简体中文,因此合并原则是繁体->简体。
学术自由/學术自由(√)
五毛样本/五毛樣本(√)
科学/科學(√)
情景假设/情景假設(√)
情報/情报(√)
一国两制/一國兩制(√)
索多玛/索多瑪(√)
獨裁/独裁(√)
武漢/武汉(√)
新聞/新闻(√)
法國/法国(√)
價值觀/价值观(√)
俄羅斯/俄罗斯/俄国
Type II: 关注度较小(<10)的同义标签
合并原则是:关注度少的标签->关注度高的标签
言论管制/言论审查(√)
女权/女權/女性權利/女性权利(√)
文革/文化大革命(√)
各种打错字的标签也在这里合并
加速主义/加速注意/加速方向/加速主義/加速主意/加速(√)
Type III:关注度高的近义标签
这类标签暂时不合并,以防止混乱,这里只做标记。
色情/porn(√)
乳包/辱包(√)
辱华/辱華/乳滑/乳華/乳华/辱支(√)
新文革/文革2.0
成人/成人话题/性
两性/两性关系
两性成人(?)
查水表/喝茶
女拳(已删除)
粉红/小粉红
五毛渗透/五毛成功渗透
这个话题已经删除了
合并似乎得400以上,而且得有2个鹳狸员同时点赞才能涨声望
豆瓣后端据说是20w行python,支忽早期也是用python
这些都是人工智障自己算出来的……