

(1).png)

泄漏的数据显示,中国正在使用大型语言模型来增强其审查机器。
最近的泄漏表明,建立在133,000个用户内容示例的基础上的复杂的AI系统旨在标记政府认为敏感的任何材料。
该数据集由安全研究人员发现,并被TechCrunch,表明中国正在采取措施扩展其在线控制,远远超出了诸如天安门广场大屠杀等主题。
中国正在使用现代技术来过滤在线内容
该泄漏的历史可追溯至2024年12月,这清楚地表明中国当局或其分支机构正在使用新技术来过滤在线内容。
该数据库包括有关中国农村贫困的投诉,有关腐败的共产党成员的新闻报道,以及哭泣的腐败的警察哭泣,震惊企业家。
每个内容都被馈入大型语言模型(LLM),以扫描可能引起公众异议的主题。
研究中国审查制度的加州大学伯克利分校的研究人员肖·昆格(Xiao Qiang)告诉TechCrunch,泄漏的数据是政府意图使用LLMS来改善镇压的“明确证据”。
Qiang解释说,与依靠人工劳动进行关键字过滤和手动审查的传统方法不同,LLM可以快速准确地确定甚至微妙的批评,从而使国家主导的信息控制更加有效,更深远。
该系统不仅用于审查政治话题,而且还扩展到社会生活和军事事务中的敏感领域。根据泄漏的数据集中的细节,与污染,食品安全丑闻,财务欺诈和劳资纠纷有关的任何内容均被“最高优先级”审查。
数据显示,诸如2012年Shifang反污染抗议活动之类的主题受到仔细监控,以防止公众动荡。即使是针对当前政治人物的政治讽刺和历史类似物也立即被标记。与台湾政治有关的内容也是针对军事问题的目标,包括运动,练习和武器的细节 - 仔细审查。
“台湾”出现在中国审查数据集15,000次
泄漏内容中的一个值得注意的细节是,台湾的中文单词(台湾)出现了15,000次,强调了可能挑战官方叙述的任何讨论的重点。
数据集中的其他敏感内容包括有关台湾军事能力的评论以及有关中国喷气式战斗机的详细信息。即使是微妙的异议形式也无法幸免。数据库中发现的一个例子是使用流行的中国习惯“当树倒下时,猴子散布”的轶事。
安全研究人员Netaskari发现了dataset它存储在Baidu服务器上的无抵押Elasticsearch数据库中。
“公众舆论工作”是由强大的中国网络空间管理(CAC)监督的审查和宣传工作的术语。亚洲权利组织第19条的亚洲计划经理迈克尔·卡斯特(Michael Caster)解释说,这项工作旨在确保政府叙事在线占主导地位。
一个报告上个月的Openai还透露,一位可能从中国运作的身份不明的演员使用Generative AI来监视社交媒体对话,尤其是那些要求人权抗议的对话,并将信息转发给中国政府。同一份报告指出,该技术被用来发表评论,高度批评中国持不同政见的凯西。
中国的传统审查制度通常依赖基本算法,这些算法会自动阻止包含黑名单的内容,例如“天安门大屠杀”或“ xi jinping”。用户通过DeepSeek之类的工具亲身体验了这一第一手。但是,较新的系统可以大规模地检测到微妙的批评,并且随着它们被喂养更多的数据,它们会有所改善。
密码大都会学院:厌倦了市场波动?了解DEFI如何帮助您建立稳定的被动收入。立即注册






.png)





















