它，正加速华语文明崩解-24h新闻网站

头条新闻

它，正加速华语文明崩解

2023-08-19 08:20:54

在牆內，大量符合北京意識形態的文本被用來訓練Chatbot，成為十億網民的知識來源。（美聯社）

在牆内，大量符合北京意识形态的文本被用来训练Chatbot，成为十亿网民的知识来源。（美联社）

中国长期箝制言论，却又垄断了全球华语出版市场。在牆内，大量符合北京意识形态的文本被用来训练Chatbot，成为十亿网民的知识来源，而网民贴文复成机器学习的素材，形成劣质资讯的恶性循环，加速华语知识封闭化与极端化。牆外，用华文训练ChatGPT也出现偏误，易使全球华语人受北京政治狗哨影响。由于语言会限制知识取得管道与内容诠释，台湾应加速“英语与母语”双语教育，以维护开放多元之民主价值。

大型语言模型的军备竞赛

近来ChatGPT, Google Bard, Meta Llama等大型语言模型的军备竞赛在商业著作权、教育学术伦理、政治宣传、选举干预、社会平等上引发疑虑。过去以Twitter训练的Microsoft Tay 在24小时内学会厌女与种族歧视。Meta BlenderBot 3 花一周学到反犹太、川普式极端言论。ChatGPT 则指出白人男性才能成为优秀科学家。斯坦福大学教授也示警 Chatbot会衝击人与人的信任关係。重之以安全疑虑日增，硅谷业界更公呼吁开暂停超过GTP-4技术之模型开发6个月，以免竞赛失控。

相较英语，华语训练模型争议更大：华语资料多样性低且品质堪虑。许多标记的原始资料皆为审查过的文本。（美联社）

然而相较英语，华语训练模型争议更大：华语资料多样性低且品质堪虑。许多标记的原始资料皆为审查过的文本。美国之音报道，用华语询问天安门事件时，ChatGPT回覆“中国政府没有发布相关信息，所以我们不能切实了解情况”。自由亚洲电台询问ChatGPT有关达赖喇嘛、白纸运动时发现偏北京叙事观点。路透社更指出，百度Ernie bot拒绝评论涉及习近平的提问。中国言论审查，已降低华语知识原创与多元。这些文本训练的AI无可避免反映中共意识形态与偏误，造成“垃圾进，垃圾出”。在“理想状况”下，阿里巴巴的通义千问、百度文心一言会被训练产生如新华社般官宣内容。但现实是，机器学习总有意外结果，常複製或极端化既有之偏误。