在牆内,大量符合北京意识形态的文本被用来训练Chatbot,成为十亿网民的知识来源。(美联社)
中国长期箝制言论,却又垄断了全球华语出版市场。在牆内,大量符合北京意识形态的文本被用来训练Chatbot,成为十亿网民的知识来源,而网民贴文复成机器学习的素材,形成劣质资讯的恶性循环,加速华语知识封闭化与极端化。牆外,用华文训练ChatGPT也出现偏误,易使全球华语人受北京政治狗哨影响。由于语言会限制知识取得管道与内容诠释,台湾应加速“英语与母语”双语教育,以维护开放多元之民主价值。
大型语言模型的军备竞赛
近来ChatGPT, Google Bard, Meta Llama等大型语言模型的军备竞赛在商业著作权、教育学术伦理、政治宣传、选举干预、社会平等上引发疑虑。过去以Twitter训练的Microsoft Tay 在24小时内学会厌女与种族歧视。Meta BlenderBot 3 花一周学到反犹太、川普式极端言论。ChatGPT 则指出白人男性才能成为优秀科学家。斯坦福大学教授也示警 Chatbot会衝击人与人的信任关係。重之以安全疑虑日增,硅谷业界更公呼吁开暂停超过GTP-4技术之模型开发6个月,以免竞赛失控。
相较英语,华语训练模型争议更大:华语资料多样性低且品质堪虑。许多标记的原始资料皆为审查过的文本。(美联社)
然而相较英语,华语训练模型争议更大:华语资料多样性低且品质堪虑。许多标记的原始资料皆为审查过的文本。美国之音报道,用华语询问天安门事件时,ChatGPT回覆“中国政府没有发布相关信息,所以我们不能切实了解情况”。自由亚洲电台询问ChatGPT有关达赖喇嘛、白纸运动时发现偏北京叙事观点。路透社更指出,百度Ernie bot拒绝评论涉及习近平的提问。中国言论审查,已降低华语知识原创与多元。这些文本训练的AI无可避免反映中共意识形态与偏误,造成“垃圾进,垃圾出”。在“理想状况”下,阿里巴巴的通义千问、百度文心一言会被训练产生如新华社般官宣内容。但现实是,机器学习总有意外结果,常複製或极端化既有之偏误。