
近日教育部语言文字信息管理司“国家语言资源监测与研究中心”发布2025年度中国语言文字信息化十大新闻。
由广州市社科联与广州大学联合建设的粤语语料库建设与大模型评测重点实验室原创应用成果AI-DimSum多模态通用粤语语料库平台以第四序列入选,成为国家数字中文建设的关键领域标杆。
国家战略牵引:实验室应运而生

为全面贯彻落实党的二十届三中全会《中共中央关于进一步全面深化改革、推进中国式现代化的决定》提出的“构建中华文明标识体系”“实施哲学社会科学创新工程,构建中国哲学社会科学自主知识体系”“完善生成式人工智能发展和管理机制”精神,广州市社科联牵头,连同广州大学深入调研、科学论证、系统谋划,2024年11月14日,广州社科重点实验室——“粤语语料库建设与大模型评测重点实验室”正式成立。
该实验室旨在通过“粤语+人工智能”文化科技融合创新,推动岭南文化传承、传播和创新发展。
中国工程院方滨兴院士与国家语言服务与粤港澳大湾区语言研究中心主任屈哨兵教授担任重点实验室的双首席科学家,广州大学齐佳音教授担任重点实验室主任,禤健聪教授担任副主任。
针对粤语的人工智能友好型语料库建设的现实问题,粤语语料库建设与大模型评测重点实验室牵头,开发了以“文化忠实、安全可信、AI友好、持续成长”为特色的AI-DimSum通用粤语语料库。
该语料库提供的不只是单纯的“语料收集”或“语言档案保存”,而是一整套“从语料获取到AI应用落地”的闭环服务,是服务多种需求,特别是面向人工智能应用的新型方言语料库。
创新技术架构:七大子系统实现全流程闭环
AI-DimSum粤语语料库平台首创语料采集、标注、大模型对接、确权检索、质量评估、管理、应用商店七大子系统,实现从数据采集、清洗、标注到应用发布的一体化流程。

核心创新包括:
“1+1+N”协同机制:以广州市社科联与广州大学为双核心(两个“1”),联动其他高校、企业、开源社区等N方资源,构建共建共享生态;
SaaS服务模式:通过模块化设计支持教育、文化、产业等多场景快速落地;

文化忠实与安全可信:融合岭南文化精神标识体系与价值对齐规则,确保语料库兼具文化内涵与安全性。

丰硕成果:资源规模与政策肯定双突破
2025年3月,教育部召开新闻发布会,介绍深入贯彻落实《教育强国建设规划纲要(2024—2035年)》、推进语言文字信息化发展情况。发布会上,广东省教育厅副厅长朱建华介绍了广东省以数字化注入新动力全面赋能强省建设的举措和成效,重点推介了AI-DimSum粤语语料库。
2025年5月,实验室团队拜访了我国著名语言学家、汉语方言学领域的领军人物、暨南大学詹伯慧先生。
詹先生勉励团队要勇于承担时代责任,打破学科壁垒,以“坚持、坚持、再坚持”的毅力,持续推动粤语与人工智能深度融合的语言服务创新。
2025年5月、8月,实验室组团分别赴青海师范大学、广西师范大学开展交流调研,重点考察藏语智能信息处理及应用国家重点实验室、东盟语料库建设经验。

此次调研交流为深入探讨民族语及汉语方言语料库建设路径搭建了合作桥梁,为实验室的建设提供了宝贵的经验。
2025年6月,实验室团队提交的《粤语语料库建设建设现状及通用型粤语语料库建设建议》获国家语委肯定性批示,称“此举事关重大,是数字中文建设的核心重要‘关键领域’,指导支持中心以标准规范为引领,以价值对齐为导向,以规范安全为底线,以共建共享为机制,深化该项语料库建设,夯实‘新基建’,服务人工智能大语言模型应用‘制高点’”。
2025年11月,教育部党组成员、副部长任友群到广州大学调研,听取了粤语语料库建设与大模型评测重点实验室主任齐佳音教授的介绍和系统演示。
2025年12月6日,AI-DimSum多模态通用粤语语料库平台面向全球发布。
目前,平台已汇聚超100万字文本、3000小时高保真语音、1TB音视频、1万张岭南文化图像,构建了包含6669条权威词条、30000条扩展词条的粤语安全语料库等,规模居全球粤语语料库前列。
教育部语言文字信息管理司领导对AI-DimSum粤语语料库平台发布给予高度评价。

2025年12月18日,在中国数字文娱大会“新技术—智慧文娱解锁消费密码”分论坛上,实验室发布了6个支持人工智能应用的岭南文化数据集。
生态应用:10余款APP激活产业创新
AI-DimSum多模态通用粤语语料库平台已孵化粤语数字人、智能配音、廉州话小程序等10余款应用,覆盖文旅、教育、短剧等领域。例如,与百度合作开发的“粤语智声”系统支持复杂场景语音识别,准确率达90%;与羊城晚报联合发布6大岭南文化数据集,推动非遗数字化。
AI-DimSum多模态通用粤语语料库平台项目通过13期学术沙龙、5届黑客松大赛吸引港澳高校参与,并在永庆坊等历史街区开展文化宣讲,提升公众参与度。
推广价值:方言数字化范本的全球路径
平台构建的“采集—标注—确权—应用”全流程体系可复制至客家话等方言,为国家方言语言资源保护提供技术样板。
未来将通过开源开放支持全球粤语数字生态,助力“数字中国”建设。
据悉,2025年1月8日,教育部、国家语委、中央网信办印发《关于加强数字中文建设 推进语言文字信息化发展的意见》,首次提出“数字中文”概念;
到年底的12月27日,第十四届全国人民代表大会常务委员会第十九次会议表决通过新修订的《中华人民共和国国家通用语言文字法》,明确规定“推进国家通用语言文字的信息化、数字化、智能化建设”。
“数字中文”及其建设迅速统合引领相关研究与实践,成为语言文字领域重要的新兴增长点。
南方+记者 洪钰敏
通讯员 穗社科联宣
人人顺配资-排名第一的炒股杠杆平台-股市配资在线登录-十大可靠的配资公司提示:文章来自网络,不代表本站观点。