本报讯 11月15—16日,第二届语言资源与计算人文学术研讨会在华中科技大学召开。来自全国多所高校和科研机构的近百位专家学者,围绕语言资源建设与人文计算方法创新等议题展开深入探讨。
会议内容涵盖特邀报告、主旨报告、分组论坛、工作坊、期刊论坛及海报展示等多个环节,以四场工作坊拉开序幕。中国社会科学院民族学与人类学研究所研究员龙从军、华中科技大学唐旭日教授与刘道焕博士、南京农业大学博士研究生刘畅与硕士研究生杨帆、华中师范大学副教授沈威,分别就多民族语言数据处理、弗思搭配应用、古籍智能体设计和提示词工程等主题,进行系统讲解和实践演示。
推动多学科深度融合
在主旨报告和特邀报告环节,多位专家学者分享了最新观点与研究成果。
香港理工大学教授黄居仁从回顾数字人文学的核心定义切入,强调当代人文学研究必须回应当代问题。他表示,语言文字在传承中扮演关键角色——它既是知识的表达系统,也是知识能跨时代延续的根本媒介;各种语言均承载具身感知的维度,并且深植于文化与经验之中。他介绍了传统生态知识保存的关键性,提出关键挑战在于如何从古籍、典籍中提取可服务当代科学研究的数据点与信息结构;结合其团队在《广群芳谱》《山海经》的知识图谱构建等项目中的经验,展现了大语言模型在语言资源建设方面带来的效率跃迁。
中国社会科学院民族学与人类学研究所教授黄行的报告以《中国语言文字概况》为核心框架,系统介绍了中国语言国情与语言资源的基本面貌,回顾了传统与新创少数民族文字的形成路径,梳理了我国文字类型的多元构成。报告还解读了国家在新时代语言文字工作中的政策部署,包括推广国家通用语言文字、保护语言资源、加强民族语文教育、推动语言信息化与标准化建设、传承优秀语言文化以及提升中文的国际影响力。
华中科技大学外国语学院教授唐旭日以“言语迷雾”为喻,提出语言作为一个复杂适应系统,其研究面临复杂性挑战,隐喻现象更是其复杂性的典型表现。他系统阐述了“动态隐喻论”,主张从语言使用出发,将隐喻视为一种由个体交互推动、在频繁使用中逐步固化的涌现结构,并结合复杂系统科学、大规模语料与机器学习方法,为破解隐喻共时复杂性与历时演化机制提供了新的理论与路径。
内蒙古师范大学研究员白双成介绍,清代蒙古文满文档案是研究国家治理、旗务与军政制度的核心资料,也是多民族交往交流交融与多语种并存历史的原始证据,现存著录约120万卷。他强调,这些档案与大语言模型和数字人文的结合意义重大:其复杂的手写体是OCR、机器翻译等NLP技术的天然“试验场”;档案中富含的实体信息适合构建知识图谱,并可作为新模型的测试语料,从而推动多学科深度融合。
提升语言文字数字化能力
中国社会科学院民族学与人类学研究所副研究员安波提出,应构建一个面向学者与政策部门的多模态民族领域知识服务平台,利用大模型驱动技术,实现多源异质数据的统一加工、关联挖掘与跨模态知识重构。他强调,多模态大模型不仅提升民族研究的数据能力和知识生产方式,也为政策咨询和文化保护提供智能化支撑,推动民族学、人类学在人工智能时代实现方法创新与范式升级。
中国科学院软件研究所高级工程师刘汇丹系统梳理了当前数字环境中汉字信息处理的关键挑战,提出在实际应用中,生僻字难以录入、显示错误、多音字处理不一致、繁简转换受政策差异影响等问题普遍存在,并且有部分人名、地名用字及古文字、少数民族文字仍未被完整收录。为此,中国科学院软件研究所正在推进汉字生僻字处理平台、语音合成、多民族文字输入法和Unicode国际标准提案等工作,以提升语言文字的数字化能力。
新疆大学教授冯志伟从语言规划的理论渊源出发,提出传统的“地位规划”和“本体规划”难以满足当下语言技术快速发展需求,必须将“语言文字的资源规划”提升为第三类核心规划。报告回顾了语言规划的社会性、权威性、交际目的性、长期性、实践性和数据导向性等特征,强调语言数据已成为国家信息资源和科技竞争的基础。面对语言资源的高速增长与全球竞争加剧,报告提出四项规划重点:加强大语言模型对齐、加快中文语言资源建设、完善语言数据的知识产权制度、强化低资源语言建设。
南京师范大学教授李斌深入剖析了大数据如何推动语言研究从传统定性分析向定量建模转型,强调实证方法在破解语言复杂规律中的核心作用。李斌提出,当前计算语言学已在三大关键领域实现重要突破:一是超大规模真实语言材料带来的数据突破,二是超大规模集群服务器与超算中心提供的算力支撑,三是机器学习模型在海量样本学习、多值分类与神经网络等方面取得的技术进展。这些突破共同构成语言研究的新范式,为揭示语言本质、推动人工智能与语言学的交叉创新开辟了新路径,为语言资源建设与计算人文研究拓展了广阔前景。
推动数字人文产业生态构建
中国传媒大学副教授王璐璐表示,当前,教师对大模型的使用能力有限、通用模型产出的语法教学资源质量不稳、文化语境与语法等级匹配度不足。为应对这些挑战,团队通过教师访谈与课堂实践调研总结需求,并基于提示工程,构建适用汉语语法教学的提示方案体系,设计了语法教学提示库与“灵犀”提示平台,支持教师一键调用、个性化生成教学资源,为国际中文教育提供了可扩展的智能辅助工具。
北京师范大学副教授胡韧奋介绍了她与学生团队围绕大模型高阶智能展开的三项深入评测。在多轮对话能力方面,通过设计模拟用户、设计话轮,揭示模型在应对复杂对话情境时存在的问题;在创造力方面,通过测量模型在语义联想上的多样性与关联性,发现模型在原创性与认知灵活性方面仍存在明显局限;在大模型的具身语义表征评测上,发现多模态模型对比纯文本模型并无显著效果提升。她强调,大模型的评测体系需更关注真实语境中的认知机制、情境理解与人机互信,以推动大模型向更加稳健、可信、可解释的方向发展。
中华书局古联公司总编辑朱翠萍从产学研协同视角切入,展示了中华书局数字化智能化转型的最新成果与合作模式。中华书局通过共建实验室、专题数据库、教材开发、科研平台与人才共育机制,与多所高校形成“数据—技术—人才—应用”全链条协同,推动数字人文从学科建设迈向产业生态构建。朱翠萍强调,出版机构与学术界应共同探索文化资源的深度加工与智能再生,实现传统文化的现代传播与创新表达。
澳门大学教授袁毓林认为,所谓的“语言第一性原理”,无法为打造小而美的低资源语言模型提供理论支持。其报告针对当前大模型发展中存在的资源消耗大、场景适配性不足等问题,结合语言第一性原理与普遍语法理论,论证小型化、轻量化语言模型的构建逻辑与应用价值,为特定领域语言模型研发提供新方向。
会议期间,专家学者还围绕大模型与语言资源建设、计算人文方法与应用、古籍数字化与智能处理等议题展开分组讨论。
会议由中国民族语言学会语言资源与计算人文专委会主办,华中科技大学外国语学院承办,中国社会科学院民族学与人类学研究所民族语言文化行为实验研究室等单位共同协办。
(主办方/供稿)