数智化为语言研究提供新机遇

2024-11-15 来源：社科院专刊总第718期作者：民族学与人类学研究所

分享到：

字号： [大] [中] [小] [关闭] [打印]

　　本报讯语言资源与计算人文研讨会暨语言资源与计算人文专委会第二次全体会议近日在京召开。来自语言学、计算机、统计学、自然语言处理等领域的专家学者参会，并就智能技术条件下的语言资源建设与规划、基于语言资源的人文计算方法以及数智化赋能“绝学”冷门学科研究等问题进行了深入探讨。

　　在题为“语言智能与国家安全应用——舆情监测”的主旨报告中，中央民族大学信息工程学院教授赵小兵认为，舆情是指公众对于某一事件、话题、人物或组织等的社会观点、情感态度和行为倾向的总体表现。她进而从法律法规、传播理论等角度，介绍了舆情分析的概念、作用及具体流程，比较了不同舆情分析模式的特点，提出在舆情监测中需要关注更广泛的国际动态和媒体影响。

　　关于数字时代的语言资源保护开发，北京语言大学中国语言资源保护研究中心研究员王莉宁认为，在信息时代，我们需要重新审视语言资源和语言数据的定义。语言不仅是交际工具，更是经济、安全和战略资源。因此，必须重视建立语言资源库的重要性及其潜在应用。王莉宁分享了其研究团队在中国语言资源知识图谱、语言博物馆等方面的探索，呼吁学界加强交流与合作，共同推动语言资源保护和发展。

　　中国人民大学统计与大数据研究院副教授代文林通过数据科学与不同学科的合作实例，展示了数据科学在社会学、健康政策、农业经济等多个领域的应用潜力。他认为，数据处理、社会行为研究和网络结构分析等为当前的人文社会科学开辟了重要方向，相关领域交叉融合研究应得到更多重视。

　　北京大学人工智能研究院副教授苏祺介绍了其研究团队将自动化技术与人文学科相结合对金石碑刻等文物展开研究的情况。该团队利用多模态模型，结合视觉与文本信息进行古籍保护与修复，提高了文字修复的准确率。她认为，语言是研究思想观念和文化演变的重要工具，通过数字化手段和云智能技术建立语言与社会思想文化因素之间的多维度关联，能够为揭示语言背后的隐含信息提供有力支持。

　　科大讯飞有限责任公司研究员邵鹏飞介绍了语音识别大模型框架、自动标注的应用、低资源语言处理探讨等内容，重点阐释识别模型whisper在多种任务上的优势，并探讨了该模型的局限性。邵鹏飞认为，大模型技术在合成翻译、识别任务上的应用价值，使民族语言和方言的标注与处理有了新思路。

　　内蒙古师范大学计算机科学技术学院研究员白双成介绍了清代蒙古文档案的识别与分析研究，特别是识别过程中面临的特殊挑战。他表示，该研究项目的最终目标是实现清代档案的系统化和结构化处理，提升文献研究的效率和准确性。

　　华中师范大学语言与语言教育研究中心副教授沈威认为，生成式模型与人类学习有本质上的相似性，即通过学习来输出知识。未来应更加关注如何通过优化提示词、强化检索策略、智能体设计来提升生成式大语言模型的应用效果和实用价值。

　　华中科技大学外国语学院教授唐旭日探讨了动词知识库的研究进展，指出传统的动词知识库在信息承载方面仍有不足，深度学习模型仍缺乏一定的可信度和可解读性。他认为，搭配构式不仅是对现有知识库的补充，也是探索语言文化特征的重要途径，应重视其在动词研究中的应用价值。

　　中国社会科学院民族学与人类学研究所民族语言文化行为实验研究室主任龙从军从民族文字促进数字化技术发展、提升民族文献的保护利用、促进民族文献资源共享、推动各民族共有精神家园构建、交叉学科研究新场域五个方面，讨论了民族文字文献研究的时代价值。他表示，加强民族语言资源建设，不仅能够促进民族交往交流交融，而且能够进一步发掘语言文字的多样性，具有不可估量的价值。

　　此次会议由中国民族语言学会语言资源与计算人文专业委员会主办，中国社会科学院民族学与人类学研究所民族语言文化行为实验研究室和南京师范大学联合承办。

　　（民族学与人类学研究所/供稿）

责任编辑：王春燕（报纸）赛音（网络）

热点文章