中文EN
【学者视窗】数字化赋能汉语方言研究:语法特征语料库建设的创新实践
2026-03-20 来源:社科院专刊总第841期 作者:夏俐萍 周晨磊(语言研究所)
分享到:
  汉语方言学科自中华人民共和国成立以来,在大规模田野调查和语言资源库建设方面取得了瞩目的成就,涌现出《中国语言地图集》《现代汉语方言大词典》《现代汉语方言音库》等标志性成果。进入21世纪,汉语方言作为传统文化载体和语言资源的属性日益受到重视,汉语方言学的交叉学科属性也进一步凸显。以语保工程为代表的大规模数字化采录、以实验方言学为代表的实证研究范式、以口语语料库为抓手的语法研究,共同驱动学科发展形态深度重构。
  近年来,面对信息化和人工智能的高速发展,在世界上现有最大规模标准语言文化资源库的基础上,部署应用关键新技术,构建新型资源数据体系,成为汉语方言学面临的重要任务。面对这一新形势,中国社会科学院语言研究所依托“登峰计划优势学科——语言类型学”(2017—2022)和国家社科基金重点项目“汉语方言语法特征语料库”,总结前期经验,成功实施了汉语方言语法特征语料库建库计划。经过五年建设,由刘丹青、夏俐萍任主编,唐正大、周晨磊、张永伟为主要成员的“汉语方言语法特征语料库”(以下简称“语料库”)于2023年8月在中国社会科学院语言研究所网站正式上线,标志着汉语方言语法语料库基础工程建设取得重要突破。
  科学规划布局  实现系统覆盖
  语料库建设采用严格的科学规划和统一标准。在类型学框架下,选取能反映类型特点的语言参项,出版《汉语方言语法调查问卷》(以下简称《调查问卷》)。根据《调查问卷》,以各地方言为母语的资深方言学者及学术骨干在实地调查的基础上,按统一的规范进行采集、录制、转写、建库。这种经过实地采集的语法语料具有现时性、可比性和不可替代性,尽可能保留了真实口语语法的特点,是汉语方言语法研究十分珍贵的活材料。
  目前已上线的语料库来自4批田野调查获得的31个方言点的语料,覆盖了全国十大汉语方言区和少量系属不明的土话。主要代表点有:官话方言的中原官话(山西临汾、河南浚县)、西南官话(四川德阳)、冀鲁官话(山东淄川)、兰银官话(甘肃兰州)、东北官话(辽宁沈阳、吉林四平)、江淮官话(江苏盐城)等各大片区;吴方言(上海市、浙江绍兴、浙江瑞安、浙江临海、浙江丽水)、湘方言(湖南汨罗、湖南邵阳)、晋方言(河北涿鹿、山西山阴)、客家方言(广东梅县、江西石城)、赣方言(江西都昌、湖北咸宁、江西吉安)、粤方言(广西平南、广东广州)、闽方言(福建漳州、福建宁德)、平话方言(广西宾阳)、徽方言(安徽祁门)。此外,还有深圳占米话、青海周屯话、东安土话等系属待定的方言类型,构成了完整的汉语方言语法图谱。
  完善理论框架  建立完整体系
  语料库内容分为音系、语法例句和口语语料三大板块。音系部分包括声母、韵母、声调和连读变调,是后续语法例句和口语语料的基础。语法例句711句,涉及22个语法范畴。口语语料部分包括对话、语篇语料,其中规定的语篇语料为“北风与太阳”“牛郎与织女的故事”。统一的语篇语料可以用于横向比较话题标记、话语标记以及相关的语篇信息。完整的语料库体系也可以为后续人工智能开发提供基础数据。
  22个语法范畴的711句语法例句覆盖了汉语方言语法研究的核心领域,分别是:构词、构词生动形式、名词复数、重叠、代词、数量名结构、定名结构、状语性成分、趋向动补结构、介词与连词、处置被动致使、双及物结构、连动结构、处所存现领有判断、语序与话题、复杂句与复合句、疑问否定、祈使感叹、时体、情态语气、反身相互、比较比拟。每个语法例句都有唯一的编号,并配有相应的说明文字。如例句1509“他告诉我酒水呢,准备好了”,说明部分为“该句考察该方言中是否有受事成分位于宾语后的次次话题结构。注意话题标记可以采用哪些形式”。通过说明文字,调查者可以快速抓住例句需要调查的语法点,确保调查的准确性和标准化。
  严格执行规范  确保数据质量
  语料库采用统一的调查规范,具体涉及调查地点、调查对象、调查内容、调查方法和录音方法等。调查地点选择调查者最为熟悉的母语方言所在地,可以是地级市市区,也可以是县城或乡镇,调查记录时具体到行政村。调查时发音人年龄在55—70岁之间,在本地出生和长大,家庭语言环境单纯。发音人一般选择一男一女、具有小学或中学文化程度,便于对语法例句进行验证。
  调查时应该记录相应的纸质文档、电子文档,并按要求录音。对音系的调查力求记音准确。记录完音系例字后,需要整理该方言的声母表、韵母表和声调表,并描写其语音特点。语法例句的调查要仔细对照例句中的“说明”文字,注意所调查内容与调查目的相符。记录者要求记录每个例句的汉字写法、国际音标,必要时在“备注”中交代相关背景信息。所有语法例句采用先调查后录音的原则,按照编号顺序进行录音,并以wav格式保存录音文件,以便后续核查。话语包括叙事体和对话文体。叙事体主要讲述故事,可以是个人生活经历,也可以是流行于当地的故事或传说。对话体采用对话的方式进行,一般为二至三人的对话形式,在自然语境下就某一话题进行交流,如当地风俗、人物、时事评论等。叙事体和对话体的时长在15分钟以上。规定的语篇“北风与太阳”“牛郎与织女的故事”要求同步录音和转写。
  完善检索系统  服务学术研究
  语料库采用现代信息技术,建立了功能完善的检索系统。目前所采集的语料已经全部上传到网站,供学界无偿使用。用户只需免费注册后登录,即可对语料进行搜索。可以搜索例句,也可以搜索调查点。在例句搜索时,可以在“筛选”“分组”“排序”筛选框内设置多重条件。例如,用户可按照例句搜索某个待考察例句在各方言中的说法,也可按照语法范畴搜索某个语法范畴等。多个筛选条件可以叠加。以搜索“一个人”为例,在筛选条件中,设置“例词句”“包含”“一个人”,且“语法范畴”“包含”“时体”;在“分组”条件中设置“例词句”“升序”,在“排序”条件中设置“例词句”“升序”,即可按照需求获得相关搜索结果。
  用户还可以通过设置不同的条件满足研究的不同需要,如可以设置只参考某一个例句在不同方言中的说法,或者是某一个方言不同语法例句或语话语料的详情,同时根据研究的需要对参考的例句进行标记,具体可以参看网站的“用户手册”。
  产生积极影响  开拓创新发展
  汉语方言语法特征语料库为汉语方言语法研究提供了标准化的可比性语料,使得大规模的横向比较成为可能,有助于推动方言语法研究从描写走向解释,从个案研究走向规律探索。统一的调查方法和数据格式为汉语方言语法研究提供了学术规范,有助于形成学术界共识,提高研究质量。同时,免费开放的使用模式发挥了学术资源的示范效应,有利于学术共同体的形成和发展。
  语法例句、地方故事、口语交际等自然口语语料既蕴含着自然的语法特征,也是传统文化的重要载体,具有多重价值。语料库的建设在加强语言资源的开发、保存和利用,助力优秀语言文化资源服务于社会主义精神文明建设和铸牢中华民族共同体意识等方面,将发挥重要作用。
  在中国社会科学院语言研究所的统一部署下,汉语方言语法特征语料库正式纳入中国社会科学院(中国社会科学院大学)语言学重点实验室语料库平台建设计划,语料库的扩建和创新发展成为下一步的重要目标。2026年已正式开展第5批建库工作,预计五年之内建成80—100个方言调查点并上线开放。在此基础上,编制“汉语方言语法特征地图集”,出版“汉语方言口语语法标注丛书”等后续研究计划将成为语料库基础建设的重要延伸。
  在语言学重点实验室的统一规划下,项目将开展多学科协同合作,以语料库为抓手,进一步探索人工智能在汉语方言研究中的应用。以语料库作为基础数据,加强方言自动转写和方言语音识别技术的开发,推动汉语方言研究由“定性为主”或“小数据定量”向“大数据驱动”与“定性深度解读”相结合的范式转变,将进一步助力中华优秀语言文化的传承发展。
  (本文系中国社会科学院(中国社会科学院大学)语言学重点实验室子课题“多模态语言数据资源建设与服务平台开发”(YY250402ZN)阶段性成果)

责任编辑:王晏清