计量语言学、计算语言学、语料库语言学、数字人文——这四个到底有什么区别?
说实话,这四个概念确实容易搞混。它们都跟“语言+数据/计算机”有关,经常被混为一谈,但各自的研究目标、方法和学科归属,其实有很大不同。
今天就用一篇文章,把这四个概念彻底讲清楚。看完之后,你至少能做到:听到别人聊其中一个,你知道他们在研究什么、用什么方法、奔着什么目标去。
一、先给一个总览:它们分别关心什么?
先给一个最简版的区分:
计量语言学关心的是:语言有没有可量化的普遍规律?它想用数学公式描述语言本身。
计算语言学关心的是:怎么让计算机“懂”人类语言?它想造出能处理语言的应用系统。
语料库语言学关心的是:真实语言到底是什么样的?它想用真实数据来观察和验证语言事实。
数字人文关心的是:怎么用计算技术改造整个人文学科?它不只是研究语言,而是覆盖文学、历史、艺术等所有人文领域。
一句话概括:计量语言学找规律,计算语言学做系统,语料库语言学供数据,数字人文改范式。
下面逐一展开。
二、计量语言学:寻找语言背后的数学规律
计量语言学(Quantitative Linguistics)是2011年公布的语言学名词,指采用概率论、统计学等定量数学方法研究语言结构与发展规律的语言学分支学科。它以真实语言交际活动中的现象为研究对象,通过精确测量与建模,探索语言现象背后的数理规律。
它的核心追求是“解释性”——想知道语言本身有没有可量化的普遍规律。它不关心怎么造一个翻译系统,也不关心怎么建一个语料库,它关心的是:语言现象背后有没有稳定的数学关系?
计量语言学最经典的成就是齐普夫定律(Zipf‘s Law):在任意一篇文本中,如果把单词按出现频率从高到低排序,那么频率排名第n的单词,其出现频率大约与1/n成正比。简单说,就是少数词出现频率高的(比如“的”“了”“是”),绝大多数词出现频率极低——这个规律在几乎任何语言、任何文本中都成立。
除此之外,计量语言学还有门策拉-阿尔特曼定律(语言单位越大,其组成部分越短)和皮奥特罗夫斯基-阿尔特曼定律(语言变化呈S形曲线)等经典定律。
它的方法:收集大量真实语言数据 → 提取可量化的语言特征(词频、词长、句长等)→ 建立数学模型 → 验证模型是否在所有语言中普遍成立。
它的特点:精确、真实、动态。它追求的是像物理学那样的“语言定律”——不管什么语言、什么时代,只要是人类语言,就应该符合这些数学规律。
学科归属:计量语言学涉及语言学、数学、统计学、社会学、心理学、物理学、系统科学和计算机科学等多个学科领域,是一个典型的文理交叉学科。
三、计算语言学:让计算机“懂”人类语言
计算语言学(Computational Linguistics)指的是这样一门学科:它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。
它的核心追求是“工程性”——想让机器完成分词、翻译、问答、摘要、识别等具体任务。它是一门实验科学,提出的问题既要符合自然语言处理的实际需要,又要用现有的计算机技术解决。
它的研究对象:人类的自然语言——从最小的字、词,到最大的篇章。
它的核心技术:分词、词性标注、句法分析、语义分析、词向量、语言模型、机器翻译、情感分析、命名实体识别……这些你在我之前的“术语词典”系列里应该都已经接触过了。
它的方法:构建数学模型 → 设计算法 → 在计算机上实现 → 用数据训练和验证 → 优化迭代。
它的目标:造出能用的系统。不管是谷歌翻译、ChatGPT,还是你手机里的语音助手,背后都有计算语言学的成果。
学科归属:计算语言学是语言学、计算机科学和数学等学科交叉形成的交叉学科。
四、语料库语言学:用真实数据说话
语料库语言学(Corpus Linguistics)是语言学的一个分支学科,以大规模、机器可读的真实语言文本集合(即语料库)为基本资源与研究手段。
它的核心追求是“实证性”——想通过真实的语言数据来观察语言事实、验证语言现象、描述语言使用。它采用数据驱动的实证研究方法,通过采集、标注、检索和统计分析语料,对语言的词汇、语法、语义及使用规律进行定量与定性研究。
它的核心原则包括:收集具有代表性的语言样本、在语境中理解词语、提供词语和短语的频率数据。
它的研究方法:依赖大规模语料库资源、数据处理及相关计算技术,包括频数统计、词语索引分析、搭配分析等。
它的定位:有人认为语料库语言学是一个独立的学科,有自己独到的理论体系和操作方法;也有人认为它更多是一种研究方法——基于大量真实语言,用来回答通过其他途径很难回答的问题。
它的应用领域:词典编纂、语言教学、翻译研究、批评话语分析、社会政策研究等。
五、数字人文:计算技术与人文学科的全面融合
数字人文(Digital Humanities)是由“人文计算”发展而来、使用计算机技术和网络技术来研究传统人文学科的一门新型交叉学科-。它并没有一个固定的学科边界,更强调的是从数字技术语境出发,考虑重构人文知识的脉络和内容。
它的核心追求是“重构”——不只是用计算机“辅助”人文研究,而是从新的技术角度去构建当代知识系统和认知方式。
它的覆盖范围:数字人文不仅仅是语言学的事,它覆盖文学、历史、语言学、艺术、文化研究等所有人文学科。它是一个跨学科融合和开放式协作的实践性领域,是所有人文领域应用计算机技术的研究活动的总称。
它与计量语言学的特殊关系:数字人文与计量语言学关系密切——计量语言学可以被看作数字人文中文本数据定量分析的一条重要方法路径。计量语言学的方法在数字人文中有着广泛的应用:
用词频、词汇丰富度、句长参数研究文学风格
用齐普夫定律、希普斯定律分析大型历史文本库
用皮奥特罗夫斯基型扩散模型研究历时文本中的拼写或语法变化
用定量指标辅助作者归属、文体分期、翻译比较、文化传播研究
但两者也有区别:数字人文的范围远大于计量语言学——它不仅包括语言的定量分析,还包括社会网络分析、地理信息系统(GIS)、数据可视化、3D建模等多种方法。有学者指出,“数字人文”这一标签不具备构成独立学科的基本条件,更像是一个涵盖所有人文领域计算研究的总称。
七、它们不是孤立的,而是相互支撑的
说了这么多区别,我想强调一点:这四个学科不是各自为政的孤岛,它们在实际研究中经常相互交叉、相互支撑。
语料库是计量语言学和计算语言学的共同“原材料”——计量语言学家用语料库来验证定律,计算语言学家用语料库来训练模型。
计量语言学是数字人文的重要方法路径——用词频、词汇丰富度、句长参数研究文学风格,用齐普夫定律分析大型历史文本库。
计算语言学与语料库语言学都要使用计算机——但一个是“用计算机处理语言”,一个是“用计算机存储和分析语料”。
数字人文与计量语言学在方法上高度重合——但数字人文覆盖的范围远大于计量语言学。
正如有学者指出的,这些学科“相互依存、相互促进,构成了一个以计算机技术为特征的现代语言学大家族”。
八、如果你还在纠结选哪个……
如果你对这几个方向感兴趣但不知道选哪个,可以做个小测试:
选计量语言学:你对“语言有没有普适规律”这种问题着迷,喜欢数学和统计,想用公式描述世界。你不介意研究的东西“短期内用不上”——你追求的是知识本身。
选计算语言学:你想亲手造出能“听懂”人话的系统,对AI和大模型充满好奇,想进入互联网行业做NLP工程师或AI产品经理。
选语料库语言学:你喜欢“用数据说话”,对真实的语言使用感兴趣,想做词典编纂、语言教学或翻译研究。
选数字人文:你对整个人文学科的数字转型感兴趣,不只是语言,还包括文学、历史、艺术。你希望用计算技术重新发现人文知识的脉络。
微信扫一扫









