计算语言学是利用计算机研究和处理自然语言的新兴学科,是一门以计算为手段对自然语言进行研究和处理的科学。作为应用语言学的重要组成部分,计算语言学有广义和狭义两种理解。狭义的计算语言学指通过建立形式化的计算模型,用计算机分析、处理、理解并生成自然语言的学科。其目标是开发研制出一种能够运用人类语言进行人机自由交流的智能计算机。广义的计算语言学除了以上的内容外,还包括利用计算机对语言文字进行的各种定量化和精密化的研究。广义和狭义的计算语言学都是计算机科学与语言学的交叉,具有边缘学科的性质。
计算语音学研究如何使用计算机对语音信息进行处理,实现语音的自动识别与合成。语音识别(speech recognition)就是教会电脑“听话”,语音合成(speech synthesis) 则是教会电脑“说话”。语音识别和语音合成技术结合,可以实现人机语音通信。人们可以直接用语音向电脑或类似于电脑的计算终端发号施令,通过语音合成技术,完成语言符号的解码、转码和转变。
计算词汇学研究如何用计算机处理自然语言的词汇,建立语言词汇库、术语数据库等机器可读词典。上个世纪60年代后期,世界各国都掀起了编制机读词典的热潮。机读词典也叫电子词典,是将传统纸张词典用机器或软件呈现出来的新型词典,其规模及词条信息的详尽程度决定于语言信息处理系统的质量。
计算语法学研究如何用计算机来分析自然语言的语法,或称自动语法分析(parsing)。自动语法分析技术的发展已经比较成熟,有自顶向下分析法、自底向上分析法、深度优先分析法、广度优先分析法、确定性分析法、非确定性分析法等等。这些技术的来源依据为语言学理论中的词汇功能语法、广义短语结构语法、支配和约束理论等。
计算语义学研究如何利用计算机分析自然语言的语义,重要研究成果有威尔克斯(R. Wilks)的优选语义学、蒙塔古(R. Montague)的蒙塔古语法、商克(R. C. Schank)的概念依存理论、西蒙斯(R. F.Simmons)的语义网络理论等。