中文信息处理的主流技术是什么?

11 提交 / 0个新回复
最新回复
中文信息处理的主流技术是什么?

作者简介: 
----黄昌宁 
---- 1961年毕业于清华大学自动控制系,现任微软亚洲研究院高级研究员兼博士后工作站负责人,此前他是清华大学计算机系的教授和博士生导师,长期领导清华大学计算语言学课题组的科研与教学工作。 
从20世纪50年代初机器翻译课题被提出算起,自然语言处理(NLP)的研发历史至少也有50年了。90年代初,NLP的研究目标开始从小规模受限语言处理走向大规模真实文本处理。把这个新目标正式列入大会主题的是1990年在赫尔辛基举行的“第13届国际计算语言学大会”。那些只有几百个词条和数十条语法规则的受限语言分析系统,通常被业内人士戏称为“玩具”,不可能有什么实用价值。政府、企业和广大计算机用户期盼的是像汉字输入、语音听写机、文-语转换(TTS)、搜索引擎、信息抽取(IE)、信息安全和机器翻译(MT)那样的、有能力处理大规模真实文本的实用化系统。 
正是基于对这个里程碑式转折的关注,笔者在1993年就列举了四种大规模真实文本处理的应用前景:新一代信息检索系统;按客户要求编辑的报纸;信息抽取,即把非结构化的文本转化为结构化的信息库;大规模语料库的自动标注。值得庆幸的是,今天所有这四个方向都有了实用化或商品化的成果。 
尽管全世界都把大规模真实文本处理看做是NLP的一个战略目标,但这不等于说受限领域的机器翻译、语音对话、电话翻译和其他一些基于深层理解的自然语言分析技术或理论研究,就不应当再搞了。目标和任务的多样化是学术界繁荣昌盛的一个标志。问题是要考虑清楚NLP的主战场在哪里,我们的主力应当部署在哪里。 
中文难办吗? 
谈到中文信息处理所面临的重大应用课题,如企业和广大计算机用户所期盼的汉字输入、语音识别等,大家似乎并没有什么分歧。但是当讨论深入到实现这些课题的方法或技术路线时,分歧马上就泾渭分明了。第一种意见认为,中文信息处理的本质是汉语理解,也就是要对汉语真实文本实施句法-语义分析。持这种意见的学者主张,以往在中文信息处理中使用的概率统计方法已经走到了尽头,为了在理解或语言层面上解决中文信息处理问题,就必须另辟蹊径,这条蹊径便是语义学。据说这是因为汉语不同于西方语言,汉语的句法相当灵活,汉语本质上是一种意合语言等。 

与上述意见相对立的观点是:前面提到的绝大多数应用系统(MT除外)其实都是在没有句法-语义分析的情况下实现的,因此谈不上“理解”。 如果一定要说“理解”,那么只是用图灵实验来证实的所谓“理解”。 
上述双方争论的焦点是方法,但目标和方法通常是密不可分的。如果我们同意把大规模真实文本处理作为NLP的战略目标,那么实现这一目标的理论和方法也必然要跟着变化。无独有偶,1992年在蒙特利尔召开的“第四届机器翻译的理论和方法国际会议(TMI-92)”宣布大会的主题是“机器翻译中的经验主义和理性主义方法”。这就是公开承认,在传统的基于语言学和人工智能方法(即理性主义)的NLP技术以外,还有一种基于语料库和统计语言模型的新方法(即经验主义)正在迅速崛起。 
NLP的战略目标和相应的语料库方法都是从国际学术舞台的大视野中获得的,中文信息处理自然也不例外。那种认为中文文本处理特别困难,以至要另辟蹊径的观点,缺少有说服力的事实根据。拿信息检索(IR)来说,它的任务是从一个大规模的文档库中寻找与用户的查询相关的文档。怎样表示文档和查询的内容,以及如何度量文档和查询之间的相关程度,就成为IR技术需要解决的两个基本问题。召回率和精确率则是评价一个IR系统的两个主要指标。由于文档和查询都是用自然语言表述的,这个任务可以用来说明中文和西方语言所面临的问题和所采用的方法其实是十分相似的。一般来说,各文种的IR系统都用文档和查询中的词频(tf)和倒文档频率(idf)来表示文档和查询的内容,所以本质上是一种统计方法。 
 
世界文本检索大会TREC (http://trec.nist.gov/ ) 的最大特点是通过提供大规模训练语料和统一评测方法来支持IR技术的研发。研究团队必须通过大会的统一评测并名列前茅,才能获准到会上来做报告。1992年起TREC每年举办一届大会,并得到美国国防部(DARPA)和国家标准技术局(NIST)的资助。会议对包括中文、日文在内的多文种文档库开展了IR评测。结果表明,中文IR并没有因为存在分词问题就比其他文种做得差,而且迄今没有证据表明各语种的NLP,包括基于概念的或基于句法-语义分析的技术,能明显提高IR系统的性能。 
什么是主流技术? 
语料库方法和统计语言模型不但没有过时,而且在可比的统一评测中被证明是当前各国语言信息处理的一种主流技术。