多智能自然语言处理

背景——前所未有的创新时代

我们生活在一个创新的时代。在这个时代,互联网颠覆了人们的生活和工作方式。社交网络与移动终端的普及、大数据的产生与汇聚,催生出越来越多的新需求。这些需求必将推动更多创新应用(如微博、微信、语音助手、网络购物、手机打车、PM2.5指数、手机钱包、互联网理财、交友、移动学习、在线课程等)的问世。由于创新所依赖的基础设施日趋完善,多种云计算服务及开源平台前所未有地降低了创新的成本,使得人们可以将精力集中到创新本身。

得益于网络和云计算所支持的令人惊叹的计算能力,以及从大数据洞察到的良机,还有机器学习所带来的算法进步,人工智能获得了新生。人工智能,是指计算机系统具备从听说读写到搜索、推理、决策、回答问题等类人智能的能力。

最近,很多互联网公司提出了“大脑”计划,就是试图在大数据和互联网的背景下,提升各种应用的智能水平。在大数据的支持下,新一代人工智能与自然语言处理技术的大规模应用将成为科技创新的重大机遇。

数据智能、知识智能与社会智能

数据智能、知识智能和社会智能是智能应用的三种典型模式。

数据智能是在大规模、多样化、新鲜的数据支持下,在云计算的支撑下,采用机器学习的方法进行分类、聚类和排序,进而基于各类数据驱动实现的智能应用系统。这里的数据是指存在于万维网(Web)或者企业内部的海量、无结构或者半结构的数据集合。这类数据具有重复性、冗余性和多样性等特点,对搜索系统、问答系统、推理系统和预测系统具有重要意义。为了利用数据智能,我们须经过数据获取、去噪、抽取信息、建立索引等若干步骤形成可检索的数据集合。我们也可以利用搜索引擎的返回结果进行实时信息抽取,以避免存储和索引全网而付出的代价。

知识智能是指利用知识库、词典和规则进行推理的智能系统。目前很多搜索公司都建立了大型知识库。Freebase, Yago2和DEPEDIA等知识库可供免费研究和使用。结构化、半结构化和无结构化的数据经过信息抽取技术可获取实体、实体的属性和实体之间的关系来构成一个知识图谱。知识图谱随着数据的更新而演进,带动知识智能不断提升。

社会智能是指利用网友在互联网上直接贡献的内容(包括网页锚文本、用户标签、用户日志、用户反馈、社区问答、社会关系网络等)实现用户参与的智能应用。在社区问答中,用户提出问题,其他网友回答问题。久而久之形成的问答对库可以用来回答新的问题。这些问题和答案蕴含着丰富的社会智能。

值得注意的是,在企业里也存在着这样三种形态的智能信息。企业的网页、文档、电子邮箱、新闻、交易数据等可以看作是数据智能;企业的知识库、本体、产品目录、地址簿、客户关系等可以看作是知识智能;企业内部的QQ, LINC, YAMMER, Wiki的数据可以视作社会智能。利用这三种类型的智能信息,可以很好地支持商业活动,提高企业的运行效率。

以搜索引擎为例,给定一个查询表达式,搜索引擎进行排序时,会用到TF-IDF1,体现关键词和文档的匹配(数据智能),会用到page rank2(社会智能),也会用到实体、实体之间的关系(知识智能)。而且很多搜索引擎在展示结果的时候,会提供网页搜索、知识图谱以及社会关系网络等的结果。

多智能自然语言处理系统

自然语言处理研究的基本任务是理解句子和文章的要点,推断其意图,进行人机自然交互,实现搜索、文摘、自动问答、聊天机器人、机器翻译等多种应用。

搜索引擎的成功启发我们在创新的时候,要综合考虑数据智能、知识智能和社会智能。本专题以自然语言处理为例,邀请多位专家对相关科学研究方法与应用创新进行具体阐述。

在数据智能方面,建立安全可靠的云计算平台,实现对互联网和授权企业数据的及时获取、更新。根据应用的需要,对数据进行聚类、分类和主题抽取。利用数据的特点获取有标注信息的数据,比如有翻译标注的双语对照数据、有分词标注信息的数据、有地理位置信息的数据。同时,对数据的可靠性进行有效估计,对数据的质量进行自动评定。然后,利用数据建立适合于特定应用问题的模型,比如机器翻译和输入法中使用的语言模型。利用深度学习获得词汇的向量化表示,来计算词汇之间的语义距离,并训练更加强大的语言模型。