CN107358315A

CN107358315A - 一种信息预测方法及终端

Info

Publication number: CN107358315A
Application number: CN201710498853.6A
Authority: CN
Inventors: 朱益
Original assignee: Shenzhen Jinli Communication Equipment Co Ltd
Current assignee: Shenzhen Jinli Communication Equipment Co Ltd
Priority date: 2017-06-26
Filing date: 2017-06-26
Publication date: 2017-11-17

Abstract

本发明实施例公开了一种信息预测方法及终端，其中信息预测方法包括：获取待查询实体；获取待分析的自然语言信息；构建所述自然语言信息对应的知识图谱；根据所述知识图谱对所述待查询实体进行信息预测。本发明实施例通过构建待查询实体对应的待分析的自然语言信息的知识图谱，并通过构建的知识图谱进行信息预测，可以提高预测结果的准确度。

Description

一种信息预测方法及终端

技术领域

本发明涉及电子技术领域，尤其涉及一种信息预测方法及终端。

背景技术

信息预测是一种信息分析方法，是指根据过去和现在已经掌握的有关某一事物的信息资料，运用科学的理论和技术，深入分析和认识事物演变的规律性，从已知信息推出未知信息，从现有信息导出未来信息，从而对事物的未来发展做出科学预测的方法。信息预测可广泛应用于预测潜在客户、给用户提供辅助决策意见、预测潜在诈骗行为等。

现有技术中，通常通过逻辑推理、趋势外推、回归分析等方法进行信息预测，但是，采用这些方法信息预测得到的预测结果准确度不高，给出的决策意见或参考意见不太可靠。

发明内容

本发明实施例提供一种信息预测方法及终端，能够提高预测结果的准确度。

第一方面，本发明实施例提供了一种信息预测方法，该方法包括：

获取待查询实体；

获取待分析的自然语言信息；

构建所述自然语言信息对应的知识图谱；

根据所述知识图谱对所述待查询实体进行信息预测。

另一方面，本发明实施例提供了一种终端，该终端包括：

第一获取单元，用于获取待查询实体；

第二获取单元，用于获取待分析的自然语言信息；

构建单元，用于构建所述自然语言信息对应的知识图谱；

预测单元，用于根据所述知识图谱对所述待查询实体进行信息预测。

第三方面，本发明实施例提供了另一种终端，该终端包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的信息预测方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，包括：计算机程序被处理器执行时实现上述第一方面所述的信息预测方法。

本发明实施例通过获取待查询实体；获取待分析的自然语言信息；构建所述自然语言信息对应的知识图谱；根据所述知识图谱对所述待查询实体进行信息预测。终端可以根据构建的知识图谱获取与待查询实体相关的隐含知识或信息，通过获取到的隐含的知识或信息进行信息预测，能够提高待查询实体对应的预测结果的准确度。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种信息预测方法的示意流程图；

图2是本发明实施例提供的一种形式化的自然语言的关系方阵图；

图3是本发明实施例提供的一种知识图谱的示意图；

图4本发明另一实施例提供的一种信息预测方法的示意流程图；

图5是本发明实施例提供的一种终端的示意性框图；

图6是本发明另一实施例提供的一种终端示意性框图；

图7是本发明再一实施例提供的一种终端示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

具体实现中，本发明实施例中描述的终端包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是，在某些实施例中，所述设备并非便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。

在接下来的讨论中，描述了包括显示器和触摸敏感表面的终端。然而，应当理解的是，终端可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。

终端支持各种应用程序，例如以下中的一个或多个：绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

可以在终端上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样，终端的公共物理架构(例如，触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

请参见图1，图1是本发明实施例提供的一种信息预测方法的示意流程图。本实施例中信息预测方法的执行主体为终端。终端可以为手机、平板电脑等移动终端，但并不限于此，还可以为其他终端。如图1所示的信息预测方法可包括以下步骤：

S101：获取待查询实体。

终端在正常工作，或检测到用于触发信息预测的预设操作时，获取待查询实体。

用于触发信息预测的预设操作可以是开启信息预测功能，也可以是检测到用户输入待查询实体，此处不做限制。待查询实体可以是用户输入的，也可以由终端获取。终端可以从用户输入的信息中获取待查询实体，待查询实体可以包括在用户输入的一句话或一段话中。

在本实施例中，实体包括但不限于字、词，待查询实体可以为触发词或句子，或待查询的检索信息。检索信息包括但不限于关键词或关键字。

S102：获取待分析的自然语言信息。

终端可以根据待查询实体获取待分析的自然语言信息。待分析的自然语言信息与待查询实体相关。自然语言通常是指一种自然地随文化演化的语言。英语、汉语、日语为自然语言的例子。

其中，终端可以从即时通信应用各自对应的即时通信消息中获取待分析的自然语言信息；还可以通过搜索引擎(比如，谷歌搜索引擎、百度搜索引擎等)从网页端数据中获取待分析的自然语言信息，还可以通过网络爬虫(Crawler)技术获取网页内容，并从网页内容中获取待分析的自然语言信息。即，自然语言信息的数据源可以是即时通信应用，也可以是网页端数据。自然语言信息可以来自相同的数据源，也可以来自不同的数据源。

即时通讯应用包括：QQ应用、微信应用、facebook、twitter中的任意一个或至少两个的任意组合。

S103：构建所述自然语言信息对应的知识图谱。

具体地，终端可通过知识引擎构建获取到的自然语言信息所对应的知识图谱。知识引擎来源于Knowledge engine，是一种智能化的汉语知识管理***。

终端通过知识引擎对自然语言信息进行自然语言的形式化处理，并对处理后的自然语言信息构建知识图谱。

自然语言的形式化处理是指将自然语言规则化，即，将自然语言信息通过一定的规则进行形式化。

构建知识图谱的主要目的是获取大量的、让计算机可读的知识或信息。在互联网飞速发展的今天，知识大量存在于非结构化的文本数据，大量半结构化的表格和网页，生产***的结构化数据中，终端需要从非结构化的文本数据、半结构化的表格和网页、生产***的结构化数据中获取让计算机可读的知识或信息。

本实施例中，通过知识引擎构建的自然语言信息对应的知识图谱，与待查询实体具有直接或间接的关系。

其中，终端可以将自然语言信息处理成“主项-联结词-谓项”的形式。例如，“大家今天都开车了”，经过形式化处理后得到“大家是开车”，其中“大家”为主项(subject)，“是”为联结词(affirmative)，“车”为谓项(predicate)。

由于，主项和谓项有范围程度，主项有全称、特称、单称，联结词有肯定和否定，谓项和主项类似，而形式逻辑通常把“单称判断”与“全称判断”看做一类，因此，“主项-联结词-谓项”可细分为以下几种形式：全称肯定判断、全称否定判断、特称肯定判断、特称否定判断。

主项为subject，谓项为predicate。全称判断下：联结词取“肯定affirmative,拉丁语里是a-fir-mo的首个元音字母a”，“否定negative，拉丁语里是ne-go首个元音字母e”。全称肯定判断简写成SAP，全称否定判断简写成SEP。

特称判断下：联结词取“肯定affirmative，拉丁语里是a-fir-mo的第二个个元音字母i”，“否定negative，拉丁语里是ne-go第二个元音字母o”。特称肯定判断简写成SIP，特称否定判断简写成SOP。

例如，“大家今天都开车了”是一个全称(主项)肯定(联结词)判断。

“部门有些人开车了”是一个特称(主项)肯定(联结词)判断；特称判断是反映某类事物中至少有一个对象具有或不具有某种性质的判断。

“小张今天也开车了”，是一个单称肯定判断。

以上几种形式化的自然语言之间的关系如下：SAP与SOP是矛盾关系，SAP与SIP是差等关系，SAP与SEP是反对关系，SIP与SEP是矛盾关系，SIP与SOP是反对关系，SOP与SEP是差等关系。以上几种形式化的自然语言的关系方阵图如图2所示。

矛盾关系、差等关系、反对关系主要是针对自然语言进行简单的形式化推理。例如，若SAP为真，则SOP为假；若SAP为真，则SIP为真，诸如此类。

S104：根据所述知识图谱对所述待查询实体进行信息预测。

终端根据知识图谱中包含的知识对待查询实体进行信息预测。信息预测结果可以是决策数据、潜在客户、用户的潜在行为、语义搜索结果、知识问答结果等。

其中，当待查询实体为某公司名称或某产品时，终端可以预测该公司或产品的潜在客户；当待查询实体为某人的名字时，终端可以预测该人的潜在行为，并针对该潜在行为执行推荐操作，向用户推荐与该潜在行为匹配的信息。当终端在查询***获取到的待查询实体为词语时，终端还可以预测该词语的语义。

例如，用户向即时通信应用的联系人发送了如下信息“我今天去小王家，要不要买礼物？”，终端将该信息中的“小王、礼物”识别为待查询实体，执行S102～S103获取根“小王”相关自然语言信息，并构建该自然语言信息的知识图谱(该自然语言信息的知识图谱如图3所示)，从而得到跟“小王”各方面的资料(比如，工作方面、社交关系、兴趣爱好等)，并综合得到的资料向用户推荐买给“小王”的礼物。

终端还可以新建备忘录，提醒用户。比如，终端新建一个用于提醒用户去小王家的备忘录，以便用户能够准时到达小王家。

终端还可以在检测用户已经出发去小王家时，根据小王家的地址规划出行路线，并将规划的出行路线提示给用户。在此，不限制规划的出行路线的数目。

上述方案，终端获取待查询实体；获取待分析的自然语言信息；构建所述自然语言信息对应的知识图谱；根据所述知识图谱对所述待查询实体进行信息预测。终端可以根据构建的知识图谱获取与待查询实体相关的隐含知识或信息，通过获取到的隐含的知识或信息进行信息预测，能够提高待查询实体对应的预测结果的准确度。

请参见图4，图4是本发明另一实施例提供的一种信息预测方法的示意流程图。本实施例中信息预测方法的执行主体为终端。终端可以为手机、平板电脑等移动终端，但并不限于此，还可以为其他终端。如图4所示的信息预测方法可包括以下步骤：

S201：获取待查询实体。

用于触发信息预测的预设操作可以是开启信息预测功能，也可以是检测到用户输入待查询实体，此处不做限制。待查询实体可以是用户输入的，也可以由终端识别得到。终端可以从用户输入的信息中获取待查询实体，待查询实体可以包括在用户输入的一句话或一段话中。

S202：获取待分析的自然语言信息。

S203：构建所述自然语言信息对应的知识图谱。

S2031：根据所述自然语言信息所属的信息类型获取所述自然语言信息对应的知识信息；其中，所述信息类型包括半结构化类型、非结构化类型。

在互联网飞速发展的今天，知识大量存在于非结构化的文本数据，大量半结构化的表格和网页，生产***的结构化数据中，终端需要从非结构化的文本数据、半结构化的表格和网页、生产***的结构化数据中获取让计算机可读的知识。

终端可以对自然语言信息进行形式化处理，根据自然语言信息所属的信息类型获取与该信息类型对应的预设的知识获取方式，并采用预设的知识获取方式获取形式化处理后的自然语言信息所对应的知识信息。自然语言的形式化处理是指将自然语言规则化，即，将自然语言信息通过一定的规则进行形式化。

“小张今天也开车了”，是一个单称肯定判断。

其中，矛盾关系、差等关系、反对关系主要是针对自然语言进行简单的形式化推理。例如，若SAP为真，则SOP为假；若SAP为真，则SIP为真，诸如此类。

进一步地，S2031可以包括：若所述自然语言信息所属的信息类型为非结构化类型，则从所述自然语言信息中提取用户关注的正文内容，并采用实体链接技术或实体识别技术从所述正文内容中提取实体；或者

若所述自然语言信息所属的信息类型为非结构化类型半结构化类型，则通过预设的抽取规则从自然语言信息抽取具有相同属性的知识信息。

例如，当自然语言信息所属的信息类型为非结构化类型(即，自然语言信息为非结构化数据)时，终端从非结构化的自然语言信息中提取正文内容，以有效过滤非结构化的自然语言信息中包含的广告信息等，从而保留用户可能关注的文本内容。该正文内容是指用户关注的文本内容。

终端当得到正文文本后，通过自然语言识别技术识别文本内容中的实体。自然语言识别技术是一种对自然语言信息进行处理的技术，从语言学的角度来说，自然语言识别也叫计算语言学(Computational Linguistics)。自然语言识别包括自然语言理解(Natural Language Understanding，NLU)和自然语言生成(Natural LanguageGeneration，NLG)两部分。自然语言理解是指对自然语言的内容和意图的深层把握，自然语言生成是指从非自然语言输入到自然语言输出的处理。

实体识别通常有两种方法，一种是当用户本身有一个知识库时，终端可以使用实体链接将文本内容中可能的候选实体链接到用户的知识库上。另一种是当用户没有知识库时，终端需要使用命名实体识别技术识别文本内容中的实体。若文本内容中存在实体的别名或者简称，终端还需要构建实体间的同义词表，这样可以使不同实体具有相同的描述。

终端可通过分词、词性标注，以及词向量识别实体。词向量是一种既能表示词本身又可以考虑语义距离的表示方法，即，把一个词表示成一个向量。

终端为了得到不同粒度的知识还可提取文本内容中的关键词，获取文本内容的潜在主题等。当获得实体后，终端进行实体关系识别，以获取实体间的关系。

可选地，终端可以采用无监督学习过半监督学习的方式进行实体关系识别。

无监督学习是从搜索引擎摘要中获取和聚合抽取模板(预先设计好的模版，如预设的数据结构)，通过使用联合聚类(Co-clustering)算法以及利用关系实例和关系模板的对偶性，聚合关系模板，将模板聚类后发现由实体对代表的隐含语义关系，从而实现实体关系识别。其中，无监督学习一般利用语料中存在的大量冗余信息做聚类，在聚类结果的基础上给定关系。实例可以为一个例子，或实例化的一个对象。即实例可以为实体的一个例子。

半监督学习主要是利用少量的标注信息进行学习，从而实现实体关系识别，这方面的工作主要是基于Bootstrap的方法。基于Bootstrap的方法主要是利用少量的实例作为初始种子的集合，然后利用样本学习方法进行学习，通过不断的迭代，从非结构化数据中抽取实例，然后从新学到的实例中学习新的样本并扩种样本集合。

可选地，终端还可利用句法结构确定两个实体间的关系，例如，利用依存句法分析或语义依存分析确定实体间的关系。

依存语法(Dependency Parsing,DP)通过分析语言单位内成分之间的依存关系揭示其句法结构。直观来讲，依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分，并分析各成分之间的关系。

语义依存分析(Semantic Dependency Parsing,SDP)，分析句子各个语言单位之间的语义关联，并将语义关联以依存结构呈现。使用语义依存刻画句子语义，好处在于不需要去抽象词汇本身，而是通过词汇所承受的语义框架来描述该词汇，而论元的数目相对词汇来说数量总是少了很多的。语义依存分析目标是跨越句子表层句法结构的束缚，直接获取深层的语义信息。论元是指带有论元角色的体词性成分，而论元角色是由谓词根据其与相关的名词短语之间语义关系而指派给这些名词短语的语义角色,即与动词连用的论元在与动词所表示的动作或状态里扮演的语义角色。

语义依存关系分为三类，分别是主要语义角色，每一种语义角色对应存在一个嵌套关系和反关系；事件关系，描述两个事件间的关系；语义依附标记，标记说话者语气等依附性信息。

当用户不仅仅想获取实体间的关系，还想获取一个事件的详细内容时，可以输入该事件的触发词，此时，终端在获取到实体间的关系，且获取到该事件的触发词时，获取描述该事件的句子，从而获取一个事件的详细内容，以及识别描述该事件的句子中的实体对应事件的角色。

当自然语言信息所属的信息类型为半结构化类型(即，自然语言信息为半结构化数据)时，由于通过半结构化数据具有大量的重复性的结构，终端对半结构化数据进行标注，通过包装器学习半结构化数据的预设的抽取规则，从而使用预设的抽取规则从半结构化数据中的同类型数据或者符合某种关系的数据进行抽取，得到具有相同属性的知识信息。包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序。

当自然语言信息来自用户的生产***的数据库时，终端可通过数据装载工具(Extract-Transform-Load，ETL)对自然语言信息进行重新组织、数据清洗、检测最后得到符合用户使用目标数据。ETL是用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

S2032：融合所述自然语言信息对应的知识信息，构建所述自然语言信息对应的知识图谱。

终端将来自不同数据源的自然语言信息所对应的知识信息进行融合，构建自然语言信息对应的知识图谱。构建的知识图谱，与待查询实体具有直接或间接的关系。构建的知识图谱中可以包括各实体之间的关系、各实体与其实例的关系、各实体与其语义概念的关系。

其中，终端获取到来自各数据源的知识信息时，提供统一的术语，将来自各数据源的知识信息融合成一个庞大的知识库。提供统一术语的结构或者数据被称为本体，也即，相关领域的一种明确定义的共识。本体不仅提供了统一的术语字典，还构建了各个术语间的关系以及限制。本体可以让用户非常方便和灵活的根据自己的业务建立或者修改数据模型。本体用来确定描述某个领域的知识以及这些知识之间的相互关系，使得这些知识能够被机器所理解。

建立或者修改数据模型是指根据用户所需的业务定义或修改数据及其数据处理的相关过程。数据处理的相关过程包括定义数据类型、数据大小、默认值、设置确保数据完整性的规则(使用业务规则和验证检查)、定义操作过程(如安全检查和备份)、以及选择数据存储技术(如关系、分层或索引存储技术)。

终端通过数据映射技术建立本体中术语和不同数据源抽取知识中词汇的映射关系，进而将不同数据源的知识信息融合在一起。当来自不同数据源的实体可能会指向现实世界的同一个客体时，终端需要使用实体匹配将不同数据源相同客体的数据进行融合。当不同本体间存在某些术语描述同一类本体时，终端采用本体融合技术把不同的本体融合。

终端根据用户查询场景的不同采用不同的存储架构(如NoSQL或者关系数据库)存储最后融合而成的知识库。同时大规模的知识库也符合大数据的特征，因此终端需要传统的大数据平台如Spark或者Hadoop提供高性能计算能力，支持快速运算。

可选地，S2032可以包括步骤S20321～S20323：

S20321：获取所述自然语言信息对应的知识卡片；其中，所述知识卡片用于描述所述待查询实体的特征信息。

终端预先为每个数据源分配知识抽取工具，并根据待分析的自然语言信息对应的数据源的信息，确定与该数据源对应的知识抽取工具，并采用确定的知识抽取工具从来自该数据源的待分析的自然语言信息中抽取与待查询实体相关的知识卡片。当待分析的自然语言信息来自生产***时，知识抽取工具可以为ETL工具；当待分析的自然语言信息来自网页时，知识抽取工具可以为搜索引擎(搜索引擎的数目可以为一个，也可以为至少两个，不同类型的网页对应的搜索引擎可能相同，也可不同)；当待分析的自然语言信息来自即时通信应用时，知识抽取工具为能够提取即时通信信息的抽取工具。

其中，知识卡片用于描述待查询实体的特征信息，知识卡片为总结性的结构化数据，如知识卡片为基本的语义概念或属性等。待查询实体对应的知识卡片的数目可以为一个，也可以为至少两个，此处不做限制。

S20322：采用预设算法获取每个知识卡片指向的目标实体。

终端可以获取每个知识卡片指向的第一候选实体，采用预设算法从所述每个知识卡片指向的第一候选实体中，确定所述每个知识卡片指向的目标实体。

其中，一个知识卡片指向的候选实体的数目可以为一个，也可也为至少两个。当同一个知识卡片对应的候选实体为至少两个时，至少两个候选实体之间相互关联，可以互为同义词，也可也互为近义词。

终端可以采用预设的概率打分算法计算每个知识卡片确定第一知识卡片指向的每个第一候选实体各自对应的概率，并将概率最高的第一实体识别为第一知识卡片指向的目标实体；按照此方法，依次确定每个知识卡片所指向的目标实体。目标实体为该知识卡片最有可能指向的实体。在本实施例中，概率打分算法的表达式为：其中，S_n表示概率打分，X_i表示第i个候选实体，n为大于或等于1的正整数。

可以理解的是，在其他实施例中，也可以采用其他的概率打分算法，此处不做限制。

进一步地，S20322可以包括：采用预设的匹配算法获取每个知识卡片对应的第一候选实体；采用预设的消歧算法对所述第一候选实体进行消歧处理，得到第二候选实体；根据所述第二候选实体各自对应的相似度或相关度，确定所述每个知识卡片指向的目标实体。

终端采用预设的本体匹配算法获取每个知识卡片对应的本体。由于本体提供了语义概念或者实体之间的对应关系，因此，终端可根据本体反映的语义概念之间的对应关系或实体之间的对应关系，确定每个知识卡片对应的第一候选实体。

本体匹配算法包括模式匹配(schema matching)和实例匹配(instancematching)。

模式匹配是根据词典与本体的信息，匹配出每个知识卡片对应的本体，根据本体反映的语义概念之间的对应关系或实体之间的对应关系，确定每个知识卡片对应的第一候选实体。具体地，终端可以利用预设词典以及本体的结构等信息进行模式匹配，匹配出每个知识卡片对应的本体，然后将匹配结果根据加权平均的方法整合起来，再进行一致性检查，去除那些导致不一致的对应关系。该过程可循环的，直到不再找到新的对应关系为止。

预设词典覆盖范围宽广、以同义词集合(synset)作为基本建构单位进行组织的词汇语义网；名词、动词、形容词和副词各自被组织成一个同义词的网络，每个同义词集合都代表一个基本的语义概念，并且这些集合之间也由各种关系连接。

针对大规模的本体，终端在确定每个知识卡片对应的本体时，终端可以使用锚(anchor)的***进行本体匹配。基于锚的本体匹配***是以一对来自两个本体的相似概念为起点，根据这些概念的父概念和子概念等邻居信息逐渐地构建小片段，从中找出匹配的概念。新找出的匹配的概念对作为新的锚，然后再根据邻居信息构建新的片段。该过程不断地重复，直到未找到新的匹配概念对时停止。

具体地，终端首先根据本体的结构对其进行划分获得组块，然后从不同本体获得的组块进行基于锚的匹配，这里的锚是指事先匹配好的实体对，最后再从匹配的组块中找出对应的概念和属性。终端在匹配的组块中找出对应的概念和属性时，根据概念之间的关系(即语义概念)确定该概念指向的本体，并确定该本体对应的候选实体，从而得到每个知识卡片对应的第一候选实体。

可选地，终端可以结合单词纠错算法对匹配出的每个知识卡片对应的本体进行纠错，以得到正确的本体。单词纠错算法可以包括但不限于n-gram法和/或编辑距离。编辑距离(Edit Distance)，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，***一个字符，删除一个字符。一般来说，编辑距离越小，两个字符串的相似度越大。

当单词纠错算法包括两种或更多种时，终端可以根据每种单词纠错算法预先分配的权重，将每种单词纠错算法对应的计算结果进行加权求和计算进行合并。

可选地，由于不同的算法对应的匹配效率不同，终端还可以根据本体的特征，在计算每个实体对的相似度时动态选择匹配算法，以获得更准确的匹配结果。例如，终端在大概率下使用匹配算法a能实现相似度更高的实体对，那则选用匹配算法a。

终端在确定每个知识卡片对应的本体时，终端可采用实例匹配法评估异构知识源(来自不同数据源的本体)之间实例对的相似度，用来判断这些实例是否指向给定领域的相同实体，根据实例对的相似度确定与本体匹配的实体每个知识卡片对应的第一候选实体。其中，本体与实例相对应。实例相当于举例，实例可以为具体的某件事。

终端在获取到每个知识卡片对应的第一候选实体时，采用预设的消歧算法对第一候选实体进行消歧处理，得到第二候选实体；根据第二候选实体各自对应的相似度或相关度，确定每个知识卡片指向的目标实体。终端可以将相似度或相关度最高的候选实体作为知识卡片指向的目标实体，但并不限于此。

预设的消歧算法可以分为：基于主题模型的消歧方法、基于图的消歧方法以及基于深度神经网络的消歧方法。

基于主题模型的消歧方法：通过预设的主题模型自动对文本中的实体指称进行标注，生成标注的训练数据集，该训练数据集用于训练基于主题模型算法(Latent DirichletAllocation，LDA)的主题模型，然后计算实体指称和候选实体的上下文语义相似度从而消歧得到目标实体。比如，针对用户的兴趣主题建模的方法，首先构建关系图，构建的关系图中包含了不同命名实体间的相互依赖关系，然后利用局部信息对关系图中每个命名实体赋予初始兴趣值，最后利用传播算法(如COPRA、SLPA等)对不同命名实体的兴趣值进行传播得到最终兴趣值，选择具有最高兴趣值的候选实体。

基于图的消歧方法：利用构造的一种基于图的模型，图模型属于结构模型，可用于描述自然界和人类社会中的大量事物和事物之间的关系。构成图模型的图形不同于一般的几何图形。例如，它的每条边可以被赋以权，组成加权图。

图节点为所有实体指称和所有候选实体；图的边分为两类，一类是实体指称和其对应的候选实体之间的边，权重为实体指称和候选实体之间的局部文本相似度，该相似度可采用现有技术的词袋模型和余弦距离计算得出，词袋模型和余弦距离的具体内容此处不赘述。另一类是候选实体之间的边，权重为候选实体之间的语义相关度，语义相关度可采用现有技术中的谷歌距离计算。谷歌距离由给定一组关键词集合的谷歌搜索引擎所返回的命中数量得出。在自然语言意义上有相同或类似含义的关键词往往在谷歌距离单元倾向于“紧密”，而有不同含义的词汇则往往距离较远。

终端在采用基于图的消歧方法进行消歧时，首先采集不同实体的初始置信度，然后通过图中的边对置信度进行传播和增强，再基于图和语义关系的命名实体消歧方法，该方法在***上建立基于图的模型，然后在该模型上计算各个命名实体的得分从而确定了目标实体。

基于深度神经网络的消歧方法：是使用实体消歧的实体表示训练方法。该方法对文章内容进行自编码，利用预设的深度神经网络模型以有监督的方式训练实体表示，依据语义表示相似度对候选实体进行排序，但该方法是一种局部性方法，没有考虑同一文本中共同出现的实体间相关性。因此终端可以使用基于图的半监督实体消歧方法，将利用预设的深度神经网络模型得到的实体间语义关联度作为图中的边权值。

其中，基于深度神经网络DNN的深度语义关联方法在关联性测试上还是在消歧性能上都具有更好的关联性和更高的准确性。

S20323：建立所述目标实体之间的关联关系，构建所述自然语言信息对应的知识图谱。

终端采用实体链接技术建立目标实体之间的关联关系，构建待分析的自然语言信息对应的至少图谱。

S204：根据所述知识图谱获取所述待查询实体的特征信息，根据所述特征信息对所述待查询实体进行信息预测。

终端根据知识图谱提供的知识信息获取该知识图谱提供的知识信息中存在的隐含数据，预测待查询实体与知识图谱中包含的目标实体之间的隐含关系，从而获得待查询实体的特征信息，根据获取的特征信息对待查询实体，采用预设的统计推理方法对待查询实体进行信息预测。

预设的统计推理方法可以是实体关系学习方法、类型推理(type inference)方法或模式归纳(schema induction)方法中的其中一种或至少两种的任意组合。

实体关系学习的目的是学习知识图谱中实例和实例之间的关系，并使用知识图谱中自然语言和图之间的特征、图之间的关联进行信息预测。

类型推理(type inference)方法，其目的是学习知识图谱中的实例和概念之间的属于关系。终端可根据知识图谱中的实例和概念之间的属于关系，利用三元组主语或谓语所连接属性的统计分布预测实例的类型。该方法可以用在任意单数据源的知识图谱。

模式归纳(schema induction)方法，是学习概念之间的关系，主要有基于归纳逻辑ILP的方法和基于ARM的方法。ILP结合了机器学习和逻辑编程技术，使得人们可以从实例和背景知识中获得逻辑结论。使用向下精化算子学习描述逻辑的概念定义公理的方法，即从最一般的概念(即顶概念)开始，采用启发式搜索方法使该概念不断特殊化，最终得到概念的定义。

所谓归纳逻辑是指人们以一系列经验事物或知识素材为依据，寻找出其服从的基本规律或共同规律，并假设同类事物中的其他事物也服从这些规律，从而将这些规律作为预测同类事物的其他事物的基本原理的一种认知方法。

ARM是形如X→Y的蕴涵式，其中，X和Y分别称为关联规则的先导(antecedent或left-hand-side,LHS)和后继(consequent或right-hand-side,RHS)。其中，关联规则X和Y，存在支持度和信任度。假设I＝{I₁，I₂，……，I_m}是项的集合，m为大于或等于3的正整数。给定一个交易数据库D，其中每个事务(Transaction)t是I的非空子集，即，每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比，即概率；置信度(confidence)是D中事务已经包含X的情况下，包含Y的百分比，即条件概率。如果满足最小支持度阈值和最小置信度阈值，则认为关联规则是有趣的。最小支持度阈值和最小置信度阈值可根据时间需要设定，此处不做限制。

信息预测结果可以是决策数据、潜在客户、用户的潜在行为、语义搜索结果、知识问答结果等。

例如，用户向即时通信应用的联系人发送了如下信息“我今天去小王家，要不要买礼物？”，终端将该信息中的“小王、礼物”识别为待查询实体，执行S202～S203获取根“小王”相关自然语言信息，并构建该自然语言信息的知识图谱(该自然语言信息的知识图谱如图3所示)，从而得到跟“小王”各方面的资料(比如，工作方面、社交关系、兴趣爱好等)，并综合得到的资料向用户推荐买给“小王”的礼物。

终端采用预设算法获取每个知识卡片最有可能指向的目标实体，能够提高目标实体的准确度，在通过根据目标实体构建的知识图谱进行信息预测时，能够提高预测结果的准确度。

终端采用匹配算法得到知识卡片对应的第一候选实体，并采用消歧算法对第一候选实体进行消歧处理，根据消歧处理后的候选实体的相似度或相关度确定知识卡片指向的目标实体，能够提高待查询实体与目标实体之间的语义关联度，在通过根据目标实体构建的知识图谱进行信息预测时，进一步提高预测结果的准确性。

参见图5，图5是本发明实施例提供的一种终端的示意性框图。终端可以为手机、平板电脑等移动终端，但并不限于此，还可以为其他终端，此处不做限制。本实施例的终端500包括的各单元用于执行图1对应的实施例中的各步骤，具体请参阅图1以及图1对应的实施例中的相关描述，此处不赘述。本实施例的终端包括：第一获取单元510、第二获取单元520、构建单元530以及预测单元540。

第一获取单元510用于获取待查询实体；

第二获取单元520用于获取待分析的自然语言信息；

构建单元530用于构建所述自然语言信息对应的知识图谱；

预测单元540用于根据所述知识图谱对所述待查询实体进行信息预测。

参见图6，图6是本发明另一实施例提供的一种终端的示意性框图。终端可以为手机、平板电脑等移动终端，但并不限于此，还可以为其他终端，此处不做限制。本实施例的终端600包括的各单元用于执行图4对应的实施例中的各步骤，具体请参阅图4以及图4对应的实施例中的相关描述，此处不赘述。本实施例的终端包括：第一获取单元610、第二获取单元620、构建单元630以及预测单元640。其中，构建单元630可以包括知识信息获取单元631以及知识图谱构建单元632。

第一获取单元610用于获取待查询实体。

第二获取单元620用于获取待分析的自然语言信息。

构建单元630用于构建所述自然语言信息对应的知识图谱。

可选地，当构建单元630可以包括知识信息获取单元631以及知识图谱构建单元632时，

知识信息获取单元631用于根据所述自然语言信息所属的信息类型获取所述自然语言信息对应的知识信息；其中，所述信息类型包括半结构化类型、非结构化类型；

知识图谱构建单元632用于融合所述自然语言信息对应的知识信息，构建所述自然语言信息对应的知识图谱。

可选地，知识图谱构建单元632还可以进一步包括知识卡片获取单元6321、目标实体获取单元6322以及建立单元6323：

知识卡片获取单元6321，用于获取所述自然语言信息对应的知识卡片；其中，所述知识卡片用于描述所述待查询实体的特征信息；

目标实体获取单元6322，用于采用预设算法获取每个知识卡片指向的目标实体；

建立单元6323，用于建立所述目标实体之间的关联关系，构建所述自然语言信息对应的知识图谱。

进一步地，目标实体获取单元具体用于：采用预设的匹配算法获取每个知识卡片对应的第一候选实体；采用预设的消歧算法对所述第一候选实体进行消歧处理，得到第二候选实体；根据所述第二候选实体各自对应的相似度或相关度，确定所述每个知识卡片指向的目标实体。

预测单元640用于根据所述知识图谱对所述待查询实体进行信息预测。

进一步地，预测单元640具体用于：根据所述知识图谱获取所述待查询实体的特征信息，根据所述特征信息对所述待查询实体进行信息预测。

参见图7，图7是本发明再一实施例提供的一种终端示意框图。如图所示的本实施例中的终端700可以包括：一个或多个处理器701；一个或多个输入设备702，一个或多个输出设备703和存储器704。上述处理器701、输入设备702、输出设备703和存储器704通过总线705连接。存储器702用于存储指令，处理器701用于执行存储器702存储的指令。其中，处理器701用于：

获取待查询实体；

获取待分析的自然语言信息；

构建所述自然语言信息对应的知识图谱；

根据所述知识图谱对所述待查询实体进行信息预测。

进一步地，处理器701具体用于根据所述自然语言信息所属的信息类型获取所述自然语言信息对应的知识信息；其中，所述信息类型包括半结构化类型、非结构化类型；以及用于融合所述自然语言信息对应的知识信息，构建所述自然语言信息对应的知识图谱。

进一步地，处理器701具体用于：获取所述自然语言信息对应的知识卡片；其中，所述知识卡片用于描述所述待查询实体的特征信息；采用预设算法获取每个知识卡片指向的目标实体；建立所述目标实体之间的关联关系，构建所述自然语言信息对应的知识图谱。

进一步地，处理器701具体用于：采用预设的匹配算法获取每个知识卡片对应的第一候选实体；采用预设的消歧算法对所述第一候选实体进行消歧处理，得到第二候选实体；根据所述第二候选实体各自对应的相似度或相关度，确定所述每个知识卡片指向的目标实体。

进一步地，处理器701具体用于根据所述知识图谱获取所述待查询实体的特征信息，根据所述特征信息对所述待查询实体进行信息预测。

应当理解，在本发明实施例中，所称处理器701可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备702可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备703可以包括显示器(LCD等)、扬声器等。

该存储器704可以包括只读存储器和随机存取存储器，并向处理器701提供指令和数据。存储器704的一部分还可以包括非易失性随机存取存储器。例如，存储器704还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器701、输入设备702、输出设备703可执行本发明实施例提供的信息预测方法的第一实施例和第二实施例中所描述的实现方式，也可执行本发明实施例所描述的终端的实现方式，在此不再赘述。

进一步地，在本发明的另一实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：

获取待查询实体；获取待分析的自然语言信息；构建所述自然语言信息对应的知识图谱；根据所述知识图谱对所述待查询实体进行信息预测。

可选地，所述计算机程序被处理器执行时可以实现：根据所述自然语言信息所属的信息类型获取所述自然语言信息对应的知识信息；其中，所述信息类型包括半结构化类型、非结构化类型；融合所述自然语言信息对应的知识信息，构建所述自然语言信息对应的知识图谱。

可选地，所述计算机程序被处理器执行时可以实现：获取所述自然语言信息对应的知识卡片；其中，所述知识卡片用于描述所述待查询实体的特征信息；采用预设算法获取每个知识卡片指向的目标实体；建立所述目标实体之间的关联关系，构建所述自然语言信息对应的知识图谱。

可选地，所述计算机程序被处理器执行时可以实现：采用预设的匹配算法获取每个知识卡片对应的第一候选实体；采用预设的消歧算法对所述第一候选实体进行消歧处理，得到第二候选实体；根据所述第二候选实体各自对应的相似度或相关度，确定所述每个知识卡片指向的目标实体。

可选地，所述计算机程序被处理器执行时可以实现：根据所述知识图谱获取所述待查询实体的特征信息，根据所述特征信息对所述待查询实体进行信息预测。

所述计算机可读存储介质可以是前述任一实施例所述的终端700的内部存储单元，例如终端700的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种信息预测方法，其特征在于，包括：

获取待查询实体；

获取待分析的自然语言信息；

构建所述自然语言信息对应的知识图谱；

根据所述知识图谱对所述待查询实体进行信息预测。

2.根据权利要求1所述的信息预测方法，其特征在于，所述构建所述自然语言信息对应的知识图谱包括：

根据所述自然语言信息所属的信息类型获取所述自然语言信息对应的知识信息；其中，所述信息类型包括半结构化类型、非结构化类型；

融合所述自然语言信息对应的知识信息，构建所述自然语言信息对应的知识图谱。

3.根据权利要求2所述的信息预测方法，其特征在于，所述融合所述自然语言信息对应的知识信息，构建所述自然语言信息对应的知识图谱，包括：

获取所述自然语言信息对应的知识卡片；其中，所述知识卡片用于描述所述待查询实体的特征信息；

采用预设算法获取每个知识卡片指向的目标实体；

建立所述目标实体之间的关联关系，构建所述自然语言信息对应的知识图谱。

4.根据权利要求3所述的信息预测方法，其特征在于，所述采用预设算法获取每个知识卡片指向的目标实体，包括：

采用预设的匹配算法获取每个知识卡片对应的第一候选实体；

采用预设的消歧算法对所述第一候选实体进行消歧处理，得到第二候选实体；

根据所述第二候选实体各自对应的相似度或相关度，确定所述每个知识卡片指向的目标实体。

5.根据权利要求1至4任一项所述的信息预测方法，其特征在于，所述根据所述知识图谱对所述待查询实体进行信息预测包括：

根据所述知识图谱获取所述待查询实体的特征信息，根据所述特征信息对所述待查询实体进行信息预测。

6.一种终端，其特征在于，包括：

第一获取单元，用于获取待查询实体；

第二获取单元，用于获取待分析的自然语言信息；

构建单元，用于构建所述自然语言信息对应的知识图谱；

7.根据权利要求6所述的终端，其特征在于，所述构建单元包括：

知识信息获取单元，用于根据所述自然语言信息所属的信息类型获取所述自然语言信息对应的知识信息；其中，所述信息类型包括半结构化类型、非结构化类型；

知识图谱构建单元，用于融合所述自然语言信息对应的知识信息，构建所述自然语言信息对应的知识图谱。

8.根据权利要求7所述的终端，其特征在于，所述知识图谱构建单元包括：

知识卡片获取单元，用于获取所述自然语言信息对应的知识卡片；其中，所述知识卡片用于描述所述待查询实体的特征信息；

目标实体获取单元，用于采用预设算法获取每个知识卡片指向的目标实体；

建立单元，用于建立所述目标实体之间的关联关系，构建所述自然语言信息对应的知识图谱。

9.一种终端，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的信息预测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的信息预测方法。