CN109033142B

CN109033142B - 一种数据处理方法、装置及服务器

Info

Publication number: CN109033142B
Application number: CN201810593240.5A
Authority: CN
Inventors: 程晓虎
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2021-02-12
Anticipated expiration: 2038-06-11
Also published as: CN109033142A

Abstract

本发明公开了一种数据处理方法、装置及服务器，所述方法包括：获取查询数据；从索引数据的关联词项集中匹配出所述查询数据所包含的关联词项集，其中，所述关联词项集包括关联出现的多个关联词项；确定所述查询数据所包含的关联词项集与所述查询数据之间的相似度；按照所述相似度的大小对所述关联词项集的索引数据所对应的业务数据进行排序；将排序后的业务数据作为所述查询数据的查询结果。利用本发明提供的技术方案可以提高匹配到的查询结果的准确性。

Description

一种数据处理方法、装置及服务器

技术领域

本发明涉及互联网通信技术领域，尤其涉及一种数据处理方法、装置及服务器。

背景技术

随着互联网和人工智能的发展，智能业务***在人们日常生活得到广泛的应用。在智能业务***的应用中，经常会遇到咨询问题或者获取知识等需求。为了满足需求，业务***往往会提供包括业务相关的常见数据和相应的索引数据的数据库，以供用户基于对索引数据的搜索，查找到需要的数据。

目前，业务***往往需要根据查询数据与索引数据之间的相似度来匹配出合适的查询结果。具体的，可以利用业务***中的大量语料训练出相似度模型，相似度模型训练过程中可以基于语料中词之间的语义关联来衡量词之间的相似度。具体的，将与某一词具有关联语义的词来表征该词的特征，并利用词的特征之间的距离来计算词之间的相似度。这种基于语义关联的相似度的衡量方式往往适合于通用领域的相似度计算，并不适用一些特定的垂直领域，例如“怎么办理***”和“怎么办理借记卡”，两者只有一字之差，但表述的问题却完全不一样。利用现有的基于词之间的语义关联的相似度的衡量方式中，由于与借记卡和***的语义关联的词语相似，导致提取的借记卡和***的特征相似度较高，很难区分出借记卡和***的不同之处，大大增加了匹配出合适查询结果的难度。因此，需要提供更可靠或更有效的方案。

发明内容

本发明提供了一种数据处理方法、装置及服务器，可以提高匹配到的查询结果的准确性。

第一方面，本发明提供了一种数据处理方法，所述方法包括：

获取查询数据；

从索引数据的关联词项集中匹配出所述查询数据所包含的关联词项集，其中，所述关联词项集包括关联出现的多个关联词项；

确定所述查询数据所包含的关联词项集与所述查询数据之间的相似度；

按照所述相似度的大小对所述关联词项集的索引数据所对应的业务数据进行排序；

将排序后的业务数据作为所述查询数据的查询结果。

第二方面提供了一种数据处理装置，所述装置包括：

查询数据获取模块，用于获取查询数据；

关联词项集匹配模块，用于从索引数据的关联词项集中匹配出所述查询数据所包含的关联词项集，其中，所述关联词项集包括关联出现的多个关联词项；

相似度确定模块，用于确定所述查询数据所包含的关联词项集与所述查询数据之间的相似度；

排序模块，用于按照所述相似度的大小对所述关联词项集的索引数据所对应的业务数据进行排序；

查询结果确定模块，用于将排序后的业务数据作为所述查询数据的查询结果。

第三方面提供了一种数据处理服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的数据处理方法。

第四方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的数据处理方法。

本发明提供的数据处理方法、装置及服务器，具有如下技术效果：

本发明将查询数据直接与能够准确反映业务***频繁出现的问题的关联词项集进行匹配，可以确定出业务***中与用户的查询数据相匹配的索引数据。另外，通过将匹配到的索引数据的关联词项集与查询数据之间的相似度计算，以及基于相似度的结果排序，实现将查询结果中的业务数据按照业务数据所对应的索引数据与查询数据匹配程度进行排序。这样后续可以将更符合查询需求的业务数据优先推送，大大提高了匹配到的查询结果的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的一种应用环境的示意图；

图2是本发明提供的索引数据生成的一种实施例的流程示意图；

图3是本发明提供的基于关联规则从语料信息中提取关联词项集的一种实施例的流程示意图；

图4是本发明提供的索引数据生成的另一种实施例的流程示意图；

图5是本发明提供的数据处理方法的一种实施例的流程示意图；

图6是本发明提供的数据处理方法的另一种实施例的流程示意图；

图7是本发明实施例提供的一种数据处理方法的服务器的硬件结构框图；

图8是本发明实施例提供的一种数据处理装置的结构示意图；

图9是本发明实施例提供的另一种数据处理装置的结构示意图；

图10是本发明提供的一种索引数据的挖掘和基于挖掘的索引数据匹配出查询结果实施例的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本发明实施例提供的一种应用环境的示意图，如图1所示，该应用环境可以包括业务服务器01、索引数据生成组件02和客户端03。

本说明书实施例中，所述业务服务器01可以用于获取查询数据；从索引数据的关联词项集中匹配出所述查询数据所包含的关联词项集，确定查询数据所包含的关联词项集与所述查询数据的相似度，按照所述相似度的大小对所述关联词项集的索引数据所对应的业务数据进行排序，将排序后的业务数据作为所述查询数据的查询结果。

本说明书实施例中，所述索引数据可以包括文本中的标题、问答***中的问题数据等可以作为某一数据的查询索引的数据。相应的，所述业务数据可以包括索引数据所对应的结果数据，例如，业务***中常见的问题的答案数据。

在本实施方式中，业务服务器01可以为一个具有运算和网络交互功能的电子设备；也可以为运行于该电子设备中，为数据处理和网络交互提供支持的软体。

在本实施方式中，业务服务器01并不具体限定服务器的数量。业务服务器01可以为一个服务器，还可以为几个服务器，或者，若干服务器形成的服务器集群。

在本实施方式中，业务服务器01可以为网站平台或智能设备的业务服务器。客户端03可以直接通过网络与业务服务器01进行通信。将查询数据发送给业务服务器01，以及业务服务器01可以直接将得到的业务数据发送给该客户端03。

本说明书实施例中，所述客户端03可以为具有语音处理、显示、运算和网络访问功能的电子设备。具体的，例如，客户端03可以为智能音箱、台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、具有网络访问功能的电视机。或者，客户端03也可以为能够运行于上述电子设备中的软体。

所述索引数据生成组件02可以用于生成与关联词项集相对应的索引数据，所述索引数据生成组件02可以位于所述业务服务器01，也可以位于其他业务服务器，当所述索引数据生成组件02位于其他业务服务器时，所述业务服务器01可以通过网络等方式访问该其他业务服务器，以获取该其他业务服务器中所述索引数据生成组件02生成的与关联词项集相对应的索引数据。

本说明书实施例中，可以维护一个索引数据库，该索引数据库中可以存储有索引数据、索引数据所对应的关联词项集、索引数据与关联词项集的映射关系。另外，该索引数据库中还可以存储有索引数据所对应的业务数据，以及索引数据与业务数据的映射关系。具体的，该索引数据库可以在业务服务器01中，也可以在其他业务服务器中。当所述索引数据库位于其他业务服务器时，所述业务服务器01可以通过网络等方式访问该其他业务服务器，以获取该索引数据库中的数据。

以下具体介绍索引数据生成的实施例，请参阅图2，图2是本发明提供的索引数据生成的一种实施例的流程示意图，具体的，可以包括：

S201：基于关联规则从语料信息中提取关联词项集。

在实际应用中，基于关联规则提取关联词项集的过程中是从语料信息中挖掘不同词之间可能存在的关联或联系，比如在银行业务中，“办理”后面一般会紧跟一个业务类型，比如“借记卡”、“理财产品”之类的。因此，在大量语料信息中，如果多个不同类型词总是频繁出现在一起，我们就可以认为这些不同类型词可以组成一个具有关联的关联词项集。

具体的，如图3所示，图3是本发明提供的基于关联规则从语料信息中提取关联词项集的一种实施例的流程示意图，具体的，可以包括：

S301：从所述语料信息中确定出频繁词项集。

本说明书实施例中，所述语料信息可以包括某一业务***所对应的大量语料。另外，考虑到基于关联规则提取关联词项集会依赖于词频。因此，本说明书实施例中在基于关联规则提取关联词项集之前，可以去掉一些高频无意义词，比如“请问”、“您好”之类的常用语(高频无意义词)。相应的，所述语料信息可以包括某一业务***中的大量语料进行高频无意义词筛除处理后的语料信息。

具体的，本说明书实施例中频繁词项集可以包括出现次数均大于预设阈值的词项的集合，例如，在银行业务中，“办理”和“***”出现的均大于预设阈值，相应的，“办理”和“***”可以组成一个频繁词项集。

另外，需要说明的是，本说明书实施例中，所述预设阈值可以结合实际应用中词项出现的情况进行设置。

S303：确定频繁词项集中的频繁词项之间的关联规则的置信度。

本说明书实施例中频繁词项集中的频繁词项之间的关联规则的置信度可以包括频繁词项集中某一个或多个频繁词项出现的情况下，频繁词项集中除该一个或多个频繁词项外的频繁词项出现的概率。在一个具体的实施例中，假设频繁词项集包括“办理”和“***”，其中，语料信息中“办理”出现的次数为100，在语料信息中出现“办理”的情况下，语料信息中还出现“***”的次数为30，相应的，包括“办理”和“***”频繁词项集中频繁词项之间的关联规则的置信度可以为30/100＝0.3。

S305：将置信度大于预先设定的最小置信度的关联规则所对应的频繁词项集作为关联词项集。

本说明书实施例中，预设设定的最小置信度可以结合实际应用中对关联词项集中关联词项之间关联出现的要求进行设定，一般的，所述预设设定的最小置信度越大，确定的关联词项集中关联词项之间关联出现的概率越高；反正，所述预设设定的最小置信度越小，确定的关联词项集中关联词项之间关联出现的概率越低。

上述基于关联规则提取的关联词项集处理过程中可以快速准确确定出关联出现的词项集，为后续挖掘用户常用的索引数据提供数据支持。

此外，需要说明的是，关联出现的多个关联词项可以包括满足频繁出现(出现次数均大于预设阈值)且关联词项之间的关联规则的置信度大于预先设定的最小置信度的多个词项，相应的，包括关联出现的多个关联词项的关联词项集可以表征关联词项集所对应的语料信息的业务***频繁出现的查询数据。

S203：对所述关联词项集中的关联词项进行依存句法分析处理，得到包括关联词项集的索引数据。

在实际应用中，关联规则提取的关联词项集中的关联词项往往是频繁出现的词项，以银行业务为例，容易提取出包括“存款”和“利息”的关联词项集，但是很难提取出“2年”这种低频修饰词，相应的，本说明书实施例中，可以对所述关联词项集中的关联词项进行依存句法分析处理，扩展一些修饰词，另外，在进行依存句法分析处理试可以基于主谓宾分析确定词序关系，得到包括关联词项集的索引数据，这里一个关联词项集可以对应的一个或多个索引数据，例如，在进行主谓宾分析时，当词项的出现顺序不一样时，可以表达不同语义的也就完全不一样，如“人民币兑换美元汇率”和“美元兑换人民币汇率”表达的意思完全相反。

具体的，本说明书实施例中所述依存句法分析处理可以包括但不限于通过ltp(Language Technology Platform，语言技术平台)进行实现。

另外，为了保证索引数据能够覆盖具有相同语义的不同用词形式，本说明书实施例中还可以对索引数据的关联词项集中关联关联词项进行同语义扩展处理相应的，如图4所示，图4是本发明提供的索引数据生成的另一种实施例的流程示意图，具体的，可以包括：

S401：基于关联规则从语料信息中提取关联词项集。

S403：对所述关联词项集中的关联词项进行同语义扩展处理，得到具有所述关联词项集的语义的多个关联词项集。

本说明书实施例中所述同语义扩展处理可以包括同义词、相关词扩展，比如“办理”可以进行同义词、相关词扩展为“怎么办”、“申请”和“申办”等，一般这里同语义扩展处理可以通过Word2vector等进行词向量之间的相似度计算来确定关联词项集中每一关联词项的同义词、相关词，具体的，可以将与关联关联词的词向量的相似度大于一定预设相似阈值的词向量所对应的词作为该关联关联词同义词、相关词。

S405：对所述多个关联词项集中的关联词项进行依存句法分析处理，得到包括所述多个关联词项集的多个索引数据。

另外，本说明书实施例中，还可以对得到的索引数据进行人工审核，去除错误语义的索引数据，并将错误的索引数据返回到语料信息进行索引数据迭代优化挖掘，更好的保证索引数据的准确率。

此外，需要说明的是，步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序，例如上述步骤S405的依存句法分析处理可以在步骤S403的同语义扩展处理之前进行。

由以上本说明书实施例的技术方案可见，本说明书中基于关联规则从业务的语料信息中提取关联词项集后通过依存句法分析，可以准确的得到业务***频繁出现的查询数据，保证后续可以准确识别查询数据，进而可以确定准确的查询结果。

以下介绍本发明基于上述索引数据生成组件生成的与关联词项集相对应的索引数据进行数据处理的一种实施例，图5是本发明提供的数据处理方法的一种实施例的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的***或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图5所示，所述方法可以包括：

S501：获取查询数据。

本说明书实施例中，业务服务器获取所述查询数据可以通过从客户端获取的用户的查询数据，也可以为从数据库或其他业务***获取的查询数据。

当所述查询数据为用户提供客户端输入的信息时，本说明书实施例中，用户可以通过在客户端提供的输入页面中输入文字信息的方式来输入查询数据，也可以通过客户端提供的语音输入界面以语音输入的方式来输入查询数据。相应的，业务服务器可以接收客户端发送的用户的查询数据。

此外，需要说明的是，本说明书实施例中，用户在客户端输入查询数据的形式并不仅限于文字、语音的形式，还可以包括图片等形式。相应的，可以客户端可以进行语音识别，图像识别等处理后得到查询数据，并将查询数据发送给业务服务器。另外，这里客户端也可以直接将用户输入的语音、图片等形式的查询数据发送给业务服务器，相应的，业务服务器可以语音识别，图像识别等处理后得到查询数据。

S503：从索引数据的关联词项集中匹配出所述查询数据所包含的关联词项集，其中，所述关联词项集包括关联出现的多个关联词项。

本说明书实施例中，所述查询数据所包含的关联词项集可以包括关联词项集中的每一词项都出现在所述查询数据中的关联词项集。

本说明书实施例中，所述包括关联出现的多个关联词项的关联词项集以及所述关联词项集的索引数据的确定步骤可以参见上述关联词项集和索引数据确定的相关步骤，在此不再赘述。

这里关联词项集中关联出现的多个关联词项能够表征业务***(即关联词项集所对应的语料信息的业务***)频繁出现的问题，将用户的查询数据直接与关联词项集，可以大大增加匹配到准确的索引数据的概率，进而可以提高匹配到的业务数据的准确性。

S505：确定所述查询数据所包含的关联词项集与所述查询数据之间的相似度。

本说明书实施例中，可以确定所述查询数据所包含的关联词项集与所述查询数据之间的相似度，以便可以确定符合查询数据的业务数据作为查询结果。

本说明书实施例中，查询数据所包含的关联词项集在所述查询数据中的相似度可以表征查询数据所包含的关联词项集的索引数据与用户的查询数据之间的匹配程度。当查询数据所包含的关联词项集与所述查询数据的相似度越高，查询数据所包含的关联词项集的索引数据与用户的查询数据之间的匹配程度越高；反之，当查询数据所包含的关联词项集与所述查询数据的相似度越低，查询数据所包含的关联词项集的索引数据与用户的查询数据之间的匹配程度越低。

具体的，本说明书实施例中，所述相似度至少可以包括下述之一：词权重、词覆盖率。

相应的，所述确定所述查询数据所包含的关联词项集与所述查询数据之间的相似度至少包括下述之一：

计算所述查询数据所包含的关联词项集中关联词项在所述查询数据中的词权重，将所述词权重作为所述查询数据所包含的关联词项集与所述查询数据之间的相似度；

计算所述查询数据所包含的关联词项集中关联词项在所述查询数据中的词覆盖率，将所述词覆盖率作为所述查询数据所包含的关联词项集与所述查询数据之间的相似度。

具体的，本说明书实施例中词权重可以包括基于查询数据所包含的关联词项集中关联词项在所述查询数据中重要程度的量化数值。当查询数据所包含的关联词项集中关联词项在所述查询数据中重要程度越高，该关联词项集中关联词项在所述查询数据中词权重越高，相应的，该关联词项集与查询数据的相似度越高；反之，当查询数据所包含的关联词项集中关联词项在所述查询数据中重要程度越低，该关联词项集中关联词项在所述查询数据中词权重越低，相应的，该关联词项集与查询数据的相似度越低。具体的，本说明书实施例中词权重可以包括但不限于采用统计方法TF-IDF(term frequency–inverse documentfrequency)，基于ltp的主谓宾分析处理等方式来计算。

具体的，所述词覆盖率可以包括所述查询数据所包含的关联词项集中关联词项的字数占所述查询数据中字数的比例。相应的，所述查询数据所包含的关联词项集在所述查询数据中的词覆盖率与查询数据所包含的关联词项集的索引数据与用户的查询数据之间的匹配程度成正比。

另外，需要说明的是，基于上述词权重和词覆盖率可知，查询数据的句子长度与查询数据所包含的关联词项集在所述查询数据中的相似度成反比。即查询数据的句子长度越长，所述查询数据所包含的关联词项集与所述查询数据的相似度越低；反之，查询数据的句子长度越短，所述查询数据所包含的关联词项集与所述查询数据的相似度越高。

S507：按照所述相似度的大小对所述关联词项集的索引数据所对应的业务数据进行排序。

本说明书实施例中，查询数据所包含的关联词项集的索引数据所对应的业务数据一般可以为多个业务数据，相应的，当有多个业务数据时，可以按照所述相似度的大小对所述关联词项集的索引数据所对应的业务数据进行排序。

本说明书实施例中，关联词项集与所述查询数据的相似度越大，所述关联词项集的索引数据所对应的业务数据的排序越靠前；反之，关联词项集与所述查询数据的相似度越小，所述关联词项集的索引数据所对应的业务数据的排序越靠后。

S509：将排序后的业务数据作为所述查询数据的查询结果。

本说明书实施例中，业务服务器中可以存储有索引数据与业务数据之间的映射关系，以及业务数据。当然，所述索引数据与业务数据之间的映射关系，以及业务数据也可以存储其他业务服务器等所述业务服务器可以访问的设备中。

另外，本说明书实施例中还可以将所述业务数据发送给客户端，以实现推送给相应的用户。具体的，业务服务器可以将所述查询结果发送至客户端；或，将所述查询结果中的业务数据按序发送至客户端。

本说明书实施例中，推送给用户的业务数据的形式可以包括但不限于文字、语音、图片等形式。

本说明书实施例中通过将业务数据按照相应的关联词项集在查询数据中的重要程度进行排序，保证后续可以将更符合用户需求的业务数据优先推送给用户，大大提高用户体验。

由以上本说明书实施例中提供的技术方案可见，本说明书将查询数据直接与能够准确反映业务***频繁出现的问题的关联词项集进行匹配，可以确定出业务***中与用户的查询数据相匹配的索引数据。另外，通过计算匹配到的关联词项集与查询数据之间的相似度，以及基于相似度对相应的业务数据排序，实现将查询结果中的业务数据按照业务数据所对应的索引数据与查询数据匹配程度进行排序。这样后续可以将更符合查询需求的业务数据优先推送给用户，大大提高了匹配到的查询结果的准确率，有效的改善了用户体验。

图6是本发明提供的数据处理方法的另一种实施例的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的***或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图6所示，所述方法可以包括：

S601：获取查询数据。

S603：从索引数据的关联词项集中匹配出所述查询数据所包含的关联词项集，其中，所述关联词项集包括关联出现的多个关联词项；

S605：确定所述查询数据所包含的关联词项集与所述查询数据之间的相似度。

S607：对所述查询数据进行意图分析处理，确定所述查询数据的意图。

S609：对所述查询数据所包含的关联词项集的索引数据进行意图分析处理，确定所述查询数据所包含的关联词项集的索引数据的意图。

本说明书实施例中，对查询数据和查询数据所包含的关联词项集的索引数据进行意图分析处理可以包括但不限于采用fasttext、svm(Support Vector Machine，支持向量机)等文本分类模型。

S611：基于所述索引数据的意图与所述查询数据的意图之间的匹配程度对相应的关联词项集与所述查询数据的相似度进行调整。

本说明书实施例中，意图之间的匹配程度可以通过Word2vector等进行意图的词向量之间的相似度计算来衡量。

本说明书实施例中所述查询数据所包含的关联词项集的索引数据的意图与所述查询数据的意图之间的匹配程度与相应的关联词项集与所述查询数据的相似度成正比。当查询数据所包含的关联词项集的索引数据的意图与所述查询数据的意图之间的匹配程度越高，所述关联词项集与所述查询数据的相似度越高；反之，当查询数据所包含的关联词项集的索引数据的意图与所述查询数据的意图之间的匹配程度越低，所述关联词项集与所述查询数据的相似度越低。

S613：按照调整后的相似度的大小对所述关联词项集的索引数据所对应的业务数据进行排序。

S615：将排序后的业务数据作为所述查询数据的查询结果。

本说明书实施例中通过对匹配到的索引数据和查询数据进行意图分析处理，可以进一步明确匹配到的索引数据和查询数据的意图，并通过索引数据和查询数据的意图之间的匹配程度对索引数据相应的关联词项集在所述查询数据中的相似度进行调整，可以保证确定的查询结果更符合用户需求。

本发明实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图7是本发明实施例提供的一种数据处理方法的服务器的硬件结构框图。如图7所示，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central Processing Units，CPU)710(处理器710可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器730，一个或一个以上存储应用程序723或数据722的存储介质720(例如一个或一个以上海量存储设备)。其中，存储器730和存储介质720可以是短暂存储或持久存储。存储在存储介质720的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器710可以设置为与存储介质720通信，在服务器700上执行存储介质720中的一系列指令操作。服务器700还可以包括一个或一个以上电源760，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口740，和/或，一个或一个以上操作***721，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口740可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器700的通信供应商提供的无线网络。在一个实例中，传输模块703包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口740可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图7所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器700还可包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。

本发明实施例还提供了一种数据处理装置，如图8所示，所述装置可以包括：

查询数据获取模块810，可以用于获取查询数据；

关联词项集匹配模块820，可以用于从索引数据的关联词项集中匹配出所述查询数据所包含的关联词项集，其中，所述关联词项集包括关联出现的多个关联词项；

相似度确定模块830，可以用于确定所述查询数据所包含的关联词项集与所述查询数据之间的相似度；

排序模块840，可以用于按照所述相似度的大小对所述关联词项集的索引数据所对应的业务数据进行排序；

查询结果确定模块850，可以用于将排序后的业务数据作为所述查询数据的查询结果。

另一实施例中，所述相似度可以至少包括下述之一：词权重、词覆盖率。

另一实施例中，所述索引数据可以采用下述模块确定：

关联词项集提取模块，可以用于基于关联规则从语料信息中提取关联词项集；

依存句法分析处理模块，可以用于对所述关联词项集中的关联词项进行依存句法分析处理，得到包括关联词项集的索引数据。

另一实施例中，所述索引数据还可以采用下述模块确定：

同语义扩展处理模块，可以用于对所述关联词项集中的关联词项进行同语义扩展处理，得到具有所述关联词项集的语义的多个关联词项集；

相应的，所述依存句法分析处理模块还可以用于对所述多个关联词项集中的关联词项进行依存句法分析处理，得到包括所述多个关联词项集的多个索引数据。

另一实施例中，所述关联词项集提取模块可以包括：

频繁词项集确定单元，可以用于从所述语料信息中确定出频繁词项集；

置信度确定单元，可以用于确定频繁词项集中的频繁词项之间的关联规则的置信度；

关联词项集确定单元，可以用于将置信度大于预先设定的最小置信度的关联规则所对应的频繁词项集作为关联词项集。

另一实施例中，所述装置还可以包括：

第一查询结果发送模块，可以用于将所述查询结果发送至客户端；

或，

第二查询结果发送模块，可以用于将所述查询结果中的业务数据按序发送至客户端。

所述的装置实施例中的装置与方法实施例基于同样地发明构思。

本发明实施例还提供了另一种数据处理装置，如图9所示，所述装置可以包括：

查询数据获取模块910，可以用于获取查询数据；

关联词项集匹配模块920，可以用于从索引数据的关联词项集中匹配出所述查询数据所包含的关联词项集，其中，所述关联词项集包括关联出现的多个关联词项；

相似度确定模块930，可以用于确定所述查询数据所包含的关联词项集与所述查询数据之间的相似度；

第一意图分析处理模块940，可以用于对所述查询数据进行意图分析处理，确定所述查询数据的意图；

第二意图分析处理模块950，可以用于对所述查询数据所包含的关联词项集的索引数据进行意图分析处理，确定所述查询数据所包含的关联词项集的索引数据的意图；

相似度调整模块960，用于基于所述索引数据的意图与所述查询数据的意图之间的匹配程度对相应的关联词项集与所述查询数据的相似度进行调整；

其中，所述查询数据所包含的关联词项集的索引数据意图与所述查询数据的意图之间的匹配程度与所述关联词项集与所述查询数据的相似度成正比；

排序模块970，可以用于按照调整后的相似度的大小对所述关联词项集的索引数据所对应的业务数据进行排序。

查询结果确定模块980，可以用于将排序后的业务数据作为所述查询数据的查询结果。

以下基于上述图4和图6的实施例介绍业务***进行索引数据的挖掘和基于挖掘的索引数据匹配出查询结果的一种实施例。具体的，请参阅图10。

业务***(可以为业务服务器)可以先进行离线挖掘，具体的，可以获取业务***的语料信息(该预料信息可以包括进行高频无意义词筛除处理后的语料信息)，基于关联规则从语料信息中提取关联词项集；然后，基于LTP对关联词项集中的关联词项进行依存句法分析处理，得到包括关联词项集的索引数据；接着，可以对索引数据进行同语义扩展处理，保证索引数据能够覆盖具有相同语义的不同用词形式。接着，对得到的索引数据进行人工审核，将正确的索引数据、索引数据所对应的关键词项集，以及索引数据与关联词项集的映射关系加入索引数据库。另外，可以将错误的索引数据返回到语料信息进行索引数据迭代优化挖掘，更好的保证索引数据的准确率。

进一步的，业务***还可以进行在线召回计算，具体的，可以加载索引数据库，将获取的查询数据与索引数据库中的关联词项集进行匹配，并召回匹配的关联词项集的索引数据所对应的业务数据。接着，可以计算匹配到的关联词项集与所述查询数据之间的相似度，基于相似度对召回的业务数据进行排序；接着，基于匹配到的索引数据与查询数据意图之间的匹配程度对相应的关联词项集与所述查询数据的相似度进行调整，进而对召回的业务数据重排序，保证将与查询数据更匹配业务数据的排序提前，最后将排序后的业务数据作为查询结果返回。

上述本发明提供的业务***进行索引数据的挖掘和基于挖掘的索引数据匹配出查询结果的实施例中，在索引数据的挖掘过程中基于关联规则从业务的语料信息中提取关联词项集后通过依存句法分析，同语义扩展、人工审核的步骤，可以准确的得到业务***频繁出现的索引数据。在基于挖掘的索引数据匹配出查询结果过程中，将查询数据直接与能够准确反映业务***频繁出现的问题的关联词项集进行匹配，可以确定出业务***中与用户的查询数据相匹配的索引数据。另外，通过计算匹配到的关联词项集与查询数据之间的相似度，以及基于相似度的结果排序，实现将查询结果中的业务数据按照业务数据所对应的索引数据与查询数据匹配程度进行排序。这样可以将更符合查询需求的业务数据优先推送，大大提高了匹配到的查询结果的准确率。

本发明实施例提供了一种数据处理服务器，该数据处理服务器包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的数据处理方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明的实施例还提供了一种存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种数据处理方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的数据处理方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

由上述本发明提供的数据处理方法、装置、服务器或存储介质的实施例可见，本发明中将查询数据直接与能够准确反映业务***频繁出现的问题的关联词项集进行匹配，可以确定出业务***中与用户的查询数据相匹配的索引数据。另外，通过计算匹配到的关联词项集与查询数据之间的相似度，以及基于相似度对相应的业务数据排序，实现将查询结果中业务数据按照业务数据所对应的索引数据与查询数据匹配程度进行排序。这样后续可以将更符合查询需求的业务数据优先推送给用户，大大提高了匹配到的查询结果的准确率，有效的改善了用户体验。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取查询数据；

从索引数据的关联词项集中匹配出所述查询数据所包含的关联词项集，其中，所述关联词项集包括关联出现的多个关联词项，所述索引数据为预先采用下述方式确定：基于关联规则从语料信息中提取关联词项集；对所述关联词项集中的关联词项进行依存句法分析处理，得到包括关联词项集的索引数据，所述关联词项集表征所述语料信息对应的业务***中频繁出现的查询数据；

将排序后的业务数据作为所述查询数据的查询结果。

2.根据权利要求1所述的方法，其特征在于，所述相似度至少包括下述之一：词权重、词覆盖率；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述查询数据进行意图分析处理，确定所述查询数据的意图；

对所述查询数据所包含的关联词项集的索引数据进行意图分析处理，确定所述查询数据所包含的关联词项集的索引数据的意图；

基于所述索引数据的意图与所述查询数据的意图之间的匹配程度对相应的关联词项集与所述查询数据的相似度进行调整；

相应的，按照所述相似度的大小对所述关联词项集的索引数据所对应的业务数据进行排序包括按照调整后的相似度的大小对所述关联词项集的索引数据所对应的业务数据进行排序。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述关联词项集中的关联词项进行同语义扩展处理，得到具有所述关联词项集的语义的多个关联词项集；

相应的，所述对所述关联词项集中的关联词项进行依存句法分析处理，得到索引数据包括：对所述多个关联词项集中的关联词项进行依存句法分析处理，得到包括所述多个关联词项集的多个索引数据。

5.根据权利要求1所述的方法，其特征在于，所述基于关联规则从语料信息中提取关联词项集包括：

从所述语料信息中确定出频繁词项集；

确定频繁词项集中的频繁词项之间的关联规则的置信度；

将置信度大于预先设定的最小置信度的关联规则所对应的频繁词项集作为关联词项集。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述查询结果发送至客户端；

或，

将所述查询结果中的业务数据按序发送至客户端。

7.一种数据处理装置，其特征在于，所述装置包括：

查询数据获取模块，用于获取查询数据；

关联词项集匹配模块，用于从索引数据的关联词项集中匹配出所述查询数据所包含的关联词项集，其中，所述关联词项集包括关联出现的多个关联词项；所述索引数据采用下述模块确定：关联词项集提取模块，用于基于关联规则从语料信息中提取关联词项集；依存句法分析处理模块，用于对所述关联词项集中的关联词项进行依存句法分析处理，得到包括关联词项集的索引数据；所述关联词项集表征所述语料信息对应的业务***中频繁出现的查询数据；

8.根据权利要求7所述的装置，其特征在于，所述相似度至少包括下述之一：词权重、词覆盖率；

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第一意图分析处理模块，用于对所述查询数据进行意图分析处理，确定所述查询数据的意图；

第二意图分析处理模块，用于对所述查询数据所包含的关联词项集的索引数据进行意图分析处理，确定所述查询数据所包含的关联词项集的索引数据的意图；

相似度调整模块，用于基于所述索引数据的意图与所述查询数据的意图之间的匹配程度对相应的关联词项集与所述查询数据的相似度进行调整；

相应的，排序模块还用于按照调整后的相似度的大小对所述关联词项集的索引数据所对应的业务数据进行排序。

10.根据权利要求7所述的装置，其特征在于，所述索引数据还采用下述模块确定：

同语义扩展处理模块，用于对所述关联词项集中的关联词项进行同语义扩展处理，得到具有所述关联词项集的语义的多个关联词项集；

相应的，所述依存句法分析处理模块还用于对所述多个关联词项集中的关联词项进行依存句法分析处理，得到包括所述多个关联词项集的多个索引数据。

11.根据权利要求7所述的装置，其特征在于，所述关联词项集提取模块包括：

频繁词项集确定单元，用于从所述语料信息中确定出频繁词项集；

置信度确定单元，用于确定频繁词项集中的频繁词项之间的关联规则的置信度；

关联词项集确定单元，用于将置信度大于预先设定的最小置信度的关联规则所对应的频繁词项集作为关联词项集。

12.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第一查询结果发送模块，用于将所述查询结果发送至客户端；

或，

第二查询结果发送模块，用于将所述查询结果中的业务数据按序发送至客户端。

13.一种数据处理服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-6任一所述的数据处理方法。

14.一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-6任一所述的数据处理方法。