CN110413738A

CN110413738A - 一种信息处理方法、装置、服务器及存储介质

Info

Publication number: CN110413738A
Application number: CN201910700866.6A
Authority: CN
Inventors: 卓达城
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-05

Abstract

本发明提供了一种信息处理方法，包括：获取与用户的搜索指令相对应的搜索指令文本；对搜索指令文本进行分词处理，形成与搜索指令文本相对应的词语级特征向量集合，确定与搜索指令文本相对应的词语级特征向量相匹配的分词库的参数；根据分词库参数确定相应的文本倒排索引；通过文本倒排索引，获取与词语级特征向量集合中的每一个词语级特征向量相匹配的文本信息；根据每一个词语级特征向量相匹配的文本信息，确定与搜索指令相匹配的文本信息。本发明还提供了信息处理装置、服务器及存储介质。本发明能够实现了用户的搜索指令和网络资源中不同文本信息的分词库的统一，保证了用户能够获得与搜索指令相匹配的文本信息，有效提升了用户的使用体验。

Description

一种信息处理方法、装置、服务器及存储介质

技术领域

本发明涉及信息处理技术，尤其涉及信息处理方法、装置、服务器及存储介质。

背景技术

随着计算机技术的不断发展，分词技术已经广泛应用于搜索***、机器翻译、语音合成、自动摘要等领域。其中，分词技术是指将一句或者一段文字切分成一个一个词语的技术。

相关技术中，通常是利用基于统计的分词模型或基于单词词典的分词模型，对待分词语句进行分词处理。但是，当前的分词模型，往往是通过对特定语言的语料训练后得到的，从而对其它语言进行分词处理时，准确性较低，用户体验差，同时，由于用户的搜索指令和互联网资源中的不同文本信息所使用的分词库版本不一致，可能导致搜索结果质量下降，影响用户的使用体验。

发明内容

有鉴于此，本发明实施例提供一种信息处理方法、装置、服务器及存储介质，能够实现分词库版本一致，有效提升搜索结果的质量，提高用户的使用体验。

本发明实施例的技术方案是这样实现的：

本发明提供了一种信息处理方法，所述方法包括：

获取与用户的搜索指令相对应的搜索指令文本；

对所述搜索指令文本进行分词处理，形成与所述搜索指令文本相对应的词语级特征向量集合，其中，所述词语级特征向量集合包括至少一个词语级特征向量；

确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数；

根据所述分词库参数确定相应的文本倒排索引；

通过所述文本倒排索引，获取与所述词语级特征向量集合中的每一个词语级特征向量相匹配的文本信息；

根据所述每一个词语级特征向量相匹配的文本信息，确定与所述搜索指令相匹配的文本信息。

本发明还提供了一种信息处理装置，所述装置包括：

信息传输模块，用于获取与用户的搜索指令相对应的搜索指令文本；

信息处理模块，用于对所述搜索指令文本进行分词处理，形成与所述搜索指令文本相对应的词语级特征向量集合，其中，所述词语级特征向量集合包括至少一个词语级特征向量；

所述信息处理模块，用于确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数；

所述信息处理模块，用于根据所述分词库参数确定相应的文本倒排索引；

所述信息处理模块，用于通过所述文本倒排索引，获取与所述词语级特征向量集合中的每一个词语级特征向量相匹配的文本信息；

所述信息处理模块，用于根据所述每一个词语级特征向量相匹配的文本信息，确定与所述搜索指令相匹配的文本信息。

上述方案中，

所述信息处理模块，用于根据所述搜索指令文本所携带的搜索指令参数信息，触发相应的分词库；

所述信息处理模块，用于通过所触发的所述分词库单词词典对所述搜索指令文本进行分词处理，形成不同的词语级特征向量；

所述信息处理模块，用于对所述不同的词语级特征向量进行除噪处理，形成与所述搜索指令文本相对应的词语级特征向量集合。

上述方案中，

所述信息处理模块，用于确定对所述搜索指令文本进行分词处理时所使用的分词库的名称；

所述信息处理模块，用于根据与所述分词库的名称，与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数，其中，所述分词库的参数包括：

所述分词库的种类、所述分词库的名称和所述分词库的版本。

上述方案中，

所述信息处理模块，还用于采集网络资源中的不同文本信息，并确定与所述不同文本信息相对应的目标分词库；

通过所述目标分词库的单词词典，对所述不同文本信息进行分词处理，以形成与所述不同文本信息相对应的倒排索引，其中所述倒排索引包括索引关键词和所述不同文本信息的内容之间的对应关系。

上述方案中，

所述信息处理模块，用于通过所述目标分词库的单词词典，对所述不同文本信息的文本信息进行分词处理，以形成相对应的候选词；

所述信息处理模块，用于对所述候选词执行聚类处理，以实现获取在所述候选词中获取相应的主题词；

所述信息处理模块，用于根据所述主题词在所述不同文本信息的文本信息中的出现频率，从所述主题词中获取与所述不同文本信息相匹配的索引关键词；

所述信息处理模块，用于根据所述索引关键词与所述述不同文本信息的文本信息的对应关系，形成与所述不同文本信息相对应的倒排索引。

上述方案中，

所述信息传输模块，用于当所述分词库出现调整时，获取新的分词库的信息；

所述信息处理模块，用于通过所述新的分词库对所述搜索指令文本进行分词处理；

所述信息处理模块，用于通过所述新的分词库对网络资源中的不同文本信息进行分词处理，形成与所述不同文本信息相对应的倒排索引；

所述信息处理模块，用于通过所述文本倒排索引，获取与所述搜索指令相匹配的文本信息；

所述信息处理模块，用于当通过所述倒排索引确定所述搜索指令与所述不同文本信息的匹配度达到匹配度阈值时，为所述新的分词库配置相应数量的搜索指令，以实现相应的信息处理。

本发明实施例还提供了一种服务器，所述服务器包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的信息处理方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前序的信息处理方法。

本发明实施例具有以下有益效果：

通过获取与用户的搜索指令相对应的搜索指令文本；对所述搜索指令文本进行分词处理，形成与所述搜索指令文本相对应的词语级特征向量集合，确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数；根据所述分词库参数确定相应的文本倒排索引；通过所述文本倒排索引，获取与所述词语级特征向量集合中的每一个词语级特征向量相匹配的文本信息；根据所述每一个词语级特征向量相匹配的文本信息，确定与所述搜索指令相匹配的文本信息，由此，实现了用户的搜索指令和不同文本信息的分词库的统一，保证了用户能够获得与搜索指令相匹配的文本信息，有效提升了用户的使用体验。

附图说明

图1为本发明实施例提供的信息处理方法的使用场景示意图；

图2为本发明实施例提供的服务器的组成结构示意图；

图3为本发明实施例提供的信息处理方法一个可选的流程示意图；

图4为本发明实施例提供的信息处理方法一个可选的流程示意图；

图5为本发明实施例中终端的搜索显示界面示意图；

图6为本发明实施例所提供的搜索***处理过程示意图；

图7为本发明实施例提供的信息处理方法一个可选的流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)分词：又称切词，起作用为把一个完整的句子的文本信息切分成多个词，例如：刘德华是个中国歌手。分词后的结果为：刘德华、中国、歌手。

3)分词库：又称切词库，指一种特定的分词方法，不同的分词库各自对应的单词字典，并可以根据各自对应的单词字典对相应的文本信息进行分词处理。

4)一致性(consistency)：表示在不同服务器访中问到的数据始终唯一。

5)镜像：使用不同分词方法得到的分词结果在服务器中的不同存储位置。

6)文本信息：包括互联网资源中的不同文档、文章，如网络资源中所包括的word文档，html网页等所包括的文本信息，当然也可是图片中的文本信息。

7)单词：是将文本信息或者用户所输入的搜索指令的内容进行拆分，所确定的逻辑上构成一个完整表述的字符串。

8)单词字典：存储所有单词，每一条记录由单词和指向倒排列表的指针构成。

图1为本发明实施例提供的信息处理方法的使用场景示意图，参见图1，终端(包括终端10-1和终端10-2)上设置有能够执行不同功能相应客户端其中，所属客户端为终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中获取不同的文本信息进行浏览，终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输，其中，终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的文本信息类型并不相同，例如：终端(包括终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取与检索指令A相匹配的文本信息，也可以通过网络300从相应的服务器200中获取仅与检索指令A相匹配的文本信息进行浏览。服务器200中可以保存有通过不同分词库进行分词处理的文本信息或者相应的倒排索引。在本发明的一些实施例中，服务器200中所保存的不同类型的文本信息可以是在不同编程语言的软件代码环境中所编写的，代码对象可以是不同类型的代码实体。例如，在C语言的软件代码中，一个代码对象可以是一个函数。在JAVA语言的软件代码中，一个代码对象可以是一个类，IOS端OC语言中可以是一段目标代码。在C++语言的软件代码中，一个代码对象可以是一个类或一个函数以执行来自于不同终端的搜索指令。其中本申请中不再对检索指令的来源进行区分。

服务器200通过网络300向终端(终端10-1和/或终端10-2)发送不同类型的网页的过程中服务器400需要对不同类型的网页进行监控，因此。作为一个事例，服务器400用于获取与用户的搜索指令相对应的搜索指令文本；对所述搜索指令文本进行分词处理，形成与所述搜索指令文本相对应的词语级特征向量集合，其中，所述词语级特征向量集合包括至少一个词语级特征向量；确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数；根据所述分词库参数确定相应的文本倒排索引；通过所述文本倒排索引，获取与所述词语级特征向量集合中的每一个词语级特征向量相匹配的文本信息；根据所述每一个词语级特征向量相匹配的文本信息，确定与所述搜索指令相匹配的文本信息。

下面对本发明实施例的服务器的结构做详细说明，服务器可以各种形式来实施，如带有信息处理功能的专用终端，也可以为带有信息处理功能的服务器，例如前述图1中的服务器400。图2为本发明实施例提供的服务器的组成结构示意图，可以理解，图2仅仅示出了服务器的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的服务器包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。服务器20中的各个组件通过总线***205耦合在一起。可以理解，总线***205用于实现这些组件之间的连接通信。总线***205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作***和应用程序。其中，操作***包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的信息处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的信息处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的信息处理方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的信息处理装置采用软硬件结合实施的示例，本发明实施例所提供的信息处理装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的信息处理方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的信息处理装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的信息处理方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持服务器20的操作。这些数据的示例包括：用于在服务器20上操作的任何可执行指令，如可执行指令，实现本发明实施例的从信息处理方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的信息处理装置可以采用软件方式实现，图2示出了存储在存储器202中的信息处理装置2020，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括信息处理装置2020，信息处理装置2020中包括以下的软件模块：信息传输模块2081，信息处理模块2082。当信息处理装置2020中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的信息处理方法，下面对信息处理装置2020中各个软件模块的功能进行介绍：

信息传输模块2081，用于获取与用户的搜索指令相对应的搜索指令文本；

信息处理模块2082，用于对所述搜索指令文本进行分词处理，形成与所述搜索指令文本相对应的词语级特征向量集合，其中，所述词语级特征向量集合包括至少一个词语级特征向量；

所述信息处理模块2082，用于确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数；

所述信息处理模块2082，用于根据所述分词库参数确定相应的文本倒排索引；

所述信息处理模块2082，用于通过所述文本倒排索引，获取与所述词语级特征向量集合中的每一个词语级特征向量相匹配的文本信息；

所述信息处理模块2082，用于根据所述每一个词语级特征向量相匹配的文本信息，确定与所述搜索指令相匹配的文本信息。

结合图2示出的服务器20说明本发明实施例提供的信息处理方法，参见图3，图3为本发明实施例提供的信息处理方法一个可选的流程示意图，可以理解地，图3所示的步骤可以由运行信息处理装置的各种服务器执行，例如可以是如带有检索指令处理功能的专用终端、服务器或者服务器集群。下面针对图3示出的步骤进行说明。

步骤301：获取与用户的搜索指令相对应的搜索指令文本。

步骤302：对搜索指令文本进行分词处理，形成与搜索指令文本相对应的词语级特征向量集合。

其中，所述词语级特征向量集合包括至少一个词语级特征向量。

在本发明的一些实施例中，对所述搜索指令文本进行分词处理，形成与所述搜索指令文本相对应的词语级特征向量集合，可以通过以下方式实现：

根据所述搜索指令文本所携带的搜索指令参数信息，触发相应的分词库；通过所触发的所述分词库单词词典对所述搜索指令文本进行分词处理，形成不同的词语级特征向量；对所述不同的词语级特征向量进行除噪处理，形成与所述搜索指令文本相对应的词语级特征向量集合。其中，结合前序步骤301，,不同的终端设备(例如前序图1所示的终端10-1和/或终端10-2)可以在各自对应搜索界面上(例如网页、信息搜索APP和微信的搜索小程序)提供用于输入待搜索的关键词的搜索栏，以及用于对该待搜索的关键词进行数据搜索的搜索按键，用户在搜索栏中输入关键词，当该终端设备检测到对该搜索按键的点击操作时，触发该服务器启动相应的分词指令，该分词指令携带该搜索栏中的关键词，该服务器接收该分词指令。或者，该终端设备在搜索界面上显示热门搜索关键词，当检测到对热门搜索关键词的点击操作时，该终端设备向该服务器发送该分词指令，该分词指令携带该热门搜索关键词，该服务器接收该分词指令。需要说明的是本发明实施例对该分词指令的触发方式不做限定。

在本发明的一些实施例中，所述搜索指令中所对应的搜索指令文本，可以是采用自然语言进行描述，其表达与搜索***查询需要之间存在差距。搜索***对文本内容进行检索的依据是通过倒排表获得包括关键词的文档，而自然语言描述的查询要求并不能直接确定关键词。尤其是对于汉语而言，以汉字为基础表意单位，而真正具有含义的最小语义单位则是词；由于词与词之间并没有像英语单词之间的空格作为分割，因此，一句文本中，哪些字组成词并不确定，因此，对汉语文本进行分词就是一个重要的工作。并且，对于搜索指令文本，其中包含一些仅仅对自然语言理解有价值的东西，而对搜索***而言，要查询到相关内容，必须确定哪些是真正有价值的检索依据，因此，通过步骤302所示的对不同的词语级特征向量进行除噪处理，能够形成与搜索指令文本相对应的词语级特征向量集合，避免词语级特征向量集合出现无意义的词语级特征向量，例如“的”、“地”和“得”。

步骤303：确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数。

在本发明的一些实施例中，确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数，可以通过以下方式实现：

确定对所述搜索指令文本进行分词处理时所使用的分词库的名称；根据与所述分词库的名称，确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数，其中，所述分词库的参数包括：所述分词库的种类、所述分词库的名称和所述分词库的版本。其中，由于使用不同的分词库对同一文本信息处理时，所形成的词语级特征向量并不完全相同，因此据与所述分词库的名称，确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数，实现确定对搜索指令文本进行分词所使用的分词库的参数，例如：搜索指令文本为“西海情歌刀郎的mp3”使用分词库A进行处理后，形成与所述搜索指令文本相对应的词语级特征向量集合A(西海情歌；刀郎的mp3)；使用分词库B进行处理后，形成与所述搜索指令文本相对应的词语级特征向量集合B(西海情歌；刀郎；mp3)；使用分词库A1进行处理后，形成与所述搜索指令文本相对应的词语级特征向量集合A1(西海；情歌；刀郎；mp3)。

步骤304：根据所述分词库参数确定相应的文本倒排索引；

步骤305：通过所述文本倒排索引，获取与所述词语级特征向量集合中的每一个词语级特征向量相匹配的文本信息；

步骤306：根据所述每一个词语级特征向量相匹配的文本信息，确定与所述搜索指令相匹配的文本信息。

其中，由于针对建立文本信息倒排索引时使用所有的分词库(包括不同分词库和同一分词库的所有版本)，各自建立一个对应的文本信息倒排索引(文本信息倒排索引镜像)，用户启动搜索的时候，选择某个分词库的某个版本得到相应的分词结果，然后再根据同一个分词库的某个版本选择对应的文本信息倒排索引，获得与所述用户的搜索指令相对应的文本信息，由此提高搜索结果的质量，避免了由于分词库版本不一致，可能导致搜索结果质量下降，影响用户使用的缺陷。

在本发明的一些实施例中，在确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数之前，确定网络资源中不同文本信息的倒排索引可以通过以下方式实现：

采集网络资源中的不同文本信息，并确定与所述不同文本信息相对应的目标分词库；

下面首先对本发明所涉及的倒排索引进行解释，同时介绍其他相关概念。

其中，索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息；记录索引信息的文件就是索引文件。对于搜索***，由于搜索空间巨大，索引文件对其非常重要，一般搜索***对搜索获得的文档均会建立索引。因为索引会记录在文件中，而文件又多用表格形式所以索引、索引文件和索引表在实际使用中往往具有同样的涵义。

搜索***中使用的索引文件包括正排索引和倒排索引。

正排索引，即从文档角度看其中的单词，用于表示每个文档(用文档身份标识来标识)都含有哪些单词，以及每个单词出现了多少次及其出现位置(offset)。正排索引以所述文档身份标识作为排序的依据。

倒排索引(inverted index，或inverted files)与上述正排索引相反，是从单词角度看文档；即记录每个单词(关键词)分别在哪些文档中出现(采用文档ID记录)，以及在各自的文档中每个单词分别出现了多少次(即TF)及其出现位置(即offset)。对于搜索***(***)，需啊哟接收搜索指令作为检索条件，所述搜索指令经过预处理，形成若干分词(Term)以及分词之间的逻辑关系,通过这些信息使用索引表进行检索。

所谓分词，即有动词含义也有名词含义；每个分词就是一个单词或者词组，即有确定意义的最小语义单元；对于所接收的搜索指令，需要划分其中包含的最小语义单位，这个动作过程叫做分词，即分词可以指上述划分最小语义单位的过程；另一方面，划分后获得的最小语义单位，也常常被称为分词，即分词这个操作执行后获得的单词；有时为了将两个意思相互区别，将后一个意思所指称的最小语义单位称为分词对象(Term)；本申请中即使用分词对象这个称呼；分词对象对应于倒排表中作为索引依据的关键词。对于汉语而言，由于作为最小语义单位的词往往是由不同数量的字组成的，词之间不存在空白隔断等拼音文字中天然的区分标志，因此，对于汉语而言，准确进行分词以获得合理的分词对象是一个重要的步骤。

搜索***使用过程中，实际上是从分词对象查询文档，这种使用场景下，采用倒排索引才能较好的进行检索；因此，对于需要面对海量文档的搜索***而言，建立倒排索引是一个重要的工作。

在本步骤中，对倒排表生成过程进行了方法限定，即无论如何生成倒排表，要求根据每个记录中的所述分数化文档身份标识确定各个记录的排序关系，进而确定各个记录在倒排表中的位置。

在本发明的一些实施例中，通过所述目标分词库的单词词典，对所述不同文本信息进行分词处理，以形成与所述不同文本信息相对应的倒排索引，可以通过以下方式实现：

通过所述目标分词库的单词词典，对所述不同文本信息的文本信息进行分词处理，以形成相对应的候选词；对所述候选词执行聚类处理，以实现获取在所述候选词中获取相应的主题词；根据所述主题词在所述不同文本信息的文本信息中的出现频率，从所述主题词中获取与所述不同文本信息相匹配的索引关键词；根据所述索引关键词与所述述不同文本信息的文本信息的对应关系，形成与所述不同文本信息相对应的倒排索引。

参考表1，其中表1为网络资源中的不同文本信息(包括不同的文档)；对表1中的不同文本信息进行分词处理，形成相应的倒排索引。

表1

当使用分词库A进行处理后，形成不同文本信息相对应的倒排索引表2。

单词ID	分词内容	倒排列表
			1	百度	(1，2，3，4，5)
2	地图	(1，2，3，4，5)
			3	之父	(1，2，4，5)
4	跳槽	(1，4)
			5	Facebook	(1，2，3，4，5)
6	加盟	(2，3，5)
			7	创始人	(3)
8	陆琪	(3,5)
			9	离开	(3)
10	与	(4)
			11	AI	(4)
12	项目	(4)
			13	取消	(4)
14	有关	(4)
			15	社交	(5)
16	网站	(5)

表2

当使用分词库A1进行处理后，形成不同文本信息相对应的倒排索引表3。

单词ID	分词内容	倒排列表
			1	百度	(1，2，3，4，5)
2	地图	(1，2，3，4，5)
			3	之父	(1，2，4，5)
4	跳槽	(1，4)
			5	Facebook	(1，2，3，4，5)
6	加盟	(2，3，5)
			7	创始人	(3)
8	陆琪	(3,5)
			9	离开	(3)
10	AI	(4)
			11	项目取消	(4)
12	有关	(4)
			13	社交网站	(5)

表3

由此确定了网络资源中的不同文本信息建立了相对应的文本信息倒排索引时使用所有的分词库(包括不同分词库和同一分词库的所有版本)，用户启动搜索的时候，选择某个分词库的某个版本得到相应的分词结果，然后再根据同一个分词库的某个版本选择对应的文本信息倒排索引，获得与所述用户的搜索指令相对应的文本信息，由此提高搜索结果的质量，避免了由于分词库版本不一致，可能导致搜索结果质量下降，影响用户使用的缺陷，用户能够获得与搜索指令相对应的文本信息。

结合图2示出的服务器20说明本发明实施例提供的信息处理方法，参见图4，图4为本发明实施例提供的信息处理方法一个可选的流程示意图，可以理解地，图4所示的步骤可以由运行信息处理装置的各种服务器执行，例如可以是如带有检索指令处理功能的专用终端、服务器或者服务器集群。下面针对图4示出的步骤进行说明。

步骤401：当所述分词库出现调整时，服务器获取新的分词库的信息；

步骤402：通过所述新的分词库对所述搜索指令文本进行分词处理；

步骤403：通过所述新的分词库对网络资源中的不同文本信息进行分词处理，形成与所述不同文本信息相对应的倒排索引；

步骤404：通过所述文本倒排索引，获取与所述搜索指令相匹配的文本信息。

在本发明的一些实施例中，根据所述每一个词语级特征向量相匹配的文本信息，确定与所述搜索指令相匹配的文本信息，可以通过以下方式实现：

获取所述每一个词语级特征向量相匹配的文本信息的推荐参数；根据所述推荐参数，对所述述每一个词语级特征向量相匹配的文本信息进行组合排序处理，形成与所述搜索指令相匹配的文本信息，其中，所述文本信息的推荐参数包括至少以下之一：

所述文本信息的转载量参数、所述文本信息的来源可信度参数和所述文本信息的付费信息。其中，当获取到每一个词语级特征向量相匹配的文本信息时，可以对与每一个词语级特征向量相匹配的文本信息的推荐参数进行解析，根据推荐参数的解析结果，对每一个词语级特征向量相匹配的文本信息进行组合排序处理，形成与所述搜索指令相匹配的文本信息，以向用户进行推荐。其中，文本信息的推荐参数包括至少以下之一：所述文本信息的转载量参数、所述文本信息的来源可信度参数和所述文本信息的付费信息参数。

在本发明的一些实施例中，可以根据文本信息的转载量参数，按照每一个词语级特征向量相匹配的文本信息的转载量进行排序，将转载量最高的文本信息作为与所述搜索指令相匹配的文本信息中的首位的文本信息。

在本发明的一些实施例中，可以根据文本信息的来源可信度参数，按照每一个词语级特征向量相匹配的文本信息的来源可信度参数进行排序，将来源可信度参数最高的文本信息作为与所述搜索指令相匹配的文本信息中的首位的文本信息。

在本发明的一些实施例中，可以根据文本信息的付费信息参数，按照每一个词语级特征向量相匹配的文本信息的付费信息参数进行排序，将付费信息或者向检索***运营商付费最高的文本信息作为与所述搜索指令相匹配的文本信息中的首位的文本信息。

步骤405：判断通过所述倒排索引确定所述搜索指令与所述不同文本信息的匹配度是否达到匹配度阈值，如果是，执行步骤406，否则执行步骤407。

步骤406：为所述新的分词库配置相应数量的搜索指令。

步骤407：不再启动新的分词库。

由此，当通过所述倒排索引确定所述搜索指令与所述不同文本信息的匹配度达到匹配度阈值时，为所述新的分词库配置相应数量的搜索指令，以实现相应的信息处理。

下面以微信应用中的搜索应用功能(小程序)对本发明实施例所提供的信息处理过程进行说明，其中，参考图5，图5为本发明实施例中终端的搜索显示界面示意图；如图5所示，终端所接收的搜索指令可以来源于朋友圈搜索，文本信息搜索，公众号搜索，小程序搜索，具体使用场景本发明不做限制，所述分词库包括但不限于：结巴分词库、HanLP分词库和Jcseg分词库。

其中，本发明实施例所提供的搜索***包括：

1)分词模块；2)倒排索引模块；3)资源管理模块；4)实验模块和5)路由模块。参考图6，图6为本发明实施例所提供的搜索***处理过程示意图，具体包括以下步骤：

步骤601：通过分词模块，根据指定的分词库与版本对所接收的搜索指令进行分词处理。

步骤602：通过倒排索引模块建立相应的倒排索引；

其中，具体包括：建立文本信息倒排索引，即把需要搜索的所有文本信息的内容进行分词处理，并整理，形成每个词对应着多篇文本信息，即文本信息倒排索引。

步骤603：通过资源管理模块，根据流量向倒排索引模块分配相应的资源。

步骤604：通过实验模块，根据实验结果分配实验用的分词库及其版本号，分词***根据分词库名字和版本号分词。

其中，实验阶段搜索***为了提高搜索质量，往往会采用多个分词库做实验，而每个分词库又会使用不同的版本进行实验。当通过所述倒排索引确定所述搜索指令与不同文本信息的匹配度达到匹配度阈值时，即可以为新的分词库配置相应数量的搜索指令，以实现相应的信息处理，以保证用户的使用体验。

步骤605：通过路由模块，根据相应分词库名称和版本路由到指定的倒排索引模块。

在本发明的一些实施例中，当搜索***的分词库出现调整时(包括增加分词库或者升级分词库版本)，结合图6所示的搜索***处理过程，参考图7，图7为本发明实施例提供的信息处理方法一个可选的流程示意图，处理过程包括以下步骤：

步骤701：分词模块增加分词库或者增加一个分词库的版本；

步骤702：部署该分词库到线上环境，开启实验，调动部分搜索请求使用该分词库。

需要说明说的是，该过程仅是预估流量，并没有没有实际流量；

步骤703：资源管理模块根据预估流量分配资源，部署倒排索引模块，并且建立倒排索引；

步骤704：实验模块放开实际流量到预估流量值，调动一定比例的搜索请求使用该分词库；

步骤705：根据实验结果对倒排索引模块的资源进行调整；

具体的，如果实验效果好，则把倒排索引模块的资源调大，缩减效果不好的倒排索引的资源，最终绝大部分请求使用效果好的倒排索引。例如服务器所接收的100条搜索指令可以向不同的倒排索引模块进行配置。

步骤706：当实验结果到达阈值(检索到的文本信息准确性到达80％)时，调整全部搜索请求使用该分词库。

本发明具有以下有益技术效果：

过获取与用户的搜索指令相对应的搜索指令文本；对所述搜索指令文本进行分词处理，形成与搜索指令文本相对应的词语级特征向量集合，确定与搜索指令文本相对应的词语级特征向量相匹配的分词库的参数；根据分词库参数确定相应的文本倒排索引；通过文本倒排索引，获取与词语级特征向量集合中的每一个词语级特征向量相匹配的文本信息；根据所述每一个词语级特征向量相匹配的文本信息，确定与所述搜索指令相匹配的文本信息，由此，实现了用户的搜索指令和网络资源中不同文本信息的分词库的统一，保证了用户能够获得与搜索指令相匹配的文本信息，有效提升了用户的使用体验。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

获取与用户的搜索指令相对应的搜索指令文本；

根据所述分词库参数确定相应的文本倒排索引；

2.根据权利要求1所述的方法，其特征在于，所述对所述搜索指令文本进行分词处理，形成与所述搜索指令文本相对应的词语级特征向量集合，包括：

根据所述搜索指令文本所携带的搜索指令参数信息，触发相应的分词库；

通过所触发的所述分词库单词词典对所述搜索指令文本进行分词处理，形成不同的词语级特征向量；

对所述不同的词语级特征向量进行除噪处理，形成与所述搜索指令文本相对应的词语级特征向量集合。

3.根据权利要求1所述的方法，其特征在于，所述确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数，包括：

确定对所述搜索指令文本进行分词处理时所使用的分词库的名称；

根据与所述分词库的名称，确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数，其中，所述分词库的参数包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述每一个词语级特征向量相匹配的文本信息，确定与所述搜索指令相匹配的文本信息，包括：

获取所述每一个词语级特征向量相匹配的文本信息的推荐参数；

根据所述推荐参数，对所述述每一个词语级特征向量相匹配的文本信息进行组合排序处理，形成与所述搜索指令相匹配的文本信息，其中，所述文本信息的推荐参数包括至少以下之一：

所述文本信息的转载量参数、所述文本信息的来源可信度参数和所述文本信息的付费信息参数。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述通过所述目标分词库的单词词典，对所述不同文本信息进行分词处理，以形成与所述不同文本信息相对应的倒排索引，包括：

通过所述目标分词库的单词词典，对所述不同文本信息的文本信息进行分词处理，以形成相对应的候选词；

对所述候选词执行聚类处理，以实现获取在所述候选词中获取相应的主题词；

根据所述主题词在所述不同文本信息的文本信息中的出现频率，从所述主题词中获取与所述不同文本信息相匹配的索引关键词；

根据所述索引关键词与所述述不同文本信息的文本信息的对应关系，形成与所述不同文本信息相对应的倒排索引。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述分词库出现调整时，获取新的分词库的信息；

通过所述新的分词库对所述搜索指令文本进行分词处理；

通过所述新的分词库对网络资源中的不同文本信息进行分词处理，形成与所述不同文本信息相对应的倒排索引；

通过所述文本倒排索引，获取与所述搜索指令相匹配的文本信息；

当通过所述倒排索引确定所述搜索指令与所述不同文本信息的匹配度达到匹配度阈值时，为所述新的分词库配置相应数量的搜索指令，以实现相应的信息处理。

8.一种信息处理装置，其特征在于，所述装置包括：

9.一种服务器，其特征在于，所述服务器包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至7任一项所述的信息处理方法。

10.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至7任一项所述的信息处理方法。