CN108345605A

CN108345605A - 一种文本搜索方法及装置

Info

Publication number: CN108345605A
Application number: CN201710053807.5A
Authority: CN
Inventors: 陈亚; 邓凯; 李菁; 程进兴
Original assignee: Suning Commerce Group Co Ltd
Current assignee: Suning Commerce Group Co Ltd
Priority date: 2017-01-24
Filing date: 2017-01-24
Publication date: 2018-07-31
Anticipated expiration: 2037-01-24
Also published as: CN108345605B

Abstract

本发明实施例公开了一种文本搜索方法及装置，涉及搜索技术领域，能够提高***的稳定性。本发明包括：对所提取的产品信息进行分词处理；根据分词得到的词语生成对应所述商品信息的词语聚类，并获取各词语聚类的向量分数；从接收到的搜索请求中提取搜索词，并得到所述搜索词的向量分数；根据所述搜索词的向量分数和所述各词语聚类的向量分数，确定产品信息与所述搜索词的距离；按照与所述搜索词的距离的由近至远的顺序，反馈产品信息。本发明适用于在搜索过程中对于语义等更深层次的匹配。

Description

一种文本搜索方法及装置

技术领域

本发明涉及搜索技术领域，尤其涉及一种文本搜索方法及装置。

背景技术

目前，在各大电商平台所使用的搜索***中，主要采用的是基于文字匹配技术设计的传统搜索引擎，比如：基于典型的开源方案Lucene/Solr设计的搜索引擎。

这种基于Lucene/Solr的搜索引擎，通过文本字符的匹配程度来确定搜索词与产品之间的相关度，但是对于文本字符层面以外的匹配方式，并没有进一步的设计，因此难以进行语义等更深层次的匹配。反映到实际应用中：用户在单次搜索后，往往难以准确获取符合自己意图的搜索结果，需要进行二次搜索，或者是，向用户推荐排列顺序在前的相关结果。

不论是用户进行二次搜索，或者是搜索***向用户的终端设备发送所推荐的相关结果，都需要与用户的终端设备进行数据交互，这就会占用搜索***额外的接口资源和流量资源。尤其是在很多大型促销活动中，比如：“双十一”、“双十二”等，搜索***的基础负载程度就很高，因此在业内通常都需要大型促销活动中优先保障***运行的稳定性，因为一旦***宕机或崩溃，在线业务都将中断，这会给电商平台造成巨大的经济损失。但此时，二次搜索或者发送所推荐的相关结果等流程都会进一步占用接口资源和流量资源，增加了搜索***宕机或崩溃的可能性，从而提高了电商平台遭遇经济损失的风险。

发明内容

本发明的实施例提供一种文本搜索方法，能够提高***的稳定性。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明的实施例提供的方法，包括：

对所提取的产品信息进行分词处理；

根据分词得到的词语生成对应所述商品信息的词语聚类，并获取各词语聚类的向量分数；

从接收到的搜索请求中提取搜索词，并得到所述搜索词的向量分数；

根据所述搜索词的向量分数和所述各词语聚类的向量分数，确定产品信息与所述搜索词的距离；

按照与所述搜索词的距离的由近至远的顺序，反馈产品信息。

结合第一方面，在第一方面的第一种可能的实现方式中，还包括：

将样本集合中的产品信息转化为文本数据，通过语义分析工具对转化为文本数据的产品信息进行切分；

将经过切分的产品信息进行数据清理，得到训练数据集；

通过机器学习开源库gensim的word2vec部分，训练所述训练数据集，得到word2vec模型，并通过所述word2vec模型对所提取的产品信息进行分词处理。

结合第一方面，在第一方面的第二种可能的实现方式中，所述根据分词得到的词语生成对应所述商品信息的词语聚类，并获取各词语聚类的向量分数，包括：

将通过分词得到的词语，添加至已有的词语聚类中，并刷新该词语聚类的向量分数，其中，一个词语聚类的向量分数包括这一个词语聚类中各词语的向量分数的累加；

或者，建立新的词语聚类，并将通过分词得到的词语，添加至新建立的词语聚类中。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，包括：

获取通过分词得到的词语的Sim(I,j)，其中，Sim(I,j)表示词语i与词语聚类j的余弦相似度；

当Sim(I,j)＞1/(n+1)时，将所述词语i添加至所述词语聚类j；

当Sim(I,j)≤1/(n+1)时，检测Random与1/(n+1)的大小关系，其中，n表示词语聚类的数目；若Random＜1/(n+1)，则建立一个新的词语聚类，并将所述词语i添加至新建立的词语聚类，其中，Random表示一个0至1之间的随机数；若Random≥1/(n+1)，则将所述词语i添加至所述词语聚类j。

结合第一方面的第二或三种可能的实现方式,在第四种可能的实现方式中，所述从接收到的搜索请求中提取搜索词，并得到所述搜索词的向量分数，包括：

确定符合所述搜索词的词语聚类，并获取符合所述搜索词的各词语聚类的向量分数；

将分数最高的向量分数作为所述搜索词的向量分数。

结合第一方面，在第一方面的第五种可能的实现方式中，所述按照与所述搜索词的距离的由近至远的顺序，反馈产品信息，包括：

按照与所述搜索词的距离的由近至远的顺序，获取前K项的产品信息；

通过Annoy库，从所述前K项的产品信息中提取待反馈的产品信息。

第二方面，本发明的实施例提供的装置，包括：

预处理模块，用于对所提取的产品信息进行分词处理；

聚类处理模块，用于根据分词得到的词语生成对应所述商品信息的词语聚类，并获取各词语聚类的向量分数；

搜索处理模块，用于从接收到的搜索请求中提取搜索词，并得到所述搜索词的向量分数；

分析模块，用于根据所述搜索词的向量分数和所述各词语聚类的向量分数，确定产品信息与所述搜索词的距离；

反馈模块，用于按照与所述搜索词的距离的由近至远的顺序，反馈产品信息。

结合第二方面，在第二方面的第一种可能的实现方式中，所述聚类处理模块，具体用于将通过分词得到的词语，添加至已有的词语聚类中，并刷新该词语聚类的向量分数，其中，一个词语聚类的向量分数包括这一个词语聚类中各词语的向量分数的累加；或者，建立新的词语聚类，并将通过分词得到的词语，添加至新建立的词语聚类中。

结合第二方面或第一种可能的实现方式,在第二种可能的实现方式中，所述搜索处理模块，具体用于确定符合所述搜索词的词语聚类，并获取符合所述搜索词的各词语聚类的向量分数；并将分数最高的向量分数作为所述搜索词的向量分数。

结合第二方面，在第二方面的第三种可能的实现方式中，所述反馈模块，具体用于按照与所述搜索词的距离的由近至远的顺序，获取前K项的产品信息；并通过Annoy库，从所述前K项的产品信息中提取待反馈的产品信息。

本发明实施例提供的文本搜索方法及装置，在语义上进行深度学习建模，比如通过训练数据集训练得到word2vec的模型，并基于词语聚类向量分数和搜索词的向量分数通过数学比对，实现对于语义等更深层次的匹配，从而提高了匹配的准确度，这样就减少了由于二次搜索或者为了反馈相关结果而对接口资源和流量资源的占用，提高了***的稳定性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种可能的***架构示意图；

图2为本发明实施例提供的方法流程示意图；

图3为本发明实施例提供的具体实例的流程示意图；

图4为本发明实施例提供的具体实例的实验结果的截图；

图5为本发明实施例提供的装置的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本实施例中的方法流程，具体可以在一种如图1所示的***上执行，该***包括：前端服务器、后台服务器和数据库。其中，前端服务器主要用于：具体用于接收用户设备发送的搜索词，在实际应用中，用户设备发送的搜索词主要由用户通过用户设备的输入设备比如：键盘、触摸屏、鼠标等输入用户设备；并向发布搜索工具的操作界面，以便于用户设备通过操作界面输入搜索词。

后台服务器主要用于：生成词语聚类，并获取各词语聚类的向量分数，以便于在搜索过程中与搜索词的向量分数进行比对，从而确定待反馈的产品信息。

本实施例中所揭示的前端服务器以及后台服务器，具体可以是服务器、工作站、超级计算机等设备，或者是由多个服务器组成的一种用于数据处理的服务器集群***。需要说明的是，在实际应用中，前端服务器和后台服务器通常可以集成在同一个服务器集群中，即通过同一个服务器集群同时承担前端服务器和后台服务器的功能，并用于执行本实施例所提供的流程。

数据库主要用于：用于存储存储产品信息、电子商务平台、在线购物平台等在日常运行中生成的每日高频搜索词、用户的搜索日志等，以及用于存储人工干预得到的人工词。数据库具体可以是在线交易平台的产品(商品)数据库，以便于后台服务器根据从数据库中提取的产品信息得到训练数据集。

本实施例中所揭示的数据库，具体可以是一种Redis数据库或者其他类型的分布式数据库、关系型数据库等，具体可以是包括存储设备的数据服务器以及与数据服务器相连的存储设备，或者是由多个数据服务器和存储服务器组成的一种用于数据库的服务器集群***。

本实施例中所揭示的用户设备具体可以实做成单独一台装置，或整合于各种不同的媒体数据播放装置中，诸如机顶盒、移动电话、平板电脑(Tablet Personal Computer)、膝上型电脑(Laptop Computer)、多媒体播放器、数字摄影机、个人数字助理(personaldigital assistant，简称PDA)、移动上网装置(Mobile Internet Device，MID)或可穿戴式设备(Wearable Device)等。

本发明实施例提供一种文本搜索方法，如图2所示，包括：

S1、对所提取的产品信息进行分词处理。

其中，产品信息用于表示网络上所能够搜索到的商品/产品的名称、品类、型号等信息，比如：可以通过常用的网络爬虫工具，从多家在线购物平台上抓取名称、品类、型号、配置信息、属性信息等产品信息。再比如：后台服务器与在线购物平台的数据库直接相连，可以从数据库中提取产品信息。

在本实施例中，还包括分词处理的具体方式：将样本集合中的产品信息转化为文本数据，通过语义分析工具对转化为文本数据的产品信息进行切分。并将经过切分的产品信息进行数据清理，得到训练数据集。

例如：可以从在线购物平台的数据库中的所有或者部分商品的信息作为将样本集合，其中，本实施例中需要把组成产品信息的词语分成若干个词语。比如：采用两千万产品的产品信息的文本数据做为样本集合，通过现有的语义分析工具进行切分，并将切词后的文本再执行归一化、特殊符号处理等常用的数据清理过程，得到作为word2vec模型训练所用的训练数据集来。

再通过机器学习开源库gensim的word2vec部分，训练所述训练数据集，得到word2vec模型，并通过所述word2vec模型对所提取的产品信息进行分词处理。其中，可以从模型里取出某一个词语的向量分数，并设定为默认的学习深度，默认的学习深度具体可以为200。其中，向量分数的具体维度可以包括产品信息中的各种信息。

需要说明的是，本实施例中所述的word2vec，具体是机器学习开源库gensim中的文本向量转化技术，可以采用业界比较成熟的基于词语转化的词语向量模型(即word2vec模型)。其中，doc2vec是一种将文本(document)转化为向量(vector)形式表达的方式。向量的形式可以看做一个K维度的空间，通过doc2vec可以将一个文本形式的内容定义到一个K维空间上的一个位置，再通过空间上的距离可以来量化两个文本之间的相关性。

S2、根据分词得到的词语生成对应所述商品信息的词语聚类，并获取各词语聚类的向量分数。

例如：在电商搜索***上，我们可以把每一个产品看做一个document，用户的搜索语句也可以看做一个document。通过doc2vec模型，基于用户的搜索语句，可以将相关性更高的产品推送给用户。本实施例中，可以基于word2vec模型，利用word2vec所生成的对于词语的向量，通过本发明的实现模型，转化为doc2vec，应用于电商平台的搜索***中。word2vec的模型是在训练数据集基础上训练得到的。在已获得的word2vec模型基础上，将每个文本(document)分成了多个词语聚类(cluster),再利用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)算法选出最具相关性的词语聚类(cluster)，其中，一个词语聚类的词语向量的集合就作为整个document的向量。其中，doc2vec、word2vec为业内的惯用属于，且暂时没有统一的中文名词。

本实施例中，在word2vec的基础上，通过深度学习技术训练得出最相关的doc2vec模型，目的在于提高在从用户输入的搜索词中抓取用户语义的购买意图时的准确率。

S3、从接收到的搜索请求中提取搜索词，并得到所述搜索词的向量分数。

S4、根据所述搜索词的向量分数和所述各词语聚类的向量分数，确定产品信息与所述搜索词的距离。

S5、按照与所述搜索词的距离的由近至远的顺序，反馈产品信息。

相对于现有技术中基于Lucene/Solr的搜索引擎，对于文本字符层面以外的匹配方式。本实施例从语义层次上来说，相关性匹配度要比传统的文字匹配度要很多。尤其在一些产品不含有用户的搜索词，但语义上来说又很接近的产品的场景中，能够获取搜索结果。并且基于词语聚类向量分数和搜索词的向量分数通过数学比对的方式，向量分数的具体维度可以包括产品信息中的各种信息，从而可以产生出多维空间上的位置，而单纯在多维空间的距离计算效率要远远高于现有方案中所有文字内容的全匹配，从而也能够一定程度上提高查询效率。

本发明实施例提供的文本搜索方法，在语义上进行深度学习建模，比如通过训练数据集训练得到word2vec的模型，并基于词语聚类向量分数和搜索词的向量分数通过数学比对，实现对于语义等更深层次的匹配，从而提高了匹配的准确度，这样就减少了由于二次搜索或者为了反馈相关结果而对接口资源和流量资源的占用，提高了***的稳定性。

在本实施例中，所述根据分词得到的词语生成对应所述商品信息的词语聚类，并获取各词语聚类的向量分数的具体方式，包括：

将通过分词得到的词语，添加至已有的词语聚类中，并刷新该词语聚类的向量分数；或者，建立新的词语聚类，并将通过分词得到的词语，添加至新建立的词语聚类中。

其中，一个词语聚类的向量分数包括这一个词语聚类中各词语的向量分数的累加。例如：可以通过随机分配过程将通过分词得到的词语，添加至至已有的或者新创建的词语聚类中，具体的随机分配过程可以采用中国餐厅过程Chinese Restaurant Process(CRP)，比如：每个词语聚类有一个向量分数，这个分数来源于这个词语聚类包含的所有词的向量分数的累加，后台服务器中运行的模型训练程序获取一个新的词后，按照设定的第一随机概率将这个词放到已有的词语聚类，或者按照设定的第二随机概率以当前的词作为一个新的词语聚类生成。

具体过程可以参考本实施例中所提供的如图3所示的处理过程：

获取通过分词得到的词语的Sim(I,j)，其中，Sim(I,j)表示词语i与词语聚类j的余弦相似度。

当Sim(I,j)＞1/(n+1)时，将所述词语i添加至所述词语聚类j。

当Sim(I,j)≤1/(n+1)时，检测Random与1/(n+1)的大小关系。

若Random＜1/(n+1)，则建立一个新的词语聚类，并将所述词语i添加至新建立的词语聚类。

其中，n表示词语聚类的数目。Random表示一个0至1之间的随机数。若Random≥1/(n+1)，则将所述词语i添加至所述词语聚类j。V[i]表示产品信息里第i号词语的词语向量(word向量)分数。C[j]表示第j号词语聚类的向量分数。Sim(I,j)表示第i号词语与第j号词语聚类的余弦相似度。

对于用户设备发送的搜索请求，前端服务器可以从接收到的搜索请求中提取搜索词，并得到所述搜索词的向量分数，具体包括：

确定符合所述搜索词的词语聚类，并获取符合所述搜索词的各词语聚类的向量分数。将分数最高的向量分数作为所述搜索词的向量分数。例如：可以根据TF-IDF算法算出每个词语聚类的相关度分数。并选取分数最高的词语聚类作为当前文本的向量分数。

具体的，所述按照与所述搜索词的距离的由近至远的顺序，反馈产品信息，包括：

按照与所述搜索词的距离的由近至远的顺序，获取前K项的产品信息。并通过Annoy库，从所述前K项的产品信息中提取待反馈的产品信息。例如：当获取到搜索词后，将搜索词作为文本数据，获取搜索词的向量分数。利用搜索词的向量分数去搜索距离最近的前K个产品。其中，对于搜索最近K个距离的产品，可以采用Spotify的Annoy库。Annoy是业内常用的一种专门用来解决最近K个邻居(K-Nearest Neighbor)问题的开源库。比如：如图4所示的，对“小冰箱单门”这个搜索词在传统的文字匹配的搜索引擎上进行搜索为0结果，将这个搜索词放在了以词语聚类为基础的word2vec模型上去匹配能匹配多达40个结果。其中，结果列的数据依次为搜索词，产品id，产品名称，及相关度等参数。

本发明实施例提供一种文本搜索装置，如图5所示，包括：

预处理模块，用于对所提取的产品信息进行分词处理；

其中，所述聚类处理模块，具体用于将通过分词得到的词语，添加至已有的词语聚类中，并刷新该词语聚类的向量分数，其中，一个词语聚类的向量分数包括这一个词语聚类中各词语的向量分数的累加；或者，建立新的词语聚类，并将通过分词得到的词语，添加至新建立的词语聚类中。

其中，所述搜索处理模块，具体用于确定符合所述搜索词的词语聚类，并获取符合所述搜索词的各词语聚类的向量分数；并将分数最高的向量分数作为所述搜索词的向量分数。

其中，所述反馈模块，具体用于按照与所述搜索词的距离的由近至远的顺序，获取前K项的产品信息；并通过Annoy库，从所述前K项的产品信息中提取待反馈的产品信息。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种文本搜索方法，其特征在于，包括：

对所提取的产品信息进行分词处理；

2.根据权利要求1所述的方法，其特征在于，还包括：

将经过切分的产品信息进行数据清理，得到训练数据集；

3.根据权利要求1所述的方法，其特征在于，所述根据分词得到的词语生成对应所述商品信息的词语聚类，并获取各词语聚类的向量分数，包括：

4.根据权利要求3所述的方法，其特征在于，包括：

当Sim(I,j)＞1/(n+1)时，将所述词语i添加至所述词语聚类j；

5.根据权利要求3或4所述的方法，其特征在于，所述从接收到的搜索请求中提取搜索词，并得到所述搜索词的向量分数，包括：

将分数最高的向量分数作为所述搜索词的向量分数。

6.根据权利要求1所述的方法，其特征在于，所述按照与所述搜索词的距离的由近至远的顺序，反馈产品信息，包括：

7.一种文本搜索装置，其特征在于，包括：

预处理模块，用于对所提取的产品信息进行分词处理；

8.根据权利要求7所述的装置，其特征在于，所述聚类处理模块，具体用于将通过分词得到的词语，添加至已有的词语聚类中，并刷新该词语聚类的向量分数，其中，一个词语聚类的向量分数包括这一个词语聚类中各词语的向量分数的累加；或者，建立新的词语聚类，并将通过分词得到的词语，添加至新建立的词语聚类中。

9.根据权利要求7或8所述的装置，其特征在于，所述搜索处理模块，具体用于确定符合所述搜索词的词语聚类，并获取符合所述搜索词的各词语聚类的向量分数；并将分数最高的向量分数作为所述搜索词的向量分数。

10.根据权利要求7所述的装置，其特征在于，所述反馈模块，具体用于按照与所述搜索词的距离的由近至远的顺序，获取前K项的产品信息；并通过Annoy库，从所述前K项的产品信息中提取待反馈的产品信息。