CN112925912A

CN112925912A - 文本处理方法、同义文本召回方法及装置

Info

Publication number: CN112925912A
Application number: CN202110220258.2A
Authority: CN
Inventors: 冯朝兵; 连义江
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-08
Anticipated expiration: 2041-02-26
Also published as: CN112925912B

Abstract

本公开提供了一种文本数据库的文本处理方法，涉及搜索、自然语言处理及深度学习等计算机技术领域。该文本处理方法包括：获取文本数据库中所有文本的特征向量；根据所有文本的特征向量，将所有文本进行分类聚簇，得到多个同义文本簇，所述同义文本簇包含具有同义关系的多个文本；针对每个同义文本簇，从该同义文本簇中确定出一个文本，以作为该同义文本簇对应的代表文本；根据所有代表文本的特征向量，创建所述文本数据库的目标查询索引。本公开还提供了一种同义文本召回方法、装置、电子设备及计算机可读介质。

Description

文本处理方法、同义文本召回方法及装置

技术领域

本公开涉及搜索、自然语言处理及深度学习等计算机技术领域，特别涉及一种文本数据库的文本处理方法、同义文本召回方法及装置、电子设备、计算机可读介质。

背景技术

在搜索领域的一种应用场景中，搜索引擎能够为广告主会提供三种关键文本匹配服务来满足不同的广告推广需求，分别是精确匹配、短语匹配和宽泛匹配。其中精确匹配是指用户的搜索需求(query)和关键文本(也称为关键词、拍卖词)或者其同义变体字面完全一致，由于其精准的流量触达能力，至今仍然是搜索引擎中极为重要的一种匹配模式。

在搜索引擎的广告机制中，触发***的关键文本规模过大给召回和匹配带来极大的挑战，***召回效率和待检索关键文本数量呈负相关。当触发***预先设置了召回效率和存储的约束(约束目的是降低***平响、存储和计算资源成本)，有限的关键文本会降低触发***的关键词覆盖面，进一步导致收益下滑。

目前，在搜索引擎中，为了实现搜索召回，通常直接通过搜索需求(query)，在触发***中检索全量的关键文本，从而实现同义文本召回。

发明内容

本公开提供一种文本数据库的文本处理方法、同义文本召回方法及装置、电子设备、计算机可读介质、计算机程序产品。

根据本公开的第一方面，本公开提供了一种文本数据库的文本处理方法，包括：获取文本数据库中所有文本的特征向量；根据所有文本的特征向量，将所有文本进行分类聚簇，得到多个同义文本簇，所述同义文本簇包含具有同义关系的多个文本；针对每个同义文本簇，从该同义文本簇中确定出一个文本，以作为该同义文本簇对应的代表文本；根据所有代表文本的特征向量，创建所述文本数据库的目标查询索引。

根据本公开的第二方面，本公开提供了一种同义文本召回方法，该召回方法基于文本数据库的目标查询索引实现，该目标查询索引采用上述的文本处理方法创建，该召回方法包括：获取搜索请求，所述搜索请求包括搜索文本；获取该搜索文本对应的特征向量；将该搜索文本的特征向量输入所述目标查询索引，以查询出与该搜索文本匹配的代表文本；将该代表文本和该代表文本对应的同义文本簇中所有的文本，作为该搜索文本的同义文本进行搜索召回。

根据本公开的第三方面，本公开提供了一种文本处理装置，包括：第一向量获取模块，被配置为获取文本数据库中所有文本的特征向量；文本分类模块，被配置为根据所有文本的特征向量，将所有文本进行分类聚簇，得到多个同义文本簇，所述同义文本簇包含具有同义关系的多个文本；筛选模块，被配置为针对每个同义文本簇，从该同义文本簇中确定出一个文本，以作为该同义文本簇对应的代表文本；构建模块，被配置为根据所有代表文本的特征向量，创建所述文本数据库的目标查询索引。

根据本公开的第四方面，本公开提供了一种同义文本召回装置，包括：请求获取模块，被配置为获取搜索请求，所述搜索请求包括搜索文本；第二向量获取模块，被配置为获取该搜索文本对应的特征向量；查询模块，被配置为将该搜索文本的特征向量输入文本数据库对应的目标查询索引，以查询出与该搜索文本匹配的代表文本；所述目标查询索引采用上述的文本处理方法创建；文本召回模块，被配置为将该代表文本和该代表文本对应的同义文本簇中所有的文本，作为该搜索文本的同义文本进行搜索召回。

根据本公开的第五方面，本公开提供了一种电子设备，该电子设备包括：至少一个处理器，以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一方面提供的方法。

根据本公开的第六方面，本公开提供了一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被执行时实现如上述任一方面提供的方法。

根据本公开的第七方面，本公开提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述任一方面提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用来提供对本公开的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开实施例提供的一种文本数据库的文本处理方法的流程图；

图2为一种度量表示模型的模型结构示意图；

图3为图1中步骤S2的一种具体实现方式的流程图；

图4为一种近邻检索技术的示意图；

图5为一种同义判别模型的模型结构示意图；

图6为图3中步骤S24的一种具体实施方式的流程图；

图7为一种连通子图的示意图；

图8为图1中步骤S3的一种具体实施方式的流程图；

图9为本公开实施例提供的另一种文本处理方法的流程图；

图10为本公开实施例提供的一种同义文本召回方法的流程图；

图11为本公开实施例提供的另一种同义文本召回方法的流程图；

图12为本公开实施例提供的一种文本处理装置的组成框图；

图13为本公开实施例提供的一种同义文本召回装置的组成框图；

图14为本公开实施例提供的一种电子设备的组成框图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

目前，在搜索引擎中，为了实现搜索召回，通常直接通过搜索需求(query)，在触发***中检索全量的关键文本，从而实现同义文本召回，然而，这种直接检索触发***中全量的关键文本的召回方式，耗时巨大，召回效率低，限制了召回能力，且触发***需要构建基于全量的关键文本的查询索引，将消耗大量的存储资源。

为此，本公开实施例提供了一种文本数据库的文本处理方法及同义文本召回方法、装置、电子设备、计算机可读介质、计算机程序产品，以旨在能够有效减小文本数据库的查询索引的文本空间，节省存储资源，同时提高检索和召回效率，提高召回能力。

需要说明的是，在搜索领域中，“召回”是指获取与用户输入的搜索文本或文档相关的、相匹配的文本或文档。

图1为本公开实施例提供的一种文本数据库的文本处理方法的流程图。

参照图1，本公开实施例提供了一种文本数据库的文本处理方法，该文本处理方法可以由文本处理装置来执行，该文本处理装置可以通过软件和/或硬件的方式实现，该文本处理装置可以集成在如服务器等电子设备中，该文本处理方法包括：

步骤S1、获取文本数据库中所有文本的特征向量。

在本公开实施例中，文本数据库可以是搜索引擎***中为实现精准搜索而构建的查询数据库，也可以是搜索引擎的广告机制中的触发***的数据库，触发***的数据库中的文本为关键文本(也称为关键词或拍卖词)。

步骤S2、根据所有文本的特征向量，将所有文本进行分类聚簇，得到多个同义文本簇，每个同义文本簇包含具有同义关系的多个文本。

步骤S3、针对每个同义文本簇，从该同义文本簇中确定出一个文本，以作为该同义文本簇对应的代表文本。

步骤S4、根据所有代表文本的特征向量，创建文本数据库的目标查询索引。

在本公开实施例中，文本数据库的查询索引可以采用任何合适的索引创建方式创建，本公开实施例对于索引的创建方式不作具体限定。例如，可以采用分层可通航小世界图(Hierarchical Navigable Small World，简称：HNSW)算法，基于根据所有代表文本的特征向量，创建文本数据库的目标查询索引，HNSW是一种向量索引算法，利用HNSW技术可以创建基于代表文本的特征向量的查询索引。

本公开实施例所提供的文本数据库的文本处理方法，通过将文本数据库中的文本按照同义关系进行分类聚簇，并选择各簇的代表文本，以构建文本数据库的查询索引，一方面，能够有效减小文本数据库的查询索引的文本空间，节省存储资源，另一方面，在利用文本数据库进行检索时，无需检索文本数据库中全量的文本，仅需通过目标查询索引检索文本数据库中各簇的代表文本，从而能够有效提高检索效率和搜索召回效率，且代表文本和其所在簇中的所有文本均可以进行有效召回，提高了搜索召回的能力，有效避免了漏召回现象的发生。

在一些实施例中，在步骤S1中，利用预设的度量表示模型获取文本数据库中每个文本的特征向量。其中，度量表示模型可以是采用深度学习算法训练得到的语言模型，该度量表示模型的输入为文本，输出为文本的向量表示，也即文本的特征向量。

在一些实施例中，度量表示模型是基于多层transformer结构构建的模型，例如，度量表示模型采用BERT(Bidirectional Encoder Representations from Transformers，基于多层Transformer结构的双向编码表示)模型实现，实现将文本输入转化为特征向量输出。在一些实施例中，度量表示模型是BERT预训练模型，其是利用海量文本语料进行BERT预训练得到的模型，其是BERT的基础模型。

图2为一种度量表示模型的模型结构示意图，如图2所示，“Single Sentence”即为输入的单句子文本；Toki表示该输入的文本中的第i个符号(Token)，i＝1，2，3，…，N，N为正整数；E表示嵌入向量，Ei表示第i个符号(Token)的嵌入向量；输出C为特征向量，Ti表示第i个符号(Token)在经过BERT处理后得到的特征向量。

需要说明的是，本公开实施例对于度量表示模型的具体实现方式不作具体限制，只要能够获得文本的特征向量即可。

图3为图1中步骤S2的一种具体实现方式的流程图，如图3所示，在一些实施例中，步骤S2可以进一步包括步骤S21～步骤S24。

步骤S21、根据文本数据库中所有文本的特征向量，创建文本数据库的初始查询索引。

在本公开实施例中，文本数据库的查询索引可以采用任何合适的索引创建方式创建，本公开实施例对于索引的创建方式不作具体限定。例如可以采用HNSW算法创建初始查询索引。

步骤S22、针对文本数据库中的每个文本，通过初始查询索引查询出与该文本匹配的文本，生成初始同义关系信息，初始同义关系信息包括该文本和与该文本匹配的文本。

可以理解的是，初始查询索引是基于文本的特征向量创建，其输入是文本的特征向量，输出为与输入的特征向量匹配的文本的特征向量。

具体地，在步骤S22中，在初始查询索引中，利用近邻检索技术查询出与该文本匹配的文本，以生成初始同义关系信息。

在一些实施例中，近邻检索技术采用HNSW算法。图4为一种近邻检索技术的示意图，如图4所示，“I”表示输入的文本的特征向量，“M”表示初始查询索引的各层结构上存储的文本的特征向量，“O”表示利用近邻检索技术检索出的文本的特征向量。如图4所示，在一些实施例中，在步骤S22中，在初始查询索引中，利用近邻检索技术从最上层(如图4所示的Layer2)中开始搜索，找到本层中距离输入的特征向量最近的节点之后进入下一层，下一层搜索的起始节点即是上一层的最近节点，往复循环，直至找到查询结果(如图4所示的“O”)。

在一些实施例中，在步骤S22中，与该文本匹配的文本是指特征向量之间的距离小于预定距离的文本，或者是，在所有文本中特征向量之间的距离最小的文本。与该文本匹配的文本可以是一个文本，也可以是多个文本，具体根据实际的检索情况确定。

步骤S23、利用预设的同义判别模型对每个初始同义关系信息中的文本进行同义判别，去除所有初始同义关系信息中不满足同义关系的初始同义关系信息。

在本公开实施例中，特征向量之间的距离最小或者距离小于预定距离表示可以初步确定该两个文本之间具有同义关系，但并不表示该两个文本真实存在同义关系，为了进一步提高对文本间的同义关系的识别准确性，在一些实施例中，在步骤S23中，利用预设的同义判别模型对每个初始同义关系信息中的文本进行同义判别，若初始同义关系信息中的文本实际不满足同义关系，则去除该初始同义关系信息，保留实际满足同义关系的初始同义关系信息。

具体地，在步骤S23中，针对每个初始同义关系信息，将该初始同义关系信息中的任意两个文本的特征向量输入预设的同义判别模型，利用预设的同义判别模型，计算该两个文本的特征向量的相似度(同义程度)并识别该两个文本是否满足(具有)同义关系，例如通过判断相似度是否大于或等于预设相似度阈值，若大于或等于，则判断为满足同义关系，若小于，则判断为不满足同义关系。若该两个文本满足同义关系，则保留该两个文本，否则去除与任何文本均不满足同义关系的文本。

在一些实施例中，同义判别模型可以是采用深度学习算法训练得到的语言模型，该同义判别模型的输入为待判别的两个文本，输出为该两个文本的同义关系判别结果表示。

在一些实施例中，同义判别模型是基于多层transformer结构构建的分类模型。在一些实施例中，同义判别模型采用BERT分类模型，该BERT分类模型基于对BERT的基础模型(即上述的BERT预训练模型)进行微调(Fine Tuning)处理而得到，实现对两个文本之间是否满足同义变体关系的分类预测。

图5为一种同义判别模型的模型结构示意图，如图5所示，“Sentence1”即为输入的第一个文本，“Sentence2”即为输入的第二个文本；Toki表示输入的文本中的第i个符号(Token)，i＝1，2，3，…，N(或M)，N、M为正整数；E_[cls]表示输入的Sentence1的嵌入向量，E_[SEP]表示输入的Sentence2的嵌入向量，E_i表示第i个符号(Token)的嵌入向量；C为Sentence1的特征向量，T_[SEP]为Sentence2的特征向量，Ti表示第i个符号(Token)在经过BERT处理后得到的特征向量；Class Label表示最终输出，其取值为0或1，1代表输入的两个文本满足同义关系，0代表输入的两个文本不满足同义关系。

例如，输入的文本对为：“做双眼皮手术需要多少钱”和“割个双眼皮的价格”，则经过同义判别模型预测为该文本对满足同义关系，而输入的文本对为：“做双眼皮手术需要多少钱”和“割个双眼皮痛不痛”、以及“做双眼皮手术需要多少钱”和“做纹眉需要多少钱”都不满足同义关系。

在同义判别模型的模型训练过程中，对于输入的两个文本的特征向量，可以通过预设的度量函数计算该两个文本的相似度，从而判别该两个文本是否满足同义关系。其中，度量函数例如可以是余弦(COS)函数或者点积函数。

在本公开实施例中，可以理解的是，“同义”是指文本的含义相同或实质相同。

需要说明的是，本公开实施例对于同义判别模型的具体实现方式不作具体限制，只要能够识别文本对之间是否具有同义关系即可。

步骤S24、将剩余的初始同义关系信息中存在交集的初始同义关系信息划分为一类初始同义关系信息，每类初始同义关系信息作为一个同义文本簇。

例如，文本A和文本B之间具有同义关系，文本B和文本C之间具有同义关系，文本B和文本D之间具有同义关系，则文本A、B、C、D可归为一类，且位于一个同义文本簇中。

可以理解的是，同义文本簇是指具有同义关系的文本的集合，而不同同义文本簇之间不存在交集。

图6为图3中步骤S24的一种具体实施方式的流程图，如图6所示，在一些实施例中，步骤S24可以进一步包括步骤S241～步骤S243。

步骤S241、针对剩余的初始同义关系信息，将初始同义关系信息中的每个文本作为节点，将初始同义关系信息中文本之间的匹配关系作为边，构建欧拉图。

具体地，针对剩余的初始同义关系信息，将初始同义关系信息中的每个文本作为节点，将每个文本对应的节点和与该文本匹配的文本所对应节点连接，形成边，从而构建欧拉图。

步骤S242、利用预设连通子图发现算法，确定欧拉图中的所有连通子图。

在一些实施例中，预设连通子图发现算法包括并查集算法，通过并查集算法可以查找发现欧拉图中所有的连通子图。在连通子图发现过程中，对单个连通子图的规模进行限制，比如连通节点个数超过限定阈值则停止继续连通扩张，避免节点之间的路径深度过长导致误差***的可能。

步骤S243、根据连通子图确定存在交集的初始同义关系信息，以生成同义文本簇。

可以理解的是，通过步骤S242挖掘出的每个连通子图均对应为一个同义文本簇。

图7为一种连通子图的示意图，如图7所示，作为示例，通过上述步骤S23处理后，在步骤S241中，在剩余的初始同义关系信息中，文本A和文本B、文本C均匹配，因此A和B、C连通，而文本B和文本D、文本E均匹配，因此B和D、E连通，最终在步骤S242和S243中确定出文本A、B、C、D、E之间相互连通为一个连通子图，依次类推，确定文本F、G、H之间相互连通为一个连通子图，文本J、K、L、P之间相互连通为一个连通子图。

作为示例，通过上述步骤S21～步骤S24，最终确定出的多个同义文本簇，例如为：[双眼皮手术多少钱，双眼皮手术价格，割双眼皮手术需要多少钱，重睑手术多少钱]、[纹眉需要注意哪些事情，纹眉的注意事项]、[纹眉一次多少钱，文眉术的价格]。

图8为图1中步骤S3的一种具体实施方式的流程图，如图8所示，在一些实施例中，步骤S3可以进一步包括步骤S31～步骤S32。

步骤S31、针对每个同义文本簇中的每个文本，确定该文本在该同义文本簇中对应的同义关系数量。

可以理解的是，该文本在该同义文本簇中对应的同义关系数量为在该同义文本簇中与该文本具有同义关系的文本数量。

在一些实施例中，可以利用预设的同义判别模型识别在该同义文本簇中与该文本具有同义关系的文本，从而确定出该文本在该同义文本簇中对应的同义关系数量。关于预设的同义判别模型的描述可参见上述关于同义判别模型的描述，此处不再赘述。

步骤S32、将该同义文本簇中同义关系数量最多的任一个文本作为该同义文本簇对应的代表文本。

在一些实施例中，若在该同义文本簇中，对应的同义关系数量最多的文本的数量为多个，则针对该多个文本中的每一个文本，首先利用同义判别模型计算该文本对应的每个同义关系对应的同义程度(相似度)；然后根据该文本对应的所有同义关系的同义程度，求取该文本对应的同义程度平均值；最终通过对比该多个文本分别对应的同义程度平均值，选择同义程度平均值最高的文本作为该同义文本簇的代表文本。

在一些实施例中，除了通过上述步骤S31和步骤S32的代表文本确定方式之外，还可以从每个同义文本簇中随机选择一个文本作为该同义文本簇的代表文本。

图9为本公开实施例提供的另一种文本处理方法的流程图，如图9所示，在一些实施例中，为确保代表文本和同义文本簇内每个文本的同义关系，减少同义文本簇在实际检索场景中的使用误差，在步骤S4之前，该文本处理方法还可以进一步包括步骤S33～步骤S34。

步骤S33、针对每个同义文本簇中的每个文本，利用预设的同义判别模型识别该文本与该同义文本簇对应的代表文本是否具有同义关系。

具体地，利用同义判别模型计算该文本的特征向量和代表文本的特征向量之间的相似度，并根据相似度识别该文本和代表文本之间是否具有同义关系，例如通过判断相似度是否大于或等于预设相似度阈值，若大于或等于，则判断为具有同义关系，若小于，则判断为不具有同义关系。关于预设的同义判别模型的描述可参见上述关于同义判别模型的描述，此处不再赘述。

步骤S34、在识别出该文本与该同义文本簇对应的代表文本不具有同义关系的情形下，将该文本从该同义文本簇中剔除。

在识别出该文本与该同义文本簇对应的代表文本具有同义关系的情形下，保留该文本，而在识别出该文本与该同义文本簇对应的代表文本不具有同义关系的情形下，将该文本从该同义文本簇中剔除。从而确保代表文本和同义文本簇内每个文本的同义关系，减少同义文本簇在实际检索场景中的使用误差。

在本公开实施例中，文本数据库的目标查询索引是基于代表文本创建，因此在检索过程中，无需检索文本数据库中全量的文本，仅需检索代表文本，一方面索引的文本空间减小，节省了存储资源，另一方面，使得检索和召回效率大大提高。

图10为本公开实施例提供的一种同义文本召回方法的流程图。

本公开实施例提供了一种同义文本召回方法，该同义文本召回方法可以由同义文本召回装置来执行，该同义文本召回装置可以通过软件和/或硬件的方式实现，该同义文本召回装置可以集成在如服务器等电子设备中。

参照图10，该同义文本召回方法可以基于文本数据库的目标查询索引实现，该目标查询索引采用上述的文本处理方法创建，该同义文本召回方法包括：

步骤S5、获取搜索请求，该搜索请求包括搜索文本。

在一些实施例中，通过在线环境实时接收用户的搜索请求(query)。

在一些实施例中，在步骤S5中，获取用户在交互***上输入的搜索请求(query)。其中，交互***可以是能够为用户提供智能交互服务的智能终端、平台、应用、客户端等智能交互***，例如，智能音响、智能视频音箱、智能故事机、智能交互平台、智能交互应用、搜索引擎、问答***。本公开实施例对于交互***的实现方式不作特别限制，只要该交互***能够与用户进行交互即可。

在本公开实施例中，前述“交互”可以包括语音交互和文字交互，其中，语音交互是基于语音识别、语音合成、自然语言理解等技术实现，在多种实际应用场景下，赋予交互***“能听、会说、懂你”式的智能人机交互体验，语音交互适用于多个应用场景中，包括智能问答、智能播放、智能查找等场景。文字交互基于文字识别、提取、自然语言理解等技术实现，同样可以适用于多个前述的应用场景。

在一些实施例中，在步骤S5中，用户可以通过语音交互方式输入搜索请求，在获取用户输入的语音信息后，可以将该语音信息进行语音识别、语音转换文字等操作，从而获得对应的搜索文本。

在一些实施例中，在步骤S5中，用户还可以通过文字交互方式输入搜索请求，当用户输入的是文字信息时，可以直接获取用户输入的文字信息，该文字信息即为搜索文本。其中，文字信息是指自然语言类的文字。

步骤S6、获取该搜索文本对应的特征向量。

在本公开实施例中，在获取用户的搜索文本后，在步骤S6中，可以利用预设的度量表示模型获取该搜索文本对应的特征向量。其中，关于该度量表示模型的具体描述可参见上述关于度量表示模型的描述，此处不再赘述。

步骤S7、将该搜索文本的特征向量输入目标查询索引，以查询出与该搜索文本匹配的代表文本。

在本公开实施例中，在获取搜索文本的特征向量后，在步骤S7中，将该搜索文本的特征向量输入预先创建的目标查询索引，在目标查询索引中利用近邻检索技术查询出与该搜索文本匹配的代表文本。关于该近邻检索技术的具体描述可参见上述关于近邻检索技术的描述，此处不再赘述。

步骤S8、将该代表文本和该代表文本对应的同义文本簇中所有的文本，作为该搜索文本的同义文本进行搜索召回。

作为示例，假设文本数据库中存在一同义文本簇为：[双眼皮手术多少钱，双眼皮手术价格，割双眼皮手术需要多少钱，重睑手术多少钱]，其中，“双眼皮手术价格”是该同义文本簇对应的代表文本，而搜索文本为“割双眼皮手术需要多少钱”，在上述步骤S7中查询出与该“割双眼皮手术需要多少钱”匹配的代表文本为“双眼皮手术价格”，则将该“双眼皮手术价格”和对应的同义文本簇中的“双眼皮手术多少钱”、“割双眼皮手术需要多少钱”、“重睑手术多少钱”均作为该搜索文本的同义文本。

图11为本公开实施例提供的另一种同义文本召回方法的流程图，如图11所示，在一些实施例中，在步骤S8之前，该同义文本召回方法还可以进一步包括步骤S71。

步骤S71、利用预设的同义判别模型识别该搜索文本和与该搜索文本匹配的代表文本是否具有同义关系，若是，执行步骤S8，否则不作进一步处理。

其中，关于同义判别模型的具体描述可参见前述对同义判别模型的描述，此处不再赘述。

在步骤S71中，在识别出该搜索文本和与该搜索文本匹配的代表文本具有同义关系的情况下，执行步骤S8；在识别出该搜索文本和与该搜索文本匹配的代表文本不具有同义关系的情况下，表示文本数据库中不具有与搜索文本同义的文本，因此不进行同义文本召回，不作进一步处理。

在一些实施例中，上述文本处理方法可以在离线环境中执行，而上述同义文本召回方法可以在在线环境下实时执行。

在本公开实施例中，在上述同义文本召回方法中，只需要检索与query的搜索文本相匹配的代表文本，无需检索数据库中全量的文本，因此能够有效提高检索效率和召回效率，利用同义判别模型对query的搜索文本和检索出的代表文本进行同义判定，能够有效提高召回质量。当检索到代表文本时，该代表文本及对应同义文本簇内的所有文本都可以进行有效的召回，有效避免了漏召回现象的发生。

图12为本公开实施例提供的一种文本处理装置的组成框图。

参照图12，本公开实施例提供了一种文本处理装置300，该文本处理装置300包括：第一向量获取模块301、文本分类模块302、筛选模块303和构建模块304。

其中，第一向量获取模块301被配置为获取文本数据库中所有文本的特征向量；文本分类模块302被配置为根据所有文本的特征向量，将所有文本进行分类聚簇，得到多个同义文本簇，同义文本簇包含具有同义关系的多个文本；筛选模块303被配置为针对每个同义文本簇，从该同义文本簇中确定出一个文本，以作为该同义文本簇对应的代表文本；构建模块304被配置为根据所有代表文本的特征向量，创建文本数据库的目标查询索引。

在一些实施例中，该装置300还包括簇内文本过滤模块(图中未示出)，该簇内文本过滤模块被配置为：针对每个同义文本簇中的每个文本，利用预设的同义判别模型识别该文本与该同义文本簇对应的代表文本是否具有同义关系；在识别出该文本与该同义文本簇对应的代表文本不具有同义关系的情形下，将该文本从该同义文本簇中剔除。

需要说明的是，本公开实施例所提供的文本处理装置用于实现上述任一实施例所提供的文本处理方法，关于该文本处理装置的具体描述可参见上述实施例中的描述，此处不再赘述。

图13为本公开实施例提供的一种同义文本召回装置的组成框图。

参照图13，本公开实施例提供了一种同义文本召回装置400，该同义文本召回装置400包括：请求获取模块401、第二向量获取模块402、查询模块403和文本召回模块404。

其中，请求获取模块401被配置为获取搜索请求，该搜索请求包括搜索文本；第二向量获取模块402被配置为获取该搜索文本对应的特征向量；查询模块403被配置为将该搜索文本的特征向量输入文本数据库对应的目标查询索引，以查询出与该搜索文本匹配的代表文本；其中，目标查询索引采用上述文本处理方法创建；文本召回模块404被配置为将该代表文本和该代表文本对应的同义文本簇中所有的文本，作为该搜索文本的同义文本进行搜索召回。

在一些实施例中，该装置400还包括同义识别模块(图中未示出)，该同义识别模块被配置为在查询模块403查询出与该搜索文本匹配的代表文本之后，利用预设的同义判别模型识别该搜索文本和与该搜索文本匹配的代表文本是否具有同义关系，并在在识别出该搜索文本和与该搜索文本匹配的代表文本具有同义关系的情况下，触发文本召回模块404执行将该代表文本和该代表文本对应的同义文本簇中所有的文本，作为该搜索文本的同义文本进行搜索召回的步骤。

需要说明的是，本公开实施例所提供的同义文本召回装置用于实现上述任一实施例所提供的同义文本召回方法，关于该同义文本召回装置的具体描述可参见上述实施例中的描述，此处不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种计算机可读介质和一种计算机程序产品。

图14为本公开实施例提供的一种电子设备的组成框图。

图14示出了可以用来实施本公开的实施例的电子设备800的示意性框图。该电子设备800旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

参照图14，该电子设备包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

该电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如文本处理方法和/或同义文本召回方法。例如，在一些实施例中，上文描述的文本处理方法和/或同义文本召回方法可被实现为计算机软件程序或指令，其被有形地包含于机器(计算机)可读介质，例如存储单元808。在一些实施例中，计算机程序或指令的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序或指令加载到RAM 803并由计算单元801执行时，可以执行上文描述的文本处理方法和/或同义文本召回方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上文描述的文本处理方法和/或同义文本召回方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序或指令中，该一个或者多个计算机程序或指令可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器(计算机)可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本公开还提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述文本处理方法和/或上述同义文本召回方法。

根据本公开实施例的技术方案，通过将文本数据库中的文本按照同义关系进行分类聚簇，并选择各簇的代表文本，以构建文本数据库的查询索引，一方面，能够有效减小文本数据库的查询索引的文本空间，节省存储资源，另一方面，在利用文本数据库进行检索时，无需检索文本数据库中全量的文本，仅需通过目标查询索引检索文本数据库中各簇的代表文本，从而能够有效提高检索效率和搜索召回效率，且代表文本和其所在簇中的所有文本均可以进行有效召回，提高了搜索召回的能力，有效避免了漏召回现象的发生。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

可以理解的是，以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式，上述具体实施方式并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本数据库的文本处理方法，包括：

获取文本数据库中所有文本的特征向量；

根据所有文本的特征向量，将所有文本进行分类聚簇，得到多个同义文本簇，所述同义文本簇包含具有同义关系的多个文本；

针对每个同义文本簇，从该同义文本簇中确定出一个文本，以作为该同义文本簇对应的代表文本；

根据所有代表文本的特征向量，创建所述文本数据库的目标查询索引。

2.根据权利要求1所述的文本处理方法，其中所述获取文本数据库中所有文本的特征向量，包括：

利用预设的度量表示模型获取所述文本数据库中每个所述文本的特征向量。

3.根据权利要求2所述的文本处理方法，其中所述度量表示模型为BERT预训练模型。

4.根据权利要求1所述的文本处理方法，其中所述根据所有文本的特征向量，将所有文本进行分类聚簇，得到多个同义文本簇，包括：

根据所述文本数据库中所有文本的特征向量，创建所述文本数据库的初始查询索引；

针对所述文本数据库中的每个文本，通过初始查询索引查询出与该文本匹配的文本，生成初始同义关系信息，所述初始同义关系信息包括该文本和与该文本匹配的文本；

利用预设的同义判别模型对每个初始同义关系信息中的文本进行同义判别，去除所有初始同义关系信息中不满足同义关系的初始同义关系信息；

将剩余的初始同义关系信息中存在交集的初始同义关系信息划分为一类初始同义关系信息，每类初始同义关系信息作为一个所述同义文本簇。

5.根据权利要求4所述的文本处理方法，其中所述通过初始查询索引查询除与该文本匹配的文本，生成初始同义关系信息，包括：

在所述初始查询索引中，利用近邻检索技术查询出与该文本匹配的文本，以生成所述初始同义关系信息。

6.根据权利要求5所述的文本处理方法，其中所述近邻检索技术采用HNSW算法。

7.根据权利要求4所述的文本处理方法，其中所述同义判别模型为BERT分类模型。

8.根据权利要求4所述的文本处理方法，其中所述将剩余的初始同义关系信息中存在交集的初始同义关系信息划分为一类初始同义关系信息，每类初始同义关系信息作为一个所述同义文本簇，包括：

针对剩余的初始同义关系信息，将初始同义关系信息中的每个文本作为节点，将初始同义关系信息中文本之间的匹配关系作为边，构建欧拉图；

利用预设连通子图发现算法，确定所述欧拉图中的所有连通子图；

根据所述连通子图确定存在交集的初始同义关系信息，以生成所述同义文本簇。

9.根据权利要求8所述的文本处理方法，其中所述连通子图发现算法包括并查集算法。

10.根据权利要求1所述的文本处理方法，其中所述从该同义文本簇中确定出一个文本，以作为该同义文本簇对应的代表文本，包括：

针对该同义文本簇中的每个文本，确定该文本在该同义文本簇中对应的同义关系数量；

将该同义文本簇中同义关系数量最多的任一个文本作为该同义文本簇对应的代表文本。

11.根据权利要求1所述的文本处理方法，其中所述根据所有代表文本的特征向量，创建所述文本数据库的目标查询索引之前，还包括：

针对每个所述同义文本簇中的每个文本，利用预设的同义判别模型识别该文本与该同义文本簇对应的所述代表文本是否具有同义关系；

在识别出该文本与该同义文本簇对应的所述代表文本不具有同义关系的情形下，将该文本从该同义文本簇中剔除。

12.一种同义文本召回方法，该召回方法基于文本数据库的目标查询索引实现，该目标查询索引采用上述权利要求1-11中任一项所述的文本处理方法创建，该召回方法包括：

获取搜索请求，所述搜索请求包括搜索文本；

获取该搜索文本对应的特征向量；

将该搜索文本的特征向量输入所述目标查询索引，以查询出与该搜索文本匹配的代表文本；

将该代表文本和该代表文本对应的同义文本簇中所有的文本，作为该搜索文本的同义文本进行搜索召回。

13.根据权利要求12所述的同义文本召回方法，其中所述获取该搜索文本对应的特征向量，包括：

利用预设的度量表示模型获取该搜索文本对应的特征向量。

14.根据权利要求12所述的同义文本召回方法，其中所述将该搜索文本的特征向量输入所述目标查询索引，以查询出与该搜索文本匹配的代表文本，包括：

将该搜索文本的特征向量输入所述目标查询索引，在所述目标查询索引中利用近邻检索技术查询出与该搜索文本匹配的代表文本。

15.根据权利要求12所述的同义文本召回方法，其中所述将该代表文本和该代表文本对应的同义文本簇中所有的文本，作为该搜索文本的同义文本进行搜索召回之前，还包括：利用预设的同义判别模型识别该搜索文本和与该搜索文本匹配的代表文本是否具有同义关系；

在识别出该搜索文本和与该搜索文本匹配的代表文本具有同义关系的情况下，执行所述将该代表文本和该代表文本对应的同义文本簇中所有的文本，作为该搜索文本的同义文本进行搜索召回的步骤。

16.一种文本处理装置，包括：

第一向量获取模块，被配置为获取文本数据库中所有文本的特征向量；

文本分类模块，被配置为根据所有文本的特征向量，将所有文本进行分类聚簇，得到多个同义文本簇，所述同义文本簇包含具有同义关系的多个文本；

筛选模块，被配置为针对每个同义文本簇，从该同义文本簇中确定出一个文本，以作为该同义文本簇对应的代表文本；

构建模块，被配置为根据所有代表文本的特征向量，创建所述文本数据库的目标查询索引。

17.一种同义文本召回装置，包括：

请求获取模块，被配置为获取搜索请求，所述搜索请求包括搜索文本；

第二向量获取模块，被配置为获取该搜索文本对应的特征向量；

查询模块，被配置为将该搜索文本的特征向量输入文本数据库对应的目标查询索引，以查询出与该搜索文本匹配的代表文本；所述目标查询索引采用上述权利要求1-11中任一项所述的文本处理方法创建；

文本召回模块，被配置为将该代表文本和该代表文本对应的同义文本簇中所有的文本，作为该搜索文本的同义文本进行搜索召回。

18.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-15中任一项所述的方法。

19.一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被执行时实现权利要求1-15中任一项所述的方法。

20.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-15中任一项所述的方法。