CN117725155A

CN117725155A - 文本处理方法、装置、设备及介质

Info

Publication number: CN117725155A
Application number: CN202311269326.XA
Authority: CN
Inventors: 张翱东
Original assignee: Xiaohongshu Technology Co ltd
Current assignee: Xiaohongshu Technology Co ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-03-19

Abstract

本申请实施例公开了一种文本处理方法、装置、设备及介质，应用于数据处理技术领域。其中方法包括：获取与信息查询行为相关联的查询文本对，对第一文字集和第二文字集进行字对齐处理，得到第一文字集和第二文字集之间的字对齐区间，获取第一文字的第一文字信息和第二文字的第二文字信息，并基于第一文字信息和第二文字信息，确定第一文字和第二文字之间的信息匹配度，在基于第一文字和第二文字之间的信息匹配度，确定第一文字和第二文字互为相似文字时，通过第一文字和第二文字构建与信息查询行为相关联的相似文字字典。采用本申请实施例，可以提高相似文字字典的构建质量。

Description

文本处理方法、装置、设备及介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种文本处理方法、装置、设备及介质。

背景技术

搜索引擎把用户输入的错误查询词自动纠正为正确查询词是搜索过程的重要步骤。其中，常见的纠正行为包括相似文字纠错(比如形近字纠错)。在纠正形近字错误时需要依赖于形近字字典。搜索引擎可以根据形近字字典对错误查询词中存在形近字错误的字或者词进行修正，从而获取正确查询词。

目前构建形近字字典通常是由人工统计形近字，以构建形近字字典。例如，由相关业务人员确定与第一汉字具有相同部首的第二汉字集，并从第二汉字集中筛选出第一汉字的形近字。然而，该方式会耗费大量时间，容易遗漏一些可能存在的形近字，使得形近字字典不够准确，难以从形近字典中查询到错误查询词中存在的形近字，导致错误查询词的形近字纠错效率低，也就是说，形近字字典的质量高低会影响形近字纠错效果。

发明内容

本申请实施例提供了一种文本处理方法、装置、设备及介质，可以提高所构建得到的相似文字字典的质量。

一方面，本申请实施例提供了一种文本处理方法，该方法包括：

获取与信息查询行为相关联的查询文本对；查询文本对包括第一查询文本和第二查询文本；第一查询文本包括的文字用于构成第一文字集；第二查询文本包括的文字用于构成第二文字集；

对第一文字集和第二文字集进行字对齐处理，得到第一文字集和第二文字集之间的字对齐区间；字对齐区间在第一文字集中对应的文字集为第一文字子集，字对齐区间在第二文字集中对应的文字集为第二文字子集，且第一文字子集包括的第一文字与第二文字子集包括的第二文字之间对齐；

获取第一文字的第一文字信息和第二文字的第二文字信息，并基于第一文字信息和第二文字信息，确定第一文字和第二文字之间的信息匹配度；

在基于第一文字和第二文字之间的信息匹配度，确定第一文字和第二文字互为相似文字时，通过第一文字和第二文字构建与信息查询行为相关联的相似文字字典。

一方面，本申请实施例提供了一种文本处理装置，该装置包括：

获取模块，用于获取与信息查询行为相关联的查询文本对；查询文本对包括第一查询文本和第二查询文本；第一查询文本包括的文字用于构成第一文字集；第二查询文本包括的文字用于构成第二文字集；

处理模块，用于对第一文字集和第二文字集进行字对齐处理，得到第一文字集和第二文字集之间的字对齐区间；字对齐区间在第一文字集中对应的文字集为第一文字子集，字对齐区间在第二文字集中对应的文字集为第二文字子集，且第一文字子集包括的第一文字与第二文字子集包括的第二文字之间对齐；

处理模块，还用于获取第一文字的第一文字信息和第二文字的第二文字信息，并基于第一文字信息和第二文字信息，确定第一文字和第二文字之间的信息匹配度；

处理模块，还用于在基于第一文字和第二文字之间的信息匹配度，确定第一文字和第二文字互为相似文字时，通过第一文字和第二文字构建与信息查询行为相关联的相似文字字典。

一方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，其中，存储器用于存储计算机程序，该计算机程序包括程序指令，处理器被配置用于调用该程序指令，执行上述方法中的部分或全部步骤。

一方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时，用于执行上述方法中的部分或全部步骤。

相应地，根据本申请的一个方面，提供了一种计算机程序产品或者计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令被处理器执行时可实现上述方法中的部分或全部步骤。

本申请实施例中，可以获取与信息查询行为相关联的查询文本对，对第一文字集和第二文字集进行字对齐处理，得到第一文字集和第二文字集之间的字对齐区间，可以通过该字对齐区间确定第一文字子集和第二文字子集，第一文字子集包括的第一文字与第二文字子集包括的第二文字之间对齐，即第一文字子集包括的第一文字与第二文字子集包括的第二文字可能互为相似文字；因此可以基于第一文字的第一文字信息和第二文字的第二文字信息，确定第一文字和第二文字之间的信息匹配度，并在基于信息匹配度确定第一文字和第二文字互为相似文字时，通过第一文字和第二文字构建与信息查询行为相关联的相似文字字典，这样可以将与信息查询行为相关联的查询文本对作为数据源快速查找出可能存在形近字的第一文字集和第二文字集，并且可以根据第一文字信息和第二文字信息更准确的确定出第一文字集和第二文字集中的相似文字，同时，该相似文字字典与用户的查询行为意图强相关，在减少形近字遗漏的情况下，还使得相似文字字典更加有可能包含大量用户在查询搜索过程中容易涉及到的相似文字，并减少大部分与信息查询行为无关的相似文字，从而可以确保相似文字字典的构建质量和准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本处理场景的示意图；

图2为本申请实施例提供的一种文本处理方法的流程示意图一；

图3为本申请实施例提供的一种对齐处理的场景示意图一；

图4为本申请实施例提供的一种对齐处理的场景示意图二；

图5为本申请实施例提供的一种文本处理方法的流程示意图二；

图6为本申请实施例提供的一种文本处理装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提出的文本处理方法实现于电子设备，该电子设备可以是服务器，也可以是终端。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。

其中，基于该文本处理方法提出的一种文本处理场景的示意图可如图1所示，图1还提出一种网络架构，该网络架构可以包括服务器以及用户终端集群，其中，用户终端集群可以包括一个或多个用户终端，这里将不对用户终端集群中的用户终端的数量进行限定。用户终端集群中的用户终端之间可以存在通信连接。同时，用户终端集群中的任一用户终端可以与服务器存在通信连接，以便于用户终端集群中的每个用户终端均可以通过该通信连接与服务器进行数据交互。其中，上述通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其它方式，本申请在此不做限制。此外，可以理解的是，本申请实施例所涉及的电子设备可以是图1所示的服务器，也可以是图1所示的用户终端集群中的任意一个用户终端。

例如，在本申请实施例中，电子设备(比如服务器或者用户终端)可以获取与信息查询行为相关联的查询文本对，并由本申请所提出的文本处理方法，基于该查询文本对构建得到与信息查询行为相关联的相似文字字典。比如，服务器可以获取与信息查询行为相关联的查询文本对，该查询文本对可以包括第一查询文本和第二查询文本，该第一查询文本包括的文字为第一文字集，第二查询文本包括的文字为第二文字集；对第一文字集和第二文字集进行字对齐处理，得到第一文字集和第二文字集之间的字对齐区间，字对齐区间在第一文字集中对应的文字集为第一文字子集，字对齐区间在第二文字集中对应的文字集为第二文字子集，且第一文字子集包括的第一文字与第二文字子集包括的第二文字之间对齐，即第一文字子集包括的第一文字与第二文字集包括的第二文字可能互为相似文字；因此，可以获取第一文字的第一文字信息和第二文字的第二文字信息，并基于第一文字信息和第二文字信息，确定第一文字和第二文字之间的信息匹配度，在基于信息匹配度确定第一文字和第二文字互为相似文字时，通过第一文字和第二文字构建相似文字字典。

可以理解，此时构建的相似文字字典通过与信息查询行为相关联的查询文本对所确定，这样的相似文字字典可以在减少形近字遗漏的情况下，可以与信息查询行为强相关，即相似文字字典中的相似文字为用户在搜索查询过程中容易涉及到的相似文字，确保相似文字字典的准确度、与搜索查询场景的关联度，以及字典构建质量。由此，在进行查询词纠错时，可以从相似文字字典中快速查找出错误查询词所涉及的相似文字，并基于查找出的相似文字对错误查询词进行纠正，得到正确查询词，从而可以提升相似文字纠错效果。

可选的，在一些实施例中，电子设备可根据实际的业务需求，执行该文本处理方法以提高相似文字字典的构建效果。本申请技术方案可以应用于任意查询场景中，查询文本对可以基于任意查询场景下所录入的查询信息和/或召回信息中提取的文本确定。比如，可以通过在多媒体查询场景下的多媒体信息查询行为，获取在多媒体查询场景下的查询文本对(例如，查询文本对中的第一文本为用户输入的与多媒体(如图片)相关的文本信息，查询文本对中的第二文本可以基于用户输入的文本信息所对应的与多媒体相关的召回信息确定)，以构建与多媒体查询场景相关联的相似文字字典。又如，可以通过在商品查询场景下的商品信息查询行为，获取在商品查询场景下的查询文本对(例如，查询文本对中的第一文本为用户输入的与商品相关的文本信息，查询文本对中的第二文本可以基于用户输入的文本信息所对应的与商品相关的召回信息确定)，以构建与商品查询场景相关联的相似文字字典。在此不做限定。电子设备可以通过本申请技术方案确定与某一个或多个查询场景相关联的相似文字字典，以便于可以高效地从相似文字字典中查找到当前查询场景下的错误查询词所可能涉及的相似文字，从而提升查询场景下相似文字纠错效果。

其中，可以理解，相似文字可以是指形近字、或者同音字等等。此时构建得到的相似文字字典可以是形近字字典、或者同音字字典等等。在此不做限定。

可选的，本申请涉及的数据如查询文本对、相似文字字典等，可以存储于数据库中，或者可以存储于区块链中，如通过区块链分布式***存储，本申请不做限定。

需要说明的是，在本申请的具体实施方式中，涉及到获取用户信息等相关数据的场景时，如获取用户输入的查询信息等，需要获得用户许可或者同意。即在本申请实施例运用到具体产品或技术中时，相关用户数据的收集、使用和处理遵守相关地区的相关法律法规和标准。例如可以通过交互界面的形式发出提示信息以用于提示具体会收集或者获取哪些数据，具体可以通过列表等方式将这些数据的类型、内容等提示给用户，只有在交互界面上接收到允许收集数据的确认操作或者指令之后，才会进一步进行相关数据的收集、处理等。

可以理解，上述场景仅是作为示例，并不构成对于本申请实施例提供的技术方案的应用场景的限定，本申请的技术方案还可应用于其他场景。例如，本领域普通技术人员可知，随着***架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

基于上述的描述，本申请实施例提出了一种文本处理方法，该方法可以由上述提及的电子设备来执行。请参见图2，图2为本申请实施例提供的一种文本处理方法的流程示意图。

如图2所示，本申请实施例的文本处理方法的流程可以包括如下：

S101、获取与信息查询行为相关联的查询文本对。

其中，查询文本对包括第一查询文本和第二查询文本。第一查询文本包括的文字用于构成第一文字集。第二查询文本包括的文字用于构成第二文字集。

其中，信息查询行为是指在信息查询场景下业务对象输入查询信息返回与查询信息相匹配的召回信息的行为。可以理解，根据信息查询场景的不同，所返回的召回信息不同。比如，信息查询场景为多媒体查询场景，返回的召回信息可以是视频数据。又如，信息查询场景为商品查询场景，返回的召回信息可以是商品数据。

其中，获取查询文本对可以是：获取业务对象在两次信息查询行为中所录入的查询信息；该两次信息查询行为是连续的查询行为，且行为发生时间的时间间隔小于时间间隔阈值；基于在两次信息查询行为中所录入的查询信息，得到查询文本对。其中，时间间隔阈值可根据经验值设置，比如为10秒。

也就是说，获取业务对象(即用户)在两次连续的信息查询行为中所录入的查询信息(即用户的历史查询行为日志，也就是用户在信息查询期间连续输入的上下查询信息)，并基于该两次录入的查询信息作为查询文本对。即查询文本对中的第一查询文本由该两次录入的查询信息中的一个查询信息所确定，且查询文本对中的第二查询文本由该两次录入的查询信息中的另一个查询信息所确定。

例如，查询信息为用户输入的文字信息，则可以将该两次录入的查询信息中的一个查询信息(或者该查询信息中的中文文本)作为第一查询文本，将该两次录入的查询信息中的另一个查询信息(或者该查询信息中的中文文本)作为第二查询文本。

又如，查询信息为用户输入的图像信息，则可以将从该两次录入的查询信息中的一个查询信息中所提取出的文字信息(或者该文字信息中的中文文本)作为第一查询文本，将从该两次录入的查询信息中的另一个查询信息中所提取出的文字信息(或者该文字信息中的中文文本)作为第二查询文本。

又如，查询信息为用户输入的语音信息，则可以将从该两次录入的查询信息中的一个查询信息中所提取出的文字信息(或者该文字信息中的中文文本)作为第一查询文本，将从该两次录入的查询信息中的另一个查询信息中所提取出的文字信息(或者该文字信息中的中文文本)作为第二查询文本。

可以理解，用户在进行信息的搜索查询时，可能存在第一次录入的是错误查询信息，但在第二次录入时进行修正的情况。比如，用户在第一次信息查询行为中输入的是错误查询信息(如“平果”)，但用户在确定录入的查询信息错误后，在第二次信息查询行为中输入的是纠正后的查询信息(如“苹果”)，也就是说，两次连续的信息查询行为所录入的查询信息中可能出现纠错行为，且可能是因为相似文字所导致的录入错误，如具体可以是因为形近字所导致的录入错误。因此，可以基于两次连续的信息查询行为中所录入的查询信息确定与信息查询行为相关联的查询文本对。

此外，可以理解，当所获取到的信息查询行为是连续的查询行为且行为发生时间比较相近时，可以理解为这两个查询行为是具有一定关系的查询行为。例如，用户在第一次信息查询行为中发现录入的查询信息有误，并快速在第二次信息查询行为中进行查询信息的修正。也就是说，两次连续且相近的查询行为更有可能存在查询信息的纠错行为。

可选地，获取查询文本对还可以是：获取在信息查询行为中针对所录入的查询信息，业务对象的信息交互行为；基于在信息查询行为中所录入的查询信息，以及在信息交互行为中所产生交互的召回信息，得到查询文本对。

其中，信息交互行为是指，对所录入的查询信息所对应返回的召回信息的交互行为，比如对召回信息的点击行为、收藏行为、点赞行为等等。可以理解，当信息交互行为指示用户对一个召回信息进行了点击行为，表示该召回信息产生交互。

也就是说，获取业务对象(即用户)在一个信息查询行为中所录入的查询信息以及针对该信息查询行为所产生交互的召回信息，并基于该录入的查询信息和作为查询文本对。即查询文本对中的第一查询文本(或第二查询文本)由所录入的查询信息所确定，且查询文本对中的第二查询文本(或第一查询文本)由该所产生交互的召回信息所确定。

例如，查询信息为用户输入的文字信息，则可以将该所录入的查询信息(或者该查询信息中的中文文本)作为第一查询文本，将从所产生交互的召回信息中提取出的文字信息(或者该文字信息中的中文文本)作为第二查询文本。示例性的，召回信息为视频数据时，提取出的文字信息可以是视频本体的视频标题、简介等信息。或者，召回信息为笔记数据时，提取出的文字信息可以是笔记所包含的笔记标题、笔记正文等信息。或者，召回信息为商品数据时，提取出的文字信息可以是商品标题、详情等信息。在此不做限定。

又如，查询信息为用户输入的图像信息，则可以将从该录入的查询信息中所提取出的文字信息(或者该文字信息中的中文文本)作为第一查询文本。又如，查询信息为用户输入的语音信息，则可以将从该录入的查询信息中所提取出的文字信息(或者该文字信息中的中文文本)作为第一查询文本。

可以理解，用户在进行信息的搜索查询时，所产生交互的召回信息为与录入的查询信息相关联的信息。用户在录入错误查询信息时所返回的召回信息可能是与正确查询信息相关的召回信息，因此，在录入错误查询信息时所产生交互的召回信息可视为是与正确查询信息相关联的召回信息。由此可以根据与正确查询信息相关联的召回信息确定出错误查询信息中的错误处，且该错误可能存在因为相似文字所导致的录入错误，如具体可以是因为同音字所导致的录入错误，即可以将一个信息查询行为中所录入的查询信息和产生交互的召回信息确定与信息查询行为相关联的查询文本对。

可以理解，查询文本对中的查询文本是通过信息查询场景所对应的信息查询行为和/或信息交互行为所获取到的，查询文本对中的查询文本与信息查询场景存在关联，这样通过查询文本对所构建得到的相似文字字典也与信息查询场景相关联，即相似文字字典中包含的大量相似文字为在信息查询场景下用户可能输错的相似文字，可以在相似文字字典中减少与信息查询场景无关的相似文字，因此所构建的相似文字字典可以包含符合用户在特定查询场景下的搜索查询意图的相似文字。

S102、对第一文字集和第二文字集进行字对齐处理，得到第一文字集和第二文字集之间的字对齐区间。

其中，字对齐区间在第一文字集中对应的文字集为第一文字子集，字对齐区间在第二文字集中对应的文字集为第二文字子集，且第一文字子集包括的第一文字与第二文字子集包括的第二文字之间对齐。可以理解，第一文字子集包括的第一文字与第二文字子集包括的第二文字可能互为相似文字。

其中，第一文字集包括N1个文字。N1个文字包括第i1个文字和第j1个文字；i1小于j1，且i1为小于N1的正整数，j1为小于或等于N1的正整数。第二文字集包括N2个文字；N2个文字包括第i2个文字和第j2个文字；i2小于j2，且i2为小于N2的正整数，j2为小于或等于N2的正整数。

在一些实施例中，对第一文字集和第二文字集进行字对齐处理具体可以是：在N2个文字中查找与第i1个文字相同的文字；若查找到的与第i1个文字相同的文字为第i2个文字，则将第i1个文字确定为第一对齐文字，且从N2个文字中获取在第i2个文字之后的至少一个文字；在至少一个文字中查找与第j1个文字相同的文字；若查找到的与第j1个文字相同的文字为第j2个文字，则将第j1个文字确定为第二对齐文字；基于第一对齐文字和第二对齐文字确定对齐文字集；对齐文字集包括B个对齐文字，B个对齐文字包括第b个对齐文字和第b+1个对齐文字；B为正整数；b为小于B的正整数；获取由N1个文字中位于第b个对齐文字和第b+1个对齐文字之间的文字集所构成的第一区间，以及获取由N2个文字中位于第b个对齐文字和第b+1个对齐文字之间的文字集所构成的第二区间；在基于第一区间和第二区间得到字对齐区间时，将第一区间对应的文字集作为第一文字子集，且将第二区间对应的文字集作为第二文字子集。其中，第一区间对应的文字集中的文字与第二区间对应的文字集中的文字不同。

也就是说，从第一文字集和第二文字集中找出不同且可能互为相似文字的文字。可以理解，对于第一查询文本和第二查询文本，处于两个相同的文字之间的文字可能是录入错误的文字，即可能是第一查询文本所对应的处于两个相同的文字之间的文字和第二查询文本所对应的处于两个相同的文字之间的文字可能是相似的文字。也就是说，将第一查询文本和第二查询文本中，处于相同位置且不同的文字作为可能互为相似文字的文字。即对第一查询文本和第二查询文本进行对齐，也就是确定第一查询文本和第二查询文本之间，位置相同的文字。

可以理解，在从第二查询文本中查找到与第一查询文本中的某个文字(文字A)相同的文字，且在第一查询文本中，从文字A继续文字查找时，是在第二查询文本内的位于文字A之后的文字中，开始进行查找。可以理解，将在第一文字集中查找到有相同文字的文字作为对齐文字，以得到对齐文字集，即对齐文字集中包括第一文字集和第二文字集之间相同的文字，即对齐的文字。

可以理解，在第一查询文本和第二查询文本之间，依次确定相同的文字，并将确定出的文字作为对齐文字，确定出的文字在第一查询文本中的位置和在第二查询文本中的位置应是相同的，即是对齐的，以及任两个确定出的文字在第一查询文本中对应的文字和在第二查询文本中对应的文字的位置也应是相同的，即是对齐的。

例如，第一查询文本为“护肤品”，第二查询文本为“护夫品”，第一查询文本中的第一个文字和第二查询文本中的第一个文字相同，第一查询文本中的第三个文字和第二查询文本中的第三个文字相同，因此由第一查询文本中的第一个文字和第三个文字之间的文字构成的区间为第一区间，由第二查询文本中的第一个文字和第三个文字之间的文字构成的区间为第二区间，且第一区间和第二区间为字对齐区间，且第一区间在第一查询文本对应的文字集包括第一查询文本中的第二个文字，且第二区间在第二查询文本对应的文字集包括第二查询文本中的第二个文字，因此可以确定第一查询文本中的“肤”和第二查询文本中的“夫”是否为相似文字。

可以理解，位于第i1个文字和第j1个文字之间的文字集中的文字均与位于第i2个文字和第j2个文字之间的文字集中的文字不相同。可以理解，字对齐区间包括在第一文字集中确定出的所对齐的第一区间，以及在第二文字集中确定出的所对应的第二区间。

需要说明的是，此时可以认为第一文字集中除了包括第一查询文本中的文字，还包括默认文字，默认文字视为是第一文字集中的第一个文字和最后一个文字，且默认文字视为是第二文字集中的第一个文字和最后一个文字，且此时第一文字集中的第一个文字和第二文字集中的第二个文字相同，第二文字集中的最后一个文字和第二文字集中的最后一个文字相同。因此第一文字集依次包括：作为第一个文字的默认文字、第一查询文本中的文字、作为最后一个文字的默认文字。第二文字集依次包括：作为第一个文字的默认文字、第二查询文本中的文字、作为最后一个文字的默认文字。

可以理解，第一文字子集包括的第一文字可以有一个或多个，第二文字子集包括的第二文字可以有一个或多个，可以依次确定每个第一文字分别和每个第二文字之间的信息匹配度，进而确定是否为相似文字。

可以理解，可以从第一文字集中的第一个文字(比如文字11)开始，在第二文字集中查找与文字11相同的文字，若查找到的文字11相同的文字为第二文字集中的第二个文字(比如文字22)，则从第二文字集的第三个文字开始，查找与第一文字集中的第二个文字(比如文字12)相同的文字，若未查找到，则查找与第一文字集中的第三个文字(比如文字13)相同的文字，若查找到的文字13相同的文字为第二文字集中的第四个文字(比如文字24)，则将文字11和文字13之间的文字12(即第一文字集中的第二个文字)作为第一文字集，将文字21和文字23之间的文字22(即第二文字集中的第二个文字)作为第二文字集，以及由文字12所构成的区间为第一区间，由文字22所构成的区间为第二区间，由此得到字对齐区间。后续，继续从第一文字集中的第四个文字(比如文字14)开始，在第二文字集的第四个文字之后，查找与文字14相同的文字，以确定新的字对齐区间。

此时，将上述第一文字集中确定出的在第二文字集中具有相同文字的文字作为对齐文字，以得到对齐文字集，进而可以通过对齐文字集中任两个相邻的对齐文字确定对应的字对齐区间，且任两个相邻的对齐文字在第一文字集和第二文字集之间的文字子集是位置对齐且内容不同，在该两个文字子集中更有可能出现相似文字的情况。可以理解，第一文字集和第二文字集之间的字对齐区间可以有一个或多个。一个字对齐区间包括一个第一区间和一个第二区间。

可以理解，第一查询文本和第二查询文本之间不同的文字，可能会出现相似文字，比如用户在第一次信息查询行为中输入错误的查询信息为“平果功效”，在第二次信息查询行为中输入正确的查询信息为“苹果功效”，此时可以进行字对齐处理，可以理解，对于第一查询文本和第二查询文本，内容相同且位置对齐的文字可以视为是输入正确的部分，而内容不同且位置对齐的文字可以视为是输入错误的部分，而输入错误的部分可能存在相似文字，因此可以从输入错误的部分中进行相似文字的确定，即如得到第一文字子集“平”和第一文字子集“苹”，并对这两个文字进行相似文字的判断。相较于将第一文字集和第二文字集之间的所有文字进行组合，以确定是否为相似文字，这样可以先筛选出包含相似文字的第一文字子集和第二文字子集，再将第一文字子集和第二文字子集之间的所有文字进行组合，以确定是否为相似文字，从而可以减少工作量，提高相似文字的确定效率。

例如，如图3-图4所示，图3-图4为本申请实施例提供的一种对齐处理的场景示意图；其中，第一查询文本为“哪家皮肤科医院比较好”，第二查询文本为“哪家皮夫科三甲医院比较号”，通过第一查询文本中的文字构建出的第一文字集包括文字a1-a12(默认文字A、哪、家、皮、肤、科、医、院、比、较、好、默认文字B)；通过第二查询文本中的文字构建出的第二文字集包括文字b1-b14(默认文字A、哪、家、皮、夫、科、三、甲、匪、院、比、较、号、默认文字B)；其中，在文字b1-b14中查找到与文字a1相同的文字为文字b1、在文字b2-b14中查找到与文字a2相同的文字为文字b2、在文字b2-b14中查找到与文字a2相同的文字为文字b2、在文字b3-b14中查找到与文字a3相同的文字为文字b3、在文字b4-b14中查找到与文字a4相同的文字为文字b4、在文字b5-b14中未查找到与文字a5相同的文字、在文字b5-b14中查找到与文字a6相同的文字为文字b6、在文字b7-b14中未查找到与文字a7相同的文字、在文字b7-b14中查找到与文字a8相同的文字为文字b10、在文字b11-b14中查找到与文字a9相同的文字为文字b11、在文字b12-b14中查找到与文字a10相同的文字为文字b12、在文字b13-b14中未查找到与文字a11相同的文字、在文字b14中查找到与文字a12相同的文字为文字b14；因此将文字a1、文字a2、文字a3、文字a4、文字a6、文字a8、文字a9、文字a10、文字a12确定为对齐文字集；第一文字集中不存在文字a1和文字a2之间的文字集、第一文字集中不存在文字a2和文字a3之间的文字集、第一文字集中不存在文字a3和文字a4之间的文字集、第一文字集中存在文字a4和文字a6之间的文字集c11(“肤”)且第二文字集中存在文字a4和文字a6之间的文字集c12(“夫”)、第一文字集中存在文字a6和文字a8之间的文字集c21(“医”)且第二文字集中存在文字a6和文字a8之间的文字集c22(“三、甲、医”)、第一文字集中不存在文字a8和文字a9之间的文字集、第一文字集中不存在文字a9和文字a10之间的文字集、第一文字集中存在文字a10和文字a12之间的文字集c31(“号”)且第二文字集中存在文字a10和文字a12之间的文字集c32(“好”)。

因此，如图4，可以由上述文字集c11确定第一区间d11、由文字集c12确定第二区间d12，并将第一区间d11和第二区间d12确定为字对齐区间e1，且第一区间d11对应的文字集c11为第一文字子集h11，第二区间d12对应的文字集c12为第二文字子集h12，可以确定第一文字子集h11中的文字a5和第二文字子集h12中的文字b5之间的信息匹配度；可以由文字集c21确定第一区间d21、由文字集c22确定第二区间d22，并将第一区间d21和第二区间d22确定为字对齐区间e2，且第一区间d21对应的文字集c21为第一文字子集h21，第二区间d22对应的文字集c22为第二文字子集h22，可以依次确定第一文字子集h21中的文字a7和第二文字子集h22中的文字b7之间的信息匹配度、确定第一文字子集h21中的文字a7和第二文字子集h22中的文字b8之间的信息匹配度、确定第一文字子集h21中的文字a7和第二文字子集h22中的文字b9之间的信息匹配度；可以由文字集c31确定第一区间d31、由文字集c32确定第二区间d32，并将第一区间d31和第二区间d32确定为字对齐区间e3，且第一区间d31对应的文字集c31为第一文字子集h31，第二区间d32对应的文字集c32为第二文字子集h32，可以确定第一文字子集h31中的文字a11和第二文字子集h32中的文字b13之间的信息匹配度。

可以理解，上述文字a1和文字b1之间为内容相同且位置对齐的文字、文字a2和文字b2之间为内容相同且位置对齐的文字、文字a3和文字b3之间为内容相同且位置对齐的文字、文字a4和文字b4之间为内容相同且位置对齐的文字、文字a5和文字b5之间为内容不同且位置对齐的文字(即可用于判断是否为相似文字)、文字a6和文字b6之间为内容相同且位置对齐的文字、文字a7和文字b7-b9之间为内容不同且位置对齐的文字(即可用于判断是否为相似文字)、文字a8和文字b10之间为内容相同且位置对齐的文字、文字a9和文字b11之间为内容相同且位置对齐的文字、文字a10和文字b12之间为内容相同且位置对齐的文字、文字a11和文字b13之间为内容不同且位置对齐的文字(即可用于判断是否为相似文字)、文字a12和文字b14之间为内容相同且位置对齐的文字。

可选地，当N1和N2均为1，且第一查询文本和第二查询文本不同时，可以确定该第一查询文本和第二查询文本是否为相似文字。

可选地，当N1为1，N2为大于1的正整数，且第一查询文本和第二查询文本中的每个文字均不同时，可以分别确定该第一查询文本和第二查询文本中每个文字是否为相似文字。

可选地，当N1为大于1的正整数，N2为1，且第一查询文本中的每个文字和第二查询文本均不同时，可以分别确定该第一查询文本中的每个文字和第二查询文本是否为相似文字。

S103、获取第一文字的第一文字信息和第二文字的第二文字信息，并基于第一文字信息和第二文字信息，确定第一文字和第二文字之间的信息匹配度。

其中，当相似文字的类型为形近字时，第一文字的第一文字信息和第二文字的第二文字信息可以是文字的字形结构信息。该字形结构信息可以是指对文字进行拆分后所得到的构字元素集合，该构字元素集合中的多个构字元素构成一个文字。例如，文字为“维”，拆分后得到的构字元素集合为“纟、隹”。

因此，基于第一文字信息和第二文字信息确定信息匹配度可以是，确定第一文字的构字元素集合和第二文字的构字元素集合之间的相同构字元素，从第一文字的构字元素集合所包含的构字元素的数量和第二文字的构字元素集合所包含的构字元素的数量中获取最小数量，将相同构字元素的数量与最小数量的比值作为第一参考数值；若第一参考数值大于参考阈值，则将第一文字和第二文字之间的信息匹配度确定为第一匹配度；若第一参考数值小于或等于参考阈值，则将第一文字和第二文字之间的信息匹配度确定为第二匹配度。其中，第一匹配度用于指示第一文字和第二文字互为形近字，比如为1。第二匹配度用于指示第一文字和第二文字不为形近字，比如为0。

其中，当相似文字的类型为同音字时，第一文字的第一文字信息和第二文字的第二文字信息可以是文字的声形结构信息。该声形结构信息可以是指对文字的拼音信息。例如，文字为“维”，拼音信息为“wei”。

因此，基于第一文字信息和第二文字信息确定信息匹配度可以是，确定第一文字的拼音信息和第二文字的拼音信息之间的拼音编辑距离；若拼音编辑距离大于编辑距离阈值，则将第一文字和第二文字之间的信息匹配度确定为第一匹配度；若拼音编辑距离小于或等于编辑距离阈值，则将第一文字和第二文字之间的信息匹配度确定为第二匹配度。其中，第一匹配度用于指示第一文字和第二文字互为同音字，比如为1。第二匹配度用于指示第一文字和第二文字不为同音字，比如为0。

S104、在基于第一文字和第二文字之间的信息匹配度，确定第一文字和第二文字互为相似文字时，通过第一文字和第二文字构建与信息查询行为相关联的相似文字字典。

可以理解，当第一文字和第二文字之间的信息匹配度指示第一文字和第二文字互为相似文字时，可以将第一文字和第二文字添加到相似文字字典中。比如，在判断第一文字和第二文字是否互为形近字时，若信息匹配度为第一匹配度，则确定第一文字和第二文字互为形近字；若信息匹配度为第二匹配度，则确定第一文字和第二文字不是互为形近字。又如在判断第一文字和第二文字是否互为同音字时，若信息匹配度为第一匹配度，则确定第一文字和第二文字互为同音字；若信息匹配度为第二匹配度，则确定第一文字和第二文字不是互为同音字。

其中，该相似文字字典中记录有第一文字和第二文字之间的相似文字对应关系。可以理解，当第一文字和第二文字为形近字时，所构建得到的相似文字字典为形近字字典，可用于进行形近字纠错。当第一文字和第二文字为同音字时，所构建得到的相似文字字典为同音字字典，可用于进行同音字纠错。后续，在查询搜索场景中，进行查询信息纠错时，可以使用该相似文字字典，为查询服务提供了更精准的查询结果。

可选地，用户在进行信息查询时，可以输入查询信息(如目标查询文本)，电子设备在通过目标查询文本进行信息查询时，可以先对目标查询文本进行文本纠错处理，再进行信息查询。或者，也可以是对目标查询文本进行信息查询，在所获取的召回信息小于指定数量时，表示可能存在信息输入错误的情况，则可以对其进行文本纠错处理，再进行信息查询。

因此，可以是，电子设备可以获取目标查询文本；基于相似文字字典，对目标查询文本进行文本纠错处理，得到纠正查询文本；纠正查询文本用于进行针对目标查询文本的信息查询。即通过纠正查询文本进行信息查询。这样可以提升信息查询效果。例如，在商品查询中，可以更准确的查询出与目标查询文本相关联的商品信息，从而可以提升商品转化率和查询体验等等。

比如，在获取到用户输入的查询信息时，对查询信息进行错误文字识别，如通过预训练的形近字识别模型，得到查询信息中包含的错误文字，该错误文字为可能存在形近字错误的文字，并在形近字字典中查找该识别出的错误文字对应的形近字，以作为候选纠正文字，基于候选纠正文字对查询信息中的错误文字进行纠正，得到纠正后的查询信息，并对纠正后的查询信息进行错误文字识别，在确定纠正后的查询信息不包含错误文字时，将纠正后的查询信息确定为正确查询信息(纠正查询文本)，并重新基于该正确查询信息进行查询搜索服务。

基于上述的描述，本申请实施例提出了一种文本处理方法，该方法可以由上述提及的电子设备来执行。请参见图5，图5为本申请实施例提供的一种文本处理方法的流程示意图。

如图5所示，本申请实施例的文本处理方法的流程可以包括如下：

S201、获取与信息查询行为相关联的查询文本对。

S202、对第一文字集和第二文字集进行字对齐处理，得到第一文字集和第二文字集之间的字对齐区间。其中，步骤S201-S202的具体实施方式可以参见上述实施例的相关描述，在此不做赘述。

S203、获取第一文字的第一文字信息和第二文字的第二文字信息，并基于第一文字信息和第二文字信息确定第一文字和第二文字之间的文字关联信息。

其中，第一文字信息可以包括以下至少一项：第一文字的第一字形结构信息、第一声形结构信息、第一转换图像信息。第二文字信息包括：第二文字的第二字形结构信息、第二声形结构信息、第二转换图像信息。

可选地，以第一字形结构信息为例，可以包括以下至少一种：对第一文字进行文字拆分后所得到的构字元素集合、第一文字的字体结构(比如上下结构、左右结构等等)、第一文字的偏旁部首结构、第一文字的四角编码信息、第一字形结构信息的笔画数等。

可选地，以第一声形结构信息为例，可以包括以下至少一种：第一文字的拼音信息、第一文字的音调信息等。

可选地，以第一转换图像信息为例，可以是指对第一文字进行图像转换后得到的文字图像。比如，对第一文字生成k*k(比如为64)的二维像素矩阵，将二维像素矩阵确定为第一转换图像信息。

其中，当第一文字信息包括第一字形结构信息、第二文字信息包括第二字形结构信息时，文字关联信息可以包括由第一字形结构信息和第二字形结构信息所确定的关联字形结构信息。

可选地，当第一字形结构信息包括第一文字的构字元素集合、第一字形结构信息包括第二文字的构字元素集合时，关联字形结构信息可以通过第一文字的构字元素集合和第二文字的构字元素集合之间的相同构字元素集合确定。比如，可以是，从第一文字的构字元素集合所包含的构字元素的数量和第二文字的构字元素集合所包含的构字元素的数量中获取最小数量，将相同构字元素的数量与最小数量的比值确定为构字元素集合对应的关联字形结构信息。或者，当前述比值大于比值阈值时，将第一数值(比如为1)作为构字元素集合对应的关联字形结构信息；当前述比值小于或等于比值阈值时，将第二数值(比如为0)作为构字元素集合对应的关联字形结构信息。

可选地，当第一字形结构信息包括第一文字的字体结构、第一字形结构信息包括第二文字的字体结构时，当第一文字的字体结构与第二文字的字体结构相同时，将第一数值(比如为1)作为字体结构对应的关联字形结构信息；当前述比值小于或等于比值阈值时，将第二数值(比如为0)作为字体结构对应的关联字形结构信息。

可选地，当第一字形结构信息包括第一文字的偏旁部首结构、第一字形结构信息包括第二文字的偏旁部首结构时，当第一文字的偏旁部首结构与第二文字的偏旁部首结构相同时，将第一数值(比如为1)作为偏旁部首结构对应的关联字形结构信息；当前述比值小于或等于比值阈值时，将第二数值(比如为0)作为偏旁部首结构对应的关联字形结构信息。

可选地，当第一字形结构信息包括第一文字的四角编码信息、第一字形结构信息包括第二文字的四角编码信息时，当第一文字的四角编码信息与第二文字的四角编码信息相同时，将第一数值(比如为1)作为四角编码信息对应的关联字形结构信息；当前比值小于或等于比值阈值时，将第二数值(比如为0)作为四角编码信息对应的关联字形结构信息。

可选地，当第一字形结构信息包括第一文字的笔画数、第一字形结构信息包括第二文字的笔画数时，文字关联信息可以通过第一文字的笔画数和第二文字的笔画数之间的笔画数差值确定。比如，可以是，将笔画数差值确定为笔画数对应的关联字形结构信息。或者，当前述笔画数差值小于差值阈值时，将第一数值(比如为1)作为笔画数对应的关联字形结构信息；当前述笔画数差值大于或等于差值阈值时，将第二数值(比如为0)作为笔画数对应的关联字形结构信息。

可选地，当第一字形结构信息包括第一文字的构字元素集合、第一字形结构信息包括第二文字的构字元素集合时，文字关联信息可以通过第一文字的构字元素集合和第二文字的构字元素集合确定。比如，当第一文字的构字元素集合属于第二文字的构字元素集合、或者第二文字的构字元素集合属于第一文字的构字元素集合时，表示第一文字和第二文字之间具有文字包含关系，比如第一文字的构字元素集合包括“扁”、第二文字的构字元素集合包括“纟、扁”，因此第一文字的构字元素集合属于第二文字的构字元素集合，因此第一文字和第二文字之间具有包含关系，即第二文字包含第一文字，可以将用于指示具有文字包含关系的指示信息(比如为1)确定为文字关系对应的关联字形结构信息。或者，当第一文字的构字元素集合不属于第二文字的构字元素集合、以及者第二文字的构字元素集合不属于第一文字的构字元素集合时，表示第一文字和第二文字之间不具有文字包含关系，可以将用于指示不具有文字包含关系的指示信息(比如为0)确定为文字关系对应的关联字形结构信息。

由此，可以通过上述方式可以一种或多种不同维度的关联字形结构信息。

其中，当第一文字信息包括第一声形结构信息、第二文字信息包括第二声形结构信息时，文字关联信息可以包括由第一声形结构信息和第二声形结构信息所确定的关联声形结构信息。

可选地，当第一声形结构信息包括第一文字的拼音信息、第二声形结构信息包括第二文字的拼音信息时，关联字形结构信息可以通过第一文字的拼音信息和第二文字的拼音信息确定。比如，可以是，获取第一文字的拼音信息和第二文字的拼音信息之间的拼音编辑距离，将该拼音编辑距离确定为拼音信息对应的关联字形结构信息。或者，当前述拼音编辑距离大于编辑距离阈值时，将第一数值(比如为1)作为拼音信息对应的关联字形结构信息；当前述拼音编辑距离小于或等于编辑距离阈值时，将第二数值(比如为0)作为拼音信息对应的关联字形结构信息。

可选地，当第一字形结构信息包括第一文字的音调信息、第一字形结构信息包括第二文字的音调信息时，当第一文字的音调信息与第二文字的音调信息相同时，将第一数值(比如为1)作为音调信息对应的关联声形结构信息；当第一文字的音调信息与第二文字的音调信息不同时，将第二数值(比如为0)作为音调信息对应的关联声形结构信息。

由此，可以通过上述方式可以一种或多种不同维度的关联声形结构信息。

其中，当第一文字信息包括第一转换图像信息、第二文字信息包括第二转换图像信息时，文字关联信息可以包括由第一转换图像信息和第二转换图像信息所确定的关联转换图像信息。比如，可以是提取第一文字的文字图像的第一图像特征，以及提取第二文字的文字图像的第二图像特征，并将第一图像特征和第二图像特征之间的特征相似度确定为关联转换图像信息。

S204、基于第一文字信息、第二文字信息和文字关联信息，确定第一文字和第二文字之间的信息匹配度。

其中，确定第一文字和第二文字之间的信息匹配度可以是，基于第一文字信息、第二文字信息，和文字关联信息，确定第一文字和第二文字之间的文字整合特征；基于文字整合特征确定第一文字和第二文字之间的信息匹配度。

其中，可以确定由第一文字信息、第二文字信息，和文字关联信息所构成的信息特征序列，并基于该信息特征序列确定文字整合特征。比如，将信息序列作为文字整合特征。或者，将信息序列进行归一化后的序列作为文字整合特征。在此不做限定。

例如，第一文字信息包括第一字形结构信息、第一声形结构信息、第一转换图像信息；第二文字信息包括第二字形结构信息、第二声形结构信息、第二转换图像信息；文字关联信息包括关联字形结构信息、关联声形结构信息，和关联转换图像信息；可以是，获取由第一字形结构信息、第一声形结构信息、第一转换图像信息、第二字形结构信息、第二声形结构信息、第二转换图像信息、关联字形结构信息、关联声形结构信息，和关联转换图像信息所确定的信息特征序列，以确定第一文字和第二文字之间的文字整合特征。

比如，可以是将第一字形结构信息、第一声形结构信息、第一转换图像信息、第二字形结构信息、第二声形结构信息、第二转换图像信息、关联字形结构信息、关联声形结构信息，和关联转换图像信息中的全部或部分维度的信息(例如可以是第一字形结构信息中的全部或者部分信息，该部分信息可以是第一字形结构信息中的一些指定维度的信息，或者也可以是不从第一字形结构信息中选取任一维度的信息用于构成目标信息，比如在确定第一文字和第二文字是否为形近字时，可以不选取第一声形结构信息中的任意信息；或者，在确定第一文字和第二文字是否为同音字时，可以不选取第一字形结构信息中的任意信息，其余信息同理)确定为用于构成信息特征序列的目标信息，并将目标信息构成的序列确定为信息特征序列。该具体可由相关业务人员设置，在此不作限定。

例如，第一字形结构信息包括第一文字的构字元素集合、字体结构、偏旁部首结构、四角编码信息和笔画数；第二字形结构信息包括第二文字的构字元素集合、字体结构、偏旁部首结构、四角编码信息和笔画数；第一声形结构信息包括第一文字的拼音信息、音调信息；第二声形结构信息包括第二文字的拼音信息、音调信息；第一文字信息包括第一转换图像信息、第二文字信息包括第二转换图像信息；文字关联信息中的关联字形结构信息包括构字元素集合对应的关联字形结构信息、字体结构对应的关联字形结构信息、偏旁部首结构对应的关联字形结构信息、四角编码信息对应的关联字形结构信息、笔画数对应的关联字形结构信息、文字关系对应的关联字形结构信息；文字关联信息中的关联声形结构信息包括拼音信息对应的关联字形结构信息、音调信息对应的关联声形结构信息；文字关联信息还包括关联转换图像信息；比如，从第一字形结构信息中获取到的目标信息1可以是第一文字的字体结构、偏旁部首结构、四角编码信息；从第二字形结构信息中获取到的目标信息2可以是第二文字的字体结构、偏旁部首结构、四角编码信息；从文字关联信息中获取到的目标信息3可以是构字元素集合对应的关联字形结构信息、笔画数对应的关联字形结构信息、文字关系对应的关联字形结构信息、拼音信息对应的关联字形结构信息、音调信息对应的关联声形结构信息、关联转换图像信息；因此可以将目标信息1、目标信息2、目标信息3依次构成的序列作为信息特征序列。

其中，可以通过训练好的模型基于文字整合特征进行预测，得到第一文字和第二文字之间的信息匹配度。例如，可以是，获取与信息匹配度相关联的文字信息处理模型；将文字整合特征输入文字信息处理模型，由文字信息处理模型基于文字整合特征进行预测，得到第一文字和第二文字之间的信息匹配度。

其中，文字信息处理模型可以是任何结构的神经网络模型，比如可以是XGBoost模型(极端梯度提升树模型)。该文字信息处理模型包括至少一个用于作为分类器的决策树。在基于文字整合特征进行预测时，可以是，由文字信息处理模型对文字整合特征进行特征划分，预测得到在至少一个决策树上所划分出的叶子节点，这样可以基于在至少一个决策树上所划分出的叶子节点对应的节点参数，确定第一文字和第二文字之间的信息匹配度。比如将所划分出的叶子节点对应的节点参数的参数值之和(或者平均参数值)作为信息匹配度。

其中，当文字信息处理模型是极端梯度提升树模型时，获取文字信息处理模型可以是：获取待训练的初始处理模型，并获取用于训练初始处理模型的训练样本数据对；初始处理模型包括待训练的至少一个决策树；训练样本数据对包括第一样本文字和第二样本文字；获取第一样本文字的第一样本文字信息以及第二样本文字的第二样本文字信息，并基于第一样本文字信息和第二样本文字信息确定第一样本文字和第二样本文字之间的样本文字关联信息；基于第一样本文字信息、第二样本文字信息，和样本文字关联信息，确定第一样本文字和第二样本文字之间的样本文字整合特征，将样本文字整合特征输入初始处理模型，由初始处理模型对样本文字整合特征进行特征划分，预测得到在待训练的至少一个决策树上所划分出的叶子节点；基于在待训练的至少一个决策树上所划分出的叶子节点对应的节点参数，确定第一样本文字和第二样本文字之间的样本信息匹配度；基于样本信息匹配度训练初始处理模型，得到训练后的目标处理模型，并将目标处理模型确定为文字信息处理模型；目标处理模型包括训练后的至少一个决策树。其中，训练样本数据对被标注有信息匹配度标签，可以通过样本信息匹配度和信息匹配度标签确定针对初始处理模型的预测偏差，并利用该预测偏差训练初始处理模型，直至模型收敛。

可选地，也可以是直接将第一字形结构信息、第一声形结构信息、第一转换图像信息、第二字形结构信息、第二声形结构信息、第二转换图像信息、关联字形结构信息、关联声形结构信息中的部分或全部信息(比如上述示例的目标信息1-3)直接输入文字信息处理模型，得到信息匹配度。

因此，可以通过比对第一文字和第二文字之间的声形结构和字形结构等实现形近字的判别和挖掘，通过查询检索记录作为形近字挖掘数据源，最终实现精准、全面、符合下游应用场景的形近字字典构建。

S205、在基于第一文字和第二文字之间的信息匹配度，确定第一文字和第二文字互为相似文字时，通过第一文字和第二文字构建与信息查询行为相关联的相似文字字典。

可以理解，当第一文字和第二文字之间的信息匹配度指示第一文字和第二文字互为相似文字时，可以将第一文字和第二文字添加到相似文字字典中。比如，在判断第一文字和第二文字是否互为形近字时，若信息匹配度大于或等于第一匹配度阈值，则确定第一文字和第二文字互为形近字；若信息匹配度小于第一匹配度阈值，则确定第一文字和第二文字不是互为形近字。又如在判断第一文字和第二文字是否互为同音字时，若信息匹配度大于或等于第二匹配度阈值，则确定第一文字和第二文字互为同音字；若信息匹配度小于第二匹配度阈值，则确定第一文字和第二文字不是互为同音字。

可选地，上述是以与信息查询行为相关联的查询文本对作为数据源确定相似文字字典，还可以以汉字字典作为数据源构建相似文字字典，以作为相似文字字典对应的相似文字扩展字典。这样，在通过相似文字字典进行相似文字匹配后，还可以通过相似文字扩展字典进行相似文字匹配。例如，当未从查询文本对对应的形近文字字典中匹配到查询词中的形近字时，可以从该形近文扩展字典继续进行匹配，以确定查询词中可能存在的形近字。例如，可以从汉字字典中获取待进行相似文字判断的两个文字，并按照上述确定该两个文字是否形近字。例如，从汉字字典中获取字形结构(如偏旁部首)相同的汉字，并两两组合成相似字对，或者，从汉字字典中获取声形结构(如声母或者韵母)相同的汉字并两两组合成相似字对，按照上述方式确定相似字对中两个汉字之间的信息匹配度，以进一步确定这两个汉字是否互为相似文字，从而可以构建相似文字扩展字典。

因此，可以是：获取汉字字典，从汉字字典中获取第三文字以及与第三文字疑似相似的第四文字；获取第三文字的第三文字信息和第四文字的第四文字信息，并基于第三文字信息和第四文字信息，确定第三文字和第四文字之间的信息匹配度；在基于第三文字和第四文字之间的信息匹配度，确定第三文字和第四文字互为相似文字时，通过第三文字和第四文字构建相似文字字典对应的相似文字扩展字典。可选地，在构建相似文字扩展字典后，可以基于相似文字字典对相似文字扩展字典进行去重，即将相似文字扩展字典所包含的相似文字，从相似文字扩展字典中删除，将相似文字扩展字典中的相似文字作为一个相似文字补充。

其中，可以从汉字字典中确定相似字对，判断该相似字对中的两个文字是否为相似文字。该相似字对中的两个文字为第三文字和第四文字，第三文字和第四文字互为疑似相似的文字。确定第三文字和第四文字是否互为相似文字的具体方式与确定第一文字和第二文字是否互为相似文字的具体方式相同，具体可以参见上述相关描述，在此不再赘述。

请参见图6，图6为本申请实施例提供的一种文本处理装置的结构示意图。需要说明的是，图6所示的文本处理装置，用于执行本申请图2和图5所示实施例的方法，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示，经参照本申请图2和图5所示的实施例。该文本处理装置600可包括：获取模块601、处理模块602。其中：

获取模块601，用于获取与信息查询行为相关联的查询文本对；查询文本对包括第一查询文本和第二查询文本；第一查询文本包括的文字用于构成第一文字集；第二查询文本包括的文字用于构成第二文字集；

处理模块602，用于对第一文字集和第二文字集进行字对齐处理，得到第一文字集和第二文字集之间的字对齐区间；字对齐区间在第一文字集中对应的文字集为第一文字子集，字对齐区间在第二文字集中对应的文字集为第二文字子集，且第一文字子集包括的第一文字与第二文字子集包括的第二文字之间对齐；

处理模块602，还用于获取第一文字的第一文字信息和第二文字的第二文字信息，并基于第一文字信息和第二文字信息，确定第一文字和第二文字之间的信息匹配度；

处理模块602，还用于在基于第一文字和第二文字之间的信息匹配度，确定第一文字和第二文字互为相似文字时，通过第一文字和第二文字构建与信息查询行为相关联的相似文字字典。

其中，获取模块601在用于获取与信息查询行为相关联的查询文本对时，具体用于：

获取业务对象在两次信息查询行为中所录入的查询信息；两次信息查询行为是连续的查询行为，且行为发生时间的时间间隔小于时间间隔阈值；

基于在两次信息查询行为中所录入的查询信息，得到查询文本对。

获取在信息查询行为中针对所录入的查询信息，业务对象的信息交互行为；

基于在信息查询行为中所录入的查询信息，以及在信息交互行为中所产生交互的召回信息，得到查询文本对。

其中，第一文字集包括N1个文字；N1个文字包括第i1个文字和第j1个文字；N1为大于1的正整数；i1小于j1，且i1为小于N1的正整数，j1为小于或等于N1的正整数；第二文字集包括N2个文字；N2个文字包括第i2个文字和第j2个文字；i2小于j2，且i2为小于N2的正整数，j2为小于或等于N2的正整数；N2为大于1的正整数；

处理模块602在用于对第一文字集和第二文字集进行字对齐处理，得到第一文字集和第二文字集之间的字对齐区间时，具体用于：

在N2个文字中查找与第i1个文字相同的文字；

若查找到的与第i1个文字相同的文字为第i2个文字，则将第i1个文字确定为第一对齐文字，且从N2个文字中获取在第i2个文字之后的至少一个文字；

在至少一个文字中查找与第j1个文字相同的文字；

若查找到的与第j1个文字相同的文字为第j2个文字，则将第j1个文字确定为第二对齐文字；

基于第一对齐文字和第二对齐文字确定对齐文字集；对齐文字集包括B个对齐文字，B个对齐文字包括第b个对齐文字和第b+1个对齐文字；B为正整数；b为小于B的正整数；

获取由N1个文字中位于第b个对齐文字和第b+1个对齐文字之间的文字集所构成的第一区间，以及获取由N2个文字中位于第b个对齐文字和第b+1个对齐文字之间的文字集所构成的第二区间；第一区间对应的文字集中的文字与第二区间对应的文字集中的文字不同；

在基于第一区间和第二区间得到字对齐区间时，将第一区间对应的文字集作为第一文字子集，且将第二区间对应的文字集作为第二文字子集。

其中，处理模块602在用于基于第一文字信息和第二文字信息，确定第一文字和第二文字之间的信息匹配度时，具体用于：

基于第一文字信息和第二文字信息确定第一文字和第二文字之间的文字关联信息；

基于第一文字信息、第二文字信息，和文字关联信息，确定第一文字和第二文字之间的文字整合特征；

基于文字整合特征确定第一文字和第二文字之间的信息匹配度。

其中，第一文字信息包括：第一文字的第一字形结构信息、第一声形结构信息、第一转换图像信息；第二文字信息包括：第二文字的第二字形结构信息、第二声形结构信息、第二转换图像信息；文字关联信息包括：由第一字形结构信息和第二声形结构信息所确定的关联字形结构信息、由第一声形结构信息和第二声形结构信息所确定的关联声形结构信息、由第一转换图像信息和第二转换图像信息所确定的关联转换图像信息；

处理模块602在用于基于第一文字信息、第二文字信息，和文字关联信息，确定第一文字和第二文字之间的文字整合特征时，具体用于：

获取由第一字形结构信息、第一声形结构信息、第一转换图像信息、第二字形结构信息、第二声形结构信息、第二转换图像信息、关联字形结构信息、关联声形结构信息，和关联转换图像信息所确定的信息特征序列；

基于信息特征序列，确定第一文字和第二文字之间的文字整合特征。

其中，处理模块602在用于基于文字整合特征确定第一文字和第二文字之间的信息匹配度时，具体用于：

获取文字信息处理模型；文字信息处理模型包括至少一个决策树；

将文字整合特征输入文字信息处理模型，由文字信息处理模型对文字整合特征进行特征划分，预测得到在至少一个决策树上所划分出的叶子节点；

基于在至少一个决策树上所划分出的叶子节点对应的节点参数，确定第一文字和第二文字之间的信息匹配度。

其中，处理模块602还用于：

获取汉字字典，从汉字字典中获取第三文字以及与第三文字疑似相似的第四文字；

获取第三文字的第三文字信息和第四文字的第四文字信息，并基于第三文字信息和第四文字信息，确定第三文字和第四文字之间的信息匹配度；

在基于第三文字和第四文字之间的信息匹配度，确定第三文字和第四文字互为相似文字时，通过第三文字和第四文字构建相似文字字典对应的相似文字扩展字典。

其中，处理模块602还用于：

获取目标查询文本；

基于相似文字字典，对目标查询文本进行文本纠错处理，得到纠正查询文本；纠正查询文本用于进行针对目标查询文本的信息查询。

其中，获取模块和处理模块的具体实现方式，可以参见上述实施例的描述，这里将不再继续进行赘述。应当理解，对采用相同方法所得到的有益效果描述，也不再进行赘述。

请参见图7，图7为本申请实施例提供的一种电子设备的结构示意图。如图7所示，该电子设备700包括：至少一个处理器701、存储器702。可选的，该电子设备还可包括网络接口。其中，处理器701、存储器702以及网络接口之间可以交互数据，网络接口受处理器701的控制用于收发消息，存储器702用于存储计算机程序，计算机程序包括程序指令，处理器701用于执行存储器702存储的程序指令。其中，处理器701被配置用于调用程序指令执行上述方法。

存储器702可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器702也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；存储器702还可以包括上述种类的存储器的组合。

处理器701可以是中央处理器(central processing unit，CPU)。在一个实施例中，处理器701还可以是图形处理器(Graphics Processing Unit，GPU)。处理器701也可以是由CPU和GPU的组合。处理器701可以用于调用存储器702中存储的设备控制应用程序，以执行上述图2和图5所对应实施例中对文本处理方法的描述，还可以执行前文图6所对应实施例中对文本处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

具体实现中，本申请实施例中所描述的装置、处理器、存储器等可执行上述方法实施例所描述的实现方式，也可执行本申请实施例所描述的实现方式，在此不再赘述。

本申请实施例中还提供一种计算机(可读)存储介质，计算机存储介质存储有计算机程序，计算机程序包括程序指令，程序指令被处理器执行时，使处理器可执行上述方法实施例中所执行的部分或全部步骤。可选的，该计算机存储介质可以是易失性的，也可以是非易失性的。该计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请实施例提供了一种计算机程序产品，该计算机程序产品可包括计算机程序，计算机程序被处理器执行时可实现上述方法中的部分或全部步骤，此处不赘述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于计算机存储介质中，该计算机存储介质可以为计算机可读存储介质，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于本申请所涵盖的范围。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

获取与信息查询行为相关联的查询文本对；所述查询文本对包括第一查询文本和第二查询文本；所述第一查询文本包括的文字用于构成第一文字集；所述第二查询文本包括的文字用于构成第二文字集；

对所述第一文字集和所述第二文字集进行字对齐处理，得到所述第一文字集和所述第二文字集之间的字对齐区间；所述字对齐区间在所述第一文字集中对应的文字集为第一文字子集，所述字对齐区间在所述第二文字集中对应的文字集为第二文字子集，且所述第一文字子集包括的第一文字与所述第二文字子集包括的第二文字之间对齐；

获取所述第一文字的第一文字信息和所述第二文字的第二文字信息，并基于所述第一文字信息和所述第二文字信息，确定所述第一文字和所述第二文字之间的信息匹配度；

在基于所述第一文字和所述第二文字之间的信息匹配度，确定所述第一文字和所述第二文字互为相似文字时，通过所述第一文字和所述第二文字构建与所述信息查询行为相关联的相似文字字典。

2.根据权利要求1所述的方法，其特征在于，所述获取与信息查询行为相关联的查询文本对，包括：

获取业务对象在两次所述信息查询行为中所录入的查询信息；两次所述信息查询行为是连续的查询行为，且行为发生时间的时间间隔小于时间间隔阈值；

基于在两次所述信息查询行为中所录入的查询信息，得到所述查询文本对。

3.根据权利要求1所述的方法，其特征在于，所述获取与信息查询行为相关联的查询文本对，包括：

获取在所述信息查询行为中针对所录入的查询信息，业务对象的信息交互行为；

基于在所述信息查询行为中所录入的查询信息，以及在所述信息交互行为中所产生交互的召回信息，得到所述查询文本对。

4.根据权利要求1所述的方法，其特征在于，所述第一文字集包括N1个文字；所述N1个文字包括第i 1个文字和第j1个文字；N1为大于1的正整数；i 1小于j1，且i 1为小于N1的正整数，j1为小于或等于N1的正整数；所述第二文字集包括N2个文字；所述N2个文字包括第i2个文字和第j2个文字；i2小于j2，且i2为小于N2的正整数，j2为小于或等于N2的正整数；N2为大于1的正整数；

所述对所述第一文字集和所述第二文字集进行字对齐处理，得到所述第一文字集和所述第二文字集之间的字对齐区间，包括：

在所述N2个文字中查找与所述第i 1个文字相同的文字；

若查找到的与所述第i 1个文字相同的文字为所述第i2个文字，则将所述第i 1个文字确定为第一对齐文字，且从所述N2个文字中获取在所述第i2个文字之后的至少一个文字；

在所述至少一个文字中查找与所述第j1个文字相同的文字；

若查找到的与所述第j1个文字相同的文字为所述第j2个文字，则将所述第j1个文字确定为第二对齐文字；

基于第一对齐文字和第二对齐文字确定对齐文字集；所述对齐文字集包括B个对齐文字，所述B个对齐文字包括第b个对齐文字和第b+1个对齐文字；B为正整数；b为小于B的正整数；

获取由所述N1个文字中位于所述第b个对齐文字和所述第b+1个对齐文字之间的文字集所构成的第一区间，以及获取由所述N2个文字中位于所述第b个对齐文字和所述第b+1个对齐文字之间的文字集所构成的第二区间；所述第一区间对应的文字集中的文字与所述第二区间对应的文字集中的文字不同；

在基于所述第一区间和所述第二区间得到所述字对齐区间时，将所述第一区间对应的文字集作为所述第一文字子集，且将所述第二区间对应的文字集作为所述第二文字子集。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一文字信息和所述第二文字信息，确定所述第一文字和所述第二文字之间的信息匹配度，包括：

基于所述第一文字信息和所述第二文字信息确定所述第一文字和所述第二文字之间的文字关联信息；

基于所述第一文字信息、所述第二文字信息，和所述文字关联信息，确定所述第一文字和所述第二文字之间的文字整合特征；

基于所述文字整合特征确定所述第一文字和所述第二文字之间的信息匹配度。

6.根据权利要求5所述的方法，其特征在于，所述第一文字信息包括：所述第一文字的第一字形结构信息、第一声形结构信息、第一转换图像信息；所述第二文字信息包括：所述第二文字的第二字形结构信息、第二声形结构信息、第二转换图像信息；所述文字关联信息包括：由所述第一字形结构信息和所述第二字形结构信息所确定的关联字形结构信息、由所述第一声形结构信息和所述第二声形结构信息所确定的关联声形结构信息、由所述第一转换图像信息和所述第二转换图像信息所确定的关联转换图像信息；

所述基于所述第一文字信息、所述第二文字信息，和所述文字关联信息，确定所述第一文字和所述第二文字之间的文字整合特征，包括：

获取由所述第一字形结构信息、所述第一声形结构信息、所述第一转换图像信息、所述第二字形结构信息、所述第二声形结构信息、所述第二转换图像信息、所述关联字形结构信息、所述关联声形结构信息，和所述关联转换图像信息所确定的信息特征序列；

基于所述信息特征序列，确定所述第一文字和所述第二文字之间的文字整合特征。

7.根据权利要求5所述的方法，其特征在于，所述基于所述文字整合特征确定所述第一文字和所述第二文字之间的信息匹配度，包括：

获取文字信息处理模型；所述文字信息处理模型包括至少一个决策树；

将所述文字整合特征输入所述文字信息处理模型，由所述文字信息处理模型对所述文字整合特征进行特征划分，预测得到在所述至少一个决策树上所划分出的叶子节点；

基于在所述至少一个决策树上所划分出的叶子节点对应的节点参数，确定所述第一文字和所述第二文字之间的信息匹配度。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取汉字字典，从所述汉字字典中获取第三文字以及与所述第三文字疑似相似的第四文字；

获取所述第三文字的第三文字信息和所述第四文字的第四文字信息，并基于所述第三文字信息和所述第四文字信息，确定所述第三文字和所述第四文字之间的信息匹配度；

在基于所述第三文字和所述第四文字之间的信息匹配度，确定所述第三文字和所述第四文字互为相似文字时，通过所述第三文字和所述第四文字构建所述相似文字字典对应的相似文字扩展字典。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标查询文本；

基于所述相似文字字典，对所述目标查询文本进行文本纠错处理，得到纠正查询文本；所述纠正查询文本用于进行针对所述目标查询文本的信息查询。

10.一种文本处理装置，其特征在于，所述装置包括：

获取模块，用于获取与信息查询行为相关联的查询文本对；所述查询文本对包括第一查询文本和第二查询文本；所述第一查询文本包括的文字用于构成第一文字集；所述第二查询文本包括的文字用于构成第二文字集；

处理模块，用于对所述第一文字集和所述第二文字集进行字对齐处理，得到所述第一文字集和所述第二文字集之间的字对齐区间；所述字对齐区间在所述第一文字集中对应的文字集为第一文字子集，所述字对齐区间在所述第二文字集中对应的文字集为第二文字子集，且所述第一文字子集包括的第一文字与所述第二文字子集包括的第二文字之间对齐；

所述处理模块，还用于获取所述第一文字的第一文字信息和所述第二文字的第二文字信息，并基于所述第一文字信息和所述第二文字信息，确定所述第一文字和所述第二文字之间的信息匹配度；

所述处理模块，还用于在基于所述第一文字和所述第二文字之间的信息匹配度，确定所述第一文字和所述第二文字互为相似文字时，通过所述第一文字和所述第二文字构建与所述信息查询行为相关联的相似文字字典。

11.一种电子设备，其特征在于，包括处理器和存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-9任一项所述的方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令被处理器执行时实现如权利要求1-9任一项所述的方法。