CN114386423B

CN114386423B - 文本去重方法和装置、电子设备、存储介质

Info

Publication number: CN114386423B
Application number: CN202210056358.0A
Authority: CN
Inventors: 罗圣西; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2023-07-14
Anticipated expiration: 2042-01-18
Also published as: CN114386423A

Abstract

本发明实施例提供文本去重方法和装置、电子设备、存储介质，涉及人工智能技术领域。该文本去重方法，包括：通过获取待去重文本，利用预设实体词语列表根据待去重文本生成实体词语编号文本，根据实体词语编号文本生成字符片段列表，对字符片段列表进行去重操作，得到第一结果列表，根据第一结果列表生成去重结果信息。本实施例考虑到待去重文本中出现包含重复字符的实体词语的情况，在不影响其他字符去重效果的基础上，避免去重时将实体词语中的重复字符也去除导致口语意图识别效果不佳，能够更准确地获取意图识别信息，提高口语意图识别的鲁棒性以及可扩展性。

Description

文本去重方法和装置、电子设备、存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及文本去重方法和装置、电子设备和存储介质。

背景技术

近几年来，随着人工智能技术在语音信号处理领域的突破，语音识别取得了突飞猛进的发展，将语音识别为文本序列以进行后续处理，比如语音输入法、语音助手、智能音箱、翻译机等已经有了较多应用。例如对话机器人是目前人工智能领域快速发展的一个研究方向，基于语音交互的任务型对话机器人在移动通讯、金融、政务等多个领域都得到了广泛应用。这类机器人的一个主要目的是对人类口语所表述的意图进行识别，相比于常规的书面文本，口语的一大特征是无意义重复的字符出现较多，为了保证意图识别效果，常常要对这类无意义重复的字符进行去重处理。

但相关技术中，文本去重功能多是基于对由语音转译成的文本进行分类，来达到识别意图的目的，很少考虑到特定实体名称的存在，如果不考虑这种实体的存在而进行统一的文本去重，则有可能破坏实体的表述，对后续意图识别造成负面影响，导致识别意图不准确。

发明内容

本发明实施例的主要目的在于提出一种文本去重方法和装置、电子设备和存储介质，能够更准确地获取意图识别信息，从而提高口语意图识别的鲁棒性以及可扩展性。

为实现上述目的，本发明实施例的第一方面提出了一种文本去重方法，包括：

获取待去重文本；

利用预设实体词语列表，根据所述待去重文本生成实体词语编号文本；

根据所述实体词语编号文本生成字符片段列表；

对所述字符片段列表进行去重操作，得到第一结果列表；

根据所述第一结果列表生成去重结果信息。

在一些实施例中，所述预设实体词语列表包含有至少一个实体词语；所述利用预设实体词语列表，根据所述待去重文本生成实体词语编号文本，包括：

在所述待去重文本中逐一查找所述预设实体词语列表中的实体词语；

若查找到所述实体词语，则获取预设替换字符；

将所述待去重文本中出现的所述实体词语替换为所述预设替换字符和替换词语编号，生成所述实体词语编号文本，所述预设替换字符和所述替换词语编号存储在编号词典列表中。

在一些实施例中，所述在所述待去重文本中逐一查找所述预设实体词语列表中对应的实体词语之前还包括：

预先训练实体词语提取模型，所述实体词语提取模型包括：自然语言处理模型；

根据口语意图识别应用场景利用所述实体词语模型生成所述预设实体词语列表，所述口语意图识别应用场景包括金融口语识别、移动通讯口语识别和政务口语识别中一种或多种。

在一些实施例中，所述根据所述实体词语编号文本生成字符片段列表，包括：

获取字符分段长度；

遍历所述实体词语编号文本，滑动截取对应于所述字符分段长度的字符片段；

根据所述字符片段得到所述字符片段列表。

在一些实施例中，所述对所述字符片段列表进行去重操作，得到第一结果列表，包括：

逐一将所述字符片段列表中得到的所述字符片段存储在结果列表中；

当存储次数大于所述字符分段长度时，判断当前字符片段与所述结果列表中已存储的字符片段是否相同；若相同，则保留当前字符片段到所述第一结果列表中；

删除所述结果列表中当前字符片段前与所述字符分段长度数量相同的字符片段，直至遍历所述字符片段列表结束，得到对应的第一结果列表。

在一些实施例中，所述根据所述第一结果列表生成去重结果信息，包括：

逐一获取所述第一结果列表中的预设替换字符；

根据所述编号词典列表中获取所述预设替换字符对应的实体词语；

将所述第一结果列表中所述预设替换字符替换为所述实体词语，生成所述去重结果信息。

在一些实施例中，所述根据所述第一结果列表生成去重结果信息之后，还包括：

将所述去重结果信息作为所述待去重文本；

逐次更新所述字符分段长度至预设字符分段长度；

得到所述预设字符分段长度对应的所述去重结果信息。

为实现上述目的，本发明的第二方面提出了一种文本去重装置，包括：

待去重文本获取模块，用于获取待去重文本；

实体词语编号文本生成模块，用于利用预设实体词语列表根据所述待去重文本生成实体词语编号文本；

字符片段列表生成模块，用于根据所述实体词语编号文本生成字符片段列表；

第一结果列表生成模块，用于对所述字符片段列表进行去重操作，得到第一结果列表；

去重结果信息生成模块，用于根据所述第一结果列表生成去重结果信息。

为实现上述目的，本发明的第三方面提出了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本发明如上述第一方面所述的方法。

为实现上述目的，本发明的第四方面提出了一种存储介质，该存储介质是计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如上述第一方面所述的方法。

本发明实施例提出的文本去重方法和装置、电子设备、存储介质，通过获取待去重文本，利用预设实体词语列表根据待去重文本生成实体词语编号文本，根据实体词语编号文本生成字符片段列表，对字符片段列表进行去重操作，得到第一结果列表，根据第一结果列表生成去重结果信息。本实施例考虑到待去重文本中出现包含重复字符的实体词语的情况，在不影响其他字符去重效果的基础上，利用预设实体词语列表对实体词语进行替换，避免去重时将实体词语中的重复字符也去除，导致得到的去重结果信息的识别效果不佳的问题，能够更准确地获取意图识别信息，从而提高口语意图识别的鲁棒性以及可扩展性。

附图说明

图1是本发明实施例提供的文本去重方法的流程图。

图2是本发明实施例提供的文本去重方法的又一流程图。

图3是本发明实施例提供的文本去重方法的又一流程图。

图4是本发明实施例提供的文本去重方法的又一流程图。

图5是本发明实施例提供的文本去重方法的又一流程图。

图6是本发明实施例提供的文本去重方法的又一流程图。

图7是本发明实施例提供的口语文本去重装置的结构框图。

图8是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

首先，对本申请中涉及的若干名词进行解析：

自然语言处理(Natural Language Processing,NLP)：自然语言处理，简单来说即是计算机接受用户自然语言形式的输入，并在内部通过人类所定义的算法进行加工、计算等系列操作，以模拟人类对自然语言的理解，并返回用户所期望的结果。

但相关技术中，文本去重功能多是基于对由语音转译成的文本进行分类，来达到识别意图的目的，很少考虑到特定实体名称的存在，例如在金融业务场景中，产品方经常推出一些比较新奇的产品名称，其中很多都包含重复字符，如果不考虑这种实体的存在而进行统一的文本去重，则有可能破坏实体的表述，对口语意图识别造成负面影响，导致口语识别意图不准确。

基于此，本发明实施例提供一种文本去重方法和装置、电子设备、存储介质，文本去重方法通过获取待去重口语文本，利用预设实体词语列表根据待去重口语文本生成实体词语编号文本，根据实体词语编号文本生成字符片段列表，对字符片段列表进行去重操作，得到第一结果列表，根据第一结果列表生成去重结果信息。本实施例考虑到待去重口语文本中出现包含重复字符的实体词语的情况，在不影响其他字符去重效果的基础上，避免去重时将实体词语中的重复字符也去除导致口语意图识别效果不佳，能够更准确地获取意图识别信息，提高口语意图识别的鲁棒性以及可扩展性。

本发明实施例提供文本去重方法和装置、电子设备、存储介质，具体通过如下实施例进行说明，首先描述本发明实施例中的文本去重方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供的文本去重方法，涉及人工智能技术领域，尤其涉及数据挖掘技术领域。本发明实施例提供的文本去重方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现文本去重方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

图1是本发明实施例提供的文本去重方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S101至步骤S105。

步骤S101，获取待去重文本。

在一实施例中，获取的是口语语音信息，因此待去重文本也可以是带去冲口语文本，然后对口语语音信息进行文本识别，生成待去重文本。例如在移动通讯、金融、政务等多个领域，利用语音输入法、语音助手、智能音箱、翻译机等方式获取口语语音信息，然后通过对口语语音信息进行文本识别得到待去重口语文本。

步骤S102，利用预设实体词语列表根据待去重文本生成实体词语编号文本。

在一实施例中，上述得到的待去重文本相比于常规的书面文本，口语的一大特征是无意义重复的字符出现较多，为了保证意图识别效果，常常要对这类无意义重复的字符进行去重处理。例如在金融业务场景中，产品方经常推出一些比较新奇的产品名称，其中很多都包含重复字符，因此如果不考虑特定实体名称的存在而进行统一的文本去重，则有可能破坏实体的表述，对口语意图识别造成负面影响，导致口语识别意图不准确。因此本实施例中需要考虑到特定实体名称。

在一实施例中，预设实体词语列表包括：实体词语和对应的词语顺序，即按照不同的应用领域生成对应的预设实体词语列表或者建立预设词语列表数据库，将不同应用领域下出现的实体词语进行汇总更新，并对每个实体词语在存储时对应不同的词语顺序，以便更方便的选取对应的实体词语。

在一实施例中，为了得到不同口语意图识别应用场景中对应的实体词语，一方面可以人工统计，另一方面可以利用机器学习的方法进行学习提取。本实施例以机器学习方式提取实体词语为例进行说明。参照图2，生成预设实体词语列表的步骤包括但不限于步骤S210至S220。

步骤S210，预先训练实体词语提取模型。

在一实施例中，构建实体词语提取模型，该实体词语提取模型是一种自然语言处理模型，能够实现包括：分词、词性标注、词干提取和命名实体识别等功能，通过大量训练样本对该实体词语提取模型进行训练，使得该实体语言提取模型能够识别并抽取文本中的实体词语。

步骤S220，根据口语意图识别应用场景利用实体词语模型生成预设实体词语列表。

在一实施例中，根据应用领域将口语意图识别应用场景分为：金融口语识别、移动通讯口语识别或政务口语识别，即不同的应用场景均对应实体词语，实体词语可能重叠也可能不同，根据对应实体词语的词语编号可以获取相应的实体词语。

在一实施例中，参照图3，步骤S102包括但不限于步骤S1021至S1022。

步骤S1021，在待去重文本中逐一查找预设实体词语列表中对应的实体词语。

在一实施例中，逐一将预设实体词语列表中每一个实体词语在待去重口语文本中进行查找，判断待去重口语文本中是否存在预设实体词语列表中的实体词语。

步骤S1022，若查找到实体词语，则获取预设替换字符，将待去重口语文本中出现的实体词语表示为预设替换字符和替换词语编号，生成实体词语编号文本。

在一实施例中，如果待去重口语文本中存在预设实体词语列表中的实体词语，则在待去重口语文本中将存在的实体词语用预设替换字符和替换词语编号的方式进行替换，生成实体词语编号文本，其中，预设替换字符和替换词语编号存储在编号词典列表中，编号词典列表中包含预设替换字符和实体词语之间的对应关系。

在一实施例中，预设替换字符可以是“#”、“*”或“％”等特殊字符，每个预设替换字符对应不同的替换词语编号存储与编号词典列表中，有了替换词语编号便于在编号词典列表中对预设替换字符进行查找。该实施例中，替换词语编号可以是实体词语在对应的预设实体词语列表中的词语顺序，例如，在待去重口语文本中查找到预设实体词语列表中第一个实体词语，则在待去重口语文本中将存在的实体词语用“#1”的方式进行替换，以此类推，若实体词语在预设实体词语列表中是第五个实体词语，则用“#5”的方式进行替换。可以理解的是，此处预设替换字符仅作示意，不做具体限定，可以根据实际需求设定便于替换的字符作为预设替换字符。

步骤S103，根据实体词语编号文本生成字符片段列表。

在一实施例中，由于重复字符有不同长度的情况，例如“我要我要”的重复字符是两个字的重复，“嗯嗯”是一个字的重复，因此本实施例考虑到重复字符的不同长度对待去重口语文本进行去重。

在一实施例中，参照图4，步骤S103包括但不限于步骤S1031至S1033。

步骤S1031，获取字符分段长度。

在一实施例中，字符片段长度从1开始到N，N表示预设的最大字符片段长度，其中N可以根据实际应用过程中的需求得到，字符片段长度表示重复字符的长度，例如“我要我要”的字符片段长度是2，“嗯嗯”的字符片段长度是1。

步骤S1032，遍历实体词语编号文本，滑动截取对应于字符分段长度的字符片段。

在一实施例中，根据不同的字符片段长度，在待去重口语文本中逐字符滑动劫取对应于字符分段长度的字符片段，例如“我要吃饭”，按照字符片段长度为1时，截取的字符片段为：“我”、“要”、“吃”和“饭”；当字符片段长度为2时，截取的字符片段为：“我要”、“要吃”和“吃饭”，以此类推，得到对应于字符分段长度的字符片段。

在一实施例中，如果待去重口语文本中存在被替换的实体词语，则将预设替换字符和替换词语编号作为一个整体进行截取，同时该整体的字符长度定为1，例如“今天”是一个预设实体词语列表中的第一个实体词语，则当待去重口语文本为：“我今天要吃饭”，经过步骤S102替换生成的实体词语编号文本为：“我#1要吃饭”，则当字符片段长度为2时，截取的字符片段为：“我#1”、“#1要”、“要吃”和“吃饭”。

步骤S1033，根据字符片段得到字符片段列表。

在一实施例中，将对应于字符分段长度的字符片段存储与对应的字符片段列表中，便于后续去重操作。

步骤S104，对字符片段列表进行去重操作，得到第一结果列表。

在一实施例中，对得到的字符片段列表进行去重操作，得到第一结果列表，具体是：根据字符分段长度，遍历字符片段列表，得到字符片段列表中重复的字符片段，然后去除对应的字符片段列表中重复的字符片段，得到对应的第一结果列表。

在一实施例中，参照图5，遍历去除对应的字符片段列表中重复的字符片段的步骤包括但不限于步骤S510至S530：

步骤S510，逐一将字符片段列表中得到的字符片段存储在结果列表中。

在一实施例中，对于字符片段长度为i的字符片段列表，首先遍历字符片段列表，逐一将每一个字符片段存储在结果列表中。

步骤S520，当存储次数大于字符分段长度时，判断当前字符片段与已存储的字符片段是否相同。

在一实施例中，当存储次数大于字符分段长度时，判断当前字符片段列表中的字符片段与结果列表中已存储的字符片段是否相同。

步骤S530，若当前字符片段与已存储的字符片段是否相同，则保留当前字符片段到第一结果列表中，并删除结果列表中当前字符片段前与字符分段长度数量相同的字符片段，直至遍历字符片段列表结束，得到对应的第一结果列表。

在一实施例中，当遍历个数刚好大于字符片段长度i时，判断当前字符片段列表中的字符片段是否与结果列表中已存储的相隔i之前的字符片段相同，如果相同，则代表当前字符片段已经有重复片段，就将当前字符片段以前i个字符全部从结果列表中移除而保留当前字符片段。

例如：待去重口语文本为：“我要我要”，当前的字符片段长度i＝2，则结果列表的存储的字符片段的过程分别是：

第一次遍历得到的结果列表为：“我要”；

第二次遍历得到的结果列表为：“我要”、“要我”；

第三次遍历得到的结果列表为：“我要”、“要我”、“我要”；

当结果列表变为第三次遍历时，判断当前字符片段列表中的字符片段“我要”与结果列表中已存储的相隔2之前的字符片段“我要”和“要我”相同，因此第三个字符片段“我要”和前2个字符片段之前的“我要”重复，因此删除结果列表中当前字符片段前与字符分段长度数量相同的字符片段，即结果列表中的前两项“我要”和“要我”需要从结果列表中删去，结果列表只保留一个“我要”，直至遍历字符片段列表结束，得到对应的第一结果列表。

步骤S105，根据第一结果列表生成去重结果信息。

在一实施例中，根据第一结果列表和对应的编号词典列表，生成字符分段长度对应的去重结果信息。

在一实施例中，首先根据第一结果列表得到的去重后的口语文本，具体的过程为：遍历第一结果列表中的每一个字符片段，如果是第一个字符片段，则将其直接作为初始字符序列，对后续的每一个字符片段，如果字符片段的倒数第二个字没有包含预设替换字符(例如“#1”)，即这个字符片段不是以实体词语结尾，则将其最后一个字拼接到当前已有字符序列后面；如果片段的倒数第二个字包含预设替换字符(例如“#1”)，则将预设替换字符加上其后的数字一起拼接到已有字符序列后面，遍历完第一结果列表后，即可得到一个新的去重后的口语文本，该口语文本已去除相应长度的重复字符。

在一实施例中，逐一获取第一结果列表中的预设替换字符，根据编号词典列表中保存的预设替换字符和实体词语之间的对应关系，获取预设替换字符对应的实体词语，然后将第一结果列表中预设替换字符替换为实体词语，生成字符分段长度对应的去重结果信息。即对上述根据第一结果列表得到的去重后的口语文本，根据编号词典列表中预设替换字符和替换词语编号之间的关系，将去重后的口语文本中预设替换字符替换为预设实体词语列表中对应的实体词语，从而得到字符分段长度对应的去重结果信息，完成去重操作。

另外，在一实施例中，由于重复字符有不同长度，因此对于字符分段长度，将其从1逐渐增加到N，对于每一个字符分段长度，均重复上述去重步骤，得到不同长度重复字符均完成去重的去重结果信息。参照图6，本实施例的文本去重方法还包括但不限于步骤S610至步骤S630。

步骤S610，将去重结果信息作为待去重文本。

步骤S620，逐次更新字符分段长度至预设字符分段长度。

步骤S630，得到预设字符分段长度对应的去重结果信息。

在一实施例中，对于字符分段长度，将其从1逐渐增加到N，因此将前一次去重之后的去重结果信息作为待去重文本重新进行去重，即对重复字符，从最小字符长度直至预设最大字符长度均完成去重。

例如，在一具体应用场景以下述为例对文本去重方法进行说明。

S1,假设待去重口语文本为：

“嗯嗯我觉得今天我要我要吃碎碎冰碎碎冰”；

S2,由于“碎碎冰”属于一种比较新奇的产品名称，包含重复字符“碎”，因此需要考虑特定实体名称的存在进行去重，避免破坏实体的表述，对口语意图识别造成负面影响。本实施例假设预设实体词语为“碎碎冰”，其在预设实体词语列表中顺序为1。

步骤S102利用预设实体词语列表根据待去重口语文本生成实体词语编号文本为：

“嗯嗯我觉得今天我要我要吃#1#1”；

S3,假设字符分段长度的最大长度为2，则首先选取字符分段长度为1进行去重：

S31,得到的字符片段列表为：

“嗯”、“嗯”、“我”、“觉”、“得”、“今”、“天”、“我”、“要”、“我”、“要”、“吃”、“#1”、“#1”；

S32,对字符分段长度为1的字符片段列表进行去重得到的第一结果列表为：

“嗯”、“我”、“觉”、“得”、“今”、“天”、“我”、“要”、“我”、“要”、“吃”、“#1”；

S33,根据第一结果列表生成的去重结果信息为：

“嗯我觉得今天我要我要吃#1”；

S4,字符分段长度为2：

S41,得到的字符片段列表为：

“嗯我”、“我觉”、“觉得”、“得今”、“今天”、“天我”、“我要”、“要我”、“我要”、“吃#1”；

S42,对字符分段长度为2的字符片段列表进行去重得到的第一结果列表为：

“嗯我”、“我觉”、“觉得”、“得今”、“今天”、“天我”、“我要”、“吃#1”；

S43,根据第一结果列表生成的去重结果信息为：

“嗯我觉得今天我要吃#1”；

S5,对上述得到的去重后的口语文本，根据编号词典列表中预设替换字符和替换词语编号之间的关系，将去重后的口语文本中预设替换字符替换为预设实体词语列表中对应的实体词语，从而得到字符分段长度对应的去重结果信息，完成去重操作。

上述得到的去重结果信息为：“嗯我觉得今天我要吃碎碎冰”。

本发明实施例提供的技术方案，通过获取待去重口语文本，利用预设实体词语列表根据待去重口语文本生成实体词语编号文本，根据实体词语编号文本生成字符片段列表，对字符片段列表进行去重操作，得到第一结果列表，根据第一结果列表生成去重结果信息。本实施例考虑到待去重口语文本中出现包含重复字符的实体词语的情况，在不影响其他字符去重效果的基础上，避免去重时将实体词语中的重复字符也去除导致口语意图识别效果不佳，能够更准确地获取意图识别信息，提高口语意图识别的鲁棒性以及可扩展性。

本发明实施例还提供一种口语文本去重装置，可以实现上述文本去重方法，参照图7，该装置包括：

待去重文本获取模块710，用于获取待去重文本；

实体词语编号文本生成模块720，用于利用预设实体词语列表根据待去重口语文本生成实体词语编号文本；

字符片段列表生成模块730，用于根据实体词语编号文本生成字符片段列表；

第一结果列表生成模块740，用于对字符片段列表进行去重操作，得到第一结果列表；

去重结果信息生成模块750，用于根据第一结果列表生成去重结果信息。

在一实施例中，待去重文本获取模块710，还用于获取的是口语语音信息，然后对口语语音信息进行文本识别，生成待去重口语文本。

在一实施例中，实体词语编号文本生成模块720，还用于在待去重口语文本中逐一查找预设实体词语列表中对应的实体词语，然后逐一将预设实体词语列表中每一个实体词语在待去重文本中进行查找，判断待去重文本中是否存在预设实体词语列表中的实体词语，若查找到实体词语，则将待去重口语文本中出现的实体词语表示为预设替换字符和替换词语编号，生成实体词语编号文本。

在一实施例中，字符片段列表生成模块730，还用于获取字符分段长度，然后遍历实体词语编号文本，滑动截取对应于字符分段长度的字符片段，最后根据字符片段得到字符片段列表。

在一实施例中，第一结果列表生成模块740，还用于逐一将字符片段列表中得到的字符片段存储在结果列表中，当存储次数大于字符分段长度时，判断当前字符片段与已存储的字符片段是否相同，若当前字符片段与已存储的字符片段是否相同，则保留当前字符片段到第一结果列表中，并删除结果列表中当前字符片段前与字符分段长度数量相同的字符片段，直至遍历字符片段列表结束，得到对应的第一结果列表。在一实施例中，当遍历个数刚好大于字符片段长度i时，判断当前字符片段列表中的字符片段是否与结果列表中已存储的相隔i之前的字符片段相同，如果相同，则代表当前字符片段已经有重复片段，就将当前字符片段以前i个字符全部从结果列表中移除而保留当前字符片段。

在一实施例中，去重结果信息生成模块750，还用于根据第一结果列表和对应的编号词典列表，生成字符分段长度对应的去重结果信息。

另外，在一实施例中，由于重复字符有不同长度，因此对于字符分段长度，将其从1逐渐增加到N，对于每一个字符分段长度，均按照上述模块重复上述去重操作，得到不同长度重复字符均完成去重的去重结果信息。

本实施例针对相关技术中没有考虑到口语意图识别过程中可能出现特殊业务实体词语名称的情况，采用首先先将特殊业务实体词语名称替换为预设替换字符(例如特殊字符)，再进行去重，最后将特殊字符还原成业务实体词语名称的策略。本实施例的口语意图识别方案可以考虑到待去重文本中出现包含重复字符的实体词语的情况，避免去重时将实体词语中的重复字符也去除导致口语意图识别效果不佳，具有较高的鲁棒性，同时逻辑清晰，简洁易懂，具有较高的可扩展性。

本实施例的口语文本去重装置的具体实施方式与上述文本去重方法的具体实施方式基本一致，在此不再赘述。

本发明实施例还提供了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本发明实施上述的文本去重方法。该电子设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant，简称PDA)、车载电脑等任意智能终端。

请参阅图8，图8示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器801，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案；

存储器802，可以采用ROM(ReadOnlyMemory，只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory，随机存取存储器)等形式实现。存储器802可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器802中，并由处理器801来调用执行本发明实施例的文本去重方法；

输入/输出接口803，用于实现信息输入及输出；

通信接口804，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；和

总线805，在设备的各个组件(例如处理器801、存储器802、输入/输出接口803和通信接口804)之间传输信息；

其中处理器801、存储器802、输入/输出接口803和通信接口804通过总线805实现彼此之间在设备内部的通信连接。

本发明实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述文本去重方法。

本发明实施例提出的文本去重方法、文本去重装置、电子设备、存储介质，通过获取待去重文本，利用预设实体词语列表根据待去重文本生成实体词语编号文本，根据实体词语编号文本生成字符片段列表，对字符片段列表进行去重操作，得到第一结果列表，根据第一结果列表生成去重结果信息。本实施例考虑到待去重文本中出现包含重复字符的实体词语的情况，在不影响其他字符去重效果的基础上，避免去重时将实体词语中的重复字符也去除导致口语意图识别效果不佳，能够更准确地获取意图识别信息，提高口语意图识别的鲁棒性以及可扩展性。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例描述的实施例是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1-6中示出的技术方案并不构成对本发明实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本发明实施例的优选实施例，并非因此局限本发明实施例的权利范围。本领域技术人员不脱离本发明实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本发明实施例的权利范围之内。

Claims

1.一种文本去重方法，其特征在于，包括：

获取待去重文本；

根据所述实体词语编号文本生成字符片段列表；

对所述字符片段列表进行去重操作，得到第一结果列表；

根据所述第一结果列表生成去重结果信息；

所述预设实体词语列表包含有至少一个实体词语；所述利用预设实体词语列表，根据所述待去重文本生成实体词语编号文本，包括：

若查找到所述实体词语，则获取预设替换字符；

将所述待去重文本中出现的所述实体词语替换为所述预设替换字符和替换词语编号，生成所述实体词语编号文本，所述预设替换字符和所述替换词语编号存储在编号词典列表中；

所述根据所述实体词语编号文本生成字符片段列表，包括：

获取字符分段长度；

根据所述字符片段得到所述字符片段列表；

所述对所述字符片段列表进行去重操作，得到第一结果列表，包括：

删除所述结果列表中当前字符片段前与所述字符分段长度数量相同的字符片段，直至遍历所述字符片段列表结束，得到对应的第一结果列表；

所述根据所述第一结果列表生成去重结果信息，包括：

逐一获取所述第一结果列表中的预设替换字符；

2.根据权利要求1所述的文本去重方法，其特征在于，所述在所述待去重文本中逐一查找所述预设实体词语列表中对应的实体词语之前还包括：

3.根据权利要求1所述的文本去重方法，其特征在于，所述根据所述第一结果列表生成去重结果信息之后，还包括：

将所述去重结果信息作为所述待去重文本；

逐次更新所述字符分段长度至预设字符分段长度；

得到所述预设字符分段长度对应的所述去重结果信息。

4.一种文本去重装置，其特征在于，包括：

待去重文本获取模块，用于获取待去重文本；

实体词语编号文本生成模块，用于利用预设实体词语列表根据所述待去重文本生成实体词语编号文本；所述预设实体词语列表包含有至少一个实体词语；所述利用预设实体词语列表，根据所述待去重文本生成实体词语编号文本，包括：

若查找到所述实体词语，则获取预设替换字符；

字符片段列表生成模块，用于根据所述实体词语编号文本生成字符片段列表；所述根据所述实体词语编号文本生成字符片段列表，包括：

获取字符分段长度；

根据所述字符片段得到所述字符片段列表；

第一结果列表生成模块，用于对所述字符片段列表进行去重操作，得到第一结果列表；所述对所述字符片段列表进行去重操作，得到第一结果列表，包括：

去重结果信息生成模块，用于根据所述第一结果列表生成去重结果信息；所述根据所述第一结果列表生成去重结果信息，包括：

逐一获取所述第一结果列表中的预设替换字符；

5.一种电子设备，其特征在于，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现：如权利要求1至3任一项所述的方法。

6.一种存储介质，所述存储介质为计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：如权利要求1至3任一项所述的方法。