CN111339250A

CN111339250A - 新类别标签的挖掘方法及电子设备、计算机可读介质

Info

Publication number: CN111339250A
Application number: CN202010104207.9A
Authority: CN
Inventors: 李千; 史亚冰; 蒋烨; 柴春光; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2020-06-26
Anticipated expiration: 2040-02-20
Also published as: US20210263974A1; EP3869360A9; KR20210106372A; US11755654B2; EP3869360A1; CN111339250B; JP2021131862A; KR102508769B1; JP7289330B2

Abstract

本公开提供了一种新类别标签的挖掘方法，涉及知识图谱技术领域，包括：获取当前预设时间段内的多个搜索文本；针对每个所述搜索文本，利用预先训练好的序列标注模型，对该搜索文本进行类别标签的标注，以从该搜索文本中提取出该搜索文本当前对应的类别标签；去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签，并将剩余的类别标签作为所述新类别标签。本公开还提供了新类别标签的挖掘装置、电子设备及计算机可读介质。

Description

新类别标签的挖掘方法及电子设备、计算机可读介质

技术领域

本公开实施例涉及知识图谱技术领域，特别涉及新类别标签的挖掘方法及装置、电子设备、计算机可读介质。

背景技术

随着互联网的广泛使用，在搜索领域和场景中的搜索文本(Query)中，涌现出了越来越多的新的类别词，所谓类别词，是指表示一类人、事、物等实体的词，例如，博物馆、图书馆、蛋糕、花、草、树等；所谓新的类别词，即指未被现有的类别词库收录的类别词。

因此，从用户在搜索场景下输入的搜索文本(Query)中，识别和挖掘新的类别词，能够有效帮助搜索引擎理解用户搜索的真实意图和行为，对提高搜索结果的准确度而言非常重要。

发明内容

本公开实施例提供一种新类别标签的挖掘方法及装置、电子设备、计算机可读介质。

第一方面，本公开实施例提供一种新类别标签的挖掘方法，该新类别标签的挖掘方法包括：

获取当前预设时间段内的多个搜索文本；

针对每个所述搜索文本，利用预先训练好的序列标注模型，对该搜索文本进行类别标签的标注，以从该搜索文本中提取出该搜索文本当前对应的类别标签；

去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签，并将剩余的类别标签作为所述新类别标签。

在一些实施例中，所述挖掘方法还包括：

获取多个预先标注有类别标签的搜索文本样本；

将所述搜索文本样本作为预设神经网络模型的输入，将所述搜索文本样本的类别标签作为预设神经网络模型的输出，对所述预设神经网络模型进行模型训练，得到序列标注模型；其中，预设神经网络模型包括第一语义表示模型、与第一语义表示模型连接的第二语义表示模型、与第二语义表示模型连接的第一双向GRU层、与第一双向GRU层连接的第二双向GRU层、与第二双向GRU层连接的条件随机场、以及与条件随机场连接的条件随机场解析层。

在一些实施例中，所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签，并将剩余的类别标签作为所述新类别标签之前，还包括：

针对每个搜索文本当前对应的每个类别标签，当该类别标签已存在于预设的当前类别标签库中时，从该搜索文本中提取出位于该类别标签之前且相邻的词，以作为当前待检测词；

检测当前待检测词的词性是否为预设词性，所述预设词性为名词、形容词、名形词中的任一者；

当检测出当前待检测词的词性为预设词性时，从该搜索文本中提取出当前待检测词之前且相邻的词，以作为当前待检测词；

重复执行所述检测当前待检测词的词性是否为预设词性的步骤，直至检测出词性为非预设词性的当前待检测词为止；

将该类别标签和检测出的所有词性为预设词性的待检测词，按照在该搜索文本中的顺序进行组合，将组合结果作为该搜索文本当前对应的类别标签。

针对当前预设时间段内每个搜索文本当前对应的每个类别标签，判断该类别标签是否以当前类别标签库中已存在的类别标签为结尾；

当判断出该类别标签以当前类别标签库中已存在的类别标签为结尾时，保留该搜索文本当前对应的该类别标签；

当判断出该类别标签不以当前类别标签库中已存在的类别标签为结尾时，则去除该类别标签。

针对每个搜索文本当前对应的每个类别标签，利用预设的语句通顺度模型检测该类别标签的语句是否通顺；

当检测出该类别标签的语句通顺时，则保留该搜索文本当前对应的该类别标签；

当检测出该搜索文本当前对应的类别标签的语句不通顺时，则去除该类别标签。

针对每个搜索文本当前对应的每个类别标签，检测该类别标签在所有搜索文本对应的类别标签中出现的频次；

当该频次大于或等于预设频次阈值时，则保留该搜索文本当前对应的该类别标签；

当该频次小于预设频次阈值时，则去除该类别标签。

在一些实施例中，所述获取多个预先标注有类别标签的搜索文本样本，包括：

获取多个历史搜索文本和多个设定的类别标签；

利用远程监督方法，从所有所述历史搜索文本中筛选出所有包含所述设定的类别标签的历史搜索文本；

从所有包含所述设定的类别标签的历史搜索文本中确定出多个所述搜索文本样本。

第二方面，本公开实施例提供一种新类别标签的挖掘装置，包括：

获取单元，用于获取当前预设时间段内的多个搜索文本；

标注单元，用于针对每个所述搜索文本，利用预先训练好的序列标注模型，对该搜索文本进行类别标签的标注，以从该搜索文本中提取出该搜索文本当前对应的类别标签；

挖掘单元，用于去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签，并将剩余的类别标签作为所述新类别标签。

在一些实施例中，还包括模型训练单元；

所述获取单元还用于获取多个预先标注有类别标签的搜索文本样本；

所述模型训练单元用于将所述搜索文本样本作为预设神经网络模型的输入，将所述搜索文本样本的类别标签作为预设神经网络模型的输出，对所述预设神经网络模型进行模型训练，得到序列标注模型；其中，预设神经网络模型包括第一语义表示模型、与第一语义表示模型连接的第二语义表示模型、与第二语义表示模型连接的第一双向GRU层、与第一双向GRU层连接的第二双向GRU层、与第二双向GRU层连接的条件随机场、以及与条件随机场连接的条件随机场解析层。

在一些实施例中，还包括词提取单元、词性检测单元和词扩展单元；

所述词提取单元用于针对每个搜索文本当前对应的每个类别标签，当该类别标签已存在于预设的当前类别标签库中时，从该搜索文本中提取出位于该类别标签之前且相邻的词，以作为当前待检测词；

所述词性检测单元用于检测当前待检测词的词性是否为预设词性，所述预设词性为名词、形容词、名形词中的任一者；

所述词提取单元还用于在所述词性检测单元检测出当前待检测词的词性为预设词性时，从该搜索文本中提取出当前待检测词之前且相邻的词，以作为当前待检测词，并触发所述词性检测单元重复执行检测当前待检测词的词性是否为预设词性的步骤，直至所述词性检测单元检测出词性为非预设词性的当前待检测词为止；

所述词扩展单元用于将该类别标签和检测出的所有词性为预设词性的待检测词，按照在该搜索文本中的顺序进行组合，将组合结果作为该搜索文本当前对应的类别标签。

在一些实施例中，还包括筛选单元，所述筛选单元用于针对当前预设时间段内每个搜索文本当前对应的每个类别标签，判断该类别标签是否以当前类别标签库中已存在的类别标签为结尾；当判断出该类别标签以当前类别标签库中已存在的类别标签为结尾时，保留该搜索文本当前对应的该类别标签；当判断出该类别标签不以当前类别标签库中已存在的类别标签为结尾时，则去除该类别标签。

在一些实施例中，还包括通顺度检测单元和筛选单元；

所述通顺度检测单元用于针对每个搜索文本当前对应的每个类别标签，利用预设的语句通顺度模型检测该类别标签的语句是否通顺；

所述筛选单元用于在所述通顺度检测单元检测出该类别标签的语句通顺时，保留该搜索文本当前对应的该类别标签；在所述通顺度检测单元检测出该搜索文本当前对应的类别标签的语句不通顺时，则去除该类别标签。

在一些实施例中，还包括频次检测单元和筛选单元；

所述频次检测单元用于针对每个搜索文本当前对应的每个类别标签，检测该类别标签在所有搜索文本对应的类别标签中出现的频次；

所述筛选单元用于在该频次大于或等于预设频次阈值时，则保留该搜索文本当前对应的该类别标签；当该频次小于预设频次阈值时，则去除该类别标签。

在一些实施例中，所述获取单元具体用于获取多个历史搜索文本和多个设定的类别标签；利用远程监督方法，从所有所述历史搜索文本中筛选出所有包含所述设定的类别标签的历史搜索文本；从所有包含所述设定的类别标签的历史搜索文本中确定出多个所述搜索文本样本。

第三方面，本公开实施例提供一种电子设备，其包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现前述任一实施例所述的挖掘方法；

一个或多个I/O接口，连接在所述处理器与存储器之间，配置为实现所述处理器与所述存储器的信息交互。

第四方面，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被执行时实现前述任一实施例所述的挖掘方法。

本公开实施例提供的新类别标签的挖掘方法及装置、电子设备、计算机可读介质，利用预先训练好的序列标注模型，对当前预设时间段内的搜索文本(Query)进行类别标签的标注，并利用当前类别标签库对标注的类别标签进行查重，以挖掘出标注的类别标签中的新类别标签，从而实现了高时效性的新类别标签的挖掘。

附图说明

附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开实施例提供的一种新类别标签的挖掘方法的流程图；

图2为本公开实施例中预设神经网络模型的组成框图；

图3为本公开实施例提供的另一种新类别标签的挖掘方法的流程图；

图4为图3中步骤101的一种具体实现方式的流程图；

图5为本公开实施例提供的又一种新类别标签的挖掘方法的流程图；

图6为本公开实施例提供的再一种新类别标签的挖掘方法的流程图；

图7为本公开实施例提供的再一种新类别标签的挖掘方法的流程图；

图8为本公开实施例提供的再一种新类别标签的挖掘方法的流程图；

图9为本公开实施例提供的一种新类别标签的挖掘装置的组成框图；

图10为本公开实施例提供的另一种新类别标签的挖掘装置的组成框图；

图11为本公开实施例提供的又一种新类别标签的挖掘装置的组成框图；

图12为本公开实施例提供的再一种新类别标签的挖掘装置的组成框图；

图13为本公开实施例提供的再一种新类别标签的挖掘装置的组成框图；

图14为本公开实施例提供的再一种新类别标签的挖掘装置的组成框图；

图15为本公开实施例提供的一种电子设备的组成框图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，下面结合附图对本公开提供的新类别标签的挖掘方法及装置、电子设备、计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。

如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

图1为本公开实施例提供的一种新类别标签的挖掘方法的流程图，如图1所示，该方法可以由新类别标签的挖掘装置来执行，该装置可以通过软件和/或硬件的方式实现，该装置可以集成在如服务器等电子设备中。该新类别标签的挖掘方法包括：

步骤11、获取当前预设时间段内的多个搜索文本。

在步骤11中，获取交互***在当前预设时间段内接收到的多个搜索文本(Query)。其中，交互***可以为能够为用户提供智能交互服务的智能终端、平台或应用，例如，智能音响、智能视频音箱、智能故事机、智能交互平台、智能交互应用、搜索引擎等。本公开实施例对于交互***的实现方式不作特别限制，只要该交互***能够与用户进行交互即可。

在本公开实施例中，前述“交互”可以包括语音交互(SpeechInteraction)和文字交互，其中，语音交互是基于语音识别、语音合成、自然语言理解等技术实现，在多种实际应用场景下，赋予交互***“能听、会说、懂你”式的智能人机交互体验，语音交互适用于多个应用场景中，包括智能问答、智能播放、智能查找等场景。文字交互基于文字识别、提取、自然语言理解等技术实现，同样可以适用于多个前述的应用场景。

在本公开实施例中，搜索文本为文字信息。在前述任一种应用场景下，用户与交互***进行交互时，可以向交互***输入语音信息或文字信息，其中，文字信息是指自然语言类的文字。

在一些实施例中，搜索文本的获取方式可以是：当交互***接收到的是语音信息时，可以获取该语音信息，并将该语音信息进行语音识别、语音转换文字等操作后，生成搜索文本；当交互***接收到的是文字信息时，可以直接获取该文字信息，该文字信息即为搜索文本。

在本公开实施例中，预设时间段可以是小时级别的时间段、天级别的时间段、周级别的时间段或者月级别的时间段等，具体可以根据实际情况而定，本公开实施例对此不作限制。例如，预设时间段可以为1个小时、1天、1周或1个月等。可以理解的是，当前预设时间段是指最新的预设时间段，例如，预设时间段为1天，则当前预设时间段是指最新1天的时间段。

步骤12、针对每个搜索文本，利用预先训练好的序列标注模型，对该搜索文本进行类别标签的标注，以从该搜索文本中提取出该搜索文本当前对应的类别标签。

在本公开实施例中，类别标签是指搜索文本中包含的类别词，类别词是指表示一类人、事、物等实体的词，例如，博物馆、图书馆、蛋糕、花、草、树、车、手机等。

在本公开实施例中，预先训练出序列标注模型，该序列标注模型的输入为搜索文本，输出为搜索文本对应的类别标签。

在步骤12中，针对每个搜索文本，将该搜索文本输入预先训练好的序列标注模型时，序列标注模型输出的该搜索文本当前对应的类别标签的数量为至少一个，即每个搜索文本中存在的类别标签的数量可以为1个，也可以为多个。

在本公开实施例中，通过序列标注模型，可以标注出所有搜索文本当前对应的所有类别标签。其中，序列标注模型为基于深度学习的端到端(End to end)的序列标注模型，序列标注模型可以通过使用预先标注有类别标签的搜索文本样本基于预设的神经网络模型进行模型训练确定。图2为本公开实施例中预设神经网络模型的组成框图，如图2所示，预设的神经网络模型包括两个预训练的语义表示模型(第一语义表示模型、第二语义表示模型)、两个双向GRU(Bi-GRU)层(第一双向GRU层、第二双向GRU层)、条件随机场、以及条件随机场(CRF)解析层。其中，第一语义表示模型与第二语义表示模型连接，第一双向GRU层与第二语义表示模型连接，第二双向GRU层与第一双向GRU层连接，条件随机场与第二双向GRU层连接，条件随机场解析层与条件随机场连接。在一些实施例中，语义表示模型可以采用知识增强语义表示模型(Enhanced Representation from kNowledge IntEgration，简称：ERNIE)。

步骤13、去除所有搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签，并将剩余的类别标签作为新类别标签。

在本公开实施例中，预设的当前类别标签库中存储有现有的已挖掘出的类别标签。在上述步骤12中，通过序列标注模型可以标注出当前预设时间段内的所有搜索文本当前对应的类别标签，而后，在步骤13中，利用当前类别标签库，对当前预设时间段内的所有搜索文本当前对应的类别标签进行查重。换言之，在步骤13中，针对序列标注模型输出的每个搜索文本当前对应的每个类别标签，判断该类别标签是否为现有的类别标签，当判断为现有的类别标签时，则进行去除处理，从而去除所有搜索文本当前对应的类别标签中已存在于当前类别标签库中的类别标签，进而挖掘出当前类别标签库中不存在的类别标签，即挖掘出新类别标签。

在本公开实施例中，在挖掘出新类别标签后，将新类别标签存储至当前类别标签库，以更新当前类别标签库，并获取下一预设时间段内的搜索文本，继续挖掘出新类别标签。

本公开实施例所提供的新类别标签的挖掘方法，利用预先训练好的基于深度学习的序列标注模型，对当前预设时间段内的搜索文本(Query)进行类别标签的标注，并利用当前类别标签库对标注的类别标签进行查重，以挖掘出标注的类别标签中的新类别标签，从而实现了高时效性的新类别标签的挖掘。

图3为本公开实施例提供的另一种新类别标签的挖掘方法的流程图，在一些实施例中，如图3所示，该挖掘方法与前述任一实施例所提供的挖掘方法的区别在于：在步骤11之前，该挖掘方法还包括下述步骤101和步骤102，下面仅针对步骤101和步骤102进行描述，其他描述具体可参见前述任一实施例的描述。

步骤101、获取多个预先标注有类别标签的搜索文本样本。

图4为图3中步骤101的一种具体实现方式的流程图，如图4所示，在一些实施例中，步骤101包括：

步骤1011、获取多个历史搜索文本和多个设定的类别标签。

其中，历史搜索文本可以从前述交互***的历史搜索日志中获取，设定的类别标签可以为现有的已挖掘出的类别标签。

步骤1012、利用远程监督方法，从所有历史搜索文本中筛选出所有包含设定的类别标签的历史搜索文本。

在步骤1012中，针对每个历史搜索文本，利用远程监督(Distant Supervision)方法，标注出该历史搜索文本中与多个设定的类别标签中的任一者完全匹配一致的词，即检测该历史搜索文本中是否包含多个设定的类别标签中的任一者_。当检测出该历史搜索文本中包含多个设定的类别标签中的任一者时，则保留该历史搜索文本，否则去除该历史搜索文本，从而从所有历史搜索文本中筛选出所有包含多个设定的类别标签中的任一者的历史搜索文本。例如，假设多个历史搜索文本分别为文本A、文本B和文本C，多个设定的类别标签分别为a、b、c，则在步骤1012中，针对文本A，当文本A包含设定的类别标签a、b、c中的任一者时，则保留该文本A，否则去除该文本A，同理，当文本B包含设定的类别标签a、b、c中的一者时，则保留，当文本C包含设定的类别标签a、b、c中的任一者时，则保留，依此类推。

步骤1013、从所有包含设定的类别标签的历史搜索文本中确定出多个搜索文本样本。

具体地，在步骤1013中，对所有包含设定的类别标签的历史搜索文本进行句式和词性分析，以过滤掉存在低准确度句式、分词边界不一致等缺陷的历史搜索文本，并将剩余的历史搜索文本作为搜索文本样本。换言之，针对每个包含设定的类别标签的历史搜索文本，对该历史搜索文本进行句式和词性(Case)分析，当该历史搜索文本的句式的准确度较低或分词边界不一致时，则去除该历史搜索文本，否则保留，从而从所有包含设定的类别标签的历史搜索文本中确定出多个搜索文本样本。

在一些实施例中，可以采用依存句法分析(Dependency Parser，简称：depParser)工具对历史搜索文本进行句式分析，通过句式分析，可以分析出历史搜索文本中各个词之间的依存关系，从而确定历史搜索文本的句式的准确度，当历史搜索文本的句式的准确度低于预设准确度阈值时，则去除该历史搜索文本，否则保留该历史搜索文本。

在一些实施例中，可以采用预设的分词工具对历史搜索文本进行词性分析，识别历史搜索文本中每个词的词性，从而分析出历史搜索文本是否存在分词边界不一致的缺陷，若存在，则去除该历史搜索文本，否则保留该历史搜索文本。

在一些实施例中，基于历史搜索文本，通过上述方法，获取用于训练序列标注模型的搜索文本样本，利用这些搜索文本样本训练出的序列标注模型进行类别标签预测的准确率更高。

步骤102、将搜索文本样本作为预设神经网络模型的输入，将搜索文本样本的类别标签作为预设神经网络模型的输出，对预设神经网络模型进行模型训练，得到序列标注模型。

其中，如图2所示，预设神经网络模型包括两个预训练的语义表示模型(第一语义表示模型、第二语义表示模型)、两个双向GRU(Gated Recurrent Unit，门控循环单元)层(第一双向GRU层、第二双向GRU层)、条件随机场、以及条件随机场解析层。其中，第一语义表示模型与第二语义表示模型连接，第一双向GRU层与第二语义表示模型连接，第二双向GRU层与第一双向GRU层连接，条件随机场与第二双向GRU层连接，条件随机场解析层与条件随机场连接。

其中，语义表示模型为预先训练好的模型，例如，语义表示模型采用ERNIE模型，其输入为搜索文本样本，其输出为搜索文本样本中的每个字的字编码，其中，语义表示模型输出的每个字的字编码为768维的字向量序列。

双向GRU(Bi-GRU)层的输入为从语义表示模型输出的每个字的字编码，其输出为每个字的字编码和每个字的上下文信息，其中，每个字的上下文信息包括与该字相邻的字的字编码，双向GRU(Bi-GRU)层输出的每个字的字编码为512维。

条件随机场(CRF)的输入为双向GRU(Bi-GRU)层输出的每个字的字编码及其上下文信息，其输出为每个字所属的类别，字所属的类别包括“B”、“O”、“I”三种，B表示标注的类别词的开头，I表示标注的类别词的后续，O表示无关类，即非目标类别词，每个字所属的类别为1维。

条件随机场(CRF)解析层用于对条件随机场(CRF)输出的每个字所属的类别进行解码，最终映射得到每个字的最终类别(O/B/I)。

例如，假设一条搜索文本样本为“芝士蛋糕”，预先标注的该搜索文本样本的类别标签为“蛋糕”，将该搜索文本样本输入上述预设神经网络模型，则预设神经网络模型输出“OOBI”，由此，可以得到该预设神经网络模型输出的该搜索文本样本的类别标签为“蛋糕”。

在步骤102中，将每个搜索文本样本作为预设神经网络模型的输入，将每个搜索文本样本对应的类别标签作为预设神经网络模型的输出，对预设神经网络模型进行模型训练，从而得到序列标注模型。其中，在预设神经网络模型中，语义表示模型为预训练模型，其模型参数固定，而Bi-GRU层、CRF、CRF解析层的模型参数在初始时随机初始化，在模型训练过程中，主要对Bi-GRU层、CRF、CRF解析层的模型参数进行微调(Finetune)，最终得到序列标注模型。

在本公开实施例中，序列标注模型基于大量的搜索文本样本和基于深度学习的神经网络模型训练得到，相比于传统的标注模型，无需进行繁琐的句法和词性的解析，也不会受到搜索文本Query中的句法的限制，有效提高了序列标注模型的标注效果，实现了高时效性的类别标签的标注和挖掘。

图5为本公开实施例提供的又一种新类别标签的挖掘方法的流程图，在一些实施例中，如图5所示，该挖掘方法与前述任一实施例所提供的挖掘方法的区别在于：在步骤13之前，该挖掘方法还包括下述步骤1211至步骤1215，下面仅针对步骤1211至步骤1215进行描述，其他描述具体可参见前述任一实施例的描述。

步骤1211、针对每个搜索文本当前对应的每个类别标签，当该类别标签已存在于预设的当前类别标签库中时，从该搜索文本中提取出位于该类别标签之前且相邻的词，以作为当前待检测词。

如前所述，在步骤12中，通过序列标注模型能够标注出每个搜索文本当前对应的类别标签，而在步骤1211中，针对每个搜索文本当前对应的每个类别标签，判断该类别标签是否已存在于当前类别标签库中，即判断该类别标签是否为现有的类别标签，若判断不存在于当前类别标签库中，则对该类别标签不作进一步处理，若判断已存在于当前类别标签库中，则进一步对该类别标签进行扩展，以挖掘出该搜索文本的更为准确的类别标签，具体地，当该类别标签已存在于预设的当前类别标签库中时，从该搜索文本中提取出位于该类别标签之前且相邻的词，以作为当前待检测词。

例如，该搜索文本为“北京航空博物馆”，在上述步骤12中标注出该搜索文本的类别标签为“博物馆”，则在步骤1211中，当当前类别标签库中已存在“博物馆”的类别标签时，则从该搜索文本中提取出位于该类别标签即“博物馆”之前且与该类别标签相邻的词，即“航空”，将“航空”作为当前待检测词。

在一些实施例中，在步骤1211中，可以利用分词工具，例如词性标注(Lextag)工具，从该搜索文本中提取出位于该类别标签之前且相邻的词。

步骤1212、检测当前待检测词的词性是否为预设词性，若是，执行步骤1213，否则执行步骤1215。

其中，预设词性为名词(n)、形容词(a)、名形词(an)中的一者。

例如，该搜索文本为“北京航空博物馆”，在上述步骤12中标注出该搜索文本的类别标签为“博物馆”，在上述步骤1211中提取出的当前待检测词为“航空”，则在步骤1212中，检测“航空”的词性是否为预设词性，即检测“航空”的词性是否为名词(n)、形容词(a)、名形词(an)中的一者，显然，“航空”的词性为名词(n)，因此跳转至步骤1213，以进一步扩展。

在一些实施例中，在步骤1212中，可以利用词性检测工具，例如Lextag工具，检测当前待检测词的词性是否为预设词性。

步骤1213、从该搜索文本中提取出位于当前待检测词之前且相邻的词，以作为当前待检测词。

例如，该搜索文本为“北京航空博物馆”，在上述步骤12中标注出该搜索文本的类别标签为“博物馆”，在上述步骤1211中提取出的当前待检测词为“航空”，则在步骤1212中，检测“航空”的词性为预设词性，即检测“航空”的词性为名词(n)，则在步骤1213中，从该搜索文本中提取出位于当前待检测词即“航空”之前且相邻的词即“北京”，以作为当前待检测词，当前待检测词为“北京”。

在一些实施例中，在步骤1213中，可以利用分词工具，例如Lextag，从该搜索文本中提取出位于当前待检测词之前且相邻的词，以作为当前待检测词。

步骤1214、重复执行步骤1212，直至检测出词性为非预设词性的当前待检测词为止。

例如，该搜索文本为“北京航空博物馆”，在上述步骤1213中提取出的当前待检测词为“北京”，在步骤1214中，重复执行步骤1212，以检测该当前待检测词即“北京”的词性是否为预设词性，显然，“北京”的词性为地名(ns)，不属于预设词性，因此，停止检测，并跳转至步骤1215。

步骤1215、将该类别标签和检测出的所有词性为预设词性的待检测词，按照在该搜索文本中的顺序进行组合，将组合结果作为该搜索文本当前对应的类别标签。

例如，如前所述，该搜索文本为“北京航空博物馆”，通过上述步骤1211至步骤1214，只检测出“航空”一词为预设词性，因此，在步骤1215中，将该类别标签即“博物馆”和检测出的词性为预设词性的“航空”一词，按照“博物馆”和“航空”在该搜索文本中的顺序进行组合，并将组合结果即“航空博物馆”作为该搜索文本当前对应的类别标签。即将该搜索文本的类别标签从“博物馆”扩展为“航空博物馆”。

需要说明的是，若当前待检测词为位于该类别标签之前且相邻的词，且在步骤1212中，检测出当前待检测词为非预设词性时，则在步骤1215中，检测出的所有词性为预设词性的待检测词为空集，因此组合结果仍为该类别标签，即保持该搜索文本当前对应的类别标签不变。

在一些实施例中，在步骤13之前，针对通过步骤12标注出的每个类别标签，当该类别标签已存在于当前类别标签库中时，则通过上述步骤1211至步骤1215，以对该类别标签进行扩展，从而扩展出更为准确的类别标签；而当该类别标签已存在于当前类别标签库中时，或者通过上述步骤1211至步骤1215确定该类别标签已不能扩展时，则维持该类别标签不变。

在本公开实施例中，通过上述步骤1211至步骤1215，对序列标注模型输出的类别标签进行质量的监控，在保证高时效性的标注和挖掘的同时，能够有效提高类别标签的挖掘的准确性和召回率。

图6为本公开实施例提供的再一种新类别标签的挖掘方法的流程图，在一些实施例中，如图6所示，该挖掘方法与前述任一实施例所提供的挖掘方法的区别在于：在步骤13之前，该挖掘方法还包括下述步骤1221，下面仅针对步骤1221进行描述，其他描述具体可参见前述任一实施例的描述。

步骤1221、针对当前预设时间段内每个搜索文本当前对应的每个类别标签，判断该类别标签是否以当前类别标签库中已存在的类别标签为结尾，若是则保留该类别标签，否则去除该类别标签。

在步骤1221中，首先，需要对该类别标签进行切词，具体可采用分词工具进行切词，在切词后，判断位于该类别标签的结尾的词是否与当前类别标签库中已存在的类别标签一致，即判断位于该类别标签的结尾的词是否已存在于当前类别标签库中，当判断出位于该类别标签的结尾的词已存在于当前类别标签库中时，则保留该搜索文本当前对应的该类别标签，否则，去除该类别标签。

在一些实施例中，上述步骤1221可以在上述步骤1215之后，且上述步骤13之前执行。在一些实施例中，上述步骤1221还可以在上述步骤12之后，且上述步骤1211之前执行。

可以理解的是，在一些实施例中，在步骤13中，所有所述搜索文本当前对应的类别标签即为经步骤1221、步骤1211至步骤1215这两种方式中的任一种或两种方式处理后，最终保留下的所有类别标签。

在本公开实施例中，通过上述步骤1221，对序列标注模型输出的类别标签进行质量的监控，在保证高时效性的标注和挖掘的同时，能够有效提高类别标签的挖掘的准确性和召回率。

图7为本公开实施例提供的再一种新类别标签的挖掘方法的流程图，在一些实施例中，如图7所示，该挖掘方法与前述任一实施例所提供的挖掘方法的区别在于：在步骤13之前，该挖掘方法还包括下述步骤1231，下面仅针对步骤1231进行描述，其他描述具体可参见前述任一实施例的描述。

步骤1231、针对每个搜索文本当前对应的每个类别标签，利用预设的语句通顺度模型检测该类别标签的语句是否通顺，若是，则保留该类别标签，否则去除该类别标签。

在步骤1231中，针对每个搜索文本当前对应的每个类别标签，利用预设的语句通顺度模型检测该类别标签的语句通顺度，当该类别标签的语句通顺度大于或等于预设通顺度阈值时，则检测出该类别标签的语句通顺，因此保留该类别标签；当该类别标签的语句通顺度小于预设通顺度阈值时则检测出该类别标签的语句不通顺，因此去除该类别标签。

在一些实施例中，通过上述步骤1231，可以从上述步骤12中标注出的所有类别标签中过滤掉语句不通顺的类别标签，以筛选出语句通顺的类别标签。

在一些实施例中，上述步骤1231可以在上述步骤12之后，且上述步骤1211之前执行；在一些实施例中，上述步骤1231也可以在上述步骤1215之后，且上述步骤13之前执行。在一些实施例中，上述步骤1221还可以在上述步骤1221之后或上述步骤1221之前执行。

可以理解的是，在一些实施例中，在步骤13中，所有所述搜索文本当前对应的类别标签即为经步骤1211至步骤1215、步骤1221、步骤1231这三种方式中的任一种或多种方式处理后，最终保留下的所有类别标签。

在本公开实施例中，通过上述步骤1231，对序列标注模型输出的类别标签进行质量的监控，在保证高时效性的标注和挖掘的同时，能够有效提高类别标签的挖掘的准确性和召回率。

图8为本公开实施例提供的再一种新类别标签的挖掘方法的流程图，在一些实施例中，如图8所示，该挖掘方法与前述任一实施例所提供的挖掘方法的区别在于：在步骤13之前，该挖掘方法还包括下述步骤1241和步骤1242，下面仅针对步骤1241进行描述，其他描述具体可参见前述任一实施例的描述。

步骤1241、针对每个搜索文本当前对应的每个类别标签，检测该类别标签在所有搜索文本对应的类别标签中出现的频次。

步骤1242、判断该类别标签对应的频次是否小于预设频次阈值，若是，则去除该类别标签，否则保留该类别标签。

例如，预设频次阈值为5次，当前预设时间段为1天，则在步骤1242中，检测该类别标签在当前1天的时间段内的所有搜索文本的类别标签中出现的频次是否小于5次，若小于5次，则去除该类别标签，否则保留该类别标签。

在一些实施例中，通过上述步骤1241和步骤1242，可以将出现频次较低的类别标签进行过滤，从而筛选出频次较高的类别标签。

在一些实施例中，步骤1241和步骤1242可以在上述步骤12之后，且上述步骤1211之前执行；在一些实施例中，步骤1241和步骤1242也可以在上述步骤1215之后，且上述步骤13之前执行；在一些实施例中，步骤1241和步骤1242也可以在上述步骤1221之前或之后执行；在一些实施例中，步骤1241和步骤1242也可以在上述步骤1231之前或之后执行。

可以理解的是，在一些实施例中，在步骤13中，所有所述搜索文本当前对应的类别标签即为经步骤1211至步骤1215、步骤1221、步骤1231、步骤1241至步骤1242这四种方式中的任一种或多种方式处理后，最终保留下的所有类别标签。

在本公开实施例中，通过上述步骤1241至步骤1242，对序列标注模型输出的类别标签进行质量的监控，在保证高时效性的标注和挖掘的同时，能够有效提高类别标签的挖掘的准确性和召回率。

图9为本公开实施例提供的一种新类别标签的挖掘装置的组成框图，如图9所示，在本公开实施例中，该挖掘装置包括：获取单元201、标注单元202和挖掘单元203。

其中，获取单元201用于获取当前预设时间段内的多个搜索文本。

标注单元202用于针对每个搜索文本，利用预先训练好的序列标注模型，对该搜索文本进行类别标签的标注，以从该搜索文本中提取出该搜索文本当前对应的类别标签。

挖掘单元203用于去除所有搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签，并将剩余的类别标签作为新类别标签。

图10为本公开实施例提供的另一种新类别标签的挖掘装置的组成框图，在一些实施例中，如图10所示，该挖掘装置还包括模型训练单元204。其中，获取单元201还用于获取多个预先标注有类别标签的搜索文本样本；模型训练单元204用于将搜索文本样本作为预设神经网络模型的输入，将搜索文本样本的类别标签作为预设神经网络模型的输出，对预设神经网络模型进行模型训练，得到序列标注模型；其中，预设神经网络模型包括第一语义表示模型、与第一语义表示模型连接的第二语义表示模型、与第二语义表示模型连接的第一双向GRU层、与第一双向GRU层连接的第二双向GRU层、与第二双向GRU层连接的条件随机场、以及与条件随机场连接的条件随机场解析层。

图11为本公开实施例提供的又一种新类别标签的挖掘装置的组成框图，在一些实施例中，如图11所示，该挖掘装置还包括词提取单元205、词性检测单元206和词扩展单元207。

其中，词提取单元205用于针对每个搜索文本当前对应的每个类别标签，当该类别标签已存在于预设的当前类别标签库中时，从该搜索文本中提取出位于该类别标签之前且相邻的词，以作为当前待检测词。

词性检测单元206用于检测当前待检测词的词性是否为预设词性，预设词性为名词、形容词、名形词中的任一者。

词提取单元205还用于在词性检测单元206检测出当前待检测词的词性为预设词性时，从该搜索文本中提取出当前待检测词之前且相邻的词，以作为当前待检测词，并触发词性检测单元206重复执行检测当前待检测词的词性是否为预设词性的步骤，直至词性检测单元206检测出词性为非预设词性的当前待检测词为止。

词扩展单元207用于将该类别标签和检测出的所有词性为预设词性的待检测词，按照在该搜索文本中的顺序进行组合，将组合结果作为该搜索文本当前对应的类别标签。

图12为本公开实施例提供的再一种新类别标签的挖掘装置的组成框图，在一些实施例中，如图12所示，该挖掘装置还包括筛选单元208，筛选单元208用于针对当前预设时间段内每个搜索文本当前对应的每个类别标签，判断该类别标签是否以当前类别标签库中已存在的类别标签为结尾；当判断出该类别标签以当前类别标签库中已存在的类别标签为结尾时，保留该搜索文本当前对应的该类别标签；当判断出该类别标签不以当前类别标签库中已存在的类别标签为结尾时，则去除该类别标签。

图13为本公开实施例提供的再一种新类别标签的挖掘装置的组成框图，在一些实施例中，如图13所示，该挖掘装置还包括通顺度检测单元209，通顺度检测单元209用于针对每个搜索文本当前对应的每个类别标签，利用预设的语句通顺度模型检测该类别标签的语句是否通顺。筛选单元208还用于在通顺度检测单元209检测出该类别标签的语句通顺时，保留该搜索文本当前对应的类别标签；在通顺度检测单元209检测出该搜索文本当前对应的类别标签的语句不通顺时，则去除该类别标签。

图14为本公开实施例提供的再一种新类别标签的挖掘装置的组成框图，在一些实施例中，如图14所示，该挖掘装置还包括频次检测单元210，频次检测单元210用于针对每个搜索文本当前对应的每个类别标签，检测该类别标签在所有搜索文本对应的类别标签中出现的频次；筛选单元208还用于在该频次大于或等于预设频次阈值时，则保留该搜索文本当前对应的该类别标签；当该频次小于预设频次阈值时，则去除该类别标签。

在一些实施例中，获取单元201具体用于获取多个历史搜索文本和多个设定的类别标签；利用远程监督方法，从所有历史搜索文本中筛选出所有包含所述设定的类别标签的历史搜索文本；从所有包含设定的类别标签的历史搜索文本中确定出多个搜索文本样本。

此外，本公开实施例所提供的新类别标签的挖掘装置具体用于实现前述挖掘方法，具体可参见前述挖掘方法的描述，此处不再赘述。

图15为本公开实施例提供的一种电子设备的组成框图，如图11所示，该电子设备包括：

一个或多个处理器501；

存储器502，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述任意一项的XXXXX的方法；

一个或多个I/O接口503，连接在处理器与存储器之间，配置为实现处理器与存储器的信息交互。

其中，处理器501为具有数据处理能力的器件，其包括但不限于中央处理器(CPU)等；存储器502为具有数据存储能力的器件，其包括但不限于随机存取存储器(RAM，更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH)；I/O接口(读写接口)503连接在处理器501与存储器502间，能实现处理器501与存储器502的信息交互，其包括但不限于数据总线(Bus)等。

在一些实施例中，处理器501、存储器502和I/O接口503通过总线504相互连接，进而与计算设备800的其他组件连接。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被执行时实现前述的新类别标签的挖掘方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种新类别标签的挖掘方法，包括：

获取当前预设时间段内的多个搜索文本；

2.根据权利要求1所述的挖掘方法，其中所述挖掘方法还包括：

获取多个预先标注有类别标签的搜索文本样本；

3.根据权利要求1所述的挖掘方法，其中所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签，并将剩余的类别标签作为所述新类别标签之前，还包括：

4.根据权利要求1所述的挖掘方法，其中所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签，并将剩余的类别标签作为所述新类别标签之前，还包括：

5.根据权利要求1-4中任一所述的挖掘方法，其中，所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签，并将剩余的类别标签作为所述新类别标签之前，还包括：

6.根据权利要求1-4中任一所述的挖掘方法，其中，所述去除所有所述搜索文本当前对应的类别标签中已存在于预设的当前类别标签库中的类别标签，并将剩余的类别标签作为所述新类别标签之前，还包括：

当该频次小于预设频次阈值时，则去除该类别标签。

7.根据权利要求2所述的挖掘方法，其中所述获取多个预先标注有类别标签的搜索文本样本，包括：

获取多个历史搜索文本和多个设定的类别标签；

8.一种新类别标签的挖掘装置，包括：

获取单元，用于获取当前预设时间段内的多个搜索文本；

9.根据权利要求8所述的挖掘装置，其中还包括模型训练单元；

10.根据权利要求8所述的挖掘装置，其中还包括词提取单元、词性检测单元和词扩展单元；

11.根据权利要求8所述的挖掘装置，其中还包括筛选单元，所述筛选单元用于针对当前预设时间段内每个搜索文本当前对应的每个类别标签，判断该类别标签是否以当前类别标签库中已存在的类别标签为结尾；当判断出该类别标签以当前类别标签库中已存在的类别标签为结尾时，保留该搜索文本当前对应的该类别标签；当判断出该类别标签不以当前类别标签库中已存在的类别标签为结尾时，则去除该类别标签。

12.根据权利要求8-11中任一所述的挖掘装置，其中还包括通顺度检测单元和筛选单元；

所述筛选单元用于在所述通顺度检测单元检测出该类别标签的语句通顺时，则保留该搜索文本当前对应的该类别标签；在所述通顺度检测单元检测出该搜索文本当前对应的类别标签的语句不通顺时，则去除该类别标签。

13.根据权利要求8-11中任一所述的挖掘装置，其中还包括频次检测单元和筛选单元；

14.根据权利要求9所述的挖掘装置，其中所述获取单元具体用于获取多个历史搜索文本和多个设定的类别标签；利用远程监督方法，从所有所述历史搜索文本中筛选出所有包含所述设定的类别标签的历史搜索文本；从所有包含所述设定的类别标签的历史搜索文本中确定出多个所述搜索文本样本。

15.一种电子设备，其包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的挖掘方法；

16.一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被执行时实现如权利要求1-7中任一所述的挖掘方法。