CN110674253A

CN110674253A - 一种语义处理方法及设备

Info

Publication number: CN110674253A
Application number: CN201910897888.6A
Authority: CN
Inventors: 祝文博; 雷欣; 李志飞
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-01-10

Abstract

本发明公开了一种语义处理方法及设备，所述方法包括：获取查询信息；确定对应所述查询信息的信息向量；查找所述查询信息中的命中词；确定对应所述命中词的附加向量；对所述信息向量和所述附加向量进行融合，获得融合向量；对所述融合向量进行语义槽识别，获得对应所述查询信息的应答信息，应用本发明实施例能够对查询信息进行精确识别。

Description

一种语义处理方法及设备

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语义处理方法及设备。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义，也能以自然语言文本来表达给定的意图、思想等。

语义槽识别是自然语言处理的常见任务，业内最常用的语义槽识别模型仅依靠文本的表征向量作为特征,部分词汇会被预测为该词汇多数情况下所表达的意思，故存在词表征向量难以正确预测语义的问题。

发明内容

本发明实施例提供了一种语义处理方法及设备，用于对查询信息进行精确预测。

本发明一方面提供一种语义处理方法，所述方法包括：获取查询信息；确定对应所述查询信息的信息向量；查找所述查询信息中的命中词；确定对应所述命中词的附加向量；对所述信息向量和所述附加向量进行融合，获得融合向量；对所述融合向量进行语义槽识别，获得对应所述查询信息的应答信息。

在一可实施方式中，查找所述查询信息中的命中词，包括：遍历预设词表查找与所述查询信息匹配的预设词；将所述预设词确定为所述查询信息的命中词。

在一可实施方式中，所述预设词表包括与预设词对应的附加信息；相应的，确定对应所述命中词的附加向量，包括，在所述预设词表中查找与所述命中词对应的附加信息；根据所述命中词和所述附加信息进行向量转换，得到所述附加向量。

在一可实施方式中，所述命中词为多个；相应的，所述确定对应所述命中词的附加向量，包括：判断所述多个命中词的数量是否超出数量阈值；当所述多个命中词的数量未超出所述数量阈值时，根据所述多个命中词来确定所述附加向量。

在一可实施方式中，所述方法还包括：当所述多个命中词的数量超出数量阈值时，从所述多个命令词中选取满足所述数量阈值的命中词；根据所选取的满足所述数量阈值的命中词来确定所述附加向量。

本发明另一方面提供一种语义处理设备，所述设备包括：获取模块，用于获取查询信息；确定模块，用于确定对应所述查询信息的信息向量；查找模块，用于查找所述查询信息中的命中词；所述确定模块，用于确定对应所述命中词的附加向量；融合模块，用于对所述信息向量和所述附加向量进行融合，获得融合向量；识别模块，用于对所述融合向量进行语义槽识别，获得对应所述查询信息的应答信息。

在一可实施方式中，所述查找模块，包括：遍历子模块，用于遍历预设词表查找与所述查询信息匹配的预设词；第一确定子模块，用于将所述预设词确定为所述查询信息的命中词。

在一可实施方式中，所述预设词表包括与预设词对应的附加信息；相应的，所述确定模块，包括，查找子模块，用于在所述预设词表中查找与所述命中词对应的附加信息；转换子模块，用于根据所述命中词和所述附加信息进行向量转换，得到所述附加向量。

在一可实施方式中，所述命中词为多个；相应的，所述确定模块，包括：判断子模块，用于判断所述多个命中词的数量是否超出数量阈值；第二确定子模块，用于当所述多个命中词的数量未超出所述数量阈值时，根据所述多个命中词来确定所述附加向量。

在一可实施方式中，所述第二确定子模块，还用于当所述多个命中词的数量超出数量阈值时，从所述多个命令词中选取满足所述数量阈值的命中词，根据选取的满足所述数量阈值的命中词来确定所述附加向量。

本发明另一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行上述任一项所述的语义处理方法。

本发明实施例提供的语义处理方法用于对查询信息进行识别，通过附加向量与信息向量融合，将附加向量作为外部信息引入查询信息中，让外部信息作为额外的特征与信息向量一起作为预测的依据，提高信息预测的准确性，从而获得与查询信息内容对应更为精确的应答信息。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种语义处理方法的实现流程示意图；

图2为本发明实施例一种语义处理方法查找命中词的流程示意图；

图3为本发明实施例一种语义处理方法确定附加向量的流程示意图；

图4为本发明实施例一种语义处理方法中判断命中词数量的流程示意图；

图5为本发明实施例一种语义处理方法中确定命中词的流程示意图；

图6为本发明实施例一种语义处理设备的模块示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种语义处理方法的实现流程示意图。

参见图1，本发明实施例一方面提供一种语义处理方法，方法包括：步骤101，获取查询信息；步骤102，确定对应查询信息的信息向量；步骤103，查找查询信息中的命中词；步骤104，确定对应命中词的附加向量；步骤105，对信息向量和附加向量进行融合，获得融合向量；步骤106，对融合向量进行语义槽识别，获得对应查询信息的应答信息。

本发明实施例提供的语义处理方法用于对查询信息进行识别，通过附加向量与信息向量融合，将附加向量作为外部信息引入查询信息中，让外部信息作为额外的特征与信息向量一起作为预测的依据，提高信息预测的准确性，从而获得与查询信息内容对应更为精确的应答信息，尤其适用于容易产生歧义的查询信息。

本发明实施例的方法可以应用于具有数据处理功能的任一设备、软件或服务器。本发明实施例的方法包括获取查询信息。其中查询信息可以为任意形式的文件，如文本文件，音频文件，视频文件等。以设备为例，此处获得查询信息的方式可以通过直接获取，还可以通过信号传输从第三方设备获取。直接获取方式可以通过检测输入信息，根据输入信息确定查询信息，根据需要，信息的输入方式可以为文本输入、语音输入、图像输入、视频输入的任意方式。在通过信号传输获取查询信息时，信号传输的方式可以为无线传输、有限传输或其他信号传输方式，传输内容可以为信息文件或非信息文件，当传输内容为非信息文件时，通过语音识别处理或其他数据处理方式，获取查询信息。需要说明的是，为执行确定对应查询信息的信息向量，需要通过数据处理，将非文本形式的查询信息转化成文本，如当查询信息为音频文件时，通过语音识别处理，获得对应查询信息的查询文本。

本发明实施例的方法还包括确定对应查询信息的信息向量。可以通过向量空间模型、文本的分布式表示方法中任一方式对查询文本进行文本向量化，也可以通过其他方式实现文本的向量化。

本发明实施例的方法还包括查找查询信息中的命中词。需要说明的是，在方法进行过程中，步骤102和步骤103之间没有相关性，在步骤101之后，可以将步骤103先于步骤102执行，也可以将步骤102先于步骤103执行，还可以将步骤102和步骤103同时执行，即步骤102和步骤103之间的执行互不影响。命中词可以为容易引起歧义的词，可以是在不同领域具有不同含义的词，如歌名、电影名、文章名、人名、地名等。

本发明实施例的方法还包括确定对应命中词的附加向量。同样的，步骤104与步骤102之间无相关性，其执行顺序之间无必需的先后顺序。在获得命中词后，基于命中词进行向量转化，获得对应命中词的附加向量。命中词的向量转化方式可以与信息向量化的方式相同。附加向量用于表征容易引起歧义的词的外部信息。

本发明实施例的方法还包括对信息向量和附加向量进行融合，获得融合向量。具体的通过拼接融合信息向量和附加向量，获得融合向量。相较于信息向量，融合向量具有附加向量所表示的外部信息作为额外的特征，与信息向量一起作为预测的依据。能够提高预测结果的准确性。

本发明实施例的方法还包括对融合向量进行语义槽识别，获得对应查询信息的应答信息。本发明实施例语义槽识别所使用的语义槽识别模型是基于双向循环神经网络和条件随机场的，这种模型具有很好的拟合效果，以融合向量作为输入，通过语义槽识别模型对融合向量进行识别，能够获得准确性较高的预测结果，从而获得与查询信息实际含义拟合度较高的应答信息。其中，根据需要，应答信息的内容可以用于生成控制指令，指示设备满足用户需求；也可以用于直接进行信息格式的输出；还可以以语音播放或其他方式进行应答信息的展示。例如，在一场景中，设备具有播放音乐功能和数据处理功能，设备获取的查询信息为“播放十年”，根据语义槽识别模型识别，获得应答信息，该应答信息用于生成控制指令，指示设备进行歌曲“十年”的播放。在另一场景中，设备具有数据处理功能、不具有播放功能的时候，且设备连接有具有播放功能的音乐播放装置，设备获取的查询信息为“播放十年”，根据语义槽识别模型识别，获得应答信息，该应答信息用于生成控制指令，通过信号传输指示音乐播放装置设备进行歌曲“十年”的播放。

为了方便上述实施方式的理解，以下提供一种场景具体实施方式。

在该场景中，设备具有数据处理功能和音频播放功能，在设备接受信息输入指令后，通过语音识别，获取输入语音为“播放十年”，并将其转化为文本格式，在获得文本格式后，通过模型将文本转化为文本向量。确定查询文本中具有命中词“十年”，根据命中词“十年”，确定对应命中词的附加向量；拼接融合信息向量和附加向量，获得融合向量，通过语义槽识别模型识别融合向量，获得对应融合向量的应答信息。基于应答信息生成指令，指示设备进行音频的播放。具体的，指示设备进行MV“十年”的播放。

图2为本发明实施例一种语义处理方法查找命中词的流程示意图。

参见图2，在本发明实施例中，步骤103，查找查询信息中的命中词，包括：步骤1031，遍历预设词表，查找与查询信息匹配的预设词；步骤1032，将预设词确定为查询信息的命中词。

具体的，命中词的查找方式可以依据预先设立的词表进行查找。

该方法在步骤1031之前，可以根据需求设立各种类型的词表，如“歌曲词表”、“地点词表”、“人名词表”、“文章名词表”等其他。每个词表中，包括有对应该词表的各类预设词。如“歌曲词表”中含有各种歌名；“地点词表”中含有各种地名。尤其是有歧义的词。如此，形成预设词表。其中，附加信息可以为该预设词所对应的信息，如“十年”的附加信息指示该内容为歌名、“莲花”、“荔枝”的附加信息指示该内容为地名等。需要说明的是，由于每个预设词分别指示不同的外部信息，因此同一词表中的预设词可以是相同类型的词，也可以是不同类型的词，在一种实施方式中，预设词表中即包括歌名也包括地名。

该方法还包括，遍历预设词表，查找与查询信息匹配的预设词，查找方式可以通过1)词表查找；2)将预设词表形成字典树，通过分词工具对查询信息进行分词，将得到的分词与字典树进行比对，确定预设词表中是否具有与分词相同的预设词。还可以使用其他方法进行查找，以确定查询信息中是否具有预设词表中对应的命中词，其中，预设词表中的预设词和命中词相同或不同。该方法还包括，将预设词确定为查询信息的命中词。

图3为本发明实施例一种语义处理方法确定附加向量的流程示意图。

参见图3，在本发明实施例中，预设词表包括与预设词对应的附加信息；相应的，步骤104，确定对应命中词的附加向量，包括，步骤1041，在预设词表中查找与命中词对应的附加信息；步骤1042，根据命中词和附加信息进行向量转换，得到附加向量。

为了使附加向量中能够体现外部信息的特征，预设词表中还的预设词对应有附加信息，其中，附加信息用于指向预设词的实际含义。需要说明的是，预设词表中可以包括附加信息，也可以不包括附加信息。当预设词表不包括附加信息时，可以设立附加信息表，形成于预设词对应的附加信息，在获得预设词后，在附加信息表中对应获得预设词的附加信息。

当预设词表包括与预设词对应的附加信息时，本发明实施例的方法中，确定对应命中词的附加向量，包括：在预设词表中查找与命中词对应的附加信息。在通过预设词确定命中词后，通过预设词与附加信息对应，即可获得与命中词对应的附加信息，根据命中词对应的附加信息进行向量转换，可获得附加向量。需要说明的是，区别于普通的文本向量转化，根据命中词对应的附加信息进行向量转换，使附加向量能够体现附加信息的特征。

图4为本发明实施例一种语义处理方法中判断命中词数量的流程示意图。

参见图4，在本发明实施例中，命中词为多个；相应的，步骤104，确定对应命中词的附加向量，包括：步骤1043，判断多个命中词的数量是否超出数量阈值；步骤1044，当多个命中词的数量未超出数量阈值时，根据多个命中词来确定附加向量。

需要补充的是，步骤1041、步骤1042和步骤1043、步骤1044之间的区别在于，步骤1041和步骤1042示出了如何通过附加信息确定附加向量；而步骤1043和步骤1044主要确定命中词。在执行该方法时，当不涉及数量阈值时，可以只进行步骤1041和步骤1042，通过确定的命中词确定附加向量。当该方法涉及数量阈值后，先通过步骤1043和步骤1043的下述步骤确定命中词，在确定命中词后，基于确定的命中词执行步骤1041和步骤1042以确定附加向量。

根据查询信息的长度，确定的命中词的数量可能为一个或一个以上。当命中词的数量为多个的时候，即命中词的数量大于一个的时候，需要对命中词的数量进行判断。

具体的，首先需要判断多个命中词的数量是否超出数量阈值，其中，数量阈值可根据实际情况进行选择，如一个、两个、三个、四个、五个、六个…在此不做赘述。

当命中词的数量未超出数量阈值时，根据多个命中词来确定附加向量。具体的，当命中词的数量不超过数量阈值。命中词可能为一个或大于一个但不超过数量阈值。

当命中词的数量为一个时，确定对应命中词的附加向量，通过一个命中词和对应的附加信息确定附加向量。

当命中词的数量大于一个但不超过数量阈值时，确定对应每个命中词的附加信息，根据每个命中词和每个命中词对应的附加信息分别确定对应每个命中词的命中词向量，然后通过拼接融合每个命中词向量，获得附加向量。将命中词转化向量的方法可以采用传统的词向量方法。

例如，设定的数量阈值为“五”，当查询信息为“依次播放一年、十年、春秋”时，根据预设词表确定命中词为“一年”、“十年”、“春秋”，由此可以确定命中词的数量为三，通过判断三小于五可知，命中词的数量未超出数量阈值，此时，通过对应命中词的附加信息可确定，对应歌曲“一年”的第一命中词向量、对应歌曲“十年”的第二命中词向量、对应歌曲“春秋”的第三命中词向量，通过拼接融合第一命中词向量、第二命中词向量、第三命中词向量，获得对应查询信息为“依次播放一年、十年、春秋”的附加向量。

图5为本发明实施例一种语义处理方法中确定命中词的流程示意图。

参见图5，在本发明实施例中，方法还包括：步骤1045，当多个命中词的数量超出数量阈值时，从多个命令词中选取满足数量阈值的命中词，根据所选取的满足数量阈值的命中词来确定附加向量。

需要说明的是，步骤1044与步骤1045之间无先后顺序，为互斥步骤，即当步骤1043的判断结果为不超出时，执行步骤1044，不执行步骤1045，当步骤1043的判断结果为超出时，执行步骤1045，不执行步骤1046。

本发明实施例的方法包括：当多个命中词的数量超出数量阈值时，从多个命令词中选取满足数量阈值的命中词。根据需求，具体的选取方式可以采用随机选取方式，也可以将预设词表依据指标进行排序，按照命中的先后顺序进行选取,还可以根据查询信息的先后顺序进行选取。其中的指标可以是，歌曲热度、歌手热度、发布时间、歌名长度、歌取时长等。例如，当查询信息为“播放A、B、C、D、E、F、G”。此处设置数量阈值为三，判断其超过数量阈值三，根据随机选取方式，可以随机到“A、B、C、D、E、F、G”中的任意三个作为命中词，如随机到“E、F、G”。根据预设词表依据指标进行确定时，首先根据预设词表确定的命中词有“A”、“B”、“C”、“D”、“E”、“F”、“G”。判断其超过数量阈值三。按照歌取热度进行排名，在预设词表中，针对“A、B、C、D、E、F、G，”、“A”为热度第一、“B”为热度第二、“D”为热度第三，此时确定“A、B、D”为命中词。当根据查询信息的先后顺序进行选取时，根据查询信息，最先出现的命中词为“A、B、C”，选取“A、B、C”为命中词。之后，根据确定的每个命中词和每个命中词对应的附加信息分别确定对应每个命中词的命中词向量，然后通过拼接融合每个命中词向量，获得附加向量。将命中词转化向量的方法可以采用传统的词向量方法。在此不做赘述。

图6为本发明实施例一种语义处理设备的模块示意图。

参见图6，本发明实施例另一方面提供一种语义处理设备，设备包括：获取模块601，用于获取查询信息；确定模块602，用于确定对应查询信息的信息向量；查找模块603，用于查找查询信息中的命中词；确定模块602，还用于确定对应命中词的附加向量；融合模块604，用于对信息向量和附加向量进行融合，获得融合向量；识别模块605，用于对融合向量进行语义槽识别，获得对应查询信息的应答信息。

在本发明实施例中，查找模块603，包括：遍历子模块6031，用于遍历预设词表查找与查询信息匹配的预设词；第一确定子模块6032，用于将预设词确定为查询信息的命中词。

在本发明实施例中，预设词表包括与预设词对应的附加信息；相应的，确定模块602，包括，查找子模块6021，用于在预设词表中查找与命中词对应的附加信息；转换子模块6022，用于根据命中词和附加信息进行向量转换，得到附加向量。

在本发明实施例中，命中词为多个；相应的，确定模块602，包括：判断子模块6023，用于判断多个命中词的数量是否超出数量阈值；第二确定子模块6024，用于当多个命中词的数量未超出数量阈值时，根据多个命中词来确定附加向量。

在本发明实施例中，第二确定子模块6024，还用于当多个命中词的数量超出数量阈值时，从多个命令词中选取满足数量阈值的命中词，根据选取的满足数量阈值的命中词来确定附加向量。

本发明实施例另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述任一项的语义处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语义处理方法，其特征在于，所述方法包括：

获取查询信息；

确定对应所述查询信息的信息向量；

查找所述查询信息中的命中词；

确定对应所述命中词的附加向量；

对所述信息向量和所述附加向量进行融合，获得融合向量；

对所述融合向量进行语义槽识别，获得对应所述查询信息的应答信息。

2.根据权利要求1所述的方法，其特征在于，查找所述查询信息中的命中词，包括：

遍历预设词表查找与所述查询信息匹配的预设词；

将所述预设词确定为所述查询信息的命中词。

3.根据权利要求2所述的方法，其特征在于，所述预设词表包括与预设词对应的附加信息；

相应的，确定对应所述命中词的附加向量，包括，

在所述预设词表中查找与所述命中词对应的附加信息；

根据所述命中词和所述附加信息进行向量转换，得到所述附加向量。

4.根据权利要求1所述的方法，其特征在于，所述命中词为多个；

相应的，所述确定对应所述命中词的附加向量，包括：

判断所述多个命中词的数量是否超出数量阈值；

当所述多个命中词的数量未超出所述数量阈值时，根据所述多个命中词来确定所述附加向量。

5.根据权利要求4所述的方法，其特征在于,所述方法还包括：

当所述多个命中词的数量超出数量阈值时，从所述多个命令词中选取满足所述数量阈值的命中词，根据所选取的满足所述数量阈值的命中词来确定所述附加向量。

6.一种语义处理设备，其特征在于，所述设备包括：

获取模块，用于获取查询信息；

确定模块，用于确定对应所述查询信息的信息向量；

查找模块，用于查找所述查询信息中的命中词；

所述确定模块，还用于确定对应所述命中词的附加向量；

融合模块，用于对所述信息向量和所述附加向量进行融合，获得融合向量；

识别模块，用于对所述融合向量进行语义槽识别，获得对应所述查询信息的应答信息。

7.根据权利要求6所述的设备，其特征在于，所述查找模块，包括：

遍历子模块，用于遍历预设词表查找与所述查询信息匹配的预设词；

第一确定子模块，用于将所述预设词确定为所述查询信息的命中词。

8.根据权利要求7所述的设备，其特征在于，所述预设词表包括与预设词对应的附加信息；

相应的，所述确定模块，包括，

查找子模块，用于在所述预设词表中查找与所述命中词对应的附加信息；

转换子模块，用于根据所述命中词和所述附加信息进行向量转换，得到所述附加向量。

9.根据权利要求6所述的设备，其特征在于，所述命中词为多个；

相应的，所述确定模块，包括：

判断子模块，用于判断所述多个命中词的数量是否超出数量阈值；

第二确定子模块，用于当所述多个命中词的数量未超出所述数量阈值时，根据所述多个命中词来确定所述附加向量。

10.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-5任一项所述的语义处理方法。