CN106547753B

CN106547753B - 一种信息分析方法及电子设备

Info

Publication number: CN106547753B
Application number: CN201510591872.4A
Authority: CN
Inventors: 冯晓冰; 王飞; 徐浩; 许振兴
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2015-09-16
Filing date: 2015-09-16
Publication date: 2021-12-10
Anticipated expiration: 2035-09-16
Also published as: CN106547753A

Abstract

本发明公开了一种信息分析方法及电子设备，所述方法包括：从文本信息中获取到至少两个词汇信息；获取到所述至少两个词汇信息的属性集合；基于所述至少两个词汇信息，选取至少一个规则模板；利用所述至少两个词汇信息的属性集合中的至少一个属性值，以及所述至少一个规则模板中的规则部分以及属性值约束关系表达式，获取到所述文本信息对应的含义。

Description

一种信息分析方法及电子设备

技术领域

本发明涉及信息处理领域的信息分析技术，尤其涉及一种信息分析方法及电子设备。

背景技术

现有技术方案，通过规则模板+领域命名实体识别的方法来分析句子，没有利用领域命名实体的属性，以及命名实体属性间的关系。一般来说，一句完整的语句中，命名实体之间是有一定关系的，但是，目前采用现有技术方案无法获取到准确的语句含义。

发明内容

有鉴于此，本发明实施例提供一种信息分析方法及电子设备，能至少解决现有技术存在的上述问题。

本发明实施例提供了一种信息分析方法，所述方法包括：

从文本信息中获取到至少两个词汇信息；

获取到所述至少两个词汇信息的属性集合；其中，所述属性集合中包括有至少一个属性类型、每一个属性类型中包括属性值；

基于所述至少两个词汇信息，选取至少一个规则模板；其中，规则模板中包括：至少由属性类型构成的规则部分、以及属性值约束关系表达式；

利用所述至少两个词汇信息的属性集合中的至少一个属性值，以及所述至少一个规则模板中的规则部分以及属性值约束关系表达式，获取到所述文本信息对应的含义。

本发明实施例还提供了一种电子设备，包括：

文本信息处理单元，用于从文本信息中获取到至少两个词汇信息；

属性获取单元，用于获取到所述至少两个词汇信息的属性集合；其中，所述属性集合中包括有至少一个属性类型、每一个属性类型中包括属性值；

模板获取单元，用于基于所述至少两个词汇信息，选取至少一个规则模板；其中，规则模板中包括：至少由属性类型构成的规则部分、以及属性值约束关系表达式；

分析单元，用于利用所述至少两个词汇信息的属性集合中的至少一个属性值，以及所述至少一个规则模板中的规则部分以及属性值约束关系表达式，获取到所述文本信息对应的含义。

本发明实施例还提供了一种电子设备，包括：

处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器，用于运行所述计算机程序时，执行上述的信息分析方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于被处理器运行时执行：

从文本信息中获取到至少两个词汇信息；

上述方案中，所述计算机可执行指令还用于被处理器运行时执行：

设置词汇信息库，所述词汇信息库中包括有至少一个词汇信息，并且包括词汇信息对应的类别名、属性类型以及属性值；并且为每一个类别名设置对应的领域名称；

设置规则模板库，所述规则模板库中包括有领域名称对应的至少一个规则模板。

基于所述词汇信息库，分别获取到所述至少两个词汇信息的类别名；

基于所述至少两个词汇信息的类别名，确定所述至少两个词汇信息对应的领域名称；

基于所述领域名称，从所述规则模板库中获取到至少一个规则模板。

逐个从所述至少一个规则模板中提取规则模板；

当所述至少两个词汇信息的属性集合中的属性类型、与提取的所述规则模板的规则部分匹配时，利用所述至少两个词汇信息的属性集合中的至少一个属性值，以及提取的所述规则模板中的属性值约束关系表达式，获取至少两个词汇信息的属性约束关系；

基于所述至少两个词汇信息的属性约束关系，确定所述文本信息对应的含义。

若所述至少两个词汇信息的属性约束关系表征属性约束关系有效，则保存所述规则模板以及词汇信息至匹配列表；

对匹配列表中保存的规则模板以及词汇信息进行处理后，选取一个目标规则模板及其对应的词汇信息；

基于选取的目标规则模板及其对应的词汇信息，确定所述文本信息对应的含义。

本发明实施例所提供的信息分析方法及电子设备，能够从文本信息中提取得到词汇信息，获取到词汇信息的属性值，以及获取到词汇信息的规则模板；利用词汇信息的属性值以及规则模板中的规则部分以及属性值约束关系表达式，获取到所述文本信息对应的含义。如此，就能够结合词汇信息的属性值分析语音信息的含义，从而避免了现有技术中由于没有结合属性值进行约束关系分析而导致的语意分析准确性无法提升的问题。

附图说明

图1为本发明实施例信息分析方法流程示意图一；

图2为本发明实施例信息分析方法流程示意图二；

图3为本发明实施例包括有词汇信息及其属性类型和属性值的示例；

图4为本发明实施例电子设备组成结构示意图一；

图5为本发明实施例电子设备组成结构示意图二；

图6为本发明实施例电子设备组成结构示意图三；

图7为本发明实施例硬件实施结构图。

具体实施方式

下面结合附图及具体实施例对本发明实施例再作进一步详细的说明。

本发明实施例提供了一种信息分析方法，如图1所示，所述方法包括：

步骤101：从文本信息中获取到至少两个词汇信息；

步骤102：获取到所述至少两个词汇信息的属性集合；其中，所述属性集合中包括有至少一个属性类型、每一个属性类型中包括属性值；

步骤103：基于所述至少两个词汇信息，选取至少一个规则模板；其中，规则模板中包括：至少由属性类型构成的规则部分、以及属性值约束关系表达式；

步骤104：利用所述至少两个词汇信息的属性集合中的至少一个属性值，以及所述至少一个规则模板中的规则部分以及属性值约束关系表达式，获取到所述文本信息对应的含义。

这里，上述步骤101中文本信息的获取方式可以为：获取到用户输入的文本信息；

或者，还可以为将采集到的语音信息转换得到的文本信息所述获取到语音信息可以为由音频采集单元采集得到的语音信息；其中，所述音频采集单元可以为麦克风(MIC)。将所述语音信息转换为文本信息的方法可以为利用预设的语音文本转换软件进行转换。

所述从文本信息中获取到至少两个词汇信息，可以为将所述文本信息按照预设的分隔方式进行分隔，得到至少两个词汇信息；

其中，所述预设的分隔方式可以为：利用预设的词库与所述文本信息进行匹配，选取与词库匹配的词汇作为最终获取到的词汇信息。

优选地，如果用户输入的语音信息所转换的到的文本信息，具备多种分隔方式，可以逐个选取分隔方式进行划分，按照选中的分隔方式对文本信息进行划分并且完成后续的处理流程。

优选地，本实施例在执行步骤101之前，还可以对领域名称、词汇信息的类别名以及属性类型等参数进行设置，具体的，所述方法还包括：

所述获取到所述至少两个词汇信息的属性集合的方式可以包括：

分别从所述至少两词汇信息中提取到待匹配词汇信息；

将待匹配词汇信息与预设的词汇信息库中的全部词汇信息进行对比，选取到匹配的词汇信息，将匹配的词汇信息的类别名、属性类型以及属性值作为所述待匹配词汇信息的类别名、属性类型以及属性值。

示例：

小张：

其中，“小张”作为一个词汇信息，其属性集合有三种属性类型，分别为生日、歌曲、女朋友；这三种属性类型下面分别有至少一个属性值，比如，歌曲这个属性类型下具备了三个属性值分别为“A”“B”和“C”。

本实施例中规则模板中包括：至少由属性类型构成的规则部分、以及属性值约束关系表达式。

所述属性值约束关系表达式可以为利用预设的至少一种表达式关键词将规则部分中定义的各种词语组合得到的关系表达式。

其中，所述表达式关键词可以如表1所示：

表1

表1中，函数hollow_word_func，表示：获得第idx个regularitem的relatePos位置的空洞词relatePos:-1表示左边relatePos:1表示右边注意idx根据全部regularitem来编号。比如，hw(2,-1)表示第2个regularitem的左边空洞词

函数item_word_func表示：获得第idx个regularitem的原词或概念。注意idx根据全部regularitem来编号；比如，iw(1,word)则表示获取第1个regularitem的原词。

函数ne_attrib_key_func，表示获得第idx个NE的所有属性key。注意idx根据NE来编号；比如：nak(1),表示获得第1个NE的所有属性key

函数ne_attrib_value_func，表示：获得第idx个NE的关键字＝key的属性值。注意idx根据NE来编号。

函数nav(1，singer),表示获得第1个NE的singer对应的属性值。

相应的，本实施例中，所述基于所述至少两个词汇信息，选取至少一个规则模板，包括：

即得到了至少两个词汇信息之后，分别从词汇信息库中，选取所述词汇信息对应的类别名，进一步从词汇信息库中选取对应的领域名称。

另外，本实施例中所述属性值约束关系表达式都是真值表达式；表达式必须要用“{““}”来区分；表达式连接符：&&，||；表达式组成：操作元+操作符+操作元；操作元：字符串、函数、字符串数组；操作符：＝＝！＝nin in。

可见，通过采用上述方案，就能够从文本信息中提取得到词汇信息，获取到词汇信息的属性值，以及获取到词汇信息的规则模板；利用词汇信息的属性值以及规则模板中的规则部分以及属性值约束关系表达式，获取到所述文本信息对应的含义。如此，就能够结合词汇信息的属性值分析语音信息的含义，从而避免了现有技术中由于没有结合属性值进行约束关系分析而导致的语意分析准确性无法提升的问题。

步骤101：从文本信息中获取到至少两个词汇信息；

这里，所述从所述文本信息中获取到至少两个词汇信息，可以为将所述文本信息按照预设的分隔方式进行分隔，得到至少两个词汇信息；

优选地，如果文本信息，具备多种分隔方式，可以逐个选取分隔方式进行划分，按照选中的分隔方式对文本信息进行划分并且完成后续的处理流程。

分别从所述至少两词汇信息中提取到待匹配词汇信息；

所述属性值约束关系表达式可以为利用预设的至少一种表达式关键词将规则部分中定义的各种词语组合得到的关系表达式。其中，所述表达式关键词可以如表1所示。

优选地，本实施例中所述利用所述至少两个词汇信息的属性集合中的至少一个属性值，以及所述至少一个规则模板中的规则部分以及属性值约束关系表达式，获取到所述文本信息对应的含义，包括：

逐个从所述至少一个规则模板中提取规则模板；

判断所述至少两个词汇信息的属性集合中的属性类型、与提取的所述规则模板的规则部分是否匹配；

若两者匹配，则利用所述至少两个词汇信息的属性集合中的至少一个属性值，以及提取的所述规则模板中的属性值约束关系表达式，获取至少两个词汇信息的属性约束关系；

本实施例中所述两个词汇信息之间的属性约束关系可以包括：有效、无效两种。

进一步地，所述基于所述至少两个词汇信息的属性约束关系，确定所述文本信息对应的含义，包括：

上述对匹配列表中保存的规则模板以及词汇信息进行处理可以为：当匹配列表中包括有多个规则模板以及词汇信息时，可以进一步分析规则模板与所述文本信息的关联度，选取关联度最高的一个作为目标规则模板及其对应的词汇信息；其中，所述关联度可以为匹配列表的记录中包含的词汇信息与文本信息的关联度；

或者，选取包含有词汇信息最多的一个记录作为目标规则模板及其对应的词汇信息。

下面对本实施例提供的方案进行说明：首先，本示例的算法输入为句子文本串；算法输出为：规则模板和词汇信息。准备工作：建立词汇信息库以及规则模板信息库。算法流程，如图2所示，包括：

步骤21：基于文本信息的词汇信息，获得每个词汇的属性信息，从多个领域中选取一个领域；

步骤22：获取当前的领域的一个规则模板，判断规则模板是否为空，则返回步骤21继续下一个垂直领域，否则，执行步骤23；

步骤23：判断词汇信息与规则模板的规则部分是否匹配，若匹配则跳转步骤24，否则返回步骤22继续下一个规则模板；

步骤24：判断规则模板的属性值约束关系表达式返回是否为真，则是，则认为约束关系为有效，保存规则模板和词汇信息到匹配列表；继续下一个规则模板；

步骤25：对匹配列表中的规则模板进行消岐处理，输出最适合的规则模板和词汇信息，并基于最合适的规则模板和词汇信息确定所述文本信息的含义。

下面基于上述描述，提供示例：假设输入的语音信息转换为文本信息：“小张的女朋友”；那么，如图3所示，将上述文本信息划分为“小张”和“女朋友”两个词汇信息。其中，“小张”作为一个词汇信息，其属性集合有三种属性类型，分别为生日、歌曲、女朋友；这三种属性类型下面分别有至少一个属性值，比如，歌曲这个属性类型下具备了三个属性值分别为“A”“B”和“C”。“女朋友”作为第二个词汇信息，类别名为歌曲和通用词汇，对应的属性集合中具备一个属性类别“歌手”，在具体的属性值中有“小王”和“小李”两个。

假设，基于第一个词汇信息确定领域名称可以包括有音乐领域以及问答领域；音乐领域对应了规则模板一，问答领域对应了规则模板二；

其中，规则模板一如表2所示：

表2

规则模板二如表3所示：

规则	属性值约束关系表达式
		[人名/NE]+的+[通用词汇]	{{{iw(2，word)in nak(1)}}

表3

算法分析过程如下：

音乐领域处理：

词汇信息：[小张/歌手][的/][女朋友/歌名]

获得[小张/歌手]的信息，获得[女朋友/歌名]信息

对于规则模板：[歌手/NE]+的+[歌名/NE]

属性约束表达式{{{歌手nin nak(2)}||{nav(2,歌手)＝＝iw(1,word)}}}；

通过引擎解析这个表达式的解释就是：第二个NE词汇没有“歌手”属性，或者，第二个NE词汇的歌手属性值等于第一个NE词汇；

在本示例中，由于第二个NE词汇[女朋友/歌名]的歌手属性值＝“小王；小李”，其中不包含第一个NE词汇小张，所以该约束表达式返回假，从而该规则模板不能生效。

问答领域处理：

问答领域分词：[小张/人名][的/][女朋友/通用词汇]

获得[小张]的信息

对于规则模板：

[人名/NE]+的+[通用词汇]{{{iw(2，word)in nak(1)}}

通过属性约束表达式引擎解析这个表达式的解释就是：

第二个词汇[女朋友]在第一个NE词汇的属性列表里，所以改约束表达式有效。保存规则和词汇分割。

算法输出：{[人名/NE]+的+[通用词汇]：小张/人名，的/，女朋友/通用词汇。

本发明实施例提供了一种电子设备，如图4所示，包括：

文本信息处理单元41，用于从文本信息中获取到至少两个词汇信息；

属性获取单元42，用于获取到所述至少两个词汇信息的属性集合；其中，所述属性集合中包括有至少一个属性类型、每一个属性类型中包括属性值；

模板获取单元43，用于基于所述至少两个词汇信息，选取至少一个规则模板；其中，规则模板中包括：至少由属性类型构成的规则部分、以及属性值约束关系表达式；

分析单元44，用于利用所述至少两个词汇信息的属性集合中的至少一个属性值，以及所述至少一个规则模板中的规则部分以及属性值约束关系表达式，获取到所述文本信息对应的含义。

优选地，本实施例提供的电子设备除了上述图4所述的模块之外，还可以如图5所示，包括有音频采集单元45，用于获取到语音信息，进而将语音信息转换为文本信息发送给文本信息处理单元41；其中，所述音频采集单元可以为麦克风(MIC)。将所述语音信息转换为文本信息的方法可以为利用预设的语音文本转换软件进行转换。

所述从所述文本信息中获取到至少两个词汇信息，可以为将所述文本信息按照预设的分隔方式进行分隔，得到至少两个词汇信息；其中，所述预设的分隔方式可以为：利用预设的词库与所述文本信息进行匹配，选取与词库匹配的词汇作为最终获取到的词汇信息。

优选地，如图6所示，除了上述图5以及图4所示的结构之外，所述电子设备还包括：存储单元46，用于设置词汇信息库，所述词汇信息库中包括有至少一个词汇信息，并且包括词汇信息对应的类别名、属性类型以及属性值；并且为每一个类别名设置对应的领域名称；设置规则模板库，所述规则模板库中包括有领域名称对应的至少一个规则模板。

属性获取单元42，用于分别从所述至少两词汇信息中提取到待匹配词汇信息；将待匹配词汇信息与预设的词汇信息库中的全部词汇信息进行对比，选取到匹配的词汇信息，将匹配的词汇信息的类别名、属性类型以及属性值作为所述待匹配词汇信息的类别名、属性类型以及属性值。

相应的，本实施例中，所述模板获取单元43，用于基于所述词汇信息库，分别获取到所述至少两个词汇信息的类别名；基于所述至少两个词汇信息的类别名，确定所述至少两个词汇信息对应的领域名称；基于所述领域名称，从所述规则模板库中获取到至少一个规则模板。

优选地，本实施例中所述分析单元，用于逐个从所述至少一个规则模板中提取规则模板；判断所述至少两个词汇信息的属性集合中的属性类型、与提取的所述规则模板的规则部分是否匹配；若两者匹配，则利用所述至少两个词汇信息的属性集合中的至少一个属性值，以及提取的所述规则模板中的属性值约束关系表达式，获取至少两个词汇信息的属性约束关系；基于所述至少两个词汇信息的属性约束关系，确定所述文本信息对应的含义。

进一步地，所述分析单元，用于若所述至少两个词汇信息的属性约束关系表征属性约束关系有效，则保存所述规则模板以及词汇信息至匹配列表；对匹配列表中保存的规则模板以及词汇信息进行处理后，选取一个目标规则模板及其对应的词汇信息；基于选取的目标规则模板及其对应的词汇信息，确定所述文本信息对应的含义。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例基于上述设备实施例提供一个具体的硬件，如图7所示，所述装置包括处理器72、存储介质74以及至少一个外部通信接口71；所述处理器72、存储介质74以及外部通信接口71均通过总线73连接。所述处理器72可为微处理器、中央处理器、数字信号处理器或可编程逻辑阵列等具有处理功能的电子元器件。所述存储介质中存储有计算机可执行代码。

所述硬件可以为所述服务器。所述处理器执行所述计算机可执行代码时，至少能实现以下功能：从文本信息中获取到至少两个词汇信息；获取到所述至少两个词汇信息的属性集合；基于所述至少两个词汇信息，选取至少一个规则模板；利用所述至少两个词汇信息的属性集合中的至少一个属性值，以及所述至少一个规则模板中的规则部分以及属性值约束关系表达式，获取到所述文本信息对应的含义。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种信息分析方法，其特征在于，所述方法包括：

从文本信息中获取到至少两个词汇信息；

基于所述至少两个词汇信息，选取至少一个规则模板；其中，规则模板中包括：至少由属性类型构成的规则部分、以及属性值约束关系表达式，所述属性值约束关系表达式，为利用预设的至少一种表达式关键词将规则部分中定义的各种词语组合得到；

针对所述至少一个规则模板中的各规则模板执行以下处理，以得到保存有多个规则模板以及相应的词汇信息的匹配列表：当所述至少两个词汇信息的属性集合中的属性类型、与所述规则模板的规则部分匹配时，利用所述至少两个词汇信息的属性集合中的至少一个属性值，以及提取的所述规则模板中的属性值约束关系表达式，获取至少两个词汇信息的属性约束关系；当所述至少两个词汇信息的属性约束关系为有效时，则保存所述规则模板以及词汇信息至匹配列表；

从所述匹配列表中，选取与所述文本信息的关联度最高的规则模板或者所对应词汇信息最多的规则模版，作为目标规则模板，并获取所述目标规则模版对应的词汇信息；

基于所述目标规则模板、及所述目标规则模板对应的词汇信息，确定所述文本信息对应的含义。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述至少两个词汇信息，选取至少一个规则模板，包括：

4.一种电子设备，其特征在于，包括：

模板获取单元，用于基于所述至少两个词汇信息，选取至少一个规则模板；其中，规则模板中包括：至少由属性类型构成的规则部分、以及属性值约束关系表达式，所述属性值约束关系表达式，为利用预设的至少一种表达式关键词将规则部分中定义的各种词语组合得到；

分析单元，用于针对所述至少一个规则模板中的各规则模板执行以下处理，以得到保存有多个规则模板以及相应的词汇信息的匹配列表：当所述至少两个词汇信息的属性集合中的属性类型、与所述规则模板的规则部分匹配时，利用所述至少两个词汇信息的属性集合中的至少一个属性值，以及提取的所述规则模板中的属性值约束关系表达式，获取至少两个词汇信息的属性约束关系；当所述至少两个词汇信息的属性约束关系为有效时，则保存所述规则模板以及词汇信息至匹配列表；

5.根据权利要求4所述的电子设备，其特征在于，所述电子设备还包括：

存储单元，用于设置词汇信息库，所述词汇信息库中包括有至少一个词汇信息，并且包括词汇信息对应的类别名、属性类型以及属性值；并且为每一个类别名设置对应的领域名称；设置规则模板库，所述规则模板库中包括有领域名称对应的至少一个规则模板。

6.根据权利要求5所述的电子设备，其特征在于，所述模板获取单元，用于基于存储单元中的所述词汇信息库，分别获取到所述至少两个词汇信息的类别名；基于所述至少两个词汇信息的类别名，确定所述至少两个词汇信息对应的领域名称；基于所述领域名称，从所述规则模板库中获取到至少一个规则模板。

7.一种电子设备，其特征在于，包括：

所述处理器，用于运行所述计算机程序时，执行权利要求1至3任一项所述的信息分析方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于被处理器运行时执行：

从文本信息中获取到至少两个词汇信息；

9.根据权利要求8所述的计算机可读存储介质，其特征在于，所述计算机可执行指令还用于被处理器运行时执行：

10.根据权利要求9所述的计算机可读存储介质，其特征在于，所述计算机可执行指令还用于被处理器运行时执行：