CN111785350A

CN111785350A - 一种信息提取的方法、应用、装置及介质

Info

Publication number: CN111785350A
Application number: CN202010621729.6A
Authority: CN
Inventors: 游海涛; 吴昊; 王琳; 杨丰佳; 林荣; 梁兴通; 徐华卿
Original assignee: Ylz Information Technology Co ltd
Current assignee: Ylz Information Technology Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-16
Anticipated expiration: 2040-06-30
Also published as: CN111785350B

Abstract

本发明提供一种信息提取的方法、应用、装置及介质，方法包括：生成训练数据，所述训练数据的句子已标记句子的类别及句子中所有实体名称；使用所述训练数据通过双向循环神经网络的方法建立意图分析模型；使用所述训练数据通过双向循环神经网络和条件随机场建立通用实体提取模型，和各个意图下的实体提取模型；模型训练完成后，通过意图分析模型判断用户的意图，对句子进行分类，分类为意图的多个维度；进入通用实体提取模型提取基本信息实体，再通过该意图下的命名实体模型，提取剩余实体；根据提取的实体进行细粒度分析；根据细粒度分析结果生成反馈的信息反馈给用户。本方法提取信息准确，支持语音录入稀松平常的句子，优良的多维信息反馈。

Description

一种信息提取的方法、应用、装置及介质

技术领域

本发明涉及信息提取领域，特别涉及一种信息提取的方法、应用、装置及介质。

背景技术

随着生活水平的提高、对健康生活的愈加重视。人们使用各种APP监控自己的健康数据。传统APP健康维度少，操作复杂，有的APP甚至需要手动计算细粒度结果再录入给APP。这种速度慢、录入不准确的问题，已无法顺应科技日新月异的发展。如今人们需要更快速，便捷，随心所欲的平台来得知自己的健康情况。不论是起床还没睁眼时，还是开车无法解放双手时，只要想起自身与健康有关事宜时都能轻松录入信息。

APP：health，对用户来说每天查询相关食物的营养元素，再根据今天吃的量来填入APP，需要耗费大量的时间和精力。APP：薄荷健康，移动健康，可使用APP内的搜索功能，点击填入数量、单位、时间、等信息，帮你记录并分析个人综合的健康情况，薄荷健康主要为饮食方面，移动健康主要为体征心理方面。虽然比IOS的health方便一些，依然是需要手动搜索食物，并调整时间、数量等参数。APP：妙健康，比薄荷健康多了语音录入功能，但仅仅只是把语音结果输入APP内的搜索功能中。该APP无法解析句子，且不能补充说明单位和量词等参数。

现有技术无法很好的录入健康数据，提取信息不准确，反馈信息不健全。

发明内容

为解决现有技术无法很好的录入健康数据，提取信息不准确，反馈信息不健全的问题，本发明提供的一种信息提取的方法、应用、装置及介质，可以解决提取信息不准确的问题，可以轻松便捷地录入健康数据，录入的健康维度多，反馈的信息准确。

第一方面，本申请实施例提供了一种信息提取方法，包括步骤如下：

生成训练数据，所述训练数据的句子已标记句子的类别及句子中所有实体名称；

使用所述训练数据通过双向循环神经网络的方法建立意图分析模型；

使用所述训练数据通过双向循环神经网络和条件随机场建立通用实体提取模型，和各个意图下的实体提取模型；

模型训练完成后，通过意图分析模型判断用户的意图，对句子进行分类，分类为意图的多个维度；

进入通用实体提取模型提取基本信息实体，再通过该意图下的命名实体模型，提取剩余实体；

根据提取的实体进行细粒度分析；

根据细粒度分析结果生成反馈的信息反馈给用户。

进一步地，所述进行的意图分析，是将用户意图分为不同的维度进行分类，进行不同的处理和分析，通过以下步骤进行意图分析：

根据Wiki100.utf8将句中词组映射成多维向量；

将所述多维向量传入双向的LSTM循环神经网络内，生成包含从前到后以及从后到前的语义encoder信息向量；

所述信息向量结合Softmax层输出判定为各个类别的几率；

选取获得最大几率的类别作为分类结果。

进一步地，所述命名实体提取模型，使用多层的LSTM+CRF，通过以下步骤进行命名实体提取：

先把每个字根据Wiki100.utf8映射成字嵌入；

将字嵌入word Embedding作为模型的输入；

用BI–LSTM+CRF神经网络自动提取特征；

根据所述特征使用Softmax预测每个词的标签并提取实体。

进一步地，在根据所述提取实体后再对实体进行细粒度分析；所述细粒度分析可以根据不同场景设置不同情况，并利用实体信息通过数据库映射或者正则表达式得出详细信息。

进一步地，根据所述细粒度分析结果，根据不同用户和应用场景制定出不一样的模板形式反馈给用户。

第二方面，本申请实施例提供了一种采用上述任一项所述的信息提取方法在健康方面的应用。

进一步地，利用正则表达式生成时间模型，通过时间模型计算出正规化后的时间点。

进一步地，训练五个命名实体模型，其一为通用提取模型，提取时间点，地点，人物，时间区间；其二为饮食维度模型，提取食物名称、食物单位、食物数量；其三为体征维度模型，提取体重、体温、心率、收缩压、舒张压；其四为行为习惯维度模型，提取睡眠、运动；其五为感受维度模型，提取部位、感觉。

进一步地，细粒度分析，分为五个维度进行分析，通用分析、摄入营养分析、体征分析、行为分析、感受分析。

进一步地，通用分析解析结果若出现多个单位、数值或实体名称时，则使用以下判断方法确定单位实体或量词实体所对应的名词实体：

若有标点截断，视为第二个句子，不与第一个句子一同处理；

若出现量词或数词，前文不存在名词实体，之后出现的第一个名词实体，作为该量词或数词所对应的实体；

不符合以上规则的以索引距离的最小值来计算量词或数词最近的名词实体判定所属关系。

第三方面，本申请实施例提供了一种信息提取装置，所述装置包括：

训练模块，用于生成训练数据，所述训练数据的句子已标记句子的类别及句子中所有实体名称；用于使用所述训练数据通过双向循环神经网络的方法建立意图分析模型；用于使用所述训练数据通过双向循环神经网络和条件随机场建立通用实体提取模型，和各个意图下的实体提取模型；

意图分析模块，用于模型训练完成后，通过意图分析模型判断用户的意图，对句子进行分类，分类为意图的多个维度；

命名实体提取模块，用于进入通用实体提取模型提取基本信息实体，再通过该意图下的命名实体模型，提取剩余实体；

细粒度分析模块，用于根据提取的实体进行细粒度分析；

反馈模块，用于根据细粒度分析结果生成反馈的信息反馈给用户。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机被处理器执行时实现如上述任一项所述的信息提取方法。

与现有技术相比，本发明提供的一种信息提取的方法、应用、装置及介质，利用意图分析、命名实体提取的多层的LSTM+CRF和细粒度分析，实现了信息的准确提取和信息的优质反馈，支持语音录入稀松平常的句子，提取有用实体，支持各种语法逻辑，适用于各类人群；实现了信息的多维度录入，信息的多维度提取，信息的多维度反馈。可以利用规则确定单位或量词所对应的名词，可以正规化时间。可以录入非常广泛和健康相关的维度，这些用户信息不止被用于反馈给客户自己的健康情况，还可以构建知识图谱等结构，分析挖掘更深层次的用户特质，如消费观，个人标签等。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种信息提取方法的实施例的流程示意图；

图2为本发明提供的一种信息提取方法的实施例的流程示意图；

图3为本发明提供的一种信息提取方法的实施例的流程示意图；

图4为本发明提供的一种信息提取方法在健康方面的应用的实施例的架构示意图；

图5为本发明提供的一种信息提取装置的实施例的架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所设计的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例一

本发明提供一种信息提取方法，如图1-3所示，包括步骤如下：

S100：生成训练数据，所述训练数据的句子已标记句子的类别及句子中所有实体名称；

具体实施时，所述S100训练数据的生成，使用开源工具Chatito，模板式的生成数据，该方法生成的句子已标记句子的类别，以及句子中所有实体名称；其需要根据客户日常录入逻辑，手动的编写模板，模板下的元素则来源于网络上的相关数据、随机生成、手工编写。

S200：使用所述训练数据通过双向循环神经网络的方法建立意图分析模型；

S300：使用所述训练数据通过双向循环神经网络和条件随机场建立通用实体提取模型，和各个意图下的实体提取模型；

S400：模型训练完成后，通过意图分析模型判断用户的意图，对句子进行分类，分类为意图的多个维度；

具体实施时，所述S400进行的意图分析，是将用户意图分为不同的维度进行分类，进行不同的处理和分析，通过以下步骤进行意图分析：

S401：根据Wiki100.utf8将句中词组映射成多维向量；

S402：将所述多维向量传入双向的LSTM循环神经网络内，生成包含从前到后以及从后到前的语义encoder信息向量；

S403：所述信息向量结合Softmax层输出判定为各个类别的几率；

S404：选取获得最大几率的类别作为分类结果，设定当输出几率存在大于55％的情况下，判定完成此分类任务,否则将该文本输入一个seq2seq的寒暄模型中，进行普通的聊天反馈。

S500：进入通用实体提取模型提取基本信息实体，再通过该意图下的命名实体模型，提取剩余实体；

具体实施时，所述S500命名实体提取模型，使用多层的LSTM+CRF，通过以下步骤进行命名实体提取：

S501：先把每个字根据Wiki100.utf8映射成字嵌入；

S502：将字嵌入word Embedding作为模型的输入；

S503：用BI–LSTM+CRF神经网络自动提取特征；

S504：根据所述特征使用Softmax预测每个词的标签并提取实体。

S600：根据提取的实体进行细粒度分析；

具体实施时，在根据所述提取实体后再对实体进行细粒度分析；所述细粒度分析可以根据不同场景设置不同情况，并利用实体信息通过数据库映射或者正则表达式得出详细信息。

S700：根据细粒度分析结果生成反馈的信息反馈给用户。

具体实施时，根据所述细粒度分析结果，根据不同用户和应用场景制定出不一样的模板形式反馈给用户。

本发明实施例提供的一种信息提取的方法，利用意图分析、命名实体提取的多层的LSTM+CRF和细粒度分析，实现了信息的准确提取和信息的优质反馈，支持语音录入稀松平常的句子，提取有用实体，支持各种语法逻辑，适用于各类人群；实现了信息的多维度录入，信息的多维度提取，信息的多维度反馈。

实施例二

本发明还提供一种信息提取方法在健康方面的应用，如图4所示。

具体实施时，利用正则表达式生成时间模型，通过时间模型计算出正规化后的时间点。

具体地，主要以关于健康的四个维度进行相应的反馈，四个维度为“饮食”，“体征”，“行为”，“感受”，新增第五个维度“其它”和前文中的四个维度一起训练；该维度数据为社区聊天数据中人工筛选出的不含其他四个维度数据；当分类结果为其它，也将该文本输入寒暄模型，进行对用户的反馈。

具体地，训练五个命名实体模型，其一为通用提取模型，提取时间点，地点，人物，时间区间；其二为饮食维度模型，提取食物名称、食物单位、食物数量；其三为体征维度模型，提取体重、体温、心率、收缩压、舒张压；其四为行为习惯维度模型，提取睡眠、运动；其五为感受维度模型，提取部位、感觉。

具体地，细粒度分析，分为五个维度进行分析，通用分析、摄入营养分析、体征分析、行为分析、感受分析。

具体地，所述通用分析，用于正规化时间到具体时间，提取出时间点和时间区间，时间正规化还支持各时间段的节日、节气；还用于提取多个数值和单位的实体，计算量词或数词最近的名词实体判定所属关系；还用于地址转经纬度；所述摄入营养分析，用于在后台数据库存有各食物的卡路里、蛋白质、碳水等营养素，得到的用户食物数据可通过数据库映射成相应的营养素，以便进行累计的营养素分析和总的健康状况分析；所述体征分析，用于根据体重、体温、心率等体征数据分析出健康状况。

具体地，通用分析解析结果若出现多个单位、数值或实体名称时，则使用以下判断方法确定单位实体或量词实体所对应的名词实体：

具体实施时，如当用户输入“昨天吃了两个好吃的苹果，很开心。”***将反馈信息如下：2020.05.27-23:59:59；2个苹果；能量4620.00千卡54.00％；蛋白质0.00克0.00％；脂肪33.90克0.00％；碳水172.80克3.00％；钠0.00毫克0.00％。

可以看出反馈信息的很准确，很详细，准确提取出了时间信息和所吃的两个苹果，对苹果的营养进行分析。

与现有技术相比，本发明提供的一种信息提取的方法及应用，利用意图分析、命名实体提取的多层的LSTM+CRF和细粒度分析，实现了信息的准确提取和信息的优质反馈，支持语音录入稀松平常的句子，提取有用实体，支持各种语法逻辑，适用于各类人群；实现了信息的多维度录入，信息的多维度提取，信息的多维度反馈。可以利用规则确定单位或量词所对应的名词，可以正规化时间。可以录入非常广泛和健康相关的维度，这些用户信息不止被用于反馈给客户自己的健康情况，还可以构建知识图谱等结构，分析挖掘更深层次的用户特质，如消费观，个人标签等。

实施例三

本发明还提供一种信息提取装置，如图5所示，所述装置包括：

细粒度分析模块，用于根据提取的实体进行细粒度分析；

实施例四

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时可实现上述任一项所述的信息提取方法。

具体实施时，计算机可读存储介质为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；计算机可读存储介质还可以包括上述种类的存储器的组合。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种信息提取方法，其特征在于，包括步骤如下：

S600：根据提取的实体进行细粒度分析；

S700：根据细粒度分析结果生成反馈的信息反馈给用户。

2.根据权利要求1所述的信息提取方法，其特征在于：所述S400进行的意图分析，是将用户意图分为不同的维度进行分类，进行不同的处理和分析，通过以下步骤进行意图分析：

S401：根据Wiki100.utf8将句中词组映射成多维向量；

S404：选取获得最大几率的类别作为分类结果。

3.根据权利要求1所述的信息提取方法，其特征在于：所述S500命名实体提取模型，使用多层的LSTM+CRF，通过以下步骤进行命名实体提取：

S501：先把每个字根据Wiki100.utf8映射成字嵌入；

S502：将字嵌入word Embedding作为模型的输入；

S503：用BI–LSTM+CRF神经网络自动提取特征；

4.根据权利要求1所述的信息提取方法，其特征在于：在根据所述提取实体后再对实体进行细粒度分析；所述细粒度分析可以根据不同场景设置不同情况，并利用实体信息通过数据库映射或者正则表达式得出详细信息。

5.根据权利要求1所述的信息提取方法，其特征在于：根据所述细粒度分析结果，根据不同用户和应用场景制定出不一样的模板形式反馈给用户。

6.一种采用如权利要求1-5任一项所述的信息提取方法在健康方面的应用。

7.根据权利要求6所述的信息提取方法在健康方面的应用，其特征在于：利用正则表达式生成时间模型，通过时间模型计算出正规化后的时间点。

8.根据权利要求6所述的信息提取方法在健康方面的应用，其特征在于：训练五个命名实体模型，其一为通用提取模型，提取时间点，地点，人物，时间区间；其二为饮食维度模型，提取食物名称、食物单位、食物数量；其三为体征维度模型，提取体重、体温、心率、收缩压、舒张压；其四为行为习惯维度模型，提取睡眠、运动；其五为感受维度模型，提取部位、感觉。

9.根据权利要求6所述的信息提取方法在健康方面的应用，其特征在于：细粒度分析，分为五个维度进行分析，通用分析、摄入营养分析、体征分析、行为分析、感受分析。

10.根据权利要求9所述的信息提取方法在健康方面的应用，其特征在于：通用分析解析结果若出现多个单位、数值或实体名称时，则使用以下判断方法确定单位实体或量词实体所对应的名词实体：

11.一种信息提取装置，其特征在于，所述装置包括：

细粒度分析模块，用于根据提取的实体进行细粒度分析；

12.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机指令，所述计算机被处理器执行时实现如权利要求1-5任一项所述的信息提取方法。