CN111785350A - 一种信息提取的方法、应用、装置及介质 - Google Patents

一种信息提取的方法、应用、装置及介质 Download PDF

Info

Publication number
CN111785350A
CN111785350A CN202010621729.6A CN202010621729A CN111785350A CN 111785350 A CN111785350 A CN 111785350A CN 202010621729 A CN202010621729 A CN 202010621729A CN 111785350 A CN111785350 A CN 111785350A
Authority
CN
China
Prior art keywords
model
entity
analysis
intention
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010621729.6A
Other languages
English (en)
Other versions
CN111785350B (zh
Inventor
游海涛
吴昊
王琳
杨丰佳
林荣
梁兴通
徐华卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ylz Information Technology Co ltd
Original Assignee
Ylz Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ylz Information Technology Co ltd filed Critical Ylz Information Technology Co ltd
Priority to CN202010621729.6A priority Critical patent/CN111785350B/zh
Publication of CN111785350A publication Critical patent/CN111785350A/zh
Application granted granted Critical
Publication of CN111785350B publication Critical patent/CN111785350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/60ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to nutrition control, e.g. diets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Nutrition Science (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供一种信息提取的方法、应用、装置及介质,方法包括:生成训练数据,所述训练数据的句子已标记句子的类别及句子中所有实体名称;使用所述训练数据通过双向循环神经网络的方法建立意图分析模型;使用所述训练数据通过双向循环神经网络和条件随机场建立通用实体提取模型,和各个意图下的实体提取模型;模型训练完成后,通过意图分析模型判断用户的意图,对句子进行分类,分类为意图的多个维度;进入通用实体提取模型提取基本信息实体,再通过该意图下的命名实体模型,提取剩余实体;根据提取的实体进行细粒度分析;根据细粒度分析结果生成反馈的信息反馈给用户。本方法提取信息准确,支持语音录入稀松平常的句子,优良的多维信息反馈。

Description

一种信息提取的方法、应用、装置及介质
技术领域
本发明涉及信息提取领域,特别涉及一种信息提取的方法、应用、装置及介质。
背景技术
随着生活水平的提高、对健康生活的愈加重视。人们使用各种APP监控自己的健康数据。传统APP健康维度少,操作复杂,有的APP甚至需要手动计算细粒度结果再录入给APP。这种速度慢、录入不准确的问题,已无法顺应科技日新月异的发展。如今人们需要更快速,便捷,随心所欲的平台来得知自己的健康情况。不论是起床还没睁眼时,还是开车无法解放双手时,只要想起自身与健康有关事宜时都能轻松录入信息。
APP:health,对用户来说每天查询相关食物的营养元素,再根据今天吃的量来填入APP,需要耗费大量的时间和精力。APP:薄荷健康,移动健康,可使用APP内的搜索功能,点击填入数量、单位、时间、等信息,帮你记录并分析个人综合的健康情况,薄荷健康主要为饮食方面,移动健康主要为体征心理方面。虽然比IOS的health方便一些,依然是需要手动搜索食物,并调整时间、数量等参数。APP:妙健康,比薄荷健康多了语音录入功能,但仅仅只是把语音结果输入APP内的搜索功能中。该APP无法解析句子,且不能补充说明单位和量词等参数。
现有技术无法很好的录入健康数据,提取信息不准确,反馈信息不健全。
发明内容
为解决现有技术无法很好的录入健康数据,提取信息不准确,反馈信息不健全的问题,本发明提供的一种信息提取的方法、应用、装置及介质,可以解决提取信息不准确的问题,可以轻松便捷地录入健康数据,录入的健康维度多,反馈的信息准确。
第一方面,本申请实施例提供了一种信息提取方法,包括步骤如下:
生成训练数据,所述训练数据的句子已标记句子的类别及句子中所有实体名称;
使用所述训练数据通过双向循环神经网络的方法建立意图分析模型;
使用所述训练数据通过双向循环神经网络和条件随机场建立通用实体提取模型,和各个意图下的实体提取模型;
模型训练完成后,通过意图分析模型判断用户的意图,对句子进行分类,分类为意图的多个维度;
进入通用实体提取模型提取基本信息实体,再通过该意图下的命名实体模型,提取剩余实体;
根据提取的实体进行细粒度分析;
根据细粒度分析结果生成反馈的信息反馈给用户。
进一步地,所述进行的意图分析,是将用户意图分为不同的维度进行分类,进行不同的处理和分析,通过以下步骤进行意图分析:
根据Wiki100.utf8将句中词组映射成多维向量;
将所述多维向量传入双向的LSTM循环神经网络内,生成包含从前到后以及从后到前的语义encoder信息向量;
所述信息向量结合Softmax层输出判定为各个类别的几率;
选取获得最大几率的类别作为分类结果。
进一步地,所述命名实体提取模型,使用多层的LSTM+CRF,通过以下步骤进行命名实体提取:
先把每个字根据Wiki100.utf8映射成字嵌入;
将字嵌入word Embedding作为模型的输入;
用BI–LSTM+CRF神经网络自动提取特征;
根据所述特征使用Softmax预测每个词的标签并提取实体。
进一步地,在根据所述提取实体后再对实体进行细粒度分析;所述细粒度分析可以根据不同场景设置不同情况,并利用实体信息通过数据库映射或者正则表达式得出详细信息。
进一步地,根据所述细粒度分析结果,根据不同用户和应用场景制定出不一样的模板形式反馈给用户。
第二方面,本申请实施例提供了一种采用上述任一项所述的信息提取方法在健康方面的应用。
进一步地,利用正则表达式生成时间模型,通过时间模型计算出正规化后的时间点。
进一步地,训练五个命名实体模型,其一为通用提取模型,提取时间点,地点,人物,时间区间;其二为饮食维度模型,提取食物名称、食物单位、食物数量;其三为体征维度模型,提取体重、体温、心率、收缩压、舒张压;其四为行为习惯维度模型,提取睡眠、运动;其五为感受维度模型,提取部位、感觉。
进一步地,细粒度分析,分为五个维度进行分析,通用分析、摄入营养分析、体征分析、行为分析、感受分析。
进一步地,通用分析解析结果若出现多个单位、数值或实体名称时,则使用以下判断方法确定单位实体或量词实体所对应的名词实体:
若有标点截断,视为第二个句子,不与第一个句子一同处理;
若出现量词或数词,前文不存在名词实体,之后出现的第一个名词实体,作为该量词或数词所对应的实体;
不符合以上规则的以索引距离的最小值来计算量词或数词最近的名词实体判定所属关系。
第三方面,本申请实施例提供了一种信息提取装置,所述装置包括:
训练模块,用于生成训练数据,所述训练数据的句子已标记句子的类别及句子中所有实体名称;用于使用所述训练数据通过双向循环神经网络的方法建立意图分析模型;用于使用所述训练数据通过双向循环神经网络和条件随机场建立通用实体提取模型,和各个意图下的实体提取模型;
意图分析模块,用于模型训练完成后,通过意图分析模型判断用户的意图,对句子进行分类,分类为意图的多个维度;
命名实体提取模块,用于进入通用实体提取模型提取基本信息实体,再通过该意图下的命名实体模型,提取剩余实体;
细粒度分析模块,用于根据提取的实体进行细粒度分析;
反馈模块,用于根据细粒度分析结果生成反馈的信息反馈给用户。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机被处理器执行时实现如上述任一项所述的信息提取方法。
与现有技术相比,本发明提供的一种信息提取的方法、应用、装置及介质,利用意图分析、命名实体提取的多层的LSTM+CRF和细粒度分析,实现了信息的准确提取和信息的优质反馈,支持语音录入稀松平常的句子,提取有用实体,支持各种语法逻辑,适用于各类人群;实现了信息的多维度录入,信息的多维度提取,信息的多维度反馈。可以利用规则确定单位或量词所对应的名词,可以正规化时间。可以录入非常广泛和健康相关的维度,这些用户信息不止被用于反馈给客户自己的健康情况,还可以构建知识图谱等结构,分析挖掘更深层次的用户特质,如消费观,个人标签等。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种信息提取方法的实施例的流程示意图;
图2为本发明提供的一种信息提取方法的实施例的流程示意图;
图3为本发明提供的一种信息提取方法的实施例的流程示意图;
图4为本发明提供的一种信息提取方法在健康方面的应用的实施例的架构示意图;
图5为本发明提供的一种信息提取装置的实施例的架构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所设计的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例一
本发明提供一种信息提取方法,如图1-3所示,包括步骤如下:
S100:生成训练数据,所述训练数据的句子已标记句子的类别及句子中所有实体名称;
具体实施时,所述S100训练数据的生成,使用开源工具Chatito,模板式的生成数据,该方法生成的句子已标记句子的类别,以及句子中所有实体名称;其需要根据客户日常录入逻辑,手动的编写模板,模板下的元素则来源于网络上的相关数据、随机生成、手工编写。
S200:使用所述训练数据通过双向循环神经网络的方法建立意图分析模型;
S300:使用所述训练数据通过双向循环神经网络和条件随机场建立通用实体提取模型,和各个意图下的实体提取模型;
S400:模型训练完成后,通过意图分析模型判断用户的意图,对句子进行分类,分类为意图的多个维度;
具体实施时,所述S400进行的意图分析,是将用户意图分为不同的维度进行分类,进行不同的处理和分析,通过以下步骤进行意图分析:
S401:根据Wiki100.utf8将句中词组映射成多维向量;
S402:将所述多维向量传入双向的LSTM循环神经网络内,生成包含从前到后以及从后到前的语义encoder信息向量;
S403:所述信息向量结合Softmax层输出判定为各个类别的几率;
S404:选取获得最大几率的类别作为分类结果,设定当输出几率存在大于55%的情况下,判定完成此分类任务,否则将该文本输入一个seq2seq的寒暄模型中,进行普通的聊天反馈。
S500:进入通用实体提取模型提取基本信息实体,再通过该意图下的命名实体模型,提取剩余实体;
具体实施时,所述S500命名实体提取模型,使用多层的LSTM+CRF,通过以下步骤进行命名实体提取:
S501:先把每个字根据Wiki100.utf8映射成字嵌入;
S502:将字嵌入word Embedding作为模型的输入;
S503:用BI–LSTM+CRF神经网络自动提取特征;
S504:根据所述特征使用Softmax预测每个词的标签并提取实体。
S600:根据提取的实体进行细粒度分析;
具体实施时,在根据所述提取实体后再对实体进行细粒度分析;所述细粒度分析可以根据不同场景设置不同情况,并利用实体信息通过数据库映射或者正则表达式得出详细信息。
S700:根据细粒度分析结果生成反馈的信息反馈给用户。
具体实施时,根据所述细粒度分析结果,根据不同用户和应用场景制定出不一样的模板形式反馈给用户。
本发明实施例提供的一种信息提取的方法,利用意图分析、命名实体提取的多层的LSTM+CRF和细粒度分析,实现了信息的准确提取和信息的优质反馈,支持语音录入稀松平常的句子,提取有用实体,支持各种语法逻辑,适用于各类人群;实现了信息的多维度录入,信息的多维度提取,信息的多维度反馈。
实施例二
本发明还提供一种信息提取方法在健康方面的应用,如图4所示。
具体实施时,利用正则表达式生成时间模型,通过时间模型计算出正规化后的时间点。
具体地,主要以关于健康的四个维度进行相应的反馈,四个维度为“饮食”,“体征”,“行为”,“感受”,新增第五个维度“其它”和前文中的四个维度一起训练;该维度数据为社区聊天数据中人工筛选出的不含其他四个维度数据;当分类结果为其它,也将该文本输入寒暄模型,进行对用户的反馈。
具体地,训练五个命名实体模型,其一为通用提取模型,提取时间点,地点,人物,时间区间;其二为饮食维度模型,提取食物名称、食物单位、食物数量;其三为体征维度模型,提取体重、体温、心率、收缩压、舒张压;其四为行为习惯维度模型,提取睡眠、运动;其五为感受维度模型,提取部位、感觉。
具体地,细粒度分析,分为五个维度进行分析,通用分析、摄入营养分析、体征分析、行为分析、感受分析。
具体地,所述通用分析,用于正规化时间到具体时间,提取出时间点和时间区间,时间正规化还支持各时间段的节日、节气;还用于提取多个数值和单位的实体,计算量词或数词最近的名词实体判定所属关系;还用于地址转经纬度;所述摄入营养分析,用于在后台数据库存有各食物的卡路里、蛋白质、碳水等营养素,得到的用户食物数据可通过数据库映射成相应的营养素,以便进行累计的营养素分析和总的健康状况分析;所述体征分析,用于根据体重、体温、心率等体征数据分析出健康状况。
具体地,通用分析解析结果若出现多个单位、数值或实体名称时,则使用以下判断方法确定单位实体或量词实体所对应的名词实体:
若有标点截断,视为第二个句子,不与第一个句子一同处理;
若出现量词或数词,前文不存在名词实体,之后出现的第一个名词实体,作为该量词或数词所对应的实体;
不符合以上规则的以索引距离的最小值来计算量词或数词最近的名词实体判定所属关系。
具体实施时,如当用户输入“昨天吃了两个好吃的苹果,很开心。”***将反馈信息如下:2020.05.27-23:59:59;2个苹果;能量4620.00千卡54.00%;蛋白质0.00克0.00%;脂肪33.90克0.00%;碳水172.80克3.00%;钠0.00毫克0.00%。
可以看出反馈信息的很准确,很详细,准确提取出了时间信息和所吃的两个苹果,对苹果的营养进行分析。
与现有技术相比,本发明提供的一种信息提取的方法及应用,利用意图分析、命名实体提取的多层的LSTM+CRF和细粒度分析,实现了信息的准确提取和信息的优质反馈,支持语音录入稀松平常的句子,提取有用实体,支持各种语法逻辑,适用于各类人群;实现了信息的多维度录入,信息的多维度提取,信息的多维度反馈。可以利用规则确定单位或量词所对应的名词,可以正规化时间。可以录入非常广泛和健康相关的维度,这些用户信息不止被用于反馈给客户自己的健康情况,还可以构建知识图谱等结构,分析挖掘更深层次的用户特质,如消费观,个人标签等。
实施例三
本发明还提供一种信息提取装置,如图5所示,所述装置包括:
训练模块,用于生成训练数据,所述训练数据的句子已标记句子的类别及句子中所有实体名称;用于使用所述训练数据通过双向循环神经网络的方法建立意图分析模型;用于使用所述训练数据通过双向循环神经网络和条件随机场建立通用实体提取模型,和各个意图下的实体提取模型;
意图分析模块,用于模型训练完成后,通过意图分析模型判断用户的意图,对句子进行分类,分类为意图的多个维度;
命名实体提取模块,用于进入通用实体提取模型提取基本信息实体,再通过该意图下的命名实体模型,提取剩余实体;
细粒度分析模块,用于根据提取的实体进行细粒度分析;
反馈模块,用于根据细粒度分析结果生成反馈的信息反馈给用户。
实施例四
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时可实现上述任一项所述的信息提取方法。
具体实施时,计算机可读存储介质为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;计算机可读存储介质还可以包括上述种类的存储器的组合。
与现有技术相比,本发明提供的一种信息提取的方法、应用、装置及介质,利用意图分析、命名实体提取的多层的LSTM+CRF和细粒度分析,实现了信息的准确提取和信息的优质反馈,支持语音录入稀松平常的句子,提取有用实体,支持各种语法逻辑,适用于各类人群;实现了信息的多维度录入,信息的多维度提取,信息的多维度反馈。可以利用规则确定单位或量词所对应的名词,可以正规化时间。可以录入非常广泛和健康相关的维度,这些用户信息不止被用于反馈给客户自己的健康情况,还可以构建知识图谱等结构,分析挖掘更深层次的用户特质,如消费观,个人标签等。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (12)

1.一种信息提取方法,其特征在于,包括步骤如下:
S100:生成训练数据,所述训练数据的句子已标记句子的类别及句子中所有实体名称;
S200:使用所述训练数据通过双向循环神经网络的方法建立意图分析模型;
S300:使用所述训练数据通过双向循环神经网络和条件随机场建立通用实体提取模型,和各个意图下的实体提取模型;
S400:模型训练完成后,通过意图分析模型判断用户的意图,对句子进行分类,分类为意图的多个维度;
S500:进入通用实体提取模型提取基本信息实体,再通过该意图下的命名实体模型,提取剩余实体;
S600:根据提取的实体进行细粒度分析;
S700:根据细粒度分析结果生成反馈的信息反馈给用户。
2.根据权利要求1所述的信息提取方法,其特征在于:所述S400进行的意图分析,是将用户意图分为不同的维度进行分类,进行不同的处理和分析,通过以下步骤进行意图分析:
S401:根据Wiki100.utf8将句中词组映射成多维向量;
S402:将所述多维向量传入双向的LSTM循环神经网络内,生成包含从前到后以及从后到前的语义encoder信息向量;
S403:所述信息向量结合Softmax层输出判定为各个类别的几率;
S404:选取获得最大几率的类别作为分类结果。
3.根据权利要求1所述的信息提取方法,其特征在于:所述S500命名实体提取模型,使用多层的LSTM+CRF,通过以下步骤进行命名实体提取:
S501:先把每个字根据Wiki100.utf8映射成字嵌入;
S502:将字嵌入word Embedding作为模型的输入;
S503:用BI–LSTM+CRF神经网络自动提取特征;
S504:根据所述特征使用Softmax预测每个词的标签并提取实体。
4.根据权利要求1所述的信息提取方法,其特征在于:在根据所述提取实体后再对实体进行细粒度分析;所述细粒度分析可以根据不同场景设置不同情况,并利用实体信息通过数据库映射或者正则表达式得出详细信息。
5.根据权利要求1所述的信息提取方法,其特征在于:根据所述细粒度分析结果,根据不同用户和应用场景制定出不一样的模板形式反馈给用户。
6.一种采用如权利要求1-5任一项所述的信息提取方法在健康方面的应用。
7.根据权利要求6所述的信息提取方法在健康方面的应用,其特征在于:利用正则表达式生成时间模型,通过时间模型计算出正规化后的时间点。
8.根据权利要求6所述的信息提取方法在健康方面的应用,其特征在于:训练五个命名实体模型,其一为通用提取模型,提取时间点,地点,人物,时间区间;其二为饮食维度模型,提取食物名称、食物单位、食物数量;其三为体征维度模型,提取体重、体温、心率、收缩压、舒张压;其四为行为习惯维度模型,提取睡眠、运动;其五为感受维度模型,提取部位、感觉。
9.根据权利要求6所述的信息提取方法在健康方面的应用,其特征在于:细粒度分析,分为五个维度进行分析,通用分析、摄入营养分析、体征分析、行为分析、感受分析。
10.根据权利要求9所述的信息提取方法在健康方面的应用,其特征在于:通用分析解析结果若出现多个单位、数值或实体名称时,则使用以下判断方法确定单位实体或量词实体所对应的名词实体:
若有标点截断,视为第二个句子,不与第一个句子一同处理;
若出现量词或数词,前文不存在名词实体,之后出现的第一个名词实体,作为该量词或数词所对应的实体;
不符合以上规则的以索引距离的最小值来计算量词或数词最近的名词实体判定所属关系。
11.一种信息提取装置,其特征在于,所述装置包括:
训练模块,用于生成训练数据,所述训练数据的句子已标记句子的类别及句子中所有实体名称;用于使用所述训练数据通过双向循环神经网络的方法建立意图分析模型;用于使用所述训练数据通过双向循环神经网络和条件随机场建立通用实体提取模型,和各个意图下的实体提取模型;
意图分析模块,用于模型训练完成后,通过意图分析模型判断用户的意图,对句子进行分类,分类为意图的多个维度;
命名实体提取模块,用于进入通用实体提取模型提取基本信息实体,再通过该意图下的命名实体模型,提取剩余实体;
细粒度分析模块,用于根据提取的实体进行细粒度分析;
反馈模块,用于根据细粒度分析结果生成反馈的信息反馈给用户。
12.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机指令,所述计算机被处理器执行时实现如权利要求1-5任一项所述的信息提取方法。
CN202010621729.6A 2020-06-30 2020-06-30 一种信息提取的方法、应用、装置及介质 Active CN111785350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010621729.6A CN111785350B (zh) 2020-06-30 2020-06-30 一种信息提取的方法、应用、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010621729.6A CN111785350B (zh) 2020-06-30 2020-06-30 一种信息提取的方法、应用、装置及介质

Publications (2)

Publication Number Publication Date
CN111785350A true CN111785350A (zh) 2020-10-16
CN111785350B CN111785350B (zh) 2023-04-18

Family

ID=72761627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010621729.6A Active CN111785350B (zh) 2020-06-30 2020-06-30 一种信息提取的方法、应用、装置及介质

Country Status (1)

Country Link
CN (1) CN111785350B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861630A (zh) * 2022-05-10 2022-08-05 马上消费金融股份有限公司 信息获取及相关模型的训练方法、装置、电子设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180094664A (ko) * 2017-02-16 2018-08-24 포항공과대학교 산학협력단 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치
CN108920622A (zh) * 2018-06-29 2018-11-30 北京奇艺世纪科技有限公司 一种意图识别的训练方法、训练装置和识别装置
CN109918644A (zh) * 2019-01-26 2019-06-21 华南理工大学 一种基于迁移学习的中医健康咨询文本命名实体识别方法
CN110442732A (zh) * 2019-07-24 2019-11-12 万达信息股份有限公司 一种智能导医方法、***及存储介质
CN110717027A (zh) * 2019-10-18 2020-01-21 易小博(武汉)科技有限公司 多轮智能问答方法、***以及控制器和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180094664A (ko) * 2017-02-16 2018-08-24 포항공과대학교 산학협력단 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치
CN108920622A (zh) * 2018-06-29 2018-11-30 北京奇艺世纪科技有限公司 一种意图识别的训练方法、训练装置和识别装置
CN109918644A (zh) * 2019-01-26 2019-06-21 华南理工大学 一种基于迁移学习的中医健康咨询文本命名实体识别方法
CN110442732A (zh) * 2019-07-24 2019-11-12 万达信息股份有限公司 一种智能导医方法、***及存储介质
CN110717027A (zh) * 2019-10-18 2020-01-21 易小博(武汉)科技有限公司 多轮智能问答方法、***以及控制器和介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861630A (zh) * 2022-05-10 2022-08-05 马上消费金融股份有限公司 信息获取及相关模型的训练方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN111785350B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN111415740B (zh) 问诊信息的处理方法、装置、存储介质及计算机设备
Rudkowsky et al. More than bags of words: Sentiment analysis with word embeddings
Zhao et al. Automatic detection of cyberbullying on social networks based on bullying features
CN106844632B (zh) 基于改进支持向量机的产品评论情感分类方法及装置
CN109460737A (zh) 一种基于增强式残差神经网络的多模态语音情感识别方法
US20230111582A1 (en) Text mining method based on artificial intelligence, related apparatus and device
CN111680159A (zh) 数据处理方法、装置及电子设备
CN113094552A (zh) 视频模板的搜索方法、装置、服务器及可读存储介质
WO2019134091A1 (en) Providing emotional care in a session
CN113704546A (zh) 基于空间时序特征的视频自然语言文本检索方法
CN111353049A (zh) 数据更新方法、装置、电子设备及计算机可读存储介质
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN113823412B (zh) 健康管理计划生成方法、装置、电子设备及存储介质
US20220121824A1 (en) Method for determining text similarity, method for obtaining semantic answer text, and question answering method
CN108108354A (zh) 一种基于深度学习的微博用户性别预测方法
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
Oppong et al. Business decision support system based on sentiment analysis
CN114077661A (zh) 信息处理装置、信息处理方法和计算机可读介质
CN111785350B (zh) 一种信息提取的方法、应用、装置及介质
CN114912011A (zh) 一种基于内容提取与评分预测的视频推荐方法
CN114116965A (zh) 评论文本的观点提取方法以及电子设备
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant