CN106886516A - 自动识别语句关系和实体的方法及装置 - Google Patents
自动识别语句关系和实体的方法及装置 Download PDFInfo
- Publication number
- CN106886516A CN106886516A CN201710108288.8A CN201710108288A CN106886516A CN 106886516 A CN106886516 A CN 106886516A CN 201710108288 A CN201710108288 A CN 201710108288A CN 106886516 A CN106886516 A CN 106886516A
- Authority
- CN
- China
- Prior art keywords
- entity
- read statement
- relation
- deep learning
- statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本发明属于智能识别技术领域,提供了一种自动识别语句关系和实体的方法及装置。本发明的自动识别语句关系和实体的方法包括:将用户的输入语句投影到一个固定维度的空间中,得到所述输入语句在所述固定维度的空间中的句子向量;将所述句子向量输入预先训练好的深度学习分类器,得到所述输入语句的关系类别;若识别出关系类别,则识别所述输入语句中的实体。本发明提供的方法及***,利用深度学习,从语义上对用户输入进行判断,可以精准识别关系;将实体识别建模为序列标注问题,利用条件随机场求解最优标注,从而精准识别实体;结合深度学习和条件随机场,实现了关系和实体的自动化抽取。
Description
技术领域
本发明涉及智能识别术领域,具体涉及一种自动识别语句关系和实体的方法及装置。
背景技术
在人机对话***中,我们常常要识别用户是否是在表达某些特定领域的信息,比如喜好、昵称等信息;如果用户是在表达这些信息,我们往往还需要能够精确提取到这些信息所指的具体对象。通常,这些信息可以通过关系和实体来进行表示。关系主要是指用户在表达什么样的信息,比如是否是喜好、昵称等;而实体则是指关系所指的具体对象。比如用户表达“我喜欢吃麻辣香锅”,对应的关系是“喜欢”,对应的实体是“麻辣香锅”。在对话***中,如何自动识别这种特定领域的关系和实体是一个颇具挑战性的问题。
最常用来识别关系和实体的方法主要有两种:基于关键词和基于正则表达式。
基于关键词的方法主要是通过关键词来识别关系。以喜好为例,如果用户输入的句子中包含“喜欢”一词,就认为是在表达喜欢;如果包含“不喜欢”一词,就认为是在表达不喜欢。然后再结合语法依存分析或者语义角色标注(SRL)来提取该关系的实体。比如“我喜欢周杰伦”,其中包含喜欢,基于关键词的方法认为这句话是在表达“喜欢”;通过依存分析可以知道,“周杰伦”依存于核心词“喜欢”,因此喜欢的对象是“周杰伦”,即识别出的实体是“周杰伦”。基于关键词的方法的缺点是存在大量的误判,即包含某个关键词的句子并不一定必然表达该关系。拿上面的喜好为例,用户输入“我目前还说不好是不是喜欢周杰伦”,里面既包含关键词“喜欢”,表达的意思却是一种不确定的状态。如果根据里面包含“喜欢”,就认为是喜欢关系,就难免有失偏颇了。这个例子揭示了仅仅根据关键词本身还是无法判断出关系,因为关键词包含的信息有限。对于判断关系所需要的信息比关键词本身所包含的信息大的情形,比如“说不好是不是喜欢”所包含的信息比单独的“喜欢”一词的信息量要大,基于关键词的方法就无能为力了。
为了解决上面的问题,人们通常利用正则表达式来添加更多的限定条件,从而进行关系判断和实体抽取。比如通过正则表达式“我喜欢(.*)”来识别喜欢关系,表示只有句子中包含“我喜欢”的,才算是表达喜欢关系;后面的“(.*)”表示跟在“我喜欢”后面的所有文字,都认为是喜欢的对象,即实体。例如“我喜欢周杰伦”,可以识别到的关系是“喜欢”,实体是“周杰伦”。
基于正则表达式的方法也存在跟基于关键词的方法同样的缺点,即存在大量的误判,连不属于该关系的情形也被识别为该关系。基于正则表达式的方法的另一个缺点是实体提取的功能比较脆弱,常常会提取到错误的实体。比如“我喜欢周杰伦才怪”符合上面的“我喜欢(.*)”模式,而意思却截然相反,用户表达的是不喜欢的关系。如果根据上面的正则,***识别为喜欢的关系,而喜欢的对象是“周杰伦才怪”;这种情况之下,关系和实体皆识别错误。
基于关键词和正则表达式的方法的另一个缺点是难以维护。由于自然语言表达的多样性,需要大量的关键词和正则表达式来覆盖各种各样的情形。而随着关键词和正则表达式的增多,***也会变得很复杂。新增的关键词和正则表达式有可能跟现存在关键词和正则表达式相冲突。更糟的是,这种冲突通常比较隐蔽,人们通常很难事先判断是否存在这种冲突。很多情况是当出现问题之后,通过追踪问题的根源,才发现原来是规则之间的冲突所导致的。
基于SRL或者依存关系来提取实体也不尽完善。由于中文表达的复杂性,SRL或者依存关系本身的准确率就不高。这种准确性不高情况之下,再利用各种规则进行实体识别,其精度也会受到影响,导致实体提取不准确的问题。
综上所述,现有技术的缺陷如下:
1、关系判断不准确的问题。仅仅根据关键词或者正则,没有考虑到句子本身的语义,从而导致关系误判。
2、实体提取不准确的问题。根据正则表达式、SRL、语法分析、依存分析所提取到的实体,容易受到该方法本身存在的精度影响,导致实体提取错误。
3、随着规则的增多,***复杂度变高,很难事先判断新增的规则是否能够与原有的规则兼容,因此***难以维护。
发明内容
针对现有技术中的缺陷,本发明提供的自动识别语句关系和实体的方法及装置,利用深度学习,从语义上对用户输入进行判断,可以精准识别关系;将实体识别建模为序列标注问题,利用条件随机场求解最优标注,从而精准识别实体;结合深度学习和条件随机场,实现了关系和实体的自动化抽取。
第一方面,本发明提供的一种自动识别语句关系和实体的方法,包括:将用户的输入语句投影到一个固定维度的空间中,得到所述输入语句在所述固定维度的空间中的句子向量;将所述句子向量输入预先训练好的深度学习分类器,得到所述输入语句的关系类别;若识别出关系类别,则识别所述输入语句中的实体。
本发明提供的自动识别语句关系和实体的方法,利用深度学习,从语义上对用户的输入语句进行判断,可以精准识别关系,有助于提高实体识别的准确度。
优选地,所述将用户的输入语句投影到一个固定维度的空间中,得到所述输入语句在所述固定维度的空间中的句子向量,包括:对用户的输入语句进行分词;通过查找word2vec词向量,将每个分词转换成对应的词向量;根据每个分词的词向量,得到所述输入语句在一个固定维度的空间中的句子向量。
优选地,所述将所述句子向量输入预先训练好的深度学习分类器,得到所述输入语句的关系类别,包括:将所述句子向量输入CNN层进行卷积操作,得到所述输入语句的局部特征;将所述局部特征输入LSTM层,得到所述输入语句中的前后词之间的关系编码;将所述关系编码输入ReLU层进行非线性变换;将非线性变换结果传递给输出层,得到所述输入语句的关系类别。
优选地,所述深度学习分类器包括多个CNN层。
优选地,所述深度学习分类器包括多个LSTM层。
优选地,所述深度学习分类器的输出层采用Softmax函数或Sigmoid函数。
优选地,所述识别所述输入语句中的实体,包括:将所述输入语句输入CRF模型,得到所述输入语句的最优序列标注,根据所述最优序列标注得到所述输入语句中的实体。
优选地,所述深度学习分类器的训练步骤包括:将训练样本的句子向量输入预先构建的深度学习分类器,经过前馈得到训练样本的预测关系类别LP;通过损失函数F(LP,L)得到loss值,其中,L为样本实际标注的关系类别,loss值为LP与L之间的差异程度,根据所述loss值,使用随机梯度下降来进行梯度反向传播,修改所述深度学习分类器的参数;迭代训练所述深度学习分类器,直到所述深度学习分类器输出的预测关系类别与样本实际标注的关系类别的loss值小于预先设定的阈值,或者迭代次数超过预先设定的次数阈值。
优选地,所述损失函数可以是交叉熵或者均方误差。
第二方面,本发明提供的一种自动识别语句关系和实体的装置,包括:预处理模块,用于将用户的输入语句投影到一个固定维度的空间中,得到所述输入语句在所述固定维度的空间中的句子向量;关系识别模块,用于将所述句子向量输入预先训练好的深度学习分类器,得到所述输入语句的关系类别;实体识别模块,用于若识别出关系类别,则识别所述输入语句中的实体。
本发明提供的自动识别语句关系和实体的装置,利用深度学习,从语义上对用户的输入语句进行判断,可以精准识别关系,有助于提高实体识别的准确度。
附图说明
图1为本发明实施例所提供的一种自动识别语句关系和实体的方法的流程图;
图2为本发明实施例所提供的一种自动识别语句关系和实体的装置的结构框图;
图3为本发明实施例提供的深度学习分类器采用的深度学习架构。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
如图1所示,本发明实施例提供的一种自动识别语句关系和实体的方法,包括:
步骤S1,将用户的输入语句投影到一个固定维度的空间中,得到输入语句在固定维度的空间中的句子向量。
步骤S2,将句子向量输入预先训练好的深度学习分类器,得到输入语句的关系类别。
步骤S3,若识别出关系类别,则识别输入语句中的实体。
其中,首先实体一定是一个名词,并且实体指代一个独立存在的对象,比如人名或者事物名等,但不包括代词,如“我”“你”“他”等。如,输入语句为“我喜欢周杰伦”,其中的实体为“周杰伦”。
本实施例提供的自动识别语句关系和实体的方法,利用深度学习,从语义上对用户的输入语句进行判断,可以精准识别关系,有助于提高实体识别的准确度。
其中,步骤S1的优选方式如下,包括:
步骤S11,对用户的输入语句进行分词。
步骤S12,通过查找word2vec词向量,将每个分词转换成对应的词向量。
步骤S13,根据每个分词的词向量,得到输入语句在一个固定维度的空间中的句子向量。
其中,步骤S11~步骤S13的具体实现方法如下:
对输入语句进行分词,如果词汇数量超过N,则舍弃超过部分的词汇。N为预先设定的输入语句的词汇数量的最大值,比如N为25。由于用户是以聊天的形式进行输入,N值并不是很大。经过统计,用户的在聊天时,绝大部分的时候输入的字数在10个字以内。
通过查找word2vec词向量,将每个分词转换成对应的词向量。不妨假设每个词向量的维度为M,比如M为300维。其中,Word2vec词向量是离线训练好的,只需调用相关已公开的接口,通过查找Word2vec词向量,将分词词汇转换成对应的词向量。
将这些词向量进行拼接。如果词汇数量不足N,则在后面补0,直到形成NM维的向量。比如N为25,M为300,如果用户输入只有23个词汇,则除了拼接这23个300维的词向量之外,还需要在后面补上2个M维的0向量,即补上2×300个零(即600个零)。此种填充M维0向量的做法叫做padding。
经过以上步骤,可以将输入语句投影到一个固定维度的空间中,比如上面的例子是投影到N×M维空间中,如果N为25,M为300,则投影到25×300维的空间中。
该输入语句在N×M维空间中的向量表示即为该输入语句的句子向量。
其中,步骤S2中的深度学习分类器采用的深度学习架构如图3所示,最底层采用卷积神经网络(Convolutional Neural Network,CNN),用来对从输入语句中提取的句子向量进行卷积操作,得到输入语句的局部特征,优选采用两层CNN叠加,可以获取到更为抽象的局部特征;该局部特征作为时间递归神经网络(Long Short-Term Memory,LSTM)的输入,经过两层LSTM,对语句中前后词之间的依赖关系进行编码;得到的关系编码再传递给激活函数层(Rectified Linear Units,ReLu),进行非线性变换;非线性变换结果传递给输出层,最终得到输入语句的关系类别。其中,输出层可以采用Softmax函数或者Sigmoid函数,若采用Softmax函数,则深度学习分类器的输出为多值输出,比如对于喜好分类器,可以建模为多值分类器:喜欢、不喜欢、其他;若采用Sigmoid函数,则深度学习分类器的输出为二值输出,比如对于昵称分类器,可以建模为二值分类器:昵称、其他。
基于上述深度学习架构,通过特定领域的标注数据进行有监督的训练,使得深度学习分类器能够精确高效地识别语句中表示的关系类别,深度学习分类器的训练步骤包括:
步骤S21,将训练样本的句子向量输入预先构建的深度学习分类器,经过前馈(forward pass)得到训练样本的预测关系类别LP。
步骤S22,通过损失函数F(LP,L)得到loss值。其中,LP为预测关系类别,L为样本实际标注的关系类别,loss值衡量了预测关系类别与样本实际标注的关系类别之间的差异程度,F可以是交叉熵(Cross Entropy)或者均方误差(MSE,Mean Squared Error)。
步骤S23,根据loss值,使用随机梯度下降(SGD)来进行backward pass(也叫backpropagation,梯度反向传播),修改深度学习分类器的参数,使得修改之后的深度学习分类器输出的预测关系类别更接近样本实际标注的关系类别。
步骤S24,迭代训练深度学习分类器,直到深度学习分类器输出的预测关系类别与样本实际标注的关系类别的loss值小于预先设定的阈值,或者迭代次数超过预先设定的次数阈值。
上述深度学习分类器采用的架构,可以很好地建模句子中词汇之间的前后次序关系。由于这个原因,本架构对否定词有相当的敏感性,能够区分诸如“我喜欢周杰伦”和“我喜欢周杰伦才怪”这样的差异,同时也能够识别“我不太喜欢周杰伦”这样表达否定的情形以及“我不是不喜欢周杰伦”这样多重否定的情形。
识别实体可以建模为序列标注问题,具体地说,对语句中的每个字符,标注为BMESO,其中B(Begin)表示是实体的开始字符,M(Middle)表示是实体的中间字符,E(End)表示是实体的结束字符,S(Single)表示单个字符组成的实体。对于非实体的字符,可以用O(Other)进行标注,表示不属于实体的部分。比如“我/喜/欢/周/杰/伦”,可以标记为“我O/喜O/欢O/周B/杰M/伦E”,其中BME合起来,得到“周杰伦”,表示喜欢的实体是“周杰伦”;又比如“我/喜/欢/歌”,可以标记为“我O/喜O/欢O/歌S”,其中S表示单个字符实体,这里喜欢的实体是“歌”。
实体识别问题可以用条件随机场来求解最优标注,从而精准地提取到语句中的实体,因此,步骤S3采用的优选方式如下:将输入语句输入CRF模型,得到输入语句的最优序列标注,根据最优序列标注得到输入语句中的实体。
其中,经过CRF模型得到输入语句的最优序列标注的具体过程如下:
序列标注问题可以通过条件随机场来解决。形式化地,对于给定的输入语句x(即一个字符序列)和基于该序列的标注序列y,条件随机场建模了条件概率:
其中,exp(x)表示ex,e是自然常数,w是可以训练的权重向量,wT是向量w的转置,y'是序列x所有可能的标注,F(x,y)是标注序列y在x上的特征向量。该条件概率p(y|x,w)表示了在给定权重w的情形下,将字符序列x标注成标注序列y的可能性大小。
给定n对训练数据{xi,yi},求解下面的目标函数:
可以通过随机梯度下降(SGD)的方法来找到最优的w。
找到最优的w之后,对于每一个可能的标注y',我们可以计算其对应的p(y'|x,w)的值。最优标注y是使得p(y|x,w)最大的标注序列。为了提高计算性能,可以通过Viterbi算法来寻找最优标注序列。
找到最优标注序列之后,再通过其中的BME或者S标注来精准地提取语句中的实体。
基于与上述自动识别语句关系和实体的方法相同的发明构思,本发明实施例还提供了一种自动识别语句关系和实体的装置,包括:预处理模块101,用于将用户的输入语句投影到一个固定维度的空间中,得到输入语句在固定维度的空间中的句子向量;关系识别模块102,用于将句子向量输入预先训练好的深度学习分类器,得到输入语句的关系类别;实体识别模块103,用于若识别出关系类别,则识别输入语句中的实体。
本发明实施例提供的自动识别语句关系和实体的方法及装置,利用深度学习,从语义上对用户的输入语句进行判断,可以精准识别关系;将实体识别建模为序列标注问题,利用条件随机场求解最优标注,从而精准识别实体;结合深度学习和条件随机场,实现了关系和实体的自动化抽取;利用机器学习,从语义上对关系和实体进行判断,克服了由于自然语言表达多样性所带来影响。比如“我喜欢周杰伦的歌”,“周杰伦的歌是我的最爱”,“爱死周杰伦的歌了”都能够被识别出是在表达“喜欢”关系,而喜欢的对象则是“周杰伦的歌”。另外,本发明实施例提供的方法及***相比传统的方法更易于维护。如果需要增加覆盖率,只需要添加新的数据,训练新的模型即可。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种自动识别语句关系和实体的方法,其特征在于,包括:
将用户的输入语句投影到一个固定维度的空间中,得到所述输入语句在所述固定维度的空间中的句子向量;
将所述句子向量输入预先训练好的深度学习分类器,得到所述输入语句的关系类别;
若识别出关系类别,则识别所述输入语句中的实体。
2.根据权利要求1所述的方法,其特征在于,所述将用户的输入语句投影到一个固定维度的空间中,得到所述输入语句在所述固定维度的空间中的句子向量,包括:
对用户的输入语句进行分词;
通过查找word2vec词向量,将每个分词转换成对应的词向量;
根据每个分词的词向量,得到所述输入语句在一个固定维度的空间中的句子向量。
3.根据权利要求2所述的方法,其特征在于,所述将所述句子向量输入预先训练好的深度学习分类器,得到所述输入语句的关系类别,包括:
将所述句子向量输入CNN层进行卷积操作,得到所述输入语句的局部特征;
将所述局部特征输入LSTM层,得到所述输入语句中的前后词之间的关系编码;
将所述关系编码输入ReLU层进行非线性变换;
将非线性变换结果传递给输出层,得到所述输入语句的关系类别。
4.根据权利要求3所述的方法,其特征在于,所述深度学习分类器包括多个CNN层。
5.根据权利要求3所述的方法,其特征在于,所述深度学习分类器包括多个LSTM层。
6.根据权利要求3所述的方法,其特征在于,所述深度学习分类器的输出层采用Softmax函数或Sigmoid函数。
7.根据权利要求1所述的方法,其特征在于,所述识别所述输入语句中的实体,包括:
将所述输入语句输入CRF模型,得到所述输入语句的最优序列标注,根据所述最优序列标注得到所述输入语句中的实体。
8.根据权利要求1所述的方法,其特征在于,所述深度学习分类器的训练步骤包括:
将训练样本的句子向量输入预先构建的深度学习分类器,经过前馈得到训练样本的预测关系类别LP;
通过损失函数F(LP,L)得到loss值,其中,L为样本实际标注的关系类别,loss值为LP与L之间的差异程度,
根据所述loss值,使用随机梯度下降来进行梯度反向传播,修改所述深度学习分类器的参数;
迭代训练所述深度学习分类器,直到所述深度学习分类器输出的预测关系类别与样本实际标注的关系类别的loss值小于预先设定的阈值,或者迭代次数超过预先设定的次数阈值。
9.根据权利要求8所述的方法,其特征在于,所述损失函数是交叉熵或者均方误差。
10.一种自动识别语句关系和实体的装置,其特征在于,包括:
预处理模块,用于将用户的输入语句投影到一个固定维度的空间中,得到所述输入语句在所述固定维度的空间中的句子向量;
关系识别模块,用于将所述句子向量输入预先训练好的深度学习分类器,得到所述输入语句的关系类别;
实体识别模块,用于若识别出关系类别,则识别所述输入语句中的实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710108288.8A CN106886516A (zh) | 2017-02-27 | 2017-02-27 | 自动识别语句关系和实体的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710108288.8A CN106886516A (zh) | 2017-02-27 | 2017-02-27 | 自动识别语句关系和实体的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106886516A true CN106886516A (zh) | 2017-06-23 |
Family
ID=59180680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710108288.8A Pending CN106886516A (zh) | 2017-02-27 | 2017-02-27 | 自动识别语句关系和实体的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106886516A (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316654A (zh) * | 2017-07-24 | 2017-11-03 | 湖南大学 | 基于dis‑nv特征的情感识别方法 |
CN107451433A (zh) * | 2017-06-27 | 2017-12-08 | 中国科学院信息工程研究所 | 一种基于文本内容的信息源识别方法与装置 |
CN107526799A (zh) * | 2017-08-18 | 2017-12-29 | 武汉红茶数据技术有限公司 | 一种基于深度学习的知识图谱构建方法 |
CN107622050A (zh) * | 2017-09-14 | 2018-01-23 | 武汉烽火普天信息技术有限公司 | 基于Bi‑LSTM和CRF的文本序列标注***及方法 |
CN107797989A (zh) * | 2017-10-16 | 2018-03-13 | 平安科技(深圳)有限公司 | 企业名称识别方法、电子设备及计算机可读存储介质 |
CN107797993A (zh) * | 2017-11-13 | 2018-03-13 | 成都蓝景信息技术有限公司 | 一种基于序列标注的事件抽取方法 |
CN108038209A (zh) * | 2017-12-18 | 2018-05-15 | 深圳前海微众银行股份有限公司 | 答案选择方法、装置和计算机可读存储介质 |
CN108228568A (zh) * | 2018-01-24 | 2018-06-29 | 上海互教教育科技有限公司 | 一种数学题目语义理解方法 |
CN108416058A (zh) * | 2018-03-22 | 2018-08-17 | 北京理工大学 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
CN108920448A (zh) * | 2018-05-17 | 2018-11-30 | 南京大学 | 一种基于长短期记忆网络的比较关系抽取的方法 |
CN109033068A (zh) * | 2018-06-14 | 2018-12-18 | 北京慧闻科技发展有限公司 | 基于注意力机制的用于阅读理解的方法、装置和电子设备 |
CN109062910A (zh) * | 2018-07-26 | 2018-12-21 | 苏州大学 | 基于深度神经网络的句子对齐方法 |
CN109062897A (zh) * | 2018-07-26 | 2018-12-21 | 苏州大学 | 基于深度神经网络的句子对齐方法 |
CN109460434A (zh) * | 2018-10-25 | 2019-03-12 | 北京知道创宇信息技术有限公司 | 数据提取模型建立方法及装置 |
CN109815456A (zh) * | 2019-02-13 | 2019-05-28 | 北京航空航天大学 | 一种基于字符对编码的词向量存储空间压缩的方法 |
WO2019174422A1 (zh) * | 2018-03-16 | 2019-09-19 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
CN110826320A (zh) * | 2019-11-28 | 2020-02-21 | 上海观安信息技术股份有限公司 | 一种基于文本识别的敏感数据发现方法及*** |
CN111046180A (zh) * | 2019-12-05 | 2020-04-21 | 竹间智能科技(上海)有限公司 | 一种基于文本数据的标签识别方法 |
CN111209751A (zh) * | 2020-02-14 | 2020-05-29 | 全球能源互联网研究院有限公司 | 一种中文分词方法、装置及存储介质 |
CN111339250A (zh) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN111914547A (zh) * | 2020-07-17 | 2020-11-10 | 深圳宜搜天下科技股份有限公司 | 一种改进的语义意图识别方法以及lstm构架*** |
CN112270179A (zh) * | 2020-10-15 | 2021-01-26 | 和美(深圳)信息技术股份有限公司 | 一种实体识别方法、装置及电子设备 |
WO2021073254A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 基于知识图谱的实体链接方法、装置、设备和存储介质 |
CN113011170A (zh) * | 2021-02-25 | 2021-06-22 | 万翼科技有限公司 | 合同处理方法、电子设备及相关产品 |
CN113468309A (zh) * | 2021-06-30 | 2021-10-01 | 竹间智能科技(上海)有限公司 | 文本中的答案抽取方法以及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN103309926A (zh) * | 2013-03-12 | 2013-09-18 | 中国科学院声学研究所 | 基于条件随机场的中英文混合命名实体识别方法及*** |
CN105628951A (zh) * | 2015-12-31 | 2016-06-01 | 北京小孔科技有限公司 | 用于测量对象的速度的方法和装置 |
CN106096568A (zh) * | 2016-06-21 | 2016-11-09 | 同济大学 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
CN106446526A (zh) * | 2016-08-31 | 2017-02-22 | 北京千安哲信息技术有限公司 | 电子病历实体关系抽取方法及装置 |
-
2017
- 2017-02-27 CN CN201710108288.8A patent/CN106886516A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN103309926A (zh) * | 2013-03-12 | 2013-09-18 | 中国科学院声学研究所 | 基于条件随机场的中英文混合命名实体识别方法及*** |
CN105628951A (zh) * | 2015-12-31 | 2016-06-01 | 北京小孔科技有限公司 | 用于测量对象的速度的方法和装置 |
CN106096568A (zh) * | 2016-06-21 | 2016-11-09 | 同济大学 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
CN106446526A (zh) * | 2016-08-31 | 2017-02-22 | 北京千安哲信息技术有限公司 | 电子病历实体关系抽取方法及装置 |
Non-Patent Citations (1)
Title |
---|
李弼程 等: "《网络舆情分析理论技术与应对策略》", 31 March 2015 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451433A (zh) * | 2017-06-27 | 2017-12-08 | 中国科学院信息工程研究所 | 一种基于文本内容的信息源识别方法与装置 |
CN107451433B (zh) * | 2017-06-27 | 2020-05-22 | 中国科学院信息工程研究所 | 一种基于文本内容的信息源识别方法与装置 |
CN107316654A (zh) * | 2017-07-24 | 2017-11-03 | 湖南大学 | 基于dis‑nv特征的情感识别方法 |
CN107526799A (zh) * | 2017-08-18 | 2017-12-29 | 武汉红茶数据技术有限公司 | 一种基于深度学习的知识图谱构建方法 |
CN107622050A (zh) * | 2017-09-14 | 2018-01-23 | 武汉烽火普天信息技术有限公司 | 基于Bi‑LSTM和CRF的文本序列标注***及方法 |
CN107622050B (zh) * | 2017-09-14 | 2021-02-26 | 武汉烽火普天信息技术有限公司 | 基于Bi-LSTM和CRF的文本序列标注***及方法 |
CN107797989A (zh) * | 2017-10-16 | 2018-03-13 | 平安科技(深圳)有限公司 | 企业名称识别方法、电子设备及计算机可读存储介质 |
CN107797993A (zh) * | 2017-11-13 | 2018-03-13 | 成都蓝景信息技术有限公司 | 一种基于序列标注的事件抽取方法 |
CN108038209A (zh) * | 2017-12-18 | 2018-05-15 | 深圳前海微众银行股份有限公司 | 答案选择方法、装置和计算机可读存储介质 |
CN108228568A (zh) * | 2018-01-24 | 2018-06-29 | 上海互教教育科技有限公司 | 一种数学题目语义理解方法 |
CN108228568B (zh) * | 2018-01-24 | 2021-06-04 | 上海互教教育科技有限公司 | 一种数学题目语义理解方法 |
WO2019174422A1 (zh) * | 2018-03-16 | 2019-09-19 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
CN110276066A (zh) * | 2018-03-16 | 2019-09-24 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
CN108416058A (zh) * | 2018-03-22 | 2018-08-17 | 北京理工大学 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
CN108416058B (zh) * | 2018-03-22 | 2020-10-09 | 北京理工大学 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
CN108920448A (zh) * | 2018-05-17 | 2018-11-30 | 南京大学 | 一种基于长短期记忆网络的比较关系抽取的方法 |
CN108920448B (zh) * | 2018-05-17 | 2021-09-14 | 南京大学 | 一种基于长短期记忆网络的比较关系抽取的方法 |
CN109033068B (zh) * | 2018-06-14 | 2022-07-12 | 北京慧闻科技(集团)有限公司 | 基于注意力机制的用于阅读理解的方法、装置和电子设备 |
CN109033068A (zh) * | 2018-06-14 | 2018-12-18 | 北京慧闻科技发展有限公司 | 基于注意力机制的用于阅读理解的方法、装置和电子设备 |
CN109062910A (zh) * | 2018-07-26 | 2018-12-21 | 苏州大学 | 基于深度神经网络的句子对齐方法 |
CN109062897A (zh) * | 2018-07-26 | 2018-12-21 | 苏州大学 | 基于深度神经网络的句子对齐方法 |
CN109460434A (zh) * | 2018-10-25 | 2019-03-12 | 北京知道创宇信息技术有限公司 | 数据提取模型建立方法及装置 |
CN109815456A (zh) * | 2019-02-13 | 2019-05-28 | 北京航空航天大学 | 一种基于字符对编码的词向量存储空间压缩的方法 |
WO2021073254A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 基于知识图谱的实体链接方法、装置、设备和存储介质 |
CN110826320B (zh) * | 2019-11-28 | 2023-10-13 | 上海观安信息技术股份有限公司 | 一种基于文本识别的敏感数据发现方法及*** |
CN110826320A (zh) * | 2019-11-28 | 2020-02-21 | 上海观安信息技术股份有限公司 | 一种基于文本识别的敏感数据发现方法及*** |
CN111046180A (zh) * | 2019-12-05 | 2020-04-21 | 竹间智能科技(上海)有限公司 | 一种基于文本数据的标签识别方法 |
CN111209751A (zh) * | 2020-02-14 | 2020-05-29 | 全球能源互联网研究院有限公司 | 一种中文分词方法、装置及存储介质 |
CN111209751B (zh) * | 2020-02-14 | 2023-07-28 | 全球能源互联网研究院有限公司 | 一种中文分词方法、装置及存储介质 |
CN111339250A (zh) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN111339250B (zh) * | 2020-02-20 | 2023-08-18 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
US11755654B2 (en) | 2020-02-20 | 2023-09-12 | Beijing Baidu Netcom Science Technology Co., Ltd. | Category tag mining method, electronic device and non-transitory computer-readable storage medium |
CN111914547A (zh) * | 2020-07-17 | 2020-11-10 | 深圳宜搜天下科技股份有限公司 | 一种改进的语义意图识别方法以及lstm构架*** |
CN112270179B (zh) * | 2020-10-15 | 2021-11-09 | 和美(深圳)信息技术股份有限公司 | 一种实体识别方法、装置及电子设备 |
CN112270179A (zh) * | 2020-10-15 | 2021-01-26 | 和美(深圳)信息技术股份有限公司 | 一种实体识别方法、装置及电子设备 |
CN113011170A (zh) * | 2021-02-25 | 2021-06-22 | 万翼科技有限公司 | 合同处理方法、电子设备及相关产品 |
CN113011170B (zh) * | 2021-02-25 | 2022-10-14 | 万翼科技有限公司 | 合同处理方法、电子设备及相关产品 |
CN113468309A (zh) * | 2021-06-30 | 2021-10-01 | 竹间智能科技(上海)有限公司 | 文本中的答案抽取方法以及电子设备 |
CN113468309B (zh) * | 2021-06-30 | 2023-12-22 | 竹间智能科技(上海)有限公司 | 文本中的答案抽取方法以及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106886516A (zh) | 自动识别语句关系和实体的方法及装置 | |
CN107133224B (zh) | 一种基于主题词的语言生成方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN107315738B (zh) | 一种文本信息的创新度评估方法 | |
CN109885660A (zh) | 一种知识图谱赋能的基于信息检索的问答***和方法 | |
CN107153642A (zh) | 一种基于神经网络识别文本评论情感倾向的分析方法 | |
CN110083831A (zh) | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及*** | |
CN110427616B (zh) | 一种基于深度学习的文本情感分析方法 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN107180023A (zh) | 一种文本分类方法及*** | |
CN107316654A (zh) | 基于dis‑nv特征的情感识别方法 | |
CN107798624A (zh) | 一种软件问答社区中的技术标签推荐方法 | |
CN112989033B (zh) | 基于情绪类别描述的微博情绪分类方法 | |
CN106257455A (zh) | 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法 | |
CN112101040A (zh) | 一种基于知识图谱的古代诗词语义检索方法 | |
CN107506377A (zh) | 基于推荐***的互动绘本生成*** | |
CN112328800A (zh) | 自动生成编程规范问题答案的***及方法 | |
CN112559734A (zh) | 简报生成方法、装置、电子设备及计算机可读存储介质 | |
CN109543176A (zh) | 一种基于图向量表征的丰富短文本语义方法及装置 | |
CN113505589A (zh) | 一种基于bert模型的mooc学习者认知行为识别方法 | |
CN107894975A (zh) | 一种基于Bi‑LSTM的分词方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170623 |
|
RJ01 | Rejection of invention patent application after publication |