CN107203511A - 一种基于神经网络概率消歧的网络文本命名实体识别方法 - Google Patents
一种基于神经网络概率消歧的网络文本命名实体识别方法 Download PDFInfo
- Publication number
- CN107203511A CN107203511A CN201710390409.2A CN201710390409A CN107203511A CN 107203511 A CN107203511 A CN 107203511A CN 201710390409 A CN201710390409 A CN 201710390409A CN 107203511 A CN107203511 A CN 107203511A
- Authority
- CN
- China
- Prior art keywords
- neutral net
- term vector
- network
- word
- language material
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于神经网络概率消歧的网络文本命名实体识别方法,将无标签语料分词,利用Word2Vec提取词向量,将样本语料转换成词特征矩阵并窗口化,构建深度神经网络进行训练,在神经网络的输出层加入softmax函数做归一化处理,得到每个词对应命名实体类别的概率矩阵;将概率矩阵重新窗口化,利用条件随机场模型进行消歧,得到最后的命名实体标注。本发明根据其存在网络词汇、新生词汇的特性,提供了一种不改变神经网络结构的词向量增量学习方法,为应对网络文本中语法结构不规范、错别字多的问题,采用了概率消歧的方法。因此本发明的方法在网络文本命名实体识别任务中可产生较高的准确率。
Description
技术领域
本发明涉及网络文本的处理及分析,尤其涉及一种基于神经网络概率消歧的网络文本命名实体识别的方法。
背景技术
网络使得信息的采集、传播的速度和规模达到空前的水平,实现了全球的信息共享与交互,它已经成为信息社会必不可少的基础设施。现代通信和传播技术,大大提高了信息传播的速度和广度。但与之俱来的问题和“副作用”是:汹涌而来的信息有时使人无所适从,从浩如烟海的信息海洋中迅速而准确地获取自己最需要的信息,变得非常困难。如何从海量的网络文本中分析出互联网用户所关注的人物、地点、机构等命名实体,成为网上营销、群体情感分析等各种上层应用提供重要的支持信息。这使得面向网络文本的命名实体识别成为网络数据处理与分析中的一项重要的核心技术。
人们处理命名实体识别的方法研究主要分为两类,基于规则的方法(rule-based)和基于统计的方法(statistic-based)。随着机器学习理论的不断完善和计算性能的极大提高,基于统计学的方法更加受到人们青睐。
目前,命名实体识别应用的统计模型方法主要包括:隐马尔可夫模型、决策树、最大熵模型、支持向量机、条件随机场以及人工神经网络。人工神经网络在命名实体识别方面可以的到比条件随机场、最大熵模型等模型取得更好的结果,但实用仍以条件随机场、最大熵模型为主,如专利号CN201310182978.X使用条件随机场并结合命名实体库提出了对微博文本的命名实体识别方法及装置、专利号CN200710098635.X提出了一种利用字特征使用最大熵模型建模的命名实体识别方法。人工神经网络难以实用的原因在于人工神经网络在命名实体识别领域常需要将词转化成词向量空间中的向量,因此对于新生词汇无法得到对应的向量,所以无法得到大规模的实际应用。
基于上述现状,针对网络文本的命名实体识别主要存在以下问题:第一,网络文本因存在大量网络词汇、新生词汇、错别字,无法训练出包含所有词的词向量空间以训练神经网络。第二,网络文本存在的语言形式任意、语法结构不规范、错别字多等现象导致其命名实体识别准确率下降。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种增量提取词特征而不需要重新训练神经网络、同时概率消歧识别的基于神经网络概率消歧的网络文本命名实体识别方法,该方法通过训练神经网络,获取神经网络对词语所属命名实体类型的预测概率矩阵,对神经网络输出的预测矩阵再以概率模型进行消歧,提高了网络文本命名实体识别的准确性和准确率。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于神经网络概率消歧的网络文本命名实体识别方法,将无标签语料分词,利用Word2Vec提取词向量,将样本语料转换成词特征矩阵并窗口化,构建深度神经网络进行训练,在神经网络的输出层加入softmax函数做归一化处理,得到每个词对应命名实体类别的概率矩阵。将概率矩阵重新窗口化,利用条件随机场模型进行消歧,得到最后的命名实体标注。
具体包括以下步骤:
步骤1,通过网页爬虫获取无标签语料,从语料库获取有命名实体标注的样本语料,利用自然语言工具对无标签语料进行分词。
步骤2,对已分词好的无标签语料和样本语料通过Word2Vec工具进行词向量空间的训练。
步骤3,将样本语料中的文本按照已训练的Word2Vec模型转换成代表词特征的词向量,并对词向量窗口化,将窗口w乘词向量长度d的二维矩阵作为神经网络的输入。将样本语料中的标签转成one-hot形式作为神经网络的输出。神经网络的输出层采用softmax函数进行归一化,使神经网络的分类结果为词汇属于非命名实体及各类命名实体的概率,调整神经网络中的结构、深度、节点数、步长、激活函数、初始值参数以及选取激活函数训练神经网络。
步骤4,将神经网络输出的预测矩阵重新窗口化,将待标注词的上下文预测信息作为条件随机场模型中待标注词的实际分类的关联点,根据训练语料利用EM算法,计算出各边的期望值,训练出对应的条件随机场模型。
步骤5,识别时,首先将待识别文本按照已训练的Word2Vec模型转换成代表词特征的词向量,若Word2Vec模型中不包含对应的训练词汇,则采用增量学习、获取词向量、回溯词向量空间的方法将该词转换为词向量,并对词向量窗口化,将窗口w乘词向量长度d的二维矩阵作为神经网络的输入。然后将神经网络得到的预测矩阵重新窗口化放入训练好的条件随机场模型中进行消歧,获得待识别文本中最终的命名实体标注。
优选的:所述Word2Vec工具的参数如下:词向量长度选择200,迭代次数25次,初始步长0.025,最小步长0.0001,选用CBOW模型。
优选的:所述神经网络的参数如下:隐藏层2层,隐藏节点数150个,步长0.01,batchSize选取40,激活函数使用sigmoid函数。
优选的:将样本语料中的标签转成one-hot形式的方法:将样本语料中的”/o”、”/n”、”/p”标签相应的转化为命名实体标签”/Org-B”、”/Org-I”、”/Per-B”、”/Per-I”、”/Loc-B”、”/Loc-I”,在转换成one-hot的形式。
优选的:词向量窗口化的窗口大小为5。
优选的:神经网络训练时,从样本数据中抽取十分之一的词汇不参与神经网络的训练,作为神经网络的衡量标准。
本发明相比现有技术,具有以下有益效果:
可以增量提取出不需要重新训练神经网络的词向量,利用神经网络预测并用概率模型消歧,使得该方法在网络文本的命名实体识别中拥有更好的实用性、准确性和准确率。在网络文本的命名实体识别任务中,本发明根据其存在网络词汇、新生词汇的特性,提供了一种不改变神经网络结构的词向量增量学习方法,为应对网络文本中语法结构不规范、错别字多的问题,采用了概率消歧的方法。因此本发明的方法在网络文本命名实体识别任务中可产生较高的准确率。
附图说明
图1是根据本发明训练一个基于神经网络概率消歧的网络文本命名实体识别装置的流程图。
图2是根据本发明将词转化为词特征的流程图。
图3是根据本发明文本处理以及神经网络结构的示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于神经网络概率消歧的网络文本命名实体识别方法,将无标签语料分词,利用Word2Vec提取词向量,将样本语料转换成词特征矩阵并窗口化,构建深度神经网络进行训练,在神经网络的输出层加入softmax函数做归一化处理,得到每个词对应命名实体类别的概率矩阵。将概率矩阵重新窗口化,利用条件随机场模型进行消歧,得到最后的命名实体标注。
具体包括以下步骤:
步骤1,通过网页爬虫无标签网络文本,并从各语料库下载有命名实体标注的语料作为样本语料,利用自然语言工具对无标签语料进行分词。
步骤2,对已分词好的无标签语料和样本语料通过Word2Vec工具进行词向量空间的训练。
步骤3,将样本语料中的文本按照已训练的Word2Vec模型转换成代表词特征的词向量,作为神经网络的输入。将样本语料中的标签转成one-hot形式作为神经网络的输出,因为在文本处理任务中,一个命名实体可能被分割成多个词汇,所以为了保证识别出命名实体具完整性,标注形式采用IOB模式进行标注。
词汇为何类命名实体不能仅凭词汇本身判定,还需要依靠词汇所处上下文信息决定,因此在建立神经网络时,我们引入窗口的概念,即在判断词汇的时候,将词汇及其固定长度上下文的特征信息都作为神经网络的输入,神经网络的输入不再是词特征向量的长度d,而是窗口w乘词特征长度d的二维矩阵。
神经网络的输出层采用softmax函数进行归一化,使神经网络的分类结果为词汇属于非命名实体及各类命名实体的概率。调整神经网络中的结构、深度、节点数、步长、激活函数、初始值参数以及选取激活函数训练神经网络。
步骤4,将神经网络输出的预测矩阵重新窗口化,将待标注词的上下文预测信息作为条件随机场模型中待标注词的实际分类的关联点,根据训练语料利用EM算法,计算出各边的期望值,训练出对应的条件随机场模型。
步骤5,识别时,首先将待识别文本按照已训练的Word2Vec模型转换成代表词特征的词向量,若Word2Vec模型中不包含对应的训练词汇,则采用增量学习、获取词向量、回溯词向量空间的方法将该词转换为词向量。
(1)将待转换词汇在已训练的词向量空间中匹配。
(2)若待转换词汇在词向量空间中能够匹配,则直接将词汇转换成对应词向量。
(3)若Word2Vec模型中不包含对应词汇,则备份词向量空间,防止增量学习产生的词空间偏移导致神经网络模型精度的下降,载入Word2Vec模型,获取不匹配词汇所在句子获取不匹配词汇所在句子,将其放入Word2Vec模型中进行增量训练,并获取词汇的词向量,利用备份的词向量空间,回溯模型。
对词向量窗口化,将窗口w乘词向量长度d的二维矩阵作为神经网络的输入。然后将神经网络得到的预测矩阵重新窗口化放入训练好的条件随机场模型中进行消歧,获得待识别文本中最终的命名实体标注。
实例
从搜狗新闻网站爬虫网络文本,从数据堂语料库下载有命名实体语料作为样本语料,利用自然语言工具对爬虫网络文本进行分词,将分好词的语料与样本语料利用python中的gensim包通过Word2Vec模型进行词向量空间的训练,具体参数如下,词向量长度选择200,迭代次数25次,初始步长0.025,最小步长0.0001,选用CBOW模型。
将样本语料的文本按照已训练的Word2Vec模型转换成代表词特征的词向量,若Word2Vec模型中不包含对应的训练词汇,则采用增量学习、获取词向量、回溯词向量空间的方法将该词转换为词向量。作为每个词的特征。将数据堂提供样本语料中的”/o”、”/n”、”/p”等标签相应的转化为命名实体标签”/Org-B”、”/Org-I”、”/Per-B”、”/Per-I”、”/Loc-B”、”/Loc-I”等,并转换成one-hot的形式作为神经网络的输出。
设定窗口大小为5,即在考虑当前词的命名实体类别时,将其本身和前后各两个词的词特征作为神经网络的输入,神经网络的输入为batchSize*1000的向量,从样本数据中抽取十分之一的词汇不参与神经网络的训练,作为神经网络的衡量标准,神经网络的输出层采用softmax函数进行归一化,使神经网络的分类结果为词汇属于非命名实体及各类命名实体的概率,暂时取概率最大值作为最终分类结果。调整神经网络中的结构、深度、节点数、步长、激活函数、初始值等参数,使神经网络取得较为良好的精确度,最终具体参数如下,隐藏层2层,隐藏节点数150个,步长0.01,batchSize选取40,激活函数使用sigmoid时可以产生良好的分类效果,准确度可以达到99.83%,最具代表性的人名、地名、机构名的F值可以达到93.4%、84.2%、80.4%。
将神经网络输出的预测矩阵取概率最大值作为最终分类结果的步骤移除,直接将概率矩阵重新窗口化,将待标注词的上下文预测信息作为条件随机场模型中待标注词的实际分类的关联点,根据训练语料利用EM算法,计算出条件随机场各边的期望值,训练出对应的条件随机场模型,在使用条件随机场进行消歧后人名、地名、机构名的F值可以提升至94.8%、85.0%、82.0%。
通过上文的具体实施例可以看出,与传统的有监督的命名实体识别方法相比,本发明提供的基于神经网络概率消歧的文本命名实体识别方法,使用了一种可增量提取词特征而不产生词向量空间偏移的词向量转换方法,使神经网络可以应用在新词、错别字多的网络文本中。而且,本发明对神经网络输出的概率矩阵重新窗口化,采用条件随机场模型进行上下文消歧,可以较好的解决网络文本中错别字多、语法不规范的现象。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:将无标签语料分词,利用Word2Vec提取词向量,将样本语料转换成词特征矩阵并窗口化,构建深度神经网络进行训练,在神经网络的输出层加入softmax函数做归一化处理,得到每个词对应命名实体类别的概率矩阵;将概率矩阵重新窗口化,利用条件随机场模型进行消歧,得到最后的命名实体标注。
2.根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于,包括以下步骤:
步骤1,通过网页爬虫获取无标签语料,从语料库获取有命名实体标注的样本语料,利用自然语言工具对无标签语料进行分词;
步骤2,对已分词好的无标签语料和样本语料通过Word2Vec工具进行词向量空间的训练;
步骤3,将样本语料中的文本按照已训练的Word2Vec模型转换成代表词特征的词向量,并对词向量窗口化,将窗口w乘词向量长度d的二维矩阵作为神经网络的输入;将样本语料中的标签转成one-hot形式作为神经网络的输出;神经网络的输出层采用softmax函数进行归一化,使神经网络的分类结果为词汇属于非命名实体及各类命名实体的概率,调整神经网络中的结构、深度、节点数、步长、激活函数、初始值参数以及选取激活函数训练神经网络;
步骤4,将神经网络输出的预测矩阵重新窗口化,将待标注词的上下文预测信息作为条件随机场模型中待标注词的实际分类的关联点,根据训练语料利用EM算法,计算出各边的期望值,训练出对应的条件随机场模型;
步骤5,识别时,首先将待识别文本按照已训练的Word2Vec模型转换成代表词特征的词向量,若Word2Vec模型中不包含对应的词汇,则采用增量学习、获取词向量、回溯词向量空间的方法将该词转换为词向量,并对词向量窗口化,将窗口w乘词向量长度d的二维矩阵作为神经网络的输入;然后将神经网络得到的预测矩阵重新窗口化放入训练好的条件随机场模型中进行消歧,获得待识别文本中最终的命名实体标注。
3.根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:所述Word2Vec工具的参数如下:词向量长度选择200,迭代次数25次,初始步长0.025,最小步长0.0001,选用CBOW模型。
4.根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:所述神经网络的参数如下:隐藏层2层,隐藏节点数150个,步长0.01,batchSize选取40,激活函数使用sigmoid函数。
5.根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:将样本语料中的标签转成one-hot形式的方法:将样本语料中的”/o”、”/n”、”/p”标签相应的转化为命名实体标签”/Org-B”、”/Org-I”、”/Per-B”、”/Per-I”、”/Loc-B”、”/Loc-I”,在转换成one-hot的形式。
6.根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:词向量窗口化的窗口大小为5。
7.根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:神经网络训练时,从样本数据中抽取十分之一的词汇不参与神经网络的训练,作为神经网络的衡量标准。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710390409.2A CN107203511B (zh) | 2017-05-27 | 2017-05-27 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CA3039280A CA3039280C (en) | 2017-05-27 | 2017-06-20 | Method for recognizing network text named entity based on neural network probability disambiguation |
RU2019117529A RU2722571C1 (ru) | 2017-05-27 | 2017-06-20 | Способ распознавания именованных сущностей в сетевом тексте на основе устранения неоднозначности вероятности в нейронной сети |
PCT/CN2017/089135 WO2018218705A1 (zh) | 2017-05-27 | 2017-06-20 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
AU2017416649A AU2017416649A1 (en) | 2017-05-27 | 2017-06-20 | Method for recognizing network text named entity based on neural network probability disambiguation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710390409.2A CN107203511B (zh) | 2017-05-27 | 2017-05-27 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107203511A true CN107203511A (zh) | 2017-09-26 |
CN107203511B CN107203511B (zh) | 2020-07-17 |
Family
ID=59905476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710390409.2A Active CN107203511B (zh) | 2017-05-27 | 2017-05-27 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
Country Status (5)
Country | Link |
---|---|
CN (1) | CN107203511B (zh) |
AU (1) | AU2017416649A1 (zh) |
CA (1) | CA3039280C (zh) |
RU (1) | RU2722571C1 (zh) |
WO (1) | WO2018218705A1 (zh) |
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107665252A (zh) * | 2017-09-27 | 2018-02-06 | 深圳证券信息有限公司 | 一种创建知识图谱的方法及装置 |
CN107797989A (zh) * | 2017-10-16 | 2018-03-13 | 平安科技(深圳)有限公司 | 企业名称识别方法、电子设备及计算机可读存储介质 |
CN107832289A (zh) * | 2017-10-12 | 2018-03-23 | 北京知道未来信息技术有限公司 | 一种基于lstm‑cnn的命名实体识别方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN107967251A (zh) * | 2017-10-12 | 2018-04-27 | 北京知道未来信息技术有限公司 | 一种基于Bi-LSTM-CNN的命名实体识别方法 |
CN108052504A (zh) * | 2017-12-26 | 2018-05-18 | 科大讯飞股份有限公司 | 数学主观题解答结果的结构分析方法及*** |
CN108121702A (zh) * | 2017-12-26 | 2018-06-05 | 科大讯飞股份有限公司 | 数学主观题评阅方法及*** |
CN108280062A (zh) * | 2018-01-19 | 2018-07-13 | 北京邮电大学 | 基于深度学习的实体和实体关系识别方法及装置 |
CN108388559A (zh) * | 2018-02-26 | 2018-08-10 | 中译语通科技股份有限公司 | 地理空间应用下的命名实体识别方法及***、计算机程序 |
CN108563626A (zh) * | 2018-01-22 | 2018-09-21 | 北京颐圣智能科技有限公司 | 医疗文本命名实体识别方法和装置 |
CN108763192A (zh) * | 2018-04-18 | 2018-11-06 | 达而观信息科技(上海)有限公司 | 用于文本处理的实体关系抽取方法及装置 |
CN108805196A (zh) * | 2018-06-05 | 2018-11-13 | 西安交通大学 | 用于图像识别的自动增量学习方法 |
WO2018218705A1 (zh) * | 2017-05-27 | 2018-12-06 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN109062983A (zh) * | 2018-07-02 | 2018-12-21 | 北京妙医佳信息技术有限公司 | 用于医学健康知识图谱的命名实体识别方法及*** |
CN109241520A (zh) * | 2018-07-18 | 2019-01-18 | 五邑大学 | 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及*** |
CN109255119A (zh) * | 2018-07-18 | 2019-01-22 | 五邑大学 | 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及*** |
CN109299458A (zh) * | 2018-09-12 | 2019-02-01 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
CN109446514A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻实体识别模型的构建方法、装置和计算机设备 |
CN109657238A (zh) * | 2018-12-10 | 2019-04-19 | 宁波深擎信息科技有限公司 | 基于知识图谱的上下文识别补全方法、***、终端及介质 |
CN109670177A (zh) * | 2018-12-20 | 2019-04-23 | 翼健(上海)信息科技有限公司 | 一种基于lstm实现医学语义归一化的控制方法及控制装置 |
CN109710927A (zh) * | 2018-12-12 | 2019-05-03 | 东软集团股份有限公司 | 命名实体的识别方法、装置、可读存储介质及电子设备 |
CN109767817A (zh) * | 2019-01-16 | 2019-05-17 | 南通大学 | 一种基于神经网络语言模型的药物潜在不良反应发现方法 |
WO2019095568A1 (zh) * | 2017-11-17 | 2019-05-23 | 平安科技(深圳)有限公司 | 企业简称生成方法、装置及存储介质 |
CN109800437A (zh) * | 2019-01-31 | 2019-05-24 | 北京工业大学 | 一种基于特征融合的命名实体识别方法 |
CN109858025A (zh) * | 2019-01-07 | 2019-06-07 | 中科鼎富(北京)科技发展有限公司 | 一种地址标准化语料的分词方法及*** |
CN110019648A (zh) * | 2017-12-05 | 2019-07-16 | 深圳市腾讯计算机***有限公司 | 一种训练数据的方法、装置及存储介质 |
RU2699687C1 (ru) * | 2018-06-18 | 2019-09-09 | Общество с ограниченной ответственностью "Аби Продакшн" | Обнаружение текстовых полей с использованием нейронных сетей |
CN110245242A (zh) * | 2019-06-20 | 2019-09-17 | 北京百度网讯科技有限公司 | 医学知识图谱构建方法、装置以及终端 |
CN110298043A (zh) * | 2019-07-03 | 2019-10-01 | 吉林大学 | 一种车辆命名实体识别方法及*** |
CN110750992A (zh) * | 2019-10-09 | 2020-02-04 | 吉林大学 | 命名实体识别方法、装置、电子设备及介质 |
CN111091003A (zh) * | 2019-12-05 | 2020-05-01 | 电子科技大学广东电子信息工程研究院 | 一种基于知识图谱查询的并行抽取方法 |
CN111209748A (zh) * | 2019-12-16 | 2020-05-29 | 合肥讯飞数码科技有限公司 | 错别词识别方法、相关设备及可读存储介质 |
CN111523323A (zh) * | 2020-04-26 | 2020-08-11 | 梁华智能科技(上海)有限公司 | 一种中文分词的消歧处理方法和*** |
WO2020206876A1 (zh) * | 2019-04-08 | 2020-10-15 | 清华大学 | 学习分离表征的图卷积神经网络构建方法及装置 |
CN111859937A (zh) * | 2020-07-20 | 2020-10-30 | 上海汽车集团股份有限公司 | 一种实体识别方法及装置 |
CN111858838A (zh) * | 2019-04-04 | 2020-10-30 | 拉扎斯网络科技(上海)有限公司 | 一种菜系标定方法、装置、电子设备和非易失性存储介质 |
CN112199953A (zh) * | 2020-08-24 | 2021-01-08 | 广州九四智能科技有限公司 | 一种电话通话中信息提取方法、装置及计算机设备 |
CN112487816A (zh) * | 2020-12-14 | 2021-03-12 | 安徽大学 | 一种基于网络分类的命名实体识别方法 |
CN112765983A (zh) * | 2020-12-14 | 2021-05-07 | 四川长虹电器股份有限公司 | 一种基于结合知识描述的神经网络的实体消歧的方法 |
CN112905742A (zh) * | 2021-02-20 | 2021-06-04 | 厦门吉比特网络技术股份有限公司 | 基于语义模型神经网络识别新词汇的方法、装置、***、存储介质 |
CN114036948A (zh) * | 2021-10-26 | 2022-02-11 | 天津大学 | 一种基于不确定性量化的命名实体识别方法 |
CN114218924A (zh) * | 2021-07-27 | 2022-03-22 | 广东电力信息科技有限公司 | 一种基于bert模型的文本意图及实体联合识别方法 |
CN114510943A (zh) * | 2022-02-18 | 2022-05-17 | 北京大学 | 一种基于伪样本重放的增量式命名实体识别方法 |
CN112199953B (zh) * | 2020-08-24 | 2024-06-28 | 广州九四智能科技有限公司 | 一种电话通话中信息提取方法、装置及计算机设备 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563380A (zh) * | 2019-01-25 | 2020-08-21 | 浙江大学 | 一种命名实体识别方法及其装置 |
CN109992629B (zh) * | 2019-02-28 | 2021-08-06 | 中国科学院计算技术研究所 | 一种融合实体类型约束的神经网络关系抽取方法及*** |
CN109858041B (zh) * | 2019-03-07 | 2023-02-17 | 北京百分点科技集团股份有限公司 | 一种半监督学习结合自定义词典的命名实体识别方法 |
CN109933801B (zh) * | 2019-03-25 | 2022-03-29 | 北京理工大学 | 基于预测位置注意力的双向lstm命名实体识别方法 |
CN110781646B (zh) * | 2019-10-15 | 2023-08-22 | 泰康保险集团股份有限公司 | 名称标准化方法、装置、介质及电子设备 |
CN111008271B (zh) * | 2019-11-20 | 2022-06-24 | 佰聆数据股份有限公司 | 一种基于神经网络的关键信息提取方法及*** |
CN110993081B (zh) * | 2019-12-03 | 2023-08-11 | 济南大学 | 一种医生在线推荐方法及*** |
CN113139382A (zh) * | 2020-01-20 | 2021-07-20 | 北京国双科技有限公司 | 命名实体识别方法及装置 |
CN111368545B (zh) * | 2020-02-28 | 2024-04-30 | 北京明略软件***有限公司 | 一种基于多任务学习的命名实体识别方法和装置 |
CN111477320B (zh) * | 2020-03-11 | 2023-05-30 | 北京大学第三医院(北京大学第三临床医学院) | 治疗效果预测模型的构建***、治疗效果预测***及终端 |
CN111581957B (zh) * | 2020-05-06 | 2022-04-12 | 浙江大学 | 一种基于金字塔层级网络的嵌套实体检测方法 |
CN111476022B (zh) * | 2020-05-15 | 2023-07-07 | 湖南工商大学 | 实体特征的字符嵌入及混合lstm实体识别方法、***及介质 |
RU2760637C1 (ru) * | 2020-08-31 | 2021-11-29 | Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) | Способ и система извлечения именованных сущностей |
CN112101041B (zh) * | 2020-09-08 | 2022-02-15 | 平安科技(深圳)有限公司 | 基于语义相似度的实体关系抽取方法、装置、设备及介质 |
CN113343690B (zh) * | 2021-06-22 | 2024-03-12 | 北京语言大学 | 一种文本可读性自动评估方法及装置 |
CN113849597B (zh) * | 2021-08-31 | 2024-04-30 | 艾迪恩(山东)科技有限公司 | 基于命名实体识别的违法广告词检测方法 |
CN114048749B (zh) * | 2021-11-19 | 2024-02-02 | 北京第一因科技有限公司 | 一种适用于多领域的中文命名实体识别方法 |
WO2023204724A1 (ru) * | 2022-04-20 | 2023-10-26 | Общество С Ограниченной Ответственностью "Дентонс Юроп" (Ооо "Дентонс Юроп") | Способ анализа юридического документа |
CN115587594B (zh) * | 2022-09-20 | 2023-06-30 | 广东财经大学 | 网络安全的非结构化文本数据抽取模型训练方法及*** |
CN115905456B (zh) * | 2023-01-06 | 2023-06-02 | 浪潮电子信息产业股份有限公司 | 一种数据识别方法、***、设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090171662A1 (en) * | 2007-12-27 | 2009-07-02 | Sehda, Inc. | Robust Information Extraction from Utterances |
CN103455581A (zh) * | 2013-08-26 | 2013-12-18 | 北京理工大学 | 基于语义扩展的海量短文本信息过滤方法 |
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN105868184A (zh) * | 2016-05-10 | 2016-08-17 | 大连理工大学 | 一种基于循环神经网络的中文人名识别方法 |
CN106202032A (zh) * | 2016-06-24 | 2016-12-07 | 广州数说故事信息科技有限公司 | 一种面向微博短文本的情感分析方法及其*** |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7502971B2 (en) * | 2005-10-12 | 2009-03-10 | Hewlett-Packard Development Company, L.P. | Determining a recurrent problem of a computer resource using signatures |
RU2399959C2 (ru) * | 2008-10-29 | 2010-09-20 | Закрытое акционерное общество "Авикомп Сервисез" | Способ автоматизированной обработки текста на естественном языке путем его семантической индексации, способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители |
US8239349B2 (en) * | 2010-10-07 | 2012-08-07 | Hewlett-Packard Development Company, L.P. | Extracting data |
CN105404632B (zh) * | 2014-09-15 | 2020-07-31 | 深港产学研基地 | 基于深度神经网络对生物医学文本序列化标注的***和方法 |
CN104809176B (zh) * | 2015-04-13 | 2018-08-07 | 中央民族大学 | 藏语实体关系抽取方法 |
CN106202044A (zh) * | 2016-07-07 | 2016-12-07 | 武汉理工大学 | 一种基于深度神经网络的实体关系抽取方法 |
CN107203511B (zh) * | 2017-05-27 | 2020-07-17 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
-
2017
- 2017-05-27 CN CN201710390409.2A patent/CN107203511B/zh active Active
- 2017-06-20 AU AU2017416649A patent/AU2017416649A1/en not_active Abandoned
- 2017-06-20 WO PCT/CN2017/089135 patent/WO2018218705A1/zh active Application Filing
- 2017-06-20 CA CA3039280A patent/CA3039280C/en active Active
- 2017-06-20 RU RU2019117529A patent/RU2722571C1/ru active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090171662A1 (en) * | 2007-12-27 | 2009-07-02 | Sehda, Inc. | Robust Information Extraction from Utterances |
CN103455581A (zh) * | 2013-08-26 | 2013-12-18 | 北京理工大学 | 基于语义扩展的海量短文本信息过滤方法 |
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN105868184A (zh) * | 2016-05-10 | 2016-08-17 | 大连理工大学 | 一种基于循环神经网络的中文人名识别方法 |
CN106202032A (zh) * | 2016-06-24 | 2016-12-07 | 广州数说故事信息科技有限公司 | 一种面向微博短文本的情感分析方法及其*** |
Cited By (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018218705A1 (zh) * | 2017-05-27 | 2018-12-06 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN107665252A (zh) * | 2017-09-27 | 2018-02-06 | 深圳证券信息有限公司 | 一种创建知识图谱的方法及装置 |
CN107832289A (zh) * | 2017-10-12 | 2018-03-23 | 北京知道未来信息技术有限公司 | 一种基于lstm‑cnn的命名实体识别方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN107967251A (zh) * | 2017-10-12 | 2018-04-27 | 北京知道未来信息技术有限公司 | 一种基于Bi-LSTM-CNN的命名实体识别方法 |
CN107797989A (zh) * | 2017-10-16 | 2018-03-13 | 平安科技(深圳)有限公司 | 企业名称识别方法、电子设备及计算机可读存储介质 |
WO2019095568A1 (zh) * | 2017-11-17 | 2019-05-23 | 平安科技(深圳)有限公司 | 企业简称生成方法、装置及存储介质 |
CN110019648B (zh) * | 2017-12-05 | 2021-02-02 | 深圳市腾讯计算机***有限公司 | 一种训练数据的方法、装置及存储介质 |
CN110019648A (zh) * | 2017-12-05 | 2019-07-16 | 深圳市腾讯计算机***有限公司 | 一种训练数据的方法、装置及存储介质 |
CN108121702A (zh) * | 2017-12-26 | 2018-06-05 | 科大讯飞股份有限公司 | 数学主观题评阅方法及*** |
CN108052504A (zh) * | 2017-12-26 | 2018-05-18 | 科大讯飞股份有限公司 | 数学主观题解答结果的结构分析方法及*** |
CN108280062A (zh) * | 2018-01-19 | 2018-07-13 | 北京邮电大学 | 基于深度学习的实体和实体关系识别方法及装置 |
CN108563626A (zh) * | 2018-01-22 | 2018-09-21 | 北京颐圣智能科技有限公司 | 医疗文本命名实体识别方法和装置 |
CN108563626B (zh) * | 2018-01-22 | 2022-01-25 | 北京颐圣智能科技有限公司 | 医疗文本命名实体识别方法和装置 |
CN108388559A (zh) * | 2018-02-26 | 2018-08-10 | 中译语通科技股份有限公司 | 地理空间应用下的命名实体识别方法及***、计算机程序 |
CN108763192A (zh) * | 2018-04-18 | 2018-11-06 | 达而观信息科技(上海)有限公司 | 用于文本处理的实体关系抽取方法及装置 |
CN108763192B (zh) * | 2018-04-18 | 2022-04-19 | 达而观信息科技(上海)有限公司 | 用于文本处理的实体关系抽取方法及装置 |
CN108805196A (zh) * | 2018-06-05 | 2018-11-13 | 西安交通大学 | 用于图像识别的自动增量学习方法 |
RU2699687C1 (ru) * | 2018-06-18 | 2019-09-09 | Общество с ограниченной ответственностью "Аби Продакшн" | Обнаружение текстовых полей с использованием нейронных сетей |
CN109062983A (zh) * | 2018-07-02 | 2018-12-21 | 北京妙医佳信息技术有限公司 | 用于医学健康知识图谱的命名实体识别方法及*** |
CN109241520A (zh) * | 2018-07-18 | 2019-01-18 | 五邑大学 | 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及*** |
CN109255119A (zh) * | 2018-07-18 | 2019-01-22 | 五邑大学 | 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及*** |
CN109299458A (zh) * | 2018-09-12 | 2019-02-01 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
CN109299458B (zh) * | 2018-09-12 | 2023-03-28 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
CN109446514A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻实体识别模型的构建方法、装置和计算机设备 |
CN109657238B (zh) * | 2018-12-10 | 2023-10-13 | 宁波深擎信息科技有限公司 | 基于知识图谱的上下文识别补全方法、***、终端及介质 |
CN109657238A (zh) * | 2018-12-10 | 2019-04-19 | 宁波深擎信息科技有限公司 | 基于知识图谱的上下文识别补全方法、***、终端及介质 |
CN109710927A (zh) * | 2018-12-12 | 2019-05-03 | 东软集团股份有限公司 | 命名实体的识别方法、装置、可读存储介质及电子设备 |
CN109710927B (zh) * | 2018-12-12 | 2022-12-20 | 东软集团股份有限公司 | 命名实体的识别方法、装置、可读存储介质及电子设备 |
CN109670177A (zh) * | 2018-12-20 | 2019-04-23 | 翼健(上海)信息科技有限公司 | 一种基于lstm实现医学语义归一化的控制方法及控制装置 |
CN109858025A (zh) * | 2019-01-07 | 2019-06-07 | 中科鼎富(北京)科技发展有限公司 | 一种地址标准化语料的分词方法及*** |
CN109767817B (zh) * | 2019-01-16 | 2023-05-30 | 南通大学 | 一种基于神经网络语言模型的药物潜在不良反应发现方法 |
CN109767817A (zh) * | 2019-01-16 | 2019-05-17 | 南通大学 | 一种基于神经网络语言模型的药物潜在不良反应发现方法 |
CN109800437B (zh) * | 2019-01-31 | 2023-11-14 | 北京工业大学 | 一种基于特征融合的命名实体识别方法 |
CN109800437A (zh) * | 2019-01-31 | 2019-05-24 | 北京工业大学 | 一种基于特征融合的命名实体识别方法 |
CN111858838A (zh) * | 2019-04-04 | 2020-10-30 | 拉扎斯网络科技(上海)有限公司 | 一种菜系标定方法、装置、电子设备和非易失性存储介质 |
WO2020206876A1 (zh) * | 2019-04-08 | 2020-10-15 | 清华大学 | 学习分离表征的图卷积神经网络构建方法及装置 |
CN110245242B (zh) * | 2019-06-20 | 2022-01-18 | 北京百度网讯科技有限公司 | 医学知识图谱构建方法、装置以及终端 |
CN110245242A (zh) * | 2019-06-20 | 2019-09-17 | 北京百度网讯科技有限公司 | 医学知识图谱构建方法、装置以及终端 |
CN110298043A (zh) * | 2019-07-03 | 2019-10-01 | 吉林大学 | 一种车辆命名实体识别方法及*** |
CN110750992A (zh) * | 2019-10-09 | 2020-02-04 | 吉林大学 | 命名实体识别方法、装置、电子设备及介质 |
CN111091003A (zh) * | 2019-12-05 | 2020-05-01 | 电子科技大学广东电子信息工程研究院 | 一种基于知识图谱查询的并行抽取方法 |
CN111091003B (zh) * | 2019-12-05 | 2023-10-10 | 电子科技大学广东电子信息工程研究院 | 一种基于知识图谱查询的并行抽取方法 |
CN111209748B (zh) * | 2019-12-16 | 2023-10-24 | 合肥讯飞数码科技有限公司 | 错别词识别方法、相关设备及可读存储介质 |
CN111209748A (zh) * | 2019-12-16 | 2020-05-29 | 合肥讯飞数码科技有限公司 | 错别词识别方法、相关设备及可读存储介质 |
CN111523323B (zh) * | 2020-04-26 | 2022-08-12 | 梁华智能科技(上海)有限公司 | 一种中文分词的消歧处理方法和*** |
CN111523323A (zh) * | 2020-04-26 | 2020-08-11 | 梁华智能科技(上海)有限公司 | 一种中文分词的消歧处理方法和*** |
CN111859937A (zh) * | 2020-07-20 | 2020-10-30 | 上海汽车集团股份有限公司 | 一种实体识别方法及装置 |
CN112199953A (zh) * | 2020-08-24 | 2021-01-08 | 广州九四智能科技有限公司 | 一种电话通话中信息提取方法、装置及计算机设备 |
CN112199953B (zh) * | 2020-08-24 | 2024-06-28 | 广州九四智能科技有限公司 | 一种电话通话中信息提取方法、装置及计算机设备 |
CN112487816A (zh) * | 2020-12-14 | 2021-03-12 | 安徽大学 | 一种基于网络分类的命名实体识别方法 |
CN112765983A (zh) * | 2020-12-14 | 2021-05-07 | 四川长虹电器股份有限公司 | 一种基于结合知识描述的神经网络的实体消歧的方法 |
CN112487816B (zh) * | 2020-12-14 | 2024-02-13 | 安徽大学 | 一种基于网络分类的命名实体识别方法 |
CN112905742A (zh) * | 2021-02-20 | 2021-06-04 | 厦门吉比特网络技术股份有限公司 | 基于语义模型神经网络识别新词汇的方法、装置、***、存储介质 |
CN112905742B (zh) * | 2021-02-20 | 2022-07-29 | 厦门吉比特网络技术股份有限公司 | 基于语义模型神经网络识别新词汇的方法、装置 |
CN114218924A (zh) * | 2021-07-27 | 2022-03-22 | 广东电力信息科技有限公司 | 一种基于bert模型的文本意图及实体联合识别方法 |
CN114036948A (zh) * | 2021-10-26 | 2022-02-11 | 天津大学 | 一种基于不确定性量化的命名实体识别方法 |
CN114036948B (zh) * | 2021-10-26 | 2024-05-31 | 天津大学 | 一种基于不确定性量化的命名实体识别方法 |
CN114510943A (zh) * | 2022-02-18 | 2022-05-17 | 北京大学 | 一种基于伪样本重放的增量式命名实体识别方法 |
CN114510943B (zh) * | 2022-02-18 | 2024-05-28 | 北京大学 | 一种基于伪样本重放的增量式命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CA3039280C (en) | 2021-07-20 |
WO2018218705A1 (zh) | 2018-12-06 |
CA3039280A1 (en) | 2018-12-06 |
CN107203511B (zh) | 2020-07-17 |
RU2722571C1 (ru) | 2020-06-01 |
AU2017416649A1 (en) | 2019-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107203511A (zh) | 一种基于神经网络概率消歧的网络文本命名实体识别方法 | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和*** | |
CN107133224B (zh) | 一种基于主题词的语言生成方法 | |
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN106383816B (zh) | 基于深度学习的中文少数民族地区地名的识别方法 | |
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN110765775B (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN109325112B (zh) | 一种基于emoji的跨语言情感分析方法和装置 | |
CN110502753A (zh) | 一种基于语义增强的深度学习情感分析模型及其分析方法 | |
CN107273355A (zh) | 一种基于字词联合训练的中文词向量生成方法 | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和*** | |
CN111738007B (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN112417880A (zh) | 一种面向法院电子卷宗的案情信息自动抽取方法 | |
CN107862087A (zh) | 基于大数据和深度学习的情感分析方法、装置和存储介质 | |
CN106844345B (zh) | 一种基于参数线性约束的多任务分词方法 | |
CN110442880B (zh) | 一种机器翻译译文的翻译方法、装置及存储介质 | |
CN110717330A (zh) | 基于深度学习的词句级短文本分类方法 | |
CN107357785A (zh) | 主题特征词抽取方法及***、情感极性判断方法及*** | |
CN110851601A (zh) | 基于分层注意力机制的跨领域情感分类***及方法 | |
CN108363685B (zh) | 基于递归变分自编码模型的自媒体数据文本表示方法 | |
CN110046356A (zh) | 标签嵌入在微博文本情绪多标签分类中的应用研究 | |
CN112559734A (zh) | 简报生成方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |