CN105868184A - 一种基于循环神经网络的中文人名识别方法 - Google Patents
一种基于循环神经网络的中文人名识别方法 Download PDFInfo
- Publication number
- CN105868184A CN105868184A CN201610308475.6A CN201610308475A CN105868184A CN 105868184 A CN105868184 A CN 105868184A CN 201610308475 A CN201610308475 A CN 201610308475A CN 105868184 A CN105868184 A CN 105868184A
- Authority
- CN
- China
- Prior art keywords
- word
- name
- chinese
- recognition
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种基于循环神经网络的中文人名识别方法,本发明包括:S1、语料预处理;S2、词向量训练,利用word2vec工具进行词向量训练;S3、中文人名识别模型训练,利用S1处理后得到的数据以及S2训练得到的词向量对神经网络模型进行训练。S4、人名识别以及后处理,利用S3训练得到的模型在测试语料上进行人名识别,并利用上下文规则,扩散算法对模型识别出来的人名进行后处理,最后得到人名。利用本发明能有效的降低在中文人名识别时特征选取的复杂性,通过词向量充分利用中文文本中蕴含的丰富的句法和语法信息,从而增加模型的泛化能力,并且同时识别了日本人名和外国音译人名,扩大了中文人名识别的广度。
Description
技术领域
本发明涉及自然语言处理、深度学习以及命名实体识别等领域,尤其是一种适用于中文文本中的中国人名、日本人民和外国音译人名的识别方法。
背景技术
随着互联网技术的快速发展,新信息急剧膨胀,从海量数据中提取出有用信息的需求愈加迫切。如何从大规模的,非结构化的语言文本中快速有效的获得有用的信息和知识已经成为自然语言处理领域的研究热点。而中文信息与英文等语言相比,汉语缺少分隔标记,为命名实体识别增加了难度。但是命名实体识别在信息抽取、机器翻译和文本分类等领域有重要影响。而命名实体识别任务中由于人名的随意性使得人名识别是最为困难的任务,此外,中文人名在未登录词中占有较大的比重,因此,解决中文人名识别能够有效的提高未登录词的识别的效果,从而显著地提高信息抽取、机器翻译等***的性能。
目前,中文人名识别的方法中比较成熟的方法主要有两种:基于统计的方法和基于机器学习的方法。
基于规则的方法需要对语料进行分析,并根据人名的特点人工构造规则,然后通过定义好的规则对语料进行匹配,匹配到的结果即被认为是人名。此种方法无需标注语料且实现比较简单,合理和全面的规则集可以在实验中取得很好的识别效果,但我们不可能穷举出所有的规则,因此人工构造的规则集一般仅适合当前语料,移植性较差,缺乏泛化能力。
基于机器学习的方法主要将人名识别问题转化为序列标注问题或者分类问题,通过对训练语料的学习构建模型,然后使用训练好的模型对测试文件进行人名识别,该方法性能的好坏主要在于特征的选取,好的特征可以提高***的性能。因此该方法在特征的选取上会耗费大量的时间。此外特征需要人工手动选取,人工干预过多,特征选取的不好将会导致特征稀疏等问题,影响***的性能。
因此如何减少人工干预,降低特征选取的复杂性,提高***的泛化能力成为当前中文人名识别亟待解决的问题。此外,目前中文人名识别***主要针对中国人名进行识别,而对于日本人名、外国音译人名以及少数民族音译人名涉及较少,对于中文人名识别的广度急需提高。
发明内容
鉴于上述问题,本发明目的是提供一种基于循环神经网络的中文人名识别方法。该方法利用大规模的中文文本训练词向量,并仅使用蕴含丰富语义信息的词向量作为循环神经网络模型训练特征,避免人工干预,有效的降低了特征选取的复杂性。此外该方法在有限训练语料的前提下可以通过扩充词向量的训练文本丰富词向量信息,从而增加模型的泛化能力。此外,该方法添加了对日本人名、外国音译人名以及少数民族音译人名的识别功能,扩大了中文人名识别的广度。
本发明的技术方案:
一种基于循环神经网络的中文人名识别方法,步骤如下:
步骤1:对训练语料进行预处理:
步骤(a):利用中文分词工具对训练语料进行分词,并建立词词典;词词典中为每一个词分配序号,序号从1号开始编号,0号保留用来表示没有出现在词词典中的词;
步骤(b):先利用步骤(a)中的词词典对分词后的训练语料进行数字化处理,将结果保存到数字化文本中;再为每一个词分配分类标签,将结果保存到分类标签文本中;
步骤2:词向量训练:先利用中文分词工具对大规模中文文本进行分词,再使用word2vec对分词后的大规模中文文本进行训练得到词向量文件,并根据步骤1中得到的词词典对词向量文件进行筛选,仅保留分词词典中存在词的词向量,并存入词向量矩阵文本中。在循环神经网络模型中,使用词向量表示词,而词向量是可以事先通过大规模的中文文本训练得到,同时词向量中还会包含大规模中文文本中的句法、语义等丰富的信息。因此本文使用大规模中文文本训练得到的词向量去替换神经网络模型中的初始词向量,通过此操作,神经网络模型在初始阶段,词向量就已经包含了丰富的信息,模型在已知丰富信息的前提下,接收训练语料进行模型的训练可以大大的提高***的性能。
步骤3:中文人名识别模型训练;将步骤1生成的数字化文本、分类标签文本以及步骤2生成的词向量矩阵文本作为循环神经网络模型的输入,进行中文人名识别模型的训练。
步骤a):首先根据循环神经网络模型的窗口参数win的大小,将当前词t的前win/2和后win/2个词所对应的词向量进行首尾相接,组合成新的词向量表示当前词,记为w(t);
步骤b):将待处理的句子按照mini-batch原则进行分块。
步骤c):使用循环神经网络模型对步骤b)中的每一个块进行训练;将步骤a)中得到的词向量w(t)和前一步隐藏层的输出作为当前层的输入,通过激活函数变换得到隐藏层,如公式所示:
s(t)=f(w(t)u+s(t-1)w)
式中,f为神经单元节点的激活函数,w(t)表示当前词t的词向量,s(t-1)表示前一步隐藏层的输出,w和u分别表示前一步隐藏层与当前隐藏层的权重矩阵和输入层与当前隐藏层的权重矩阵,s(t)表示当前步隐藏层的输出。
然后,利用隐藏层输出得到输出层的值,如公式所示:
y(t)=g(s(t)v)
式中,g为softmax激活函数,v表示当前隐藏层与输出层的权重矩阵,y(t)为当前词t的预测值。
步骤d):对步骤c)中获得的预测值y(t)与真实值进行比较,若两者的差值高于某一设定阈值时,就会通过逆向反馈神经网络对各层之间的权重矩阵进行调整。
步骤e):循环神经网络模型中学习率自调整,在训练过程中,模型经过每次迭代之后都会对开发集进行结果测试,如果在设定的迭代次数内都未在开发集上获得更好的效果,则对学习率进行减半,进行下一次迭代操作。至学习率低于所设阈值停止训练,模型达到收敛状态。
步骤4:人名识别及后处理:
步骤a:使用中文分词工具对测试语料进行分词,并使用步骤1中得到的词词典对分词后的测试语料进行数字化操作,得到数字化文本。
步骤b:利用步骤3训练得到中文人名识别模型,对步骤a得到的数字化文本进行测试,并将识别的中文人名作为候选人名。
步骤c:使用上下文规则筛选候选人名,过滤不符合规则的人名
步骤d:使用基于篇章的全局扩散算法召回已经识别出而在上下文信息不足或者上下文信息过拟合的位置中未被识别的人名。
步骤e:使用基于篇章的局部扩散算法召回有名无姓、有姓无名的人名,将经过筛选后的人名定为最终人名。
本发明的有益效果:本发明能有效的降低在中文人名识别时特征选取的复杂性,充分利用大规模中文文本中蕴含的丰富的句法和语法信息,从而增加模型的泛化能力,在识别中国人名的同时,还对日本人名和外国音译人名进行了识别,扩大了中文人名识别的广度。
附图说明
图1为本发明语料预处理、词向量训练以及中文人名识别模型训练流程图。
图2为本发明人名识别及其后处理流程图。
图3为本发明实验效果图。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
图1显示了中文人名识别模型的预处理、词向量训练以及中文人名识别模型训练流程。
图2表示了后处理的流程,下面综合图1对本发明加以详细说明。
下面以1998年《***》作为数据集,用一个具体实例对本发明加以详细说明。
步骤1、对1998年《***》数据预处理:具体子步骤如下:
利用分词工具nihao分词对语料进行分词处理,得到词词典。然后利用词词典对分词后的每一个词进行数字化处理并分配分类标签,最终每一个词都有一个数字编号和一个分类标签。(以句子“清朝著名学者郭嵩焘曾说”为例):
步骤2:word2vec词向量训练:使用分词工具nihao分词对2000年《***》语料进行分词,并利用word2vec工具对分词后的语料进行词向量训练,获得每一个词的上下文信息表示,比如上例中姓氏“郭”的词向量表示为<0.229802-0.477945-0.478067 1.801231 1.433267 0.143571-0.6411991.334321…>。结合步骤1中得到的词词典对词向量进行过滤,将结果存入词向量矩阵文本中。
在词向量的训练过程中,我们采用CBOW模型进行训练,滑动窗口大小为5,词向量维度为100。
步骤3:模型训练及参数选择:我们采用循环神经网络(RNN)作为模型。中文人名识别中需要识别的类型有中国姓氏,中国名字,日本姓氏,日本名字和音译人名五种,加上一个负类,所以我们模型的预测类别为6类,经过多次实验,我们选择9层神经网络模型,输入层有500维(滑动窗口5,词向量100维),隐藏层节点个数为100,预测类别为6。我们利用反向传播以及梯度下降算法,借助于《***》训练集中的标注数据训练该模型,并在训练的过程中对学习率和词向量进行自学习调整。
关于模型超参数选择如下表所示:
超参数 | 隐藏层激活函数 | 输出层激活函数 | 层数 | 隐层节点个数 |
选择 | Sigmoid函数 | Softmax函数 | 9 | 100 |
步骤4:人名识别及后处理:首先,对测试语料进行分词,并使用步骤1得到的词词典进行数字化操作,然后利用步骤3训练得到中文人名识别模型,在数字化之后的测试语料上进行测试,将中文人名识别模型识别出的人名作为候选。然后,利用上下文规则筛选候选人名,过滤不符合规则的人名。最后,利用基于篇章的全局扩散算法召回已经识别出而在上下文信息不足或者上下文信息过拟合的位置中未识别的人名,并且利用基于篇章的局部扩散算法召回有名无姓、有姓无名的人名,最终确定人名。
Claims (1)
1.一种基于循环神经网络的中文人名识别方法,其特征在于,步骤如下:
步骤1:对训练语料进行预处理:
步骤(a):利用中文分词工具对训练语料进行分词,并建立词词典;在词词典中为每一个词分配序号,序号从1号开始编号,0号保留用来表示没有出现在词词典中的词;
步骤(b):先利用步骤(a)中的词词典对分词后的训练语料进行数字化处理,将结果保存到数字化文本中;再为每一个词分配分类标签,将结果保存到分类标签文本中;
步骤2:词向量训练:先利用中文分词工具对大规模中文文本进行分词,再使用word2vec对分词后的大规模中文文本进行训练得到词向量文件,并根据步骤1中得到的词词典对词向量文件进行筛选,仅保留分词词典中存在词的词向量,并存入词向量矩阵文本中;
步骤3:中文人名识别模型训练:将步骤1生成的数字化文本、分类标签文本以及步骤2生成的词向量矩阵文本作为循环神经网络模型的输入,进行中文人名识别模型的训练;
步骤a):根据循环神经网络模型的窗口参数win的大小,将当前词t的前win/2和后win/2个词所对应的词向量进行首尾相接,组合成新的词向量表示当前词,记为w(t);
步骤b):将待处理的句子按照mini-batch原则进行分块;
步骤c):使用循环神经网络模型对步骤b)中的每一个块进行训练;将步骤a)中得到的词向量w(t)和前一步隐藏层的输出作为当前层的输入,通过激活函数变换得到隐藏层,如公式所示:
s(t)=f(w(t)u+s(t-1)w)
式中,f为神经单元节点的激活函数,w(t)表示当前词t的词向量,s(t-1)表示前一步隐藏层的输出,w和u分别表示前一步隐藏层与当前隐藏层的权重矩阵和输入层与当前隐藏层的权重矩阵,s(t)表示当前步隐藏层的输出;
再利用隐藏层输出得到输出层的值,如公式所示:
y(t)=g(s(t)v)
式中,g为softmax激活函数,v表示当前隐藏层与输出层的权重矩阵,y(t)为当前词t的预测值;
步骤d):对步骤c)中获得的预测值y(t)与真实值进行比较,若两者的差值高于某一设定阈值时,通过逆向反馈神经网络对各层之间的权重矩阵进行调整;
步骤e):循环神经网络模型中学习率自调整,在训练过程中,循环神经网络模型经过每次迭代后,对开发集进行结果测试,如果在设定的迭代次数内都未在开发集上获得更好的效果,则对学习率进行减半,进行下一次迭代操作;至学习率低于所设阈值停止训练,循环神经网络模型达到收敛状态;
步骤4:人名识别及后处理:
步骤a:使用中文分词工具对测试语料进行分词,并使用步骤1中得到的词词典对分词后的测试语料进行数字化操作,得到数字化文本;
步骤b:利用步骤3训练得到中文人名识别模型,对步骤a得到的数字化文本进行测试,并将识别的中文人名作为候选人名;
步骤c:使用上下文规则筛选候选人名,过滤不符合规则的人名;
步骤d:使用基于篇章的全局扩散算法召回已经识别出而在上下文信息不足或者上下文信息过拟合的位置中未被识别的人名;
步骤e:使用基于篇章的局部扩散算法召回有名无姓、有姓无名的人名,将经过筛选后的人名定为最终人名。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610308475.6A CN105868184B (zh) | 2016-05-10 | 2016-05-10 | 一种基于循环神经网络的中文人名识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610308475.6A CN105868184B (zh) | 2016-05-10 | 2016-05-10 | 一种基于循环神经网络的中文人名识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105868184A true CN105868184A (zh) | 2016-08-17 |
CN105868184B CN105868184B (zh) | 2018-06-08 |
Family
ID=56630746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610308475.6A Expired - Fee Related CN105868184B (zh) | 2016-05-10 | 2016-05-10 | 一种基于循环神经网络的中文人名识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105868184B (zh) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202574A (zh) * | 2016-08-19 | 2016-12-07 | 清华大学 | 面向微博平台话题推荐的评估方法及装置 |
CN106372107A (zh) * | 2016-08-19 | 2017-02-01 | 中兴通讯股份有限公司 | 自然语言文句库的生成方法及装置 |
CN106383816A (zh) * | 2016-09-26 | 2017-02-08 | 大连民族大学 | 基于深度学习的中文少数民族地区地名的识别方法 |
CN106502989A (zh) * | 2016-10-31 | 2017-03-15 | 东软集团股份有限公司 | 情感分析方法及装置 |
CN106600283A (zh) * | 2016-12-16 | 2017-04-26 | 携程旅游信息技术(上海)有限公司 | 识别姓名国籍的方法、***及判断交易风险的方法、*** |
CN106776540A (zh) * | 2016-11-23 | 2017-05-31 | 清华大学 | 一种自由化文本生成方法 |
CN107203511A (zh) * | 2017-05-27 | 2017-09-26 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN107766565A (zh) * | 2017-11-06 | 2018-03-06 | 广州杰赛科技股份有限公司 | 对话角色区分方法与*** |
CN107766319A (zh) * | 2016-08-19 | 2018-03-06 | 华为技术有限公司 | 序列转换方法及装置 |
CN107818080A (zh) * | 2017-09-22 | 2018-03-20 | 新译信息科技(北京)有限公司 | 术语识别方法及装置 |
CN107885723A (zh) * | 2017-11-03 | 2018-04-06 | 广州杰赛科技股份有限公司 | 对话角色区分方法和*** |
CN108021616A (zh) * | 2017-11-06 | 2018-05-11 | 大连理工大学 | 一种基于循环神经网络的社区问答专家推荐方法 |
CN108090039A (zh) * | 2016-11-21 | 2018-05-29 | 中移(苏州)软件技术有限公司 | 一种人名识别方法和装置 |
CN108197110A (zh) * | 2018-01-03 | 2018-06-22 | 北京方寸开元科技发展有限公司 | 一种名字和职务获取及校对的方法、装置及其存储介质 |
CN108536815A (zh) * | 2018-04-08 | 2018-09-14 | 北京奇艺世纪科技有限公司 | 一种文本分类方法及装置 |
CN108628868A (zh) * | 2017-03-16 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 文本分类方法和装置 |
CN108830723A (zh) * | 2018-04-03 | 2018-11-16 | 平安科技(深圳)有限公司 | 电子装置、债券收益率分析方法及存储介质 |
CN108874765A (zh) * | 2017-05-15 | 2018-11-23 | 阿里巴巴集团控股有限公司 | 词向量处理方法及装置 |
CN109165300A (zh) * | 2018-08-31 | 2019-01-08 | 中国科学院自动化研究所 | 文本蕴含识别方法及装置 |
CN109388795A (zh) * | 2017-08-07 | 2019-02-26 | 芋头科技(杭州)有限公司 | 一种命名实体识别方法、语言识别方法及*** |
CN109597982A (zh) * | 2017-09-30 | 2019-04-09 | 北京国双科技有限公司 | 摘要文本识别方法及装置 |
CN109885827A (zh) * | 2019-01-08 | 2019-06-14 | 北京捷通华声科技股份有限公司 | 一种基于深度学习的命名实体的识别方法和*** |
CN110111778A (zh) * | 2019-04-30 | 2019-08-09 | 北京大米科技有限公司 | 一种语音处理方法、装置、存储介质及电子设备 |
CN110334110A (zh) * | 2019-05-28 | 2019-10-15 | 平安科技(深圳)有限公司 | 自然语言分类方法、装置、计算机设备以及存储介质 |
CN110489765A (zh) * | 2019-07-19 | 2019-11-22 | 平安科技(深圳)有限公司 | 机器翻译方法、装置及计算机可读存储介质 |
CN110765243A (zh) * | 2019-09-17 | 2020-02-07 | 平安科技(深圳)有限公司 | 自然语言处理***的构建方法、电子装置及计算机设备 |
CN111401083A (zh) * | 2019-01-02 | 2020-07-10 | 阿里巴巴集团控股有限公司 | 名称的识别方法及装置、存储介质和处理器 |
CN112883161A (zh) * | 2021-03-05 | 2021-06-01 | 龙马智芯(珠海横琴)科技有限公司 | 音译名识别规则的生成方法、装置、生成设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140236578A1 (en) * | 2013-02-15 | 2014-08-21 | Nec Laboratories America, Inc. | Question-Answering by Recursive Parse Tree Descent |
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
-
2016
- 2016-05-10 CN CN201610308475.6A patent/CN105868184B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140236578A1 (en) * | 2013-02-15 | 2014-08-21 | Nec Laboratories America, Inc. | Question-Answering by Recursive Parse Tree Descent |
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
LISHUANG LI 等: "Biomedical Named Entity Recognition Based on", 《2015 IEEE INTERNATIONAL CONFERENCE ON BIOINFONNATICS AND BIOMEDICINE》 * |
周昆 等: "一种基于本体论和规则匹配的中文人名识别方法", 《微计算机信息》 * |
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018033030A1 (zh) * | 2016-08-19 | 2018-02-22 | 中兴通讯股份有限公司 | 自然语言文句库的生成方法及装置 |
CN106372107A (zh) * | 2016-08-19 | 2017-02-01 | 中兴通讯股份有限公司 | 自然语言文句库的生成方法及装置 |
CN106372107B (zh) * | 2016-08-19 | 2020-01-17 | 中兴通讯股份有限公司 | 自然语言文句库的生成方法及装置 |
CN106202574A (zh) * | 2016-08-19 | 2016-12-07 | 清华大学 | 面向微博平台话题推荐的评估方法及装置 |
CN107766319A (zh) * | 2016-08-19 | 2018-03-06 | 华为技术有限公司 | 序列转换方法及装置 |
CN107766319B (zh) * | 2016-08-19 | 2021-05-18 | 华为技术有限公司 | 序列转换方法及装置 |
US11288458B2 (en) | 2016-08-19 | 2022-03-29 | Huawei Technologies Co., Ltd. | Sequence conversion method and apparatus in natural language processing based on adjusting a weight associated with each word |
CN106383816B (zh) * | 2016-09-26 | 2018-11-30 | 大连民族大学 | 基于深度学习的中文少数民族地区地名的识别方法 |
CN106383816A (zh) * | 2016-09-26 | 2017-02-08 | 大连民族大学 | 基于深度学习的中文少数民族地区地名的识别方法 |
CN106502989A (zh) * | 2016-10-31 | 2017-03-15 | 东软集团股份有限公司 | 情感分析方法及装置 |
CN108090039A (zh) * | 2016-11-21 | 2018-05-29 | 中移(苏州)软件技术有限公司 | 一种人名识别方法和装置 |
CN106776540A (zh) * | 2016-11-23 | 2017-05-31 | 清华大学 | 一种自由化文本生成方法 |
CN106600283A (zh) * | 2016-12-16 | 2017-04-26 | 携程旅游信息技术(上海)有限公司 | 识别姓名国籍的方法、***及判断交易风险的方法、*** |
CN108628868A (zh) * | 2017-03-16 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 文本分类方法和装置 |
CN108874765B (zh) * | 2017-05-15 | 2021-12-24 | 创新先进技术有限公司 | 词向量处理方法及装置 |
CN108874765A (zh) * | 2017-05-15 | 2018-11-23 | 阿里巴巴集团控股有限公司 | 词向量处理方法及装置 |
CN107203511A (zh) * | 2017-05-27 | 2017-09-26 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN107203511B (zh) * | 2017-05-27 | 2020-07-17 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN109388795B (zh) * | 2017-08-07 | 2022-11-08 | 芋头科技(杭州)有限公司 | 一种命名实体识别方法、语言识别方法及*** |
CN109388795A (zh) * | 2017-08-07 | 2019-02-26 | 芋头科技(杭州)有限公司 | 一种命名实体识别方法、语言识别方法及*** |
CN107818080A (zh) * | 2017-09-22 | 2018-03-20 | 新译信息科技(北京)有限公司 | 术语识别方法及装置 |
CN109597982B (zh) * | 2017-09-30 | 2022-11-22 | 北京国双科技有限公司 | 摘要文本识别方法及装置 |
CN109597982A (zh) * | 2017-09-30 | 2019-04-09 | 北京国双科技有限公司 | 摘要文本识别方法及装置 |
CN107885723A (zh) * | 2017-11-03 | 2018-04-06 | 广州杰赛科技股份有限公司 | 对话角色区分方法和*** |
CN107885723B (zh) * | 2017-11-03 | 2021-04-09 | 广州杰赛科技股份有限公司 | 对话角色区分方法和*** |
CN108021616B (zh) * | 2017-11-06 | 2020-08-14 | 大连理工大学 | 一种基于循环神经网络的社区问答专家推荐方法 |
CN107766565A (zh) * | 2017-11-06 | 2018-03-06 | 广州杰赛科技股份有限公司 | 对话角色区分方法与*** |
CN108021616A (zh) * | 2017-11-06 | 2018-05-11 | 大连理工大学 | 一种基于循环神经网络的社区问答专家推荐方法 |
CN108197110A (zh) * | 2018-01-03 | 2018-06-22 | 北京方寸开元科技发展有限公司 | 一种名字和职务获取及校对的方法、装置及其存储介质 |
CN108830723A (zh) * | 2018-04-03 | 2018-11-16 | 平安科技(深圳)有限公司 | 电子装置、债券收益率分析方法及存储介质 |
CN108536815B (zh) * | 2018-04-08 | 2020-09-29 | 北京奇艺世纪科技有限公司 | 一种文本分类方法及装置 |
CN108536815A (zh) * | 2018-04-08 | 2018-09-14 | 北京奇艺世纪科技有限公司 | 一种文本分类方法及装置 |
CN109165300A (zh) * | 2018-08-31 | 2019-01-08 | 中国科学院自动化研究所 | 文本蕴含识别方法及装置 |
CN111401083B (zh) * | 2019-01-02 | 2023-05-02 | 阿里巴巴集团控股有限公司 | 名称的识别方法及装置、存储介质和处理器 |
CN111401083A (zh) * | 2019-01-02 | 2020-07-10 | 阿里巴巴集团控股有限公司 | 名称的识别方法及装置、存储介质和处理器 |
CN109885827B (zh) * | 2019-01-08 | 2023-10-27 | 北京捷通华声科技股份有限公司 | 一种基于深度学习的命名实体的识别方法和*** |
CN109885827A (zh) * | 2019-01-08 | 2019-06-14 | 北京捷通华声科技股份有限公司 | 一种基于深度学习的命名实体的识别方法和*** |
CN110111778A (zh) * | 2019-04-30 | 2019-08-09 | 北京大米科技有限公司 | 一种语音处理方法、装置、存储介质及电子设备 |
CN110111778B (zh) * | 2019-04-30 | 2021-11-12 | 北京大米科技有限公司 | 一种语音处理方法、装置、存储介质及电子设备 |
CN110334110A (zh) * | 2019-05-28 | 2019-10-15 | 平安科技(深圳)有限公司 | 自然语言分类方法、装置、计算机设备以及存储介质 |
CN110489765A (zh) * | 2019-07-19 | 2019-11-22 | 平安科技(深圳)有限公司 | 机器翻译方法、装置及计算机可读存储介质 |
CN110489765B (zh) * | 2019-07-19 | 2024-05-10 | 平安科技(深圳)有限公司 | 机器翻译方法、装置及计算机可读存储介质 |
WO2021051585A1 (zh) * | 2019-09-17 | 2021-03-25 | 平安科技(深圳)有限公司 | 自然语言处理***的构建方法、电子装置及计算机设备 |
CN110765243A (zh) * | 2019-09-17 | 2020-02-07 | 平安科技(深圳)有限公司 | 自然语言处理***的构建方法、电子装置及计算机设备 |
CN112883161A (zh) * | 2021-03-05 | 2021-06-01 | 龙马智芯(珠海横琴)科技有限公司 | 音译名识别规则的生成方法、装置、生成设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105868184B (zh) | 2018-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105868184A (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN107133220B (zh) | 一种地理学科领域命名实体识别方法 | |
CN107168945B (zh) | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN104268160B (zh) | 一种基于领域词典和语义角色的评价对象抽取方法 | |
CN108614875B (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
CN109829159B (zh) | 一种古汉语文本的一体化自动词法分析方法及*** | |
CN110472003B (zh) | 基于图卷积网络的社交网络文本情感细粒度分类方法 | |
CN106886580B (zh) | 一种基于深度学习的图片情感极性分析方法 | |
CN110019843A (zh) | 知识图谱的处理方法及装置 | |
CN106980608A (zh) | 一种中文电子病历分词和命名实体识别方法及*** | |
CN109376251A (zh) | 一种基于词向量学习模型的微博中文情感词典构建方法 | |
CN110210019A (zh) | 一种基于递归神经网络的事件要素抽取方法 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN108628970A (zh) | 一种基于新标记模式的生物医学事件联合抽取方法 | |
CN111160037A (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
CN107943784A (zh) | 基于生成对抗网络的关系抽取方法 | |
CN106202543A (zh) | 基于机器学习的本体匹配方法和*** | |
CN109472026A (zh) | 一种同时针对多个命名实体的精准情感信息提取方法 | |
CN104239554A (zh) | 跨领域跨类别的新闻评论情绪预测方法 | |
CN108765383A (zh) | 基于深度迁移学习的视频描述方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180608 Termination date: 20210510 |
|
CF01 | Termination of patent right due to non-payment of annual fee |