CN113723088A - 自然语言处理方法、装置、文本处理方法、设备和介质 - Google Patents
自然语言处理方法、装置、文本处理方法、设备和介质 Download PDFInfo
- Publication number
- CN113723088A CN113723088A CN202010447042.5A CN202010447042A CN113723088A CN 113723088 A CN113723088 A CN 113723088A CN 202010447042 A CN202010447042 A CN 202010447042A CN 113723088 A CN113723088 A CN 113723088A
- Authority
- CN
- China
- Prior art keywords
- data
- labeled
- target
- target field
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000003058 natural language processing Methods 0.000 title claims abstract description 32
- 238000012545 processing Methods 0.000 title claims abstract description 22
- 238000003672 processing method Methods 0.000 title abstract description 9
- 230000011218 segmentation Effects 0.000 claims abstract description 186
- 238000002372 labelling Methods 0.000 claims abstract description 51
- 238000009833 condensation Methods 0.000 claims description 21
- 230000005494 condensation Effects 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 17
- 241000219095 Vitis Species 0.000 description 9
- 235000009754 Vitis X bourquina Nutrition 0.000 description 9
- 235000012333 Vitis X labruscana Nutrition 0.000 description 9
- 235000014787 Vitis vinifera Nutrition 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 102000016943 Muramidase Human genes 0.000 description 5
- 108010014251 Muramidase Proteins 0.000 description 5
- 108010062010 N-Acetylmuramoyl-L-alanine Amidase Proteins 0.000 description 5
- 229960000274 lysozyme Drugs 0.000 description 5
- 235000010335 lysozyme Nutrition 0.000 description 5
- 239000004325 lysozyme Substances 0.000 description 5
- 108090000790 Enzymes Proteins 0.000 description 4
- 102000004190 Enzymes Human genes 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 229940088598 enzyme Drugs 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000009089 cytolysis Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000194017 Streptococcus Species 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本公开实施例公开了自然语言处理方法、装置、文本处理方法、设备和介质,所述自然语言处理方法包括:获取有标注的源领域数据以及无标注的目标领域数据;利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注;将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
Description
技术领域
本公开涉及计算机技术领域,具体涉及自然语言处理方法、装置、文本处理方法、设备和介质。
背景技术
在中文中,字与字之间并不存在显式的分隔符。因此,若想让机器获取词语单位的信息,必须将字符序列重新规范,组成词序列。如今,分词已经成为了自然语言处理中任务中必不可少的关键步骤,例如,若想在地址“AAA市BBB区CCC路”中正确识别出“AAA市”、“BBB区”等命名实体,正确的分词是一个必要的预处理步骤。
目前,深度学习模型已经可以在特定领域内的有监督分词取得很好的效果。但本发明人发现,这些表现优异的算法性能在跨领域的场景中分词效果就会骤降,暴露出较大的问题。这主要是因为,每个领域都有特定词语,而人工标注的语料往往是十分有限的,不可能覆盖到每个领域。这种标注语料的缺少就会造成模型无法识别出不曾在训练过程中登录的词语。例如,一个在新闻语料训练的模型很难识别出“链球菌”这个词,因为后者往往只在医疗语料中出现。跨领域的设置会大大削弱监督语料下的模型性能。
发明内容
为了解决相关技术中的问题,本公开实施例提供自然语言处理方法、装置、文本处理方法、设备和介质。
第一方面,本公开实施例中提供了一种自然语言处理方法,包括:
获取有标注的源领域数据以及无标注的目标领域数据;
利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注;
将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据。
结合第一方面,本公开在第一方面的第一种实现方式中,所述利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注,包括:
将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,获取源领域特定词、共享词、以及目标领域待标注数据;
利用所述共享词获取共享词词表;
利用所述目标领域待标注数据获取目标领域特有词典;
根据所述共享词词表和所述目标领域特有词典,获取机器标注的目标领域数据。
结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述利用所述目标领域待标注数据获取目标领域特有词典,包括:
通过计算如下指标中的一种或多种,识别所述目标领域待标注数据中的词:
凝合分数、自由分数、词频以及词频-逆文本频率指数。
结合第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述凝合分数通过如下方式进行计算,包括:
从所述目标领域待标注数据中获取第一文本片段;
获取所述第一文本片段作为整体在所述目标领域待标注数据中出现的第一概率;
将所述第一文本片段分割为两个子片段,确定使所述两个子片段在所述目标领域待标注数据中出现的概率的乘积最大的第一分割方式;以及
基于所述第一概率与所述第一分割方式所对应的乘积的比值确定所述目标领域特有词典。
结合第一方面的第二种实现方式,本公开在第一方面的第四种实现方式中,所述自由分数通过如下方式进行计算,包括:
从所述目标领域待标注数据中获取第二文本片段;
确定所述第二文本片段的左邻字集熵和右邻字集熵;
基于所述左邻字集熵和右邻字集熵中的较小者确定所述目标领域特有词典。
结合第一方面的第一种实现方式,本公开在第一方面的第五种实现方式中,所述利用所述目标领域待标注数据获取目标领域特有词典,包括:
通过预定分词模型处理所述目标领域待标注数据,获取目标领域特有词典。
结合第一方面、第一方面的第一种实现方式至第五种实现方式任一项,本公开在第一方面的第六种实现方式中,所述对抗网络包括共享编码器、判别器和目标领域分词器,所述将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据,包括:
将所述有标注的源领域数据中的第三文本片段进行编码,获取第一隐含向量;
将所述机器标注的目标领域数据中的第四文本片段进行编码,获取第二隐含向量;
所述共享编码器随机选取第一隐含向量或第二隐含向量作为第一编码输入所述判别器,以使所述判别器判断所述第一编码是第一隐含向量或第二隐含向量;
所述目标领域分词器根据所述判别器的结果获取优化后的目标领域数据。
结合第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,所述目标领域分词器包括目标领域编码器和第一分词器,所述根据所述判别器的结果获取优化后的目标领域数据,包括:
通过所述目标领域编码器获取第二编码,所述第二编码根据所述第二隐含向量获取;
基于所述第一编码和所述第二编码,通过第一分词器获取所述第四文本片段的优化分词结果。
结合第一方面的第六种实现方式,本公开在第一方面的第八种实现方式中,所述对抗网络还包括源领域编码器和第二分词器,所述方法还包括:
所述源领域编码器获取第三编码,所述第三编码根据所述第一隐含向量获取;
基于所述第一编码和所述第三编码,通过第二分词器获取所述第三文本片段的优化分词结果。
第二方面,本公开实施例中提供了一种自然语言处理装置,包括:
获取模块,被配置为获取有标注的源领域数据以及无标注的目标领域数据;
标注模块,被配置为利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注;
输入模块,被配置为将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据。
结合第二方面,本公开在第二方面的第一种实现方式中,所述标注模块包括:
匹配子模块,被配置为将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,获取源领域特定词、共享词、以及目标领域待标注数据;
共享词词表获取子模块,被配置为利用所述共享词获取共享词词表;
目标领域特有词典词获取子模块,被配置为利用所述目标领域待标注数据获取目标领域特有词典;
目标领域数据获取子模块,被配置为根据所述共享词词表和所述目标领域特有词典,获取机器标注的目标领域数据。
结合第二方面的第一种实现方式,本公开在第二方面的第二种实现方式中,所述特有词典词表获取子模块还被配置为:
通过计算如下指标中的一种或多种,识别所述目标领域待标注数据中的词:
凝合分数、自由分数、词频以及词频-逆文本频率指数。
结合第二方面的第二种实现方式,本公开在第二方面的第三种实现方式中,所述凝合分数通过如下方式进行计算,包括:
从所述目标领域待标注数据中获取第一文本片段;
获取所述第一文本片段作为整体在所述目标领域待标注数据中出现的第一概率;
将所述第一文本片段分割为两个子片段,确定使所述两个子片段在所述目标领域待标注数据中出现的概率的乘积最大的第一分割方式;以及
基于所述第一概率与所述第一分割方式所对应的乘积的比值确定所述目标领域特有词典。
结合第二方面的第二种实现方式,本公开在第二方面的第四种实现方式中,所述自由分数通过如下方式进行计算,包括:
从所述目标领域待标注数据中获取第二文本片段;
确定所述第二文本片段的左邻字集熵和右邻字集熵;
基于所述左邻字集熵和右邻字集熵中的较小者确定所述目标领域特有词典。
结合第二方面的第一种实现方式,本公开在第二方面的第五种实现方式中,所述目标领域特有词典词获取子模块还被配置为:
通过预定分词模型处理所述目标领域待标注数据,获取目标领域特有词典。
结合第二方面、第二方面的第一种实现方式至第五种实现方式任一项,本公开在第二方面的第六种实现方式中,所述对抗网络包括共享编码器、判别器和目标领域分词器,所述输入模块包括:
第一编码子模块,被配置为将所述有标注的源领域数据中的第三文本片段进行编码,获取第一隐含向量;
第二编码子模块,被配置为将所述机器标注的目标领域数据中的第四文本片段进行编码,获取第二隐含向量,
其中,所述共享编码器随机选取第一隐含向量或第二隐含向量作为第一编码输入所述判别器,以使所述判别器判断所述第一编码是第一隐含向量或第二隐含向量;
其中,所述目标领域分词器根据所述判别器的结果获取优化后的目标领域数据。
结合第二方面的第六种实现方式,本公开在第二方面的第七种实现方式中,所述目标领域分词器包括目标领域编码器和第一分词器,所述目标领域分词器被配置为:
通过所述目标领域编码器获取第二编码,所述第二编码根据所述第二隐含向量获取;
基于所述第一编码和所述第二编码,通过第一分词器获取所述第四文本片段的优化分词结果。
结合第二方面的第六种实现方式,本公开在第二方面的第八种实现方式中,所述对抗网络还包括源领域编码器和第二分词器,其中:
所述源领域编码器获取第三编码,所述第三编码根据所述第一隐含向量获取;
基于所述第一编码和所述第三编码,第二分词器获取所述第三文本片段的优化分词结果。
第三方面,本公开实施例中提供了一种文本处理方法,包括:
获取有标注的第一文本数据以及无标注的第二文本数据;
利用所述有标注的第一文本数据,对所述无标注的第二文本数据进行机器标注;
将所述有标注的第一文本数据、机器标注的第二文本数据输入至对抗网络,获取优化后的第二文本数据;
基于优化后的第二文本数据,输出所述第二文本数据的优化分词结果。
第四方面,本公开实施例中提供了一种电子设备,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种实现方式至第八种实现方式或者第三方面任一项所述的方法。
第五方面,本公开实施例中提供了一种可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面、第一方面的第一种实现方式至第八种实现方式或者第三方面任一项所述的方法。
本公开实施例提供的技术方案可以包括以下有益效果:
根据本公开实施例提供的技术方案,通过获取有标注的源领域数据以及无标注的目标领域数据;利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注;将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注,包括:将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,获取源领域特定词、共享词、以及目标领域待标注数据;利用所述共享词获取共享词词表;利用所述目标领域待标注数据获取目标领域特有词典;根据所述共享词词表和所述目标领域特有词典,获取机器标注的目标领域数据,可以针对无人工标注的目标领域数据获取机器标注的目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述利用所述目标领域待标注数据获取目标领域特有词典,包括:通过计算如下指标中的一种或多种,识别所述目标领域待标注数据中的词:凝合分数、自由分数、词频以及词频-逆文本频率指数,可以针对无人工标注的目标领域数据获取机器标注的目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述凝合分数通过如下方式进行计算,包括:从所述目标领域待标注数据中获取第一文本片段;获取所述第一文本片段作为整体在所述目标领域待标注数据中出现的第一概率;将所述第一文本片段分割为两个子片段,确定使所述两个子片段在所述目标领域待标注数据中出现的概率的乘积最大的第一分割方式;以及基于所述第一概率与所述第一分割方式所对应的乘积的比值确定所述目标领域特有词典,可以针对无人工标注的目标领域数据获取机器标注的目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述自由分数通过如下方式进行计算,包括:从所述目标领域待标注数据中获取第二文本片段;确定所述第二文本片段的左邻字集熵和右邻字集熵;基于所述左邻字集熵和右邻字集熵中的较小者确定所述目标领域特有词典,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述利用所述目标领域待标注数据获取目标领域特有词典,包括:通过预定分词模型处理所述目标领域待标注数据,获取目标领域特有词典,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述对抗网络包括共享编码器、判别器和目标领域分词器,所述将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据,包括:将所述有标注的源领域数据中的第三文本片段进行编码,获取第一隐含向量;将所述机器标注的目标领域数据中的第四文本片段进行编码,获取第二隐含向量;所述共享编码器随机选取第一隐含向量或第二隐含向量作为第一编码输入所述判别器,以使所述判别器判断所述第一编码是第一隐含向量或第二隐含向量;所述目标领域分词器根据所述判别器的结果获取优化后的目标领域数据,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述目标领域分词器包括目标领域编码器和第一分词器,所述根据所述判别器的结果获取优化后的目标领域数据,包括:通过所述目标领域编码器获取第二编码,所述第二编码根据所述第二隐含向量获取;基于所述第一编码和所述第二编码,通过第一分词器获取所述第四文本片段的优化分词结果,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述对抗网络还包括源领域编码器和第二分词器,所述方法还包括:所述源领域编码器获取第三编码,所述第三编码根据所述第一隐含向量获取;基于所述第一编码和所述第三编码,通过第二分词器获取所述第三文本片段的优化分词结果,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高源领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过获取模块,被配置为获取有标注的源领域数据以及无标注的目标领域数据;标注模块,被配置为利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注;输入模块,被配置为将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述标注模块包括:匹配子模块,被配置为将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,获取源领域特定词、共享词、以及目标领域待标注数据;共享词词表获取子模块,被配置为利用所述共享词获取共享词词表;目标领域特有词典词获取子模块,被配置为利用所述目标领域待标注数据获取目标领域特有词典;目标领域数据获取子模块,被配置为根据所述共享词词表和所述目标领域特有词典,获取机器标注的目标领域数据,可以针对无人工标注的目标领域数据获取机器标注的目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述特有词典词表获取子模块还被配置为:通过计算如下指标中的一种或多种,识别所述目标领域待标注数据中的词:凝合分数、自由分数、词频以及词频-逆文本频率指数,可以针对无人工标注的目标领域数据获取机器标注的目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述凝合分数通过如下方式进行计算,包括:从所述目标领域待标注数据中获取第一文本片段;获取所述第一文本片段作为整体在所述目标领域待标注数据中出现的第一概率;将所述第一文本片段分割为两个子片段,确定使所述两个子片段在所述目标领域待标注数据中出现的概率的乘积最大的第一分割方式;以及基于所述第一概率与所述第一分割方式所对应的乘积的比值确定所述目标领域特有词典,可以针对无人工标注的目标领域数据获取机器标注的目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述自由分数通过如下方式进行计算,包括:从所述目标领域待标注数据中获取第二文本片段;确定所述第二文本片段的左邻字集熵和右邻字集熵;基于所述左邻字集熵和右邻字集熵中的较小者确定所述目标领域特有词典,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述目标领域特有词典词获取子模块还被配置为:通过预定分词模型处理所述目标领域待标注数据,获取目标领域特有词典,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述对抗网络包括共享编码器、判别器和目标领域分词器,所述输入模块包括:第一编码子模块,被配置为将所述有标注的源领域数据中的第三文本片段进行编码,获取第一隐含向量;第二编码子模块,被配置为将所述机器标注的目标领域数据中的第四文本片段进行编码,获取第二隐含向量,其中,所述共享编码器随机选取第一隐含向量或第二隐含向量作为第一编码输入所述判别器,以使所述判别器判断所述第一编码是第一隐含向量或第二隐含向量;其中,所述目标领域分词器根据所述判别器的结果获取优化后的目标领域数据,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述目标领域分词器包括目标领域编码器和第一分词器,所述目标领域分词器被配置为:通过所述目标领域编码器获取第二编码,所述第二编码根据所述第二隐含向量获取;基于所述第一编码和所述第二编码,通过第一分词器获取所述第四文本片段的优化分词结果,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过所述对抗网络还包括源领域编码器和第二分词器,其中:所述源领域编码器获取第三编码,所述第三编码根据所述第一隐含向量获取;基于所述第一编码和所述第三编码,第二分词器获取所述第三文本片段的优化分词结果,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高源领域数据分词的准确性。
根据本公开实施例提供的技术方案,通过获取有标注的第一文本数据以及无标注的第二文本数据;利用所述有标注的第一文本数据,对所述无标注的第二文本数据进行机器标注;将所述有标注的第一文本数据、机器标注的第二文本数据输入至对抗网络,获取优化后的第二文本数据;基于优化后的第二文本数据,输出所述第二文本数据的优化分词结果,可以基于带有标注的第一文本数据和机器标注的第二文本数据,利用对抗网络优化第二文本数据的分词结果,提高第二文本数据分词的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它标签、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的自然语言处理方法的流程图;
图2示出根据本公开一实施方式的自然语言处理方法中的数据处理流程的示意图;
图3示出根据本公开一实施方式的自然语言处理方法中的获取机器标注的目标领域数据的方式的示意图;
图4示出根据本公开一实施方式的对抗网络的示意图;
图5示出根据本公开一实施方式的自然语言处理装置的结构框图;
图6示出根据本公开一实施方式的电子设备的结构框图;
图7是适于用来实现根据本公开实施方式的自然语言处理方法或文本处理方法的计算机***的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的标签、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他标签、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的标签可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
根据本公开实施例提供的技术方案,通过获取有标注的源领域数据以及无标注的目标领域数据;利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注;将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。不需要目标领域上的任何监督信息(如领域词典、标注信息等等),使用对抗网络对机器自动标注的数据进行降噪,有效利用了源目标领域的语义信息,降低了词典不足问题造成的影响,大大提高了模型在新领域的可扩展性。
图1示出根据本公开一实施方式的自然语言处理方法的流程图。如图1所示,自然语言处理方法包括以下步骤S110、S120和S130:
在步骤S110中,获取有标注的源领域数据以及无标注的目标领域数据。
在步骤S120中,利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注。
在步骤S130中,将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据。
在本公开的一个实施例中,源领域数据和目标领域数据属于自然语言,可以是文本形式的数据。在本公开的一个实施例中,有标注的源领域数据包括对源领域数据的标注信息。在本公开的一个实施例中,优化后的目标领域数据可以包括对目标领域数据的标注信息。例如,标注可以指的是对每一个字符打上标签,该标签表示它在词中的具***置。例如,可以以B、M、E分别表示词的开始、中间和结尾,以S表示该单字独立成为一个词。
在本公开的一个实施例中,源领域和目标领域是两个不同的领域。两者之间可以存在一些领域无关的共享词,例如“是”、“研究”、“发现”等等。也存在一些领域特定词,在源领域中常见的词在目标领域非常罕见甚至不存在,在目标领域中常见的词在源领域非常罕见甚至不存在。例如,源领域可以是新闻领域,目标领域可以是医学领域,两个领域中常见的词语具有很大差别。因此,现有技术针对源领域文本数据训练的模型难以应用于目标领域文本数据。
在本公开的一个实施例中,有标注的源领域文本数据是带有标注的文本数据,例如,有标注的文本“大萧条以来最糟经济衰退”对应的标注信息可以是“BMEBEBEBEBE”,该标注信息即为该有标注的源领域文本数据的分词结果。而无标注的目标领域数据是待分词的文本数据,不带有这种标记。
图2示出根据本公开一实施方式的自然语言处理方法中的数据处理流程的示意图。
如图2所示,在本公开的一个实施例中,该自然语言处理方法使用两个数据集,一个数据集包括有标注(带有人工标签)的源领域文本数据,有标注的源领域文本数据包括源领域文本数据和源领域文本数据的分词结果。另一个数据集包括无标注(没有标签)的目标领域文本数据。模型训练的目标是在目标领域数据上进行分词。首先,源领域文本数据和目标领域文本数据通过一个处理模块,被配置为执行参考上下文描述的步骤S120,利用源领域知识和统计信息,构造出由机器自动标注的目标领域文本序列的分词结果。然后,有标注的源领域文本数据和机器标注(带有机器标签)的目标领域文本数据会共同通过一个对抗网络,进行降噪和信息再利用,获取优化后的目标领域文本数据,即,目标领域文本数据优化分词结果。可以将获取的优化分词结果以各种方式进行输出,例如可以直接输出与目标领域文本数据中的字一一对应的分词标签,或者,可以根据获取的优化分词结果在目标领域文本数据中添加分隔符,输出带有分隔符的目标领域文本数据。在这整个过程中,是不需要任何人为设置的目标领域的词典或标注信息的。
图3示出根据本公开一实施方式的自然语言处理方法中的获取机器标注的目标领域数据的方式的示意图。
如图3所示,将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,获取源领域特定词、共享词、以及目标领域待标注数据。虽然图3中示出的是目标领域特定词,但是,这是为了说明匹配结果中无标注的目标领域数据除了共享词以外的部分是目标领域特定词。但是,此时并未实际标注出目标领域特定词,因此,此目标领域特定词指的是除了共享词以外的目标领域待标注数据。对共享词挖掘可以得到共享词词表。对目标领域待标注数据进行新词挖掘可以得到目标领域特有词典,目标领域特有词典是自动获取的。根据所述共享词词表和所述目标领域特有词典,可以获取机器标注的目标领域数据。
在本公开的一个实施例中,源领域特定词指的是源领域中专有的词,如前述新闻领域中的特定词,例如,“记者”、“报道”等等。共享词例如前述“是”、“研究”、“发现”等等。目标领域待标注数据可以是例如前述医学领域的文本。通过将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,由于源领域特定词和共享词已经经过标注,可以从匹配结果识别出源领域特定词、共享词、以及目标领域待标注数据。
在本公开的一个实施例中,步骤S120可以包括:将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,获取源领域特定词、共享词、以及目标领域待标注数据;利用所述共享词获取共享词词表;利用所述目标领域待标注数据获取目标领域特有词典;根据所述共享词词表和所述目标领域特有词典,获取机器标注的目标领域数据。
根据本公开实施例提供的技术方案,通过所述利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注,包括:将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,获取源领域特定词、共享词、以及目标领域待标注数据;利用所述共享词获取共享词词表;利用所述目标领域待标注数据获取目标领域特有词典;根据所述共享词词表和所述目标领域特有词典,获取机器标注的目标领域数据,可以针对无人工标注的目标领域数据获取机器标注的目标领域数据,提高目标领域数据分词的准确性。
在本公开的一个实施例中,可以通过基于统计方式处理所述目标领域文本数据,获取目标领域特有词典,即,完成对目标领域特有词的标注。在本公开的一个实施例中,可以通过预定分词模型处理所述共享词实现对目标领域文本数据中的共享词的标注。
在本公开的一个实施例中,预定分词模型例如可以包括一个GCNN-CRF模型(带有门控机制的卷积神经网络-条件随机场分类层模型)。这是一个有监督的中文分词模型。对于一个输入句子s={c1,c2,…,cn},模型旨在给每个字ci打上特殊标签,标签为集合{B,M,E,S}中的一个。其中,B表示这个字为词的起始字,M表示这个字在词的中间。E表示这个字为词的结尾,S则表示这个字可以独立成词。对于每个字符ci,首先将其转化为词向量ei,这样一来,句子表示为es={e1,e2,…,en}。再将es通过一个GCNN,编码为一个句子级别的隐含向量。最后,将隐含向量送入CRF分类层中,对每个字计算标签分数,获取这个字符在标签集上的概率分布,选取概率最大的标签作为这个字符的标签。将基于任何一个或多个其他领域的训练数据训练的GCNN-CRF模型应用于目标领域文本数据,可以有效地识别出目标领域文本数据中领域无关的词语,该些词语也可称为共享词,例如,“发现”、“已经”、“研究”、“是”、“的”等等。
在本公开的一个实施例中,通过基于统计方式处理所述目标领域文本数据,获取目标领域文本数据的特定词,可以是借助一种或多种统计指标,从而判断一段文本片段是否构成一个词。
在本公开的一个实施例中,所述利用所述目标领域待标注数据获取目标领域特有词典,包括:通过计算如下指标中的一种或多种,识别所述目标领域待标注数据中的词:凝合分数、自由分数、词频以及词频-逆文本频率指数。
在本公开的一个实施例中,凝合分数可以用于衡量一段文本片段的凝合程度。在本公开的一个实施例中,自由分数可以用于衡量该文本片段是否能够灵活运用的一种特征值。在本公开的一个实施例中,词频或词频-逆文本频率指数可以作为衡量该文本片段是否构成一个词的指标。在本公开的一个实施例中,可以将凝合分数、自由分数、词频以及词频-逆文本频率指数中的至少一种作为前述统计指标。
根据本公开实施例提供的技术方案,通过所述利用所述目标领域待标注数据获取目标领域特有词典,包括:通过计算如下指标中的一种或多种,识别所述目标领域待标注数据中的词:凝合分数、自由分数、词频以及词频-逆文本频率指数,可以针对无人工标注的目标领域数据获取机器标注的目标领域数据,提高目标领域数据分词的准确性。
在本公开的一个实施例中,所述凝合分数通过如下方式进行计算,包括:从所述目标领域待标注数据中获取第一文本片段;获取所述第一文本片段作为整体在所述目标领域待标注数据中出现的第一概率;将所述第一文本片段分割为两个子片段,确定使所述两个子片段在所述目标领域待标注数据中出现的概率的乘积最大的第一分割方式;以及基于所述第一概率与所述第一分割方式所对应的乘积的比值确定所述目标领域特有词典。
在本公开的一个实施例中,可以获取目标领域待标注数据中的第一文本片段作为整体在目标领域文本中出现的概率,可以将其称为第一概率。此外,可以通过多种分割方式将该第一文本片段分割成两个子片段。特别地,可以遍历所有的分割方式。对于每一种分割方式,确定该两个子片段分别在该目标领域文本数据中出现的概率,并将二者的乘积作为一种特征值。由于可能存在多种分割方式,本公开的实施例选取乘积最大的分割方式,即第一分割方式。将第一概率与第一分割方式所对应的乘积的比值作为凝合分数。如果一个固定的文本片段出现的频次越高(整体出现概率越大),说明它是一个词语的可能性也就越大。同时,在各种分割方式中,第一分割方式出现的可能性最大。因此,将第一概率与第一分割方式所对应的乘积的比值作为凝合分数可以用于衡量一段文本片段的凝合程度。例如,对于一个文本片段“溶菌酶”,可以将其分割为“溶菌”-“酶”,也可以将其分割为“溶”-“菌酶”。对于第一种分割方式,分别计算“溶”和“菌酶”出现的概率的乘积,对于第二种分割方式,分别计算“溶菌”和“酶”出现的概率的乘积。乘积越大说明该种分割方式在目标领域文本中出现的概率越大,因而该文本片段更可能是按照该种分割方式存在的两个独立的词语。由于同一目标领域文本中同一文本片段作为整体出现的概率是固定的,因此,第一分割方式所对应的乘积越大,则凝合分数越小,该文本片段是独立词的可能性越低。在本公开的实施例中,可以设定凝合分数是否大于或小于某一阈值从而确定该文本片段的凝合程度的高低。
根据本公开实施例提供的技术方案,通过所述凝合分数通过如下方式进行计算,包括:从所述目标领域待标注数据中获取第一文本片段;获取所述第一文本片段作为整体在所述目标领域待标注数据中出现的第一概率;将所述第一文本片段分割为两个子片段,确定使所述两个子片段在所述目标领域待标注数据中出现的概率的乘积最大的第一分割方式;以及基于所述第一概率与所述第一分割方式所对应的乘积的比值确定所述目标领域特有词典,可以针对无人工标注的目标领域数据获取机器标注的目标领域数据,提高目标领域数据分词的准确性。
在本公开的一个实施例中,所述自由分数通过如下方式进行计算,包括:从所述目标领域待标注数据中获取第二文本片段;确定所述第二文本片段的左邻字集熵和右邻字集熵;基于所述左邻字集熵和右邻字集熵中的较小者确定所述目标领域特有词典。
在本公开的一个实施例中,对于获取的目标领域待标注数据中的第二文本片段,可以确定该文本片段在目标领域文本数据中的左邻字集熵和右邻字集熵。其中的较小者作为自由分数。由于凝合分数高的文本片度不一定是一个词,也可能是包含两个以上词语的固定搭配,作为词语的特性应是可以在上下文中灵活地运用。该自由分数可以用于衡量该文本片段是否能够灵活运用的一种特征值。可以通过阈值比较的方式衡量该文本片段是否为能够灵活运用的独立的词。
熵ES可以通过下式确定:
其中,k为字集中元素种类数量,j为字集中的某一个元素。举一个简单的示例,对于文本数据“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”而言,“葡萄”一词出现了四次,其中左邻字集分别为{吃,吐,吃,吐},右邻字集分别为{不,皮,倒,皮}。根据公式,“葡萄”一词的左邻字的信息熵为–(1/2)·log(1/2)–(1/2)·log(1/2)≈0.693,它的右邻字的信息熵则为–(1/2)·log(1/2)–(1/4)·log(1/4)–(1/4)·log(1/4)≈1.04。可以取其中的较小者,即左邻字集熵0.693,作为“葡萄”的自由分数。如果该自由分数足够大,说明该文本片段可以灵活地运用,即与多种不同的字相连。假如划分的时候将“萄皮”作为一个文本片段,则其左邻字集为{葡,葡},其左邻信息熵为-1·log(1)=0,则表明该文本片段不自由,只能与固定的字相连,不能成为独立的词语。
根据本公开实施例提供的技术方案,通过所述自由分数通过如下方式进行计算,包括:从所述目标领域待标注数据中获取第二文本片段;确定所述第二文本片段的左邻字集熵和右邻字集熵;基于所述左邻字集熵和右邻字集熵中的较小者确定所述目标领域特有词典,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
在本公开的一个实施例中,所述利用所述目标领域待标注数据获取目标领域特有词典,包括:通过预定分词模型处理所述目标领域待标注数据,获取目标领域特有词典。
在本公开的一个实施例中,可以利用预定分词模型对目标领域待标注数据进行新词挖掘以获取目标领域特有词典。
根据本公开实施例提供的技术方案,通过所述利用所述目标领域待标注数据获取目标领域特有词典,包括:通过预定分词模型处理所述目标领域待标注数据,获取目标领域特有词典,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
在本公开的一个实施例中,对于含有“溶菌酶的科学研究”的句子的目标领域数据,可以首先采用基于统计的方式挖掘出特定词语“溶菌酶”,对其标注为“BME”,然后采用经训练的预定分词模型进行分词,将“的科学研究”标注为“SBEBE”。这样,可以在没有标注的目标领域文本数据中实现机器自动标注。
在本公开的实施例中,采用基于统计方式和基于经训练的预定分词模型的方式相结合,不需要任何领域词典或者标注信息就可以较为准确地挖掘包含领域特定词和共享词的目标领域词汇,有效解决了现有技术中由于训练数据存在“未登录词”,使得模型在测试中无法准确识别词语的问题。
在本公开的一个实施例中,可以从所述目标领域待标注数据中获取文本片段,确定所述文本片段的词频或词频-逆文本频率指数作为所述文本片段的特征信息,基于所述特征信息确定所述目标领域数据的分词结果。
在本公开的一个实施例中,对于目标领域待标注数据中的文本片段,可以采用词频或词频-逆文本频率指数作为衡量该文本片段是否构成一个词的指标。其中,词频(termfrequency,TF)是指该文本片段在目标领域文本数据中出现的次数;逆文本频率指数(inverse document frequency,IDF)可以由总文件数目除以包含该文本片段的文件的数目,再将获取的商取对数获取。两者可以独立或结合地使用。例如,可以单独使用词频,若一个文本片段是一个词,它应该会频繁地出现在语料中。可以通过阈值衡量词频是否达到一定的数量,作为一个参考指标确定该文本片段是否成为一个词。又如,可以通过词频-逆文本频率指数(“TF-IDF”,即TF*IDF)的指标来确定该文本片段的重要程度,用于判断是否是该目标领域的特定词,同样可以设置阈值进行比较。
在本公开的实施例中,可以根据需要将前述讨论的凝合分数、自由分数、词频和词频-逆文本频率指数中的部分或全部作为用于处理目标领域文本数据以获取分词结果的依据。本领域技术人员可以理解,根据本公开的教导,可以对凝合分数、自由分数、词频和词频-逆文本频率指数设置各种阈值以获取分词结果。
图4示出根据本公开一实施方式的对抗网络的示意图。如图4所示,在本公开的一个实施例中,所述对抗网络包括共享编码器、判别器和目标领域分词器,步骤S130可以包括以下步骤:将所述有标注的源领域数据中的第三文本片段进行编码,获取第一隐含向量;将所述机器标注的目标领域数据中的第四文本片段进行编码,获取第二隐含向量;所述共享编码器随机选取第一隐含向量或第二隐含向量作为第一编码输入所述判别器,以使所述判别器判断所述第一编码是第一隐含向量或第二隐含向量;所述目标领域分词器根据所述判别器的结果获取优化后的目标领域数据。
根据本公开实施例提供的技术方案,通过所述对抗网络包括共享编码器、判别器和目标领域分词器,所述将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据,包括:将所述有标注的源领域数据中的第三文本片段进行编码,获取第一隐含向量;将所述机器标注的目标领域数据中的第四文本片段进行编码,获取第二隐含向量;所述共享编码器随机选取第一隐含向量或第二隐含向量作为第一编码输入所述判别器,以使所述判别器判断所述第一编码是第一隐含向量或第二隐含向量;所述目标领域分词器根据所述判别器的结果获取优化后的目标领域数据,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
在本公开的一个实施例中,对抗网络的输入是来自于源领域数据和目标领域数据,其中,源领域数据原本就带有标注信息,即源领域文本数据的分词结果,目标领域文本数据是通过上文描述的操作S120,由机器自动为其进行标注,获取目标领域文本数据的分词结果。输入到对抗网络的第三文本片段和第四文本片段是分别从源领域数据和目标领域数据中截取的,例如可以按照整段、整句或分句的粒度进行截取。
在本公开的一个实施例中,共享编码器和判别器被训练为一对对抗性的角色。共享编码器例如可以是GCNN模型,也可以是其他神经网络模型,如RNN(循环神经网络),Transformer语言模型等等。判别器是一个二分类器。共享编码器随机从源领域文本数据和目标领域文本数据中获取文本片段s*(第三文本片段或第四文本片段)以及分词结果,对其进行编码获取隐含向量H*(第一隐含向量或第二隐含向量)作为第一编码;由判别器根据该第一编码判别所述第一编码是第一隐含向量或第二隐含向量,从而确定第一编码对应的文本片段是来自源领域数据的第三文本片段或来自目标领域数据的第四文本片段。例如,判别器可以产生输入文本片段来自源领域或目标领域的概率。如果判断正确,则改进共享编码器的参数,希望判别器无法做出正确判别;如果判断错误,则改进判别器的参数,希望能够正确判别文本片段的来源。如此往复,可以训练共享编码器使之关注与领域无关的特征,从而有助于对目标领域文本数据正确地分词。在共享编码器和判别器的对抗训练过程中,源领域文本数据和目标领域文本数据可以不断地重复利用,从而获取优化后的目标领域数据,提高模型的分词效果。
在本公开的一个实施例中,在文本片段s*进入共享编码器之前,需要将s*转换为编码序列X*(例如,字向量),由共享编码器对编码序列X*进一步编码获取H*。
在本公开的一个实施例中,对于来自目标领域文本数据的文本片段s*或stgt,经过训练的共享编码器将产生的第一编码H*输出到目标领域分词器,与该文本片段以及该文本片段的分词结果共同作用,获取优化分词结果。
在本公开的一个实施例中,所述目标领域分词器包括目标领域编码器和第一分词器,根据所述判别器的结果获取优化后的目标领域数据可以包括以下步骤:通过所述目标领域编码器获取第二编码,所述第二编码根据所述第二隐含向量获取;基于所述第一编码和所述第二编码,通过第一分词器获取所述第四文本片段的优化分词结果。
根据本公开实施例提供的技术方案,通过所述目标领域分词器包括目标领域编码器和第一分词器,所述根据所述判别器的结果获取优化后的目标领域数据,包括:通过所述目标领域编码器获取第二编码,所述第二编码根据所述第二隐含向量获取;基于所述第一编码和所述第二编码,通过第一分词器获取所述第四文本片段的优化分词结果,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
在本公开的一个实施例中,目标领域编码器可以是GCNN模型,也可以是其他神经网络模型,如RNN,Transformer语言模型等等。第一分词器可以是CRF(条件随机场)模型。来自目标领域文本数据的文本片段stgt被转换为编码序列Xt。目标领域编码器可以将Xt进一步编码为第二编码Ht。该文本片段stgt还可以作为s*输入到共享编码器产生第一编码H*。第一分词器可以将第二编码Ht和第一编码H*拼接成一个向量H(xt)输入到条件随机场模型中,以获取优化后的目标领域数据,即,更新后的分词结果yt。
在本公开的一个实施例中,由于在训练过程中,共享编码器的参数发生改变,同样的文本片段产生的第一编码H*不同,因而第一分词器输出的分词结果也可能不同。训练过程中第一分词器输出的结果可以用于更新目标领域文本数据中的分词结果,更新后的分词结果可以再次用于训练。在训练完成后,第一分词器输出的分词结果即为最终确定的优化分词结果。
在本公开的一个实施例中,所述对抗网络还包括源领域编码器和第二分词器,自然语言处理方法还可以包括以下步骤:所述源领域编码器获取第三编码,所述第三编码根据所述第一隐含向量获取;基于所述第一编码和所述第三编码,通过第二分词器获取所述第三文本片段的优化分词结果。
根据本公开实施例提供的技术方案,通过所述对抗网络还包括源领域编码器和第二分词器,所述方法还包括:所述源领域编码器获取第三编码,所述第三编码根据所述第一隐含向量获取;基于所述第一编码和所述第三编码,通过第二分词器获取所述第三文本片段的优化分词结果,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高源领域数据分词的准确性。
在本公开的一个实施例中,源领域编码器可以是GCNN模型,也可以是其他神经网络模型,如RNN,Transformer语言模型等等。第二分词器可以是CRF模型。来自源领域文本数据的文本片段ssrc被转换为编码序列Xs。源领域编码器可以将Xs进一步编码为第三编码Hs。该文本片段ssrc还作为s*输入到共享编码器产生第一编码H*。第二分词器可以将第三编码Hs和第一编码H*拼接成一个向量H(xs)输入到条件随机场模型中,以获取源领域文本数据的文本片段的优化分词结果ys。
应该注意,本公开的实施例针对目标领域(文本)数据进行自然语言分词采用了诸如获取源领域(文本)数据、源领域(文本)数据的分词结果并利用源领域的分词结果,通过对抗网络优化目标领域数据等一系列手段实现从目标领域分词到优化分词结果的一整套的方案,从而提高目标领域数据分词的准确性。
本公开实施例还提供了一种文本处理方法,包括:获取有标注的第一文本数据以及无标注的第二文本数据;利用所述有标注的第一文本数据,对所述无标注的第二文本数据进行机器标注;将所述有标注的第一文本数据、机器标注的第二文本数据输入至对抗网络,获取优化后的第二文本数据;基于优化后的第二文本数据,输出所述第二文本数据的优化分词结果。
根据本公开实施例提供的技术方案,通过获取有标注的第一文本数据以及无标注的第二文本数据;利用所述有标注的第一文本数据,对所述无标注的第二文本数据进行机器标注;将所述有标注的第一文本数据、机器标注的第二文本数据输入至对抗网络,获取优化后的第二文本数据;基于优化后的第二文本数据,输出所述第二文本数据的优化分词结果,可以基于带有标注的第一文本数据和机器标注的第二文本数据,利用对抗网络优化第二文本数据的分词结果,提高第二文本数据分词的准确性。
在本公开的一个实施例中,标注例如可以是以上文描述的{B,M,E,S}的标注方式进行的标注。在本公开的一个实施例中,第一文本数据可以指的是前述实施例中的有标注的源领域文本数据。
在本公开的一个实施例中,第二文本数据可以指的是前述实施例中的无标注的目标领域文本数据。在本公开的一个实施例中,获取所述第二文本数据的标注的处理方式例如可以是通过基于统计方式处理所述第二文本数据获取第二文本数据的分词结果;以及/或者,通过预定分词模型处理所述第二文本数据获取第二文本数据的分词结果。预定分词模型例如可以是上文描述的GCNN-CRF模型。
在本公开的一个实施例中,对抗网络例如可以实现为结构类似于图4所示意的对抗网络,对抗网络的结果以及分词优化的过程与前述实施例类似,此处不再赘述。
在本公开的一个实施例中,可以将获取的优化分词结果以各种方式进行输出,例如可以直接输出与第二文本数据中的字一一对应的分词标签,或者,可以根据获取的优化分词结果在第二文本数据中添加分隔符,输出带有分隔符的第二文本数据。
以下参照图5描述根据本公开一实施方式的自然语言处理装置。
图5示出根据本公开一实施方式的自然语言处理装置的结构框图。如图5所示,自然语言处理装置500包括获取模块510、标注模块520和输入模块530。
获取模块510被配置为获取有标注的源领域数据以及无标注的目标领域数据。
标注模块520被配置为利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注。
输入模块530被配置为将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据。
根据本公开实施例提供的技术方案,通过获取模块,被配置为获取有标注的源领域数据以及无标注的目标领域数据;标注模块,被配置为利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注;输入模块,被配置为将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
在本公开的一个实施例中,所述标注模块520包括:
匹配子模块,被配置为将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,获取源领域特定词、共享词、以及目标领域待标注数据;
共享词词表获取子模块,被配置为利用所述共享词获取共享词词表;
目标领域特有词典词获取子模块,被配置为利用所述目标领域待标注数据获取目标领域特有词典;
目标领域数据获取子模块,被配置为根据所述共享词词表和所述目标领域特有词典,获取机器标注的目标领域数据。
根据本公开实施例提供的技术方案,通过所述标注模块包括:匹配子模块,被配置为将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,获取源领域特定词、共享词、以及目标领域待标注数据;共享词词表获取子模块,被配置为利用所述共享词获取共享词词表;目标领域特有词典词获取子模块,被配置为利用所述目标领域待标注数据获取目标领域特有词典;目标领域数据获取子模块,被配置为根据所述共享词词表和所述目标领域特有词典,获取机器标注的目标领域数据,可以针对无人工标注的目标领域数据获取机器标注的目标领域数据,提高目标领域数据分词的准确性。
在本公开的一个实施例中,所述特有词典词表获取子模块还被配置为:通过计算如下指标中的一种或多种,识别所述目标领域待标注数据中的词:凝合分数、自由分数、词频以及词频-逆文本频率指数。
根据本公开实施例提供的技术方案,通过所述特有词典词表获取子模块还被配置为:通过计算如下指标中的一种或多种,识别所述目标领域待标注数据中的词:凝合分数、自由分数、词频以及词频-逆文本频率指数,可以针对无人工标注的目标领域数据获取机器标注的目标领域数据,提高目标领域数据分词的准确性。
在本公开的一个实施例中,所述凝合分数通过如下方式进行计算,包括:从所述目标领域待标注数据中获取第一文本片段;获取所述第一文本片段作为整体在所述目标领域待标注数据中出现的第一概率;将所述第一文本片段分割为两个子片段,确定使所述两个子片段在所述目标领域待标注数据中出现的概率的乘积最大的第一分割方式;以及基于所述第一概率与所述第一分割方式所对应的乘积的比值确定所述目标领域特有词典。
根据本公开实施例提供的技术方案,通过所述凝合分数通过如下方式进行计算,包括:从所述目标领域待标注数据中获取第一文本片段;获取所述第一文本片段作为整体在所述目标领域待标注数据中出现的第一概率;将所述第一文本片段分割为两个子片段,确定使所述两个子片段在所述目标领域待标注数据中出现的概率的乘积最大的第一分割方式;以及基于所述第一概率与所述第一分割方式所对应的乘积的比值确定所述目标领域特有词典,可以针对无人工标注的目标领域数据获取机器标注的目标领域数据,提高目标领域数据分词的准确性。
在本公开的一个实施例中,所述自由分数通过如下方式进行计算,包括:从所述目标领域待标注数据中获取第二文本片段;确定所述第二文本片段的左邻字集熵和右邻字集熵;基于所述左邻字集熵和右邻字集熵中的较小者确定所述目标领域特有词典。
根据本公开实施例提供的技术方案,通过所述自由分数通过如下方式进行计算,包括:从所述目标领域待标注数据中获取第二文本片段;确定所述第二文本片段的左邻字集熵和右邻字集熵;基于所述左邻字集熵和右邻字集熵中的较小者确定所述目标领域特有词典,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
在本公开的一个实施例中,所述目标领域特有词典词获取子模块还被配置为:通过预定分词模型处理所述目标领域待标注数据,获取目标领域特有词典。
根据本公开实施例提供的技术方案,通过所述目标领域特有词典词获取子模块还被配置为:通过预定分词模型处理所述目标领域待标注数据,获取目标领域特有词典,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
在本公开的一个实施例中,所述对抗网络包括共享编码器、判别器和目标领域分词器,所述输入模块包括:第一编码子模块,被配置为将所述有标注的源领域数据中的第三文本片段进行编码,获取第一隐含向量;第二编码子模块,被配置为将所述机器标注的目标领域数据中的第四文本片段进行编码,获取第二隐含向量,其中,所述共享编码器随机选取第一隐含向量或第二隐含向量作为第一编码输入所述判别器,以使所述判别器判断所述第一编码是第一隐含向量或第二隐含向量;其中,所述目标领域分词器根据所述判别器的结果获取优化后的目标领域数据。
根据本公开实施例提供的技术方案,通过所述对抗网络包括共享编码器、判别器和目标领域分词器,所述输入模块包括:第一编码子模块,被配置为将所述有标注的源领域数据中的第三文本片段进行编码,获取第一隐含向量;第二编码子模块,被配置为将所述机器标注的目标领域数据中的第四文本片段进行编码,获取第二隐含向量,其中,所述共享编码器随机选取第一隐含向量或第二隐含向量作为第一编码输入所述判别器,以使所述判别器判断所述第一编码是第一隐含向量或第二隐含向量;其中,所述目标领域分词器根据所述判别器的结果获取优化后的目标领域数据,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
在本公开的一个实施例中,所述目标领域分词器包括目标领域编码器和第一分词器,所述目标领域分词器被配置为:通过所述目标领域编码器获取第二编码,所述第二编码根据所述第二隐含向量获取;基于所述第一编码和所述第二编码,通过第一分词器获取所述第四文本片段的优化分词结果。
根据本公开实施例提供的技术方案,通过所述目标领域分词器包括目标领域编码器和第一分词器,所述目标领域分词器被配置为:通过所述目标领域编码器获取第二编码,所述第二编码根据所述第二隐含向量获取;基于所述第一编码和所述第二编码,通过第一分词器获取所述第四文本片段的优化分词结果,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高目标领域数据分词的准确性。
在本公开的一个实施例中,所述对抗网络还包括源领域编码器和第二分词器,其中:所述源领域编码器获取第三编码,所述第三编码根据所述第一隐含向量获取;基于所述第一编码和所述第三编码,第二分词器获取所述第三文本片段的优化分词结果。
根据本公开实施例提供的技术方案,通过所述对抗网络还包括源领域编码器和第二分词器,其中:所述源领域编码器获取第三编码,所述第三编码根据所述第一隐含向量获取;基于所述第一编码和所述第三编码,第二分词器获取所述第三文本片段的优化分词结果,可以基于有标注的源领域数据和机器标注的目标领域数据,利用对抗网络优化目标领域数据,提高源领域数据分词的准确性。
本领域技术人员可以理解,参照图5描述的技术方案的可以与参照图1至图4描述的实施例结合,从而具备参照图1至图4描述的实施例所实现的技术效果。具体内容可以参照以上根据图1至图4进行的描述,其具体内容在此不再赘述。
前述实施例描述了自然语言处理装置的内部功能和结构,在一个可能的设计中,自然语言处理装置的结构可实现为电子设备,如图6中所示,该电子设备600可以包括处理器601以及存储器602。
所述存储器602用于存储支持语电子设备执行上述任一实施例中的自然语言处理方法或代码生成方法的程序,所述处理器601被配置为用于执行所述存储器602中存储的程序。
在本公开的一个实施例中,所述存储器602用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器601执行以实现以下步骤:
获取有标注的源领域数据以及无标注的目标领域数据;
利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注;
将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据。
在本公开的一个实施例中,所述利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注,包括:
将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,获取源领域特定词、共享词、以及目标领域待标注数据;
利用所述共享词获取共享词词表;
利用所述目标领域待标注数据获取目标领域特有词典;
根据所述共享词词表和所述目标领域特有词典,获取机器标注的目标领域数据。
在本公开的一个实施例中,所述利用所述目标领域待标注数据获取目标领域特有词典,包括:
通过计算如下指标中的一种或多种,识别所述目标领域待标注数据中的词:
凝合分数、自由分数、词频以及词频-逆文本频率指数。
在本公开的一个实施例中,所述凝合分数通过如下方式进行计算,包括:
从所述目标领域待标注数据中获取第一文本片段;
获取所述第一文本片段作为整体在所述目标领域待标注数据中出现的第一概率;
将所述第一文本片段分割为两个子片段,确定使所述两个子片段在所述目标领域待标注数据中出现的概率的乘积最大的第一分割方式;以及
基于所述第一概率与所述第一分割方式所对应的乘积的比值确定所述目标领域特有词典。
在本公开的一个实施例中,所述自由分数通过如下方式进行计算,包括:
从所述目标领域待标注数据中获取第二文本片段;
确定所述第二文本片段的左邻字集熵和右邻字集熵;
基于所述左邻字集熵和右邻字集熵中的较小者确定所述目标领域特有词典。
在本公开的一个实施例中,所述利用所述目标领域待标注数据获取目标领域特有词典,包括:
通过预定分词模型处理所述目标领域待标注数据,获取目标领域特有词典。
在本公开的一个实施例中,所述对抗网络包括共享编码器、判别器和目标领域分词器,所述将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据,包括:
将所述有标注的源领域数据中的第三文本片段进行编码,获取第一隐含向量;
将所述机器标注的目标领域数据中的第四文本片段进行编码,获取第二隐含向量;
所述共享编码器随机选取第一隐含向量或第二隐含向量作为第一编码输入所述判别器,以使所述判别器判断所述第一编码是第一隐含向量或第二隐含向量;
所述目标领域分词器根据所述判别器的结果获取优化后的目标领域数据。
在本公开的一个实施例中,所述目标领域分词器包括目标领域编码器和第一分词器,所述根据所述判别器的结果获取优化后的目标领域数据,包括:
通过所述目标领域编码器获取第二编码,所述第二编码根据所述第二隐含向量获取;
基于所述第一编码和所述第二编码,通过第一分词器获取所述第四文本片段的优化分词结果。
在本公开的一个实施例中,所述对抗网络还包括源领域编码器和第二分词器,所述方法还包括:
所述源领域编码器获取第三编码,所述第三编码根据所述第一隐含向量获取;
基于所述第一编码和所述第三编码,通过第二分词器获取所述第三文本片段的优化分词结果。
在本公开的一个实施例中,所述存储器602用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令还被所述处理器601执行以实现以下步骤:
获取有标注的第一文本数据以及无标注的第二文本数据;
利用所述有标注的第一文本数据,对所述无标注的第二文本数据进行机器标注;
将所述有标注的第一文本数据、机器标注的第二文本数据输入至对抗网络,获取优化后的第二文本数据;
基于优化后的第二文本数据,输出所述第二文本数据的优化分词结果。
本公开示例性实施例还提供了一种计算机存储介质,用于储存所述定位装置所用的计算机软件指令,其包含用于执行上述任一实施例所涉及的程序,从而具备方法所带来的技术效果。
图7是适于用来实现根据本公开一实施方式的自然语言处理方法或文本处理方法的计算机***的结构示意图。
如图7所示,计算机***700包括处理器(CPU、GPU、TPU、FPGA等)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行上述附图所示的实施方式中的各种处理。在RAM703中,还存储有***700操作所需的各种程序和数据。处理器701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施方式,上文参考附图描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行附图中的方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法,从而具备方法所带来的技术效果。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (21)
1.一种自然语言处理方法,其特征在于,包括:
获取有标注的源领域数据以及无标注的目标领域数据;
利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注;
将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据。
2.根据权利要求1所述的方法,其特征在于,所述利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注,包括:
将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,获取源领域特定词、共享词、以及目标领域待标注数据;
利用所述共享词获取共享词词表;
利用所述目标领域待标注数据获取目标领域特有词典;
根据所述共享词词表和所述目标领域特有词典,获取机器标注的目标领域数据。
3.根据权利要求2所述的方法,其特征在于,所述利用所述目标领域待标注数据获取目标领域特有词典,包括:
通过计算如下指标中的一种或多种,识别所述目标领域待标注数据中的词:
凝合分数、自由分数、词频以及词频-逆文本频率指数。
4.根据权利要求3所述的方法,其特征在于,所述凝合分数通过如下方式进行计算,包括:
从所述目标领域待标注数据中获取第一文本片段;
获取所述第一文本片段作为整体在所述目标领域待标注数据中出现的第一概率;
将所述第一文本片段分割为两个子片段,确定使所述两个子片段在所述目标领域待标注数据中出现的概率的乘积最大的第一分割方式;以及
基于所述第一概率与所述第一分割方式所对应的乘积的比值确定所述目标领域特有词典。
5.根据权利要求3所述的方法,其特征在于,所述自由分数通过如下方式进行计算,包括:
从所述目标领域待标注数据中获取第二文本片段;
确定所述第二文本片段的左邻字集熵和右邻字集熵;
基于所述左邻字集熵和右邻字集熵中的较小者确定所述目标领域特有词典。
6.根据权利要求2所述的方法,其特征在于,所述利用所述目标领域待标注数据获取目标领域特有词典,包括:
通过预定分词模型处理所述目标领域待标注数据,获取目标领域特有词典。
7.根据权利要求1~6中任意一项所述的方法,其特征在于,所述对抗网络包括共享编码器、判别器和目标领域分词器,所述将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据,包括:
将所述有标注的源领域数据中的第三文本片段进行编码,获取第一隐含向量;
将所述机器标注的目标领域数据中的第四文本片段进行编码,获取第二隐含向量;
所述共享编码器随机选取第一隐含向量或第二隐含向量作为第一编码输入所述判别器,以使所述判别器判断所述第一编码是第一隐含向量或第二隐含向量;
所述目标领域分词器根据所述判别器的结果获取优化后的目标领域数据。
8.根据权利要求7所述的方法,其特征在于,所述目标领域分词器包括目标领域编码器和第一分词器,所述根据所述判别器的结果获取优化后的目标领域数据,包括:
通过所述目标领域编码器获取第二编码,所述第二编码根据所述第二隐含向量获取;
基于所述第一编码和所述第二编码,通过第一分词器获取所述第四文本片段的优化分词结果。
9.根据权利要求7所述的方法,其特征在于,所述对抗网络还包括源领域编码器和第二分词器,所述方法还包括:
所述源领域编码器获取第三编码,所述第三编码根据所述第一隐含向量获取;
基于所述第一编码和所述第三编码,通过第二分词器获取所述第三文本片段的优化分词结果。
10.一种自然语言处理装置,其特征在于,包括:
获取模块,被配置为获取有标注的源领域数据以及无标注的目标领域数据;
标注模块,被配置为利用所述有标注的源领域数据,对所述无标注的目标领域数据进行机器标注;
输入模块,被配置为将所述有标注的源领域数据、机器标注的目标领域数据输入至对抗网络,获取优化后的目标领域数据。
11.根据权利要求10所述的装置,其特征在于,所述标注模块包括:
匹配子模块,被配置为将所述有标注的源领域数据和所述无标注的目标领域数据进行匹配,获取源领域特定词、共享词、以及目标领域待标注数据;
共享词词表获取子模块,被配置为利用所述共享词获取共享词词表;
目标领域特有词典词获取子模块,被配置为利用所述目标领域待标注数据获取目标领域特有词典;
目标领域数据获取子模块,被配置为根据所述共享词词表和所述目标领域特有词典,获取机器标注的目标领域数据。
12.根据权利要求11所述的装置,其特征在于,所述特有词典词表获取子模块还被配置为:
通过计算如下指标中的一种或多种,识别所述目标领域待标注数据中的词:
凝合分数、自由分数、词频以及词频-逆文本频率指数。
13.根据权利要求12所述的装置,其特征在于,所述凝合分数通过如下方式进行计算,包括:
从所述目标领域待标注数据中获取第一文本片段;
获取所述第一文本片段作为整体在所述目标领域待标注数据中出现的第一概率;
将所述第一文本片段分割为两个子片段,确定使所述两个子片段在所述目标领域待标注数据中出现的概率的乘积最大的第一分割方式;以及
基于所述第一概率与所述第一分割方式所对应的乘积的比值确定所述目标领域特有词典。
14.根据权利要求12所述的装置,其特征在于,所述自由分数通过如下方式进行计算,包括:
从所述目标领域待标注数据中获取第二文本片段;
确定所述第二文本片段的左邻字集熵和右邻字集熵;
基于所述左邻字集熵和右邻字集熵中的较小者确定所述目标领域特有词典。
15.根据权利要求11所述的装置,其特征在于,所述目标领域特有词典词获取子模块还被配置为:
通过预定分词模型处理所述目标领域待标注数据,获取目标领域特有词典。
16.根据权利要求10~15中任意一项所述的装置,其特征在于,所述对抗网络包括共享编码器、判别器和目标领域分词器,所述输入模块包括:
第一编码子模块,被配置为将所述有标注的源领域数据中的第三文本片段进行编码,获取第一隐含向量;
第二编码子模块,被配置为将所述机器标注的目标领域数据中的第四文本片段进行编码,获取第二隐含向量,
其中,所述共享编码器随机选取第一隐含向量或第二隐含向量作为第一编码输入所述判别器,以使所述判别器判断所述第一编码是第一隐含向量或第二隐含向量;
其中,所述目标领域分词器根据所述判别器的结果获取优化后的目标领域数据。
17.根据权利要求16所述的装置,其特征在于,所述目标领域分词器包括目标领域编码器和第一分词器,所述目标领域分词器被配置为:
通过所述目标领域编码器获取第二编码,所述第二编码根据所述第二隐含向量获取;
基于所述第一编码和所述第二编码,通过第一分词器获取所述第四文本片段的优化分词结果。
18.根据权利要求16所述的装置,其特征在于,所述对抗网络还包括源领域编码器和第二分词器,其中:
所述源领域编码器获取第三编码,所述第三编码根据所述第一隐含向量获取;
基于所述第一编码和所述第三编码,第二分词器获取所述第三文本片段的优化分词结果。
19.一种文本处理方法,其特征在于,包括:
获取有标注的第一文本数据以及无标注的第二文本数据;
利用所述有标注的第一文本数据,对所述无标注的第二文本数据进行机器标注;
将所述有标注的第一文本数据、机器标注的第二文本数据输入至对抗网络,获取优化后的第二文本数据;
基于优化后的第二文本数据,输出所述第二文本数据的优化分词结果。
20.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-9或者权利要求19中任一项所述的方法。
21.一种可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现如权利要1-9或者权利要求19中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010447042.5A CN113723088A (zh) | 2020-05-25 | 2020-05-25 | 自然语言处理方法、装置、文本处理方法、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010447042.5A CN113723088A (zh) | 2020-05-25 | 2020-05-25 | 自然语言处理方法、装置、文本处理方法、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113723088A true CN113723088A (zh) | 2021-11-30 |
Family
ID=78671445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010447042.5A Pending CN113723088A (zh) | 2020-05-25 | 2020-05-25 | 自然语言处理方法、装置、文本处理方法、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723088A (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103166830A (zh) * | 2011-12-14 | 2013-06-19 | 中国电信股份有限公司 | 一种智能选择训练样本的垃圾邮件过滤***和方法 |
CN108009633A (zh) * | 2017-12-15 | 2018-05-08 | 清华大学 | 一种面向跨领域智能分析的多网络对抗学习方法和*** |
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
CN109308318A (zh) * | 2018-08-14 | 2019-02-05 | 深圳大学 | 跨领域文本情感分类模型的训练方法、装置、设备及介质 |
US20190130903A1 (en) * | 2017-10-27 | 2019-05-02 | Baidu Usa Llc | Systems and methods for robust speech recognition using generative adversarial networks |
CN109918510A (zh) * | 2019-03-26 | 2019-06-21 | 中国科学技术大学 | 跨领域关键词提取方法 |
CN110008338A (zh) * | 2019-03-04 | 2019-07-12 | 华南理工大学 | 一种融合gan和迁移学习的电商评价情感分析方法 |
CN110009038A (zh) * | 2019-04-04 | 2019-07-12 | 北京百度网讯科技有限公司 | 筛查模型的训练方法、装置及存储介质 |
CN110110337A (zh) * | 2019-05-08 | 2019-08-09 | 网易有道信息技术(北京)有限公司 | 翻译模型训练方法、介质、装置和计算设备 |
CN110119448A (zh) * | 2019-05-08 | 2019-08-13 | 合肥工业大学 | 基于双重自动编码器的半监督跨领域文本分类方法 |
CN110135336A (zh) * | 2019-05-14 | 2019-08-16 | 腾讯科技(深圳)有限公司 | 行人生成模型的训练方法、装置及存储介质 |
CN110442758A (zh) * | 2019-07-23 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种图对齐方法、装置和存储介质 |
CN110728295A (zh) * | 2019-09-02 | 2020-01-24 | 深圳中科保泰科技有限公司 | 半监督式的地貌分类模型训练和地貌图构建方法 |
CN110825914A (zh) * | 2019-10-31 | 2020-02-21 | 广州市百果园信息技术有限公司 | 一种资源的标注管理*** |
CN111091127A (zh) * | 2019-12-16 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、网络模型训练方法以及相关装置 |
-
2020
- 2020-05-25 CN CN202010447042.5A patent/CN113723088A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103166830A (zh) * | 2011-12-14 | 2013-06-19 | 中国电信股份有限公司 | 一种智能选择训练样本的垃圾邮件过滤***和方法 |
US20190130903A1 (en) * | 2017-10-27 | 2019-05-02 | Baidu Usa Llc | Systems and methods for robust speech recognition using generative adversarial networks |
CN108009633A (zh) * | 2017-12-15 | 2018-05-08 | 清华大学 | 一种面向跨领域智能分析的多网络对抗学习方法和*** |
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
CN109308318A (zh) * | 2018-08-14 | 2019-02-05 | 深圳大学 | 跨领域文本情感分类模型的训练方法、装置、设备及介质 |
CN110008338A (zh) * | 2019-03-04 | 2019-07-12 | 华南理工大学 | 一种融合gan和迁移学习的电商评价情感分析方法 |
CN109918510A (zh) * | 2019-03-26 | 2019-06-21 | 中国科学技术大学 | 跨领域关键词提取方法 |
CN110009038A (zh) * | 2019-04-04 | 2019-07-12 | 北京百度网讯科技有限公司 | 筛查模型的训练方法、装置及存储介质 |
CN110110337A (zh) * | 2019-05-08 | 2019-08-09 | 网易有道信息技术(北京)有限公司 | 翻译模型训练方法、介质、装置和计算设备 |
CN110119448A (zh) * | 2019-05-08 | 2019-08-13 | 合肥工业大学 | 基于双重自动编码器的半监督跨领域文本分类方法 |
CN110135336A (zh) * | 2019-05-14 | 2019-08-16 | 腾讯科技(深圳)有限公司 | 行人生成模型的训练方法、装置及存储介质 |
CN110442758A (zh) * | 2019-07-23 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种图对齐方法、装置和存储介质 |
CN110728295A (zh) * | 2019-09-02 | 2020-01-24 | 深圳中科保泰科技有限公司 | 半监督式的地貌分类模型训练和地貌图构建方法 |
CN110825914A (zh) * | 2019-10-31 | 2020-02-21 | 广州市百果园信息技术有限公司 | 一种资源的标注管理*** |
CN111091127A (zh) * | 2019-12-16 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、网络模型训练方法以及相关装置 |
Non-Patent Citations (2)
Title |
---|
YANG CHEN 等: "Mocycle-GAN: Unpaired Video-to-Video Translation", 《MM \'19: PROCEEDINGS OF THE 27TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》, 15 October 2019 (2019-10-15), pages 647, XP058639270, DOI: 10.1145/3343031.3350937 * |
周立君 等: "一种基于GAN和自适应迁移学习的样本生成方法", 《应用光学》, 31 January 2020 (2020-01-31), pages 120 - 126 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501182B2 (en) | Method and apparatus for generating model | |
US11151177B2 (en) | Search method and apparatus based on artificial intelligence | |
CN110532554B (zh) | 一种中文摘要生成方法、***及存储介质 | |
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和*** | |
US20190057164A1 (en) | Search method and apparatus based on artificial intelligence | |
US10630798B2 (en) | Artificial intelligence based method and apparatus for pushing news | |
US11349680B2 (en) | Method and apparatus for pushing information based on artificial intelligence | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN108920461B (zh) | 一种多类型且含复杂关系的实体抽取方法及装置 | |
CN113051356B (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和***及设备 | |
JP2017068833A (ja) | 単一文書からのキーワード抽出装置及び方法 | |
US11645447B2 (en) | Encoding textual information for text analysis | |
US11507746B2 (en) | Method and apparatus for generating context information | |
CN111753086A (zh) | 一种垃圾邮件识别方法和装置 | |
CN112188312B (zh) | 用于确定新闻的视频素材的方法和装置 | |
CN115495555A (zh) | 一种基于深度学习的文献检索方法和*** | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN113282729B (zh) | 基于知识图谱的问答方法及装置 | |
CN110941958A (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN110674635A (zh) | 一种用于文本段落划分的方法和装置 | |
CN115248855A (zh) | 文本处理方法及装置、电子设备、计算机可读存储介质 | |
CN116578700A (zh) | 日志分类方法、日志分类装置、设备及介质 | |
CN113255319B (zh) | 模型训练方法、文本分段方法、摘要抽取方法及装置 | |
CN113723088A (zh) | 自然语言处理方法、装置、文本处理方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |