CN109992766B - 提取目标词的方法和装置 - Google Patents
提取目标词的方法和装置 Download PDFInfo
- Publication number
- CN109992766B CN109992766B CN201711485402.5A CN201711485402A CN109992766B CN 109992766 B CN109992766 B CN 109992766B CN 201711485402 A CN201711485402 A CN 201711485402A CN 109992766 B CN109992766 B CN 109992766B
- Authority
- CN
- China
- Prior art keywords
- word
- dictionary
- text
- labeling
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000002372 labelling Methods 0.000 claims abstract description 169
- 230000011218 segmentation Effects 0.000 claims abstract description 92
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000010801 machine learning Methods 0.000 claims abstract description 19
- 238000001914 filtration Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 19
- 238000013145 classification model Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000007477 logistic regression Methods 0.000 claims description 6
- 238000005054 agglomeration Methods 0.000 claims description 4
- 230000007547 defect Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 14
- 241001494479 Pecora Species 0.000 description 13
- 210000002268 wool Anatomy 0.000 description 13
- 238000009833 condensation Methods 0.000 description 9
- 230000005494 condensation Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000015271 coagulation Effects 0.000 description 6
- 238000005345 coagulation Methods 0.000 description 6
- 230000000386 athletic effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004581 coalescence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种提取目标词的方法和装置,涉及计算机技术领域。其中,该方法包括:将待识别文本切分成多个分词,并根据字典对所述多个分词进行标注,以获取字典标注结果;根据训练得到的机器学习模型对所述字典标注结果进行重新标注,以获取再标注结果;根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词。通过以上步骤,能够克服基于字典匹配的分词标注方法时效性低和第三方分词标注工具缺乏灵活性的缺点,提高分词标注的准确性和时效性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种提取目标词的方法和装置。
背景技术
随着互联网用户数量的增长,如何识别用户搜索意图对互联网企业至关重要。对用户搜索词进行分词标注、提取中心产品词,可以提高商品召回的准确性,提升用户搜索意图识别的准确率。
现有技术中主要存在以下两种分词标注方法:一种是基于第三方分词标注工具(例如,结巴分词或斯坦福分词等)的分词标注方法;另一种是基于字典匹配算法的分词标注方法。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
第一、结巴分词或斯坦福分词等第三方分词标注工具采用跨领域语料库训练分词标注模型,模型训练基于语料库中明确的上下文关系,并通常要求具备正确的语法关系。因此,对于上下文关系不明确、语法正确性要求不高的场景(例如商品搜索场景)来说,该方法并不适用。另外,第三方分词标注工具通常按照语法成分进行分词标注,比如名词,副词等,缺乏灵活性,不能满足分词标注自定义程度高的场景。
第二、基于字典匹配的分词标注方法时效性低、准确性低,难以满足互联网数据规模日益增长的需求。
发明内容
有鉴于此,本发明提供一种提取目标词的方法和装置,能够克服基于字典匹配的分词标注方法时效性低和第三方分词标注工具缺乏灵活性的缺点,提高分词标注的准确性和时效性,尤其适用于上下文关系不明确的应用场景。
为实现上述目的,根据本发明的一个方面,提供了一种提取目标词的方法。
本发明的提取目标词的方法包括:将待识别文本切分成多个分词,并根据字典对所述多个分词进行标注,以获取字典标注结果;根据训练得到的机器学习模型对所述字典标注结果进行重新标注,以获取再标注结果;根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词。
可选地,所述机器学习模型包括:条件随机场模型、贝叶斯分类模型或逻辑回归分类模型。
可选地,所述根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词的步骤包括:在一个分词的字典标注为目标词标注,且再标注也为目标词标注的情况下,将该分词添加至目标词列表。
可选地,所述根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词的步骤还包括:在一个分词包括特定后缀集中的任一后缀,且具有包括目标词标注在内的多个字典标注,以及再标注为目标词标注的概率大于第一阈值的情况下,将该分词添加至目标词列表;其中,所述特定后缀集为:字典标注为目标词标注的分词的后缀组成的集合。
可选地,所述根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词的步骤还包括:在一个分词具有包括目标词标注在内的多个字典标注,以及再标注为目标词标注的概率大于第二阈值的情况下,将该分词添加至目标词列表;其中,第二阈值大于第一阈值。
可选地,所述将待识别文本切分成多个分词的步骤包括:将所述待识别文本逐字拆分成多个组合,每个组合至少包括一个字;在字典中查找所述组合,并根据查找到的所述组合构建最优路径查找树;所述最优路径查找树包括:多条路径;计算每条路径的评估值,并将评估值最大的路径对应的组合作为所述待识别文本的分词。
可选地,所述方法还包括:在执行所述将待识别文本切分成多个分词,并根据字典对所述多个分词进行标注,以获取字典标注结果的步骤之前,计算每个待识别文本的点击率;将点击率小于或等于预设阈值且没有被指定词库收录的待识别文本滤除,以从过滤剩下的待识别文本中提取目标词。
可选地,所述方法还包括:识别待处理文本中的新词,并根据新词识别结果建立字典。
可选地,所述识别待处理文本中的新词,并根据新词识别结果建立字典的步骤包括:将所述待处理文本逐字拆分成多个组合,每个组合至少包括一个字;计算各组合的左右熵、凝和程度以及出现频率;若一个组合的左右熵、凝和程度以及出现频率均大于相应的阈值,且该组合不存在于字典中,则将该组合作为新词,并将所述新词添加至字典中。
为实现上述目的,根据本发明的另一方面,提供了一种提取目标词的装置。
本发明的提取目标词的装置包括:第一标注模块,用于将待识别文本切分成多个分词,并根据字典对所述多个分词进行标注,以获取字典标注结果;第二标注模块,用于根据训练得到的机器学习模型对所述字典标注结果进行重新标注,以获取再标注结果;提取模块,用于根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词。
可选地,所述机器学习模型包括:条件随机场模型、贝叶斯分类模型或逻辑回归分类模型。
可选地,所述提取模块根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词的操作包括:在一个分词的字典标注为目标词标注,且再标注也为目标词标注的情况下,所述提取模块将该分词添加至目标词列表。
可选地,所述提取模块根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词的操作还包括:在一个分词包括特定后缀集中的任一后缀,且具有包括目标词标注在内的多个字典标注,以及再标注为目标词标注的概率大于第一阈值的情况下,所述提取模块将该分词添加至目标词列表;其中,所述特定后缀集为:字典标注为目标词标注的分词的后缀组成的集合。
可选地,所述提取模块根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词的操作还包括:在一个分词具有包括目标词标注在内的多个字典标注,以及再标注为目标词标注的概率大于第二阈值的情况下,所述提取模块将该分词添加至目标词列表;其中,第二阈值大于第一阈值。
可选地,所述第一标注模块将待识别文本切分成多个分词的操作包括:所述第一标注模块将所述待识别文本逐字拆分成多个组合,每个组合至少包括一个字;所述第一标注模块在字典中查找所述组合,并根据查找到的所述组合构建最优路径查找树;所述最优路径查找树包括:多条路径;所述第一标注模块计算每条路径的评估值,并将评估值最大的路径对应的组合作为所述待识别文本的分词。
可选地,所述装置还包括:过滤模块,用于计算每个待识别文本的点击率,将点击率小于或等于预设阈值且没有被指定词库收录的待识别文本滤除,以从过滤剩下的待识别文本中提取目标词。
可选地,所述装置还包括:新词识别模块,用于识别待处理文本中的新词,并根据新词识别结果建立字典。
可选地,所述新词识别模块识别待处理文本中的新词,并根据新词识别结果建立字典的操作包括:所述新词识别模块将所述待处理文本逐字拆分成多个组合,每个组合至少包括一个字;所述新词识别模块计算各组合的左右熵、凝和程度以及出现频率;若一个组合的左右熵、凝和程度以及出现频率均大于相应的阈值,且该组合不存在于字典中,则所述新词识别模块将该组合作为新词,并将所述新词添加至字典中。
为实现上述目的,根据本发明的再一个方面,提供了一种服务器。
本发明的服务器,包括:一个或多个处理器;以及,存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明的提取目标词的方法。
为实现上述目的,根据本发明的又一个方面,提供了一种计算机可读介质。
本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明的提取目标词的方法。
上述发明中的一个实施例具有如下优点或有益效果:通过以上步骤能够融合基于字典的标注结果与基于机器学习模型的标注结果,克服基于字典匹配的分词标注方法时效性低和第三方分词标注工具缺乏灵活性的缺点,提高分词标注的准确性和时效性,尤其适用于上下文关系不明确的应用场景。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明一个实施例的提取目标词的方法的主要步骤示意图;
图2是根据本发明另一实施例的提取目标词的方法的主要步骤示意图;
图3是根据本发明实施例的最优路径查找树示意图;
图4是根据本发明再一实施例的提取目标词的部分流程示意图;
图5是根据本发明一个实施例的提取目标词的装置的主要模块示意图;
图6是根据本发明另一实施例的提取目标词的装置的主要模块示意图;
图7是本发明实施例可以应用于其中的示例性***架构图;
图8是适于用来实现本发明实施例的服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明中的实施例以及实施例中的特征可以相互组合。
图1是根据本发明一个实施例的提取目标词的方法的主要步骤示意图。如图1所示,本发明实施例的提取目标词的方法包括:
步骤S101、将待识别文本切分成多个分词,并根据字典对所述多个分词进行标注,以获取字典标注结果。
其中,所述待识别文本可以是搜索词、商品标题或者其他。示例性的,假设待识别文本为“adidas运动鞋男鞋板鞋”,字典标注结果可以为:adidas(B)/运动鞋(P)/男鞋(P)/板鞋(P)。该字典标注结果表示:将待识别文本切分为adidas、运动鞋、男鞋、板鞋这四个分词,并对每个分词作了标注,标注B表示品牌词,标注P表示产品词。
步骤S102、根据训练得到的机器学习模型对所述字典标注结果进行重新标注,以获取再标注结果。
其中,所述机器学习模型可包括:条件随机场模型(CRF)、贝叶斯分类模型或逻辑回归分类模型。
示例性的,字典标注结果为:adidas(B)/运动鞋(P)/男鞋(P)/板鞋(P),再标注结果为:adidas(O)/运动鞋(O)/男鞋(O)/板鞋(P)。在该再标注结果中,标注O表示非产品词,标注P表示产品词。
步骤S103、根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词。
其中,所述目标词可以为产品词。例如,当字典标注结果为:adidas(B)/运动鞋(P)/男鞋(P)/板鞋(P),再标注结果为:adidas(O)/运动鞋(O)/男鞋(O)/板鞋(P),可以根据这两个标注结果确定搜索词“adidas运动鞋男鞋板鞋”中的产品词,并将产品词提取出来。
在本发明实施例中,通过以上步骤能够融合基于字典的标注结果与基于机器学习模型的标注结果,克服基于字典匹配的分词标注方法时效性低和第三方分词标注工具缺乏灵活性的缺点,提高分词标注的准确性和时效性,尤其适用于上下文关系不明确的应用场景。
图2是根据本发明另一实施例的提取目标词的方法的主要步骤示意图。如图2所示,本发明实施例的提取目标词的方法包括:步骤S201至步骤S206。其中,步骤S201、步骤S202为训练阶段的主要步骤,步骤S203至步骤S206为预测阶段的主要步骤。
步骤S201、识别待处理文本中的新词,并根据新词识别结果建立字典。
示例性的,所述待处理文本可以为搜索词或者商品标题。在一可选实施方式中,步骤S201具体包括:a)、将所述待处理文本逐字拆分成多个组合,每个组合至少包括一个字;b)、计算各组合的左右熵、各组合的凝合程度以及各组合的出现频率;c)、若一个组合满足:左右熵、凝合程度以及出现频率分别大于相应的阈值,且该组合不存在于字典中,则将该组合作为新词并添加至字典中。
在步骤a)中,所述组合的最大长度(即每个组合中至多包括的字数)可以根据需求进行设置。比如,可将组合的最大长度设为4、3或者其他值。
例如,假设某个待处理文本为“女士羊毛衫”、组合最大长度为4,则可拆分得到“女”、“女士”、“女士羊”、“女士羊毛”、“士”、“士羊”、“士羊毛“、“士羊毛衫”、“羊”、“羊毛”、“羊毛衫”、“毛”、“毛衫”以及“衫”这些组合。
在步骤b)中,可根据以下公式计算各组合的左右熵;
其中,HL表示组合的左熵,HR表示组合的右熵,QL表示该组合所有左邻字的集合,p(xi)表示该组合的第i个左邻字的概率,xi表示该组合的第i个左邻字,QR表示该组合所有右邻字的集合,p(xj)表示该组合的第j个右邻字的概率,xj表示该组合的第j个右邻字。进一步,p(xi)满足:其中,freq(xi)表示左邻字集合中第i个左邻字出现的次数,|QL|为左邻字集合中所有左邻字的个数。
例如,假设某个待处理文本为“女士羊毛衫”,对于其拆分成的各个组合分别计算左熵、右熵。以组合“女”为例,通过在整个待处理文本中找到诸如“男女”、“清纯女”等女字处于最右端的词,并基于这些词构建组合“女”的左邻字集合;通过在整个待处理文本中找到诸如“女性”、“女士”、“女孩”、“女孩子”等女字处于最左端的词,并基于这些词构建组合“女”的右邻字集合。比如,假设女字处于最右端的词只有“男女”、“清纯女”这两个词,则组合“女”的左邻字集合为{男,纯},且左邻字“男”出现的次数等于1,左邻字“纯”出现的次数等于1,所有左邻字的个数为2。比如,假设女字处于最左端的词只有“女性”、“女士”、“女孩”、“女孩子”这四个词,则组合“女”的右邻字集合为{性,士,孩,孩},且右邻字“性”出现的次数等于1,右邻字“士”出现的次数等于1,右邻字“孩”出现的次数等于2,所有右邻字的个数为4。
以及,在步骤b)中可根据如下公式计算各组合的凝合程度:
其中,τ(X)表示组合的凝合程度,max表示对所有凝合方式的凝合程度取最大值,M表示该组合的一种凝合方式,Xk表示该凝合方式中的第k个合成单元,p(Xk)表示该合成单元在由待处理文本拆分出的所有组合中的出现频率,表示对该凝合方式中的所有合成单元的出现频率取乘积。
例如,组合“羊毛衫”包括三种凝合方式,分别为:由“羊毛”和“衫”合成,由“羊”和“毛衫”合成,由“羊”和“毛”和“衫”合成。第一种凝合方式的凝合程度为p(羊毛)*p(衫),第二种凝合方式的凝合程度为p(羊)*p(毛衫),第三种凝合方式的凝合程度为p(羊)*p(毛)*p(衫)。在上述三种凝合方式的凝合程度中取最大值,即可得到组合“羊毛衫”的凝合程度。
以及,在步骤b)中可根据如下公式计算组合的出现频率:
其中,p(xm)表示组合的出现频率;freq(xm)表示第m个组合在待处理文本中出现的次数;|C|表示语料库的大小,比如对搜索日志进行分词之后的词的个数。
在步骤c)中,若组合的左熵、右熵都大于预设的熵阈值(比如20)、且组合的凝合程度大于预设的凝合程度阈值(比如0.003),且组合的出现频率大于预设的频率阈值,则将该组合作为待处理文本的一个分词;否则,不将该组合作为待处理文本的一个分词。在确认该组合为待处理文本的一个分词之后,在字典中查找该分词。若在字典中未查找到该分词,则将其作为新词,并将该新词添加至字典中。
在另一可选实施方式中,步骤S201还可以为:将所述待处理文本逐字拆分成多个组合,每个组合至少包括一个字;计算各组合的左右熵以及各组合的出现频率;c)、若一个组合满足:左右熵以及出现频率分别大于相应的阈值,且该组合不存在于字典中,则将该组合作为新词并添加至字典中。
在本发明实施例中,通过以上步骤能够自动建立字典,扩展字典内容,提高了字典的灵活性和时效性。
步骤S202、对条件随机场模型进行训练,以得到训练后的条件随机场模型。
在该步骤中,可根据步骤S201建立的字典构建训练数据集,并根据所述训练数据集对条件随机场模型进行训练,以得到训练后的条件随机场模型。由于条件随机场模型对训练数据的输入格式要求相对简单,只需输入“分词-标注”形式的分词序列,因此,建立字典的过程即相当于生产条件随机场训练数据集的过程,无需额外生产训练数据集,故而减少了提取目标词方法所用的时间消耗,提高了处理效率。
步骤S203、对待识别文本进行过滤,以滤除质量低的待识别文本。
其中,所述待识别文本可以为搜索词或者商品标题或者其他,所述质量低的待识别文本可以为:搜索量或点击量比较小的搜索词,或者,搜索量或点击量比较小的商品标题。
在一可选实施方式中,步骤S203包括:计算每个待识别文本的点击率;将点击率小于等于预设阈值(比如0.15、0.2或其他数值)、且没有被指定词库收录的待识别文本滤除,以从过滤剩下的待识别文本中提取目标词。其中,所述指定词库可以为影响力比较大的互联网词库,比如百度词条、***或其他。进一步,在对待识别文本进行过滤之前,本发明实施例的方法还可包括:对待识别文本进行预处理,比如:繁体转简体、全角转半角、去除空格、去除特殊字符等。
在本发明实施例中,通过步骤S203能够滤除质量低的待识别文本,从而在后续步骤中只需对质量高的待识别文本进行分词、标注等处理,减少了提取目标词方法的数据处理量,提高了提取目标词方法的数据处理效率。
步骤S204、根据字典将过滤剩下的待识别文本切分成多个分词、并根据字典对所述多个分词进行标注,以获取字典标注结果。
在该步骤中,可通过最优路径查找方法、最大正向匹配法或最大反向匹配法等方法在字典中查找最有可能的分词组合及对应的标注,并将其作为字典标注结果。
在一可选实施方式中,通过最优路径查找方法获取字典标注结果可包括:步骤1、步骤2、步骤3。
步骤1、将所述待识别文本逐字拆分成多个组合,每个组合至少包括一个字,在字典中查找所述组合,并根据查找到的所述组合构建最优路径查找树。其中,所述最优路径查找树包括:多条路径;每条路径包括根节点以及一个或多个子节点。每个子节点对应能在字典中查到的一个组合。
在一可选实施方式中,该步骤可包括:将根节点设为空;从包括有待识别文本中第一个字的组合开始,依次在字典中查找该组合;若找到,则将该组合置于根节点的子节点中;然后,对于根节点的第一个子节点,从包括有除去该子节点之外的部分中的第一个字的组合开始,依次在字典中查找该组合,若找到,则将该组合置于该子节点下的字节点;对所有子节点重复上述过程,以得到最优路径查找树。
步骤2、计算每条路径的评估值,并将评估值最大的路径对应的组合作为所述待识别文本的分词。
在一可选实施方式中,可根据如下公式计算每条路径的评估值:
其中,i表示由两个节点构成的子路径的序号,n表示该路径所包括的子路径的个数,HR表示子路径左端节点处的组合的右熵,HL表示子路径右端节点处的组合的左熵。并且,可将根节点的右熵设为0或其他固定值。
步骤3、获取所述分词的字典标注,以得到所述待识别文本的字典标注结果。
步骤S205、根据训练后的条件随机场模型对所述字典标注结果进行重新标注,以获取再标注结果。
在本发明实施例中,一个分词的字典标注有一个或多个,一个分词的条件随机场标注只有一个(非目标词标注或目标词标注)。示例性的,某一字典标注结果为:adidas(B)/运动鞋(P)/男鞋(P)/板鞋(P),再标注结果可以为:adidas(O)/运动鞋(O)/男鞋(O)/板鞋(P)。在该再标注结果中,标注O表示非产品词,标注P表示产品词。
步骤S206、根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词。
在一可选实施方式中,步骤S206包括:判断分词是否满足:字典标注为目标词标注,且再标注也为目标词标注;若一个分词的字典标注为目标词标注,且再标注也为目标词标注,则将该分词添加至目标词列表;否则,将该分词抛弃。
在另一可选实施方式中,步骤S206包括:步骤A、步骤B、步骤C。
步骤A、判断分词是否满足:字典标注为目标词标注,且再标注也为目标词标注。若一个分词满足上述条件,则将该分词添加至目标词列表;否则,进一步执行步骤B。
步骤B、判断分词是否满足:包括特定后缀集中的任一后缀,且具有包括目标词标注在内的多个字典标注,以及再标注为目标词标注的概率大于第一阈值。若一个分词满足上述条件,则将该分词添加至目标词列表;否则,将该分词抛弃。
步骤C、判断分词是否满足:具有包括目标词标注在内的多个字典标注,以及再标注为目标词标注的概率大于第二阈值。若一个分词满足上述条件,则将该分词添加至目标词列表;否则,将该分词抛弃。
其中,所述特定后缀集为:由字典标注为目标词标注的分词的后缀组成的集合。并且,第二阈值大于第一阈值,第一阈值大于机器学习模型(比如条件随机场模型)的分类阈值。比如,分类阈值为0.5(即表示预测概率值大于或等于0.5时,将分词标注为目标词;预测概率值小于0.5时,将分词标注为非目标词),第一阈值为0.6,第二阈值为0.86。
需要指出的是,所述分词的字典标注为目标词标注是指:该分词的字典标注只有一个,且为目标词标注;所述分词具有包括目标词标注在内的多个字典标注是指:该分词有多个字典标注,且其中一个字典标注为目标词标注。
在本发明实施例中,通过以上步骤能够融合基于字典的标注结果与基于条件随机场的标注结果,克服基于字典匹配的分词标注方法时效性低、准确率低的缺点,克服了第三方分词标注工具缺乏灵活性的缺点,提高了分词标注的准确性和时效性,尤其适用于上下文关系不明确的应用场景。进一步,通过新词识别步骤可自动建立字典,提高了字典的灵活性。另外,由于可根据建立的字典构建条件随机场的训练数据集,无需额外生产训练数据集,因此,减少了提取目标词方法所用的时间消耗,提高了处理效率。
为了进一步理解本发明中的最优路径查找方法,下面以待识别文本为“女士羊毛衫”为例,并结合图3进行示例性说明。在该示例中,主要包括以下步骤:
步骤一、将“女士羊毛衫”拆分成多个组合,在字典中查找所述多个组合,并根据查找到的组合构建最优路径查找树。
具体来说,在该步骤中,假设组合最大长度为4,拆分结果为:女、女士、女士羊、女士羊毛、士、士羊、士羊毛、士羊毛衫、羊、羊毛、羊毛衫、毛、毛衫、衫。
在得到这些组合之后,首先在字典中查找包括第一个字“女”的组合,即查找“女”、“女士”、“女士羊”、“女士羊毛”这四个组合。在该示例中,在字典中查找到了这四个组合,故将这四个组合分别置于根节点的子节点中。
然后,对于第一个子节点“女”,在字典中查找包括有除去“女”之外的部分(即“士羊毛衫”)中的第一个字“士”的组合,即查找“士”、“士羊”、“士羊毛”、“士羊毛衫”这四个组合。在该实例中,在字典中查找到了“士”这个组合,故将这个组合置于第一个子节点下的子节点中。
接下来,对其他子节点重复上述过程,直至得到图3所示的最优路径查找树。
步骤二、计算图3所示最优路径查找树中每条路径的评估值,并将评估值最大的路径对应的组合作为所述待识别文本的分词。
具体来说,可将根节点的右熵设为0,根据公式计算每条路径的评估值。例如,对于“根节点-女士-羊毛衫”这条路径来说,路径的评估值计算公式为W=0+HL(女士)+HR(女士)+HL(羊毛衫)。
在该示例中,通过计算发现评估值最大的路径为:“根节点-女士-羊毛衫”这条路径,故待识别文本的分词为:女士/羊毛衫。
步骤三、获取所述分词的字典标注,以得到“女士羊毛衫”的字典标注结果“女士(Q)/羊毛衫(P)”。其中,标注Q表示“修饰词”,标注P表示“产品词”。
图4是根据本发明再一实施例的提取目标词的部分流程示意图。在本发明实施例中,以提取的目标词为产品词为例,根据字典标注结果和再标注结果提取产品词的流程包括:
步骤S401、判断分词的字典标注是否为P且CRF标注是否为P。若分词的字典标注为P(产品词)且CRF标注(条件随机场标注)也为P,则执行步骤S402;否则,执行步骤S403。
步骤S402、将该分词添加至产品词列表。
例如,假设分词“板鞋”的字典标注和CRF标注都为P(产品词),则将“板鞋”添加至目标词列表。
步骤S403、判断分词是否包括特定后缀集中的任一特定后缀。若分词包括特定后缀集中的任一特定后缀,则执行步骤S404;若分词不包括特定后缀集中的任一特定后缀,则执行步骤S405。
其中,所述特定后缀集是:由字典标注为目标词标注的分词的后缀组成的集合。例如,假设待识别文本“adidas运动鞋男鞋板鞋”的字典标注结果为“adidas(B)/运动鞋(P)/男鞋(P)/板鞋(P)”,则与该待识别文本对应的特定后缀集为{鞋}。
步骤S404、判断分词的字典标注是否包括P,且CRF标注为产品词的概率pCRF是否大于第一阈值。若分词的字典标注包括P,且CRF标注为产品词的概率大于第一阈值,则执行步骤S402;否则,执行步骤S406。
步骤S405、判断分词的字典标注是否包括P,且CRF标注为产品词的概率pCRF是否大于第二阈值。其中,第二阈值大于第一阈值。比如,第二阈值设为0.86,第二阈值设为0.6。若分词的字典标注包括P,且CRF标注为产品词的概率大于第二阈值,则执行步骤S402;否则,执行步骤S406。
步骤S406、将该分词抛弃。意即,不将该分词添加至产品词列表。
在本发明实施例中,通过以上步骤能够融合基于字典的标注结果与基于条件随机场的标注结果,克服基于字典匹配的分词标注方法时效性低、准确率低的缺点,克服了第三方分词标注工具缺乏灵活性的缺点,提高产品词提取的准确率和时效性。
图5是根据本发明一个实施例的提取目标词的装置的主要模块示意图。如图5所示,本发明实施例的提取目标词的装置500包括:第一标注模块501、第二标注模块502、提取模块503。
第一标注模块501,用于将待识别文本切分成多个分词,并根据字典对所述多个分词进行标注,以获取字典标注结果。
其中,所述待识别文本可以是搜索词、商品标题或者其他。示例性的,假设待识别文本为“adidas运动鞋男鞋板鞋”,字典标注结果可以为:adidas(B)/运动鞋(P)/男鞋(P)/板鞋(P)。该字典标注结果表示:将待识别文本切分为adidas、运动鞋、男鞋、板鞋这四个分词,并对每个分词作了标注,标注B表示品牌词,标注P表示产品词。
第二标注模块502,用于根据训练得到的机器学习模型对所述字典标注结果进行重新标注,以获取再标注结果。
其中,所述机器学习模型可包括:条件随机场模型(CRF)、贝叶斯分类模型或逻辑回归分类模型。示例性的,字典标注结果为:adidas(B)/运动鞋(P)/男鞋(P)/板鞋(P),再标注结果为:adidas(O)/运动鞋(O)/男鞋(O)/板鞋(P)。在该再标注结果中,标注O表示非产品词,标注P表示产品词。
提取模块503,用于根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词。
其中,所述目标词可以为产品词。例如,当字典标注结果为:adidas(B)/运动鞋(P)/男鞋(P)/板鞋(P),再标注结果为:adidas(O)/运动鞋(O)/男鞋(O)/板鞋(P),可以根据这两个标注结果确定“adidas运动鞋男鞋板鞋”中的产品词,并将产品词提取出来。
本发明实施例的装置能够融合基于字典的标注结果与基于机器学习模型的标注结果,克服基于字典匹配的分词标注方法时效性低和第三方分词标注工具缺乏灵活性的缺点,提高分词标注的准确性和时效性,尤其适用于上下文关系不明确的应用场景。
图6是根据本发明另一实施例的提取目标词的装置的主要模块示意图。如图6所示,本发明实施例的提取目标词的装置600包括:新词识别模块601、过滤模块602、第一标注模块603、第二标注模块604、提取模块605。在具体实施时,本发明实施例的提取目标词的装置600可采用分布式计算框架,以提高海量数据处理能力和数据计算的时效性。
新词识别模块601,用于识别待处理文本中的新词,并根据新词识别结果建立字典,具体包括:新词识别模块601将所述待处理文本逐字拆分成多个组合,每个组合至少包括一个字;新词识别模块601计算各组合的左右熵、各组合的凝合程度以及各组合的出现频率;若一个组合满足:左右熵、凝合程度以及出现频率分别大于相应的阈值,且该组合不存在于字典中,则新词识别模块601将该组合作为新词并添加至字典中。
示例性的,所述待处理文本可以为搜索词、商品标题或其他。所述组合的最大长度可以根据需求进行设置。比如,可将组合的最大长度设为3、4或者其他值。例如,假设某个待处理文本为“女士羊毛衫”、组合最大长度为4,则可拆分得到“女”、“女士”、“女士羊”、“女士羊毛”、“士”、“士羊”、“士羊毛“、“士羊毛衫”、“羊”、“羊毛”、“羊毛衫”、“毛”、“毛衫”以及“衫”这些组合。
在一可选实施方式中,新词识别模块601可根据以下公式计算各组合的左右熵;
其中,HL表示组合的左熵,HR表示组合的右熵,QL表示该组合所有左邻字的集合,p(xi)表示该组合的第i个左邻字的概率,xi表示该组合的第i个左邻字,QR表示该组合所有右邻字的集合,p(xj)表示该组合的第j个右邻字的概率,xj表示该组合的第j个右邻字。进一步,p(xi)满足:其中,freq(xi)表示左邻字集合中第i个左邻字出现的次数,|QL|为左邻字集合中所有左邻字的个数。
以及,新词识别模块601可根据如下公式计算各组合的凝合程度:
其中,τ(X)表示组合的凝合程度,max表示对所有凝合方式的凝合程度取最大值,M表示该组合的一种凝合方式,Xk表示该凝合方式中的第k个合成单元,p(Xk)表示该合成单元在由待处理文本拆分出的所有组合中的出现频率,表示对该凝合方式中的所有合成单元的出现频率取乘积。
以及,新词识别模块601可根据如下公式计算组合的出现频率:
其中,p(xm)表示组合的出现频率;freq(xm)表示第m个组合在待处理文本中出现的次数;|C|表示语料库的大小,比如对搜索日志进行分词之后的词的个数。
在通过以上公式计算得到组合的左右熵、凝合程度以及出现频率之后,若组合的左熵、右熵都大于预设的熵阈值,且组合的凝合程度大于预设的凝合程度阈值,且组合的出现频率大于预设的频率阈值,则新词识别模块601将该组合作为待处理文本的一个分词;否则,新词识别模块601不将该组合作为待处理文本的一个分词。在确认该组合为待处理文本的一个分词之后,新词识别模块601在字典中查找该分词。若在字典中未查找到该分词,则新词识别模块601将其作为新词并添加至字典中。
在本发明实施例中,通过新词识别模块601能够自动建立字典,扩展字典内容,提高了字典的灵活性和时效性。
进一步,本发明实施例的装置还可包括:条件随机场模型训练模块,用于对条件随机场模型进行训练,以得到训练后的条件随机场模型。由于条件随机场模型对训练数据的输入格式要求相对简单,只需输入“分词-标注”形式的分词序列,因此,建立字典的过程即相当于生产条件随机场训练数据集的过程,无需额外生产训练数据集,故而减少了提取目标词所用的时间消耗,提高了处理效率。
过滤模块602,用于对待识别文本进行过滤,以滤除质量低的待识别文本,具体包括:计算每个待识别文本的点击率;将点击率小于等于预设阈值(比如0.15、0.2或其他数值),且没有被指定词库收录的待识别文本滤除,以从过滤剩下的待识别文本中提取目标词。
其中,所述待识别文本可以为搜索词或者商品标题,所述质量低的待识别文本可以为:搜索量或点击量比较小的搜索词,或者搜索量或点击量比较小的商品标题。所述指定词库可以为影响力比较大的互联网词库,比如百度词条、***或其他。进一步,在对待识别文本进行过滤之前,过滤模块602,还可用于对待识别文本进行预处理,比如:繁体转简体、全角转半角、去除空格、去除特殊字符等。
在本发明实施例中,通过过滤模块602能够滤除质量低的待识别文本,从而在后续操作中只需对质量高的待识别文本进行分词、标注等处理,减少了数据处理量,提高了提取目标词的装置的数据处理效率。
第一标注模块603,用于根据字典将过滤剩下的待识别文本切分成多个分词、并根据字典对所述多个分词进行标注,以获取字典标注结果。
在本发明实施例中,第一标注模块603可通过最优路径查找方法获取字典标注结果,具体包括:
第一标注模块603将所述待识别文本逐字拆分成多个组合,每个组合至少包括一个字,第一标注模块603在字典中查找所述组合,并根据查找到的所述组合构建最优路径查找树。其中,所述最优路径查找树包括:多条路径;每条路径包括根节点以及一个或多个子节点。其中,每个子节点代表能在字典中查到的一个组合。
第一标注模块603计算每条路径的评估值,并将评估值最大的路径对应的组合作为待识别文本的分词;第一标注模块603获取所述分词的字典标注,以得到字典标注结果。
在一可选实施方式中,第一标注模块603可根据如下公式计算每条路径的评估值:
其中,i表示由两个节点构成的子路径的序号,n表示该路径所包括的子路径的个数,HR表示子路径左端节点处的组合的右熵,HL表示子路径右端节点处的组合的左熵。并且,可将根节点的右熵设为0或其他固定值。
第二标注模块604,用于根据训练后的条件随机场模型对所述字典标注结果进行重新标注,以获取再标注结果。
在本发明实施例中,一个分词的字典标注为一个或多个;一个分词的条件随机场标注只有一个,即非目标词标注或目标词标注。示例性的,当目标词为产品词时,某一字典标注结果为:adidas(B)/运动鞋(P)/男鞋(P)/板鞋(P),再标注结果为:adidas(O)/运动鞋(O)/男鞋(O)/板鞋(P)。在该再标注结果中,标注O表示非产品词,标注P表示产品词。
提取模块605,用于根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词。
在另一可选实施方式中,提取模块605根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词,具体包括:
a1、提取模块605判断分词是否满足:字典标注为目标词标注,且再标注也为目标词标注。若一个分词满足上述条件,则提取模块605将该分词添加至目标词列表;否则,提取模块605进一步执行操作a2或a3。
a2、提取模块605判断分词是否满足:包括特定后缀集中的任一后缀,且具有包括目标词标注在内的多个字典标注,以及再标注为目标词标注的概率大于第一阈值。若一个分词满足上述条件,则提取模块605将该分词添加至目标词列表;否则,提取模块605将该分词抛弃。
a3、提取模块605判断分词是否满足:具有包括目标词标注在内的多个字典标注,以及再标注为目标词标注的概率大于第二阈值。若一个分词满足上述条件,则提取模块605将该分词添加至目标词列表;否则,提取模块605将该分词抛弃.
其中,所述特定后缀集为:每个被字典标注为目标词的分词的后缀组成的集合。并且,第二阈值大于第一阈值,第一阈值大于机器学习模型(比如条件随机场模型)的分类阈值。比如,分类阈值为0.5(即表示预测概率值大于或等于0.5时,将分词标注为目标词;预测概率值小于0.5时,将该分词标注为非目标词),第一阈值为0.6,第二阈值为0.86。
需要指出的是,所述分词的字典标注为目标词是指:该分词的字典标注只有一个,且该字典标注为目标词标注;所述分词具有包括目标词标注在内的多个字典标注是指:该分词有多个字典标注,且其中一个字典标注为目标词标注。
本发明实施例的装置能够融合基于字典的标注结果与基于条件随机场的标注结果,克服基于字典匹配的分词标注方法时效性低、准确率低的缺点,克服了第三方分词标注工具缺乏灵活性的缺点,提高了分词标注的准确性和时效性,尤其适用于上下文关系不明确的应用场景。进一步,通过新词识别模块可自动建立字典,提高了字典的灵活性。另外,由于可根据建立的字典构建条件随机场的训练数据集,无需额外生产训练数据集,因此,减少了提取目标词所用的时间消耗,提高了处理效率。
图7示出了可以应用本发明实施例的提取目标词的方法或提取目标词的装置的示例性***架构700。
如图7所示,***架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器705可以是提供各种服务的服务器,例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的提取目标词的方法一般由服务器705执行,相应地,提取目标词的装置一般设置于服务器705中。
应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图8示出了适于用来实现本发明实施例的服务器的计算机***800的结构示意图。图8示出的计算机***仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机***800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有***800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括第一标注模块、第二标注模块、提取模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,提取模块还可以被描述为“提取目标词的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行以下流程:将待识别文本切分成多个分词,并根据字典对所述多个分词进行标注,以获取字典标注结果;根据训练得到的机器学习模型对所述字典标注结果进行重新标注,以获取再标注结果;根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (16)
1.一种提取目标词的方法,其特征在于,所述方法包括:
将待识别文本切分成多个分词,并根据字典对所述多个分词进行标注,以获取字典标注结果;所述待识别文本为搜索词或商品标题;
根据训练得到的机器学习模型对所述字典标注结果进行重新标注,以获取再标注结果;
根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词;其中包括:
判断一个分词是否满足:字典标注为目标词标注,且再标注也为目标词标注;如果是,将该分词添加至目标词列表;否则再判断所述分词是否满足:包括特定后缀集中的任一后缀,且具有包括目标词标注在内的多个字典标注,以及再标注为目标词标注的概率大于第一阈值;如果是,将该分词添加至目标词列表;其中,所述特定后缀集为:字典标注为目标词标注的分词的后缀组成的集合;所述目标词包括产品词。
2.根据权利要求1所述的方法,其特征在于,所述机器学习模型包括:条件随机场模型、贝叶斯分类模型或逻辑回归分类模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词的步骤还包括:
在一个分词具有包括目标词标注在内的多个字典标注,以及再标注为目标词标注的概率大于第二阈值的情况下,将该分词添加至目标词列表;其中,第二阈值大于第一阈值。
4.根据权利要求1所述的方法,其特征在于,所述将待识别文本切分成多个分词的步骤包括:
将所述待识别文本逐字拆分成多个组合,每个组合至少包括一个字;在字典中查找所述组合,并根据查找到的所述组合构建最优路径查找树;所述最优路径查找树包括:多条路径;计算每条路径的评估值,并将评估值最大的路径对应的组合作为所述待识别文本的分词。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在执行所述将待识别文本切分成多个分词,并根据字典对所述多个分词进行标注,以获取字典标注结果的步骤之前,计算每个待识别文本的点击率;将点击率小于或等于预设阈值且没有被指定词库收录的待识别文本滤除,以从过滤剩下的待识别文本中提取目标词。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
识别待处理文本中的新词,并根据新词识别结果建立字典。
7.根据权利要求6所述的方法,其特征在于,所述识别待处理文本中的新词,并根据新词识别结果建立字典的步骤包括:
将所述待处理文本逐字拆分成多个组合,每个组合至少包括一个字;计算各组合的左右熵、凝和程度以及出现频率;若一个组合的左右熵、凝和程度以及出现频率均大于相应的阈值,且该组合不存在于字典中,则将该组合作为新词,并将所述新词添加至字典中。
8.一种提取目标词的装置,其特征在于,所述装置包括:
第一标注模块,用于将待识别文本切分成多个分词,并根据字典对所述多个分词进行标注,以获取字典标注结果;所述待识别文本为搜索词或商品标题;
第二标注模块,用于根据训练得到的机器学习模型对所述字典标注结果进行重新标注,以获取再标注结果;
提取模块,用于根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词;其中包括:判断一个分词是否满足:字典标注为目标词标注,且再标注也为目标词标注;如果是,将该分词添加至目标词列表;否则再判断所述分词是否满足:包括特定后缀集中的任一后缀,且具有包括目标词标注在内的多个字典标注,以及再标注为目标词标注的概率大于第一阈值;如果是,将该分词添加至目标词列表;其中,所述特定后缀集为:字典标注为目标词标注的分词的后缀组成的集合;所述目标词为产品词。
9.根据权利要求8所述的装置,其特征在于,所述机器学习模型包括:条件随机场模型、贝叶斯分类模型或逻辑回归分类模型。
10.根据权利要求8所述的装置,其特征在于,所述提取模块根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词的操作还包括:
在一个分词具有包括目标词标注在内的多个字典标注,以及再标注为目标词标注的概率大于第二阈值的情况下,所述提取模块将该分词添加至目标词列表;其中,第二阈值大于第一阈值。
11.根据权利要求8所述的装置,其特征在于,所述第一标注模块将待识别文本切分成多个分词的操作包括:
所述第一标注模块将所述待识别文本逐字拆分成多个组合,每个组合至少包括一个字;所述第一标注模块在字典中查找所述组合,并根据查找到的所述组合构建最优路径查找树;所述最优路径查找树包括:多条路径;所述第一标注模块计算每条路径的评估值,并将评估值最大的路径对应的组合作为所述待识别文本的分词。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括:
过滤模块,用于计算每个待识别文本的点击率,将点击率小于或等于预设阈值且没有被指定词库收录的待识别文本滤除,以从过滤剩下的待识别文本中提取目标词。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
新词识别模块,用于识别待处理文本中的新词,并根据新词识别结果建立字典。
14.根据权利要求13所述的装置,其特征在于,所述新词识别模块识别待处理文本中的新词,并根据新词识别结果建立字典的操作包括:
所述新词识别模块将所述待处理文本逐字拆分成多个组合,每个组合至少包括一个字;所述新词识别模块计算各组合的左右熵、凝和程度以及出现频率;若一个组合的左右熵、凝和程度以及出现频率均大于相应的阈值,且该组合不存在于字典中,则所述新词识别模块将该组合作为新词,并将所述新词添加至字典中。
15.一种服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7中任一所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711485402.5A CN109992766B (zh) | 2017-12-29 | 2017-12-29 | 提取目标词的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711485402.5A CN109992766B (zh) | 2017-12-29 | 2017-12-29 | 提取目标词的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109992766A CN109992766A (zh) | 2019-07-09 |
CN109992766B true CN109992766B (zh) | 2024-02-06 |
Family
ID=67111341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711485402.5A Active CN109992766B (zh) | 2017-12-29 | 2017-12-29 | 提取目标词的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109992766B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751234B (zh) * | 2019-10-09 | 2024-04-16 | 科大讯飞股份有限公司 | Ocr识别纠错方法、装置及设备 |
CN111178065B (zh) * | 2019-12-12 | 2023-06-27 | 建信金融科技有限责任公司 | 分词识别词库构建方法、中文分词方法和装置 |
CN111191448A (zh) * | 2019-12-25 | 2020-05-22 | 国网北京市电力公司 | 词处理方法、装置、存储介质以及处理器 |
CN113220980A (zh) * | 2020-02-06 | 2021-08-06 | 北京沃东天骏信息技术有限公司 | 物品属性词识别方法、装置、设备及存储介质 |
CN111368094B (zh) * | 2020-02-27 | 2024-03-26 | 沈阳东软熙康医疗***有限公司 | 实体知识图谱建立、属性信息获取、门诊分诊方法及装置 |
CN111651990B (zh) * | 2020-04-14 | 2024-03-15 | 车智互联(北京)科技有限公司 | 一种实体识别方法、计算设备及可读存储介质 |
CN113609850B (zh) * | 2021-07-02 | 2024-05-17 | 北京达佳互联信息技术有限公司 | 分词处理方法、装置、电子设备及存储介质 |
CN114580398A (zh) * | 2022-03-15 | 2022-06-03 | 中国工商银行股份有限公司 | 文本信息提取模型生成方法、文本信息提取方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295292A (zh) * | 2007-04-23 | 2008-10-29 | 北大方正集团有限公司 | 一种基于最大熵模型建模和命名实体识别的方法及装置 |
CN103902525A (zh) * | 2012-12-28 | 2014-07-02 | 新疆电力信息通信有限责任公司 | 维吾尔语词性标注方法 |
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN105808523A (zh) * | 2016-03-08 | 2016-07-27 | 浪潮软件股份有限公司 | 一种识别文档的方法及装置 |
WO2017185674A1 (zh) * | 2016-04-29 | 2017-11-02 | 乐视控股(北京)有限公司 | 新词发现方法及装置 |
-
2017
- 2017-12-29 CN CN201711485402.5A patent/CN109992766B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295292A (zh) * | 2007-04-23 | 2008-10-29 | 北大方正集团有限公司 | 一种基于最大熵模型建模和命名实体识别的方法及装置 |
CN103902525A (zh) * | 2012-12-28 | 2014-07-02 | 新疆电力信息通信有限责任公司 | 维吾尔语词性标注方法 |
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN105808523A (zh) * | 2016-03-08 | 2016-07-27 | 浪潮软件股份有限公司 | 一种识别文档的方法及装置 |
WO2017185674A1 (zh) * | 2016-04-29 | 2017-11-02 | 乐视控股(北京)有限公司 | 新词发现方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于CRF和错误驱动的中心词识别;田卫东等;《计算机应用研究》;20130815(第08期);全文 * |
基于条件随机场的无监督中文词性标注;孙静等;《计算机应用与软件》;20110415(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109992766A (zh) | 2019-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992766B (zh) | 提取目标词的方法和装置 | |
CN111831911B (zh) | 查询信息的处理方法、装置、存储介质和电子装置 | |
CN107679119B (zh) | 生成品牌衍生词的方法和装置 | |
US20190012300A1 (en) | Rule matching method and device | |
CN107729453B (zh) | 一种提取中心产品词的方法和装置 | |
US20210042470A1 (en) | Method and device for separating words | |
CN112541125B (zh) | 序列标注模型训练方法、装置及电子设备 | |
CN114444619B (zh) | 样本生成方法、训练方法、数据处理方法以及电子设备 | |
CN113408660B (zh) | 图书聚类方法、装置、设备和存储介质 | |
CN107609192A (zh) | 一种搜索引擎的补充搜索方法和装置 | |
CN112988753B (zh) | 一种数据搜索方法和装置 | |
CN110874532A (zh) | 提取反馈信息的关键词的方法和装置 | |
CN116226350A (zh) | 一种文档查询方法、装置、设备和存储介质 | |
CN112506359A (zh) | 输入法中候选长句的提供方法、装置及电子设备 | |
CN113076756A (zh) | 一种文本生成方法和装置 | |
CN112148958A (zh) | 用于信息推荐的方法、设备和计算机存储介质 | |
CN111538817A (zh) | 人机交互方法和装置 | |
CN113033194A (zh) | 语义表示图模型的训练方法、装置、设备和存储介质 | |
CN112948573A (zh) | 文本标签的提取方法、装置、设备和计算机存储介质 | |
CN112560425A (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN111783433A (zh) | 一种文本检索纠错方法和装置 | |
CN116597443A (zh) | 素材标签处理方法、装置、电子设备及介质 | |
CN114036397B (zh) | 数据推荐方法、装置、电子设备和介质 | |
CN115547514A (zh) | 一种致病基因排序方法、装置、电子设备和介质 | |
CN114218431A (zh) | 视频搜索方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |