CN111274384A - 一种文本标注方法及其设备、计算机存储介质 - Google Patents

一种文本标注方法及其设备、计算机存储介质 Download PDF

Info

Publication number
CN111274384A
CN111274384A CN201811483154.5A CN201811483154A CN111274384A CN 111274384 A CN111274384 A CN 111274384A CN 201811483154 A CN201811483154 A CN 201811483154A CN 111274384 A CN111274384 A CN 111274384A
Authority
CN
China
Prior art keywords
labeling
labeled
participle
information
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811483154.5A
Other languages
English (en)
Other versions
CN111274384B (zh
Inventor
安旭
周旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201811483154.5A priority Critical patent/CN111274384B/zh
Publication of CN111274384A publication Critical patent/CN111274384A/zh
Application granted granted Critical
Publication of CN111274384B publication Critical patent/CN111274384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种文本标注方法及其设备、计算机存储介质,其中,所述方法包括:获取待标注文本的各个分词和每一所述分词的预标注信息,其中,所述预标注信息包括自定义词性;根据获取到的每一所述分词的关联分词及所述关联分词的预标注信息,确定所述分词的标注特征;将每一所述分词和所述分词对应的标注特征,输入预设的分类模型,得到所述分词的目标标注信息;根据每一所述分词的目标标注信息对对应的分词进行标注。

Description

一种文本标注方法及其设备、计算机存储介质
技术领域
本发明涉及数据处理技术领域,涉及但不限于一种文本标注方法及其设备、计算机存储介质。
背景技术
随着互联网及无线通信技术的蓬勃发展,电子商务的兴起吸引了越来越多的用户开始在网上购物,从而体验网上购物的便捷和优惠。对于电子商务的商家来说,为了能对商品进行自动分类以及支持商品匹配,需要对商品标题做分词和词性标注。在自然语言处理中,词是能够独立活动的有意义的最小的语言成分,因此词是语言中表达内容的基本单位。词性标注的主要目的是给句中每一个词赋以正确的分类标记,是词法分析的一个重要部分。
在相关技术中,进行文本词性标注或分类时,往往只能根据文本的语序来确定是名词、动词、主语、谓语、宾语等词性。但是在电子商务中,标注这些词性的意义不大,往往需要利用自定义词性对文本进行标注并且对于电子商务中的一些文本,例如商品标题,并没有严格的语序要求,在实现本发明过程中,发明人发现现有技术中的文本标注方法在对商品标题进行自定义词性标注的时候,不能准确标注相关词汇。
发明内容
有鉴于此,本发明实施例期望提供一种文本标注方法及其设备、计算机存储介质。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种文本标注方法,所述方法包括:
获取待标注文本的各个分词和每一所述分词的预标注信息,其中,所述预标注信息包括自定义词性;
根据获取到的每一所述分词的关联分词及所述关联分词的预标注信息,确定所述分词的标注特征;
将每一所述分词和所述分词对应的标注特征,输入预设的分类模型,得到所述分词的目标标注信息;
根据每一所述分词的目标标注信息对对应的分词进行标注。
本发明实施例提供一种文本标注设备,所述文本标注设备至少包括:存储器、通信总线和处理器,其中:
所述存储器,用于存储文本标注程序;
所述通信总线,用于实现处理器和存储器之间的连接通信;
所述处理器,用于执行存储器中存储的文本标注程序,以实现本发明其他实施例所述的图像处理方法的步骤。
本发明实施例提供一种计算机存储介质,所述计算机存储介质上存储有文本标注程序,所述文本标注程序被处理器执行时实现本发明其他实施例中所述的文本标注方法的步骤。
本发明实施例提供一种文本标注方法及其设备、计算机存储介质,其中,首先,获取待标注文本的各个分词和每一所述分词的预标注信息,其中,所述预标注信息包括自定义词性;然后根据每一所述分词及所述分词关联的预标注信息,确定所述分词的标注特征;再将每一所述分词和所述分词对应的标注特征,输入预设的分类模型,得到所述分词的目标标注信息;根据每一所述分词的目标标注信息对对应的分词进行标注;如此,能够利用包括自定义词性的预标注信息进一步通过分类模型确定待标注文本的目标标注信息,进而提高文本标注的准确率和适用性。
附图说明
图1a为本发明实施例在线文本标注的网络架构示意图;
图1b为本发明实施例文本标注方法的实现流程示意图;
图2为本发明实施例文本标注方法的又一实现流程示意图;
图3为本发明实施例文本标注方法的又一实现流程示意图;
图4为本发明实施例用户搜索商品时的界面示意图;
图5为本发明实施例文本标注设备的组成结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对发明的具体技术方案做进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明实施例提供的文本标注方法,应用于文本标注设备,在实现时,可以是在线进行文本标注还可以离线进行文本标注。当是离线标注时,该文本标注设备可以是诸如台式计算机、笔记本电脑、平板电脑等具有计算能力的智能终端,当用户需要对文本进行标注时,由文本标注设备获取待标注文本,并对待标注文本进行分词,进而对分词进行人工标注以获取标注信息,再利用统计学的方法确定各个分词的目标标注信息,从而对待标注文本中的分词进行标注。
当是在线标注时,图1a为本发明实施例在线文本标注的网络架构示意图,如图1a所示,该网络架构包括客户端11和服务器12,其中,客户端11与服务器12之间可以建立有线或者无线网络连接,由此,客户端11与服务器12之间便能够基于该网络连接进行数据传输。服务器可以认为是文本标注设备。当用户需要对文本进行标注时,可以通过客户端将待标注文本发送给服务器,由服务器对文本进行分词,然后将分词结果发送给客户端,由用户对分词进行人工标注,并将各个分词及人工标注的预标注信息发送给服务器,服务器基于各个分词和对应的预标注信息利用统计学的方法确定各个分词的目标标注信息,从而对待标注文本中的分词进行标注,最后将标注结果发送给客户端。
需要说明的是,在实际实现过程中,服务器12可以是一台服务器,也可以是由多台服务器构成的服务器集群、云计算中心等等,在此不加以限定。
为了更好地理解本发明实施例提供的文本标注方法及相应的技术效果,首先对相关技术中用到的CRF模型进行相关说明。
CRF模型结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。
CRF是在给定一组输入随机变量条件下另外一组输出随机变量的条件概率分布模型,它是一种判别式的概率无向图模型,既然是判别式,那就是对条件概率分布建模。CRF较多用在自然语言处理和图像处理领域,在自然语音处理中,它是用于标注和划分序列数据的概率化模型,根据CRF的定义,相对序列就是给定观测序列X和输出序列Y,然后通过定义条件概率P(Y|X)来描述模型。
CRF模型是一个典型的判别式模型,其联合概率可以写成若干势函数联乘的形式,其中最常用的是线性链条件随机场。CRF的输入是标注好的序列,也即观测序列,也可以另外加入一列作为自定义特征。构建出目标函数的极大似然估计后通过梯度下降法寻找较优参数。对于如何寻找满足观察值条件的最大联合概率的状态序列,是通过维特比算法(实质是一种动态规划,只是避免了暴力穷举法)求解的。
CRF考察了观察值序列的转移特征和状态特征,但是却无法考察节点内部特征。
本发明实施例提供一种文本标注方法,图1b为本发明实施例文本标注方法的实现流程示意图,如图1b所示,所述方法包括以下步骤:
步骤S101,获取待标注文本的各个分词和每一所述分词的预标注信息。
这里,所述步骤S101可以是由文本标注设备实现的,进一步地,所述文本识别设备可以是智能终端,例如可以是移动电话、平板电脑、笔记本电脑等具有无线通信能力的移动终端,还可以是具有计算能力的台式计算机、桌面电脑等不便移动的设备。
所述预标注信息包括自定义词性,所述自定义词性可以是根据待标注文本涉及的领域进行设置,例如在电商领域,所述自定义词性可以包括但不限于是品牌词、产品词、特征词、型号词、规格词;在医疗领域,所述自定义词性可以包括但不限于是患者姓名词、科室词、医生职称词等。
所述步骤S101在实现时,可以首先通过预设的分词算法对待标注文本进行分词,以得到分词结果,其中,分词结果中至少包括所述待标注文本的各个分词,还可以包括各个分词的位置信息。例如,待标注文本为:伊利巧克力牛奶250ml,对该待标注文本进行分词,可以得到以下分词:伊利、巧克力、牛奶、250ml。
在获取了待标注文本的各个分词后,需要进一步获取各个分词的预标注信息,这里在实现过程中可以采用人工标注的方式对分词进行预标注,例如,可以将伊利的预标注信息设置为品牌词、将巧克力的预标注信息设置为口味、将牛奶的预标注信息设置为产品词,将250ml的预标注信息设置为规格词。
步骤S102,根据获取到的每一所述分词的关联分词及所述关联分词的预标注信息,确定所述分词的标注特征。
这里,所述步骤S102可以是由文本标注设备实现的。
所述步骤S102在实现时,首先要确定每一所述分词的关联分词,这里一个分词的关联分词可以认为是包括所述分词中的字符的分词,例如,与苹果相关联的分词可以是水果、火龙果、百香果、果粉、白苹洲、绿苹等;进而再获取所述关联分词的预标注信息,再根据每一分词的关联分词及所述关联分词的预标注信息利用统计学的方法,确定所述分词最大概率对应哪一预标注信息,再根据最大概率对应的预标注信息确定所述分词的标注特征。
步骤S103,将每一所述分词和所述分词对应的标注特征,输入预设的分类模型,得到所述分词的目标标注信息。
这里,在本实施例中,所述预设的分类模型可以是随机森林模型。随机森林指的是利用多个决策树对样本进行训练并预测的一种分类器,并且输出的类别是由个别树输出的类别的众数而定。
在其他实施例中,在所述步骤S103之前,还可以首先获取预设的词典特征以及根据待标注文本确定的规则特征;然后所述步骤S103在实现时,可以是将所述词典特征、规则特征、每一所述分词的位置信息、每一所述分词和所述分词对应的标注特征,输入随机森林模型,得到所述分词的目标标注信息。
步骤S104,根据每一所述分词的目标标注信息对对应的分词进行标注。
这里,所述步骤S104可以是由文本标注设备实现的。
所述步骤S104在实现时,是根据每一所述分词的目标标注信息和所述分词的位置信息对对应的分词进行标注,其中,所述目标标注信息至少包括自定义词性。
在本发明实施例提供的文本标注方法中,首先,获取待标注文本的各个分词和每一所述分词的预标注信息,其中,所述预标注信息包括自定义词性;然后根据每一所述分词及所述分词关联的预标注信息,确定所述分词的标注特征;再将每一所述分词和所述分词对应的标注特征,输入预设的分类模型,得到所述分词的目标标注信息;根据每一所述分词的目标标注信息对对应的分词进行标注;如此,能够利用包括自定义词性的预标注信息进一步通过分类模型确定待标注文本的目标标注信息,进而提高文本标注的准确率和适用性。
基于上述实施例,本发明实施例再提供一种文本标注方法,应用于文本标注设备,图2为本发明实施例文本标注方法的又一实现流程示意图,如图2所示,所述方法包括以下步骤:
步骤S201,获取待标注文本。
这里,所述步骤S201可以是由文本标注设备实现的,其中,所述文本标注设备可以是智能手机、笔记本电脑等客户端设备,还可以是服务器设备。
当所述文本标注设备为客户端设备时,客户端设备可以是根据用户操作指令来获取待标注文本,例如,当用户做出对某一段文本进行标注的操作指令时,基于该操作指令获取相应的待标注文本。
当所述文本标注设备为服务器设备时,服务端设备可以是在接收到客户端发送的获取待标注文本的目标标注信息的请求时,获取所述请求携带的待标注文本。
步骤S202,对所述待标注文本进行分词,获取所述待标注文本的各个分词和每一分词的位置信息。
这里,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。所述步骤S202在实现时,可以是按照预设的分词算法,对所述待标注文本进行分词,以获取所述待标注文本的各个分词和每一分词的位置信息。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。其中:
基于字符串匹配的分词方法:按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
基于理解的分词方法:通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子***、句法语义子***、总控部分。在总控部分的协调下,分词子***可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。
基于统计的分词方法:从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
步骤S203,获取每一所述分词的预标注信息。
这里,当所述步骤S203是由客户端设备实现时,可以在进行分词之后,在客户端设备上输出各个分词,然后提示用户设置各个分词的预标注信息,其中,所述预标注信息包括自定义词性,也就是说由用户根据自定义词性对各个分词进行人工标注,从而获取每一所述分词的预标注信息。
当所述步骤S203是由服务器设备实现时,可以是在步骤S202之后,在客户端设备上输出各个分词,然后提示用户设置各个分词的预标注信息,其中,所述预标注信息包括自定义词性,也就是说由用户根据自定义词性对各个分词进行人工标注,从而获取每一所述分词的预标注信息;还可以是在进行分词之后,服务器设备将分词结果发送给客户端设备,由客户端设备完成对每一分词的标注后,将标注结果再发送给服务器设备,服务器设备根据客户端设备发送的标注结果获取每一所述分词的预标注信息。
步骤S204,根据所述分词中包含的各个字符,确定每一所述分词的关联分词。
这里,每一所述分词的关联分词为包括所述字符的分词,例如,与牛奶关联的分词可以包括奶油、奶粉、奶牛、黄牛肉、牛城等等。一个分词本身也可以认为是自身的关联分词,例如牛奶的关联分词也包括牛奶。
步骤S205,获取所述关联分词的预标注信息。
步骤S206,根据每一所述分词的关联分词和对应的预标注信息,确定所述待标注文本中每个字符对应每一预标注信息的第一概率。
这里,在本发明实施例中,一个分词中包含的各个字符的预标注信息与该分词是相同的,例如,牛奶的预标注信息为产品,那么牛奶中的“牛”的预标注信息为产品,“奶”的预标注信息也是产品。
假设一共有N种预标注信息,在计算字A对应第一种预标注信息的第一概率时,首先确定包括字A的分词的总个数,然后再确定字A标注为第一种预标注信息的次数,然后,将字A标注为第一种预标注信息的次数与包括字A的分词的总个数相除,得到字A对应第一种预标注信息的第一概率。按照该计算方法可以依次确定字A对应第二种预标注信息、第三种预标注信息、…、第N种预标注信息的第一概率。
步骤S207,根据每个所述字符对应每一预标注信息的第一概率,确定每一所述分词对应的每一预标注信息的第二概率。
这里,所述分词对应的每一预标注信息的第二概率是根据所述分词中包括的各个字符对应的每一预标注信息的第一概率确定的,例如分词W包括两个字符,词W对应第一种预标注信息的第二概率为第一个字符对应第一种预标注信息的第一概率加上第二个字符对应第一种预标注信息的第一概率,依次可以确定词W对应第二种预标注信息、第三种预标注信息、…、第N种预标注信息的第二概率。
步骤S208,根据每一所述分词对应的每一预标注信息的第二概率,确定每一所述分词的标注特征。
这里,所述步骤S208在实现时,是根据所述分词对应的N个预标注信息的第二概率中满足预设条件的一个第二概率对应的预标注信息,确定该分词的标注特征。在本实施例中,可以是根据所述分词对应的N个预标注信息的第二概率中最大的第二概率对应的预标注信息,确定该分词的标注特征。
在本发明实施例中,一个预标注信息对应一个标注特征,并且一般情况下,标注特征比预标注信息所占用的字节数要少,例如预标注信息为产品的预标注特征可以是B,或者是1。
步骤S209,获取待标注文本的每一分词的位置信息和预设的词典特征。
这里,所述待标注文本的每一分词的位置信息可以通过步骤S202获取,获取预设的词典特征可以是获取预设的词典,其中词典中的词附带了词性,但是需要说明的是,所述词典中的词所附带的词性可能是不准确的。
步骤S210,根据所述待标注文本确定规则特征。
述规则特征可以认为是识别数词、型号词的一些规则,在实现时可以根据待标注的商品标题来构造规则特征,例如可以将规则设置为将“毫升”之前的数字与毫升结合在一起算是一个表示规格的分词,将连续的一个数字和一个字母的组合认为是一个表示型号的分词。
步骤S211,将所述词典特征、规则特征、每一分词、所述每一分词的标注特征和每一分词的位置信息输入预设的分类模型,得到所述每一分词的目标标注信息。
步骤S212,根据每一所述分词的目标标注信息对对应的分词进行标注。
这里,所述步骤S212在实现时,节约根据每一所述分词的目标标注信息和所述分词的位置信息对对应的分词进行标注,其中,所述目标标注信息至少包括自定义词性。
在本发明实施例提供的文本标注方法中,首先获取待标注文本,再对待标注文本进行分词,获取所述待标注文本的各个分词和每一分词的位置信息,并获取每一所述分词的预标注信息;然后根据所述分词中包含的各个字符,确定每一所述分词的关联分词和关联分词的预标注信息,根据每一所述分词的关联分词和对应的预标注信息,确定所述待标注文本中每个字符对应每一预标注信息的第一概率;从而根据每个所述字符对应每一预标注信息的第一概率,确定每一所述分词对应的每一预标注信息的第二概率,根据每一所述分词对应的每一预标注信息的第二概率,确定每一所述分词的标注特征,再进一步获取待标注文本的每一分词的位置信息和预设的词典特征、规则特征,将所述词典特征、规则特征、每一分词、所述每一分词的标注特征和每一分词的位置信息输入预设的分类模型,得到所述每一分词的目标标注信息,最后根据每一所述分词的目标标注信息对对应的分词进行标注;这样,基于统计方法根据分词本身的预标注信息确定待标注文本的各个分词的标注特征,不依赖于各个预标注信息之间的转移关系,并且加入词典特征、规则特征等利用分类模型做分类处理,以确定各个分词的目标标注信息,在取得较高准确率的同时保证了运行效率。
在其他实施例中,所述待标注文本中包括M个字符,N个预标注信息,对应地,所述步骤S206“根据每一所述分词的关联分词和对应的预标注信息,确定所述待标注文本中每个字符对应每一预标注信息的第一概率”可以通过以下步骤实现:
步骤S2061,根据每一所述分词的关联分词和所述关联分词的预标注信息确定第一数量。
这里,所述第一数量为包括第i个字符且预标注信息为第j个预标注信息的分词的个数;i=1、2、…、M,j=1、2、…、N。
假设计算分词“牛奶”的第1个字符“牛”对应产品的第一概率,首先根据分词“牛奶”的关联分词和所述关联分析的预标注信息,确定包括字符“牛”的且预标注信息为产品的分词的第一数量,例如,在待标注文本中“牛奶”的关联分词包括:300个“牛肉”分词、200个“蒙牛”分词、500个“牛奶”分词,300个“奶粉”分词,其中,“牛肉”的预标注信息为产品,“蒙牛”的预标注信息为品牌,“牛奶”的预标注信息为产品,那么此时第一数量为800。
步骤S2062,确定所述待标注文本中包括第i个字符的分词的第二数量。
这里,承接步骤S2061的举例,第二数量为1000。
步骤S2063,根据所述第一数量和所述第二数量确定所述待标注文本中每个字符对应每一预标注信息的第一概率。
这里,在实际实现过程中,可以是将第一数量和第一数量的比值确定为第一概率,例如,“牛”对应产品的第一概率为0.8。
在其他实施例中,所述步骤S207“根据每个字符对应每一预标注信息的第一概率,确定所述每一分词对应的每一预标注信息的第二概率”,可以从以下步骤实现:
步骤S2071,获取每一分词所包含的每个字符对应的每一预标注信息的第一概率。
这里,假设一个分词Y有M个字符组成,分词Y的第i个字符对应的第j个预标注信息的第一概率为Pi,j
步骤S2072,根据所述每一分词所包含的每个字符对应的每一预标注信息的第一概率,确定所述分词对应的每一预标注信息的第二概率。
这里,所述步骤S2072可以通过公式(2-1)确定分词Y对应第j个预标注信息的第二概率Pj':
Figure BDA0001893861810000111
依据公式(2-1)可以计算出分词Y对应的其他预标注信息的第二概率。
例如,分词Y为“牛奶”中“牛”对应产品的第二概率为0.8,“奶”对应产品的第二概率为0.7,那么“牛奶”对应产品的第二概率为1.5。
在其他实施例中,所述步骤S208“根据所述每一分词对应的每一预标注信息的第二概率,确定所述每一分词的标注特征”,可以通过以下步骤实现:
步骤S2081,确定所述每一分词对应的N个第二概率中满足预设条件的第二概率对应的预标注信息。
这里,N为大于1的整数;假设“牛奶”对应产品的第二概率为1.5,对应品牌的第二概率为0.5,对应其他预标注信息的第二概率都为0,将N个第二概率中最大的一个确定为满足预设条件的第二概率,也就是1.5,确定1.5对应的预标注信息,这里为产品。
步骤S2082,根据所述满足预设条件的第二概率对应的预标注信息,确定所述每一分词的标注特征。
这里,假设预标注信息产品对应的标注特征为P,那么“牛奶”的标注特征为P。
基于前述的实施例,本发明实施例再提供一种文本标注方法,图3为本发明实施例文本标注方法的又一实现流程示意图图,如图3所示,所述方法包括以下步骤:
步骤S301,将商品标题进行分词。
这里,所述步骤S301在实现时,可以是利用预设的分词算法对商品标题进行分词,例如可以利用
假设商品标题为“烟台红富士苹果”,得到的分词结果为:烟台、红富士、苹果;再例如商品标题为“苹果电脑13.3英寸”,得到的分词结果为:苹果、电脑、13.3英寸。
步骤S302,为分好词的标题做人工标注,得到训练数据。
这里,所述训练数据中包括各个分词和每个分词对应的人工标注信息,在本实施例中,人工标注信息是用户自定义的词性,所述人工标注信息可以包括但不限于:产地、品牌、产品、型号、类型、规格大小。对于食品类产品来说,类型可以指的是品种,例如苹果的品种可以是红富士、黄元帅、红星等;对于其他产品来说,类型可以是指品牌所包含的产品类别,例如苹果品牌的产品类别可以有电脑、手机、耳机、充电器等等。
例如可以将“烟台红富士苹果”中的烟台标注为产地、红富士标注为类型、苹果标记为产品;可以将“苹果电脑13.3英寸”中的苹果标注为品牌、电脑标注为类型、13.3英寸标注为规格大小。
步骤S303,计算每个词被标注为各个类别的概率。
这里,每一人工标注信息对应一种类别,所述每个词被标注为各个类别的概率也就是指每个词标注为各个人工标注信息的概率。
所述步骤S303可以通过以下步骤实现:
步骤S3031,统计训练数据中每个字对应的各个标注类别的概率。
这里,在训练数据中,不同的词有不同的标注信息,构成词的字的标注信息与词的标注信息相同。所以可以根据公式(3-1)确定每个字对应的各个标注类别的概率:
Figure BDA0001893861810000131
其中,
Figure BDA0001893861810000132
表示字C对应的标注类别为h的概率,
Figure BDA0001893861810000133
表示字C所属的词的标注类别为h的集合S中所包含的元素的个数;|QC|表示包括字C的集合Q中所包含的元素的个数。
这里,假设苹果中的“苹”字所属的词的标注类别为产品的集合中所包含的元素的个数为2000,也就是说“苹”字所属的2000个词的标注类别为产品;“苹”字所属的词的标注类别为品牌的集合中所包含的元素的个数为7000;“苹”字所属的词的标注类别为产地的集合中所包含的元素的个数为1000;包括“苹”字的分词的集合中所包含的元素个数为10000;那么“苹”对应的标注类别为产品的概率为0.2;对应的标注类别为品牌的概率为0.7,对应的标注类别为产地的概率为0.1。
步骤S3032,根据每个字对应的各个标注类别的概率确定每个词对应的各个标注类别的概率。
这里,每个词对应的各个标注类别的概率为构成词的每个字对应的各个标注类别的概率之和,即公式(3-2):
Figure BDA0001893861810000141
其中,
Figure BDA0001893861810000144
表示词W的标注类别为h的概率,N表示词的长度;Ci表示第i个字。
假设词“苹果”中,“苹”对应的标注类别为产品的概率为0.2,标注类别为品牌的概率为0.7,标注类别为产地的概率为0.1;“果”对应的标注类别为产品的概率为0.5,标注类别为品牌的概率为0.45,标注类别为规格大小的概率为0.05,那么词“苹果”对应的标注类别为产品的概率为0.7;标注类别为品牌的概率为1.15;标注类别为产地的概率为0.1;标注类别为规格大小的概率为0.05。
步骤S304,比较对词W的各个标注类别的概率,取最大概率对应的标注为词的标注特征。
这里,可以根据公式(3-3)确定词W的各个标注类别的概率中的最大概率PW
Figure BDA0001893861810000143
其中,max()为求最大值函数。在确定出最大概率后,首先获取该最大概率对应的标注信息,再根据标注信息确定对应的标注特征,其中标注信息对应的标注特征可以用数字或字母表示,这样可以降低存储空间。承接步骤S3032中的举例,由于词“苹果”对应的标注类别为产品的概率为0.7;标注类别为品牌的概率为1.15;标注类别为产地的概率为0.1;标注类别为规格大小的概率为0.05,那么“苹果”的各个标注类别的概率中最大的概率为1.15,对应的标注信息为品牌,假设品牌对应的标注特征为B,那么词“苹果”的标注特征为B。
步骤S305,构造词典特征。
这里,所述步骤S305在实现时,可以是获取预设的词典,其中词典中的词附带了词性,但是需要说明的是,所述词典中的词所附带的词性可能是不准确的。
步骤S306,构造规则特征。
这里,所述规则特征可以认为是识别数词、型号词的一些规则,在实现时可以根据待标注的商品标题来构造规则特征,例如可以将规则设置为将“毫升”之前的数字与毫升结合在一起算是一个表示规格的分词,将连续的一个数字和一个字母的组合认为是一个表示型号的分词。
步骤S307,加入词的位置特征。
这里,所述词的位置特征可以认为是词的位置信息,或者说在商品标题中的语序信息,该位置特征在对商品标题进行分词的过程中就可以获取到。
步骤S308,将所述词的标注特征、词典特征、规则特征和位置特征输入随机森林模型中。
这里,将所述词的标注特征、词典特征、规则特征和位置特征作为输入数据,输入至随机森林模型中进行分类。
步骤S309,对每个待标注位置输出分类结果。
这里,对每个待标注位置输出分类结果也可以理解为是输出每个分词的分类结果,再其他实施例中,再获取到分类结果后,根据分类结果对每个分词进行标注,从而可以在后续的商品匹配过程中,根据标注信息快速匹配到合适的商品。图4为本发明实施例用户搜索商品时的界面示意图,如图4所示,当用户在某一电商应用(Application,APP)输入“苹果”进行搜索时,电商APP将搜索内容“苹果”发送给服务器,服务器会获取“苹果”分词的标注信息,并且根据标注信息筛选出匹配度高的商品,排在前面显示,假设“苹果”分词标注信息为品牌,那么会将“苹果”作为品牌的商品401排在前边显示,将“苹果”作为产品的商品402排在后面显示。
在本发明实施例提供的文本标注方法中,基于统计方法,针对商品标题数据的特点(自定义的各个词性之间没有转移关系或转移关系很弱,只能依靠词本身的特征来决定词性)定制了相应的算法,在取得较高准确率的同时保证了算法的运行效率。经过测试,只使用步骤S304中的输出结果时标注的准确率为77.3%,加入其它特征后使用随机森林输出标注结果的准确率高于87%,可见利用本发明实施例提供的文本标注方法能够有效提高标注准确率。
本发明实施例提供一种文本标注设备,图5为本发明实施例文本标注设备的组成结构示意图,如图5所示,所述设备至少包括:存储器501、通信总线502和处理器503,其中:
所述存储器501,配置为存储文本标注程序;
所述通信总线502,配置为实现处理器和存储器之间的连接通信;
所述处理器503,配置为执行存储器中存储的文本标注程序,以实现如下步骤:
获取待标注文本的各个分词和每一所述分词的预标注信息,其中,所述预标注信息包括自定义词性;
根据获取到的每一所述分词的关联分词及所述关联分词的预标注信息,确定所述分词的标注特征;
将每一所述分词和所述分词对应的标注特征,输入预设的分类模型,得到所述分词的目标标注信息;
根据每一所述分词的目标标注信息对对应的分词进行标注。
在其他实施例中,所述处理器503,还配置为执行存储器中存储的文本标注程序,以实现如下步骤:
根据所述分词中包含的各个字符,确定每一所述分词的关联分词,其中,关联分词为包括所述字符的分词;
获取所述关联分词的预标注信息。
在其他实施例中,所述根据获取到的每一所述分词的关联分词及所述关联分词的预标注信息,确定所述分词的标注特征,包括:
根据每一所述分词的关联分词和所述关联分词的预标注信息,确定所述待标注文本中每个字符对应每一预标注信息的第一概率;
根据每个所述字符对应每一预标注信息的第一概率,确定所述分词对应的每一预标注信息的第二概率;
根据所述分词对应的每一预标注信息的第二概率,确定所述分词的标注特征。
在其他实施例中,所述待标注文本中包括M个字符,N个预标注信息,对应地,所述根据每一所述分词的关联分词和所述关联分词的预标注信息,确定所述待标注文本中每个字符对应每一预标注信息的第一概率,包括:
根据每一所述分词的关联分词和所述关联分词的预标注信息确定第一数量,其中,所述第一数量为包括第i个字符且预标注信息为第j个预标注信息的分词的个数;i=1、2、…、M,j=1、2、…、N;
确定所述待标注文本中包括第i个字符的分词的第二数量;
根据所述第一数量和所述第二数量确定所述待标注文本中每个字符对应每一预标注信息的第一概率。
在其他实施例中,根据每个所述字符对应每一预标注信息的第一概率,确定所述分词对应的每一预标注信息的第二概率,包括:
获取所述分词所包含的每个字符对应的每一预标注信息的第一概率;
根据所述分词所包含的每个字符对应的每一预标注信息的第一概率,确定所述分词对应的每一预标注信息的第二概率。
在其他实施例中,根据所述每一分词对应的每一预标注信息的第二概率,确定所述每一分词的标注特征,包括:
确定所述每一分词对应的N个第二概率中满足预设条件的第二概率对应的预标注信息,其中,N为大于1的整数;
根据所述满足预设条件的第二概率对应的预标注信息,确定所述每一分词的标注特征。
在其他实施例中,所述处理器503,还配置为执行存储器中存储的文本标注程序,以实现如下步骤:
获取待标注文本的每一分词的位置信息和预设的词典特征;
根据所述待标注文本确定规则特征。
在其他实施例中,所述至少将每一分词和所述每一分词的标注特征输入预设的分类模型,得到所述每一分词的目标标注信息,包括:
将所述词典特征、规则特征、每一分词、所述每一分词的标注特征和每一分词的位置信息输入预设的分类模型,得到所述每一分词的目标标注信息。
相应地,本发明实施例再提供一种计算机存储介质,所述计算机存储介质上存储有文本标注程序,所述文本标注程序被处理器执行时实现上述的文本标注方法的步骤。
以上文本标注设备和存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明文本标注设备和计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
本发明实施例中,如果以软件功能模块的形式实现上述方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种文本标注方法,其特征在于,所述方法包括:
获取待标注文本的各个分词和每一所述分词的预标注信息,其中,所述预标注信息包括自定义词性;
根据获取到的每一所述分词的关联分词及所述关联分词的预标注信息,确定所述分词的标注特征;
将每一所述分词和所述分词对应的标注特征,输入预设的分类模型,得到所述分词的目标标注信息;
根据每一所述分词的目标标注信息对对应的分词进行标注。
2.根据权利要求1中所述的方法,其特征在于,所述方法还包括:
根据所述分词中包含的各个字符,确定每一所述分词的关联分词,其中,关联分词为包括所述字符的分词;
获取所述关联分词的预标注信息。
3.根据权利要求2中所述的方法,其特征在于,所述根据获取到的每一所述分词的关联分词及所述关联分词的预标注信息,确定所述分词的标注特征,包括:
根据每一所述分词的关联分词和所述关联分词的预标注信息,确定所述待标注文本中每个字符对应每一预标注信息的第一概率;
根据每个所述字符对应每一预标注信息的第一概率,确定所述分词对应的每一预标注信息的第二概率;
根据所述分词对应的每一预标注信息的第二概率,确定所述分词的标注特征。
4.根据权利要求3中所述的方法,其特征在于,所述待标注文本中包括M个字符,N个预标注信息,对应地,所述根据每一所述分词的关联分词和所述关联分词的预标注信息,确定所述待标注文本中每个字符对应每一预标注信息的第一概率,包括:
根据每一所述分词的关联分词和所述关联分词的预标注信息确定第一数量,其中,所述第一数量为包括第i个字符且预标注信息为第j个预标注信息的分词的个数;i=1、2、…、M,j=1、2、…、N;
确定所述待标注文本中包括第i个字符的分词的第二数量;
根据所述第一数量和所述第二数量确定所述待标注文本中每个字符对应每一预标注信息的第一概率。
5.根据权利要求3或4中所述的方法,其特征在于,根据每个所述字符对应每一预标注信息的第一概率,确定所述分词对应的每一预标注信息的第二概率,包括:
获取所述分词所包含的每个字符对应的每一预标注信息的第一概率;
根据所述分词所包含的每个字符对应的每一预标注信息的第一概率,确定所述分词对应的每一预标注信息的第二概率。
6.根据权利要求3或4中所述的方法,其特征在于,根据所述分词对应的每一预标注信息的第二概率,确定所述分词的标注特征,包括:
确定所述分词对应的N个第二概率中满足预设条件的第二概率对应的预标注信息,其中,N为大于1的整数;
根据所述满足预设条件的第二概率对应的预标注信息,确定所述分词的标注特征。
7.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
获取待标注文本的每一分词的位置信息和预设的词典特征;
根据所述待标注文本确定规则特征。
8.根据权利要求7中所述的方法,其特征在于,所述至少将每一分词和所述每一分词的标注特征输入预设的分类模型,得到所述每一分词的目标标注信息,包括:
将所述词典特征、规则特征、每一分词、所述每一分词的标注特征和每一分词的位置信息输入预设的分类模型,得到所述每一分词的目标标注信息。
9.一种文本标注设备,其特征在于,所述文本标注设备至少包括:存储器、通信总线和处理器,其中:
所述存储器,配置为存储文本标注程序;
所述通信总线,配置为实现处理器和存储器之间的连接通信;
所述处理器,配置为执行存储器中存储的文本标注程序,以实现权利要求1至8中任一项所述的文本标注方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有文本标注程序,所述文本标注程序被处理器执行时实现1至8任一项中所述的文本标注方法的步骤。
CN201811483154.5A 2018-12-05 2018-12-05 一种文本标注方法及其设备、计算机存储介质 Active CN111274384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811483154.5A CN111274384B (zh) 2018-12-05 2018-12-05 一种文本标注方法及其设备、计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811483154.5A CN111274384B (zh) 2018-12-05 2018-12-05 一种文本标注方法及其设备、计算机存储介质

Publications (2)

Publication Number Publication Date
CN111274384A true CN111274384A (zh) 2020-06-12
CN111274384B CN111274384B (zh) 2024-02-06

Family

ID=70998648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811483154.5A Active CN111274384B (zh) 2018-12-05 2018-12-05 一种文本标注方法及其设备、计算机存储介质

Country Status (1)

Country Link
CN (1) CN111274384B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101021A (zh) * 2020-09-03 2020-12-18 沈阳东软智能医疗科技研究院有限公司 一种实现标准词映射的方法、装置及设备
CN112183035A (zh) * 2020-11-06 2021-01-05 上海恒生聚源数据服务有限公司 一种文本标注方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138670A (zh) * 2015-09-06 2015-12-09 天翼爱音乐文化科技有限公司 音频文件标签生成方法和***
JP2017004127A (ja) * 2015-06-05 2017-01-05 富士通株式会社 テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法
CN106372060A (zh) * 2016-08-31 2017-02-01 北京百度网讯科技有限公司 搜索文本的标注方法和装置
CN108334492A (zh) * 2017-12-05 2018-07-27 腾讯科技(深圳)有限公司 文本分词、即时消息处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017004127A (ja) * 2015-06-05 2017-01-05 富士通株式会社 テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法
CN105138670A (zh) * 2015-09-06 2015-12-09 天翼爱音乐文化科技有限公司 音频文件标签生成方法和***
CN106372060A (zh) * 2016-08-31 2017-02-01 北京百度网讯科技有限公司 搜索文本的标注方法和装置
CN108334492A (zh) * 2017-12-05 2018-07-27 腾讯科技(深圳)有限公司 文本分词、即时消息处理方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101021A (zh) * 2020-09-03 2020-12-18 沈阳东软智能医疗科技研究院有限公司 一种实现标准词映射的方法、装置及设备
CN112183035A (zh) * 2020-11-06 2021-01-05 上海恒生聚源数据服务有限公司 一种文本标注方法、装置、设备及可读存储介质
CN112183035B (zh) * 2020-11-06 2023-11-21 上海恒生聚源数据服务有限公司 一种文本标注方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN111274384B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN110851596B (zh) 文本分类方法、装置及计算机可读存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN108153856B (zh) 用于输出信息的方法和装置
CN106709040B (zh) 一种应用搜索方法和服务器
CN106960030B (zh) 基于人工智能的推送信息方法及装置
US10296582B2 (en) Method and apparatus for determining morpheme importance analysis model
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN109933785A (zh) 用于实体关联的方法、装置、设备和介质
US20100205198A1 (en) Search query disambiguation
US10528662B2 (en) Automated discovery using textual analysis
CN110569354B (zh) 弹幕情感分析方法及装置
CN114329225B (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
CN110955750A (zh) 评论区域和情感极性的联合识别方法、装置、电子设备
CN111813944A (zh) 一种直播评论分析方法、装置、电子设备及存储介质
KR20210034679A (ko) 엔티티-속성 관계 식별
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
Tamchyna et al. Czech Aspect-Based Sentiment Analysis: A New Dataset and Preliminary Results.
Nasim et al. ABSA toolkit: An open source tool for aspect based sentiment analysis
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN111274384B (zh) 一种文本标注方法及其设备、计算机存储介质
CN109753646B (zh) 一种文章属性识别方法以及电子设备
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Venuti et al. Predicting the tolerance level of religious discourse through computational linguistics
Riemer et al. A deep learning and knowledge transfer based architecture for social media user characteristic determination
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant