CN103678336A - 实体词识别方法及装置 - Google Patents

实体词识别方法及装置 Download PDF

Info

Publication number
CN103678336A
CN103678336A CN201210326664.8A CN201210326664A CN103678336A CN 103678336 A CN103678336 A CN 103678336A CN 201210326664 A CN201210326664 A CN 201210326664A CN 103678336 A CN103678336 A CN 103678336A
Authority
CN
China
Prior art keywords
word
entity word
entity
data
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210326664.8A
Other languages
English (en)
Other versions
CN103678336B (zh
Inventor
廖剑
吴克文
张永刚
林锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Singapore Holdings Pte Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210326664.8A priority Critical patent/CN103678336B/zh
Publication of CN103678336A publication Critical patent/CN103678336A/zh
Application granted granted Critical
Publication of CN103678336B publication Critical patent/CN103678336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种实体词识别方法,包括以下步骤:接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据;按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率;从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率;按照所述各实体词的概率大小对实体词进行排序。本申请还提供了一种实现前述方法的实体词识别装置。本申请的实体词识别方法及装置,能够提高实体词挖掘效率,且可以降低挖掘成本。

Description

实体词识别方法及装置
技术领域
本申请涉及计算机数据处理技术领域,特别是涉及一种实体词识别方法及装置。
背景技术
随着科学技术和互联网的快速发展,计算机和网络技术己经深入到人们工作、生活的方方面面。利用计算机来获取需要的信息也逐渐被人们采用,例如信息检索查询、计算机辅助翻译、自动问答等等。在计算机服务器的数据库中存储有一些实体词,例如产品名称、型号、公司名称、品牌名称等等。如果用户通过客户端输入的语句中包含该数据库中的实体词,则可以直接从服务器的数据库中查找对应的结果,例如对应的翻译结果、问答结果、检索结果,然后反馈给客户端。此种方式,对于已有实体词对应的结果,服务器可以快速反馈给客户端,从而可以提高***的响应速度。另外,此种方式可以保证反馈数据的准确性,保证数据传输的有效性,避免用户通过客户端不断的发送检索、翻译等请求,从而减少服务器传输给客户端的数据量。
常见的服务器数据库中的实体词多通过人工搜集的方式获取,随着技术的不断发展,特别是在某些特殊领域,会不断产生新的实体词,采用人工搜集的方式往往无法及时对数据库中的实体词进行更新,在用户通过客户端向服务器发送检索、翻译等请求时,服务器便无法实现快速准确的响应,从而降低了响应速度。当用户无法得到准确或其期望的结果时,其往往会不断的发送新的请求,这就增加了服务器负担,同时增加了服务器的数据传输量。另外,通过人工搜集的方式来挖掘新的实体词需要耗费大量的工作量,增加人力成本。
发明内容
本申请提供一种实体词识别方法及装置,能够解决实体词挖掘效率低且成本高的问题。
为了解决上述问题,本申请公开了一种实体词识别方法,包括以下步骤:
接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据;
按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率;
从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率;
按照所述各实体词的概率大小对实体词进行排序。
进一步地,所述预定单词类别包括无关词、左边词、右边词、中间词和独立词,所述从每一组分组数据所属的类别组合中选取其中包含的实体词根据如下方式确定:
若某个类别组合中包含有独立词,则确定该独立词为该类别组合中包含的实体词;和
若某个类别中包含有左边词和右边词,且所述左边词和右边词之间没有其他类别的词语或只有中间词,则确定从该左边词到右边词的组合为实体词。
进一步地,计算所述各实体词的识别概率包括:
选取包含有某个实体词的所有类别组合;
将所述所有类别组合的概率相加得到所述实体词的识别概率。
进一步地,所述方法通过训练好的模型实现数据处理。
进一步地,所述在所述各步骤之前还包括:
准备训练数据,对模型进行训练。
进一步地,所述准备训练数据包括采用自动标注的方式进行准备,包括以下步骤:
获取待识别数据,判断其中是否包含有与某个实体词词典中匹配的文本,若有,则记录所述文本;
统计包含有所述文本的实体词词典的数量,并根据所述数量与每个实体词词典的优先级确定所述文本的分数;
根据所述分数对待识别数据中的文本进行标注。
本申请还公开了一种实体词识别装置,包括:
数据接收模块,用于接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据;
类别组合概率计算模块,按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率;
实体词识别概率计算模块,用于从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率;
排序模块,用于按照所述各实体词的概率大小对实体词进行排序。
进一步地,所述预定单词类别包括无关词、左边词、右边词、中间词和独立词,所述实体词识别概率计算模块包括:
实体词识别单元,用于识别类别组合中的实体词,采用如下方式实现:若某个类别组合中包含有独立词,则确定该独立词为该类别组合中包含的实体词;和若某个类别中包含有左边词和右边词,且所述左边词和右边词之间没有其他类别的词语或只有中间词,则确定从该左边词到右边词的组合为实体词。
进一步地,实体词识别概率计算模块包括:
类别组合选取子模块,用于选取包含有某个实体词的所有类别组合;
计算子模块,用于将所述所有类别组合的概率相加得到所述实体词的识别概率。
进一步地,所述数据接收模块、类别组合及实体词确定模块、类别组合概率计算模块、识别概率计算模块和排序模块置于训练好的模型中,所述装置还包括:
模型训练模块,用于准备训练数据,对模型进行训练。
进一步地,所述模型训练模块包括数据准备子模块,所述数据准备子模块包括:匹配单元,用于获取待识别数据,判断其中是否包含有与某个实体词词典中匹配的文本,若有,则记录所述文本;统计单元,用于统计包含有所述文本的实体词词典的数量,并根据所述数量与每个实体词词典的优先级确定所述文本的分数;标注单元,用于根据所述分数对待识别数据中的文本进行标注。
与现有技术相比,本申请包括以下优点:
本申请的实体词识别方法及装置通过在服务器中对待识别语句进行切分后提取特征的方式来确定待识别数据中每一组分组数据可能所属的类别组合以及概率,并利用该概率来计算待识别数据中被识别为实体词的概率,通过此种方式,可以对实体词进行自动识别,无需采用人工处理的方式,从而可以实现实体词的快速识别以及及时更新,提高了实体词挖掘效率,并减少挖掘成本。依靠实体词的识别概率来选取最终的实体词,而非依靠类别组合的概率,从而去除了无关数据,可以保证实体词识别的准确性。
其次,对于实体词的挖掘可以通过训练好的模型来实现,可以保证挖掘的准确性,还可以提高处理效率。
在对模型训练过程中,除了采用人工采集训练数据的方式,优选采用自动标注的方式来准备训练数据,利用已有数据,实现对训练数据的自动标注,可以减少工作量,提高训练数据的准备效率,且可以降低人力成本。
当然,实施本申请的任一产品不一定需要同时达到以上所述的所有优点。
附图说明
图1是本申请的实体词识别方法实施例一的流程图;
图2是本申请的实体词识别方法实施例二的流程图;
图3是本申请的实体词识别装置实施例一的结构示意图;
图4是本申请的实体词识别装置实施例二的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请的实体词是指描述某个物体或者事务的固定名词,例如产品名称、型号、公司名称、品牌名称等等。
参照图1,示出本申请的一种实体词识别方法实施例一,包括以下步骤:
步骤101,接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据。
待识别数据可以是中文,也可以是英文或其他语言,可以是一个完整的句子,也可以是词组或短语。
第一预定规则为预先定义,可以根据实际情况确定。本申请中,根据人类从左到右的阅读习惯,对待识别数据以左数第一个单词顺序与其他单词组合的规则进行切分。即,每一组分组数据是左数第一个单词顺序与其它单词的组合。此处的单词为独立的一个字或单词,例如,可以为英文中的一个单词,也可以理解为中文中的一个字,也可以理解为其它语言中的一个独立个体。例如,以英文“high quality led advertisingscreen”为例,切分得到的各组分组数据分别为:“high”、“high quality”、“high quality led”、“high quality led advertising”以及“high quality ledadvertising screen”。又如,以中文“广告屏”为例,切分得到的各组分组数据分别为:“广”、“广告”以及“广告屏”。
步骤102,按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率。
服务器中预先定义了需要抽取的特征、各特征的抽取规则以及单词类别。当服务器接收到待识别数据并进行切分得到分组数据后,则会根据第二预定规则从每一组分组数据中抽取对应的特征,并基于各特征的权重计算得到每一组分组数据属于各类别组合的概率。
本申请中,预先定义的特征包括:当前词、前后两个词、前后词与当前词的组合、前两个词和后两个词、前一个词和后一个词的组合以及前两词所属类别。可以理解,预先定义的特征还可以包括每个词的词性。特征抽取规则为:当前词是指每一组分组数据中的最后一个词,其前后词则是在待识别数据中分别位于其前后的词。可以理解,此处的前后是根据读写习惯而言的前后。
分组数据的类别组合根据预定的单词类别确定,分组数据的类别组合为其中包含的各个单词的类别的组合。因为每个单词可能属于不同的单词类别,那么相应的每一组分组数据的类别组合便会不同。根据组合排列规则,假设单词类别的数量为A,每一组分组数据中所包含的单词数量为B,那么每个单词可能属于A个类别,相应地,每一组分组数据所属的类别组合数量则为:A的B次方。虽然每个单词可能会属于多个类别,但是其概率值会有所区别,例如,某个单词可能属于a和b两个类别,其属于a的概率为90%,属于b的概率为10%。因此,每一组分组数据所属的各类别组合的概率也会不相同。
例如,以前述的“high quality led advertising screen”的其中一个分组数据“high quality led”为例,抽取的特征包括:当前词“led”、前后两个词“quality”和“advertising”、前后词与当前词的组合“quality ledadvertising”、前两个词和后两个词“high quality”和“advertising screen”、前一个词和后一个词的组合“quality advertising”、以及前两个词所属类别。如前所述,每一个词可能属于多个类别,只是概率值不同,因此“前两个词所属类别”这一特征则可能出现多种可能。以当前词“led”为例,其“前两个词所属类别”这一特征可以由前述五个预定类别进行两两组合,最终得出25种组合结果。即在抽取“前两个词所属类别”这一特征时,可能会得到多个特征值,这需要根据该组分组数据中包含的单词数量来确定。
下面结合具体实例对每一分组数据所属类别组合以及概率进行说明。假设预先设定的单词类别包括无关词(II)、左边词(LL)、中间词(MM)、右边词(RR)和独立词(RL)五种。其中,无关词是指与实体词无关的词语,左边词、中间词和右边词是指当实体词由多个字或单词组成时,按照书写顺序在对应位置上的词。当实体词由两个字或单词组成时,则该位于该实体词左边的为左边词,右边的为右边词,当实体词由三个或以上的字或单词组成时,则位于该实体词左边的为左边词,右边的为右边词,左边词和右边词之间的则为中间词,中间词可以是一个、两个或多个。独立词是指当实体词由一个字或单词时,该字或单词即为独立词。例如,对于“high quality led advertising screen”这一例子,假设“high”和“quality”的类别为无关词(II),“led advertising screen”为实体词,其中,“led”的类别为左边词(LL)、“advertising”为中间词(MM)、“screen”为右边词(RR)。那么,前述五组分组数据中,每一组分组数据的类别组合分别为“II”、“II II”、“II II LL”、“II II LL MM”、“II II LLMM RR”。可以理解,“high quality led advertising screen”中的每个单词也可能属于其他类别,可以根据前述方式组合出每一组分组数据的其他可能类别。例如,对于第一组分组数据“high”,因为只有一个单词,所以单词所属的类别即为该分组数据的类别组合,可以是“II”、“LL”、“MM”、“RR”和“RL”,属于每一个类别的概率可以分别为90%、2%、2%、2%和4%。
前述计算每一组分组数据所属的类别组合以及概率可以通过预先设定的公式进行计算,也可以直接通过训练好的模型进行计算。
步骤103,从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率。
根据前述描述,从每一组分组数据所属的类别组合中选取其中包含的实体词采用如下方式:
若某个类别组合中包含有独立词,则确定该独立词为该类别组合中包含的实体词。若某个类别中包含有左边词和右边词,且该两个词语之间没有其他类别的词语或只有中间词,则确定从该左边词到右边词的组合为实体词。即,从左边词开始到右边词结束的一个整体作为实体词,二者之间若有中间词,则左边词、右边词以及二者之间的所有中间词的组合为实体词,二者之间若没有中间词,则左边词和右边词的组合为实体词。
计算所述各实体词的识别概率。具体包括:
选取包含有某个实体词的所有类别组合;
将所述所有类别组合的概率相加得到所述实体词的识别概率。
即,只要将某个单词或短语确定为实体词的类别组合都会被选取,用于统计计算该实体词的识别概率。例如,“led advertising screen”作为实体词的识别概率,可以采用如下方式计算:因为“led advertising screen”整体出现是在最后一组分组数据“high quality led advertising screen”中,当“led advertising screen”的类别组合为“LL MM RR”时,其可能出现在“high”和“quality”分别为五个类别之一时的类别组合中,即其可能出现在25个类别组合中。此时,获取最后一组分组数据的这25个类别组合的概率,并相加,得到“led advertising screen”被确定为“LL MM RR”的概率,即确定为实体词的识别概率。又如,“screen”为实体词的识别概率,可以采用如下方式计算:因为一个单词确定为实体词,其类别应该为“LR”,那么可以在所有分组数据的各类别组合中查找“screen”的类别为“LR”的类别组合,然后将这些类别组合的概率相加,得到“screen”被确定为实体词的识别概率。
可以理解,对于实体词的概率还可以通过如下公式来进行计算:
p n ( i , j ) = P ( t w n = i , t w n + 1 = j ) = Σ k = 1 m P ′ ( t w n + 1 = j | t w n = i , t w n - 1 = k , w n ) - - - ( 1 )
αβ ( { t w k . . . t w l } ) = α k ( t w k ) × β l ( t w l ) × Π i = k + 1 l p i ( t w i - 1 , t w i ) - - - ( 2 )
α n + 1 ( t j ) = Σ k = 1 m α i ( t k ) × P ( t j | t k , w i ) , 1 ≤ i ≤ n , 1 ≤ j ≤ m - - - ( 3 )
β i ( t j ) = Σ k = 1 m β i + 1 ( t k ) × P ( t k | t j , w i + 1 ) , 1 ≤ i ≤ n , 1 ≤ j ≤ m - - - ( 4 )
p ( { t w k , . . . , t w l } ) = αβ ( { t w k , . . . , t w l } ) α n + 1 ( ROOT ) β n + 1 ( ROOT ) = αβ ( { t w k , . . . , t w l } ) α n + 1 ( ROOT ) - - - ( 5 )
公式(1):wn是待识别数据中的第n个单词(按照书写习惯从左到右的顺序);
Figure BDA00002102045300092
是第n个词的单词类别,
Figure BDA00002102045300093
是第n+1个词的单词类别;i和j表示单词类别,二者可以相同,也可以不相同;pn(i,j)和表示当第n个词的单词类别为i时,第n+1个词的单词类别为j的概率;
Figure BDA00002102045300095
表示当第n个词的单词类别为i,第n-1个词的单词类别为k时,第n+1个词的单词类别为j的概率。
公式(2):
Figure BDA00002102045300096
表示一个实体词,包含了从待识别数据中的第k个词到第i个词;
Figure BDA00002102045300097
为前向变量,表示第k个词的类别为
Figure BDA00002102045300098
的概率(只考虑该词之前的词),包含了从第1个词到第k-1个词的所有可能类别组合;
Figure BDA00002102045300099
为后向变量,表示第l词的类别为
Figure BDA000021020453000910
的概率(只考虑该词之后的词),包含了从第l+1个词到待识别数据中最后一个词的所有可能类别组合;
Figure BDA000021020453000911
表示从第k个词的分类为逐个往后推一个词,直到推到第l个词分类为
Figure BDA000021020453000913
的概率。
Figure BDA000021020453000914
整个公式就是推断从第k个词到第l个词,每个词的类别为已知的
Figure BDA000021020453000915
Figure BDA000021020453000916
的概率,即
Figure BDA000021020453000917
表示从第k个词到第l个词,类别为的概率。
公式(3)和(4):P(tj|tk,wi)表示前一个词的类别为tk时,后一个词类别为tj的概率。
公式(5):
Figure BDA000021020453000919
即表示某个实体词的概率。ROOT节点为虚节点,βn+1(ROOT)=1和αn+1(ROOT)表示第n+1个词的后向变量和前向变量,总共有n个词,第n+1个词表示假设的一个虚节点。
步骤104,按照所述各实体词的概率大小对实体词进行排序。
待识别数据的各组分组数据中,每一组都可能会有单词或短语被确定为实体词,但是其概率会有所不同。通过按照概率大小排序得出最终结果,可以保证实体词识别的准确性。例如,根据前述方法“high”和“ledadvertising screen”都有可能被识别确定为实体词,但是,通过计算,“high”被识别为实体词的概率为1%,而“led advertising screen”被识别为实体词的概率为80%,那么就可以明确的确定出“led advertising screen”为实体词。
可以理解,对实体词排序后可以输出全部的实体词,也可以根据需要,输出排在前面一定数量的实体词,例如一个、五个或十个等等。根据本申请前述描述,当实体词的概率较小时,说明其属于实体词的可能性也较低,为了减少无效数据的输出,从而降低数据传输量,本申请优选采用输出排在前面一定数量的实体词。
前述步骤102中的特征,可以是如前所述的通用特征,即对于各种领域的信息在进行处理时,都可以提取前述的如当前词、前后两个词等等的通用特征。优选地,还可以根据不同领域分别设定专用特征。例如,对于电子商务领域,一般待识别数据中包含的信息通常为与商品关联,根据该领域的特点,形容词一般为修饰词,数字一般为型号,实体词之间一般通过for连接、摘要(keyword)和产品描述(description)中一般包含有实体词,等等。那么设定如下专用特征:当前词在摘要或产品描述中的出现次数、当前词与前后词的组合在摘要或产品描述中的出现次数、当前词或前后词的词性、当前词或前后词是否为for。通过这些特征可以降低待识别数据中的非实体词的权重、增加实体词的权重,从而增加本身为实体词被识别为实体词的概率,降低本身为形容词、介词等词语被识别为实体词的概率,从而保证最终实体词识别的准确性。
可以理解,当有新的特征加入时,需要适应性的修改各特征的权重以及最终概率的计算方式,具体的可以通过如模型训练或者大量数据实验得到各特征的新权重。
可以理解,前述处理过程,可以直接通过在计算机中设置对应的功能模块来实现,也可以通过预先训练好的模型来实现。训练好的模型中确定了处理所需要的特征、特征抽取规则、每个特征的权重以及概率计算方式。当将待识别数据输入到该模型后,模型则会自动对其进行切分、特征抽取以及概率计算,并输出结果。
参照图2,示出本申请的实体词识别方法实施例二,当前述处理过程采用预先训练好的模型来实现时,本申请还包括以下步骤:
步骤201,准备训练数据,对模型进行训练。
准备训练数据是指预先对待识别数据中的实体词进行标注,这些标注好的数据即为训练数据。
对于训练数据可以通过人工采集的方式进行准备,也可以通过自动标注的方式来进行准备,或者通过二者结合的方式来进行准备。
人工采集准备训练数据,即是通过人工对训练数据中的实体词进行标注。自动标注则是通过计算机对训练数据中的实体词进行标注。人工采集可以保证标注的准确性,但是需要耗费大量的人力和时间,成本较高,自动标注则可以降低标注成本。
本申请,通过如下方式实现自动标注:
获取待识别数据,判断其中是否包含有与某个实体词词典中匹配的文本,若有,则记录所述文本;
统计包含有所述文本的实体词词典的数量,并根据所述数量与每个实体词词典的优先级确定所述文本的分数。
根据所述分数对待识别数据中的文本进行标注。
计算机中可以设置多个实体词词典,每个实体词词典中存储有已经确认为实体词的词语。可以根据实体词所属的类别、领域或者应用场景等等将其分类存储在不同的实体词词典中。每个实体词词典根据其存储的实体词的类别、领域或者应用场景等等具有不同的优先级。其中,根据分数对待识别数据中的文本进行标注,可以是选取分数最高的文本进行标注,也可以是选取分数超过预定值的文本进行标注。
通过自动标注来实现训练数据的准备,可以降低标注成本,且可以提高标注效率。特别是,对于电子商务领域来说,大多数电子商务网站都存在结构化的产品数据,例如卖家在某个电子商务网站发布一个产品时,往往需要提交一个对产品描述的表单,这个表单往往是结构化的,包括产品名称、型号、公司名称等。通过提取这些字段的数据,就可以获得丰富的数据作为自动标注的实体词数据。为此,在电子商务领域采用自动标注或者人工与自动标注相结合的方法,对于提高训练数据的准备效率和减少数据准备的成本具有明显的效果。
可以理解,对于通过模型训练进行处理时,还可以将经过模型识别出实体词再次输入模型中,对模型进行训练,从而可以实现数据的有效利用,不断的优化模型,提高模型识别的准确性。
参照图3,示出本申请的实体词识别装置实施例一,包括数据接收模块10、类别组合概率计算模块30、实体词识别概率计算模块40和排序模块50。
数据接收模块10,用于接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据。
类别组合概率计算模块30,用于按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重计算每一组分组数据属于各类别组合的概率。
实体词识别概率计算模块40,用于基于所述每一分组数据各类别组合的概率计算所述各实体词的识别概率。优选地,识别概率计算模块40包括类别组合选取子模块和计算子模块。类别组合选取子模块,用于选取包含有某个实体词的所有类别组合。计算子模块,用于将所述所有类别组合的概率相加得到所述实体词的识别概率。
排序模块,用于按照所述各实体词的概率大小对实体词进行排序。
优选地,预定单词类别包括无关词、左边词、右边词、中间词和独立词。实体词识别概率计算模块40包括实体词识别单元,用于识别类别组合中的实体词,采用如下方式实现:若某个类别组合中包含有独立词,则确定该独立词为该类别组合中包含的实体词;和若某个类别中包含有左边词和右边词,且所述左边词和右边词之间没有其他类别的词语或只有中间词,则确定从该左边词到右边词的组合为实体词。
可以理解,前述的数据处理可以通过训练好的模型来实现,所述各模块即为模型中的一个部分,即各模块置于模型中。
参照图4,示出本申请的实体词识别装置实施例二,还包括模型训练模块60,用于准备训练数据,对模型进行训练。
该模型训练模块60包括数据准备子模块。数据准备子模块可以自动识别并标注的方式进行数据准备,也可以根据外部指令进行数据准备,或者二者同时进行。当采用自动识别并标注的方式进行数据准备时,该数据准备子模块包括匹配单元、统计单元和标注单元。其中,匹配单元,用于获取待识别数据,判断其中是否包含有与某个实体词词典中匹配的文本,若有,则记录所述文本。统计单元,用于统计包含有所述文本的实体词词典的数量,并根据所述数量与每个实体词词典的优先级确定所述文本的分数。标注单元,用于根据所述分数对待识别数据中的文本进行标注。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请是参照根据本申请实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上对本申请所提供的实体词识别方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种实体词识别方法,其特征在于,包括以下步骤:
接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据;
按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率;
从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率;
按照所述各实体词的概率大小对实体词进行排序。
2.如权利要求1所述的实体词识别方法,其特征在于,所述预定单词类别包括无关词、左边词、右边词、中间词和独立词,所述从每一组分组数据所属的类别组合中选取其中包含的实体词根据如下方式确定:
若某个类别组合中包含有独立词,则确定该独立词为该类别组合中包含的实体词;和
若某个类别中包含有左边词和右边词,且所述左边词和右边词之间没有其他类别的词语或只有中间词,则确定从该左边词到右边词的组合为实体词。
3.如权利要求1所述的实体词识别方法,其特征在于,计算所述各实体词的识别概率包括:
选取包含有某个实体词的所有类别组合;
将所述所有类别组合的概率相加得到所述实体词的识别概率。
4.如权利要求1至3任一项所述的实体词识别方法,其特征在于,所述方法通过训练好的模型实现数据处理。
5.如权利要求4所述的实体词识别方法,其特征在于,所述在所述各步骤之前还包括:
准备训练数据,对模型进行训练。
6.如权利要求5所述的实体词识别方法,其特征在于,所述准备训练数据包括采用自动标注的方式进行准备,包括以下步骤:
获取待识别数据,判断其中是否包含有与某个实体词词典中匹配的文本,若有,则记录所述文本;
统计包含有所述文本的实体词词典的数量,并根据所述数量与每个实体词词典的优先级确定所述文本的分数;
根据所述分数对待识别数据中的文本进行标注。
7.一种实体词识别装置,其特征在于,包括:
数据接收模块,用于接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据;
类别组合概率计算模块,按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率;
实体词识别概率计算模块,用于从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率;
排序模块,用于按照所述各实体词的概率大小对实体词进行排序。
8.如权利要求7所述的实体词识别装置,其特征在于,所述预定单词类别包括无关词、左边词、右边词、中间词和独立词,所述实体词识别概率计算模块包括:
实体词识别单元,用于识别类别组合中的实体词,采用如下方式实现:若某个类别组合中包含有独立词,则确定该独立词为该类别组合中包含的实体词;和若某个类别中包含有左边词和右边词,且所述左边词和右边词之间没有其他类别的词语或只有中间词,则确定从该左边词到右边词的组合为实体词。
9.如权利要求7所述的实体词识别装置,其特征在于,实体词识别概率计算模块包括:
类别组合选取子模块,用于选取包含有某个实体词的所有类别组合;
计算子模块,用于将所述所有类别组合的概率相加得到所述实体词的识别概率。
10.如权利要求7至9任一项所述的实体词识别装置,其特征在于,所述数据接收模块、类别组合及实体词确定模块、类别组合概率计算模块、识别概率计算模块和排序模块置于训练好的模型中,所述装置还包括:
模型训练模块,用于准备训练数据,对模型进行训练。
11.如权利要求10所述的实体词识别装置,其特征在于,所述模型训练模块包括数据准备子模块,所述数据准备子模块包括:
匹配单元,用于获取待识别数据,判断其中是否包含有与某个实体词词典中匹配的文本,若有,则记录所述文本;
统计单元,用于统计包含有所述文本的实体词词典的数量,并根据所述数量与每个实体词词典的优先级确定所述文本的分数;
标注单元,用于根据所述分数对待识别数据中的文本进行标注。
CN201210326664.8A 2012-09-05 2012-09-05 实体词识别方法及装置 Active CN103678336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210326664.8A CN103678336B (zh) 2012-09-05 2012-09-05 实体词识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210326664.8A CN103678336B (zh) 2012-09-05 2012-09-05 实体词识别方法及装置

Publications (2)

Publication Number Publication Date
CN103678336A true CN103678336A (zh) 2014-03-26
CN103678336B CN103678336B (zh) 2017-04-12

Family

ID=50315937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210326664.8A Active CN103678336B (zh) 2012-09-05 2012-09-05 实体词识别方法及装置

Country Status (1)

Country Link
CN (1) CN103678336B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045888A (zh) * 2015-07-28 2015-11-11 浪潮集团有限公司 一种用于hmm的分词训练语料标注方法
CN105389305A (zh) * 2015-10-30 2016-03-09 北京奇艺世纪科技有限公司 一种文本识别方法和装置
CN106294473A (zh) * 2015-06-03 2017-01-04 北京搜狗科技发展有限公司 一种实体词挖掘方法、信息推荐方法及装置
CN107748784A (zh) * 2017-10-26 2018-03-02 邢加和 一种通过自然语言实现结构化数据搜索的方法
CN108491375A (zh) * 2018-03-02 2018-09-04 复旦大学 基于CN-DBpedia的实体识别与链接***和方法
CN109740406A (zh) * 2018-08-16 2019-05-10 大连民族大学 无分割印刷体满文单词识别方法及识别网络
CN111079435A (zh) * 2019-12-09 2020-04-28 深圳追一科技有限公司 命名实体消歧方法、装置、设备及存储介质
CN112966511A (zh) * 2021-02-08 2021-06-15 广州探迹科技有限公司 一种实体词识别方法及装置
CN113420113A (zh) * 2021-06-21 2021-09-21 平安科技(深圳)有限公司 语义召回模型训练、召回问答方法、装置、设备及介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1159661C (zh) * 1999-04-08 2004-07-28 肯特里奇数字实验公司 用于中文的标记和命名实体识别的***
CN101075228B (zh) * 2006-05-15 2012-05-23 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
CN101815996A (zh) * 2007-06-01 2010-08-25 谷歌股份有限公司 检测名称实体和新词
CN101149739A (zh) * 2007-08-24 2008-03-26 中国科学院计算技术研究所 一种面向互联网的有意义串的挖掘方法和***
CN101118538B (zh) * 2007-09-17 2010-12-15 中国科学院计算技术研究所 中文命名实体中特征词项的识别方法和***
CN101901235B (zh) * 2009-05-27 2013-03-27 国际商业机器公司 文档处理方法和***
CN101576910A (zh) * 2009-05-31 2009-11-11 北京学之途网络科技有限公司 一种自动识别产品命名实体的方法及装置
CN101853284B (zh) * 2010-05-24 2012-02-01 哈尔滨工程大学 面向互联网的有意义串的提取方法及装置
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别***的构建方法及识别方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294473A (zh) * 2015-06-03 2017-01-04 北京搜狗科技发展有限公司 一种实体词挖掘方法、信息推荐方法及装置
CN105045888A (zh) * 2015-07-28 2015-11-11 浪潮集团有限公司 一种用于hmm的分词训练语料标注方法
CN105389305A (zh) * 2015-10-30 2016-03-09 北京奇艺世纪科技有限公司 一种文本识别方法和装置
CN107748784B (zh) * 2017-10-26 2021-05-25 江苏赛睿信息科技股份有限公司 一种通过自然语言实现结构化数据搜索的方法
CN107748784A (zh) * 2017-10-26 2018-03-02 邢加和 一种通过自然语言实现结构化数据搜索的方法
CN108491375A (zh) * 2018-03-02 2018-09-04 复旦大学 基于CN-DBpedia的实体识别与链接***和方法
CN108491375B (zh) * 2018-03-02 2022-04-12 复旦大学 基于CN-DBpedia的实体识别与链接***和方法
CN109740406A (zh) * 2018-08-16 2019-05-10 大连民族大学 无分割印刷体满文单词识别方法及识别网络
CN109740406B (zh) * 2018-08-16 2020-09-22 大连民族大学 无分割印刷体满文单词识别方法及识别网络
CN111079435A (zh) * 2019-12-09 2020-04-28 深圳追一科技有限公司 命名实体消歧方法、装置、设备及存储介质
CN111079435B (zh) * 2019-12-09 2021-04-06 深圳追一科技有限公司 命名实体消歧方法、装置、设备及存储介质
CN112966511A (zh) * 2021-02-08 2021-06-15 广州探迹科技有限公司 一种实体词识别方法及装置
CN112966511B (zh) * 2021-02-08 2024-03-15 广州探迹科技有限公司 一种实体词识别方法及装置
CN113420113A (zh) * 2021-06-21 2021-09-21 平安科技(深圳)有限公司 语义召回模型训练、召回问答方法、装置、设备及介质

Also Published As

Publication number Publication date
CN103678336B (zh) 2017-04-12

Similar Documents

Publication Publication Date Title
CN103678336A (zh) 实体词识别方法及装置
CN109446341A (zh) 知识图谱的构建方法及装置
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
CN105389349B (zh) 词典更新方法及装置
CN111222305A (zh) 一种信息结构化方法和装置
CN101582080B (zh) 一种基于图像和文本相关性挖掘的Web图像聚类方法
CN103914548B (zh) 信息搜索方法和装置
CN109344240B (zh) 一种数据处理方法、服务器及电子设备
CN107885874A (zh) 数据查询方法和装置、计算机设备及计算机可读存储介质
CN103679462A (zh) 一种评论数据处理方法和装置、一种搜索方法和***
US8874581B2 (en) Employing topic models for semantic class mining
CN109101489B (zh) 一种文本自动摘要方法、装置及一种电子设备
CN107562919B (zh) 一种基于信息检索的多索引集成软件构件检索方法及***
CN109766437A (zh) 一种文本聚类方法、文本聚类装置及终端设备
US9754083B2 (en) Automatic creation of clinical study reports
CN104484380A (zh) 个性化搜索方法及装置
CN107844558A (zh) 一种分类信息的确定方法以及相关装置
CN107357785A (zh) 主题特征词抽取方法及***、情感极性判断方法及***
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
CN113011689B (zh) 软件开发工作量的评估方法、装置及计算设备
CN110442873A (zh) 一种基于cbow模型的热点工单获取方法及装置
CN105183803A (zh) 一种社交网络平台中的个性化搜索方法及其搜索装置
CN108062351A (zh) 关于特定主题类别的文本摘要提取方法、可读存储介质
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
CN105159927B (zh) 目标文本主题词的选取方法、装置及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240301

Address after: 51 Belarusian Road, Singapore

Patentee after: Alibaba Singapore Holdings Ltd.

Country or region after: Singapore

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: ALIBABA GROUP HOLDING Ltd.

Country or region before: Cayman Islands

TR01 Transfer of patent right