CN103186509B - 通配符类模板泛化方法和装置、通用模板泛化方法和*** - Google Patents

通配符类模板泛化方法和装置、通用模板泛化方法和*** Download PDF

Info

Publication number
CN103186509B
CN103186509B CN201110452249.2A CN201110452249A CN103186509B CN 103186509 B CN103186509 B CN 103186509B CN 201110452249 A CN201110452249 A CN 201110452249A CN 103186509 B CN103186509 B CN 103186509B
Authority
CN
China
Prior art keywords
template
extensive
asterisk wildcard
text object
bonding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110452249.2A
Other languages
English (en)
Other versions
CN103186509A (zh
Inventor
黄际洲
钟华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110452249.2A priority Critical patent/CN103186509B/zh
Publication of CN103186509A publication Critical patent/CN103186509A/zh
Application granted granted Critical
Publication of CN103186509B publication Critical patent/CN103186509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种通配符类模板泛化方法和装置、通用模板泛化方法和***,其中通配符类模板泛化方法包括:对模板泛化所采用语料中的各文本对象分别执行:对当前文本对象进行分词处理;利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各粘接结果,该粘接结果中包含所述分词结果;分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率;基于概率最大的粘接结果确定通配符槽和固定词语,得到当前文本对象的通配符类模板。通过本发明能够提高泛化得到的模板的召回率和识别准确性。

Description

通配符类模板泛化方法和装置、通用模板泛化方法和***
【技术领域】
本发明涉及计算机技术领域,特别涉及一种通配符类模板泛化方法和装置、通用模板泛化方法和***。
【背景技术】
所谓模板泛化指的是从大量的文本对象中抽象出相似的模板,并用该模板反应一类文本对象的表述方式的过程。模板泛化在搜索需求识别、网页类型识别以及主题识别等技术中都是十分重要的组成部分,例如在搜索需求识别中,利用大量具有某类需求的搜索项(query)进行模板泛化,从而利用泛化得到的模板进行该类需求的query识别。
其中模板可以包含通配符槽、词典槽、函数槽以及固定词语中的至少一种构成,例如模板“[D:明星][D:电视剧][W:0-6]剧照[F:数字]”,其中,[D:明星]和[D:电视剧]属于词典槽,分别表示可匹配明星名和电视剧名,[W:0-6]为通配符槽,表示可匹配长度为0至6的任意词语,“剧照”是固定词语,[F:数字]为函数槽,表示可匹配识别为数字的词语。
基于上述模板的构成,模板泛化的方式可以包括:词典类泛化、函数类泛化以及通配符类泛化。其中通配符类泛化时将query的修饰限定词泛化为通配符槽,保留主干词,得到带有通配符槽的模板。通配符类泛化过程中首先分别针对各文本对象进行分词处理,然后基于分词处理后得到的各词项的概率确定通配符槽和固定词语。然而在现有的通配符类泛化过程中存在如下问题:在分词处理过程可能将某些应该是一个词项的切分为多个词项,例如对于“百度公司招聘”这一文本对象,如果分词处理过程所使用的词典中不存在“百度”和“百度公司”这两个词语,则可能被切分为“百/度/公司/招聘”,其中“/”用于标识切分位置,在本发明的后续实施例中均采用这种标识方式。基于该分词结果的通配符类泛化显然不能得到准确的模板,例如可能得到[W:0-2]度公司招聘,这就大大降低了模板的召回率和识别准确性。
【发明内容】
本发明提供了一种通配符类模板泛化方法和装置、通用模板泛化方法和***,以便于提高泛化得到的模板的召回率和识别准确性。
具体技术方案如下:
一种通配符类模板泛化方法,对模板泛化所采用语料中的各文本对象分别执行以下步骤:
S11、对当前文本对象进行分词处理;
S12、利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各粘接结果,该粘接结果中包含所述分词结果;
S13、分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率;
S14、基于概率最大的粘接结果确定通配符槽和固定词语,得到当前文本对象的通配符类模板。
根据本发明一优选实施例,在所述步骤S12中参与粘接的相邻词项为:字与字之间,和/或,字与词之间。
根据本发明一优选实施例,在所述步骤S13中,如果相邻词项分别为A和B,则A和B的粘接概率P(A+B)和拆分概率P′(A-B)分别为:
P(A+B)=P(A|B)×P′(B|A)
P(A-B)=(1-P(A|B))×(1-P′(B|A))
其中,P(A|B)为A出现在B前面的次数与B出现且B之前有词项的次数的比值,P′(B|A)为A出现在B前面的次数与A出现且A之后有词项的次数的比值。
根据本发明一优选实施例,所述步骤S14具体为:
将所述概率最大的粘接结果中,词频tf-逆向文档频率idf值小于预设阈值的词项,或者tf-idf值小于预设阈值且排在后N个的词项替换为通配符槽,其余词项作为固定词语,所述通配符槽指示的通配符长度为被替换词项的长度,所述N为预设的正整数。
根据本发明一优选实施例,该方法还包括:对所述语料中的各文本对象的通配符类模板进行整合,具体为:将仅通配符槽指示通配符长度不同的通配符类模板整合为一个模板,整合后的模板中通配符槽指示的通配符长度为被整合通配符类模板中指示的最大通配符长度。
一种通用模板泛化方法,该方法包括上述的通配符类模板泛化方法,以及,
S2、对模板泛化所采用语料中的各文本对象进行词典类模板泛化,得到各文本对象的词典类模板;和/或,对模板泛化所采用语料中的各文本对象进行函数类模板泛化,得到各文本对象的函数类模板;
S4、对同一文本对象得到的各模板进行合并处理。
根据本发明一优选实施例,在所述步骤S4中采用以下策略中的至少一种进行所述合并处理:
策略一、如果同一个文本对象泛化出的模板中,同一个词项被泛化成多种类型的槽,则按照预设的槽类型优先级顺序保留其中一种类型的槽;
策略二、如果同一个文本对象泛化出的模板中,词典槽包含通配符槽或函数槽,则保留词典槽;
策略三、如果同一个文本对象泛化出的模板中各槽均没有相互覆盖,则在合并结果中保留所有槽。
根据本发明一优选实施例,在所述步骤S4之后还包括:
S5、合并重复的模板;
S6、统计各模板所来源的文本对象数量,选择所来源的文本对象数量满足预设要求的模板作为最终的泛化结果;
其中所述预设要求为:所来源的文本对象数量排在前M个,M为预设的正整数,或者,所来源的文本对象数量大于预设的数量阈值。
一种通配符类模板泛化装置,该装置包括:
分词处理单元,用于分别获取模板泛化所采用语料中的各文本对象,对获取的当前文本对象进行分词处理;
粘接处理单元,用于利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各粘接结果,该粘接结果中包含所述分词结果;
概率计算单元,用于分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率;
模板产生单元,用于基于概率最大的粘接结果确定通配符槽和固定词语,得到所述当前文本对象的通配符类模板。
根据本发明一优选实施例,所述粘接处理单元在确定粘接结果时,参与粘接的相邻词项为:字与字之间,和/或,字与词之间。
根据本发明一优选实施例,如果相邻词项分别为A和B,则所述概率计算单元采用以下公式计算A和B的粘接概率P(A+B)和拆分概率P′(A-B):
P(A+B)=P(A|B)×P′(B|A)
P(A-B)=(1-P(A|B))×(1-P′(B|A))
其中,P(A|B)为A出现在B前面的次数与B出现且B之前有词项的次数的比值,P′(B|A)为A出现在B前面的次数与A出现且A之后有词项的次数的比值。
根据本发明一优选实施例,所述模板产生单元具体将所述概率最大的粘接结果中,词频tf-逆向文档频率idf值小于预设阈值的词项,或者tf-idf值小于预设阈值且排在后N个的词项替换为通配符槽,其余词项作为固定词语,所述通配符槽指示的通配符长度为被替换词项的长度,所述N为预设的正整数。
根据本发明一优选实施例,该装置还包括:
模板整合单元,用于对所述语料中的各文本对象的通配符类模板进行整合,具体为:将仅通配符槽指示通配符长度不同的通配符类模板整合为一个模板,整合后的模板中通配符槽指示的通配符长度为被整合通配符类模板中指示的最大通配符长度。
一种通用模板泛化***,该***包括:上述的通配符类模板泛化装置,以及,
词典类模板泛化装置,用于对模板泛化所采用语料中的各文本对象进行词典类模板泛化,得到各文本对象的词典类模板;
函数类模板泛化装置,用于对模板泛化所采用语料中的各文本对象进行函数类模板泛化,得到各文本对象的函数类模板;
模板合并单元,用于对同一文本对象得到的各模板进行合并处理。
根据本发明一优选实施例,所述模板合并单元采用以下策略中的至少一种进行所述合并处理:
策略一、如果同一个文本对象泛化出的模板中,同一个词项被泛化成多种类型的槽,则按照预设的槽类型优先级顺序保留其中一种类型的槽;
策略二、如果同一个文本对象泛化出的模板中,词典槽包含通配符槽或函数槽,则保留词典槽;
策略三、如果同一个文本对象泛化出的模板中各槽均没有相互覆盖,则在合并结果中保留所有槽。
根据本发明一优选实施例,该***还包括:
模板去重单元,用于在所述模板合并单元进行合并处理后的各模板中,合并重复的模板;
结果产生单元,用于统计所述模板去重单元处理后的各模板所来源的文本对象数量,选择所来源的文本对象数量满足预设要求的模板作为最终的泛化结果;
其中所述预设要求为:所来源的文本对象数量排在前M个,M为预设的正整数,或者,所来源的文本对象数量大于预设的数量阈值。
由以上技术方案可以看出,本发明在传统分词的基础上,通过将相邻词项进行粘接的所有可能的组合,确定各粘接结果,并将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率,基于概率最大的粘接结果来得到通配符类模板。由于本发明中粘接结果的概率体现了这种词项的构成所具有的覆盖率,因此基于最高概率的粘接结果所得到的通配符类模板具有较高的召回率和识别准确性。另外基于此通配符类模板泛化方法结合词典类模板泛化方法和函数类模板泛化方法构成的通用模板泛化方法,最终泛化得到的模板同样具有较高的召回率和识别准确性。
【附图说明】
图1为本发明实施例一提供的通配符类模板泛化的方法流程图;
图2为本发明实施例二提供的通用模板泛化方法的流程图;
图3为本发明实施例三提供的通配符类模板泛化装置的结构图;
图4为本发明实施例四提供的通用模板泛化***的结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明的核心思想是在分词处理之后,增加一个对分词处理得到各词项的“粘接”处理,将可能构成一个词项的多个词项粘接起来,再基于粘接后的结果确定通配符槽和固定词语,从而弥补对于分词所使用词典之外的词语会被切分开的缺陷。下面结合实施例一对该方法进行详细描述。
实施例一、
图1为本发明实施例一提供的通配符类模板泛化的方法流程图,如图1所示,对模板泛化所采用语料中的各文本对象分别执行以下步骤:
步骤101:对文本对象进行分词处理。
通常使用已有的词典对文本对象进行匹配,对于匹配到该词典的作为一个词项,没有匹配到词典的分别保留各字作为一个词项,此处的词项包括字、词、短语等,是个广义的概念。分词处理为现有技术,在此不再赘述。
仍以“百度公司招聘”为例,假设分词处理所采用的词典中存在“公司”和“招聘”,则得到的分词结果为“百/度/公司/招聘”。
步骤102:利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各粘接结果,该粘接结果中也包含分词结果。
由于通常词与词之间进行粘接构成一个词项的可能性较小,因此本作为一种优选的实施方式,参与粘接的相邻词项通常为:字与字之间、字与词之间。例如,分词结果“百/度/公司/招聘”得到的各粘接结果为:“百/度/公司/招聘”、“百度/公司/招聘”、“百/度公司/招聘”以及“百度公司/招聘”,由于“公司”和“招聘”都是词语,在例子中不进行粘接。
步骤103:分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率进行相乘得到粘接结果的概率。
如果相邻词项分别为A和B,则A和B的粘接概率P(A+B)和拆分概率P′(A-B)分别为:
P(A+B)=P(A|B)×P′(B|A)
P(A-B)=(1-P(A|B))×(1-P′(B|A))
其中,P(A|B)为词项B出现且B之前有词项时B之前的词项是A的概率,P′(B|A)为词项A出现且A之后有词项时A之后的词项是B的概率。
具体地,P(A|B)为A出现在B前面的次数与B出现且B之前有词项的次数的比值,P′(B|A)为A出现在B前面的次数与A出现且A之后有词项的次数的比值。
接续上例,粘接结果“百/度/公司/招聘”的概率为:(1-P(百|度))×(1-P(度|百))×(1-P(度|公司))×(1-P(公司|度))=0.00064。
粘接结果“百度/公司/招聘”的概率为:P(百|度)×P(度|百)×(1-P(度|公司))×(1-P(公司|度))=0.0012。
粘接结果“百/度公司/招聘”的概率为:(1-P(百|度))×(1-P(度|百))×P(度|公司)×P(公司|度)=0.0008。
粘接结果“百度公司/招聘”的概率为:P(百|度)×P(度|百)×P(度|公司)×P(公司|度)=0.0075。
可见“百度公司/招聘”的概率最大,选出用于执行步骤104。
步骤104:基于概率最大的粘接结果,确定通配符槽和固定词语,从而得到该文本对象的通配符类模板。
通配符槽和固定词语的确定通常基于粘接结果中各词项的词频(tf)-逆向文档频率(idf),其中tf基于模板泛化所采用语料进行统计,idf基于大规模语料进行统计。然后将tf-idf值小于预设阈值的词项替换为通配符槽,指示的通配符长度可以为被替换词项的长度,其余词项作为固定词语。
上例中挑选出的概率最大的粘接结果“百度公司/招聘”,假设词项“百度公司”的tf-idf小于预设阈值,则将“百度公司”替换为通配符槽,得到的通配符类模板为:[W:0-8]招聘。
另外,可以进一步对通配符槽的数量进行限制,一个模板中最多只能出现N个通配符槽,N为预设的正整数,例如N取2,或者N的值与对象文本中分词处理后得到的词项成正比。如果tf-idf值小于预设阈值的词项数量超过N,则仅取tf-idf值排在后N个的词项替换为通配符槽。
更进一步地,由于通过上述方式对模板泛化所采用语料中的每一个文本对象都进行泛化处理后,得到的模板可能会存在重叠,这种重叠通常体现在通配符槽指示的通配符长度,因此可以对得到的各通配符类模板进行整合,将仅通配符槽指示通配符长度不同的模板整合为一个模板,整合后的模板中通配符槽指示的通配符长度为上述不同模板中指示的最大通配符长度。
例如,得到的模板中包含有这样一些模板:林志玲[W:0-4]图片、林志玲[W:0-8]图片以及林志玲[W:0-12]图片,则将其整合为:林志玲[W:0-12]图片。
除了实施例一所述的通配符类模板泛化的方法之外,还可以对模板泛化所采用的语料进行其他方法的泛化,例如词典类泛化、函数类泛化等,当得到所有模板泛化结果后,由于模板泛化结果中不可避免的会存在相互覆盖的情况,例如,由query“北京西三旗招聘带车司机”进行词典类泛化得到的模板为:[D:地名]招聘带车[D:职位名],进行通配符类泛化得到的模板为:北京[W:0-6]招聘[W:0-4]司机,为了提高泛化效果,可以进一步对多种泛化方法得到的模板进行合并处理。下面通过实施例二对这一过程进行详细描述。
实施例二、
图2为本发明实施例二提供的通用模板泛化方法的流程图,如图2所示,该方法包括以下步骤:
步骤201:采用实施例一所示流程对模板泛化所采用语料进行通配符类模板泛化。
假设对本实施例中采用的语料为具有图片类需求的各query,则对各query进行分词处理的结果为表1中所示,则经过本步骤对一些query进行泛化后,得到的通配符类模板如表1所示。
表1
query分词结果 通配符类模板
2010/年/12/月/日历/桌面/壁纸 2010年[W:0-2]月日历桌面壁纸
1920/x/1080/高清/壁纸 [W:0-4]x1080高清壁纸
240//320/手机/壁纸 240[W:0-3]手机壁纸
2010/雅鹿/羽绒服/图片 2010[W:0-4]羽绒服图片
iphone5/代/图片 iphone5[W:0-2]图片
微生物/实验室/设计图 微生物[W:0-6]设计图
天上人间/***/图片 [W:0-8]***图片
家庭/厨房/装修/效果图 [W:0-4]厨房装修效果图
突然的自我/吉他谱 [W:0-10]他谱
天天向上/qq/表情 [W:0-8]qq表情
天使/的/翅膀/吉他谱 天使的[W:0-4]吉他谱
简单/韩式/发型/扎法 [W:0-4]韩式发型扎法
qq/空间/伤感/图片 qq空间[W:0-4]图片
146/期/***/图 [W:0-3]期***图
天通苑/北六区/户型图 天通苑[W:0-6]户型图
步骤202:对上述语料进行词典类模板泛化。
词典类泛化是将文本对象中属于同一个类型的词项替换为该类型描述符的过程,所采用的词典通常为类型词典,例如将包含所有明星名的词项纳入明星词典。
该过程通常是对文本对象进行分词后,采用基于词正向最大匹配的方法与各类型的词典进行匹配,将匹配到的一个或多个词项替换为对应词典的类型描述符。其中一个或多个词项的含义在于,文本对象中可以连续多个词项构成一个词典条目,在匹配过程中通常尽量保证最长串的泛化。
具体在执行时,可以预先为各类型的词典配置优先级,按照优先级从高到低的顺序进行匹配,从而当不同词典间存在公共的部分时,可以依据配置使用高优先级的类型进行泛化。
对于各类型词典的形成可以采用现有的方式,例如采用穷举的方式、命名实体识别的方式、基于n-gram统计的方式等等,在此不再赘述。
对表1中相同的query执行本步骤的词典类泛化后,得到的词典类模板如表2中所示。
表2
query分词结果 词典类模板
2010/年/12/月/日历/桌面/壁纸 2010年12月日历桌面壁纸
1920/x/1080/高清/壁纸 1920x1080高清壁纸
240//320/手机/壁纸 240/320手机壁纸
2010/雅鹿/羽绒服/图片 2010[D:品牌名]羽绒服图片
iphone5/代/图片 [D:电子产品名]图片
微生物/实验室/设计图 微生物实验室设计图
天上人间/***/图片 天上人间***图片
家庭/厨房/装修/效果图 家庭厨房装修效果图
突然的自我/吉他谱 [D:歌曲名]吉他谱
天天向上/qq/表情 天天向上qq表情
天使/的/翅膀/吉他谱 [D:歌曲名]吉他谱
简单/韩式/发型/扎法 简单韩式发型扎法
qq/空间/伤感/图片 qq空间伤感图片
146/期/***/图 146期***图
天通苑/北/六/区/户型图 [D:小区名]北六区户型图
步骤203:对上述语料进行函数类模板泛化。
该过程通常是首先对文本对象进行分词处理,然后将分词结果通过函数进行识别,将函数识别出的一个或多个词项替换为对应的函数槽。通常的函数包括:数字识别函数、日期识别函数、机构名识别函数等。例如:将文本对象“百度在线网络技术北京有限公司高薪招聘”进行分词后得到“百/度/在线/网络/技术/北京/有限公司/高薪/招聘”,通过机构名函数进行识别后,识别出“百度在线网络技术北京有限公司”为机构名,因此得到的函数类模板为:[F:机构名]高薪招聘。
对表1中相同的query执行本步骤的函数类泛化后,得到的函数类模板如表3中所示。
表3
query分词结果 函数类模板
2010/年/12/月/日历/桌面/壁纸 [F:日期]日历桌面壁纸
1920/x/1080/高清/壁纸 [F:分辨率]高清壁纸
240//320/手机/壁纸 [F:分辨率]手机壁纸
2010/雅鹿/羽绒服/图片 [F:日期][D:品牌名]羽绒服图片
iphone5/代/图片 iphone5代图片
微生物/实验室/设计图 微生物实验室设计图
天上人间/***/图片 [F:机构名]***图片
家庭/厨房/装修/效果图 家庭厨房装修效果图
突然的自我/吉他谱 突然的自我吉他谱
天天向上/qq/表情 天天向上qq表情
天使/的/翅膀/吉他谱 天使的翅膀吉他谱
简单/韩式/发型/扎法 简单韩式发型扎法
qq/空间/伤感/图片 qq空间伤感图片
146/期/***/图 [F:数字]期***图
天通苑/北/六/区/户型图 天通苑北六区户型图
上述步骤201、202和203没有固定的先后顺序,可以同时执行,也可以以任意的顺序先后执行,只要保证对同一语料进行泛化即可,例如将属于同一类型的各query作为语料进行泛化。
步骤204:对同一文本对象得到的通配符类模板、词典类模板和函数类模板进行合并处理。
由于三种模板泛化方法对于文本对象的划分粒度不一定统一,这就可能会造成得到的模板相互覆盖的问题,另外,文本对象中的同一个词项可能在不同的泛化方式中被泛化成通配符槽、词典槽以及函数槽,这也会造成模板覆盖的问题。
为了解决上述问题,在本步骤中进行合并时可以采用以下合并策略中的至少一种:
策略一、如果同一个文本对象泛化出的模板中,同一个词项被泛化成词典槽、通配符槽和函数槽中的至少两个,则按照预设的优先级顺序保留其中一个。例如,按照词典槽、函数槽、通配符槽的优先级顺序。文本对象“刘德华高清大图”被泛化成了如下两个模板:[D:明星名]高清大图,[W:0-6]高清大图,则进行合并后为:[D:明星名]高清大图。
策略二、如果同一个文本对象泛化出的模板中,词典槽包含通配符槽或函数槽,则保留词典槽。例如,文本对象“天使的翅膀吉他谱”被泛化成了如下两个模板:[D:歌曲名]吉他谱,天使的[W:0-4]吉他谱,则进行合并后为:[D:歌曲名]吉他谱。
策略三、如果同一个文本对象泛化出的模板中各槽均没有相互覆盖,则在合并结果中保留所有槽。例如:文本对象“刘德华上海演唱会”,泛化出的模板为:[D:明星名]上海演唱会,刘德华[W:0-4]演唱会,则合并处理后的结果为:[D:明星名][W:0-4]演唱会。
当然还可以采用其他策略,在此不再一一赘述。
对表1、表2和表3中所示的通配符类模板、词典类模板和函数类模板进行合并处理后得到的模板可以如表4所示。
表4
合并处理后得到的模板
[F:日期]日历桌面壁纸
[F:分辨率]高清壁纸
[F:分辨率]手机壁纸
[F:日期][D:品牌名]羽绒服/图片
[D:电子产品名]图片
微生物[W:0-6]设计图
[F:机构名]***图片
[W:0-4]厨房装修效果图
[D:歌曲名]吉他谱
[W:0-8]qq表情
[D:歌曲名]吉他谱
[W:0-4]韩式发型扎法
qq空间[W:0-4]图片
[F:数字]期***图
[D:小区名][W:0-6]户型图
在进行合并处理后得到的模板,其中可能会存在一些质量较低的模板,因此可以进一步执行以下步骤挑选出质量较高的模板作为最终泛化出的模板。
步骤205:合并重复的模板。
由表4中可以看出,“[D:歌曲名]吉他谱”存在重复,则合并为一个模板。
步骤206:统计各模板所来源的文本对象数量,选择所来源的文本对象数量满足预设要求的模板作为最终的泛化结果。
其中预设要求为:所来源的文本对象数量排在前M个,M为预设的正整数;或者,所来源的文本对象数量大于预设的数量阈值。
一般来说,模板所来源的文本对象数量越多,说明该模板能够匹配的文本对象越多,召回率越大,认为其质量越高。
以上是对本发明所提供的方法进行的详细描述,下面通过实施例三和四分别对本发明所提供的装置和***进行详细描述。
实施例三、
图3为本发明实施例三提供的通配符类模板泛化装置的结构图,如图3所示,该装置包括:分词处理单元301、粘接处理单元302、概率计算单元303和模板产生单元304。
分词处理单元301分别获取模板泛化所采用语料中的各文本对象,对获取的当前文本对象进行分词处理。
通常使用已有的词典对文本对象进行匹配,对于匹配到该词典的作为一个词项,没有匹配到词典的分别保留各字作为一个词项,此处的词项包括字、词、短语等,是个广义的概念。分词处理为现有技术,在此不再赘述。
粘接处理单元302利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各粘接结果,该粘接结果中包含分词结果。
由于通常词与词之间进行粘接构成一个词项的可能性较小,因此本作为一种优选的实施方式,参与粘接的相邻词项通常为:字与字之间、字与词之间。
概率计算单元303分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率。
如果相邻词项分别为A和B,则概率计算单元303可以采用以下公式计算A和B的粘接概率P(A+B)和拆分概率P′(A-B):
P(A+B)=P(A|B)×P′(B|A)
P(A-B)=(1-P(A|B))×(1-P′(B|A))
其中,P(A|B)为A出现在B前面的次数与B出现且B之前有词项的次数的比值,P′(B|A)为A出现在B前面的次数与A出现且A之后有词项的次数的比值。
模板产生单元304基于概率最大的粘接结果确定通配符槽和固定词语,得到当前文本对象的通配符类模板。具体地,将概率最大的粘接结果中,tf-idf值小于预设阈值的词项,或者tf-idf值小于预设阈值且排在后N个的词项替换为通配符槽,其余词项作为固定词语,通配符槽指示的通配符长度为被替换词项的长度,N为预设的正整数。
更进一步地,由于通过上述装置对模板泛化所采用语料中的每一个文本对象都进行通配符类泛化处理后,得到的模板可能会存在重叠,这种重叠通常体现在通配符槽指示的通配符长度,鉴于此,该装置还可以包括:
模板整合单元305,用于对语料中的各文本对象的通配符类模板进行整合,具体为:将仅通配符槽指示通配符长度不同的通配符类模板整合为一个模板,整合后的模板中通配符槽指示的通配符长度为被整合通配符类模板中指示的最大通配符长度。
实施例四、
图4为本发明实施例四提供的通用模板泛化***的结构图,如图4所示,该***包括:实施例三中所述的通配符类模板泛化装置410、词典类模板泛化装置420、函数类模板泛化装置430以及模板合并单元440。
词典类模板泛化装置420对模板泛化所采用语料中的各文本对象进行词典类模板泛化,得到各文本对象的词典类模板。
词典类模板泛化过程通常是对文本对象进行分词后,采用基于词正向最大匹配的方法与各类型的词典进行匹配,将匹配到的一个或多个词项替换为对应词典的类型描述符。其中一个或多个词项的含义在于,文本对象中可以连续多个词项构成一个词典条目,在匹配过程中通常尽量保证最长串的泛化。
具体在执行时,可以预先为各类型的词典配置优先级,按照优先级从高到低的顺序进行匹配,从而当不同词典间存在公共的部分时,可以依据配置使用高优先级的类型进行泛化。
对于各类型词典的形成可以采用现有的方式,例如采用穷举的方式、命名实体识别的方式、基于n-gram统计的方式等等,在此不再赘述。
函数类模板泛化装置430对模板泛化所采用语料中的各文本对象进行函数类模板泛化,得到各文本对象的函数类模板。
函数类模板泛化过程通常是首先对文本对象进行分词处理,然后将分词结果通过函数进行识别,将函数识别出的一个或多个词项替换为对应的函数槽。通常的函数包括:数字识别函数、日期识别函数、机构名识别函数等。
模板合并单元440对同一文本对象得到的各模板进行合并处理。具体可以采用以下策略中的至少一种进行合并处理:
策略一、如果同一个文本对象泛化出的模板中,同一个词项被泛化成多种类型的槽,则按照预设的槽类型优先级顺序保留其中一种类型的槽。
策略二、如果同一个文本对象泛化出的模板中,词典槽包含通配符槽或函数槽,则保留词典槽。
策略三、如果同一个文本对象泛化出的模板中各槽均没有相互覆盖,则在合并结果中保留所有槽。
更进一步地,该***还可以包括:模板去重单元450和结果产生单元460。
模板去重单元450在模板合并单元440进行合并处理后的各模板中,合并重复的模板。
结果产生单元460统计模板去重单元450处理后的各模板所来源的文本对象数量,选择所来源的文本对象数量满足预设要求的模板作为最终的泛化结果;其中预设要求为:所来源的文本对象数量排在前M个,M为预设的正整数,或者,所来源的文本对象数量大于预设的数量阈值。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种通配符类模板泛化方法,其特征在于,对模板泛化所采用语料中的各文本对象分别执行以下步骤:
S11、对当前文本对象进行分词处理;
S12、利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各粘接结果,该粘接结果中包含所述分词结果;
S13、分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率;
S14、基于概率最大的粘接结果确定通配符槽和固定词语,得到当前文本对象的通配符类模板。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S12中参与粘接的相邻词项为:字与字之间,和/或,字与词之间。
3.根据权利要求1所述的方法,其特征在于,在所述步骤S13中,如果相邻词项分别为A和B,则A和B的粘接概率P(A+B)和拆分概率P'(A-B)分别为:
P(A+B)=P(A|B)×P'(B|A)
P(A-B)=(1-P(A|B))×(1-P'(B|A))
其中,P(A|B)为A出现在B前面的次数与B出现且B之前有词项的次数的比值,P'(B|A)为A出现在B前面的次数与A出现且A之后有词项的次数的比值。
4.根据权利要求1所述的方法,其特征在于,所述步骤S14具体为:
将所述概率最大的粘接结果中,tf-idf值小于预设阈值的词项,或者tf-idf值小于预设阈值且排在后N个的词项替换为通配符槽,其余词项作为固定词语,所述通配符槽指示的通配符长度为被替换词项的长度,所述N为预设的正整数。
5.根据权利要求1所述的方法,其特征在于,该方法还包括:对所述语料中的各文本对象的通配符类模板进行整合,具体为:将仅通配符槽指示通配符长度不同的通配符类模板整合为一个模板,整合后的模板中通配符槽指示的通配符长度为被整合通配符类模板中指示的最大通配符长度。
6.一种通用模板泛化方法,其特征在于,该方法包括如权利要求1至4任一权项所述的通配符类模板泛化方法,以及,
S2、对模板泛化所采用语料中的各文本对象进行词典类模板泛化,得到各文本对象的词典类模板;和/或,对模板泛化所采用语料中的各文本对象进行函数类模板泛化,得到各文本对象的函数类模板;
S4、对同一文本对象得到的各模板进行合并处理;
其中所述词典类模板泛化包括将文本对象中属于同一个类型的词项替换为该类型描述符;所述函数类模板泛化包括将文本对象进行函数识别后,将识别出的词项替换为对应的函数槽。
7.根据权利要求6所述的通用模板泛化方法,其特征在于,在所述步骤S4中采用以下策略中的至少一种进行所述合并处理:
策略一、如果同一个文本对象泛化出的模板中,同一个词项被泛化成多种类型的槽,则按照预设的槽类型优先级顺序保留其中一种类型的槽;
策略二、如果同一个文本对象泛化出的模板中,词典槽覆盖通配符槽或函数槽,则保留词典槽;
策略三、如果同一个文本对象泛化出的模板中各槽均没有相互覆盖,则在合并结果中保留所有槽。
8.根据权利要求6所述的通用模板泛化方法,其特征在于,在所述步骤S4之后还包括:
S5、合并重复的模板;
S6、统计各模板所来源的文本对象数量,选择所来源的文本对象数量满足预设要求的模板作为最终的泛化结果;
其中所述预设要求为:所来源的文本对象数量排在前M个,M为预设的正整数,或者,所来源的文本对象数量大于预设的数量阈值。
9.一种通配符类模板泛化装置,其特征在于,该装置包括:
分词处理单元,用于分别获取模板泛化所采用语料中的各文本对象,对获取的当前文本对象进行分词处理;
粘接处理单元,用于利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各粘接结果,该粘接结果中包含所述分词结果;
概率计算单元,用于分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率;
模板产生单元,用于基于概率最大的粘接结果确定通配符槽和固定词语,得到所述当前文本对象的通配符类模板。
10.根据权利要求9所述的装置,其特征在于,所述粘接处理单元在确定粘接结果时,参与粘接的相邻词项为:字与字之间,和/或,字与词之间。
11.根据权利要求9所述的装置,其特征在于,如果相邻词项分别为A和B,则所述概率计算单元采用以下公式计算A和B的粘接概率P(A+B)和拆分概率P'(A-B):
P(A+B)=P(A|B)×P'(B|A)
P(A-B)=(1-P(A|B))×(1-P'(B|A))
其中,P(A|B)为A出现在B前面的次数与B出现且B之前有词项的次数的比值,P'(B|A)为A出现在B前面的次数与A出现且A之后有词项的次数的比值。
12.根据权利要求9所述的装置,其特征在于,所述模板产生单元具体将所述概率最大的粘接结果中,tf-idf值小于预设阈值的词项,或者tf-idf值小于预设阈值且排在后N个的词项替换为通配符槽,其余词项作为固定词语,所述通配符槽指示的通配符长度为被替换词项的长度,所述N为预设的正整数。
13.根据权利要求9所述的装置,其特征在于,该装置还包括:
模板整合单元,用于对所述语料中的各文本对象的通配符类模板进行整合,具体为:将仅通配符槽指示通配符长度不同的通配符类模板整合为一个模板,整合后的模板中通配符槽指示的通配符长度为被整合通配符类模板中指示的最大通配符长度。
14.一种通用模板泛化***,其特征在于,该***包括:如权利要求9至12任一权项所述的通配符类模板泛化装置,以及,
词典类模板泛化装置,用于对模板泛化所采用语料中的各文本对象进行词典类模板泛化,得到各文本对象的词典类模板;
函数类模板泛化装置,用于对模板泛化所采用语料中的各文本对象进行函数类模板泛化,得到各文本对象的函数类模板;
模板合并单元,用于对同一文本对象得到的各模板进行合并处理;
其中所述词典类模板泛化包括将文本对象中属于同一个类型的词项替换为该类型描述符;所述函数类模板泛化包括将文本对象进行函数识别后,将识别出的词项替换为对应的函数槽。
15.根据权利要求14所述的***,其特征在于,所述模板合并单元采用以下策略中的至少一种进行所述合并处理:
策略一、如果同一个文本对象泛化出的模板中,同一个词项被泛化成多种类型的槽,则按照预设的槽类型优先级顺序保留其中一种类型的槽;
策略二、如果同一个文本对象泛化出的模板中,词典槽覆盖通配符槽或函数槽,则保留词典槽;
策略三、如果同一个文本对象泛化出的模板中各槽均没有相互覆盖,则在合并结果中保留所有槽。
16.根据权利要求14所述的***,其特征在于,该***还包括:
模板去重单元,用于在所述模板合并单元进行合并处理后的各模板中,合并重复的模板;
结果产生单元,用于统计所述模板去重单元处理后的各模板所来源的文本对象数量,选择所来源的文本对象数量满足预设要求的模板作为最终的泛化结果;
其中所述预设要求为:所来源的文本对象数量排在前M个,M为预设的正整数,或者,所来源的文本对象数量大于预设的数量阈值。
CN201110452249.2A 2011-12-29 2011-12-29 通配符类模板泛化方法和装置、通用模板泛化方法和*** Active CN103186509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110452249.2A CN103186509B (zh) 2011-12-29 2011-12-29 通配符类模板泛化方法和装置、通用模板泛化方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110452249.2A CN103186509B (zh) 2011-12-29 2011-12-29 通配符类模板泛化方法和装置、通用模板泛化方法和***

Publications (2)

Publication Number Publication Date
CN103186509A CN103186509A (zh) 2013-07-03
CN103186509B true CN103186509B (zh) 2016-03-30

Family

ID=48677680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110452249.2A Active CN103186509B (zh) 2011-12-29 2011-12-29 通配符类模板泛化方法和装置、通用模板泛化方法和***

Country Status (1)

Country Link
CN (1) CN103186509B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372073A (zh) * 2015-07-21 2017-02-01 北京大学 一种数学公式检索方法与装置
CN106557459B (zh) * 2015-09-24 2019-12-27 北京神州泰岳软件股份有限公司 一种从工单中提取新词的方法和装置
CN107203501A (zh) * 2016-03-16 2017-09-26 航天信息软件技术有限公司 一种信息发布方法及装置
CN107544949B (zh) * 2016-06-29 2020-01-31 腾讯科技(深圳)有限公司 模板合并方法及装置
CN106776556B (zh) * 2016-12-12 2019-10-11 北京蓝海讯通科技股份有限公司 一种文本模式生成方法、装置和计算设备
CN108304424B (zh) * 2017-03-30 2021-09-07 腾讯科技(深圳)有限公司 文本关键词提取方法及文本关键词提取装置
CN107832285B (zh) * 2017-08-09 2021-02-23 联动优势科技有限公司 一种词典创建方法及设备
CN108121697B (zh) * 2017-11-16 2022-02-25 北京百度网讯科技有限公司 一种文本改写的方法、装置、设备和计算机存储介质
CN110059163B (zh) * 2019-04-29 2022-05-13 百度在线网络技术(北京)有限公司 生成模板的方法和装置、电子设备、计算机可读介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129422A (zh) * 2010-01-14 2011-07-20 富士通株式会社 模板提取方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398201B2 (en) * 2001-08-14 2008-07-08 Evri Inc. Method and system for enhanced data searching

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129422A (zh) * 2010-01-14 2011-07-20 富士通株式会社 模板提取方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中文产品评论中属性词抽取方法研究;栗春亮等;《计算机工程》;20110630;第37卷(第12期);第26-28,32页 *
机器可读词典中词汇属性信息的获取;宋孜攀等;《计算机工程与应用》;20091231;第45卷(第5期);第138-140,188页 *

Also Published As

Publication number Publication date
CN103186509A (zh) 2013-07-03

Similar Documents

Publication Publication Date Title
CN103186509B (zh) 通配符类模板泛化方法和装置、通用模板泛化方法和***
Rule et al. Lexical shifts, substantive changes, and continuity in State of the Union discourse, 1790–2014
Petrović et al. The edinburgh twitter corpus
Liu et al. Author name disambiguation for p ub m ed
Jung Online named entity recognition method for microtexts in social networking services: A case study of twitter
Hou et al. Classifications and typologies: Labeling sign languages and signing communities
Wang et al. A hierarchical model for language maintenance and language shift: Focus on the Malaysian Chinese community
CN101923556B (zh) 根据句子序列号进行网页搜索的方法和装置
Prokić et al. Recognising groups among dialects
CN104679875A (zh) 一种基于数字报纸的资讯数据分类方法
Graus et al. The birth of collective memories: Analyzing emerging entities in text streams
Thelwall et al. Online presentations as a source of scientific impact? An analysis of PowerPoint files citing academic journals
Martin-Jones Introduction: Film-Philosophy and a World of Cinemas
Yang et al. Fuzzy comprehensive evaluation of innovation capability of Chinese national high-tech zone based on entropy weight—taking the northern coastal comprehensive economic zone as an example
Willis Using social-media data to investigate morphosyntactic variation and dialect syntax in a lesser-used language: Two case studies from Welsh
Childs et al. Work that–s!: Drag queens, gender, identity, and traditional Newfoundland English
Celli et al. AGRIS: providing access to agricultural research data exploiting open data on the web
Summers (Re) positioning Yunnan: region and nation in contemporary provincial narratives
Mahbuba et al. The Matthew effect and a relation with concept symbols and defaults
van Oort et al. Structured Data for Performing Arts History: An Introduction to a Special Issue of Data Papers: Arts and Media
Marie Wong A Society Apart: Rural Chinese Catholics and the Historiography of ‘Otherness’
Chen et al. A study on the convergence and analysis of public opinion in cross-linguistic network on Mongolian and Chinese
Dikow et al. Let the records show: Attribution of scientific credit in natural history collections
Qian The Function of Large-Scale International Expos in National Image Construction from the Perspective of Global Communication--Take China-South Asia Expo as an Example
Dutournier et al. Questioning cultural exemplarity: Two decades of intangible heritage practices

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant