CN103942339A - 同义词挖掘方法及装置 - Google Patents

同义词挖掘方法及装置 Download PDF

Info

Publication number
CN103942339A
CN103942339A CN201410193704.5A CN201410193704A CN103942339A CN 103942339 A CN103942339 A CN 103942339A CN 201410193704 A CN201410193704 A CN 201410193704A CN 103942339 A CN103942339 A CN 103942339A
Authority
CN
China
Prior art keywords
synonym
word
respect
label
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410193704.5A
Other languages
English (en)
Other versions
CN103942339B (zh
Inventor
车天文
王更生
刘捷
雷大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen easou world Polytron Technologies Inc
Original Assignee
Shenzhen Yisou Science & Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yisou Science & Technology Development Co Ltd filed Critical Shenzhen Yisou Science & Technology Development Co Ltd
Priority to CN201410193704.5A priority Critical patent/CN103942339B/zh
Publication of CN103942339A publication Critical patent/CN103942339A/zh
Application granted granted Critical
Publication of CN103942339B publication Critical patent/CN103942339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种同义词挖掘方法,上述方法为:提取类似对齐语料;对每对类似对齐语句S1、S2分别进行分词处理,得到词语序列S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j]);在每对词语序列的S2(T2[1],T2[2],…,T2[j])中自适应挖掘S1(T1[1],T1[2],…,T1[i])的词语的同义词,并计算S1(T1[1],T1[2],…,T1[i])的词语相对S2(T2[1],T2[2],…,T2[j])的词语的同义概率;对NT1[i]相对于NT2[j]的同义概率进行迭代运算;计算NT1[i]相对于NT2[j]的全局同义置信度,并将置信度大于预设的置信度阈值的词对作为同义词输出;本发明同时公开了一种同义词挖掘装置。本发明提升了同义词挖掘的准确率,易于操作实现。

Description

同义词挖掘方法及装置
技术领域
本发明涉及信息检索领域,尤其涉及一种同义词挖掘方法及装置。
背景技术
互联网搜索引擎已经成为人们获取信息的主流工具。现有的搜索一般仍是基于检索词的搜索,即用户输入检索词让搜索引擎进行查询,搜索引擎返回包含这些检索词的相关网页结果。实际上,并非每个用户都了解搜索引擎的原理,而且用户的教育背景、语言习惯、使用规范的不同,使得他们在使用中,经常会使用一些意思相似而表达方式不同的检索词,如“腹泻”和“拉肚子”。如果搜索引擎没有识别同义词的功能,则当用户搜索“小孩腹泻怎么办”,一些含“小孩拉肚子”的优质的结果可能也就无法返回。
同义词是自然语言中的一个独特现象,同义词挖掘在自然语言处理中是一项非常重要的基础工作,也是一项非常重要有意义的工作,它的实现对于搜索查询替换,改写,丰富搜索结果,提升查询体验有很大的帮助。截止目前,有关同义词挖掘的方法,主要有以下几种:
1、手工方式获取,一般是基于语言学家的知识积累,编写的各类同义词典,如hownet,wordnet之类的词典。但这样一是会耗费很大的人力、物力、资源来收集编写,二是在实际应用中,使用这类的同义词典成本较大,因为这类词典偏学术型研究,在某些语境下才可同义(“泰山”和“岳父”),而无法直接应用。
2、基于同义模板的挖掘,如在百科、文献、以及各类文章中,利用“又名”,“又称”等关键字挖掘出同类的词语,准确率会较高,但模板有限,挖掘出的数目也有限,且如此挖出的同义词对,不容易确定词之间的置信等级。
3、基于语料库中各词语之间的相关概率计算;计算语料库中各词语之间的相关概率进行同义词挖掘,这种方式需要对语料库中的词语两两进行计算,效率很低。
4、利用互联网搜索引擎结果的挖掘,是利用互联网大数据,结合用户使用习惯与实际网页文章来挖掘同义词对。
发明内容
本发明的目的是,提供一种同义词挖掘方法及装置,以改善现有的同义词挖掘准确性差、效率低的问题。
本发明公开了一种同义词挖掘方法,上述方法周期性执行以下步骤:
步骤A:根据搜索日志,提取类似对齐语料,假设上述类似对齐语料中包含Q对类似对齐语句;
步骤B:对每对类似对齐语句S1、S2分别进行分词处理,得到Q对词语序列S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j]);
步骤C:在每对词语序列的S2(T2[1],T2[2],…,T2[j])中自适应挖掘S1(T1[1],T1[2],…,T1[i])的词语的同义词,并计算S1(T1[1],T1[2],…,T1[i])的词语相对S2(T2[1],T2[2],…,T2[j])的词语的同义概率,最终得到Q个同义概率矩阵S(NT1[i],NT2[j]);
步骤D:以所有的同义概率矩阵S(NT1[i],NT2[j])为基础,对NT1[i]相对于NT2[j]的同义概率进行迭代运算;
步骤E:以所有的同义概率矩阵S(NT1[i],NT2[j])为基础,计算NT1[i]相对于NT2[j]的全局同义置信度,并将置信度大于预设的置信度阈值的词对作为同义词输出。
优选地,上述步骤A具体包括以下步骤:
依次提取搜索日志中使用次数大于预设次数的检索词;
提取根据当前检索词检索到的网页中,有点击的网页的标题;
当前检索词与每个标题形成一对类似对其语句;
所有类似语句组成类似对齐语料。
优选地,上述步骤B还对每对词语序列执行以下步骤:
为S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j])的每个词语设置初始值为0的标记flag[i]、flag[j];
遍历上述S1(T1[1],T1[2],…T1[i]);
若T1[i]为地名,则令flag[i]=ADDRESS_LABEL;
若T1[i]为英文,则令flag[i]=ENG_LABEL;
若T1[i]为数字,则令flag[i]=NUM_LABEL;
若T1[i]未出现在S2(T2[1],T2[2],…,T2[j])中,则令flag[i]=DIFF_LABEL;
遍历完成后,得到标记后的词语序列S1(NT1[1],NT1[2],…,NT1[i]);
同时遍历S2(T2[1],T2[2],…T2[j]);
若T2[j]为地名,则令flag[j]=ADDRESS_LABEL;
若T2[j]为英文,则令flag[j]=ENG_LABEL;
若T2[j]为数字,则令flag[j]=NUM_LABEL;
若T2[j]未出现在S1(T1[1],T1[2],…,T1[i])中,则令flag[j]=DIFF_LABEL;
遍历完成后,得到标记后的词语序列S2(NT2[1],NT2[2],…,NT2[j])。
优选地,上述步骤C在对词语序列进行挖掘同义词前,还执行以下步骤:
删除S1(NT1[1],NT1[2],…,NT1[i])、S2(NT2[1],NT2[2],…,NT2[j])中标记为0的词语及其标记。
优选地,上述步骤C针对每对词语序列,具体执行以下步骤:
C1:根据最大熵原则,初始化NT1[i]相对于NT2[j]的同义概率P(NT2[j]|NT1[i]),得到同义概率矩阵S(NT1[i],NT2[j]);
C2:根据NT1[i]相对于NT2[j]的相似度,调整上述同义概率矩阵S(NT1[i],NT2[j])中相应的概率值;
C3:将S1(NT1[1],NT1[2],…,NT1[i])、S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的非***类型的词语转换成***类型的词语;
C4:根据S1(NT1[1],NT1[2],…,NT1[i])中标记为NUM_LABEL的词语与S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的词语是否相同,调整上述同义概率矩阵S(NT1[i],NT2[j])中相应的概率值。
优选地,上述NT1[i]相对于NT2[j]的同义概率满足如下公式:
Σ i = 1 | NS 1 | P ( NT 2 [ j ] | NT 1 [ i ] ) = 1
其中,|NS1|表示S1(NT1[1],NT1[2],…,NT1[i])中词语的个数;j=1,2,…,|NS2|,|NS2|表示S2(NT2[1],NT2[2],…,NT2[j])中词语的个数。
优选地,上述根据NT1[i]相对于NT2[j]的相似度,调整上述同义概率矩阵S(NT1[i],NT2[j])中相应的概率值步骤具体为:
通过如下公式计算NT1[i]相对于NT2[j]的相似度:
sim ( NT 1 [ i ] , NT 2 [ j ] ) = sub ( NT 1 [ i ] , nt 2 [ j ] ) max ( NT 1 [ i ] , NT 2 [ j ] )
其中,sub(NT1[i],NT2[j])为NT1[i]、NT2[j]中相同的字的个数;
max(NT1[i],NT2[j])为NT1[i]、NT2[j]中最大字数;
判断上述sim(NT1[i],NT2[j])是否大于等于0.5;
若sim(NT1[i],NT2[j])大于等于0.5,则令
P1=rP(NT2[j]|NT1[i])
其中,r为预设的调整系数;
为同义概率矩阵S(NT1[i],NT2[j])中NT1[i]相对于NT2[j]的同义概率值加上P1;
为同义概率矩阵S(NT1[i],NT2[j])中NT1[i]相对于S2(NT2[1],NT2[2],…,NT2[j])中NT2[j]以外的词语的同义概率值减去P1/(|NS2|-1);
为同义概率矩阵S(NT1[i],NT2[j])中,S1(NT1[1],NT1[2],…,NT1[i])中NT1[i]以外的词语相对于NT2[j]的同义概率值减去P1/(|NS1|-1);
为同义概率矩阵S(NT1[i],NT2[j])中,S1(NT1[1],NT1[2],…,NT1[i])中NT1[i]以外的词语相对于S2(NT2[1],NT2[2],…,NT2[j])中NT2[j]以外的词语的同义概率值加上P1/(|NS1|-1)/(|NS2|-1)。
优选地,上述根据S1(NT1[1],NT1[2],…,NT1[i])中标记为NUM_LABEL的词语与S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的词语是否相同,调整上述同义概率矩阵S(NT1[i],NT2[j])中相应的概率值步骤具体为:
判断S1(NT1[1],NT1[2],…,NT1[i])中标记为NUM_LABEL的词语NT1[k]与S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的词语NT2[h]是否相同;
若相同,则
为同义概率矩阵S(NT1[i],NT2[j])中NT1[k]相对于NT2[h]的同义概率值加上P1;
为同义概率矩阵S(NT1[i],NT2[j])中NT1[k]相对于S2(NT2[1],NT2[2],…,NT2[j])中NT2[h]以外的词语的同义概率值减去P1/(|NS2|-1);
为同义概率矩阵S(NT1[i],NT2[j])中,S1(NT1[1],NT1[2],…,NT1[i])中NT1[k]以外的词语相对于NT2[h]的同义概率值减去P1/(|NS1|-1);
为同义概率矩阵S(NT1[i],NT2[j])中,S1(NT1[1],NT1[2],…,NT1[i])中NT1[k]以外的词语相对于S2(NT2[1],NT2[2],…,NT2[j])中NT2[h]以外的词语的同义概率值加上P1/(|NS1|-1)/(|NS2|-1)。
优选地,上述步骤D包括以下步骤:
步骤D1:设置迭代次数;
步骤D2:通过如下公式计算从类似对齐语料中挖掘出的NT1[i]相对于NT2[j]的同义概率P(NT2[j]|NT1[i])之和:
Pg 1 ( NT 2 [ j ] | NT 1 [ i ] ) = Σ s = 1 M P ( NT 2 [ j ] | NT 1 [ i ] )
其中,M为从类似对齐语料中挖掘出的NT1[i]对应到NT2[j]的次数;
步骤D3:根据Pg1(NT2[j]|NT1[i]),通过如下公式计算NT1[i]相对于NT2[j]的全局同义概率:
( NT 2 [ j ] | NT 1 [ i ] ) = 1 ( NT 2 [ j ] | NT 1 [ i ] ) / Σ x = 1 y Pg 1 ( NT 2 [ j ] | NT 1 [ x ] )
其中,y为所有同义概率矩阵S(NT1[i],NT2[j])中,含NT2[j]的词对的个数;
步骤D4:判断本次迭代是否是最后一次,若是,则执行步骤E;否则,执行步骤D5;
步骤D5:将NT1[i]相对于NT2[j]的同义概率值初始化为本次迭代得到的NT1[i]相对于NT2[j]的全局同义概率值,执行步骤C2。
优选地,上述步骤E具体包括如下步骤:
以所有的同义概率矩阵S(NT1[i],NT2[j])为基础,通过如下公式计算NT1[i]相对于NT2[j]的全局同义置信度:
conf(NT2[j]|NT1[i])=Pg1(NT2[j]|NT1[i])/M
其中,M为从类似对齐语料中挖掘出的NT1[i]相对于NT2[j]的次数;
提取并保存置信度大于预设的置信度阈值的词对的上下文;
将上述词对作为同义词输出,同时输出其同义替换语境及语境等级。
本发明还公开了一种同义词挖掘装置,上述装置包括类似对齐语料提取模块、分词处理模块、自适应挖掘模块、迭代模块以及同义词对输出模块,上述
类似对齐语料提取模块,用于根据搜索日志,提取类似对齐语料;
分词处理模块,用于对类似对齐语句S1、S2进行分词处理,得到词语序列S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j]);
自适应挖掘模块,用于在S2(T2[1],T2[2],…,T2[j])中自适应挖掘S1(T1[1],T1[2],…,T1[i])的词语的同义词,并计算S1(T1[1],T1[2],…,T1[i])的词语相对S2(T2[1],T2[2],…T2[j])的词语的同义概率,得到同义概率矩阵S(NT1[i],NT2[j]);
迭代模块,用于对NT1[i]相对于NT2[j]的同义概率进行迭代运算;
同义词对输出模块,用于计算NT1[i]相对于NT2[j]的全局同义置信度,并将置信度大于预设的置信度阈值的词对作为同义词输出。
优选地,上述分词处理模块,用于对词语序列S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j])的每个词语设置初始值为0的标记flag[i]、flag[j],并遍历上述S1(T1[1],T1[2],…,T1[i])及S2(T2[1],T2[2],…,T2[j]);将S1(T1[1],T1[2],…,T1[i])中为地名的词语的标记flag[i]置为ADDRESS_LABEL;为英文的词语的flag[i]置为ENG_LABEL;为数字的词语的flag[i]置为NUM_LABEL;将未出现在S2(T2[1],T2[2],…,T2[j])中的词语的标记flag[i]置为DIFF_LABEL,得到标记后的词语序列S1(NT1[1],NT1[2],…,NT1[i]);将S2(T2[1],T2[2],…,T2[j])中为地名的词语的标记flag[j]置为ADDRESS_LABEL;为英文的词语的flag[j]置为ENG_LABEL;为数字的词语的flag[j]置为NUM_LABEL;将未出现在S1(T1[1],T1[2],…,T1[i])中的词语的标记flag[j]置为DIFF_LABEL,得到标记后的词语序列S2(NT2[1],NT2[2],…,NT2[j]);
上述自适应挖掘模块,用于删除S1(NT1[1],NT1[2],…,NT1[i])、S2(NT2[1],NT2[2],…,NT2[j])中标记为0的词语及其标记;并根据最大熵原则,初始化NT1[i]相对于NT2[j]的同义概率P(NT2[j]|NT1[i]);计算NT1[i]相对于NT2[j]的相似度,并根据上述相似度,调整NT1[i]相对于NT2[j]的概率值;将S1(NT1[1],NT1[2],…,NT1[i])、S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的非***类型的词语转换成***类型的词语;根据S1(NT1[1],NT1[2],…,NT1[i])中标记为NUM_LABEL的词语与S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的词语是否相同,调整相应的概率值;
上述迭代模块,用于保存预设的迭代次数;计算从类似对齐语料中挖掘出的NT1[i]相对于NT2[j]的同义概率P(NT2[j]|NT1[i])之和Pg1(NT2[j]|NT1[i]);并根据Pg1(NT2[j]|NT1[i]),计算NT1[i]相对于NT2[j]的全局同义概率Pg(NT2[j]|NT1[i]);并在当前迭代不是最后一次迭代时,将NT1[i]相对于NT2[j]的同义概率值初始化为本次迭代得到的NT1[i]相对于NT2[j]的全局同义概率值;
上述同义词对输出模块,用于提取并保存置信度大于预设的置信度阈值的词对的上下文,以及在输出同义词对的同时,输出其同义替换语境及语境等级。
本发明采用基于用户检索语与网页标题的同义对齐的方法自动挖掘同义词,可周期性更新,且可持续的提升同义词挖掘的准确率,易于操作实现。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明同义词挖掘方法的总体流程图;
图2是图1中步骤S01的具体流程图;
图3是为词语序列中的词语进行标记时的流程图;
图4是图1中步骤S03的具体流程图;
图5是图1中步骤S04的具体流程图;
图6是图1中步骤S05的具体流程图;
图7是本发明同义词挖掘装置的原理框图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,是本发明同义词挖掘方法的总体流程图;
步骤S01:根据搜索日志,提取类似对齐语料,假设类似对齐语料中包含Q对类似对齐语句;
搜索引擎都会拥有自己的检索日志,详细记录了用户输入的检索词、通过该检索词检索后返回的网页结果,以及点击的内容等详细信息。基于此类数据,提取用户检索词与检索的网页标题,为提升准确率,可以选取有一定检索次数的检索词,丢弃那些只搜索了一次的检索词;同时选取有点击的网页,丢弃那些没有点击的网页。这样得到的一对句子,这样的句子意思并不完全相同,结构也可能不一致,但肯定是意思相关或相近的句子,所以称之为类似对齐语句。也就是说,所谓对齐语句,就是一组意思相同但表达方式不同的句子,例如“刘德华的歌曲”,“刘德华的音乐”,“华仔的音乐”这类句子。这些类似对齐语句,组成类似对齐语料。
故本步骤如图2所示,具体包括以下步骤:
S101:在搜索日志中提取使用次数大于预设次数的检索词;
S102:提取根据当前检索词检索到的网页中,有点击的网页的标题;
S103:当前检索词与每个标题形成一对类似对齐语句;
S104:所有类似语句组成类似对齐语料。
这些语料是一对一对的意思近乎相同的语句。
鉴于语料的易得性,本发明可周期性更新语料,进而周期性挖掘同义词,从而持续性的更新、补充同义词库。
步骤S02:对每对类似对齐语句S1、S2分别进行分词处理,得到Q对词语序列S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j]);并分别对每对词语序列中的词语进行标记;如图3所示,是为词语序列中的词语进行标记时的流程图,具体包括:
S201:为S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j])的每个词语设置初始值为0的标记flag[i]、flag[j];
S202:遍历上述S1(T1[1],T1[2],…,T1[i]);
S203:若T1[i]为地名,则令flag[i]=ADDRESS_LABEL;
S204:若T1[i]为英文,则令flag[i]=ENG_LABEL;
S205:若T1[i]为数字,则令flag[i]=NUM_LABEL;
S206:若T1[i]未出现在S2(T2[1],T2[2],…,T2[j])中,则令flag[i]=DIFF_LABEL;
S207:遍历完成后,得到标记后的词语序列S1(NT1[1],NT1[2],…,NT1[i]);同时
S208:遍历S2(T2[1],T2[2],…,T2[j]);
S209:若T2[j]为地名,则令flag[j]=ADDRESS_LABEL;
S210:若T2[j]为英文,则令flag[j]=ENG_LABEL;
S211:若T2[j]为数字,则令flag[j]=NUM_LABEL;
S212:若T2[j]未出现在S1(T1[1],T1[2],…,T1[i])中,则令flag[j]=DIFF_LABEL;
S213:遍历完成后,得到标记后的词语序列S2(NT2[1],NT2[2],…,NT2[j])。
例如,S1与S2分别为“单反拍照技巧”和“单反相机拍摄入门技巧”;分词处理后,得到词语序列,S1(单反,拍照,技术),S2(单反,相机,拍摄,入门,技巧)。
步骤S03:在每对词语序列的S2(T2[1],T2[2],…,T2[j])中自适应挖掘S1(T1[1],T1[2],…,T1[i])的词语的同义词,并计算S1(T1[1],T1[2],…,T1[i])的词语相对S2(T2[1],T2[2],…T2[j])的词语的同义概率,最终得到Q个同义概率矩阵S(NT1[i],NT2[j]);本步骤具体如图4所示,对每对词语序列均执行以下步骤:
S301:删除S1(NT1[1],NT1[2],…,NT1[i])、S2(NT2[1],NT2[2],…,NT2[j])中标记为0的词语及其标记;
将S1(单反,拍照,技术),S2(单反,相机,拍摄,入门,技巧)中相同的词语“单反”删除后,得到S1(拍照,技术),S2(相机,拍摄,入门,技巧)。
S302:根据最大熵原则,初始化NT1[i]相对于NT2[j]的同义概率P(NT2[j]|NT1[i]),得到同义概率矩阵S(NT1[i],NT2[j]);
即认为NT1[i]与NT2[j]是等概率对应;且每列的概率值均满足如下公式:
Σ i = 1 | NS 1 | P ( NT 2 [ j ] | NT 1 [ i ] ) = 1 - - - ( 1 )
其中,|NS1|表示S1(NT1[1],NT1[2],…,NT1[i])中词语的个数;j=1,2,…,|NS2|,|NS2|表示S2(NT2[1],NT2[2],…,NT2[j])中词语的个数。
对于S1(拍照,技术),S2(相机,拍摄,入门,技巧),得到的同义概率矩阵如下表:
表1
S1 S2 相机 拍摄 入门 技巧
拍照 0.5 0.5 0.5 0.5
技术 0.5 0.5 0.5 0.5
S303:通过如下公式计算同义概率矩阵中NT1[i]相对于NT2[j]的相似度sim(NT1[i],NT2[j]);
sim ( NT 1 [ i ] , NT 2 [ j ] ) = sub ( NT 1 [ i ] , nt 2 [ j ] ) max ( NT 1 [ i ] , NT 2 [ j ] ) - - - ( 2 )
其中,sub(NT1[i],NT2[j])为NT1[i]、NT2[j]中相同的字的个数;max(NT1[i],NT2[j])为NT1[i]、NT2[j]中最大字数;如表1中,“拍照”与“拍摄”,其中相同的字为“拍”,故sub(拍照,拍摄)=1,两个词语都是2个字,所以max(拍照,拍摄)=2,他们的相似度sim(拍照,拍摄)=1/2。
S304:判断上述sim(NT1[i],NT2[j])是否大于等于0.5;若是,则执行S305;否则,执行S307;
例如,表1中,“拍照”与“相机”不符合相似度要求,且非本矩阵的最后一个词对,所以继续计算“拍照”与“拍摄”的相似度,由于“拍照”与“拍摄”满足相似度要求,故执行S305;
S305:令P1=rP(NT2[j]|NT1[i]);其中,r为预设的调整系数;
表1中,P(拍照|拍摄)=0.5,令r=0.5,那么,P1=0.5*0.5=0.25;
S306:为同义概率矩阵S(NT1[i],NT2[j])中NT1[i]相对于NT2[j]的同义概率值加上P1;
调整后,P(拍摄|拍照)=0.5+0.25=0.75;
为同义概率矩阵S(NT1[i],NT2[j])中NT1[i]相对于S2(NT2[1],NT2[2],…,NT2[j])中NT2[j]以外的词语的同义概率值减去P1/(|NS2|-1);即列变(j变)行不变(i不变),给NT1[i]行的非NT2[j]列的概率值减去P1/(|NS2|-1);
调整后,P(相机|拍照)=P(入门|拍照)=P(技巧|拍照)=0.5-(0.25/(4-1)=0.42;
为同义概率矩阵S(NT1[i],NT2[j])中,S1(NT1[1],NT1[2],…,NT1[i])中NT1[i]以外的词语相对于NT2[j]的同义概率值减去P1/(|NS1|-1);即行变(i变)列不变(j不变),给非NT1[i]行的NT2[j]列的概率值减去P1/(|NS1|-1);
调整后,P(拍摄|技术)=0.5-(0.25/(2-1))=0.25;
为同义概率矩阵S(NT1[i],NT2[j])中,S1(NT1[1],NT1[2],…,NT1[i])中NT1[i]以外的词语相对于S2(NT2[1],NT2[2],…,NT2[j])中NT2[j]以外的词语的同义概率值加上P1/(|NS1|-1)/(|NS2|-1);即行列均变,给非NT1[i]行的非NT2[j]列的概率值加上P1/(|NS1|-1)/(|NS2|-1);
调整后,P(相机|技术)=P(入门|技术)=P(技巧|技术)=0.5+(0.25/(2-1)/(4-1))=0.58;
调整后的同义概率矩阵S(NT1[i],NT2[j])中的每列的概率值依然遵守公式(1)。
根据“拍照”与“拍摄”调整后的同义概率矩阵S(NT1[i],NT2[j])如下表:
表2
S1 S2 相机 拍摄 入门 技巧
拍照 0.42 0.75 0.42 0.42
技术 0.58 0.25 0.58 0.58
S307:判断当前的NT1[i]与NT2[j]是否是同义概率矩阵的最后一对词语;若是,则执行步骤S308;否则,为下一对词语执行步骤S303;
由于“拍照”与“拍摄”不是最后一对词语,故继续计算下一对词语的相似度;直至所有词语全部遍历完毕,最终得到的同义概率矩阵如表3所示:
表3
S1 S2 相机 拍摄 入门 技巧
拍照 0.52 0.85 0.52 0.13
技术 0.48 0.15 0.48 0.87
S308:判断S1(NT1[1],NT1[2],…NT1[i])和S2(NT2[1],NT2[2],…,NT2[j])中是否都有标记为NUM_LABEL的词语,若是,则执行步骤S309;否则,执行S312;
S309:将S1(NT1[1],NT1[2],…NT1[i])、S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的非***类型的词语转换成***类型的词语;
S310:判断S1(NT1[1],NT1[2],…,NT1[i])中标记为NUM_LABEL的词语NT1[k](k=1~i)与S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的词语NT2[h](h=1~j)是否相同;若是,则执行S310;否则,同义概率矩阵S(NT1[i],NT2[j])中的概率值不变,执行步骤S04;
S311:为同义概率矩阵S(NT1[i],NT2[j])中NT1[k]相对于NT2[h]的同义概率值加上P1;
为同义概率矩阵S(NT1[i],NT2[j])中NT1[k]相对于S2(NT2[1],NT2[2],…,NT2[j])中NT2[h]以外的词语的同义概率值减去P1/(|NS2|-1);
为同义概率矩阵S(NT1[i],NT2[j])中,S1(NT1[1],NT1[2],…,NT1[i])中NT1[k]以外的词语相对于NT2[h]的同义概率值减去P1/(|NS1|-1);
为同义概率矩阵S(NT1[i],NT2[j])中,S1(NT1[1],NT1[2],…,NT1[i])中NT1[k]以外的词语相对于S2(NT2[1],NT2[2],…,NT2[j])中NT2[h]以外的词语的同义概率值加上P1/(|NS1|-1)/(|NS2|-1);
调整后的概率同样遵守公式(1)。
S312:判断当前词语序列是否是最后一对词语序列,若是,则执行步骤S04;否则,继续为下一对词语序列执行S301。
步骤S04:以所有同义概率矩阵S(NT1[i],NT2[j])为基础,对NT1[i]相对于NT2[j]的同义概率进行迭代运算;即以所有词语对的同义概率为基础,对NT1[i]相对于NT2[j]的同义概率进行迭代运算本步骤如图5所示,具体包括:
S401:设置迭代次数;
S402:通过如下公式计算从类似对齐语料中挖掘出的所有NT1[i]相对于NT2[j]的同义概率之和Pg1(NT2[j]|NT1[i]);
Pg 1 ( NT 2 [ j ] | NT 1 [ i ] ) = Σ s = 1 M P ( NT 2 [ j ] | NT 1 [ i ] ) - - - ( 3 )
M为从类似对齐语料中挖掘出的NT1[i]相对于NT2[j]的次数;
假设类似对齐语料中仅有语句:“单反拍照技巧”与“单反相机拍摄入门技巧”,以及“照相机拍照”与“相机拍摄技巧”;且经过步骤S03后,得到的概率矩阵为表3及表4;
表4
根据表3、表4,“拍照”对应到“拍摄”的次数、以及“相机”对应到“拍照”的次数、“技巧”对应到“拍照”的次数为2次,故M=2,其他词对均只有一次,也即M=1;根据公式(3)计算可得:
Pg1(相机|拍照)=0.52+0.094=0.614;
Pg1(相机|技术)=0.48;
Pg1(相机|照相机)=0.096;
Pg1(拍摄|拍照)=0.85+0.937=1.787;
Pg1(拍摄|技术)=0.15;
Pg1(拍摄|照相机)=0.063;
Pg1(入门|拍照)=0.52;
Pg1(入门|技术)=0.48;
Pg1(技巧|拍照)=0.13+0.469=0.599;
Pg1(技巧|技术)=0.87;
Pg1(技巧|照相机)=0.531;
S403:根据Pg1(NT2[j]|NT1[i]),通过如下公式(4)计算NT1[i]相对于NT2[j]的全局同义概率Pg(NT2[j]|NT1[i]);
( NT 2 [ j ] | NT 1 [ i ] ) = 1 ( NT 2 [ j ] | NT 1 [ i ] ) / Σ x = 1 i Pg 1 ( NT 2 [ j ] | NT 1 [ x ] ) - - - ( 4 )
例如:Pg(相机|拍照)=Pg1(相机|拍照)/(Pg1(相机|拍照)+Pg1(相机|技术)+Pg1(相机|照相机))=0.614/(0.614+0.48+0.096)=0.52;
Pg(相机|技术)=Pg1(相机|技术)/(Pg1(相机|拍照)+Pg1(相机|技术)+Pg1(相机|照相机))=0.48/(0.614+0.48+0.096)=0.4;
Pg(相机|照相机)=Pg1(相机|照相机)/(Pg1(相机|拍照)+Pg1(相机|技术)+Pg1(相机|照相机))=0.096/(0.614+0.48+0.096)=0.08;
Pg(拍摄|拍照)=Pg1(拍摄|拍照)/(Pg1(拍摄|拍照)+Pg1(拍摄|技术)+Pg1(拍摄|照相机))=1.787/(1.787+0.15+0.063)=0.89;
Pg(拍摄|技术)=Pg1(拍摄|技术)/(Pg1(拍摄|拍照)+Pg1(拍摄|技术)+Pg1(拍摄|照相机))=0.15/(1.787+0.15+0.063)=0.08;
Pg(拍摄|照相机)=Pg1(拍摄|照相机)/(Pg1(拍摄|拍照)+Pg1(拍摄|技术)+Pg1(拍摄|照相机))=0.063/(1.787+0.15+0.063)=0.03;
Pg(入门|拍照)=Pg1(入门|拍照)/(Pg1(入门|拍照)+Pg1(入门|技术))=0.52/(0.52+0.48)=0.52;
Pg(入门|技术)=Pg1(入门|技术)/(Pg1(入门|拍照)+Pg1(入门|技术))=0.48/(0.52+0.48)=0.48;
Pg(技巧|拍照)=Pg1(技巧|拍照)/(Pg1(技巧|拍照)+Pg1(技巧|技术)+Pg1(技巧|照相机))=0.599/(0.599+0.87+0.531)=0.3;
Pg(技巧|技术)=Pg1(技巧|技术)/(Pg1(技巧|拍照)+Pg1(技巧|技术)+Pg1(技巧|照相机))=0.87/(0.599+0.87+0.531)=0.44;
Pg(技巧|照相机)=Pg1(技巧|照相机)/(Pg1(技巧|拍照)+Pg1(技巧|技术)+Pg1(技巧|照相机))=0.531/(0.599+0.87+0.531)=0.27;
S404:判断本次迭代是否是最后一次,若是,则执行步骤S05;否则,执行S405;
S405:将每个同义概率矩阵S(NT1[i],NT2[j])中NT1[i]相对于NT2[j]的同义概率值初始化为本次迭代得到的对应的NT1[i]相对于NT2[j]的全局同义概率值,即令P(NT2[j]|NT1[i])=Pg(NT2[j]|NT1[i]),执行S303。
步骤S05:以所有同义概率矩阵S(NT1[i],NT2[j])为基础,计算NT1[i]相对于NT2[j]的全局同义置信度,并将置信度大于预设的置信度阈值的词对作为同义词输出,具体如图6所示,包括:
S501:根据所有同义概率矩阵S(NT1[i],NT2[j]),通过如下公式(5)计算NT1[i]相对于NT2[j]的全局同义置信度;
conf(NT2[j]|NT1[i])=Pg1(NT2[j]|NT1[i])/M  (5)
M为从类似对齐语料中挖掘出的NT1[i]相对于NT2[j]的次数;
假设表3、表4经过步骤S03、S04处理后,得到如下表5、表6:
表5
表6
则根据公式(5)可得:
Conf(相机|拍照)=Pg1(相机|拍照)/2=(0.5+0.06)/2=0.28;
Conf(相机|技术)=Pg1(相机|技术)/1=0.5;
Conf(相机|照相机)=Pg1(相机|照相机)/1=0.94;
Conf(拍摄|拍照)=Pg1(拍摄|拍照)=(0.9+0.94)/2=0.92;
Conf(拍摄|技术)=Pg1(拍摄|技术)/1=0.1;
Conf(拍摄|照相机)=Pg1(拍摄|照相机)/1=0.06;
Conf(入门|拍照)=Pg1(入门|拍照)/1=0.52;
Conf(入门|技术)=Pg1(入门|技术)/1=0.48;
Conf(技巧|拍照)=Pg1(技巧|拍照)/2=(0.08+0.46)/2=0.27;
Conf(技巧|技术)=Pg1(技巧|技术)/1=0.92;
Conf(技巧|照相机)=Pg1(技巧|照相机)/1=0.54;
S502:提取并保存置信度大于预设的置信度阈值的词对的上下文;
S503:将上述词对作为同义词输出,同时输出其同义替换语境及语境等级。
如图7所示,是本发明同义词挖掘装置的原理框图,包括类似对齐语料提取模块10、分词处理模块20、自适应挖掘模块30、迭代模块40以及同义词对输出模块50,其中
类似对齐语料提取模块10,用于根据搜索日志,提取类似对齐语料;
分词处理模块20,用于对类似对齐语句S1、S2进行分词处理,得到词语序列S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j]);并为词语序列S1(T1[1],T1[2],…T1[i])、S2(T2[1],T2[2],…,T2[j])的每个词语设置初始值为0的标记flag[i]、flag[j],以及遍历上述S1(T1[1],T1[2],…,T1[i])及S2(T2[1],T2[2],…,T2[j]);将S1(T1[1],T1[2],…,T1[i])中为地名的词语的标记flag[i]置为ADDRESS_LABEL;为数字的词语的flag[i]置为NUM_LABEL;将未出现在S2(T2[1],T2[2],…,T2[j])中的词语的标记flag[i]置为DIFF_LABEL,得到标记后的词语序列S1(NT1[1],NT1[2],…,NT1[i]);将S2(T2[1],T2[2],…,T2[j])中为地名的词语的标记flag[j]置为ADDRESS_LABEL;为数字的词语的flag[j]置为NUM_LABEL;将未出现在S1(T1[1],T1[2],…,T1[i])中的词语的标记flag[j]置为DIFF_LABEL,得到标记后的词语序列S2(NT2[1],NT2[2],…,NT2[j]);
自适应挖掘模块30,用于删除S1(NT1[1],NT1[2],…,NT1[i])、S2(NT2[1],NT2[2],…,NT2[j])中标记为0的词语及其标记;并根据最大熵原则,初始化NT1[i]相对于NT2[j]的同义概率P(NT2[j]|NT1[i]);计算NT1[i]相对于NT2[j]的相似度,并根据上述相似度,调整NT1[i]相对于NT2[j]的同义概率值;将S1(NT1[1],NT1[2],…,NT1[i])、S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的非***类型的词语转换成***类型的词语;根据S1(NT1[1],NT1[2],…,NT1[i])中标记为NUM_LABEL的词语与S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的词语是否相同,调整NT1[i]相对于NT2[j]的同义概率值;
迭代模块40,用于对NT1[i]相对于NT2[j]的同义概率进行迭代运算;用于保存预设的迭代次数;计算从类似对齐语料中挖掘出的NT1[i]相对于NT2[j]的同义概率P(NT2[j]|NT1[i])之和Pg1(NT2[j]|NT1[i]);并根据Pg1(NT2[j]|NT1[i]),计算NT1[i]相对于NT2[j]的全局同义概率Pg(NT2[j]|NT1[i]);并在当前迭代不是最后一次迭代时,将NT1[i]相对于NT2[j]的同义概率值初始化为本次迭代得到的NT1[i]相对于NT2[j]的全局同义概率值;
同义词对输出模块50,用于计算NT1[i]相对于NT2[j]的全局同义置信度,并将置信度大于预设的置信度阈值的词对作为同义词输出;以及提取并保存置信度大于预设的置信度阈值的词对的上下文,并在输出同义词对的同时,输出其同义替换语境及语境等级。
上述说明示出并描述了本发明的优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (12)

1.一种同义词挖掘方法,其特征在于,所述方法周期性执行以下步骤:
步骤A:根据搜索日志,提取类似对齐语料,假设所述类似对齐语料中包含Q对类似对齐语句;
步骤B:对每对类似对齐语句S1、S2分别进行分词处理,得到Q对词语序列S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j]);
步骤C:在每对词语序列的S2(T2[1],T2[2],…,T2[j])中自适应挖掘S1(T1[1],T1[2],…,T1[i])的词语的同义词,并计算S1(T1[1],T1[2],…,T1[i])的词语相对S2(T2[1],T2[2],…,T2[j])的词语的同义概率,最终得到Q个同义概率矩阵S(NT1[i],NT2[j]);
步骤D:以所有的同义概率矩阵S(NT1[i],NT2[j])为基础,对NT1[i]相对于NT2[j]的同义概率进行迭代运算;
步骤E:以所有的同义概率矩阵S(NT1[i],NT2[j])为基础,计算NT1[i]相对于NT2[j]的全局同义置信度,并将置信度大于预设的置信度阈值的词对作为同义词输出。
2.如权利要求1所述的同义词挖掘方法,其特征在于,所述步骤A具体包括以下步骤:
依次提取搜索日志中使用次数大于预设次数的检索词;
提取根据当前检索词检索到的网页中,有点击的网页的标题;
当前检索词与每个标题形成一对类似对其语句;
所有类似语句组成类似对齐语料。
3.如权利要求1所述的同义词挖掘方法,其特征在于,所述步骤B还对每对词语序列执行以下步骤:
为S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j])的每个词语设置初始值为0的标记flag[i]、flag[j];
遍历所述S1(T1[1],T1[2],…T1[i]);
若T1[i]为地名,则令flag[i]=ADDRESS_LABEL;
若T1[i]为英文,则令flag[i]=ENG_LABEL;
若T1[i]为数字,则令flag[i]=NUM_LABEL;
若T1[i]未出现在S2(T2[1],T2[2],…,T2[j])中,则令
flag[i]=DIFF_LABEL;
遍历完成后,得到标记后的词语序列S1(NT1[1],NT1[2],…,NT1[i]);
同时遍历S2(T2[1],T2[2],…T2[j]);
若T2[j]为地名,则令flag[j]=ADDRESS_LABEL;
若T2[j]为英文,则令flag[j]=ENG_LABEL;
若T2[j]为数字,则令flag[j]=NUM_LABEL;
若T2[j]未出现在S1(T1[1],T1[2],…,T1[i])中,则令
flag[j]=DIFF_LABEL;
遍历完成后,得到标记后的词语序列S2(NT2[1],NT2[2],…,NT2[j])。
4.如权利要求3所述的同义词挖掘方法,其特征在于,所述步骤C在对词语序列进行挖掘同义词前,还执行以下步骤:
删除S1(NT1[1],NT1[2],…,NT1[i])、S2(NT2[1],NT2[2],…,NT2[j])中标记为0的词语及其标记。
5.如权利要求4所述的同义词挖掘方法,其特征在于,所述步骤C针对每对词语序列,具体执行以下步骤:
C1:根据最大熵原则,初始化NT1[i]相对于NT2[j]的同义概率P(NT2[j]|NT1[i]),得到同义概率矩阵S(NT1[i],NT2[j]);
C2:根据NT1[i]相对于NT2[j]的相似度,调整所述同义概率矩阵S(NT1[i],NT2[j])中相应的概率值;
C3:将S1(NT1[1],NT1[2],…,NT1[i])、S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的非***类型的词语转换成***类型的词语;
C4:根据S1(NT1[1],NT1[2],…,NT1[i])中标记为NUM_LABEL的词语与S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的词语是否相同,调整所述同义概率矩阵S(NT1[i],NT2[j])中相应的概率值。
6.如权利要求5所述的同义词挖掘方法,其特征在于,所述NT1[i]相对于NT2[j]的同义概率满足如下公式:
Σ i = 1 | NS 1 | P ( NT 2 [ j ] | NT 1 [ i ] ) = 1
其中,|NS1|表示S1(NT1[1],NT1[2],…,NT1[i])中词语的个数;j=1,2,…,|NS2|,|NS2|表示S2(NT2[1],NT2[2],…,NT2[j])中词语的个数。
7.如权利要求5所述的同义词挖掘方法,其特征在于,所述根据NT1[i]相对于NT2[j]的相似度,调整所述同义概率矩阵S(NT1[i],NT2[j])中相应的概率值步骤具体为:
通过如下公式计算NT1[i]相对于NT2[j]的相似度:
sim ( NT 1 [ i ] , NT 2 [ j ] ) = sub ( NT 1 [ i ] , nt 2 [ j ] ) max ( NT 1 [ i ] , NT 2 [ j ] )
其中,sub(NT1[i],NT2[j])为NT1[i]、NT2[j]中相同的字的个数;
max(NT1[i],NT2[j])为NT1[i]、NT2[j]中最大字数;
判断所述sim(NT1[i],NT2[j])是否大于等于0.5;
若sim(NT1[i],NT2[j])大于等于0.5,则令
P1=rP(NT2[j]|NT1[i])
其中,r为预设的调整系数;
为同义概率矩阵S(NT1[i],NT2[j])中NT1[i]相对于NT2[j]的同义概率值加上P1;
为同义概率矩阵S(NT1[i],NT2[j])中NT1[i]相对于S2(NT2[1],NT2[2],…,NT2[j])中NT2[j]以外的词语的同义概率值减去P1/(|NS2|-1);
为同义概率矩阵S(NT1[i],NT2[j])中,S1(NT1[1],NT1[2],…,NT1[i])中NT1[i]以外的词语相对于NT2[j]的同义概率值减去P1/(|NS1|-1);
为同义概率矩阵S(NT1[i],NT2[j])中,S1(NT1[1],NT1[2],…,NT1[i])中NT1[i]以外的词语相对于S2(NT2[1],NT2[2],…,NT2[j])中NT2[j]以外的词语的同义概率值加上P1/(|NS1|-1)/(|NS2|-1)。
8.如权利要求5所述的同义词挖掘方法,其特征在于,所述根据S1(NT1[1],NT1[2],…,NT1[i])中标记为NUM_LABEL的词语与S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的词语是否相同,调整所述同义概率矩阵S(NT1[i],NT2[j])中相应的概率值步骤具体为:
判断S1(NT1[1],NT1[2],…,NT1[i])中标记为NUM_LABEL的词语NT1[k]与S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的词语NT2[h]是否相同;
若相同,则
为同义概率矩阵S(NT1[i],NT2[j])中NT1[k]相对于NT2[h]的同义概率值加上P1;
为同义概率矩阵S(NT1[i],NT2[j])中NT1[k]相对于S2(NT2[1],NT2[2],…,NT2[j])中NT2[h]以外的词语的同义概率值减去P1/(|NS2|-1);
为同义概率矩阵S(NT1[i],NT2[j])中,S1(NT1[1],NT1[2],…,NT1[i])中NT1[k]以外的词语相对于NT2[h]的同义概率值减去P1/(|NS1|-1);
为同义概率矩阵S(NT1[i],NT2[j])中,S1(NT1[1],NT1[2],…,NT1[i])中NT1[k]以外的词语相对于S2(NT2[1],NT2[2],…,NT2[j])中NT2[h]以外的词语的同义概率值加上P1/(|NS1|-1)/(|NS2|-1)。
9.如权利要求5所述的同义词挖掘方法,其特征在于,所述步骤D包括以下步骤:
步骤D1:设置迭代次数;
步骤D2:通过如下公式计算从类似对齐语料中挖掘出的NT1[i]相对于NT2[j]的同义概率P(NT2[j]|NT1[i])之和:
Pg 1 ( NT 2 [ j ] | NT 1 [ i ] ) = Σ s = 1 M P ( NT 2 [ j ] | NT 1 [ i ] )
其中,M为从类似对齐语料中挖掘出的NT1[i]对应到NT2[j]的次数;
步骤D3:根据Pg1(NT2[j]|NT1[i]),通过如下公式计算NT1[i]相对于NT2[j]的全局同义概率:
( NT 2 [ j ] | NT 1 [ i ] ) = 1 ( NT 2 [ j ] | NT 1 [ i ] ) / Σ x = 1 y Pg 1 ( NT 2 [ j ] | NT 1 [ x ] )
其中,y为所有同义概率矩阵S(NT1[i],NT2[j])中,含NT2[j]的词对的个数;
步骤D4:判断本次迭代是否是最后一次,若是,则执行步骤E;否则,执行步骤D5;
步骤D5:将NT1[i]相对于NT2[j]的同义概率值初始化为本次迭代得到的NT1[i]相对于NT2[j]的全局同义概率值,执行步骤C2。
10.如权利要求1所述的同义词挖掘方法,其特征在于,所述步骤E具体包括如下步骤:
以所有的同义概率矩阵S(NT1[i],NT2[j])为基础,通过如下公式计算NT1[i]相对于NT2[j]的全局同义置信度:
conf(NT2[j]|NT1[i])=Pg1(NT2[j]|NT1[i])/M
其中,M为从类似对齐语料中挖掘出的NT1[i]相对于NT2[j]的次数;
提取并保存置信度大于预设的置信度阈值的词对的上下文;
将所述词对作为同义词输出,同时输出其同义替换语境及语境等级。
11.一种同义词挖掘装置,其特征在于,所述装置包括类似对齐语料提取模块、分词处理模块、自适应挖掘模块、迭代模块以及同义词对输出模块,所述
类似对齐语料提取模块,用于根据搜索日志,提取类似对齐语料;
分词处理模块,用于对类似对齐语句S1、S2进行分词处理,得到词语序列S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j]);
自适应挖掘模块,用于在S2(T2[1],T2[2],…,T2[j])中自适应挖掘S1(T1[1],T1[2],…,T1[i])的词语的同义词,并计算S1(T1[1],T1[2],…,T1[i])的词语相对S2(T2[1],T2[2],…T2[j])的词语的同义概率,得到同义概率矩阵S(NT1[i],NT2[j]);
迭代模块,用于对NT1[i]相对于NT2[j]的同义概率进行迭代运算;
同义词对输出模块,用于计算NT1[i]相对于NT2[j]的全局同义置信度,并将置信度大于预设的置信度阈值的词对作为同义词输出。
12.如权利要求11所述的同义词挖掘装置,其特征在于,
所述分词处理模块,用于对词语序列S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j])的每个词语设置初始值为0的标记flag[i]、flag[j],并遍历所述S1(T1[1],T1[2],…,T1[i])及S2(T2[1],T2[2],…,T2[j]);将S1(T1[1],T1[2],…,T1[i])中为地名的词语的标记flag[i]置为ADDRESS_LABEL;为英文的词语的flag[i]置为ENG_LABEL;为数字的词语的flag[i]置为NUM_LABEL;将未出现在S2(T2[1],T2[2],…,T2[j])中的词语的标记flag[i]置为DIFF_LABEL,得到标记后的词语序列S1(NT1[1],NT1[2],…,NT1[i]);将S2(T2[1],T2[2],…,T2[j])中为地名的词语的标记flag[j]置为ADDRESS_LABEL;为英文的词语的flag[j]置为ENG_LABEL;为数字的词语的flag[j]置为NUM_LABEL;将未出现在S1(T1[1],T1[2],…,T1[i])中的词语的标记flag[j]置为DIFF_LABEL,得到标记后的词语序列S2(NT2[1],NT2[2],…,NT2[j]);
所述自适应挖掘模块,用于删除S1(NT1[1],NT1[2],…,NT1[i])、S2(NT2[1],NT2[2],…,NT2[j])中标记为0的词语及其标记;并根据最大熵原则,初始化NT1[i]相对于NT2[j]的同义概率P(NT2[j]|NT1[i]);计算NT1[i]相对于NT2[j]的相似度,并根据所述相似度,调整NT1[i]相对于NT2[j]的概率值;将S1(NT1[1],NT1[2],…,NT1[i])、S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的非***类型的词语转换成***类型的词语;根据S1(NT1[1],NT1[2],…,NT1[i])中标记为NUM_LABEL的词语与S2(NT2[1],NT2[2],…,NT2[j])中标记为NUM_LABEL的词语是否相同,调整相应的概率值;
所述迭代模块,用于保存预设的迭代次数;计算从类似对齐语料中挖掘出的NT1[i]相对于NT2[j]的同义概率P(NT2[j]|NT1[i])之和Pg1(NT2[j]|NT1[i]);并根据Pg1(NT2[j]|NT1[i]),计算NT1[i]相对于NT2[j]的全局同义概率Pg(NT2[j]|NT1[i]);并在当前迭代不是最后一次迭代时,将NT1[i]相对于NT2[j]的同义概率值初始化为本次迭代得到的NT1[i]相对于NT2[j]的全局同义概率值;
所述同义词对输出模块,用于提取并保存置信度大于预设的置信度阈值的词对的上下文,以及在输出同义词对的同时,输出其同义替换语境及语境等级。
CN201410193704.5A 2014-05-08 2014-05-08 同义词挖掘方法及装置 Active CN103942339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410193704.5A CN103942339B (zh) 2014-05-08 2014-05-08 同义词挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410193704.5A CN103942339B (zh) 2014-05-08 2014-05-08 同义词挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN103942339A true CN103942339A (zh) 2014-07-23
CN103942339B CN103942339B (zh) 2017-06-09

Family

ID=51190007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410193704.5A Active CN103942339B (zh) 2014-05-08 2014-05-08 同义词挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN103942339B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331398A (zh) * 2014-10-30 2015-02-04 百度在线网络技术(北京)有限公司 生成同义词对齐词典的方法及装置
CN105335351A (zh) * 2015-10-27 2016-02-17 北京信息科技大学 一种基于专利搜索日志用户行为的同义词自动挖掘方法
CN106202038A (zh) * 2016-06-29 2016-12-07 北京智能管家科技有限公司 基于迭代的同义词挖掘方法及装置
WO2017063538A1 (zh) * 2015-10-12 2017-04-20 广州神马移动信息科技有限公司 挖掘相关词的方法、搜索方法、搜索***
CN106777283A (zh) * 2016-12-29 2017-05-31 北京奇虎科技有限公司 一种同义词的挖掘方法及装置
CN106844325A (zh) * 2015-12-04 2017-06-13 北大医疗信息技术有限公司 医疗信息处理方法和医疗信息处理装置
CN106844571A (zh) * 2017-01-03 2017-06-13 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN107391495A (zh) * 2017-06-09 2017-11-24 北京吾译超群科技有限公司 一种双语平行语料的句对齐方法
CN107451212A (zh) * 2017-07-14 2017-12-08 北京京东尚科信息技术有限公司 基于相关搜索的同义挖掘方法和装置
CN107562713A (zh) * 2016-06-30 2018-01-09 北京智能管家科技有限公司 同义文本的挖掘方法及装置
CN107748755A (zh) * 2017-09-19 2018-03-02 华为技术有限公司 同义词挖掘方法、装置、设备和计算机可读存储介质
CN107958078A (zh) * 2017-12-13 2018-04-24 北京百度网讯科技有限公司 信息生成方法和装置
CN109522547A (zh) * 2018-10-23 2019-03-26 浙江大学 基于模式学习的中文同义词迭代抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010013228A1 (en) * 2008-07-31 2010-02-04 Ginger Software, Inc. Automatic context sensitive language generation, correction and enhancement using an internet corpus
US20120197905A1 (en) * 2011-02-02 2012-08-02 Microsoft Corporation Information retrieval using subject-aware document ranker
CN102760134A (zh) * 2011-04-28 2012-10-31 北京百度网讯科技有限公司 一种同义词的挖掘方法和装置
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010013228A1 (en) * 2008-07-31 2010-02-04 Ginger Software, Inc. Automatic context sensitive language generation, correction and enhancement using an internet corpus
US20120197905A1 (en) * 2011-02-02 2012-08-02 Microsoft Corporation Information retrieval using subject-aware document ranker
CN102760134A (zh) * 2011-04-28 2012-10-31 北京百度网讯科技有限公司 一种同义词的挖掘方法和装置
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AM COHEN等: "Using co-occurrence network structure to extract synonymous gene and protein names from MEDLINE abstracts", 《BMC BIOINFORMATICS》 *
PETER D. TURNEY等: "Mining the Web for Synonyms: PMI-IR versus LSA on TOEFL", 《EUROPEAN CONFERENCE ON MACHINE LEARNING: ECML 2001》 *
宋宇轩: "基于搜索日志和点击日志的同义词挖掘的研究和实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈建超等: "基于特征词关联性的同义词集挖掘算法", 《计算机应用研究》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331398A (zh) * 2014-10-30 2015-02-04 百度在线网络技术(北京)有限公司 生成同义词对齐词典的方法及装置
WO2017063538A1 (zh) * 2015-10-12 2017-04-20 广州神马移动信息科技有限公司 挖掘相关词的方法、搜索方法、搜索***
CN105335351A (zh) * 2015-10-27 2016-02-17 北京信息科技大学 一种基于专利搜索日志用户行为的同义词自动挖掘方法
CN105335351B (zh) * 2015-10-27 2018-08-28 北京信息科技大学 一种基于专利搜索日志用户行为的同义词自动挖掘方法
CN106844325A (zh) * 2015-12-04 2017-06-13 北大医疗信息技术有限公司 医疗信息处理方法和医疗信息处理装置
CN106844325B (zh) * 2015-12-04 2022-01-25 北大医疗信息技术有限公司 医疗信息处理方法和医疗信息处理装置
CN106202038A (zh) * 2016-06-29 2016-12-07 北京智能管家科技有限公司 基于迭代的同义词挖掘方法及装置
CN107562713A (zh) * 2016-06-30 2018-01-09 北京智能管家科技有限公司 同义文本的挖掘方法及装置
CN106777283A (zh) * 2016-12-29 2017-05-31 北京奇虎科技有限公司 一种同义词的挖掘方法及装置
CN106777283B (zh) * 2016-12-29 2021-02-26 北京奇虎科技有限公司 一种同义词的挖掘方法及装置
CN106844571B (zh) * 2017-01-03 2020-04-07 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN106844571A (zh) * 2017-01-03 2017-06-13 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN107391495A (zh) * 2017-06-09 2017-11-24 北京吾译超群科技有限公司 一种双语平行语料的句对齐方法
CN107391495B (zh) * 2017-06-09 2020-08-21 北京同文世纪科技有限公司 一种双语平行语料的句对齐方法
CN107451212A (zh) * 2017-07-14 2017-12-08 北京京东尚科信息技术有限公司 基于相关搜索的同义挖掘方法和装置
CN107748755A (zh) * 2017-09-19 2018-03-02 华为技术有限公司 同义词挖掘方法、装置、设备和计算机可读存储介质
CN107748755B (zh) * 2017-09-19 2019-11-05 华为技术有限公司 同义词挖掘方法、装置、设备和计算机可读存储介质
WO2019056781A1 (zh) * 2017-09-19 2019-03-28 华为技术有限公司 同义词挖掘方法、装置、设备和计算机可读存储介质
CN107958078A (zh) * 2017-12-13 2018-04-24 北京百度网讯科技有限公司 信息生成方法和装置
CN109522547B (zh) * 2018-10-23 2020-09-18 浙江大学 基于模式学习的中文同义词迭代抽取方法
CN109522547A (zh) * 2018-10-23 2019-03-26 浙江大学 基于模式学习的中文同义词迭代抽取方法

Also Published As

Publication number Publication date
CN103942339B (zh) 2017-06-09

Similar Documents

Publication Publication Date Title
CN103942339A (zh) 同义词挖掘方法及装置
Maekawa et al. Balanced corpus of contemporary written Japanese
US10678820B2 (en) System and method for computerized semantic indexing and searching
CN102929870A (zh) 一种建立分词模型的方法、分词的方法及其装置
CN105404677A (zh) 一种基于树形结构的检索方法
CN112015907A (zh) 一种学科知识图谱快速构建方法、装置及存储介质
JP5250009B2 (ja) サジェスチョンクエリ抽出装置及び方法、並びにプログラム
Sembok et al. Arabic word stemming algorithms and retrieval effectiveness
Rychlý et al. Annotated amharic corpora
Chang et al. Enhancing POI search on maps via online address extraction and associated information segmentation
Elayeb et al. Combining semantic query disambiguation and expansion to improve intelligent information retrieval
Venkataraman et al. Instant search: A hands-on tutorial
Mosavi Miangah Constructing a large-scale english-persian parallel corpus
CN105426490A (zh) 一种基于树形结构的索引方法
Stanković et al. A bilingual digital library for academic and entrepreneurial knowledge management
Vashisht et al. Enhanced lexicon E-SLIDE framework for efficient sentiment analysis
Horák et al. Slovak national corpus
Kolthoff et al. Automated retrieval of graphical user interface prototypes from natural language requirements
Paramita et al. Collecting comparable corpora
bin Mohd Rosman et al. Bringing together over-and under-represented languages: Linking Wordnet to the SIL Semantic Domains
Sujatha et al. Evaluation of English-Telugu and English-Tamil Cross Language Information Retrieval System using Dictionary Based Query Translation Method
Lertnattee et al. Using Multicultural Herbal Information to Create Multi-pattern Herb Name Retrieval System
Alex et al. User-driven text mining of historical text
Cheng et al. A Study on the Best Practice for Constructing a Cross-lingual Ontology.
Mishra et al. Creation and Compilation of Hindi Newspaper Text Corpus.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 518057 5 C block 403-409 of Nanshan District software industrial base, Shenzhen, Guangdong.

Patentee after: Shenzhen easou world Polytron Technologies Inc

Address before: 518026 A5501-A, A tower, joint Plaza, Binhe Road and colored field road, Futian District, Shenzhen, Guangdong

Patentee before: Shenzhen Yisou Science & Technology Development Co., Ltd.

CP03 Change of name, title or address