语义识别方法和语义识别***
技术领域
本发明涉及语义识别技术领域,具体而言,涉及一种语义识别方法和一种语义识别***。
背景技术
随着互联网的飞速发展,尤其是社交网络泛在化对现实渗透,以微博为代表的用户生成内容在互联网上大量涌现。面对海量文本数据,基于关键字的检索仍是快速发现相关内容的有效手段。然而,关键词在不同上下文里往往表现不同的语义,仅有关键字并不能完全表达用户的检索需求。例如,使用关键词“苹果”检索文本,其返回结果有的属于手机行业,有的属于农产品行业,原因在于关键词“苹果”在不同的上下文语境中,有时表示公司的名称,有时表示一种水果。因此,准确识别关键词的语义是判断检索结果质量的关键。
相关技术中,为克服语义识别困难,提高检索质量,采用查询词扩展、伪反馈和领域本体(Ontology)知识库等技术进行语义识别:
(1)查询词扩展、伪反馈技术能够提高检索结果的准确性,但往往不能保证信息的完整性和较高的查全率;
(2)领域本体知识库的构建依赖专家知识以及大量手工标注精力,且存在自动构建、内容更新、领域迁移等困难。
因此,如何设计一种新的语义识别方案,以提高语义识别的准确性成为亟待解决的技术问题。
发明内容
本发明正是基于上述技术问题至少之一,提出了一种新的语义识别方案,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率,局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
有鉴于此,本发明提出了一种语义识别方法,包括:确定与关键词相关的多个参考词汇,以及与关键词相邻的局部文本;计算参考词汇属于局部文本的概率,并记作第一概率;在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,其中,第一参考词汇属于多种参考词汇。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率(可以为最大值或属于预设阈值范围的概率值),局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,关键词相邻的局部文本可以集中体现语境,而参考词汇紧密地关联于关键词的词义,例如,关键词为“苹果”,一类参考词汇是“手机”、“库克”、“Ipad”、“Iphone”和“一体机”等,另一类参考词汇是“果实”、“单价”、“树叶”、“种植”和“产量”等。在确定“苹果”相邻的局部文本后,计算每一类参考词汇属于局部文本的概率(即第一概率),例如,局部文本包括100个词汇,仅“手机”在局部文本中出现20次,根据统计概率第一概率为20%,如预设概率为10%,则认定“苹果”属于手机领域的语义。
值得特别指出的是,预设概率可以有技术人员进行修正,以保证局部语义识别的效率和准确率。
在上述技术方案中,优选地,还包括:在检测到全部参考词汇的第一概率小于预设概率时,确定关键词所属的全局文本;计算参考词汇属于全局文本的概率,并记作第二概率;确定第二概率最大的参考词汇作为第二参考词汇,并确定第二参考词汇相关的语义作为关键词的语义,其中,第二参考词汇属于多种参考词汇。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
在上述任一项技术方案中,优选地,计算参考词汇属于局部文本的概率,并记作第一概率,具体包括以下步骤:根据第一概率公式计算参考词汇属于局部文本的概率,其中,第一概率公式为Prob(kα|local_context)=∏Prob(wp|kα)×Prob(kα),Prob(kα|local_context)表征第一概率,Prob(wp|kα)表征局部文本的指定位置出现第一参考词汇的条件概率,Prob(kα)表征参考词汇为第一参考词汇的概率。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率,局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,wp表征候选词汇,local_context表征关键词局部文本,以所有候选词汇的乘积作为上述第一概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
在上述任一项技术方案中,优选地,在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,具体包括以下步骤:确定第一概率最大的参考词汇作为第一参考词汇;判断第一参考词汇的第一概率是否大于或等于预设概率;在判定第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义。
在该技术方案中,通过判断第一概率是否大于或等于预设概率,提升了语义识别的效率,其中,预设概率可以根据人工筛选过程确定,也可以通过服务器进行修改。
在上述任一项技术方案中,优选地,计算参考词汇属于全局文本的概率,并记作第二概率,具体包括以下步骤:根据第二概率公式计算参考词汇属于全局文本的概率,其中,第二概率公式为Prob(kα|global_context)=∏Prob(μ|kα)×Prob(kα),Prob(kα|global_context)表征第二概率,Prob(μ|kα)表征全局文本的指定位置出现第二参考词汇的条件概率,Prob(kα)表征参考词汇为第二参考词汇的概率。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,μ表征候选词汇,global_context表征关键词全局文本,以所有候选词汇的乘积作为上述第二概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
根据本发明第二方面,还提出了一种语义识别***,包括:确定单元,用于确定与关键词相关的多个参考词汇,以及与关键词相邻的局部文本;计算单元,用于计算参考词汇属于局部文本的概率,并记作第一概率;确定单元还用于:在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,其中,第一参考词汇属于多种参考词汇。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率(可以为最大值或属于预设阈值范围的概率值),局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,关键词相邻的局部文本可以集中体现语境,而参考词汇紧密地关联于关键词的词义,例如,关键词为“苹果”,一类参考词汇是“手机”、“库克”、“Ipad”、“Iphone”和“一体机”等,另一类参考词汇是“果实”、“单价”、“树叶”、“种植”和“产量”等。在确定“苹果”相邻的局部文本后,计算每一类参考词汇属于局部文本的概率(即第一概率),例如,局部文本包括100个词汇,仅“手机”在局部文本中出现20次,根据统计概率第一概率为20%,如预设概率为10%,则认定“苹果”属于手机领域的语义。
值得特别指出的是,预设概率可以有技术人员进行修正,以保证局部语义识别的效率和准确率。
在上述技术方案中,优选地,确定单元还用于:在检测到全部参考词汇的第一概率小于预设概率时,确定关键词所属的全局文本;计算单元还用于:计算参考词汇属于全局文本的概率,并记作第二概率;确定单元还用于:确定第二概率最大的参考词汇作为第二参考词汇,并确定第二参考词汇相关的语义作为关键词的语义,其中,第二参考词汇属于多种参考词汇。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
在上述任一项技术方案中,优选地,计算单元还用于:根据第一概率公式计算参考词汇属于局部文本的概率,其中,第一概率公式为Prob(kα|local_context)=∏Prob(wp|kα)×Prob(kα),Prob(kα|local_context)表征第一概率,Prob(wp|kα)表征局部文本的指定位置出现第一参考词汇的条件概率,Prob(kα)表征参考词汇为第一参考词汇的概率。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率,局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,wp表征候选词汇,local_context表征关键词局部文本,以所有候选词汇的乘积作为上述第一概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
在上述任一项技术方案中,优选地,确定单元还用于:确定第一概率最大的参考词汇作为第一参考词汇;语义识别***还包括:判断单元,用于判断第一参考词汇的第一概率是否大于或等于预设概率;确定单元还用于:在判定第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义。
在该技术方案中,通过判断第一概率是否大于或等于预设概率,提升了语义识别的效率,其中,预设概率可以根据人工筛选过程确定,也可以通过服务器进行修改。
在上述任一项技术方案中,优选地,计算单元还用于:根据第二概率公式计算参考词汇属于全局文本的概率,其中,第二概率公式为Prob(kα|global_context)=∏Prob(μ|kα)×Prob(kα),Prob(kα|global_context)表征第二概率,Prob(μ|kα)表征全局文本的指定位置出现第二参考词汇的条件概率,Prob(kα)表征参考词汇为第二参考词汇的概率。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,μ表征候选词汇,global_context表征关键词全局文本,以所有候选词汇的乘积作为上述第二概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
通过以上技术方案,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率,局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
附图说明
图1示出了根据本发明的实施例的语义识别方法的示意流程图;
图2示出了根据本发明的实施例的语义识别***的示意框图;
图3示出了根本本发明的实施例的局部文本的示意图;
图4示出了根据本发明的实施例的语义识别方案的示意流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用第三方不同于在此描述的第三方方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的语义识别方法的示意流程图。
如图1所示,根据本发明的实施例的语义识别方法,包括:步骤102,确定与关键词相关的多个参考词汇,以及与关键词相邻的局部文本;步骤104,计算参考词汇属于局部文本的概率,并记作第一概率;步骤106,在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,其中,第一参考词汇属于多种参考词汇。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率(可以为最大值或属于预设阈值范围的概率值),局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,关键词相邻的局部文本可以集中体现语境,而参考词汇紧密地关联于关键词的词义,例如,关键词为“苹果”,一类参考词汇是“手机”、“库克”、“Ipad”、“Iphone”和“一体机”等,另一类参考词汇是“果实”、“单价”、“树叶”、“种植”和“产量”等。在确定“苹果”相邻的局部文本后,计算每一类参考词汇属于局部文本的概率(即第一概率),例如,局部文本包括100个词汇,仅“手机”在局部文本中出现20次,根据统计概率第一概率为20%,如预设概率为10%,则认定“苹果”属于手机领域的语义。
值得特别指出的是,预设概率可以有技术人员进行修正,以保证局部语义识别的效率和准确率。
在上述技术方案中,优选地,还包括:在检测到全部参考词汇的第一概率小于预设概率时,确定关键词所属的全局文本;计算参考词汇属于全局文本的概率,并记作第二概率;确定第二概率最大的参考词汇作为第二参考词汇,并确定第二参考词汇相关的语义作为关键词的语义,其中,第二参考词汇属于多种参考词汇。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
在上述任一项技术方案中,优选地,计算参考词汇属于局部文本的概率,并记作第一概率,具体包括以下步骤:根据第一概率公式计算参考词汇属于局部文本的概率,其中,第一概率公式为Prob(kα|local_context)=∏Prob(wp|kα)×Prob(kα),Prob(kα|local_context)表征第一概率,Prob(wp|kα)表征局部文本的指定位置出现第一参考词汇的条件概率,Prob(kα)表征参考词汇为第一参考词汇的概率。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率,局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,wp表征候选词汇,local_context表征关键词局部文本,以所有候选词汇的乘积作为上述第一概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
在上述任一项技术方案中,优选地,在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,具体包括以下步骤:确定第一概率最大的参考词汇作为第一参考词汇;判断第一参考词汇的第一概率是否大于或等于预设概率;在判定第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义。
在该技术方案中,通过判断第一概率是否大于或等于预设概率,提升了语义识别的效率,其中,预设概率可以根据人工筛选过程确定,也可以通过服务器进行修改。
在上述任一项技术方案中,优选地,计算参考词汇属于全局文本的概率,并记作第二概率,具体包括以下步骤:根据第二概率公式计算参考词汇属于全局文本的概率,其中,第二概率公式为Prob(kα|global_context)=∏Prob(μ|kα)×Prob(kα),Prob(kα|global_context)表征第二概率,Prob(μ|kα)表征全局文本的指定位置出现第二参考词汇的条件概率,Prob(kα)表征参考词汇为第二参考词汇的概率。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,μ表征候选词汇,global_context表征关键词全局文本,以所有候选词汇的乘积作为上述第二概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
图2示出了根据本发明的实施例的语义识别***的示意框图。
如图2所示,根据本发明的实施例的语义识别***200,包括:确定单单元202,用于确定与关键词相关的多个参考词汇,以及与关键词相邻的局部文本;计算单元204,用于计算参考词汇属于局部文本的概率,并记作第一概率;确定单元202还用于:在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,其中,第一参考词汇属于多种参考词汇。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率(可以为最大值或属于预设阈值范围的概率值),局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,关键词相邻的局部文本可以集中体现语境,而参考词汇紧密地关联于关键词的词义,例如,关键词为“苹果”,一类参考词汇是“手机”、“库克”、“Ipad”、“Iphone”和“一体机”等,另一类参考词汇是“果实”、“单价”、“树叶”、“种植”和“产量”等。在确定“苹果”相邻的局部文本后,计算每一类参考词汇属于局部文本的概率(即第一概率),例如,局部文本包括100个词汇,仅“手机”在局部文本中出现20次,根据统计概率第一概率为20%,如预设概率为10%,则认定“苹果”属于手机领域的语义。
值得特别指出的是,预设概率可以有技术人员进行修正,以保证局部语义识别的效率和准确率。
在上述技术方案中,优选地,确定单元202还用于:在检测到全部参考词汇的第一概率小于预设概率时,确定关键词所属的全局文本;计算单元204还用于:计算参考词汇属于全局文本的概率,并记作第二概率;确定单元202还用于:确定第二概率最大的参考词汇作为第二参考词汇,并确定第二参考词汇相关的语义作为关键词的语义,其中,第二参考词汇属于多种参考词汇。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
在上述任一项技术方案中,优选地,计算单元204还用于:根据第一概率公式计算参考词汇属于局部文本的概率,其中,第一概率公式为Prob(kα|local_context)=∏Prob(wp|kα)×Prob(kα),Prob(kα|local_context)表征第一概率,Prob(wp|kα)表征局部文本的指定位置出现第一参考词汇的条件概率,Prob(kα)表征参考词汇为第一参考词汇的概率。
在该技术方案中,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率,局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,wp表征候选词汇,local_context表征关键词局部文本,以所有候选词汇的乘积作为上述第一概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
在上述任一项技术方案中,优选地,确定单元202还用于:确定第一概率最大的参考词汇作为第一参考词汇;语义识别***200还包括:判断单元206,用于判断第一参考词汇的第一概率是否大于或等于预设概率;确定单元202还用于:在判定第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义。
在该技术方案中,通过判断第一概率是否大于或等于预设概率,提升了语义识别的效率,其中,预设概率可以根据人工筛选过程确定,也可以通过服务器进行修改。
在上述任一项技术方案中,优选地,计算单元204还用于:根据第二概率公式计算参考词汇属于全局文本的概率,其中,第二概率公式为Prob(kα|global_context)=∏Prob(μ|kα)×Prob(kα),Prob(kα|global_context)表征第二概率,Prob(μ|kα)表征全局文本的指定位置出现第二参考词汇的条件概率,Prob(kα)表征参考词汇为第二参考词汇的概率。
在该技术方案中,通过计算候选词汇在全局文本的概率,并记作第二概率,以第二概率最大的参考词汇的语义确定为关键词的语义,进一步地改善了局部文本的局限性,也即在局部文本用词比较丰富的情况下,参考词汇属于局部文本的概率偏低,因此通过全局文本中概率最大的参考词汇的语义确定关键词的语义,进一步地提升了语义识别的可靠性和准确性。
其中,计算每个候选词汇属于局部文本的条件概率,kα表征关键词,μ表征候选词汇,global_context表征关键词全局文本,以所有候选词汇的乘积作为上述第二概率。
另外,每个候选词汇可以是人工筛选或者服务器根据候选词汇与关键词的关联使用频率选取。
根据本发明的实施例的语义识别方案至少包括以下实施方式。
语义识别***包括:语料学习模块,关键词局部搭配识别模块、关键词全局语境识别模块。
所述语料学习模块包括:语料整理及预处理,关键词语义标注,关键词在语料中的局部搭配收集,关键词在语料中的全局语境收集。
语料整理及预处理是指通过互联网文本采集技术实现包含关键词的文本收集和语义标注。通常使用关键词简单匹配采集或检索得到的大量文本,包含噪声数据,且语义不尽相同。因此提出根据辅助关键词进行自动语义标注。辅助关键词是指不同语义下经常和关键词一起出现的相关词。
假设语料经过去除噪声数据后,包含关键词k的文本集合为Ω(k),且存在n种语义。与关键词k的第α种语义相关的辅助关键词记为W
α,同时包含关键词k和W
α的集合记为Ω(k,W
α)。根据训练集Ω(k,W
α),α=1,2,3……,n,采用支持向量机(Support VectorMachine)对除关键词以外的文本
进行分类,最后得到的n个语义集合Ω(k
α),分别对应关键词k出现在n个不同语义环境时的语料。
关键词在语料中的局部搭配收集,对关键词k的每个语义集合Ω(kα),统计关键词k在第α种语义上下文环境中,近邻取词的概率Prob(wp|kα),以及语义的先验概率Prob(kα)。注意到近邻取词的概率不但和词w有关,也和词w出现的位置p有关。p为近邻词的位置,取值整数,范围为[-Δ,-1]∪[1,Δ],一般Δ取值为3。图3为关键词的局部搭配示意图,局部文本的词汇分布为“W-△,……,W‐2,W‐1,kα,W1,W2,……,W△”。
关键词在语料中的全局语境收集,是不在关键词的局部范围,即去除掉关键词及其左右近邻词,剩余的文本内容,统计Prob(μ|kα),表示关键词k在第α种语义环境使用时,全局语境中词μ出现的概率。
所述关键词局部搭配识别模块,利用语料学习模块得到的局部搭配,根据公式(1)计算关键词k属于不同语义的可能性:
Prob(kα|local_context)=∏Prob(wp|kα)×Prob(kα)----(1),
其中kα表示关键词k取第α种语义类别,p为近邻词的位置,取值整数,范围为[-Δ,-1]∪[1,Δ]。当公式(1)中最大值超过局部搭配的阈值δ时,Max(Prob(kα|local_context))≥δ,那么认为关键词k属于第α种语义类别。
所述关键词全局语境识别模块,当局部搭配不能判断关键词的语义类别式,需要进一步利用语料学习模块得到的全局语境知识,根据公式(2)计算关键词k属于不同语义的可能性:
Prob(kα|global_context)=∏Prob(μ|kα)×Prob(kα)----(2),
其中,μ表示关键词所在文档中非近邻词的下标。最后,将全局语境可能性最大的语义类别α作为关键词的语义类别。
下面结合图4对根据本发明的语义识别方法进行具体说明,以关键词“钓鱼”为例,包括以下步骤确定语义:
步骤402,确定包含关键词的局部文本,以及参考词汇属于局部文本的概率(即第一概率),确定关键词k为“钓鱼”,语义有2种。对于第1类语义1采用辅助关键词“鱼饵”,“鱼竿”;对于第2类语义采用辅助关键词“网络”、“假冒”。收集包含关键词“钓鱼”的大规模语料集Ω(k):
1)在河流、小溪、大海等有水的地方,垂钓、捕鱼的本义;
2)互联网上用欺骗性的电子邮件或伪造的Web站点来进行的诈骗活动。
步骤404,判断第一概率是否大于或等于预设阈值,若是,则执行步骤410,若否,则执行步骤406,把(“钓鱼”AND(“鱼饵”OR“鱼竿”))和(“钓鱼”AND(“网络”OR“假冒”))分别命中文本集合Ω1和Ω2,使用支持向量机(Support Vector Machine)预测剩余文本关键词的语义类别,完成自动语义标注。
步骤406,确定包含关键词的局部文本,以及参考词汇属于全局文本的概率(即第二概率),从以上语义集合中训练模型参数,如局部搭配概率Prob(wp|kα),语义先验概率Prob(kα),全局语境词概率Prob(μ|kα),完成语料学习模块功能。
最典型的网络钓鱼攻击将收信人引诱到一个通过精心设计与目标组织的网站非常相似的网站上,并获取收信人在此网站上输入的个人敏感信息,通常这个攻击过程不会让受害者警觉。
此处局部搭配词有“典型”,“网络”,“攻击”,“收信人”,“引诱”,使用公式(1),结合步骤406得到的参数,计算Prob(kα|local_context)。如果步骤402的语料集覆盖充分,步骤406得到的参数合理,此处容易发现在语义类别2比语义类别1得分要高。如果超过局部搭配的阈值δ,即可判断该文本中的“钓鱼”属于语义类别2,完成语义识别.
步骤408,以第二概率最大的参考词汇对应的语义作为关键词的语义,假设使用“钓鱼”得到如下一条文本:
把关键词“钓鱼”近邻词去掉,文本剩余的词带入公式(2),结合步骤3得到的参数,计算Prob(kα|global_context),发现语义类别2比语义类别1得分要高,则可判断该文本中的“钓鱼”属于语义类别2,完成语义识别。
步骤410,对关键词的语义进行标注,并更新语料词汇。
以上结合附图详细说明了本发明的技术方案,考虑到相关技术中如何设计一种新的语义识别方案,以提高语义识别的准确性的技术问题,本发明提出了一种新的语义识别方案,通过确定关键词的多个参考词汇,并结合关键词的局部文本确定参考词汇的第一概率,局部文本和参考词汇的第一概率反映了关键词的使用语境,也即结合语境对关键词进行识别,提高了语义识别的准确性,另外,通过进一步地结合关键词所属的全局文本,克服了局部文本的局限性,进一步地提高了语义识别的可靠性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。