CN108829657A - 平滑处理方法和*** - Google Patents

平滑处理方法和*** Download PDF

Info

Publication number
CN108829657A
CN108829657A CN201810344157.4A CN201810344157A CN108829657A CN 108829657 A CN108829657 A CN 108829657A CN 201810344157 A CN201810344157 A CN 201810344157A CN 108829657 A CN108829657 A CN 108829657A
Authority
CN
China
Prior art keywords
occurrence
frequency
word
probability
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810344157.4A
Other languages
English (en)
Other versions
CN108829657B (zh
Inventor
李贤�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201810344157.4A priority Critical patent/CN108829657B/zh
Publication of CN108829657A publication Critical patent/CN108829657A/zh
Application granted granted Critical
Publication of CN108829657B publication Critical patent/CN108829657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,特别是涉及一种平滑处理方法和***,方法包括以下步骤:统计缺失词语在目标语料库中的第一出现次数,其中,缺失词语为在原语料库中出现次数为0的词语;根据第一出现次数计算缺失词语的归一化频率指标;根据归一化频率指标和剩余概率计算缺失词语的平滑概率,根据平滑概率对缺失词语进行平滑处理,其中,剩余概率为从原语料库中出现次数小于或等于k次的词语的出现概率之和,k为正整数。上述方法和***能够解决了传统的平滑处理方式效果差的问题,区分缺失词语可能出现的词语本身出错和语料本身覆盖不足这两种情况,对缺失词语进行平滑处理,减少误判,增强平滑处理效果。

Description

平滑处理方法和***
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种平滑处理方法和***。
背景技术
语言模型是处理自然语言过程中,根据语言客观事实而进行的语言抽象数学建模。语言模型会出现数据缺失,对于数据缺失,需要通过平滑算法来解决。平滑算法通过劫取已出现词语的概率,获得用于再分配的剩余概率,将可用于分配的概率按照一定规则分配给缺失词语,缺失词语分配而得的概率称为平滑概率。
发明人发现在传统技术中存在以下问题,以Good Turing平滑算法为例,在 GoodTuring平滑算法中,通过平均分配的方式分配剩余频率,缺失数据进行平滑,但是平均分配的方式未必符合真实情况。因为数据缺失来自两种情况,一是词语本身出错,稀有词语在任何语料中都不可能出现,二是可能只是因为语料本身覆盖不够,出现未登录词语。传统的Good Turing平滑算法无法区分词语本身出错和语料本身覆盖不足这两种情况,导致GoodTuring平滑算法在实际应用中会造成大量误判。
综上所述,传统的平滑处理方式效果差。
发明内容
基于此,有必要针对传统的平滑处理方式效果差问题,提供一种平滑处理方法和***。
一种平滑处理方法,包括以下步骤:统计缺失词语在目标语料库中的第一出现次数,其中,缺失词语为在原语料库中出现次数为0的词语;根据第一出现次数计算缺失词语的归一化频率指标;根据归一化频率指标和剩余概率计算缺失词语的平滑概率,并根据平滑概率对缺失词语进行平滑处理,其中,剩余概率为从原语料库中出现次数小于或等于k次的词语的出现概率之和,k为正整数。
上述平滑处理方法,统计缺失词语在目标语料库中的第一出现次数,根据第一出现次数计算缺失词语的归一化频率指标,根据归一化频率指标和剩余概率计算缺失词语的平滑概率,并根据平滑概率对缺失词语进行平滑处理;通过引入缺失词语在目标语料库中的第一出现次数,计算缺失词语的归一化频率指标,由缺失词语的归一化频率指标分配剩余概率,区分缺失词语可能出现的词语本身出错和语料本身覆盖不足这两种情况,获得反映缺失词语真实情况的平滑概率,对缺失词语进行平滑处理,减少误判,增强平滑处理效果。
进一步地,缺失词语为多个;根据第一出现次数计算缺失词语的归一化频率指标的步骤,包括以下步骤:计算各第一出现次数的对数值;对对数值求和,得到对数值之和;分别将各第一出现次数的对数值分别除以对数值之和,得到对应各缺失词语的归一化频率指标。
上述平滑处理方法,通过对各第一出现次数进行数值处理获得归一化频率指标,使得第一出现次数的归一化处理简便,另外对数的处理可以适合出现次数数值较大的情况。
进一步地,计算各第一出现次数的对数值的步骤,包括以下步骤:将各第一出现次数分别增加数值N,获得各个绝对出现次数;计算各绝对出现次数的对数值,将各绝对出现次数的对数值分别作为各第一出现次数的对数值,其中,N为大于1的正整数。
上述平滑处理方法,通过对选取的各第一出现次数分别增加数值N后,进行对数处理,可以避免第一出现次数为0导致无法进行对数处理的情况。
进一步地,根据归一化频率指标和剩余概率计算缺失词语的平滑概率的步骤,包括以下步骤:将缺失词语的归一化频率指标与第一剩余频率的乘积作为缺失词语的平滑概率。
上述平滑处理方法,通过乘法处理,按照缺失词语的归一化频率指标分配剩余概率,对缺失词语进行平滑处理,增强平滑处理效果。
进一步地,k为大于1的正整数;在根据归一化频率指标和剩余概率计算缺失词语的平滑概率的步骤之前,还包括以下步骤:获取各n元词语在原语料库中的第二出现次数,并计算各第二出现次数的和值;统计第二出现次数小于或等于k次的各n元词语的第三出现次数,并计算各第三出现次数的和值;根据各第二出现次数的和值以及各第三出现次数的和值计算剩余概率。
上述平滑处理方法,通过统计第二出现次数小于或等于k次的词语的第三出现次数以及各n元词语在原语料库中的第二出现次数,计算剩余概率,对缺失词语进行平滑处理,增强了平滑处理效果。
进一步地,剩余概率为从原语料库中出现次数等于1次的词语的出现概率之和;在根据归一化频率指标和剩余概率计算缺失词语的平滑概率的步骤之前,还包括以下步骤:获取各n元词语在原语料库中的第二出现次数并计算各第二出现次数的和值;统计第二出现次数为1的单次出现词语个数;根据各第二出现次数的和值以及单次出现词语个数计算剩余概率。
上述平滑处理方法,通过统计第二出现次数为1的单次出现词语个数及计算各第二出现次数的和值,计算剩余概率,对缺失词语进行平滑处理,增强了平滑处理效果。
进一步地,在根据归一化频率指标和剩余概率计算缺失词语的平滑概率的步骤之后,还包括以下步骤:获取n元词语在原语料库中的第二出现次数;根据第二出现次数计算已出现词语劫取后的第一出现概率;根据平滑概率和第一出现概率,对缺失词语所在的n元语法模型进行训练。
上述平滑处理方法,通过计算第一出现概率,根据平滑概率和第一出现概率,对缺失词语所在的n元语法模型进行训练,建立平滑处理后的n元语法模型,对n元语法模型进行平滑处理,增强平滑处理效果。
进一步地,目标语料库为以搜索引擎网站为入口的互联网语料库;第一出现次数为缺失词语在搜索引擎网站中搜索后的相关结果数。
上述平滑处理方法,借助互联网搜索引擎在互联网数据网络的数据库搜索缺失词语,可以扩大语料的覆盖范围,获得的第一出现次数能够符合真实情况,对数据缺失出现的两种情况进行区分,增强平滑处理效果。
一种平滑处理***,包括:次数统计模块,用于统计缺失词语在目标语料库中的第一出现次数,其中,缺失词语为在原语料库中出现次数为0的词语;归一化频率指标计算模块,用于根据第一出现次数计算缺失词语的归一化频率指标;平滑处理模块,用于根据归一化频率指标和剩余概率计算缺失词语的平滑概率,并根据平滑概率对缺失词语进行平滑处理,其中,剩余概率为从原语料库中出现次数小于或等于k次的词语的出现概率之和,k为正整数。
上述平滑处理***,统计缺失词语在目标语料库中的第一出现次数,根据第一出现次数计算缺失词语的归一化频率指标,根据归一化频率指标和剩余概率计算缺失词语的平滑概率,并根据平滑概率对缺失词语进行平滑处理;通过引入缺失词语在目标语料库中的第一出现次数,计算缺失词语的归一化频率指标,由缺失词语的归一化频率指标分配剩余概率,区分缺失词语可能出现的词语本身出错和语料本身覆盖不足这两种情况,获得反映缺失词语真实情况的平滑概率,对缺失词语进行平滑处理,减少误判,增强平滑处理效果。
一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述平滑处理方法。
一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述平滑处理方法。
附图说明
图1为本发明一个实施例的平滑处理方法的流程图;
图2为本发明一个实施例的平滑处理***的结构示意图;
图3为本发明一个具体实施例的平滑处理方法的流程图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。
参见图1所示,为本发明一个实施例的平滑处理方法的流程图。该实施例中的平滑处理方法,包括以下步骤:
步骤S110:统计缺失词语在目标语料库中的第一出现次数,其中,缺失词语为在原语料库中出现次数为0的词语。
本步骤中,由于缺失词语为在原语料库中出现次数为0的词语,在分配平滑概率的过程,无法区分数据缺失中的词语本身出错和语料本身覆盖不足这两种情况,因此需要引入可以区分上述两种情况的参数来分配平滑概率。于是,在目标语料库中,统计缺失词语的出现次数,获得第一出现次数。缺失词语在目标语料库中出现,可以反映出语料本身覆盖不足;缺失词语在目标语料库中不出现,或者出现次数极少,反映出词语本身出错。在带有搜索或查找功能的目标语料库中,可以通过搜索或查找缺失词语,将查找结果数作为第一出现次数。其中,缺失词语为n元词语,n元词语是n元语法模型中由n个字组成的词语,n-1元词语是指n元语法模型中由n-1个字组成的词语,n为大于1的正整数。
在一个实施例中,目标语料库是数据量较大的语料库。
可选地,目标语料库可以是互联网数据网络的数据库,还可以是知识领域数据库,如专利数据库、学术文献数据库等,或者自建的数据库,如存储业务文件的数据库等;目标语料库也可以是书籍或文本的内容,如字典、各个行业的技术手册、世界名著等。缺失词语可以是某个知识领域中常见词语,由于语料覆盖的领域不同,会导致数据缺失的情况,因此可以针对特定知识领域的目标语料库获得第一出现次数,针对特定知识领域的缺失词语进行平滑处理。另外,针对特定知识领域的平滑处理,能够增强对应语言模型在特定知识领域的应用效果,提高语言处理能力。
步骤S120:根据第一出现次数计算缺失词语的归一化频率指标。
在本步骤中,为了按照一定比例对剩余概率进行分配,需要对第一出现次数进行归一化处理,获得归一化频率指标,在后续处理中按照归一化频率指标对剩余概率进行分配。按照缺失词语的第一出现次数在所有第一出现次数中所占的比例,计算缺失词语的归一化频率指标。归一化处理后,所有缺失词语的归一化频率指标之和等于1。
步骤S130:根据归一化频率指标和剩余概率计算缺失词语的平滑概率,并根据平滑概率对缺失词语进行平滑处理,其中,剩余概率为从原语料库中出现次数小于或等于k次的词语的出现概率之和,k为正整数。
将原语料库中已出现词语的出现概率按照一定比例进行降低,使得所有已出现词语的概率之和小于1,概率的分布出现余量,出现的余量为剩余概率,即为从原语料库中出现次数小于或等于k次的词语的出现概率之和,k为正整数。假设原语料库中已出现词语A、B、C、D、E的概率分别为0.5、0.4、0.3、0.2 和0.1,分别按照10%、20%、30%、40%和50%的比例进行降低,出现的余量等于0.5×0.1+0.4×0.2+0.3×0.3+0.2×0.4+0.1×0.5=0.35,即剩余概率为0.35。
在本步骤中,根据归一化频率指标分配剩余概率,获得缺失词语的平滑概率。将剩余概率,按照归一化频率指标的比例进行分配,计算后获得缺失词语的平滑概率。
上述平滑处理方法,统计缺失词语在目标语料库中的第一出现次数,根据第一出现次数计算缺失词语的归一化频率指标,根据归一化频率指标和剩余概率计算缺失词语的平滑概率,并根据平滑概率对缺失词语进行平滑处理;通过引入缺失词语在目标语料库中的第一出现次数,计算缺失词语的归一化频率指标,由缺失词语的归一化频率指标分配剩余概率,区分缺失词语可能出现的词语本身出错和语料本身覆盖不足这两种情况,获得反映缺失词语真实情况的平滑概率,对缺失词语进行平滑处理,减少误判,增强平滑处理效果。
进一步地,缺失词语为多个;根据第一出现次数计算缺失词语的归一化频率指标的步骤,包括以下步骤:
步骤S121:计算各第一出现次数的对数值;步骤S122:对对数值求和,得到对数值之和;步骤S123:分别将各第一出现次数的对数值分别除以对数值之和,得到对应各缺失词语的归一化频率指标。
假如,缺失词语AA、AB、BC、BD和CE的第一出现次数分别为1000、90000、85000、6000和450,则缺失词语AA的第一出现次数对数值 fAA=log1000=3,对数值之和为19.3150,则缺失词语AA的归一化频率指标为 0.155。
上述平滑处理方法,通过对各第一出现次数进行数值处理获得归一化频率指标,使得第一出现次数的归一化处理简便,另外对数的处理可以适合出现次数数值较大的情况。
进一步地,计算各第一出现次数的对数值的步骤,包括以下步骤:
步骤S1211:将各第一出现次数分别增加数值N,获得各个绝对出现次数;步骤S1212:计算各绝对出现次数的对数值,将各绝对出现次数的对数值分别作为各第一出现次数的对数值,其中,N为大于1的正整数。
假如,对于未出现的二元词语wjwi,第一出现次数为考虑为0和为1的情况,设绝对出现次数为缺失词语AA、AB、BC、BD 和CE的第一出现次数分别为1000、90000、85000、6000和450,N为2,则缺失词语AA的第一出现次数对数值fAA=log(1000+2)=3.0009,对数值之和为 19.3180,则缺失词语AA的归一化频率指标为0.155。
上述平滑处理方法,通过对选取的各第一出现次数分别增加数值N后,进行对数处理,可以避免第一出现次数为0导致无法进行对数处理的情况。
进一步地,根据归一化频率指标和剩余概率计算缺失词语的平滑概率的步骤,包括以下步骤:
将缺失词语的归一化频率指标与第一剩余频率的乘积作为缺失词语的平滑概率。
假如,第一剩余频率为0.43,当缺失词语AA的归一化频率指标为0.155时,缺失词语AA的平滑概率为0.0665。
本步骤中,将缺失词语的归一化频率指标与第一剩余频率的乘积作为缺失词语的平滑概率。通过乘法处理,按照缺失词语的归一化频率指标分配剩余概率。
上述平滑处理方法,通过乘法处理,按照缺失词语的归一化频率指标分配剩余概率,对缺失词语进行平滑处理,增强平滑处理效果。
进一步地,k为大于1的正整数;
在根据归一化频率指标和剩余概率计算缺失词语的平滑概率的步骤之前,还包括以下步骤:
步骤S141:获取各n元词语在原语料库中的第二出现次数,并计算各第二出现次数的和值;步骤S142:统计第二出现次数小于或等于k次的各n元词语的第三出现次数,并计算各第三出现次数的和值;步骤S143:根据各第二出现次数的和值以及各第三出现次数的和值计算剩余概率。
假如,k等于2,统计n元词语在原语料库中的第二出现次数,并计算各第二出现次数的和值,即获得所有出现词语的出现总次数;统计第二出现次数为2 的出现词语个数n2和第二出现次数为1的出现词语个数n1,则第二出现次数为 2的出现词语的第三出现次数为2n2,第二出现次数为1的出现词语的第三出现次数为1n1,2n2+n1为各第三出现次数的和值,各第三出现次数的和值除以各第二出现次数的和值的商即为计算的剩余概率。
上述平滑处理方法,通过统计第二出现次数小于或等于k次的词语的第三出现次数以及各n元词语在原语料库中的第二出现次数,计算剩余概率,对缺失词语进行平滑处理,增强了平滑处理效果。
进一步地,剩余概率为从原语料库中出现次数等于1次的词语的出现概率之和;
在根据归一化频率指标和剩余概率计算缺失词语的平滑概率的步骤之前,还包括以下步骤:
步骤S144:获取各n元词语在原语料库中的第二出现次数并计算各第二出现次数的和值;步骤S145:统计第二出现次数为1的单次出现词语个数;步骤 S146:根据各第二出现次数的和值以及单次出现词语个数计算剩余概率。
假如以n元语法模型为例,r为n元词语在原语料库中的第二出现次数,nr是原语料库中恰好出现r次的n元词语的个数,nr+1是原语料库中恰好出现r+1 次的n元词语的个数,根据nr降低r,获得降低后的出现次数r*。降低r相当于从原语料库中已出现词语的出现概率中劫取概率,将已出现词语的出现概率按照一定比例进行降低,使得所有已出现词语的概率之和小于1,概率的分布出现余量。r*满足以下公式:
对于第二出现次数为r的n元词语在原语料库中按照一定比例进行降低后的第一出现概率为:其中即N为各第二出现次数的和值。n元语法模型降低后的出现概率之和为即剩余概率为其中n1为第二出现次数为1的已出现词语的单次出现词语个数。因此获取n元词语在原语料库中的第二出现次数r,计算第二出现次数之和N,统计第二出现次数为1的单次出现词语个数n1,根据单次出现词语个数n1和第二出现次数之和N可计算剩余概率
上述平滑处理方法,通过统计第二出现次数为1的单次出现词语个数及计算各第二出现次数的和值,计算剩余概率,对缺失词语进行平滑处理,增强了平滑处理效果。
进一步地,在根据归一化频率指标和剩余概率计算缺失词语的平滑概率的步骤之后,还包括以下步骤:
步骤S151:获取n元词语在原语料库中的第二出现次数;步骤S152:根据第二出现次数计算已出现词语劫取后的第一出现概率;步骤S153:根据平滑概率和第一出现概率,对缺失词语所在的n元语法模型进行训练。
假如以n元语法模型为例,进行本发明一个实施例的平滑处理方法前的2 元语法模型中,获取n元词语在原语料库中的第二出现次数r,nr是原语料库中恰好出现r次的n元词语的个数,根据nr降低r,获得降低后的出现次数r*。降低r相当于从原语料库中已出现词语的出现概率中劫取概率,将已出现词语的出现概率按照一定比例进行降低,使得所有已出现词语的概率之和小于1,概率的分布出现余量。r*满足以下公式:
对于第二出现次数为r的n元词语在原语料库中按照一定比例进行降低后的第一出现概率为:其中即N为第二出现次数之和。
根据平滑概率和第一出现概率,对缺失词语所在的n元语法模型进行训练,建立平滑处理后的n元语法模型。
上述平滑处理方法,通过计算第一出现概率,根据平滑概率和第一出现概率,对缺失词语所在的n元语法模型进行训练,建立平滑处理后的n元语法模型,对n元语法模型进行平滑处理,增强平滑处理效果。
进一步地,目标语料库为以搜索引擎网站为入口的互联网语料库;第一出现次数为缺失词语在搜索引擎网站中搜索后的相关结果数。
目标语料库可以是以搜索引擎网站为入口的互联网数据网络的数据库,并且可以借助互联网搜索引擎网站中搜索后的相关结果数,作为缺失词语在目标语料库的第一出现次数。
上述平滑处理方法,借助互联网搜索引擎在互联网数据网络的数据库搜索缺失词语,可以扩大语料的覆盖范围,获得的第一出现次数能够符合真实情况,对数据缺失出现的两种情况进行区分,增强平滑处理效果。
参见图2所示,为本发明一个实施例的平滑处理***的结构示意图。该实施例中的平滑处理***,包括:
次数统计模块210,用于统计缺失词语在目标语料库中的第一出现次数,其中,缺失词语为在原语料库中出现次数为0的词语;
归一化频率指标计算模块220,用于根据第一出现次数计算缺失词语的归一化频率指标;
平滑处理模块230,用于根据归一化频率指标和剩余概率计算缺失词语的平滑概率,并根据平滑概率对缺失词语进行平滑处理,其中,剩余概率为从原语料库中出现次数小于或等于k次的词语的出现概率之和,k为正整数。
上述平滑处理***,统计缺失词语在目标语料库中的第一出现次数,根据第一出现次数计算缺失词语的归一化频率指标,根据归一化频率指标和剩余概率计算缺失词语的平滑概率,并根据平滑概率对缺失词语进行平滑处理;通过引入缺失词语在目标语料库中的第一出现次数,计算缺失词语的归一化频率指标,由缺失词语的归一化频率指标分配剩余概率,区分缺失词语可能出现的词语本身出错和语料本身覆盖不足这两种情况,获得反映缺失词语真实情况的平滑概率,对缺失词语进行平滑处理,减少误判,增强平滑处理效果。
进一步地,缺失词语为多个,归一化频率指标计算模块220计算各第一出现次数的对数值;对对数值求和,得到对数值之和;分别将各第一出现次数的对数值分别除以对数值之和,得到对应各缺失词语的归一化频率指标。
上述平滑处理***,通过对各第一出现次数进行数值处理获得归一化频率指标,使得第一出现次数的归一化处理简便,另外对数的处理可以适合出现次数数值较大的情况。
进一步地,归一化频率指标计算模块220将各第一出现次数分别增加数值N,获得绝对出现次数;计算各绝对出现次数的对数值,将各绝对出现次数的对数值分别作为第一出现次数的对数值,其中,N为大于1的正整数。
上述平滑处理***,通过对选取的各第一出现次数分别增加数值N后,进行对数处理,可以避免第一出现次数为0导致无法进行对数处理的情况。
进一步地,平滑处理模块230将缺失词语的归一化频率指标与第一剩余频率的乘积作为缺失词语的平滑概率。
上述平滑处理***,通过乘法处理,按照缺失词语的归一化频率指标分配剩余概率,对缺失词语进行平滑处理,增强平滑处理效果。
进一步地,k为大于1的正整数,平滑处理模块230获取各n元词语在原语料库中的第二出现次数,并计算各第二出现次数的和值;统计第二出现次数小于或等于k次的各n元词语的第三出现次数,并计算各第三出现次数的和值;根据各第二出现次数的和值以及各第三出现次数的和值计算剩余概率。
上述平滑处理***,通过统计第二出现次数小于或等于k次的词语的第三出现次数以及各n元词语在原语料库中的第二出现次数,计算剩余概率,对缺失词语进行平滑处理,增强了平滑处理效果。
进一步地,剩余概率为从原语料库中出现次数等于1次的词语的出现概率之和,平滑处理模块230获取各n元词语在原语料库中的第二出现次数并计算各第二出现次数的和值;统计第二出现次数为1的单次出现词语个数;根据各第二出现次数的和值以及单次出现词语个数计算剩余概率。
上述平滑处理***,通过统计第二出现次数为1的单次出现词语个数及计算各第二出现次数的和值,计算剩余概率,对缺失词语进行平滑处理,增强了平滑处理效果。
进一步地,平滑处理模块230获取n元词语在原语料库中的第二出现次数;
根据第二出现次数计算已出现词语劫取后的第一出现概率;根据平滑概率和第一出现概率,对缺失词语所在的n元语法模型进行训练。
上述平滑处理***,通过计算第一出现概率,根据平滑概率和第一出现概率,对缺失词语所在的n元语法模型进行训练,建立平滑处理后的n元语法模型,对n元语法模型进行平滑处理,增强平滑处理效果。
进一步地,次数统计模块210中目标语料库为以搜索引擎网站为入口的互联网语料库;第一出现次数为缺失词语在搜索引擎网站中搜索后的相关结果数。
上述平滑处理***,借助互联网搜索引擎在互联网数据网络的数据库搜索缺失词语,可以扩大语料的覆盖范围,获得的第一出现次数能够符合真实情况,对数据缺失出现的两种情况进行区分,增强平滑处理效果。
一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述平滑处理方法。
一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述平滑处理方法。
根据上述本发明的平滑处理方法,本发明还提供一种计算机设备和计算机存储介质,用于通过程序实现上述的平滑处理方法。
参见图3所示,为本发明一个具体实施例的平滑处理方法的流程图。该实施例中的平滑处理方法,包括以下步骤:
计算剩余概率。在n元语法模型中,将已出现词语的出现概率按照一定比例进行降低,使得所有已出现词语的概率之和小于1,概率的分布出现余量,获得剩余概率。获取n元词语在原语料库中的第二出现次数r,nr是原语料库中恰好出现r次的n元词语的个数,nr+1是原语料库中恰好出现r+1次的n元词语的个数,根据nr降低r,获得降低后的出现次数r*。降低r相当于从原语料库中已出现词语的出现概率中劫取概率,将已出现词语的出现概率按照一定比例进行降低。r*满足以下公式:
对于第二出现次数为r的n元词语在原语料库中按照一定比例进行降低后的第一出现概率为:其中即N为各第二出现次数的和值。n元语法模型降低后的出现概率之和为即剩余概率为其中n1为第二出现次数为1单次出现词语个数。因此获取n元词语在原语料库中的第二出现次数r,计算第二出现次数之和N,统计第二出现次数为1的单次出现词语个数n1,根据单次出现词语个数n1和第二出现次数之和N可计算剩余概率
统计缺失词语,将缺失词语输入目标语料库,将缺失词语输入搜索引擎,获得每一个缺失词语的结果数,将结果数作为第一出现次数。缺失词语可以为多个。
根据各第一出现次数计算对应各缺失词语的归一化频率指标。计算选取的各第一出现次数的对数值;对对数值求和,得到对数值之和;分别将各个选取的第一出现次数的对数值分别除以对数值之和,得到对应各缺失词语的归一化频率指标。
对于缺失词语wjwi,归一化的频度指标率为
其中为第一出现次数,n0为所有缺失词语的个数。
根据归一化频率指标和剩余概率计算缺失词语的平滑概率,并根据平滑概率对缺失词语进行平滑处理。将各缺失词语的归一化频率指标与第一剩余频率的乘积作为各缺失词语的平滑概率。
其中,为缺失词语wjwi的平滑概率。
如表1所示,表1为原语料库中二元词语的出现次数与个数的关系。
表1原语料库中二元词语的出现次数与个数的关系
r nr
1 2053
2 458
3 191
4 107
5 69
6 48
7 36
根据有:
表2原语料库中二元词语的频率分布
r nr r* pr
1 2053 0.44618 9.190×10-5
2 458 1.25109 2.577×10-4
3 191 2.24084 4.616×10-4
4 107 3.22430 6.641×10-4
5 69 4.17391 8.597×10-4
6 48 5.25000 1.081×10-3
7 36 - -
如表2所示,表2为原语料库中二元词语的频率分布,则可以计算第二出现次数为1的单次出现词语个数n1=2053,各第二出现次数的和值N=4855,剩余概率为
对于未出现的二元词语“文量”得到的第一出现次数为939000,“文量”的第一出现次数的对数值为:
f文量=log939000=5.97
假设所有的二元词语的出现次数的对数值总和为5000,那么缺失词语“文量”的平滑概率为:
本发明的平滑处理***与本发明的平滑处理方法一一对应,在上述平滑处理方法的实施例阐述的技术特征及其有益效果均适用于平滑处理***的实施例中,特此声明。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,该程序在执行时,包括以上方法所述的步骤,所述的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (11)

1.一种平滑处理方法,其特征在于,包括以下步骤:
统计缺失词语在目标语料库中的第一出现次数,其中,所述缺失词语为在原语料库中出现次数为0的词语;
根据所述第一出现次数计算所述缺失词语的归一化频率指标;
根据所述归一化频率指标和剩余概率计算所述缺失词语的平滑概率,并根据所述平滑概率对所述缺失词语进行平滑处理,其中,所述剩余概率为从所述原语料库中出现次数小于或等于k次的词语的出现概率之和,k为正整数。
2.根据权利要求1所述的平滑处理方法,其特征在于,所述缺失词语为多个;
根据所述第一出现次数计算所述缺失词语的归一化频率指标的步骤,包括以下步骤:
计算各所述第一出现次数的对数值;
对所述对数值求和,得到对数值之和;
分别将各所述第一出现次数的对数值分别除以所述对数值之和,得到对应各缺失词语的所述归一化频率指标。
3.根据权利要求2所述的平滑处理方法,其特征在于,计算所述各第一出现次数的对数值的步骤,包括以下步骤:
将各所述第一出现次数分别增加数值N,获得各个绝对出现次数;
计算各所述绝对出现次数的对数值,将各所述绝对出现次数的对数值分别作为各所述第一出现次数的对数值,其中,所述N为大于1的正整数。
4.根据权利要求1所述的平滑处理方法,其特征在于,根据所述归一化频率指标和剩余概率计算所述缺失词语的平滑概率的步骤,包括以下步骤:
将所述缺失词语的归一化频率指标与所述第一剩余频率的乘积作为所述缺失词语的平滑概率。
5.根据权利要求1所述的平滑处理方法,其特征在于,k为大于1的正整数;
在根据所述归一化频率指标和剩余概率计算所述缺失词语的平滑概率的步骤之前,还包括以下步骤:
获取各n元词语在原语料库中的第二出现次数,并计算各第二出现次数的和值;
统计第二出现次数小于或等于k次的各n元词语的第三出现次数,并计算各第三出现次数的和值;
根据所述各第二出现次数的和值以及所述各第三出现次数的和值计算剩余概率。
6.根据权利要求1所述的平滑处理方法,其特征在于,所述剩余概率为从所述原语料库中出现次数等于1次的词语的出现概率之和;
在根据所述归一化频率指标和剩余概率计算所述缺失词语的平滑概率的步骤之前,还包括以下步骤:
获取各n元词语在原语料库中的第二出现次数并计算各第二出现次数的和值;
统计第二出现次数为1的单次出现词语个数;
根据所述各第二出现次数的和值以及所述单次出现词语个数计算剩余概率。
7.根据权利要求1所述的平滑处理方法,其特征在于,在根据所述归一化频率指标和剩余概率计算所述缺失词语的平滑概率的步骤之后,还包括以下步骤:
获取n元词语在原语料库中的第二出现次数;
根据所述第二出现次数计算已出现词语劫取后的第一出现概率;
根据所述平滑概率和所述第一出现概率,对缺失词语所在的n元语法模型进行训练。
8.根据权利要求1所述的平滑处理方法,其特征在于,所述目标语料库为以搜索引擎网站为入口的互联网语料库;所述第一出现次数为所述缺失词语在所述搜索引擎网站中搜索后的相关结果数。
9.一种平滑处理***,其特征在于,包括:
次数统计模块,用于统计缺失词语在目标语料库中的第一出现次数,其中,所述缺失词语为在原语料库中出现次数为0的词语;
归一化频率指标计算模块,用于根据所述第一出现次数计算所述缺失词语的归一化频率指标;
平滑处理模块,用于根据所述归一化频率指标和剩余概率计算所述缺失词语的平滑概率,并根据所述平滑概率对所述缺失词语进行平滑处理,其中,所述剩余概率为从所述原语料库中出现次数小于或等于k次的词语的出现概率之和,k为正整数。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任意一项所述的平滑处理方法。
11.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8任意一项所述的平滑处理方法。
CN201810344157.4A 2018-04-17 2018-04-17 平滑处理方法和*** Active CN108829657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810344157.4A CN108829657B (zh) 2018-04-17 2018-04-17 平滑处理方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810344157.4A CN108829657B (zh) 2018-04-17 2018-04-17 平滑处理方法和***

Publications (2)

Publication Number Publication Date
CN108829657A true CN108829657A (zh) 2018-11-16
CN108829657B CN108829657B (zh) 2022-05-03

Family

ID=64154406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810344157.4A Active CN108829657B (zh) 2018-04-17 2018-04-17 平滑处理方法和***

Country Status (1)

Country Link
CN (1) CN108829657B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040249628A1 (en) * 2003-06-03 2004-12-09 Microsoft Corporation Discriminative training of language models for text and speech classification
US20060259480A1 (en) * 2005-05-10 2006-11-16 Microsoft Corporation Method and system for adapting search results to personal information needs
CN101295294A (zh) * 2008-06-12 2008-10-29 昆明理工大学 基于信息增益改进贝叶斯词义消歧方法
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN103488629A (zh) * 2013-09-24 2014-01-01 南京大学 一种机器翻译中翻译单元表的抽取方法
CN104408087A (zh) * 2014-11-13 2015-03-11 百度在线网络技术(北京)有限公司 作弊文本的识别方法和***
US20160092434A1 (en) * 2014-09-29 2016-03-31 Apple Inc. Integrated word n-gram and class m-gram language models
CN106649269A (zh) * 2016-12-16 2017-05-10 广州视源电子科技股份有限公司 一种口语化句子的提取方法和装置
US20170177563A1 (en) * 2010-09-24 2017-06-22 National University Of Singapore Methods and systems for automated text correction

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040249628A1 (en) * 2003-06-03 2004-12-09 Microsoft Corporation Discriminative training of language models for text and speech classification
US20060259480A1 (en) * 2005-05-10 2006-11-16 Microsoft Corporation Method and system for adapting search results to personal information needs
CN101295294A (zh) * 2008-06-12 2008-10-29 昆明理工大学 基于信息增益改进贝叶斯词义消歧方法
US20170177563A1 (en) * 2010-09-24 2017-06-22 National University Of Singapore Methods and systems for automated text correction
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN103488629A (zh) * 2013-09-24 2014-01-01 南京大学 一种机器翻译中翻译单元表的抽取方法
US20160092434A1 (en) * 2014-09-29 2016-03-31 Apple Inc. Integrated word n-gram and class m-gram language models
CN104408087A (zh) * 2014-11-13 2015-03-11 百度在线网络技术(北京)有限公司 作弊文本的识别方法和***
CN106649269A (zh) * 2016-12-16 2017-05-10 广州视源电子科技股份有限公司 一种口语化句子的提取方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FUCHUN PENG,DALE SCHUURMANS: "Combining Naive Bayes and n-Gram Language Models for Text Classification", 《ECIR 2003: ADVANCES IN INFORMATION RETRIEVAL》 *
文娟: "统计语言模型的研究与应用", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *
楚彦凌: "基于数据聚类的语言模型研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
黄永文: "基于互信息的统计语言模型平滑技术", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Also Published As

Publication number Publication date
CN108829657B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN111971669A (zh) 用于提供自然语言查询的反馈的***和方法
EP2469421A1 (en) Method and apparatus for processing electronic data
CN107357812A (zh) 一种数据查询方法及装置
Bates et al. Counting clusters in twitter posts
CN107291939B (zh) 酒店信息的聚类匹配方法及***
CN110427991A (zh) 一种字符串匹配方法及装置
CN108182182A (zh) 翻译数据库中文档匹配方法、装置及计算机可读存储介质
CN108182531A (zh) 页岩气开发评价方法、装置及终端设备
CN109117475A (zh) 一种文本改写的方法以及相关设备
US10565188B2 (en) System and method for performing a pattern matching search
CN110874366A (zh) 数据处理、查询方法和装置
CN108829657A (zh) 平滑处理方法和***
CN109871540A (zh) 一种文本相似度的计算方法以及相关设备
CN105893397A (zh) 一种视频推荐方法及装置
CN114138743A (zh) 基于机器学习的etl任务自动配置方法及装置
US9830355B2 (en) Computer-implemented method of performing a search using signatures
CN112784046B (zh) 文本聚簇的方法、装置、设备及存储介质
CN112953914A (zh) 一种dga域名检测分类方法及装置
CN102609510B (zh) 一种中文姓名数据处理方法和装置
CN108733824B (zh) 考虑专家知识的交互式主题建模方法及装置
CN108733648A (zh) 平滑处理方法和***
CN108491262A (zh) 一种抽样查询的方法和装置
CN104750724B (zh) 一种消息过滤方法和装置
TWI827409B (zh) 自動化組織值域映射方法、電子裝置及電腦可讀媒介
CN113434705B (zh) 一种基于关系图谱的提现额度调整方法、***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant