CN111831832B - 词表构建方法、电子设备及计算机可读介质 - Google Patents
词表构建方法、电子设备及计算机可读介质 Download PDFInfo
- Publication number
- CN111831832B CN111831832B CN202010732672.7A CN202010732672A CN111831832B CN 111831832 B CN111831832 B CN 111831832B CN 202010732672 A CN202010732672 A CN 202010732672A CN 111831832 B CN111831832 B CN 111831832B
- Authority
- CN
- China
- Prior art keywords
- entries
- entry
- probability
- string
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种词表构建方法:基于字串凝聚度,对多个第一词条进行了筛选得到多个第二词条,然后根据该筛选出的多个第二词条的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率,基于总组合概率构建目标词表,既考虑了词条在构词上的组合能力,又考虑了词条发音的组合能力,使得构建的目标词表准确率更高,构建效率也更高。
Description
技术领域
本发明实施例涉及文本处理技术领域,尤其涉及词表构建方法、电子设备和计算机可读介质。
背景技术
词表构建是一种从现有文本语料及其它可用资源中以自动或半自动的方式获得词的过程。可见,词表构建需要以文本语料为基础,而在文本语料中,常常以字或词为一个基本单元,代表了一个语义单位。但是,现有的文本语料中,一类文本语料存在天然分隔,例如在英、法等语系中词与词之间存在空格分隔,为词表构建提供了方便;而在另一类文本语料中则没有天然分隔,例如中文、日文、韩文等,对于没有天然分隔的文本语料的词表构建则是一项很有挑战性的任务。
针对没有天然分隔的文本语料,目前的词表构建方法主要采用基于统计的方法,即:通过多种统计策略,从文本语料库中找出最相关的字串组合,根据字串组合在语料库中的统计特征进行词表构建。但是,这种根据语料库中的统计特征进行词表构建的方式,会存在在语料库中稳定出现但不符合词法的词条,导致构建的词表准确率不高。
发明内容
本发明提供了一种词表构建方案,以至少部分解决上述问题。
根据本发明实施例的第一方面,提供了一种词表构建方法,所述方法包括:从待构建词表语料中,获取满足预设规则的多个第一词条;计算获得所述多个第一词条各自对应的字串凝聚度,并将所述多个第一词条中所述字串凝聚度大于第一预设阈值的多个第一词条,作为多个第二词条,其中,所述字串凝聚度表示所述词条符合语法规则的程度;基于所述多个第二词条中每个词条对应的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率;根据每个第二词条对应的总组合概率,从所述多个第二词条中确定总组合概率大于第二预设阈值的第二词条,根据大于第二预设阈值的第二词条构建目标词表。
根据本发明实施例的第二方面,提供了一种电子设备,所述设备包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的词表构建方法。
根据本发明实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的词表构建方法。
根据本发明实施例提供的方案:从待构建词表语料中,获取满足预设规则的多个第一词条;计算获得所述多个第一词条各自对应的字串凝聚度,并将所述多个第一词条中所述字串凝聚度大于第一预设阈值的多个第一词条,作为多个第二词条,其中,上述字串凝聚度表示词条符合语法规则的程度;基于上述多个第二词条中每个词条对应的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率;根据每个第二词条对应的总组合概率,从所述多个第二词条中确定总组合概率大于第二预设阈值的第二词条,根据大于第二预设阈值的第二词条构建目标词表。本方案基于字串凝聚度,对多个第一词条进行了筛选,然后根据筛选出的多个第二词条的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率,基于总组合概率构建目标词表,既考虑了词条在构词上的组合能力,又考虑了词条发音的组合能力,使得构建的目标词表准确率更高,构建效率也更高。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明实施例一的一种词表构建方法的步骤流程图;
图2为根据本发明实施例一的一种词表构建方法的另一步骤流程图;
图3为根据本发明实施例一的一种词表构建方法的再一步骤流程图;
图4为根据本发明实施例二的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
实施例一
参照图1,示出了根据本发明实施例一的一种词表构建方法的步骤流程图。
本实施例的词表构建方法包括以下步骤:
步骤101、从待构建词表语料中,获取满足预设规则的多个第一词条。
在本实施例中,待构建词表语料中可以包括正样本(符合正常语序的句子或词组等),也可以包括负样本(不符合正常语序的句子或词组等),本实施例不做限制。
例如:待构建词表语料可以由如下多段文本构成:
“大家好我叫刘子轩。”
“上课不要左顾右盼。”
“大家注意一下,我们这节课的重点到了。”
可以理解,上述每一行可以由一个句子或多个句子组成,也可以由一个短语或多个短语组成,本实施例不做限制。
可选地,如图2所示,步骤101可以包括以下步骤:
步骤1011:通过滑动窗口,从待构建词表语料中获取不同长度的多个初始词条,该窗口的大小至少为一个字符。
上述窗口的大小可以根据实际需求进行设置,本实施例不做限制,优选地,可以将窗口大小设置为2个字符、3个字符和4个字符,通过滑动窗口,从上述待构建词表语料中获取2个字符长度的多个初始词条(窗口大小为2个字符时),3个字符长度的多个初始条(窗口大小为3个字符时)以及4个字符长度的多个初始词条(窗口大小为4个字符时),对应的,可以分别称为二元字串、三元字串以及四元字串。
示例性的,以文本“上课不要左顾右盼”为例,若窗口大小设置为2个字符,则滑动窗口可以获取到“上课”“课不”“不要”“要左”“左顾”等二元字串;若窗口大小设置为3个字符,则滑动窗口可以获取到“上课不”“课不要”“不要左”“要左顾”“左顾右”等三元字串;若窗口大小设置为4个字符,则滑动窗口可以获取到“上课不要”“课不要左”“不要左顾”“左顾右盼”等四元字串。可以理解,上述窗口设置的大小不同,则获取的字串长度不同,此处不再一一列举。
可选地,可以将上述获取的不同长度的多个初始词条构建为初始词表,即将初始词条按照一定规律排列为表格的形式。
在本实施例的一种方式中,可以将上述初始词表的不同长度的多个初始词条,直接作为多个第一词条。
本实施例中,将待构建词表语料划分为二元字串、三元字串以及四元字串,基本符合没有天然分隔的语系,例如中日韩等语言的构词规律及语言表达规律,使得在确保词表构建准确率的基础上,可以不必再获取其他长度的字串,提高了词条的获取效率。
步骤1012:统计上述不同长度的多个初始词条在待构建词表语料中的出现频率,并获取出现频率大于第三预设阈值的多个初始词条,作为多个第一词条。
在本实施例的另一种方式中,可以计算每个初始词条在待构建词表语料中的出现频率,即词频。由于某些短词或者某些长词本就是低频词汇,故可以将词频小于第三预设阈值的初始词条去除,保留词频大于第三预设阈值的初始词条作为多个第一词条,同上,也可以将词频大于第三预设阈值的多个初始词条构建为第一待筛选词表。此处的第三预设阈值可以根据实际情况进行设置,优选地,可以是一个较小的值:例如第三预设阈值可以设置为3。
本实施例中,将词频作为筛选条件,获取词频大于第三预设阈值的初始词条,可以减小后续步骤的计算量。
步骤102、计算获得上述多个第一词条各自对应的字串凝聚度,并将多个第一词条中字串凝聚度大于第一预设阈值的多个第一词条作为多个第二词条,其中,字串凝聚度表示该词条符合语法规则的程度。
在本实施例中,上述语法规则是人们说话或者文字表述时需要遵守的习惯,它是客观存在的。语法规则可以指示语言单位一个接着一个组合起来的规则,包括语素组合成词的规则和词组合成句子的规则。本实施例中的语法规则主要指前者,也称为词法规则。
在本实施例中,具体地,可以计算获得上述多个第一词条各自对应的字串凝聚度,并将多个第一词条对应的字串凝聚度大于第一预设阈值的多个第一词条作为多个第二词条,可选地,本实施例中可以将该多个第二词条构建为第二待筛选词表,可选地,上述第一预设阈值可以由本领域技术人员根据实际情况适当设置,如可以设置为0.1。
本实施例中将字串凝聚度作为再一次的筛选条件,使得获取的每个第二词条是可组合程度较高的词条,去除了可组合程度较低的词条,使得后续计算更精简快捷。
可选地,可以通过以下方式计算获得上述多个第一词条各自对应的字串凝聚度:
计算获得所述多个第一词条中每个词条在所述待构建词表语料中出现的第一概率,以及每个词条中的字符在所述待构建词表语料中出现的第二概率;基于所述第一概率和所述第二概率,获得所述多个第一词条各自对应的字串凝聚度。
在本实施例中,基于每个词条在待构建词表语料中出现的第一概率以及每个词条中的字符在待构建词表语料中出现的第二概率,获得的每个第一词条对应的字串凝聚度更加准确。
在本实施例中,具体地,可以基于上述多个第一词条中每个词条的第一概率和多个第二概率乘积的比值,获得多个第一词条各自对应的字串凝聚度。
进一步地,可以利用公式计算获得上述多个第一词条中每个词条对应的字串凝聚度;其中,I(S1)表示词条S1=c1,c2···cn对应的字串凝聚度,p(c1),p(c2)...p(cn)表示词条S1中的每个字符c1,c2...cn分别在待构建词表语料中出现的概率,例如,在“老师好同学们好”中,“好”字出现的概率为2/7,p(c1,c2...cn)表示词条S1=c1,c2···cn在待构建词表语料中出现的概率,n为正整数,表示词条S1=c1,c2···cn中的字符数量。示例性的,以词条“左顾右盼”为例,计算“左顾右盼”的字串凝聚度时,需要分别计算“左”、“顾”、“右”、“盼”、四个字符在待构建词表语料中出现的概率,对应上式中的p(c1),p(c2)...p(cn),以及计算词条“左顾右盼”在待构建词表语料中出现的概率,对应上式中的p(c1,c2...cn)。需要说明的是,上述公式只是作为一种可选的实施方式进行举例,还可以通过其他方式计算上述多个第一词条中每个词条的字串凝聚度,本实施例不做特别限定。
在自然语言处理中,互信息通常被用来判断两个语言单位之间搭配关系的可能性,互信息越大,语言单位之间越可能具有搭配关系,即在词表构建中,表示两个字串越有可能组合成一个词或句子。可见,互信息考虑的是两个语言单位之间搭配的可能性,无法对多个语言单位搭配的可能性进行衡量。而在本实施例中,提出一种以字串中每个字符为独立语言单位进行字串凝聚度计算的方式,使得能够对多个语言单位之间的搭配可能性(符合语法规则的程度)进行衡量。
步骤103、基于上述多个第二词条中每个词条对应的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率。
在本实施例中,上述字串组合概率可以表示每个第二词条的组合能力,发音组合概率可以表示每个第二词条的发音的组合能力。
具体的,如图3所示,可以包括如下步骤:
步骤1031:计算获得上述多个第二词条中每个词条对应的字串组合概率。
步骤1032:计算获得多个第二词条中每个词条对应的发音组合概率。
步骤1033:将多个第二词条中每个词条对应的字串组合概率以及发音组合概率分别进行加权求和,获得每个第二词条对应的总组合概率。
在本实施例中,字串组合概率与发音组合概率的计算没有必然的先后顺序,可以先计算发音组合概率,也可以先计算字串组合概率,或者可以并行计算两个概率,本实施例不做限制。
由于前述词频以及字串凝聚度都是基于待构建词表语料进行统计的,筛选出的词条仍有许多在待构建词表语料中稳定出现但不符合词法或者语义规律的词条,例如,当处理教育场景的语料时“同学们好”在语料中频繁出现,但显然该词条不符合汉语的构词规则(词法组合规则)。而本实施例不仅考虑了词条的构词规则,引入字串组合概率,还考虑了词条的发音规则,引入了发音组合概率,使得利用基于字串组合概率以及发音组合概率得到的总组合概率进行筛选而得到的词条更加准确。
可选地,上述步骤1031可以通过第一统计语言模型,计算获得上述多个第二词条中每个词条对应的字串组合概率。
在本实施例中,第一统计语言模型可以是N-Gram语言模型,该模型基于一种假设:第N个词的出现只与前面N-1个词相关,在实际应用中,可以根据经验设置N的具体数值,在本实施例中,示例性的,设置N=3。然后对模型进行训练得到以字符为基本单元的3阶N-Gram语言模型,利用该语言模型计算每个第二词条的字串组合概率。
在本实施例中,利用3阶N-gram语言模型计算每获得个第二词条对应的字串组合概率,可以包含每个第二词条中前2个字符所能提供的全部信息,得到的字串组合概率更准确。
可选地,可以将上述多个第二词条中每个词条符合词法组合规则的概率进行开n次方计算,得到多个第二词条中每个词条对应的字串组合概率,n为正整数,表示当前词条中的字符数量。
在本实施例中,每个词条符合词法组合规则的概率可以由上述3阶N-gram语言模型计算得到,该语言模型可以预先基于现有公开的汉语词典,韩语词典等训练得到,可以理解,若待构建词表语料为汉语,则利用汉语词典中的词汇进行训练。
以汉语词典为例,可以将汉语词典中所有词汇生成一个规模较大的词库表,该词库表中可以是每行为一个汉语词汇,将词库表中的词汇按字分开,例如:
一心一意
一马平川
风格
丰富多彩
……
将上述词库表中的词汇作为训练样本,对N-gram语言模型进行训练,可以得到以汉字为基本单元的3阶N-Gram语言模型。然后利用该训练好的3阶N-Gram语言模型计算上述多个第二词条中每个词条符合词法组合规则的概率。但本领域技术人员应当理解的是,其它可实现相同功能的数据模型也同样适用,如2阶N-Gram语言模型或其它形式的数据模型等。
在本实施例中,可以基于上述词库表中的词汇,利用公式P'(c1,c2...cn)=P'(c1)P(c2|c1)...P(cn|cn-2,cn-1)计算词条S2=c1,c2...cn符合词法组合规则的概率。其中,n为每个词条包含的字符数目,P(c2|c1)表示c1在c2已经出现的条件下出现的概率,以此类推。例如,计算词条“风格”符合词法组合规则的概率,即为P(风格)=P(风)P(格|风),其中,P(格|风)表示在“风”字出现的情况下,“格”字出现的概率。
具体地,可以利用公式计算上述多个第二词条中每个词条对应的字串组合概率;其中,A(S2)表示词条S2=c1,c2...cn对应的字串组合概率,P'(c1,c2...cn)表示词条S2=c1,c2...cn符合词法组合规则的概率,n为正整数,表示词条S2中的字符数量。例如,计算上述词条“风格”的字串组合概率时,可以将词条“风格”符合词法组合规则的概率开平方,即为
再比如,对于文本“丰富多彩”,通过N-Gram语言模型计算的“丰富”以及“多彩”的字串组合概率要大于“富多”。因此,本实施例中基于汉语词典训练N-Gram语言模型,由于汉语词典中的词汇都是符合词法以及语义规律的词汇,因此利用基于汉语词典训练的N-Gram语言模型计算字串组合概率,避免了最终获得的词条不符合词法或者语义规律。
在本实施例中,可选地,上述步骤1032可以通过第二统计语言模型,计算获得上述多个第二词条中每个词条对应的发音组合概率。
本实施例中的第二统计语言模型同样可以使用3阶的N-Gram语言模型,但是内部参数可以根据实际需求调整,可以与上述N-Gram语言模型参数不同。
本实施例中,利用3阶N-gram语言模型计算每个第二词条对应的发音组合概率,可以包含每个第二词条中前2个字符对应的音素所能提供的全部信息,使得计算的发音组合概率更准确。类似地,其它可实现相同功能的数据模型也同样适用,如2阶N-Gram语言模型或其它形式的数据模型等。
可选地,可以将上述多个第二词条中每个词条对应的音素串符合发音组合规则的概率进行开n次方计算,得到多个第二词条中每个词条对应的发音组合概率,该音素串为词条的发音表示,n为音素串中包含的音素数量。
在本实施例中,每个词条对应的音素串符合发音组合规则的概率也可以由第二统计语言模型即3阶N-gram语言模型计算得到,与每个词条符合词法组合规则的概率计算思想一致,此处不再赘述。
本实施例中的3阶N-gram语言模型可以基于开源的语音识别发音词典中的音素串训练得到,此处仍以中文词汇为例,例如Aishell这样的开源中文语音识别发音词典,发音词典格式如下所示:
数学sh u4 x ve2
物理uu u4 l i3
化学h ua4 x ve2
风格f eng1 g e2
其每一行可以由词条以及词条所对应的音素串组成,音素串中的音素由空格进行分隔。可以理解,此处的音素为带调的声母以及韵母。
在本实施例中,可以将上述发音词典中的音素串整理出来,预先训练N-gram模型,可以得到以音素为基本单元的N-Gram语言模型,然后利用该语言模型计算每个第二词条对应的发音组合概率。
具体地,可以通过公式计算多个第二词条中每个词条对应的发音组合概率;其中B(S2)表示每个第二词条对应的音素串S2=x1,x2...xn对应的发音组合概率,P(x1,x2...xn)表示音素串S2=x1,x2...xn的符合发音组合规则的概率,x1,x2...xn分别为词条S2中字符c1,c2...cn对应的音素,为词条S2=c1,c2...cn中每个字符的发音表示,n为正整数,表示音素串中包含的音素数量。例如,计算词条“数学”的发音组合概率时,其对应的音素串为“sh u4 x ve2”,则发音组合概率为计算词条“风格”发音组合概率时,其对应的音素串为“f eng1 g e2”,则发音组合概率为
实际应用场景中,由于人为因素会导致词条没有被正确使用的情况,例如“出人投地”、“走头无路”,如果只考虑字串组合概率,由于正确的应当是“出人头地”和“走投无路”,所以会遗漏存在错别字的词条。本实施例中计算发音组合概率后,能够避免这些词条的遗漏。
得到第二词条中每个词条对应的字串组合概率以及发音组合概率后,在本实施例中,在执行上述步骤1033时,可以利用公式T(S2)=αA(S2)+(1-α)B(S2),计算每个第二词条对应的总组合概率;其中,T(S2)表示每个第二词条对应的总组合概率,α表示权重,0≤α≤1,A(S2)表示词条S2的字串组合概率,B(S2)表示词条S2的发音组合概率。
本实施例的总组合概率是基于字串组合概率以及发音组合概率计算得到的,即考虑了词条的构词规律,也考虑了词条的发音规律,使得最终得到的词条没有遗漏,并且准确度高。
在本实施例中,优选地,字串组合概率的权重大于发音组合概率的权重,例如,字串组合概率的权重取值可以在0.6-0.9这个区间内。即重点考虑词条构词规律及语义规律,发音组合概率作为一种补充筛选手段,使得最终得到的词条准确度较高。
步骤104、根据每个第二词条对应的总组合概率,从多个第二词条中确定总组合概率大于第二预设阈值的第二词条,根据大于第二预设阈值的第二词条构建目标词表。
在本实施例中,第二预设阈值可以根据实际需求或者人工经验来设置,本实施例不做具体限定。本实施例中将总组合概率大于第二预设阈值的词条保留,小于第二预设阈值的词条去除,即去除了不符合构词规律或者发音规律的词条,使得构建的词表更准确,更实用。
本申请实施例提供的词表构建方法,首先结合词频对待构建词表语料进行筛选得到多个第一词条,然后基于字串凝聚度对第一词条进行筛选得到多个第二词条,再结合总组合概率从多个第二词条中获得最终的多个词条,将最终获得的多个词条构建为目标词表,本方案既考虑了待构建词表语料的统计特征,即上述词频以及字串凝聚度,又考虑了词条在构词上的组合能力以及词条发音的组合能力,使得构建的目标词表准确率更高。
本实施例的词表构建方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例二
图2为本发明实施例三中电子设备的硬件结构;如图2所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303、以及通信总线304。
其中:
处理器301、通信接口302、以及存储器303通过通信总线304完成相互间的通信。
通信接口302,用于与其它电子设备或服务器进行通信。
处理器301,用于执行程序305,具体可以执行上述词表构建方法实施例中的相关步骤。
具体地,程序305可以包括程序代码,该程序代码包括计算机操作指令。
处理器301可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器303,用于存放程序305。存储器303可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序305具体可以用于使得处理器301执行以下操作:从待构建词表语料中,获取满足预设规则的多个第一词条;计算获得所述多个第一词条各自对应的字串凝聚度,并将所述多个第一词条中所述字串凝聚度大于第一预设阈值的多个第一词条,作为多个第二词条,其中,所述字串凝聚度表示所述词条符合语法规则的程度;基于所述多个第二词条中每个词条对应的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率;根据每个第二词条对应的总组合概率,从所述多个第二词条中确定总组合概率大于第二预设阈值的第二词条,根据大于第二预设阈值的第二词条构建目标词表。
在一种可选的实施方式中,程序305还用于使得处理器301在计算获得所述多个第一词条各自对应的字串凝聚度时:计算获得所述多个第一词条中每个词条在所述待构建词表语料中出现的第一概率,以及每个词条中的字符在所述待构建词表语料中出现的第二概率;基于所述第一概率和所述第二概率,获得所述多个第一词条各自对应的字串凝聚度。
在一种可选的实施方式中,程序305还用于使得处理器301在基于所述第一概率和所述第二概率,获得所述多个第一词条各自对应的字串凝聚度时:基于所述多个第一词条中每个词条的第一概率和多个所述第二概率乘积的比值,获得所述多个第一词条各自对应的字串凝聚度。
在一种可选的实施方式中,程序305还用于使得处理器301在基于所述多个第一词条中每个词条的第一概率和多个所述第二概率乘积的比值,获得所述多个第一词条各自对应的字串凝聚度时:利用公式计算获得所述多个第一词条中每个词条对应的字串凝聚度;其中,I(S1)表示词条S1=c1,c2···cn对应的字串凝聚度,p(c1),p(c2)...p(cn)表示所述词条S1中的每个字符c1,c2...cn分别在所述待构建词表语料中出现的概率,p(c1,c2...cn)表示所述词条S1=c1,c2···cn在所述待构建词表语料中出现的概率,n为正整数,表示所述词条S1=c1,c2···cn中的字符数量。
在一种可选的实施方式中,程序305还用于使得处理器301在基于所述多个第二词条中每个词条对应的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率时:计算获得所述多个第二词条中每个词条对应的字串组合概率;以及,计算获得所述多个第二词条中每个词条对应的发音组合概率;将所述多个第二词条中每个词条对应的所述字串组合概率以及所述发音组合概率分别进行加权求和,获得每个第二词条对应的总组合概率。
在一种可选的实施方式中,程序305还用于使得处理器301在计算获得所述多个第二词条中每个词条对应的字串组合概率时:将所述多个第二词条中每个词条符合词法组合规则的概率进行开n次方计算,得到所述多个第二词条中每个词条对应的字串组合概率,n为正整数,表示当前词条中的字符数量。
在一种可选的实施方式中,程序305还用于使得处理器301在将所述多个第二词条中每个词条符合词法组合规则的概率进行开n次方计算,得到所述多个第二词条中每个词条对应的字串组合概率时:利用公式计算所述多个第二词条中每个词条对应的字串组合概率;其中,A(S2)表示词条S2=c1,c2...cn对应的字串组合概率,P'(c1,c2...cn)表示词条S2=c1,c2...cn符合词法组合规则的概率,n为正整数,表示所述词条中的字符数量。
在一种可选的实施方式中,程序305还用于使得处理器301在计算获得所述多个第二词条中每个词条对应的发音组合概率时:将所述多个第二词条中每个词条对应的音素串符合发音组合规则的概率进行开n次方计算,得到所述多个第二词条中每个词条对应的发音组合概率,所述音素串为词条的发音表示,n为所述音素串中包含的音素数量。
在一种可选的实施方式中,程序305还用于使得处理器301在将所述多个第二词条中每个词条对应的音素串符合发音组合规则的概率进行开n次方计算,得到所述多个第二词条中每个词条对应的发音组合概率时:通过公式计算所述多个第二词条中每个词条对应的发音组合概率;其中B(S2)表示每个第二词条对应的音素串S2=x1,x2...xn对应的发音组合概率,P(x1,x2...xn)表示音素串S2=x1,x2...xn符合发音组合规则的概率,x1,x2...xn分别为词条S2中字符c1,c2...cn对应的音素,为所述词条S2=c1,c2...cn中每个字符的发音表示,n为正整数,表示所述音素串中包含的音素数量。
在一种可选的实施方式中,程序305还用于使得处理器301在将所述多个第二词条中每个词条对应的所述字串组合概率以及所述发音组合概率分别进行加权求和,获得每个第二词条对应的总组合概率时:利用公式T(S2)=αA(S2)+(1-α)B(S2),计算每个第二词条对应的多个总组合概率;其中,T(S2)表示每个第二词条对应的总组合概率,α表示权重,0≤α≤1,A(S2)表示词条S2的字串组合概率,B(S2)表示词条S2的发音组合概率。
在一种可选的实施方式中,字串组合概率的权重大于所述发音组合概率的权重。
在一种可选的实施方式中,程序305还用于使得处理器301在计算获得所述多个第二词条中每个词条对应的字串组合概率时:通过第一统计语言模型,计算获得所述多个第二词条中每个词条对应的字串组合概率。
在一种可选的实施方式中,程序305还用于使得处理器301在计算获得所述多个第二词条中每个词条对应的发音组合概率时:通过第二统计语言模型,计算获得所述多个第二词条中每个词条对应的发音组合概率。
在一种可选的实施方式中,程序305还用于使得处理器301在从待构建词表语料中,获取满足预设规则的多个第一词条时:通过滑动窗口,从待构建词表语料中获取不同长度的多个初始词条,所述窗口的大小至少为一个字符;统计所述不同长度的多个初始词条在所述待构建词表语料中的出现频率;获取出现频率大于第三预设阈值的多个初始词条,作为所述多个第一词条。
在一种可选的实施方式中,程序305还用于使得处理器301在从待构建词表语料中,获取满足预设规则的多个第一词条时:通过滑动窗口,从待构建词表语料中获取不同长度的多个初始词条,作为多个第一词条,所述窗口的大小至少为一个字符。
程序305中各步骤的具体实现可以参见上述词表构建方法实施例中的相应步骤中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,从待构建词表语料中,获取满足预设规则的多个第一词条;计算获得所述多个第一词条各自对应的字串凝聚度,并将所述多个第一词条中所述字串凝聚度大于第一预设阈值的多个第一词条作为多个第二词条,其中,上述字串凝聚度表示词条符合语法规则的程度;基于上述多个第二词条中每个词条对应的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率;根据每个第二词条对应的总组合概率,从所述多个第二词条中确定总组合概率大于第二预设阈值的第二词条,根据大于第二预设阈值的第二词条构建目标词表。本方案基于字串凝聚度,对多个第一词条进行了筛选,然后根据筛选出的多个第二词条的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率,基于总组合概率构建目标词表,既考虑了词条在构词上的组合能力,又考虑了词条发音的组合能力,使得构建的目标词表准确率更高,构建效率也更高。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本发明实施例中的方法中限定的上述功能。需要说明的是,本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明实施例中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本发明实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括接入模块和发送模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例中所描述的词表构建方法。
作为另一方面,本发明实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:从待构建词表语料中,获取满足预设规则的多个第一词条;计算获得所述多个第一词条各自对应的字串凝聚度,并将所述多个第一词条中所述字串凝聚度大于第一预设阈值的多个第一词条,作为多个第二词条,其中,所述字串凝聚度表示所述词条符合语法规则的程度;基于所述多个第二词条中每个词条对应的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率;根据每个第二词条对应的总组合概率,从所述多个第二词条中确定总组合概率大于第二预设阈值的第二词条,根据大于第二预设阈值的第二词条构建目标词表。
在本发明的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (17)
1.一种词表构建方法,其特征在于,所述方法包括:
从待构建词表语料中,获取满足预设规则的多个第一词条;
计算获得所述多个第一词条各自对应的字串凝聚度,并将所述多个第一词条中所述字串凝聚度大于第一预设阈值的多个第一词条,作为多个第二词条,其中,所述字串凝聚度表示所述词条符合语法规则的程度;
基于所述多个第二词条中每个词条对应的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率;
根据每个第二词条对应的总组合概率,从所述多个第二词条中确定总组合概率大于第二预设阈值的第二词条,根据大于第二预设阈值的第二词条构建目标词表。
2.根据权利要求1所述的方法,其特征在于,所述计算获得所述多个第一词条各自对应的字串凝聚度,包括:
计算获得所述多个第一词条中每个词条在所述待构建词表语料中出现的第一概率,以及每个词条中的字符在所述待构建词表语料中出现的第二概率;基于所述第一概率和所述第二概率,获得所述多个第一词条各自对应的字串凝聚度。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一概率和所述第二概率,获得所述多个第一词条各自对应的字串凝聚度,包括:
基于所述多个第一词条中每个词条的第一概率和多个所述第二概率乘积的比值,获得所述多个第一词条各自对应的字串凝聚度。
5.根据权利要求1所述的方法,其特征在于,所述基于所述多个第二词条中每个词条对应的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率,包括:
计算获得所述多个第二词条中每个词条对应的字串组合概率;以及,计算获得所述多个第二词条中每个词条对应的发音组合概率;
将所述多个第二词条中每个词条对应的所述字串组合概率以及所述发音组合概率分别进行加权求和,获得每个第二词条对应的总组合概率。
6.根据权利要求5所述的方法,其特征在于,所述计算获得所述多个第二词条中每个词条对应的字串组合概率,包括:
将所述多个第二词条中每个词条符合词法组合规则的概率进行开n次方计算,得到所述多个第二词条中每个词条对应的字串组合概率,n为正整数,表示当前词条中的字符数量。
8.根据权利要求5所述的方法,其特征在于,所述计算获得所述多个第二词条中每个词条对应的发音组合概率,包括:
将所述多个第二词条中每个词条对应的音素串符合发音组合规则的概率进行开n次方计算,得到所述多个第二词条中每个词条对应的发音组合概率,所述音素串为词条的发音表示,n为所述音素串中包含的音素数量。
10.根据权利要求5所述的方法,其特征在于,所述将所述多个第二词条中每个词条对应的所述字串组合概率以及所述发音组合概率分别进行加权求和,获得每个第二词条对应的总组合概率,包括:
利用公式T(S2)=αA(S2)+(1-α)B(S2),计算每个第二词条对应的总组合概率;其中,T(S2)表示每个第二词条对应的总组合概率,α表示权重,0≤α≤1,A(S2)表示词条S2的字串组合概率,B(S2)表示词条S2的发音组合概率。
11.根据权利要求10所述的方法,其特征在于,所述字串组合概率的权重大于所述发音组合概率的权重。
12.根据权利要求5所述的方法,其特征在于,所述计算获得所述多个第二词条中每个词条对应的字串组合概率,包括:
通过第一统计语言模型,计算获得所述多个第二词条中每个词条对应的字串组合概率。
13.根据权利要求5所述的方法,其特征在于,所述计算获得所述多个第二词条中每个词条对应的发音组合概率,包括:
通过第二统计语言模型,计算获得所述多个第二词条中每个词条对应的发音组合概率。
14.根据权利要求1所述的方法,其特征在于,所述从待构建词表语料中,获取满足预设规则的多个第一词条,包括:
通过滑动窗口,从待构建词表语料中获取不同长度的多个初始词条,所述窗口的大小至少为一个字符;
统计所述不同长度的多个初始词条在所述待构建词表语料中的出现频率;
获取出现频率大于第三预设阈值的多个初始词条,作为所述多个第一词条。
15.根据权利要求1所述的方法,其特征在于,所述从待构建词表语料中,获取满足预设规则的多个第一词条,包括:
通过滑动窗口,从待构建词表语料中获取不同长度的多个初始词条,作为多个第一词条,所述窗口的大小至少为一个字符。
16.一种电子设备,其特征在于,所述设备包括:
一个或多个处理器;
计算机可读介质,配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-15中任一项所述的词表构建方法。
17.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-15中任一项所述的词表构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010732672.7A CN111831832B (zh) | 2020-07-27 | 2020-07-27 | 词表构建方法、电子设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010732672.7A CN111831832B (zh) | 2020-07-27 | 2020-07-27 | 词表构建方法、电子设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111831832A CN111831832A (zh) | 2020-10-27 |
CN111831832B true CN111831832B (zh) | 2022-07-01 |
Family
ID=72925702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010732672.7A Active CN111831832B (zh) | 2020-07-27 | 2020-07-27 | 词表构建方法、电子设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111831832B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114822483B (zh) * | 2021-01-19 | 2024-07-12 | 美的集团(上海)有限公司 | 数据增强方法、装置、设备及存储介质 |
CN113742459B (zh) * | 2021-11-05 | 2022-03-04 | 北京世纪好未来教育科技有限公司 | 词汇展示方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260362A (zh) * | 2015-10-30 | 2016-01-20 | 小米科技有限责任公司 | 新词提取方法和装置 |
CN107665705A (zh) * | 2017-09-20 | 2018-02-06 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
CN107818148A (zh) * | 2017-10-23 | 2018-03-20 | 南京南瑞集团公司 | 基于自然语言处理的自助式查询统计分析方法 |
CN110176237A (zh) * | 2019-07-09 | 2019-08-27 | 北京金山数字娱乐科技有限公司 | 一种语音识别方法及装置 |
CN110209765A (zh) * | 2019-05-23 | 2019-09-06 | 武汉绿色网络信息服务有限责任公司 | 一种按语义搜索关键词的方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5810814B2 (ja) * | 2011-10-11 | 2015-11-11 | カシオ計算機株式会社 | 辞書機能を備えた電子機器、複合語検索方法、及びプログラム |
CN105912521A (zh) * | 2015-12-25 | 2016-08-31 | 乐视致新电子科技(天津)有限公司 | 一种解析语音内容的方法及装置 |
-
2020
- 2020-07-27 CN CN202010732672.7A patent/CN111831832B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260362A (zh) * | 2015-10-30 | 2016-01-20 | 小米科技有限责任公司 | 新词提取方法和装置 |
CN107665705A (zh) * | 2017-09-20 | 2018-02-06 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
CN107818148A (zh) * | 2017-10-23 | 2018-03-20 | 南京南瑞集团公司 | 基于自然语言处理的自助式查询统计分析方法 |
CN110209765A (zh) * | 2019-05-23 | 2019-09-06 | 武汉绿色网络信息服务有限责任公司 | 一种按语义搜索关键词的方法和装置 |
CN110176237A (zh) * | 2019-07-09 | 2019-08-27 | 北京金山数字娱乐科技有限公司 | 一种语音识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111831832A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263322B (zh) | 用于语音识别的音频语料筛选方法、装置及计算机设备 | |
Godard et al. | A very low resource language speech corpus for computational language documentation experiments | |
WO2021139108A1 (zh) | 情绪智能识别方法、装置、电子设备及存储介质 | |
CA2898265C (en) | Method and system for automatic speech recognition | |
CN111177324B (zh) | 基于语音识别结果进行意图分类的方法和装置 | |
CN108763539B (zh) | 一种基于词性分类的文本分类方法和*** | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
Adel et al. | Features for factored language models for code-Switching speech. | |
KR101988165B1 (ko) | 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템 | |
CN111831832B (zh) | 词表构建方法、电子设备及计算机可读介质 | |
CN110472548B (zh) | 一种基于语法分类器的视频连续手语识别方法及*** | |
Bentz | Adaptive languages: An information-theoretic account of linguistic diversity | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN110929532B (zh) | 数据处理方法、装置、设备及存储介质 | |
WO2023045186A1 (zh) | 意图识别方法、装置、电子设备和存储介质 | |
CN114333838A (zh) | 语音识别文本的修正方法及*** | |
Coto‐Solano | Computational sociophonetics using automatic speech recognition | |
Wray | Classification of closely related sub-dialects of Arabic using support-vector machines | |
Godard | Unsupervised word discovery for computational language documentation | |
Bañeras-Roux et al. | Hats: An open data set integrating human perception applied to the evaluation of automatic speech recognition metrics | |
CN111522957B (zh) | 一种短语分割模型的训练方法和*** | |
Aliyeva | Text Linguistics and the Use of Linguistic Data in Modern Technologies: Prospects for Development | |
CN111090720B (zh) | 一种热词的添加方法和装置 | |
CN111489742B (zh) | 声学模型训练方法、语音识别方法、装置及电子设备 | |
CN109446537B (zh) | 一种针对机器翻译的译文评估方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |