CN103971677B - 一种声学语言模型训练方法和装置 - Google Patents

一种声学语言模型训练方法和装置 Download PDF

Info

Publication number
CN103971677B
CN103971677B CN201310040085.1A CN201310040085A CN103971677B CN 103971677 B CN103971677 B CN 103971677B CN 201310040085 A CN201310040085 A CN 201310040085A CN 103971677 B CN103971677 B CN 103971677B
Authority
CN
China
Prior art keywords
class label
language model
participle
vocabulary
acoustics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310040085.1A
Other languages
English (en)
Other versions
CN103971677A (zh
Inventor
陆读羚
李露
饶丰
陈波
卢鲤
张翔
王尔玉
岳帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201310040085.1A priority Critical patent/CN103971677B/zh
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to JP2015555551A priority patent/JP5901001B1/ja
Priority to CA2899532A priority patent/CA2899532C/en
Priority to PCT/CN2013/085948 priority patent/WO2014117548A1/en
Priority to BR112015018205-4A priority patent/BR112015018205B1/pt
Priority to US14/109,845 priority patent/US9396723B2/en
Priority to TW103100469A priority patent/TWI512719B/zh
Publication of CN103971677A publication Critical patent/CN103971677A/zh
Application granted granted Critical
Publication of CN103971677B publication Critical patent/CN103971677B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施方式提出一种声学语言模型训练方法和装置。方法包括:利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;利用该有类别标签的第二分词数据获取声学语言模型。本发明实施方式扩大了语言模型囊括的词汇数量,从而提高了语音识别***的识别准确率。

Description

一种声学语言模型训练方法和装置
技术领域
本发明实施方式涉及自然语言处理技术领域,更具体地,涉及一种声学语言模型训练方法和装置。
背景技术
随着计算机使用的日益普及,人们越来越期望能够与计算机直接进行语言交流,因为语言是人类进行沟通最方便、快捷、有效的方式。语音识别技术就是让计算机通过识别和理解过程,把人类语音信号转变为相应文本的一项技术,语言模型在其中扮演着提高语音识别正确率的重要角色。
由于硬件性能和软件算法的局限,当前语音识别***对语言模型大小有比较严格的限制。与此相对,语言模型随包含词汇数量的增加,其模型大小呈指数级增长。基于这两个原因,语音识别***可容纳的词汇数量是不能无限扩充的。当前技术条件下,语音识别***的词表容量上限在十几万的量级。对于词表之外的词汇,语音识别***的识别准确率会下降很多。
而且,在正常语言环境下,存在着百万量级的低频词汇。它们或者受关注时间较短(影视剧名),或者受限于地域(餐馆饭店名),或者仅出现于某一专业领域(专业术语),等等多种因素导致,单个词汇统计显著性很小,但整体数量庞大的低频词汇现象。
因此,如何在不增加语言模型大小,以及尽量不损失模型计算精度的条件下,扩大语言模型囊括的词汇数量是一个迫切需要解决的技术问题。
发明内容
本发明实施方式提出一种声学语言模型训练方法,以扩大语言模型囊括的词汇数量,从而语音识别***的识别准确率。
本发明实施方式提出一种声学语言模型训练装置,以扩大语言模型囊括的词汇数量,从而提高语音识别***的识别准确率。
本发明实施方式的技术方案如下:
一种声学语言模型训练方法,该方法包括:
利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;
对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;
对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;
利用该有类别标签的第二分词数据获取声学语言模型。
一种声学语言模型训练装置,该装置包括分词单元、词类替换单元、语言模型训练单元和声学语言模型获取单元,其中:
分词单元,用于利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;
词类替换单元,用于对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;
语言模型训练单元,用于对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;
声学语言模型获取单元,用于利用该有类别标签的第二分词数据获取声学语言模型。
从上述技术方案可以看出,在本发明实施方式中,利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;利用该有类别标签的第二分词数据获取声学语言模型。由此可见,应用本发明实施方式之后,实现了基于词类分词的声学语言模型训练。本发明实施方式可以采用类别标签替换语言模型训练文本中所有该类实体名,从而减少了语言模型中的词汇数量,而且当同类实体名在计算概率时,都采用语言模型中对应类别标签的参数。本发明实施方式扩大了语言模型囊括的词汇数量,从而提高了语音识别***的识别准确率。
而且,本发明实施方式解决了语音识别***词表容量有限所造成的词表范围之外的词汇识别效果不佳的问题。
附图说明
图1为根据本发明实施方式声学语言模型训练方法流程图;
图2为根据本发明实施方式声学语言模型训练方法总体示意图;
图3为根据本发明实施方式声学语言模型训练装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
在本发明实施方式中,充分考虑到词汇知识的以下特点:
(1)、大量低频词汇是实体名,如:人名、书名、电影名等特征;
(2)、同一类型的实体名其上下文信息通常具有相似性,如果将同类的不同实体名放入相同的上下文中几乎不影响句子的表意能力。比如:“我喜欢看“蜡笔小新”这部动画片”与“我喜欢看“樱桃小丸子”这部动画片其表意能力非常类似。
根据以上特点,本发明实施方式提出了一种基于词类分词的声学语言模型训练算法。
语言模型经常使用在许多自然语言处理方面的应用,如语音识别、机器翻译、词性标注、,句法分析和资讯检索,等等。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。
在本发明实施方式中,通过采用类别标签,替换语言模型训练文本中所有该类实体名。由于大量同类实体名在语言模型中被表示为同一个类别标签,因此本发明实施方式可以减少语言模型中的词汇数量。当同类实体名在计算概率时,都采用语言模型中对应类别标签的参数。对于未出现在训练文本中的实体名,只要代表这类实体名的类别标签存在,也可认为它与类别标签具有近似的概率分布。从效果上看,通过含有词类的语言模型,能够计算概率的词汇数量,要远远大于该语言模型真实包含的词汇和词类数量。正好可以解决,语音识别***词表容量有限所造成的,词表范围之外的词汇识别效果不佳的问题。
图1为根据本发明实施方式声学语言模型训练方法流程图。
如图1所示,该方法包括:
步骤101:利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据。
在这里,优选在利用无类别标签的语言模型对训练语料进行分词之前,对训练语料作归一化处理。归一化处理具体可以包括:大小写转换、全角半角转换、时间数据格式统一,等等。
具体地,此处采用各种类型的分词器使用初始的语言模型(即无类别标签的语言模型)对训练语料分词,以获得没有类别标签的分词结果。
无类别标签的语言模型可以是以概率统计理论为基础,用来计算汉语语句概率的数学模型,它使得输出正确语句的概率大于输出错误语句的概率。例如,对于汉语输入的汉语语句“说明此处汉语语句的概率”,在统计语言模型中,该汉语语句可以分解为若干个词语,如:说明\此处\汉语\语句\的\概率。
对于一个包含m(m为自然数)个词的汉语语句S=w1w2…wm,根据Bayes理论,该汉语语句概率(输出正确的概率)可以分解为包含多个词语的条件概率的乘积,即:
上式中,wi为汉语语句中包含的第i个词语;p(wi/w1w2…wi-1)为词语wi在该汉语语句w1w2…wm中的条件概率。
由上述公式可见,条件概率p(wi/w1w2…wi-1)的参数空间随着变量i的增加呈指数级增长,当变量i较大时,以现有训练语料的规模,还无法准确地估计出概率p(wi/w1w2…wi-1)的值。
训练语料是指采用统计的方法从大规模训练文本中,按照一定的类别进行组织形成的有序文本集合,训练语料可以由计算机执行规模处理。因而,目前实用化的语言模型建模方法中,均对条件概率p(wi/w1w2…wi-1)进行了不同程度的简化,提出了标准Ngram语言模型建模方法。
标准Ngram语言模型是目前最常用的统计语言模型。它将汉语语句看作是一个马尔科夫序列,满足马尔科夫属性。具体来讲,标准Ngram语言模型对统计语言模型中的条件概率p(wi/w1w2…wi-1)作如下基本假设:
(1)有限历史假设:当前输入语句中词语的条件概率仅仅与它前n-1个词相关,而与整个汉语语句无关,其中,n为预先设置的自然数;
(2)时齐性假设:当前词语的条件概率与它在汉语语句句子中出现的位置无关。
基于上述两个假设,标准Ngram语言模型的语句概率计算公式可以简化为:
可见,基于上述两个假设,标准统计语言模型中的条件概率p(wi/w1w2…wi-1)被简化成了标准Ngram语言模型中的条件概率p(wi/wi-n+1wi-n+2…wi-1),新概率的计算公式中,与当前词语相关的历史词语的个数固定为常数n-1,而不是标准统计语言模型中的变数i-1。这样,整体降低了语言模型参数空间的大小,使得在现有训练语料的基础上,能够正确地估计出Ngram概率的值,从而使得标准Ngram语言模型可以实用化。
在标准Ngram语言模型中,条件概率p(wi/wi-n+1wi-n+2…wi-1)的值采用最大似然估计的方法进行估计,估计公式如下:
p ( w i / w i - n + 1 w i - n + 2 . . . w i - 1 ) = c ( w i - n + 1 . . . w i - 1 w i ) c ( w i - n + 1 . . . w i - 2 w i - 1 ) ;
上式中,c(wi-n+1...wi-1wi)表示词语序列wi-n+1...wi-1wi(语句中的一部分词语)在标准Ngram语言模型的训练语料中出现的次数。
步骤102:对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据。
在这里,可以预先建立分类词汇表,该分类词汇表中对词汇按照类别进行分类。此时,可以在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇,并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
比如,假设分类词汇表中包含有“家具”类的分类标签,对应该“家具”类分类标签的词汇有:窗户、桌子、椅子、大门,等等。而且,该“家具”词汇共同的分类标签为“家具”。当训练语料包含“我打开窗户”语句时,被分词为“我”\“打开”\“窗户”,则通过与分类词汇表相比较,发现训练语料中的“窗户”属于分类词汇表中的“家具”类,则将分词数据“我”\“打开”\“窗户”替换为:“我”\“打开”\“家具”。
类似地,当训练语料包含“我打开大门”语句时,被分词为“我”\“打开”\“大门”,则通过与分类词汇表相比较,发现训练语料中的“大门”属于分类词汇表中的“家具”类,则将分词数据“我”\“打开”\“大门”替换为:“我”\“打开”\“家具”。
类似地,当训练语料包含“我踢开桌子”语句时,被分词为“我”\“踢开”\“桌子”,则通过与分类词汇表相比较,发现训练语料中的“桌子”属于分类词汇表中的“家具”类,则将分词数据“我”\“踢开”\“桌子”替换为:“我”\“踢开”\“家具”。
在一个实施方式中,在获得有类别标签的第二分词数据之后,进一步包括:
判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同,如果是,则利用该有类别标签的第二分词数据获取声学语言模型,如果不是,则对有类别标签的第二分词数据执行词类替换。
在一个实施方式中,在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后,该方法进一步包括:
判断在分类词汇表中检索出的词汇长度是否大于预先设定的匹配词长度门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
步骤103:对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据。
步骤104:利用该有类别标签的第二分词数据获取声学语言模型。
在根据有类别标签的第二分词数据获取声学语言模型之后,可以接收输入语音,并利用该声学语言模型针对输入语音执行语音识别处理。
在一个实施方式中,在获得有类别标签的第二分词数据之后,进一步包括:
判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同,如果是,则利用该有类别标签的第二分词数据获取声学语言模型,如果不是,则对有类别标签的第二分词数据执行词类替换。
实际上,本发明实施方式优选实施为循环流程,即,迭代优化基于词类的语言模型:主要包括:
(1)首先对训练语料作归一化处理;
(2)然后,分词器使用初始语言模型(没有类别标签)对训练语料分词,获得没有类别标签的分词结果;
(3)对分词结果根据一组条件触发规则进行词类替换,获得带有类别标签的分词结果。此时,为了保证准确率,条件触发规则可以仅对有把握的实体名做类别替换。如果此时带有类别标签的分词结果与上一次迭代出的带有类别标签的分词结果一样,则跳出循环进入后继流程;
(4)使用带有类别标签的分词数据训练语言模型,获得带有类别标签的语言模型;
(5)分词器使用带有类别标签的语言模型对第(1)步获得的训练语料做词类分词,获得带有类别标签的分词数据,并返回执行第(3)步。此时,由于使用了统计语言模型,可能产生触发规则未匹配到的词类替换,同时由于分词结果的变化,原来可以匹配触发规则的位置可能已经不再有效。
然后对带有类别标签的分词结果做适合语音识别的后处理;并计算带词类标签的声学语言模型。
图2为根据本发明实施方式声学语言模型训练方法总体示意图。
如图2所示,基于上述详细分析,在本发明实施方式中,对于分词阶段,在全切分过程中,优选不仅匹配模式词、词典词,还可以根据词类资源对匹配到的词汇做类别标签替换。对于分词阶段,在基于隐马模型的概率路径选优过程中,可以使用语言模型中的词类参数对词类做概率计算,若最优路径包含类别标签,则该类别标签直接作为的分词结果输出。在基于资源的词类替换阶段,词类替换的数据是可信的资源数据,不是来源于自动识别的未登录词。由此可见,本发明实施方式的词汇的类别替换方法综合了触发规则和统计语言模型两种方法,
在本发明实施方式中,触发规则仅对有把握的部分作词类替换,而且通过迭代基于词类的语言模型,可以逐步提高词类替换的覆盖率。在本发明实施方式中,分类词汇作为切分资源参与分词匹配过程,使用词类的概率参数参与最优概率路径的计算,而且对以对于胜出的词类词汇,可以以类别标签方式出现在分词结果中。
基于上述详细分析,本发明实施方式还提出了一种声学语言模型训练装置。
图3为根据本发明实施方式声学语言模型训练装置结构图。
该装置包括分词单元301、词类替换单元302、语言模型训练单元303和声学语言模型获取单元304,其中:
分词单元301,用于利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;
词类替换单元302,用于对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;
语言模型训练单元303,用于对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;
声学语言模型获取单元304,用于利用该有类别标签的第二分词数据获取声学语言模型。
在一个实施方式中,词类替换单元302,用于在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇,并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
在一个实施方式中,语言模型训练单元303,进一步用于在获得有类别标签的第二分词数据之后,判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同,如果是,则使能声学语言模型获取单元,如果不是,则使能词类替换单元对有类别标签的第二分词数据执行词类替换。
在一个实施方式中,词类替换单元302,用于在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后,进一步判断在分类词汇表中检索出的词汇长度是否大于预先设定的匹配词长度门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
在一个实施方式中,词类替换单元302,用于在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后,进一步判断在分类词汇表中检索出的词汇的出现频率是否大于预先设定的词频门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
优选地,该装置进一步包括语音识别单元305;
语音识别单元305,用于接收输入语音,并利用该声学语言模型针对输入语音执行语音识别处理。
优选地,该装置进一步包括归一化单元306;
归一化单元306,用于在利用无类别标签的语言模型对训练语料进行分词之前,对该训练语料作出归一化处理。
可以将图3所示装置集成到各种网络的硬件实体当中。比如,可以将声学语言模型训练装置集成到:功能手机、智能手机、掌上电脑、个人电脑(PC)、平板电脑或个人数字助理(PDA),等等设备之中。
实际上,可以通过多种形式来具体实施本发明实施方式所提出的声学语言模型训练装置。比如,可以遵循一定规范的应用程序接口,将声学语言模型训练装置编写为安装到浏览器中的插件程序,也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时,可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出的声学语言模型训练装置。
可以通过指令或指令集存储的储存方式将本发明实施方式所提出的声学语言模型训练方法存储在各种存储介质上。这些存储介质包括但是不局限于:软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(Memory Stick)、xD卡等。
另外,还可以将本发明实施方式所提出的声学语言模型训练方法应用到基于闪存(Nand flash)的存储介质中,比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。
综上所述,在本发明实施方式中,利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;利用该有类别标签的第二分词数据获取声学语言模型。由此可见,应用本发明实施方式之后,实现了基于词类分词的声学语言模型训练。本发明实施方式可以采用类别标签替换语言模型训练文本中所有该类实体名,从而减少了语言模型中的词汇数量,而且当同类实体名在计算概率时,都采用语言模型中对应类别标签的参数。本发明实施方式扩大了语言模型囊括的词汇数量,从而提高了语音识别***的识别准确率。
而且,本发明实施方式解决了语音识别***词表容量有限所造成的词表范围之外的词汇识别效果不佳的问题。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种声学语言模型训练方法,其特征在于,该方法包括:
利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;
对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;
对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;
利用该有类别标签的第二分词数据获取声学语言模型。
2.根据权利要求1所述的声学语言模型训练方法,其特征在于,所述对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据包括:
在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇,并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
3.根据权利要求1所述的声学语言模型训练方法,其特征在于,该方法在获得有类别标签的第二分词数据之后,进一步包括:
判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同,如果是,则利用该有类别标签的第二分词数据获取声学语言模型,如果不是,则对有类别标签的第二分词数据执行词类替换。
4.根据权利要求2所述的声学语言模型训练方法,其特征在于,在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后,该方法进一步包括:
判断在分类词汇表中检索出的词汇长度是否大于预先设定的匹配词长度门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
5.根据权利要求2所述的声学语言模型训练方法,其特征在于,在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后,该方法进一步包括:
判断在分类词汇表中检索出的词汇的出现频率是否大于预先设定的词频门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
6.根据权利要求1所述的声学语言模型训练方法,其特征在于,该方法进一步包括:
在利用无类别标签的语言模型对训练语料进行分词之前,对该训练语料作出归一化处理。
7.根据权利要求1所述的声学语言模型训练方法,其特征在于,该方法进一步包括:
接收输入语音;
利用该声学语言模型针对输入语音执行语音识别处理。
8.一种声学语言模型训练装置,其特征在于,该装置包括分词单元、词类替换单元、语言模型训练单元和声学语言模型获取单元,其中:
分词单元,用于利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;
词类替换单元,用于对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;
语言模型训练单元,用于对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;
声学语言模型获取单元,用于利用该有类别标签的第二分词数据获取声学语言模型。
9.根据权利要求8所述的声学语言模型训练装置,其特征在于,
词类替换单元,用于在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇,并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
10.根据权利要求8所述的声学语言模型训练装置,其特征在于,
语言模型训练单元,进一步用于在获得有类别标签的第二分词数据之后,判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同,如果是,则使能声学语言模型获取单元,如果不是,则使能词类替换单元对有类别标签的第二分词数据执行词类替换。
11.根据权利要求9所述的声学语言模型训练装置,其特征在于,
词类替换单元,用于在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后,进一步判断在分类词汇表中检索出的词汇长度是否大于预先设定的匹配词长度门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
12.根据权利要求9所述的声学语言模型训练装置,其特征在于,
词类替换单元,用于在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后,进一步判断在分类词汇表中检索出的词汇的出现频率是否大于预先设定的词频门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
13.根据权利要求8所述的声学语言模型训练装置,其特征在于,进一步包括语音识别单元;
语音识别单元,用于接收输入语音,并利用该声学语言模型针对输入语音执行语音识别处理。
14.根据权利要求8所述的声学语言模型训练装置,其特征在于,进一步包括归一化单元;
归一化单元,用于在利用无类别标签的语言模型对训练语料进行分词之前,对该训练语料作出归一化处理。
CN201310040085.1A 2013-02-01 2013-02-01 一种声学语言模型训练方法和装置 Active CN103971677B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201310040085.1A CN103971677B (zh) 2013-02-01 2013-02-01 一种声学语言模型训练方法和装置
CA2899532A CA2899532C (en) 2013-02-01 2013-10-25 Method and device for acoustic language model training
PCT/CN2013/085948 WO2014117548A1 (en) 2013-02-01 2013-10-25 Method and device for acoustic language model training
BR112015018205-4A BR112015018205B1 (pt) 2013-02-01 2013-10-25 Método e sistema para a formação de modelo de linguagem acústica, e meio de armazenamento legível por computador.
JP2015555551A JP5901001B1 (ja) 2013-02-01 2013-10-25 音響言語モデルトレーニングのための方法およびデバイス
US14/109,845 US9396723B2 (en) 2013-02-01 2013-12-17 Method and device for acoustic language model training
TW103100469A TWI512719B (zh) 2013-02-01 2014-01-07 An acoustic language model training method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310040085.1A CN103971677B (zh) 2013-02-01 2013-02-01 一种声学语言模型训练方法和装置

Publications (2)

Publication Number Publication Date
CN103971677A CN103971677A (zh) 2014-08-06
CN103971677B true CN103971677B (zh) 2015-08-12

Family

ID=51241096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310040085.1A Active CN103971677B (zh) 2013-02-01 2013-02-01 一种声学语言模型训练方法和装置

Country Status (6)

Country Link
JP (1) JP5901001B1 (zh)
CN (1) CN103971677B (zh)
BR (1) BR112015018205B1 (zh)
CA (1) CA2899532C (zh)
TW (1) TWI512719B (zh)
WO (1) WO2014117548A1 (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106486114A (zh) * 2015-08-28 2017-03-08 株式会社东芝 改进语言模型的方法和装置以及语音识别方法和装置
WO2017061027A1 (ja) * 2015-10-09 2017-04-13 三菱電機株式会社 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム
CN105654945B (zh) * 2015-10-29 2020-03-06 乐融致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN107204184B (zh) * 2017-05-10 2018-08-03 平安科技(深圳)有限公司 语音识别方法及***
CN109427330B (zh) * 2017-09-05 2023-04-07 中国科学院声学研究所 一种基于统计语言模型得分规整的语音识别方法及***
TWI639997B (zh) * 2017-09-28 2018-11-01 大仁科技大學 基於機率規則之對話理解方法
CN110019305B (zh) * 2017-12-18 2024-03-15 上海智臻智能网络科技股份有限公司 知识库扩展方法及存储介质、终端
CN110083820B (zh) * 2018-01-26 2023-06-27 普天信息技术有限公司 一种基准分词模型的改进方法及装置
CN108197116B (zh) * 2018-01-31 2021-05-28 天闻数媒科技(北京)有限公司 一种中文文本分词的方法、装置、分词设备及存储介质
CN110648657B (zh) * 2018-06-27 2024-02-02 北京搜狗科技发展有限公司 一种语言模型训练方法、构建方法和装置
CN109616121A (zh) * 2018-11-28 2019-04-12 北京捷通华声科技股份有限公司 一种数字转换方法和装置
CN109949797B (zh) * 2019-03-11 2021-11-12 北京百度网讯科技有限公司 一种训练语料的生成方法、装置、设备及存储介质
CN111694962A (zh) * 2019-03-15 2020-09-22 阿里巴巴集团控股有限公司 数据处理方法和装置
CN110110041B (zh) * 2019-03-15 2022-02-15 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质
WO2020218635A1 (ko) * 2019-04-23 2020-10-29 엘지전자 주식회사 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
US11393447B2 (en) 2019-06-18 2022-07-19 Lg Electronics Inc. Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
CN110442859B (zh) * 2019-06-28 2023-05-26 中国人民解放军国防科技大学 标注语料生成方法、装置、设备及存储介质
CN110489744B (zh) * 2019-07-25 2024-05-14 腾讯科技(深圳)有限公司 一种语料的处理方法、装置、电子设备和存储介质
CN111143521B (zh) * 2019-10-28 2023-08-15 广州恒巨信息科技有限公司 基于知识图谱的法条检索方法、***、装置及存储介质
CN110992939B (zh) * 2019-12-18 2023-06-27 广州市百果园信息技术有限公司 语言模型训练方法、解码方法、装置、存储介质及设备
CN111125360B (zh) * 2019-12-19 2023-10-20 网易(杭州)网络有限公司 游戏领域的情感分析方法、装置及其模型训练方法、装置
CN111291560B (zh) * 2020-03-06 2023-05-23 深圳前海微众银行股份有限公司 样本扩充方法、终端、装置及可读存储介质
CN111507104B (zh) 2020-03-19 2022-03-25 北京百度网讯科技有限公司 建立标签标注模型的方法、装置、电子设备和可读存储介质
CN112397054B (zh) * 2020-12-17 2023-11-24 北京中电飞华通信有限公司 一种电力调度语音识别方法
CN112735380B (zh) * 2020-12-28 2022-05-13 思必驰科技股份有限公司 重打分语言模型的打分方法及语音识别方法
CN113177109A (zh) * 2021-05-27 2021-07-27 中国平安人寿保险股份有限公司 文本的弱标注方法、装置、设备以及存储介质
CN116612750A (zh) * 2023-05-23 2023-08-18 苏州科帕特信息科技有限公司 一种语言模型自动训练方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1168301A1 (en) * 2000-06-28 2002-01-02 Matsushita Electric Industrial Co., Ltd. Training of acoustic models for noise robustness
EP1528639A1 (de) * 2003-10-29 2005-05-04 Yazaki Europe Ltd. Steckverbindergehäuse mit Kurzschlussbrücke
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN102543080A (zh) * 2010-12-24 2012-07-04 索尼公司 音频编辑***和音频编辑方法
CN102568477A (zh) * 2010-12-29 2012-07-11 盛乐信息技术(上海)有限公司 一种半监督的发音模型建模***及方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
CN1141697C (zh) * 2000-09-27 2004-03-10 中国科学院自动化研究所 一种带调三音子模型及训练方法
JP3696231B2 (ja) * 2002-10-08 2005-09-14 松下電器産業株式会社 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法
US7684987B2 (en) * 2004-01-21 2010-03-23 Microsoft Corporation Segmental tonal modeling for tonal languages
FR2892846A1 (fr) * 2005-11-03 2007-05-04 France Telecom Procede et dispositif de calcul de mesure de similarite entre une representation d'un segment audio de reference et une representation d'un segment audio a tester et procede et dispositif de suivi d'un locuteur de reference
TWI297487B (en) * 2005-11-18 2008-06-01 Tze Fen Li A method for speech recognition
WO2007138875A1 (ja) * 2006-05-31 2007-12-06 Nec Corporation 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
US8204747B2 (en) * 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
US7617103B2 (en) * 2006-08-25 2009-11-10 Microsoft Corporation Incrementally regulated discriminative margins in MCE training for speech recognition
TWI389100B (zh) * 2008-11-19 2013-03-11 Inst Information Industry 語音情緒的分類方法及其情緒語意模型的建立方法
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1168301A1 (en) * 2000-06-28 2002-01-02 Matsushita Electric Industrial Co., Ltd. Training of acoustic models for noise robustness
EP1528639A1 (de) * 2003-10-29 2005-05-04 Yazaki Europe Ltd. Steckverbindergehäuse mit Kurzschlussbrücke
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN102543080A (zh) * 2010-12-24 2012-07-04 索尼公司 音频编辑***和音频编辑方法
CN102568477A (zh) * 2010-12-29 2012-07-11 盛乐信息技术(上海)有限公司 一种半监督的发音模型建模***及方法

Also Published As

Publication number Publication date
BR112015018205B1 (pt) 2022-02-15
BR112015018205A2 (pt) 2017-07-18
CA2899532A1 (en) 2014-08-07
JP5901001B1 (ja) 2016-04-06
WO2014117548A1 (en) 2014-08-07
CN103971677A (zh) 2014-08-06
TW201432669A (zh) 2014-08-16
CA2899532C (en) 2017-09-19
JP2016513269A (ja) 2016-05-12
TWI512719B (zh) 2015-12-11

Similar Documents

Publication Publication Date Title
CN103971677B (zh) 一种声学语言模型训练方法和装置
CN108121700B (zh) 一种关键词提取方法、装置及电子设备
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN1677487B (zh) 使用语义监控的语言模型适应
CN112347778B (zh) 关键词抽取方法、装置、终端设备及存储介质
WO2021068339A1 (zh) 文本分类方法、装置及计算机可读存储介质
CN108460011B (zh) 一种实体概念标注方法及***
US9972311B2 (en) Language model optimization for in-domain application
US9396723B2 (en) Method and device for acoustic language model training
EP1619620A1 (en) Adaptation of Exponential Models
US20020194158A1 (en) System and method for context-dependent probabilistic modeling of words and documents
WO2017019705A1 (en) Systems and methods for domain-specific machine-interpretation of input data
WO2021068683A1 (zh) 正则表达式生成方法、装置、服务器及计算机可读存储介质
WO2020232898A1 (zh) 文本分类方法、装置、电子设备及计算机非易失性可读存储介质
US11790174B2 (en) Entity recognition method and apparatus
CN107992477A (zh) 文本主题确定方法、装置及电子设备
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN109408802A (zh) 一种提升句向量语义的方法、***及存储介质
CN111061876B (zh) 事件舆情数据分析方法及装置
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN114202443A (zh) 政策分类方法、装置、设备及存储介质
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
CN113157857B (zh) 面向新闻的热点话题检测方法、装置及设备
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200821

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.