CN103680493A - 区分地域性口音的语音数据识别方法和装置 - Google Patents

区分地域性口音的语音数据识别方法和装置 Download PDF

Info

Publication number
CN103680493A
CN103680493A CN201310703949.3A CN201310703949A CN103680493A CN 103680493 A CN103680493 A CN 103680493A CN 201310703949 A CN201310703949 A CN 201310703949A CN 103680493 A CN103680493 A CN 103680493A
Authority
CN
China
Prior art keywords
data
speech data
speech
ratio
confidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310703949.3A
Other languages
English (en)
Inventor
苏丹
尹钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310703949.3A priority Critical patent/CN103680493A/zh
Publication of CN103680493A publication Critical patent/CN103680493A/zh
Priority to US14/896,368 priority patent/US9928831B2/en
Priority to JP2016517162A priority patent/JP6229046B2/ja
Priority to PCT/CN2014/094205 priority patent/WO2015090215A1/zh
Priority to KR1020157034612A priority patent/KR101734829B1/ko
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种区分地域性口音的语音数据识别方法和装置。所述区分地域性口音的语音数据识别方法包括:计算语音数据的语音识别置信度和/或信噪比,并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据;根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。本发明公开的区分地域性口音的语音数据识别方法和装置通过计算语音数据的置信度和信噪比将地域性语音数据自动的从海量的语音数据中识别出来,避免了对语音数据进行人工标注,提高了语音数据处理的效率。

Description

区分地域性口音的语音数据识别方法和装置
技术领域
本发明涉及语音数据处理技术领域,尤其涉及一种区分地域性口音的语音数据识别方法和装置。
背景技术
我国幅员辽阔,这使得汉语中包含地域性口音的方言的种类众多。来自不同地方的方言在发音特点,语速特点上各不相同。所以,采用相同的声学模型对不同地方的方言进行语音识别时,会出现识别准确率不高的现象。为了解决采用统一的适用于汉语普通话的声学模型对不同地方方言进行语音识别时识别准确率不高的问题,针对不同地方的方言分别训练为各种方言定制的声学模型是一种很好的途径。
训练声学模型需要海量的训练数据。目前,随着微信、米聊等即时通讯工具的流行,互联网上存储有大量的原始语音数据。这些语音数据可以作为训练针对不同地方方言的声学模型的训练数据。但是,现有技术中,没有从这些语音数据中区分哪些是普通话的语音数据,哪些是地域性语音数据的自动化方法,使得要使用原始语音数据训练针对地方方言的声学模型之前,首先需要对这些原始语音数据人工标注出地域标签,这会耗费大量人力物力。
发明内容
本发明实施例提出一种区分地域性口音的语音数据识别方法和装置,以从原始语音数据中自动识别出地域性语音数据。
第一方面,本发明实施例提供了一种区分地域性口音的语音数据识别方法,所述方法包括:
计算语音数据的语音识别置信度和/或信噪比,并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据;
根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。
第二方面,本发明实施例提供了一种区分地域性口音的语音数据识别装置,所述装置包括:
语音数据筛选模块,用于计算语音数据的语音识别置信度和/或信噪比,并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据;
地域确定模块,用于根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。
本发明实施例提供的区分地域性口音的语音数据识别方法和装置,通过计算语音数据的置信度和/或信噪比,将地域性语音数据自动的从海量的语音数据中筛选出来,减少了对全部语音数据进行人工标注的工作量,提高了语音数据处理的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明第一实施例提供的区分地域性口音的语音数据识别方法的流程图;
图2是本发明第一实施例提供的区分地域性口音的语音数据识别方法的信号流图;
图3是本发明第二实施例提供的区分地域性口音的语音数据识别方法的流程图;
图4是本发明第二实施例提供的区分地域性口音的语音数据识别方法中信噪比计算的流程图;
图5是本发明第二实施例提供的区分地域性口音的语音数据识别方法的信号流图;
图6是本发明第三实施例提供的区分地域性口音的语音数据识别装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
图1及图2示出了本发明的第一实施例。
图1是本发明第一实施例提供的区分地域性口音的语音数据识别方法的流程图。参见图1,所述区分地域性口音的语音数据识别方法包括:
S110,计算语音数据的语音识别置信度和/或信噪比,并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据。
因为现有技术中用于语音识别的声学模型都是针对低噪音并且没有地域性口音的标准普通话语音训练的声学模型。当使用这些声学模型来对地域性语音数据进行语音识别时,会出现语音识别置信度不高,进而语音识别的识别率不高的情况。正因为地域性语音数据有进行语音识别时语音识别置信度不高的特征,所以可以计算地域性语音数据的语音识别置信度,再根据计算的地域性语音数据的语音识别置信度筛选出地域性语音数据。
然而,造成语音数据的语音识别置信度不高的原因也可能是因为语音数据中有较高的噪声。所述还可以通过计算语音数据的信噪比,将语音数据中信噪比较低的语音数据滤除,以清除由于低信噪比造成其语音识别置信度低的语音数据。将语音数据中信噪比较低的语音数据清除以后,剩下的语音数据就是由于地域性口音造成语音识别置信度不高的语音数据,也即地域性语音数据。
在本实施例中,通过计算语音数据的语音识别置信度和/或信噪比,并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据。需要说明的是,可以同时计算语音数据的语音识别置信度以及信噪比,根据计算得到的语音识别置信度和信噪比从语音数据中筛选出地域性语音数据,也可以单独计算语音数据的语音识别置信度或信噪比,根据计算得到的语音识别置信度或信噪比从语音数据中筛选出地域性语音数据。
S120,根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。
从语音数据中筛选出地域性语音数据后,对筛选得到的地域性语音数据确定所述地域性语音数据的所属地域。对所述地域性语音数据确定其所属地域需要根据所述地域性语音数据的地域属性来确定所述地域性语音数据的所述地域。优选的,所述地域属性包括所述语音数据的来源IP地址的归属地,或者所述语音数据的来源用户的归属地。由于首先从海量语音数据中进行了筛选,所以基于地域属性进行地域标注的计算量在一定程度上有所减少,也使得此地域区分的准确性有所提高。
图2是本发明第一实施例提供的区分地域性口音的语音数据识别方法的信号流图。参见图2,语音数据输入至置信度和/或信噪比分类器201以根据语音识别置信度和/或信噪比对所述语音数据进行分类,将根据语音识别置信度和/或信噪比分类后的语音数据输入至地域属性分类器202以根据语音数据的地域属性对所述语音数据进行分类,最后得到按照地域属性进行分类后的地域性语音数据。
本实施例通过计算语音数据的语音识别置信度和/或信噪比,从海量的语音数据中筛选地域性语音数据,实现了从海量的语音数据中自动识别地域性语音数据,减少了对海量语音数据进行人工标注的工作量,也提高了语音数据处理的效率。
图3至图5示出了本发明的第二实施例。
图3是本发明第二实施例提供的区分地域性口音的语音数据识别方法的流程图。所述区分地域性口音的语音数据识别方法以上述实施例为基础,进一步的,计算语音数据的语音识别置信度和/或信噪比,并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据包括:计算语音数据的语音识别置信度,选取所述语音识别置信度的取值范围居中的语音数据;计算选取的语音数据的信噪比,并将信噪比大于设定阈值的语音数据作为地域性语音数据。
参见图3,所述区分地域性口音的语音数据识别方法包括:
S310,计算语音数据的语音识别置信度,选取所述语音识别置信度的取值范围居中的语音数据。
置信指的是正确的概率,置信度是评价这个概率的一种度量,表示某一事件的可靠程度。在语音识别中,置信度被定义成一个用来衡量模型和观测数据之间匹配程度的函数,而且这个函数的值对于不同的观测数据具有可比性。
在语音识别中,置信度研究一直是一个非常重要的课题。尤其在语音技术得到广泛应用的今天,对语音识别的输出结果进行置信度的估计,判断其可信程度,在越来越多的领域发展出了新的应用。
在本实施例中,语音识别置信度是在对语音数据进行识别时计算得到的置信度。
由于标准普通话语音的语音数据在采用语音识别算法进行识别时的置信度一般都较高,所以排除取值范围较高的置信度的语音数据,相当于排除了普通话的语音数据。同时,置信度较低的数据可能并不包含有效的语音,所以排除取值范围较低的置信度的语音数据,相当于排除了无效语音数据。因此,计算得到语音数据的置信度后,选取语音识别置信度居中的语音数据作为可能成为地域性语音数据的语音数据。所谓置信度居中,即在置信度的取值范围中排除头部和尾部的取值范围,保留中部的取值,排除的取值范围的大小并不做限定,可以根据经验值或实际需求来设定。在本实施例中,优选将语音识别置信度在30%至80%之间的语音数据作为可能成为地域性语音数据的语音数据。
计算语音数据的语音识别置信度必须以语音数据的特征为依据。能够被用来计算语音数据的语音识别置信度的特征可以包括语音数据的似然度、状态驻留信息和似然比。
似然度是表示语音数据与模型数据之间的相似程度的指标。状态驻留信息是指语音识别过程中声学模型驻留在某个语音识别状态的相关信息。似然比是语音数据与模型数据之间相似程度的比值。
在本实施例中,可以依据语音数据的似然度、状态驻留信息和似然比计算语音数据的语音识别置信度。
S320,计算选取的语音数据的信噪比,并将信噪比大于设定阈值的语音数据作为地域性语音数据。
造成语音数据在语音识别中置信度不高的原因还可以是因为语音数据中包含有较大的噪声。因此,对选取的语音数据计算其信噪比,去除信噪比较低的语音数据,并将信噪比较高的语音数据作为地域性语音数据。
信噪比是语音数据中正常语音信号的功率与语音数据中的噪声信号的功率的比值。计算选取的语音数据的信噪比,并将信噪比较高的语音数据作为地域性语音数据就是计算所选取的语音数据中正常语音信号的功率与语音数据中的噪声信号的功率的比值,然后将正常语音信号的功率与语音数据中的噪声信号的功率的比值高于信噪比阈值的语音数据作为地域性语音数据。
S330,根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。
通过计算语音识别置信度和信噪比从海量的语音数据中识别出地域性语音数据后,按照所述地域性语音数据的地域属性,对所述地域性语音数据确定其所属的地域。
优选的,可以按照所述语音数据的来源IP地址的归属地,或者所述语音数据的来源用户的归属地确定所述地域性语音数据所属的地域。
图4是本发明第二实施例提供的区分地域性口音的语音数据识别方法中信噪比计算的流程图。参见图4,优选的,计算选取的语音数据的信噪比包括:
S321,利用基音提取算法提取所述语音数据的基音数据。
要计算所述语音数据的信噪比,首先应该从所述语音数据中区分哪些部分是所述语音数据的基音数据,即正常语音数据,哪些部分是所述语音数据的噪音数据。
基音提取算法是从所述语音数据中提取基音数据的算法。典型的基音提取算法包括谱减法、维纳滤波法以及短时谱最小均方误差估计法。在本实施例中,可以利用谱减法、维纳滤波法或者短时谱最小均方误差估计法从所述语音数据中提取基音数据。
S322,根据提取的基音数据获取所述语音数据的噪音数据。
从所述语音数据中提取基音数据后,余下部分的语音数据就是所述语音数据中的噪声数据。因此,可以通过简单的将所述语音数据与从所述语音数据中提取的基音数据做查而求得所述语音数据中的噪声数据。
S323,根据所述基音数据以及所述噪音数据计算所述语音数据的信噪比。
从所述语音数据中求得所述语音数据的基音数据和噪音数据后,即可根据所述基音数据以及所述噪音数据计算所述语音数据的信噪比。具体的,可以先计算所述基音数据及所述噪音数据的功率,再计算二者的比值,得到所述语音数据的信噪比。
图5是本发明第二实施例提供的区分地域性口音的语音数据识别方法的信号流图。参见图5,语音数据输入至置信度分类器501以根据语音识别置信度对语音数据进行分类,将语音识别置信度的取值居中的语音数据输入至信噪比分类器502以根据信噪比对语音数据进行分类,再将信噪比较高的语音数据输入至地域属性分类器503以根据语音数据的地域属性对语音数据进行分类,最后将完成地域属性分类的语音数据作为地域性语音数据。
本实施例从海量语音数据中首先筛选语音识别置信度居中,并且信噪比高于设定阈值的语音数据,此操作可以减少后续利用地域属性区分地域所要处理的数据量。再根据语音数据的地域属性对语音数据进行分类,实现了对地域性语音数据的筛选和标注,进一步提高了对语音数据进行处理的效率。
图6示出了本发明的第三实施例。
图6是本发明第三实施例提供的区分地域性口音的语音数据识别装置的结构图。参见图6,所述区分地域性口音的语音数据识别装置包括:语音数据筛选模块610以及地域确定模块620。
所述语音数据筛选模块610用于计算语音数据的语音识别置信度和/或信噪比,并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据。
所述地域确定模块620用于根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。
优选的,所述语音数据筛选模块610包括:置信度选取子模块611以及信噪比选取子模块612。
所述置信度选取子模块611用于计算语音数据的语音识别置信度,选取所述语音识别置信度的取值范围居中的语音数据。
所述信噪比选取子模块612用于计算选取的语音数据的信噪比,并将信噪比大于设定阈值的语音数据作为地域性语音数据。
优选的,所述地域属性包括所述语音数据的来源IP地址的归属地,或者所述语音数据的来源用户的归属地。
优选的,所述语音数据筛选模块用于计算语音数据的语音识别置信度具体用于:基于语音数据的似然度、状态驻留信息和/或似然比,计算语音数据的语音识别置信度。
优选的,选取的居中取值范围为30%至80%。
优选的,所述语音数据筛选模块用于计算语音数据的信噪比具体用于:
利用基音提取算法提取所述语音数据的基音数据;
根据提取的基音数据获取所述语音数据的噪音数据;
根据所述基音数据以及所述噪音数据计算所述语音数据的信噪比。
优选的,所述基音提取算法包括谱减法、维纳滤波法以及短时谱最小均方误差估计法。
本实施例通过计算语音数据的语音识别置信度以及信噪比,选取语音识别置信度居中且信噪比较高的语音数据为地域性语音数据,实现了从海量的语音数据中自动识别地域性语音数据,避免了对语音数据进行人工标注,提高了语音数据处理的效率。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同相似的部分互相参见即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (14)

1.一种区分地域性口音的语音数据识别方法,其特征在于,包括:
计算语音数据的语音识别置信度和/或信噪比,并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据;
根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。
2.根据权利要求1所述的方法,其特征在于,计算语音数据的语音识别置信度和/或信噪比,并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据包括:
计算语音数据的语音识别置信度,选取所述语音识别置信度的取值范围居中的语音数据;
计算选取的语音数据的信噪比,并将信噪比大于设定阈值的语音数据作为地域性语音数据。
3.根据权利要求1或2所述的方法,其特征在于,所述地域属性包括所述语音数据的来源IP地址的归属地,或者所述语音数据的来源用户的归属地。
4.根据权利要求1或2所述的方法,其特征在于,计算语音数据的语音识别置信度包括:
基于语音数据的似然度、状态驻留信息和/或似然比,计算语音数据的语音识别置信度。
5.根据权利要求1或2所述的方法,其特征在于,选取的居中取值范围为30%至80%。
6.根据权利要求1或2所述的方法,其特征在于,计算语音数据的信噪比包括:
利用基音提取算法提取所述语音数据的基音数据;
根据提取的基音数据获取所述语音数据的噪音数据;
根据所述基音数据以及所述噪音数据计算所述语音数据的信噪比。
7.根据权利要求6所述的方法,其特征在于,所述基音提取算法包括谱减法、维纳滤波法以及短时谱最小均方误差估计法。
8.一种区分地域性口音的语音数据识别装置,其特征在于,包括:
语音数据筛选模块,用于计算语音数据的语音识别置信度和/或信噪比,并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据;
地域确定模块,用于根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。
9.根据权利要求8所述的装置,其特征在于,所述语音数据选取模块包括:
置信度选取子模块,用于计算语音数据的语音识别置信度,选取所述语音识别置信度的取值范围居中的语音数据;
信噪比选取子模块,用于计算选取的语音数据的信噪比,并将信噪比大于设定阈值的语音数据作为地域性语音数据。
10.根据权利要求8或9所述的装置,其特征在于,所述地域属性包括所述语音数据的来源IP地址的归属地,或者所述语音数据的来源用户的归属地。
11.根据权利要求8或9所述的装置,其特征在于,所述语音数据筛选模块用于计算语音数据的语音识别置信度具体用于基于语音数据的似然度、状态驻留信息和/或似然比,计算语音数据的语音识别置信度。
12.根据权利要求11所述的装置,其特征在于,选取的居中取值范围为30%至80%。
13.根据权利要求8或9所述的装置,其特征在于,所述语音数据筛选模块用于计算语音数据的信噪比具体用于:
利用基音提取算法提取所述语音数据的基音数据;
根据提取的基音数据获取所述语音数据的噪音数据;
根据所述基音数据以及所述噪音数据计算所述语音数据的信噪比。
14.根据权利要求13所述的装置,其特征在于,所述基音提取算法包括谱减法、维纳滤波法以及短时谱最小均方误差估计法。
CN201310703949.3A 2013-12-19 2013-12-19 区分地域性口音的语音数据识别方法和装置 Pending CN103680493A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201310703949.3A CN103680493A (zh) 2013-12-19 2013-12-19 区分地域性口音的语音数据识别方法和装置
US14/896,368 US9928831B2 (en) 2013-12-19 2014-12-18 Speech data recognition method, apparatus, and server for distinguishing regional accent
JP2016517162A JP6229046B2 (ja) 2013-12-19 2014-12-18 地方なまりを区別する音声データ認識方法、装置及びサーバ
PCT/CN2014/094205 WO2015090215A1 (zh) 2013-12-19 2014-12-18 区分地域性口音的语音数据识别方法、装置和服务器
KR1020157034612A KR101734829B1 (ko) 2013-12-19 2014-12-18 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310703949.3A CN103680493A (zh) 2013-12-19 2013-12-19 区分地域性口音的语音数据识别方法和装置

Publications (1)

Publication Number Publication Date
CN103680493A true CN103680493A (zh) 2014-03-26

Family

ID=50317847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310703949.3A Pending CN103680493A (zh) 2013-12-19 2013-12-19 区分地域性口音的语音数据识别方法和装置

Country Status (5)

Country Link
US (1) US9928831B2 (zh)
JP (1) JP6229046B2 (zh)
KR (1) KR101734829B1 (zh)
CN (1) CN103680493A (zh)
WO (1) WO2015090215A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015090215A1 (zh) * 2013-12-19 2015-06-25 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法、装置和服务器
CN106055610A (zh) * 2016-05-25 2016-10-26 维沃移动通信有限公司 语音信息的检索方法及移动终端
CN106534500A (zh) * 2016-10-31 2017-03-22 努比亚技术有限公司 一种基于人物属性的个性化服务***及方法
CN108352127A (zh) * 2015-09-22 2018-07-31 旺多姆咨询私人有限公司 用于为分布式语言学习***的用户自动生成语音样本资产生产得分的方法、自动口音识别和量化以及改进的语音识别
CN109192194A (zh) * 2018-08-22 2019-01-11 北京百度网讯科技有限公司 语音数据标注方法、装置、计算机设备及存储介质
CN109545238A (zh) * 2018-12-11 2019-03-29 珠海市微半导体有限公司 一种基于清洁机器人的语音去噪装置及机器人
CN111369981A (zh) * 2020-03-02 2020-07-03 北京远鉴信息技术有限公司 一种方言地域识别方法、装置、电子设备及存储介质
CN111951786A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 声音识别模型的训练方法、装置、终端设备及介质
CN113053367A (zh) * 2021-04-16 2021-06-29 北京百度网讯科技有限公司 语音识别方法、语音识别的模型训练方法以及装置
CN111651976B (zh) * 2020-07-07 2023-08-25 中国银行股份有限公司 姓名播报方法和装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106251859B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
US10650844B2 (en) 2018-01-18 2020-05-12 Wipro Limited Method and response recommendation system for recommending a response for a voice-based user input
KR102440421B1 (ko) * 2018-05-21 2022-09-05 베이징 긱플러스 테크놀러지 씨오. 엘티디 오더 처리 방법 및 장치, 서버 및 저장 매체
US11495234B2 (en) 2019-05-30 2022-11-08 Lg Electronics Inc. Data mining apparatus, method and system for speech recognition using the same
CN110517664B (zh) * 2019-09-10 2022-08-05 科大讯飞股份有限公司 多方言识别方法、装置、设备及可读存储介质
USD960391S1 (en) 2020-11-06 2022-08-09 Canvas Craft, Inc. Drive thru booth
CN112750428A (zh) * 2020-12-29 2021-05-04 平安普惠企业管理有限公司 语音交互方法、装置和计算机设备
CN115273827B (zh) * 2022-06-24 2024-06-21 天津大学 多口音语音识别的具有域对抗训练的自适应注意力方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
CN101393740A (zh) * 2008-10-31 2009-03-25 清华大学 一种计算机多方言背景的汉语普通话语音识别的建模方法
US8160878B2 (en) * 2008-09-16 2012-04-17 Microsoft Corporation Piecewise-based variable-parameter Hidden Markov Models and the training thereof
CN102915731A (zh) * 2012-10-10 2013-02-06 百度在线网络技术(北京)有限公司 一种个性化的语音识别的方法及装置
CN103117825A (zh) * 2012-12-31 2013-05-22 广东欧珀移动通信有限公司 一种移动终端方言播报方法及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07303053A (ja) * 1994-05-02 1995-11-14 Oki Electric Ind Co Ltd 地域判定装置及び音声認識装置
JP3798530B2 (ja) * 1997-09-05 2006-07-19 松下電器産業株式会社 音声認識装置及び音声認識方法
US7224981B2 (en) * 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
JP4583772B2 (ja) * 2004-02-05 2010-11-17 日本電気株式会社 音声認識システム、音声認識方法および音声認識用プログラム
JP2007071904A (ja) 2005-09-02 2007-03-22 Yamaha Corp 地域別発音学習支援装置
CN101329868B (zh) * 2008-07-31 2011-06-01 林超 一种针对地区语言使用偏好的语音识别优化***及其方法
JP2010277359A (ja) * 2009-05-28 2010-12-09 Funai Electric Co Ltd 自動翻訳対応電話システムおよび自動翻訳対応電話機
US8265928B2 (en) 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US9245525B2 (en) * 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
US9129605B2 (en) * 2012-03-30 2015-09-08 Src, Inc. Automated voice and speech labeling
JP5982671B2 (ja) * 2012-04-24 2016-08-31 株式会社日立製作所 音声信号処理方法、及び音声信号処理システム
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
CN103337245B (zh) 2013-06-18 2016-06-01 北京百度网讯科技有限公司 基于子带信号的信噪比曲线的噪声抑制方法及装置
CN103680493A (zh) 2013-12-19 2014-03-26 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US8160878B2 (en) * 2008-09-16 2012-04-17 Microsoft Corporation Piecewise-based variable-parameter Hidden Markov Models and the training thereof
CN101393740A (zh) * 2008-10-31 2009-03-25 清华大学 一种计算机多方言背景的汉语普通话语音识别的建模方法
CN102915731A (zh) * 2012-10-10 2013-02-06 百度在线网络技术(北京)有限公司 一种个性化的语音识别的方法及装置
CN103117825A (zh) * 2012-12-31 2013-05-22 广东欧珀移动通信有限公司 一种移动终端方言播报方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘镜 等: "置信度的原理及其在语音识别中的应用", 《计算机研究与发展》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9928831B2 (en) 2013-12-19 2018-03-27 Baidu Online Network Technology (Beijing) Co., Ltd. Speech data recognition method, apparatus, and server for distinguishing regional accent
WO2015090215A1 (zh) * 2013-12-19 2015-06-25 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法、装置和服务器
CN108352127A (zh) * 2015-09-22 2018-07-31 旺多姆咨询私人有限公司 用于为分布式语言学习***的用户自动生成语音样本资产生产得分的方法、自动口音识别和量化以及改进的语音识别
CN106055610B (zh) * 2016-05-25 2020-02-14 维沃移动通信有限公司 语音信息的检索方法及移动终端
CN106055610A (zh) * 2016-05-25 2016-10-26 维沃移动通信有限公司 语音信息的检索方法及移动终端
CN106534500A (zh) * 2016-10-31 2017-03-22 努比亚技术有限公司 一种基于人物属性的个性化服务***及方法
CN109192194A (zh) * 2018-08-22 2019-01-11 北京百度网讯科技有限公司 语音数据标注方法、装置、计算机设备及存储介质
CN109545238A (zh) * 2018-12-11 2019-03-29 珠海市微半导体有限公司 一种基于清洁机器人的语音去噪装置及机器人
CN109545238B (zh) * 2018-12-11 2022-05-10 珠海一微半导体股份有限公司 一种基于清洁机器人的语音去噪装置
CN111951786A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 声音识别模型的训练方法、装置、终端设备及介质
CN111369981A (zh) * 2020-03-02 2020-07-03 北京远鉴信息技术有限公司 一种方言地域识别方法、装置、电子设备及存储介质
CN111369981B (zh) * 2020-03-02 2024-02-23 北京远鉴信息技术有限公司 一种方言地域识别方法、装置、电子设备及存储介质
CN111651976B (zh) * 2020-07-07 2023-08-25 中国银行股份有限公司 姓名播报方法和装置
CN113053367A (zh) * 2021-04-16 2021-06-29 北京百度网讯科技有限公司 语音识别方法、语音识别的模型训练方法以及装置
CN113053367B (zh) * 2021-04-16 2023-10-10 北京百度网讯科技有限公司 语音识别方法、语音识别的模型训练方法以及装置

Also Published As

Publication number Publication date
US9928831B2 (en) 2018-03-27
JP2016520879A (ja) 2016-07-14
JP6229046B2 (ja) 2017-11-08
WO2015090215A1 (zh) 2015-06-25
KR101734829B1 (ko) 2017-05-12
US20160284344A1 (en) 2016-09-29
KR20160024858A (ko) 2016-03-07

Similar Documents

Publication Publication Date Title
CN103680493A (zh) 区分地域性口音的语音数据识别方法和装置
CN110263322B (zh) 用于语音识别的音频语料筛选方法、装置及计算机设备
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN109473123A (zh) 语音活动检测方法及装置
CN105374356B (zh) 语音识别方法、语音评分方法、语音识别***及语音评分***
CN103503060B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN103177733B (zh) 汉语普通话儿化音发音质量评测方法与***
CN108281138B (zh) 年龄判别模型训练及智能语音交互方法、设备及存储介质
CN109036471B (zh) 语音端点检测方法及设备
WO2021103712A1 (zh) 一种基于神经网络的语音关键词检测方法、装置及***
CN104036774A (zh) 藏语方言识别方法及***
CN105374352A (zh) 一种语音激活方法及***
JP2006084875A (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
CN117095694B (zh) 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN104347071B (zh) 生成口语考试参***的方法及***
CN111951825A (zh) 一种发音测评方法、介质、装置和计算设备
CN111369981A (zh) 一种方言地域识别方法、装置、电子设备及存储介质
CN104143342A (zh) 一种清浊音判定方法、装置和语音合成***
CN103559289B (zh) 语种无关的关键词检索方法及***
CN109065024B (zh) 异常语音数据检测方法及装置
CN112259084B (zh) 语音识别方法、装置和存储介质
CN104199811A (zh) 短句解析模型建立方法及***
CN115512692B (zh) 语音识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140326