CN111341300A - 一种获取语音比对音素的方法、装置和设备 - Google Patents
一种获取语音比对音素的方法、装置和设备 Download PDFInfo
- Publication number
- CN111341300A CN111341300A CN202010130582.0A CN202010130582A CN111341300A CN 111341300 A CN111341300 A CN 111341300A CN 202010130582 A CN202010130582 A CN 202010130582A CN 111341300 A CN111341300 A CN 111341300A
- Authority
- CN
- China
- Prior art keywords
- same
- phoneme
- sentence
- comparison
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000001514 detection method Methods 0.000 claims abstract description 23
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000004154 testing of material Methods 0.000 claims description 2
- 235000012054 meals Nutrition 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种获取语音比对音素的方法、装置和设备,包括:获取检材语音和样本语音;将检材语音转换为第一文字语句,将样本语音转换为第二文字语句;获取第一文字语句和第二文字语句中的相同音素作为优质比对音素。本申请中提供的获取语音比对音素的方法,利用文字语句语法的方式来获取优质比对音素,省去了使用语音图谱或声纹特征比对来寻在同一音素的过程,比对过程简单化,提高了效率,解决了现有的通过找出语音图谱或声纹特征最接近的音素的方式获取过程复杂,效率低下的技术问题。
Description
技术领域
本申请涉及语音鉴定技术领域,尤其涉及一种获取语音比对音素的方法、装置和设备。
背景技术
在进行语音鉴定的时候,判断是同一人的一个重要标准就是找到10对可供比对的音素,每对音素需要有3条以上的共振峰,且整体符合率超过90%,在比对一组音素的时候,主要看共振峰的中心频率,若两个音素的4条共振峰频率满足F1小于12%,F2小于9%,F3在5~6%之间,F4在5~6%之间,则可认为该音素是同一人发音。目前用于获取比对音素的方法是找出与目标语音的声纹图谱或声纹特征最接近的待比对语音的音素作为比对音素,比对音素的获取过程复杂,效率低下。
发明内容
本申请提供了一种获取语音比对音素的方法、装置和设备,用于解决现有的通过找出语音图谱或声纹特征最接近的音素的方式获取过程复杂,效率低下的技术问题。
有鉴于此,本申请第一方面提供了一种获取语音比对音素的方法,包括:
获取检材语音和样本语音;
将所述检材语音转换为第一文字语句,将所述样本语音转换为第二文字语句;
获取所述第一文字语句和所述第二文字语句中的相同音素作为优质比对音素。
可选地,所述获取所述第一文字语句和所述第二文字语句中的相同音素作为优质比对音素,包括:
根据预置排列优先级排列出所述第一文字语句和所述第二文字语句的可供比对音素,将优先级最高的相同音素作为优质比对音素。
可选地,所述预置排列优先级为:
第一级:同一语句的同一词组的同一音节的同一音素;
第二级:不同语句的同一词组的同一音节的同一音素;
第三级:不同语句的不同词组的同一音节的同一音素;
第四级:不同语句的不同词组的不同音节的同一音素;
第五级:不同语句的不同词组的不同音节的同一音素。
可选地,所述将所述检材语音转换为第一文字语句,将所述样本语音转换为第二文字语句,包括:
通过ASR将所述检材语音转换为第一文字语句,将所述样本语音转换为第二文字语句。
本申请第二方面提供了一种获取语音比对音素的装置,包括:
语音获取单元,用于获取检材语音和样本语音;
转换单元,用于将所述检材语音转换为第一文字语句,将所述样本语音转换为第二文字语句;
音素获取单元,用于获取所述第一文字语句和所述第二文字语句中的相同音素作为优质比对音素。
可选地,所述音素获取单元,具体用于:
根据预置排列优先级排列出所述第一文字语句和所述第二文字语句的可供比对音素,将优先级最高的相同音素作为优质比对音素。
可选地,所述预置排列优先级为:
第一级:同一语句的同一词组的同一音节的同一音素;
第二级:不同语句的同一词组的同一音节的同一音素;
第三级:不同语句的不同词组的同一音节的同一音素;
第四级:不同语句的不同词组的不同音节的同一音素;
第五级:不同语句的不同词组的不同音节的同一音素。
可选地,所述转换单元具体用于:
通过ASR将所述检材语音转换为第一文字语句,将所述样本语音转换为第二文字语句。
本申请第三方面提供了一种获取语音比对音素的设备,所述设备包括处理器和存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的获取语音比对音素的方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面任一种所述的获取语音比对音素的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中提供了一种获取语音比对音素的方法,包括:获取检材语音和样本语音;将检材语音转换为第一文字语句,将样本语音转换为第二文字语句;获取第一文字语句和第二文字语句中的相同音素作为优质比对音素。本申请中提供的获取语音比对音素的方法,利用文字语句语法的方式来获取优质比对音素,省去了使用语音图谱或声纹特征比对来寻在同一音素的过程,比对过程简单化,提高了效率,解决了现有的通过找出语音图谱或声纹特征最接近的音素的方式获取过程复杂,效率低下的技术问题。
附图说明
图1为本申请实施例中提供的一种获取语音比对音素的方法的一个流程示意图;
图2为本申请实施例中提供的一种获取语音比对音素的装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供了一种获取语音比对音素的方法的一个实施例,包括:
步骤101、获取检材语音和样本语音。
需要说明的是,本申请实施例中,首先需要获取到检材语音和样本语音,检材语音可以是嫌疑人的语音,样本语音可以是通过办案人员要求或者引导嫌疑人说出的语音材料,若是和检材语音一模一样的语音材料,则是比对样本,由于内容一致,所以比对样本是最好的比对材料;若嫌疑人不配合,则引导嫌疑人说出相同的重点词组,所得到的语音样本为自由样本。
步骤102、将检材语音转换为第一文字语句,将样本语音转换为第二文字语句。
步骤103、获取第一文字语句和第二文字语句中的相同音素作为优质比对音素。
需要说明的是,ASR(Automatic Speech Recognition,自动语音识别)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,本申请实施例中利用ASR语音识别技术将检材语音转换为第一文字语句,将样本语音转换为第二文字语句。例如,找出检查语音中的“我去吃饭了”,找出样本语音中的“我去吃饭了”,定位到检材语音中的【吃饭】和样本语音中的【吃饭】,【an】来自检材语音与样本语音中相同语句中的相同词组中的【饭】,所以【an】是最优质的比对音素。
本申请实施例中提供的一种获取语音比对音素的方法,包括:获取检材语音和样本语音;将检材语音转换为第一文字语句,将样本语音转换为第二文字语句;获取第一文字语句和第二文字语句中的相同音素作为优质比对音素。本申请中提供的获取语音比对音素的方法,利用文字语句语法的方式来获取优质比对音素,省去了使用语音图谱或声纹特征比对来寻在同一音素的过程,比对过程简单化,提高了效率,解决了现有的通过找出语音图谱或声纹特征最接近的音素的方式获取过程复杂,效率低下的技术问题。
需要说明的是,本申请实施例中的获取第一文字语句和第二文字语句中的相同音素作为优质比对音素的一个具体的实施方式可以是,根据预置排列优先级排列出第一文字语句和第二文字语句的可供比对音素,将优先级最高的相同音素作为优质比对音素,优先级的排列顺序可以为:同一语句的同一词组的同一音素>同一词组的同一音素>同一字的同一音素>同一音节的同一音素>不同音节的同一音素>不同音节的同一音素(不同的国际音标),即:
第一级:同一语句的同一词组的同一音节的同一音素(相同发音位置);
第二级:不同语句的同一词组的同一音节的同一音素(相同发音位置);
第三级:不同语句的不同词组的同一音节的同一音素(相同发音位置);
第四级:不同语句的不同词组的不同音节的同一音素(相同发音位置);
第五级:不同语句的不同词组的不同音节的同一音素(不同发音位置,由于发音位置不同,音素的国际音标就不一样)。
以音素【i】为例:
第一级:同一语句的同一词组的同一音节的同一音素(相同发音位置)
检材:他很机[i]智
样本:他很机[i]智
第二级:不同语句的同一词组的同一音节的同一音素(相同发音位置)
检材:他很机[i]智
样本:幸亏我机[i]智
第三级:不同语句的不同词组的同一音节的同一音素(相同发音位置)
检材:他很机[i]智
样本:我使用手机[i]
第四级:不同语句的不同词组的不同音节的同一音素(相同发音位置);
检材:他很机[i]智
样本:很多人欺[i]负他
第五级:不同语句的不同词组的不同音节的同一音素(不同发音位置,由于发音位置不同,音素的国际音标就不一样)
检材:他很机[i]智
样本:学到很多知[i]识。
为了便于理解,请参阅图2,本申请中提供了一种获取语音比对音素的装置的实施例,包括:
语音获取单元,用于获取检材语音和样本语音;
转换单元,用于将检材语音转换为第一文字语句,将样本语音转换为第二文字语句;
音素获取单元,用于获取第一文字语句和第二文字语句中的相同音素作为优质比对音素。
进一步地,音素获取单元,具体用于:
根据预置排列优先级排列出第一文字语句和第二文字语句的可供比对音素,将优先级最高的相同音素作为优质比对音素。
进一步地,预置排列优先级为:
第一级:同一语句的同一词组的同一音节的同一音素;
第二级:不同语句的同一词组的同一音节的同一音素;
第三级:不同语句的不同词组的同一音节的同一音素;
第四级:不同语句的不同词组的不同音节的同一音素;
第五级:不同语句的不同词组的不同音节的同一音素。
进一步地,转换单元具体用于:
通过ASR将检材语音转换为第一文字语句,将样本语音转换为第二文字语句。
本申请中提供了一种获取语音比对音素的设备的实施例,设备包括处理器以及存储器:
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行前述的获取语音比对音素的方法实施例中的获取语音比对音素的方法。
本申请中提供了一种计算机可读存储介质的实施例,计算机可读存储介质用于存储程序代码,程序代码用于执行前述的获取语音比对音素的方法实施例中的获取语音比对音素的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的***和方法,可以通过其它的方式实现。例如,以上所描述的***实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机***(可以是个人计算机,服务器,或者网络***等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种获取语音比对音素的方法,其特征在于,包括:
获取检材语音和样本语音;
将所述检材语音转换为第一文字语句,将所述样本语音转换为第二文字语句;
获取所述第一文字语句和所述第二文字语句中的相同音素作为优质比对音素。
2.根据权利要求1所述的获取语音比对音素的方法,其特征在于,所述获取所述第一文字语句和所述第二文字语句中的相同音素作为优质比对音素,包括:
根据预置排列优先级排列出所述第一文字语句和所述第二文字语句的可供比对音素,将优先级最高的相同音素作为优质比对音素。
3.根据权利要求2所述的获取语音比对音素的方法,其特征在于,所述预置排列优先级为:
第一级:同一语句的同一词组的同一音节的同一音素;
第二级:不同语句的同一词组的同一音节的同一音素;
第三级:不同语句的不同词组的同一音节的同一音素;
第四级:不同语句的不同词组的不同音节的同一音素;
第五级:不同语句的不同词组的不同音节的同一音素。
4.根据权利要求1所述的获取语音比对音素的方法,其特征在于,所述将所述检材语音转换为第一文字语句,将所述样本语音转换为第二文字语句,包括:
通过ASR将所述检材语音转换为第一文字语句,将所述样本语音转换为第二文字语句。
5.一种获取语音比对音素的装置,其特征在于,包括:
语音获取单元,用于获取检材语音和样本语音;
转换单元,用于将所述检材语音转换为第一文字语句,将所述样本语音转换为第二文字语句;
音素获取单元,用于获取所述第一文字语句和所述第二文字语句中的相同音素作为优质比对音素。
6.根据权利要求5所述的获取语音比对音素的装置,其特征在于,所述音素获取单元,具体用于:
根据预置排列优先级排列出所述第一文字语句和所述第二文字语句的可供比对音素,将优先级最高的相同音素作为优质比对音素。
7.根据权利要求6所述的获取语音比对音素的装置,其特征在于,所述预置排列优先级为:
第一级:同一语句的同一词组的同一音节的同一音素;
第二级:不同语句的同一词组的同一音节的同一音素;
第三级:不同语句的不同词组的同一音节的同一音素;
第四级:不同语句的不同词组的不同音节的同一音素;
第五级:不同语句的不同词组的不同音节的同一音素。
8.根据权利要求7所述的获取语音比对音素的装置,其特征在于,所述转换单元具体用于:
通过ASR将所述检材语音转换为第一文字语句,将所述样本语音转换为第二文字语句。
9.一种获取语音比对音素的设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的获取语音比对音素的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-4任一项所述的获取语音比对音素的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010130582.0A CN111341300B (zh) | 2020-02-28 | 2020-02-28 | 一种获取语音比对音素的方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010130582.0A CN111341300B (zh) | 2020-02-28 | 2020-02-28 | 一种获取语音比对音素的方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111341300A true CN111341300A (zh) | 2020-06-26 |
CN111341300B CN111341300B (zh) | 2023-08-15 |
Family
ID=71184650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010130582.0A Active CN111341300B (zh) | 2020-02-28 | 2020-02-28 | 一种获取语音比对音素的方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111341300B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113921017A (zh) * | 2021-12-14 | 2022-01-11 | 深圳市声扬科技有限公司 | 语音同一性的检验方法、装置、电子设备及存储介质 |
CN114255764A (zh) * | 2022-02-28 | 2022-03-29 | 深圳市声扬科技有限公司 | 音频信息处理方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6594631B1 (en) * | 1999-09-08 | 2003-07-15 | Pioneer Corporation | Method for forming phoneme data and voice synthesizing apparatus utilizing a linear predictive coding distortion |
JP2010286702A (ja) * | 2009-06-12 | 2010-12-24 | Nec Corp | 話者照合装置、話者照合方法およびプログラム |
US20110106792A1 (en) * | 2009-11-05 | 2011-05-05 | I2 Limited | System and method for word matching and indexing |
JP2015087544A (ja) * | 2013-10-30 | 2015-05-07 | 株式会社コト | 音声認識装置及び音声認識プログラム |
CN105869634A (zh) * | 2016-03-31 | 2016-08-17 | 重庆大学 | 一种基于领域的带反馈语音识别后文本纠错方法及*** |
-
2020
- 2020-02-28 CN CN202010130582.0A patent/CN111341300B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6594631B1 (en) * | 1999-09-08 | 2003-07-15 | Pioneer Corporation | Method for forming phoneme data and voice synthesizing apparatus utilizing a linear predictive coding distortion |
JP2010286702A (ja) * | 2009-06-12 | 2010-12-24 | Nec Corp | 話者照合装置、話者照合方法およびプログラム |
US20110106792A1 (en) * | 2009-11-05 | 2011-05-05 | I2 Limited | System and method for word matching and indexing |
JP2015087544A (ja) * | 2013-10-30 | 2015-05-07 | 株式会社コト | 音声認識装置及び音声認識プログラム |
CN105869634A (zh) * | 2016-03-31 | 2016-08-17 | 重庆大学 | 一种基于领域的带反馈语音识别后文本纠错方法及*** |
Non-Patent Citations (2)
Title |
---|
杨旭等: "\"声纹鉴定的应用研究\"" * |
汪振林等: "\"声纹鉴定实务中语音样本录制问题研究\"" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113921017A (zh) * | 2021-12-14 | 2022-01-11 | 深圳市声扬科技有限公司 | 语音同一性的检验方法、装置、电子设备及存储介质 |
CN114255764A (zh) * | 2022-02-28 | 2022-03-29 | 深圳市声扬科技有限公司 | 音频信息处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111341300B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zissman et al. | Automatic language identification | |
Shi et al. | The accented english speech recognition challenge 2020: open datasets, tracks, baselines, results and methods | |
US7974843B2 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
US9292499B2 (en) | Automatic translation and interpretation apparatus and method | |
US9570066B2 (en) | Sender-responsive text-to-speech processing | |
Torres-Carrasquillo et al. | Dialect identification using Gaussian mixture models. | |
RU2393549C2 (ru) | Способ и устройство для распознавания речи | |
WO2008084476A2 (en) | Vowel recognition system and method in speech to text applications | |
US8488750B2 (en) | Method and system of providing interactive speech recognition based on call routing | |
US20080243504A1 (en) | System and method of speech recognition training based on confirmed speaker utterances | |
US7406408B1 (en) | Method of recognizing phones in speech of any language | |
Pellegrino et al. | Automatic language identification: an alternative approach to phonetic modelling | |
Lileikytė et al. | Conversational telephone speech recognition for Lithuanian | |
CN111341300A (zh) | 一种获取语音比对音素的方法、装置和设备 | |
JPH10504404A (ja) | 音声認識のための方法および装置 | |
US20080243499A1 (en) | System and method of speech recognition training based on confirmed speaker utterances | |
US7430503B1 (en) | Method of combining corpora to achieve consistency in phonetic labeling | |
CN116110370A (zh) | 基于人机语音交互的语音合成***及相关设备 | |
CN113160804B (zh) | 混合语音的识别方法及装置、存储介质、电子装置 | |
CN111696524B (zh) | 一种叠字语音识别方法及*** | |
CN112908361B (zh) | 一种基于小粒度口语发音评价*** | |
Bhagath et al. | Comparative analysis of spoken telugu digits using mfcc and lpcc via hidden markov models | |
Stolcke et al. | Speaker recognition with region-constrained MLLR transforms | |
Ali et al. | Voice Reminder Assistant based on Speech Recognition and Speaker Identification using Kaldi | |
Boldea et al. | Design, Collection and Annotation of a Romanian Speech Database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |