CN112489646A - 语音识别方法及其装置 - Google Patents

语音识别方法及其装置 Download PDF

Info

Publication number
CN112489646A
CN112489646A CN202011295150.1A CN202011295150A CN112489646A CN 112489646 A CN112489646 A CN 112489646A CN 202011295150 A CN202011295150 A CN 202011295150A CN 112489646 A CN112489646 A CN 112489646A
Authority
CN
China
Prior art keywords
language model
speech recognition
word
voice
intermediate result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011295150.1A
Other languages
English (en)
Other versions
CN112489646B (zh
Inventor
沈来信
朱相宇
王映新
孙明东
贾师惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Thunisoft Information Technology Co ltd
Original Assignee
Beijing Thunisoft Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Thunisoft Information Technology Co ltd filed Critical Beijing Thunisoft Information Technology Co ltd
Priority to CN202011295150.1A priority Critical patent/CN112489646B/zh
Publication of CN112489646A publication Critical patent/CN112489646A/zh
Application granted granted Critical
Publication of CN112489646B publication Critical patent/CN112489646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语音识别方法及其装置。其中,所述方法包括:获取输入的语音数据;通过解码模型解码所述语音数据,生成语音识别中间结果;基于核心词数据库中核心词拼音与声调序列,对所述语音识别中间结果进行匹配;根据所述拼音于声调序列与所述语音识别中的中间结果的匹配状态,输出匹配结果。通过语音识别中间结果与核心词数据库中核心词拼音与声调序列的匹配,可以解决语音识别结果偏离正常语境的问题。

Description

语音识别方法及其装置
技术领域
本发明涉及语音识别领域,尤其涉及一种语音识别方法及其装置。
背景技术
语音识别的解码与应用场景相关性很大,用户总是期望语音识别模型能够向用户的场景语料进行一定指向性的解码识别。目前,基于用户热词进行语音识别,在上传热词时,要通过人工定义热词并设置其权重值。若这些权重值的设置相差较大,则会导致语音识别结果严重偏离正常语境,且热词上传的数量也有限制,用户对热词进行选择时存在一定的困难。
发明内容
本申请实施例提供一种语音识别方法,用以解决现有技术中语音识别结果偏离正常语境的问题。具体包括:
获取输入的语音数据;
通过解码模型解码所述语音数据,生成语音识别中间结果;
基于核心词数据库中核心词拼音与声调序列,对所述语音识别中间结果进行匹配;
根据所述拼音与声调序列与所述语音识别中的中间结果的匹配状态,输出匹配结果。
进一步的,在本申请提供的一种优选实施方式中,所述解码模型由声学模型、字典和语言模型共同构成。
进一步的,在本申请提供的一种优选实施方式中,所述语言模型为基于文本预处理语料,对前景语言模型与背景语言模型进行插值拟合生成的新的语言模型;
其中,前景语言模型为用户语言模型,权重值预设为0.5-0.8,该前景语言模型包含用户指定场景语料;背景语言模型为原有语音识别引擎的语言模型,该背景语言模型包含各场景语料。
进一步的,在本申请提供的一种优选实施方式中,对新生成的语言模型要进行平滑和剪枝操作;
其中,剪枝操作基于前景语言模型,对背景语言模型进行无关场景语料删除,且应保留前景语言的分支;平滑操作基于新生成的语言模型,重新分布该语言模型中所有场景语料的条件概率,且平滑操作后所有场景语料条件概率和为1。
进一步的,在本申请提供的一种优选实施方式中,所述核心词数据库基于文本预处理语料进行分词及统计词频,并根据词频生成对应分词权重而建立;
其中,对应分词权重通过每个词的词频除以最大词频与一个常量的和的方式来计算,所述常量取所有词频的中值。
进一步的,在本申请提供的一种优选实施方式中,所述核心词数据库可根据用户上传的核心词信息进行匹配,并自动推荐对应权重值,且用户可根据实际需求调整该权重值,以增加语音识别的准确性;
其中,经检索如未发现用户核心词,则将当前核心词数据库中的所有词的权重中值作为推荐值。
进一步的,在本申请提供的一种优选实施方式中,所述匹配结果为语音识别中间结果在数据库中存在对应的拼音与语调序列时,则对该拼音与语调序列进行核心词替换。
进一步的,在本申请提供的一种优选实施方式中,所述核心词进行替换时,若包含替换序列的句子的语言模型混淆度相比于原有句子降低一个阈值,则可完成核心词序列替换,并输出包含替换序列的语音识别中间结果;
其中,降低的一个阈值,可以根据实际环境进行调整。
进一步的,在本申请提供的一种优选实施方式中,在执行所述包含替换序列的句子作为语音识别结果输出的步骤之前,还包括对该包含替换序列的句子进行断句及标点预测。
本申请实施例提供一种语音识别装置,包括:
语音接收模块,用于接收语音数据;
语音解码模块,用于解码所述语音数据,生成语音识别中间结果;
语音识别中间结果匹配模块,用于语音识别中间结果与数据库中核心词拼音与声调序列进行匹配;
语音识别结果输出模块,用于根据所述拼音于声调序列与所述语音识别中的中间结果的匹配状态,输出匹配结果。
本申请提供的实施例至少具有以下有益效果:
通过语音识别方法与装置可以解决语音识别结果偏离正常语境的问题。
附图说明
图1为本申请实施例提供的语音识别方法的流程图。
图2为本申请实施例提供的语音识别装置的结构示意图。
100 语音识别装置
11 语音接收模块
12 语音解码模块
13 语音识别中间结果匹配模块
14 语音识别结果输出模块
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参照图1,本申请揭示了语音识别方法,包括:
S100:获取输入的语音数据。
所述语音数据为实时输入的语音流数据,或音频文件中的文件流数据。
其中,语音流数据获取通常可通过麦克风、声卡等具有实时录入功能的硬件,将语音进行实时录入生成。文件流数据的获取通常可通过读取存放已完成录制的音频数据的音频文件,常见的音频文件后缀格式为:.WAV/.AIF/.AIFF/.AU/.MP1/.MP2/.MP3/.RA/.RM/.RAM。
S200:通过解码模型解码所述语音数据,生成语音识别中间结果。
进一步的,在本申请提供的一种优选实施方式中,所述语音解码模型由声学模型、字典和语言模型共同构成。
其中,通过声学模型可建立语音数据中语音特征与音素之间的映射;通过字典可建立音素与字词之间的映射;通过语言模型可建立词与词、词与句子的映射。计算机根据所述声学模型、字典和语言模型所建立的映射,可完成语音数据的解码操作,从而生成对应的语音识别中间结果。
具体的,声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示;语言模型是对一组字序列构成的知识表示;字典是字词对应的音素索引集合。
进一步的,在本申请提供的一种优选实施方式中,所述语言模型为基于文本预处理语料,对前景语言模型与背景语言模型进行插值拟合生成的新的语言模型;
其中,前景语言模型为用户语言模型,权重值预设为0.5-0.8,该前景语言模型包含用户指定场景语料;背景语言模型为原有语音识别引擎的语言模型,该背景语言模型包含各场景语料。
具体的,插值拟合即用来合并语言模型,以改善语言模型效果;当前景语言权重可设置值为0.6时,可使得新生成的语言模型语料分布最优,处理效果最佳。
具体的,所述文本预处理语料为用户总文本语料去除标点符号和一些无意义的语气词和停用词,并通过数字转化模块,将数字转换成对应语料文本的表达形式。
进一步的,在本申请提供的一种优选实施方式中,对新生成的语言模型要进行平滑和剪枝操作;
其中,剪枝操作基于前景语言模型,对背景语言模型进行无关场景语料删除,且应保留前景语言的分支;平滑操作基于新生成的语言模型,重新分布该语言模型中所有场景语料的条件概率,且平滑操作后所有场景语料条件概率和为1。
S300:基于核心词数据库中核心词拼音与声调序列,对所述语音识别中间结果进行匹配操作。
进一步的,在本申请提供的一种优选实施方式中,所述核心词数据库基于文本预处理语料进行分词及统计词频,并根据词频生成对应分词权重而建立。
其中,对应分词权重通过每个词的词频除以最大词频与一个常量的和的方式来计算,所述常量取所有词频的中值。
具体的,进行分词操作时,需基于解码模型的字典,并使用逆向最大匹配算法,从而使得分词效果最佳。统计词频,需基于分词结果,统计同一词语出现的次数。
进一步的,在本申请提供的一种优选实施方式中,核心词数据库可根据用户上传的核心词信息进行匹配,并自动推荐对应权重值,且用户可根据实际需求调整该权重值,以增加语音识别的准确性;
其中,经检索如未发现用户核心词,则将当前核心词数据库中的所有词的权重中值作为推荐值。
具体的,根据用户输入的核心词,在核心词数据库中对该词语进行匹配。若可在数据库中匹配到对应的核心词,则将该核心词权重作为推荐值,推荐至用户。推荐给用户的权重值,用户可根据实际场景对其进行增大或减小,用于提高用户场景下语音识别的准确性。
S400:根据所述拼音与声调序列与所述语音识别中的中间结果的匹配状态,输出匹配结果。
进一步的,在本申请提供的一种优选实施方式中,所述匹配结果为语音识别中间结果序列在数据库中存在对应的拼音语调序列时,则对该序列进行核心词替换。
具体的,若语音识别中间结果序列在数据库中未匹配到对应的拼音语调序列时,语音识别中间结果可直接作为语音识别结果输出。
进一步的,在本申请提供的一种优选实施方式中,所述核心词进行替换时,若包含替换序列的句子的语言模型混淆度相比于原有句子降低一个阈值,则可完成核心词序列替换,并输出包含替换序列的语音识别中间结果;
其中,降低的一个阈值,可以根据实际环境进行调整。
具体的,语言模型混淆度值越小,代表核心词替换后,替换序列在句子中的契合度越高。降低的阈值,默认设置为0.1,若想提高替换序列在句子中的契合度,可降低阈值的设置。
进一步的,在本申请提供的一种优选实施方式中,在执行所述包含替换序列的句子作为语音识别结果输出的步骤之前,还包括对该包含替换序列的句子进行断句及标点预测。
一种语音识别装置100,包括:
语音接收模块11,用于接收语音数据;
语音解码模块12,用于解码所述语音数据,生成语音识别中间结果;
语音识别中间结果匹配模块13,用于对语音识别中间结果与数据库中核心词拼音与声调序列进行匹配;
语音识别结果输出模块14,用于根据所述拼音与声调序列与所述语音识别中的中间结果的匹配状态输出匹配结果。
在一个典型的配置中,计算机可以包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
获取输入的语音数据;
通过解码模型解码所述语音数据,生成语音识别中间结果;
基于核心词数据库中核心词拼音与声调序列,对所述语音识别中间结果进行匹配;
根据所述拼音与声调序列与所述语音识别中的中间结果的匹配状态,输出匹配结果。
2.如权利要求1所述的语音识别方法,其特征在于,所述解码模型由声学模型、字典和语言模型共同构成。
3.如权利要求2所述的语音识别方法,其特征在于,所述语言模型为基于文本预处理语料,对前景语言模型与背景语言模型进行插值拟合生成的新的语言模型;
其中,前景语言模型为用户语言模型,权重值预设为0.5-0.8,该前景语言模型包含用户指定场景语料;背景语言模型为原有语音识别引擎的语言模型,该背景语言模型包含各场景语料。
4.如权利要求3所述的语音识别方法,其特征在于,对新生成的语言模型要进行平滑和剪枝操作;
其中,剪枝操作基于前景语言模型,对背景语言模型进行无关场景语料删除,且应保留前景语言的分支;平滑操作基于新生成的语言模型,重新分布该语言模型中所有场景语料的条件概率,且平滑操作后所有场景语料条件概率和为1。
5.如权利要求1所述的语音识别方法,其特征在于,所述核心词数据库基于文本预处理语料进行分词及统计词频,并根据词频生成对应分词权重而建立;
其中,对应分词权重通过每个词的词频除以最大词频与一个常量的和的方式来计算,所述常量取所有词频的中值。
6.如权利要求5所述的语音识别方法,其特征在于,所述核心词数据库可根据用户上传的核心词信息进行匹配,并自动推荐对应权重值,且用户可根据实际需求调整该权重值,以增加语音识别的准确性;
其中,经检索如未发现用户核心词,则将当前核心词数据库中的所有词的权重中值作为推荐值。
7.如权利要求1所述的语音识别方法,其特征在于,所述匹配结果为语音识别中间结果在数据库中存在对应的拼音与语调序列时,对该拼音与语调序列进行核心词替换。
8.如权利要求7所述的语音识别方法,其特征在于,所述核心词进行替换时,若包含替换序列的句子的语言模型混淆度相比于原有句子降低一个阈值,则可完成核心词序列替换,并输出包含替换序列的语音识别中间结果;
其中,降低的一个阈值,可以根据实际环境进行调整。
9.如权利要求8所述的语音识别方法,其特征在于,在执行所述包含替换序列的句子作为语音识别结果输出的步骤之前,还包括对该包含替换序列的句子进行断句及标点预测。
10.一种语音识别装置,其特征在于,包括:
语音接收模块,用于接收语音数据;
语音解码模块,用于解码所述语音数据,生成语音识别中间结果;
语音识别中间结果匹配模块,用于对语音识别中间结果与数据库中核心词拼音与声调序列进行匹配;
语音识别结果输出模块,用于根据所述拼音与声调序列与所述语音识别中的中间结果的匹配状态,输出匹配结果。
CN202011295150.1A 2020-11-18 2020-11-18 语音识别方法及其装置 Active CN112489646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011295150.1A CN112489646B (zh) 2020-11-18 2020-11-18 语音识别方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011295150.1A CN112489646B (zh) 2020-11-18 2020-11-18 语音识别方法及其装置

Publications (2)

Publication Number Publication Date
CN112489646A true CN112489646A (zh) 2021-03-12
CN112489646B CN112489646B (zh) 2024-04-02

Family

ID=74931400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011295150.1A Active CN112489646B (zh) 2020-11-18 2020-11-18 语音识别方法及其装置

Country Status (1)

Country Link
CN (1) CN112489646B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023273578A1 (zh) * 2021-06-30 2023-01-05 北京有竹居网络技术有限公司 语音识别方法、装置、介质及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063900A (zh) * 2010-11-26 2011-05-18 北京交通大学 克服混淆发音的语音识别方法及***
US20110191355A1 (en) * 2007-04-24 2011-08-04 Peking University Method for monitoring abnormal state of internet information
KR20160078703A (ko) * 2014-12-24 2016-07-05 한국전자통신연구원 문장 시각화 방법 및 장치
US20170125013A1 (en) * 2015-10-29 2017-05-04 Le Holdings (Beijing) Co., Ltd. Language model training method and device
CN109635081A (zh) * 2018-11-23 2019-04-16 上海大学 一种基于词频幂律分布特性的文本关键词权重计算方法
CN110675855A (zh) * 2019-10-09 2020-01-10 出门问问信息科技有限公司 一种语音识别方法、电子设备及计算机可读存储介质
CN110970026A (zh) * 2019-12-17 2020-04-07 用友网络科技股份有限公司 语音交互匹配方法、计算机设备以及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110191355A1 (en) * 2007-04-24 2011-08-04 Peking University Method for monitoring abnormal state of internet information
CN102063900A (zh) * 2010-11-26 2011-05-18 北京交通大学 克服混淆发音的语音识别方法及***
KR20160078703A (ko) * 2014-12-24 2016-07-05 한국전자통신연구원 문장 시각화 방법 및 장치
US20170125013A1 (en) * 2015-10-29 2017-05-04 Le Holdings (Beijing) Co., Ltd. Language model training method and device
CN109635081A (zh) * 2018-11-23 2019-04-16 上海大学 一种基于词频幂律分布特性的文本关键词权重计算方法
CN110675855A (zh) * 2019-10-09 2020-01-10 出门问问信息科技有限公司 一种语音识别方法、电子设备及计算机可读存储介质
CN110970026A (zh) * 2019-12-17 2020-04-07 用友网络科技股份有限公司 语音交互匹配方法、计算机设备以及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023273578A1 (zh) * 2021-06-30 2023-01-05 北京有竹居网络技术有限公司 语音识别方法、装置、介质及设备

Also Published As

Publication number Publication date
CN112489646B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
US11443733B2 (en) Contextual text-to-speech processing
JP5768093B2 (ja) 音声処理システム
US20140114663A1 (en) Guided speaker adaptive speech synthesis system and method and computer program product
US11727922B2 (en) Systems and methods for deriving expression of intent from recorded speech
CN110599998B (zh) 一种语音数据生成方法及装置
CN112786004B (zh) 语音合成方法以及电子设备、存储装置
Fendji et al. Automatic speech recognition using limited vocabulary: A survey
US11170763B2 (en) Voice interaction system, its processing method, and program therefor
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
US20230343319A1 (en) speech processing system and a method of processing a speech signal
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
CN112489688A (zh) 一种基于神经网络的情感识别方法、设备及介质
Panda et al. A waveform concatenation technique for text-to-speech synthesis
CN112885335B (zh) 语音识别方法及相关装置
CN112489646B (zh) 语音识别方法及其装置
CN112686041A (zh) 一种拼音标注方法及装置
HaCohen-Kerner et al. Language and gender classification of speech files using supervised machine learning methods
Rashmi et al. Hidden Markov Model for speech recognition system—a pilot study and a naive approach for speech-to-text model
Seki et al. Diversity-based core-set selection for text-to-speech with linguistic and acoustic features
Norouzian et al. An approach for efficient open vocabulary spoken term detection
CN112837688B (zh) 语音转写方法、装置、相关***及设备
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
US20150269927A1 (en) Text-to-speech device, text-to-speech method, and computer program product
Kirkedal Danish stød and automatic speech recognition
JP2020129015A (ja) 音声認識装置、音声認識方法、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant