CN112767923B - 一种语音识别方法及装置 - Google Patents

一种语音识别方法及装置 Download PDF

Info

Publication number
CN112767923B
CN112767923B CN202110008353.6A CN202110008353A CN112767923B CN 112767923 B CN112767923 B CN 112767923B CN 202110008353 A CN202110008353 A CN 202110008353A CN 112767923 B CN112767923 B CN 112767923B
Authority
CN
China
Prior art keywords
data
text
pinyin
unvoiced
preset database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110008353.6A
Other languages
English (en)
Other versions
CN112767923A (zh
Inventor
张伟涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Weimeng Enterprise Development Co ltd
Original Assignee
Shanghai Weimeng Enterprise Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Weimeng Enterprise Development Co ltd filed Critical Shanghai Weimeng Enterprise Development Co ltd
Priority to CN202110008353.6A priority Critical patent/CN112767923B/zh
Publication of CN112767923A publication Critical patent/CN112767923A/zh
Application granted granted Critical
Publication of CN112767923B publication Critical patent/CN112767923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/086Recognition of spelled words

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音识别方法及装置,首先获取待识别语音数据,然后根据待识别语音数据,使用第一检测模型获得待识别语音数据对应的无声调拼音数据,进一步根据获得的无声调拼音数据从预设数据库检索与无声调拼音数据匹配的文本,将获得的文本输出。本发明对待识别语音学习获得对应的无声调拼音数据,能够提高对待识别语音学习的准确度,并根据对应的无声调拼音数据从预设数据库检索相匹配的文本以获得识别结果,与现有直接学习获得待识别语音对应的文字的方法相比,能够提高对待识别语音识别的准确率。

Description

一种语音识别方法及装置
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语音识别方法及装置。
背景技术
现有技术中,实现语音识别的方法主要应用于通用场景,而对于一些专用领域比如餐饮领域、这些语音识别方法对使用的专有名词的识别准确率比较低,同时在自然场景下由于受到外界环境的噪音或者其它因素干扰,识别率更低。
发明内容
鉴于以上所述,本发明的目的是提供一种语音识别方法及装置,能够提高识别准确率。
为实现上述目的,本发明提供如下技术方案:
一种语音识别方法,包括:
获取待识别语音数据;
根据所述待识别语音数据,使用第一检测模型获得所述待识别语音数据对应的无声调拼音数据;
根据获得的所述无声调拼音数据,从预设数据库检索与所述无声调拼音数据匹配的文本,将获得的文本输出。
优选的,根据获得的所述无声调拼音数据,从预设数据库检索与所述无声调拼音数据匹配的文本包括:
根据获得的所述无声调拼音数据,若从所述预设数据库未检索到无声调拼音与所述无声调拼音数据一致的文本,则根据获得的所述无声调拼音数据,使用第二检测模型获得所述待识别语音数据对应的文字数据;
根据获得的所述无声调拼音数据或者所述文字数据,从所述预设数据库检索与所述无声调拼音数据或者所述文字数据匹配的文本,将获得的文本输出。
优选的,根据获得的所述无声调拼音数据,从预设数据库检索与所述无声调拼音数据匹配的文本包括:
根据获得的所述无声调拼音数据,若从所述预设数据库检索到无声调拼音与所述无声调拼音数据一致的文本,则将获得的文本输出。
优选的,根据获得的所述无声调拼音数据或者所述文字数据,从所述预设数据库检索与所述无声调拼音数据或者所述文字数据匹配的文本包括:
根据获得的所述文字数据,若从所述预设数据库未检索到与所述文字数据一致的文本,则根据获得的所述无声调拼音数据从所述预设数据库检索无声调拼音与所述无声调拼音数据的第一相似度满足要求的文本,根据获得的所述文字数据从所述预设数据库检索与所述文字数据的第二相似度满足要求的文本,将获得的文本输出。
优选的,具体包括:根据获得的所述无声调拼音数据从所述预设数据库检索无声调拼音与所述无声调拼音数据的第一相似度满足要求的文本,根据获得的所述文字数据从所述预设数据库检索与所述文字数据的第二相似度满足要求的文本,将两部分文本合并去重。
优选的,具体包括:根据从所述预设数据库检索出的文本的无声调拼音与获得的所述无声调拼音数据的第一相似度、从所述预设数据库检索出的文本与获得的所述文字数据的第二相似度以及从所述预设数据库检索出的文本与获得的所述文字数据之间的共有字符占比,从所述预设数据库检索出的文本中筛选出符合要求的文本。
优选的,具体包括:将从所述预设数据库检索出的文本的无声调拼音与获得的所述无声调拼音数据的第一相似度、从所述预设数据库检索出的文本与获得的所述文字数据的第二相似度以及从所述预设数据库检索出的文本与获得的所述文字数据之间的共有字符占比求和,根据求和结果从所述预设数据库检索出的文本中筛选出符合要求的文本。
优选的,根据获得的所述无声调拼音数据或者所述文字数据,从所述预设数据库检索与所述无声调拼音数据或者所述文字数据匹配的文本包括:
根据获得的所述文字数据,若从所述预设数据库检索到与所述文字数据一致的文本,则将获得的文本输出。
优选的,使用数据集训练获得所述第一检测模型和所述第二检测模型,所述数据集包括语音数据、语音对应的文字数据以及语音对应的拼音数据,所述第一检测模型以无声调拼音为标签,所述第二检测模型以文字为标签。
一种语音识别装置,用于执行以上所述的语音识别方法。
由上述技术方案可知,本发明所提供的一种语音识别方法及装置,首先获取待识别语音数据,然后根据待识别语音数据,使用第一检测模型获得待识别语音数据对应的无声调拼音数据,进一步根据获得的无声调拼音数据从预设数据库检索与无声调拼音数据匹配的文本,将获得的文本输出。本发明的语音识别方法及装置对待识别语音学习获得对应的无声调拼音数据,能够提高对待识别语音学习的准确度,并根据对应的无声调拼音数据从预设数据库检索相匹配的文本以获得识别结果,与现有直接学习获得待识别语音对应的文字的方法相比,能够提高对待识别语音识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语音识别方法的流程图;
图2为本发明又一实施例提供的一种语音识别方法的流程图;
图3为本发明实施例的根据获得的无声调拼音数据或者文字数据从预设数据库检索与无声调拼音数据或者文字数据匹配的文本的方法流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
请参考图1,图1为本发明实施例提供的一种语音识别方法的流程图,由图可知,所述语音识别方法包括以下步骤:
S10:获取待识别语音数据。
待识别语音数据为通过语音获取设备获得的语音数据。
S11:根据所述待识别语音数据,使用第一检测模型获得所述待识别语音数据对应的无声调拼音数据。
第一检测模型以语音数据为输入数据,以无声调拼音数据为输出数据。第一检测模型通过对输入的语音数据提取和学习特征,获得语音数据对应的无声调拼音数据。
S12:根据获得的所述无声调拼音数据,从预设数据库检索与所述无声调拼音数据匹配的文本,将获得的文本输出。
预设数据库包括用于匹配的文本。通过从预设数据库检索出与待识别语音数据匹配的文本,获得对于待识别语音数据的识别结果。在实际应用中,可以根据实际应用场景建立相应的预设数据库。
与无声调拼音数据匹配的文本是指文本的无声调拼音与该无声调拼音数据至少有一部分相同。根据得到的待识别语音数据对应的无声调拼音数据,从预设数据库检索出与无声调拼音数据相匹配的文本,获得对于待识别语音的识别结果。
本实施例的语音识别方法获得待识别语音对应的无声调拼音数据,能够提高对待识别语音学习的准确度,并根据对应的无声调拼音数据从预设数据库检索相匹配的文本以获得识别结果,与现有直接学习获得待识别语音对应的文字的方法相比,能够提高对待识别语音识别的准确率。
请参考图2,图2为本发明又一实施例提供的一种语音识别方法的流程图,由图可知,所述语音识别方法包括以下步骤:
S20:获取待识别语音数据。
待识别语音数据为通过语音获取设备获得的语音数据,语音获取设备包括但不限于话筒。
S21:根据所述待识别语音数据,使用第一检测模型获得所述待识别语音数据对应的无声调拼音数据。
S22:根据获得的所述无声调拼音数据,从预设数据库检索无声调拼音与所述无声调拼音数据一致的文本。
根据通过第一检测模型获得的待识别语音数据对应的无声调拼音数据,从预设数据库检索文本的无声调拼音与该无声调拼音数据一致的文本。
S23:根据获得的所述无声调拼音数据,若从所述预设数据库检索到无声调拼音与所述无声调拼音数据一致的文本,则将获得的文本输出。从而获得了对于待识别语音数据的识别结果。
S24:根据获得的所述无声调拼音数据,若从所述预设数据库未检索到无声调拼音与所述无声调拼音数据一致的文本,则根据获得的所述无声调拼音数据,使用第二检测模型获得所述待识别语音数据对应的文字数据。
第二检测模型以无声调拼音数据为输入数据,以文字数据为输出数据。第二检测模型通过对输入的无声调拼音数据提取和学习特征,将无声调拼音数据转换为对应的文字数据。
若从预设数据库没有检索到无声调拼音与待识别语音数据对应的无声调拼音数据一致的文本,则将待识别语音数据对应的无声调拼音数据输入第二检测模型,获得待识别语音数据对应的文字数据。
S25:根据获得的所述无声调拼音数据或者所述文字数据,从所述预设数据库检索与所述无声调拼音数据或者所述文字数据匹配的文本,将获得的文本输出。
与文字数据匹配的文本是指文本与该文字数据至少有一部分相同。根据待识别语音数据对应的无声调拼音数据从预设数据库检索出与无声调拼音数据相匹配的文本,或/和根据得到的待识别语音数据对应的文字数据,从预设数据库检索出与该文字数据相匹配的文本,获得对于待识别语音的识别结果。
优选的请参考图3,本步骤根据获得的无声调拼音数据或者文字数据从预设数据库检索与无声调拼音数据或者文字数据匹配的文本可具体包括以下过程:
S250:根据获得的所述文字数据,从所述预设数据库检索与所述文字数据一致的文本。
根据通过第二检测模型获得的待识别语音数据对应的文字数据,从预设数据库检索与该文字数据一致的文本。
S251:根据获得的所述文字数据,若从所述预设数据库检索到与所述文字数据一致的文本,则将获得的文本输出。得到了对于待识别语音数据的识别结果。
S252:根据获得的所述文字数据,若从所述预设数据库未检索到与所述文字数据一致的文本,则根据获得的所述无声调拼音数据从所述预设数据库检索无声调拼音与所述无声调拼音数据的第一相似度满足要求的文本,根据获得的所述文字数据从所述预设数据库检索与所述文字数据的第二相似度满足要求的文本,将获得的文本输出。
第一相似度表征了两个拼音数据之间的相似度,第二相似度表征了两个文字数据之间的相似度。
若从预设数据库没有检索到与第二检测模型获得的文字数据一致的文本,则根据得到的无声调拼音数据从预设数据库检索与该无声调拼音数据匹配的文本,计算两者的第一相似度,根据第一相似度筛选出符合要求的文本并输出。以及根据得到的文字数据从预设数据库检索与该文字数据匹配的文本,并计算两者的第二相似度,根据第二相似度筛选出符合要求的文本并输出。
在实际应用中,可以根据获得的无声调拼音数据从预设数据库检索无声调拼音与所述无声调拼音数据的第一相似度满足要求的文本,根据获得的所述文字数据从所述预设数据库检索与所述文字数据的第二相似度满足要求的文本,将两部分文本合并去重,得到候选文本。能够进一步从候选文本中筛选结果。
可选的,可以综合根据从所述预设数据库检索出的文本的无声调拼音与获得的所述无声调拼音数据的第一相似度、从所述预设数据库检索出的文本与获得的所述文字数据的第二相似度以及从所述预设数据库检索出的文本与获得的所述文字数据之间的共有字符占比,将从所述预设数据库检索出的文本中筛选出符合要求的文本,进而输出对于待识别语音数据的识别结果。
进一步优选的,可以将从所述预设数据库检索出的文本的无声调拼音与获得的所述无声调拼音数据的第一相似度、从所述预设数据库检索出的文本与获得的所述文字数据的第二相似度以及从所述预设数据库检索出的文本与获得的所述文字数据之间的共有字符占比求和,根据求和结果从所述预设数据库检索出的文本中筛选出符合要求的文本。
在实际应用中,可以根据对第一相似度、第二相似度以及共有字符占比的求和结果大小,将检索出的匹配文本排序,从中选出求和结果较大的文本输出。
可选的,第一相似度可以是根据拼音字符计算的相似度。第二相似度可以是将文字表示为向量计算的余弦相似度。共有字符占比可以采用杰卡德系数,用于计算两个字符数据之间的共有字符占总字符的比例。
第一检测模型或者第二检测模型预先训练获得,使用数据集训练获得所述第一检测模型和所述第二检测模型,所述数据集包括语音数据、语音对应的文字数据以及语音对应的拼音数据,所述第一检测模型以无声调拼音为标签,所述第二检测模型以文字为标签。
第一检测模型或者第二检测模型可以使用相应应用场景通用的数据训练获得,使用的数据集包括的数据可以是相应应用场景通用的数据。在实际应用中,在没有适用语料时可以采用公开语音数据集。
示例性的本实施例方法可以应用于餐饮邻域,建立的预设数据库为菜品知识库。在一具体实例中,将待识别语音输入第一检测模型获得的无声调拼音为“hong shao qizi”,根据该结果从菜品知识库中不能检索到完全一致的文本。则将“hong shao qi zi”输入第二检测模型得到对应的文字“红烧妻子”。根据该文字结果从菜品知识库仍然不能检索到完全一致的文本,则根据“hong shao qi zi”以及“红烧妻子”从菜品知识库检索匹配文本,得到排列在前三的“红烧茄子”、“红烧肘子”、“红烧丸子”,返回识别结果供用户选择。对于返回结果为空或者排序后分值较低的数据,可以认为其是新的菜名或者不是菜名。是否为菜名可以通过基于菜品知识库训练语言模型来判别。
本实施例的语音识别方法通过第一检测模型获得待识别语音对应的无声调拼音数据,与以文字为标签对语音数据进行学习的方法相比,大大地减少了标签数量,这样在训练模型中不仅可以减少参数量还可以提高准确度。
另外,现有的以文字为标签对语音数据进行学习以及识别的方法,对于专用邻域需要大量的专有数据的数据集进行训练并且结果不可控,而本实施例方法通过对语音数据学习获得无声调拼音,根据得到的无声调拼音从预设数据库检索相匹配的文本对模型得到的识别结果进行纠正,相比能够提高对语音识别的准确率。
相应的,本发明实施例还提供一种语音识别装置,用于执行以上所述的语音识别方法。
本实施例的语音识别装置首先获取待识别语音数据,然后根据待识别语音数据,使用第一检测模型获得待识别语音数据对应的无声调拼音数据,进一步根据获得的无声调拼音数据从预设数据库检索与无声调拼音数据匹配的文本,将获得的文本输出。本语音识别装置获得待识别语音对应的无声调拼音数据,能够提高对待识别语音学习的准确度,并根据对应的无声调拼音数据从预设数据库检索相匹配的文本以获得识别结果,与现有直接学习获得待识别语音对应的文字的方法相比,能够提高对待识别语音识别的准确率。
以上对本发明所提供的一种语音识别方法及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (9)

1.一种语音识别方法,其特征在于,包括:
获取待识别语音数据;
根据所述待识别语音数据,使用第一检测模型获得所述待识别语音数据对应的无声调拼音数据;
根据获得的所述无声调拼音数据,从预设数据库检索与所述无声调拼音数据匹配的文本,将获得的文本输出;
所述根据获得的所述无声调拼音数据,从预设数据库检索与所述无声调拼音数据匹配的文本包括:
根据获得的所述无声调拼音数据,若从所述预设数据库未检索到无声调拼音与所述无声调拼音数据一致的文本,则根据获得的所述无声调拼音数据,使用第二检测模型获得所述待识别语音数据对应的文字数据;
根据获得的所述文字数据,从所述预设数据库检索与所述文字数据匹配的文本,将获得的文本输出。
2.根据权利要求1所述的语音识别方法,其特征在于,根据获得的所述无声调拼音数据,从预设数据库检索与所述无声调拼音数据匹配的文本包括:
根据获得的所述无声调拼音数据,若从所述预设数据库检索到无声调拼音与所述无声调拼音数据一致的文本,则将获得的文本输出。
3.根据权利要求1所述的语音识别方法,其特征在于,根据获得的所述文字数据,从所述预设数据库检索与所述文字数据匹配的文本包括:
根据获得的所述文字数据,若从所述预设数据库未检索到与所述文字数据一致的文本,则根据获得的所述无声调拼音数据从所述预设数据库检索无声调拼音与所述无声调拼音数据的第一相似度满足要求的文本,根据获得的所述文字数据从所述预设数据库检索与所述文字数据的第二相似度满足要求的文本,将获得的文本输出。
4.根据权利要求3所述的语音识别方法,其特征在于,具体包括:根据获得的所述无声调拼音数据从所述预设数据库检索无声调拼音与所述无声调拼音数据的第一相似度满足要求的文本,根据获得的所述文字数据从所述预设数据库检索与所述文字数据的第二相似度满足要求的文本,将两部分文本合并去重。
5.根据权利要求3所述的语音识别方法,其特征在于,具体包括:根据从所述预设数据库检索出的文本的无声调拼音与获得的所述无声调拼音数据的第一相似度、从所述预设数据库检索出的文本与获得的所述文字数据的第二相似度以及从所述预设数据库检索出的文本与获得的所述文字数据之间的共有字符占比,从所述预设数据库检索出的文本中筛选出符合要求的文本。
6.根据权利要求3所述的语音识别方法,其特征在于,具体包括:将从所述预设数据库检索出的文本的无声调拼音与获得的所述无声调拼音数据的第一相似度、从所述预设数据库检索出的文本与获得的所述文字数据的第二相似度以及从所述预设数据库检索出的文本与获得的所述文字数据之间的共有字符占比求和,根据求和结果从所述预设数据库检索出的文本中筛选出符合要求的文本。
7.根据权利要求1所述的语音识别方法,其特征在于,根据获得的所述文字数据,从所述预设数据库检索与所述文字数据匹配的文本包括:
根据获得的所述文字数据,若从所述预设数据库检索到与所述文字数据一致的文本,则将获得的文本输出。
8.根据权利要求1所述的语音识别方法,其特征在于,使用数据集训练获得所述第一检测模型和所述第二检测模型,所述数据集包括语音数据、语音对应的文字数据以及语音对应的拼音数据,所述第一检测模型以无声调拼音为标签,所述第二检测模型以文字为标签。
9.一种语音识别装置,其特征在于,用于执行权利要求1-8任一项所述的语音识别方法。
CN202110008353.6A 2021-01-05 2021-01-05 一种语音识别方法及装置 Active CN112767923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110008353.6A CN112767923B (zh) 2021-01-05 2021-01-05 一种语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110008353.6A CN112767923B (zh) 2021-01-05 2021-01-05 一种语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN112767923A CN112767923A (zh) 2021-05-07
CN112767923B true CN112767923B (zh) 2022-12-23

Family

ID=75699340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110008353.6A Active CN112767923B (zh) 2021-01-05 2021-01-05 一种语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN112767923B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1514387A (zh) * 2002-12-31 2004-07-21 中国科学院计算技术研究所 语音查询中的辨音方法
CN101825953A (zh) * 2010-04-06 2010-09-08 朱建政 一种语音输入和拼音输入相结合的中文输入法产品
CN111681669A (zh) * 2020-05-14 2020-09-18 上海眼控科技股份有限公司 一种基于神经网络的语音数据的识别方法与设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229590A (ja) * 2001-02-01 2002-08-16 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識システム
CN101000766B (zh) * 2007-01-09 2011-02-02 黑龙江大学 基于语调模型的汉语语调基频轮廓生成方法
US8977535B2 (en) * 2011-04-06 2015-03-10 Pierre-Henry DE BRUYN Transliterating methods between character-based and phonetic symbol-based writing systems
US8521539B1 (en) * 2012-03-26 2013-08-27 Nuance Communications, Inc. Method for chinese point-of-interest search
CN105389326B (zh) * 2015-09-16 2018-08-31 中国科学院计算技术研究所 基于弱匹配概率典型相关性模型的图像标注方法
JP6708035B2 (ja) * 2016-07-19 2020-06-10 株式会社デンソー 発話内容認識装置
CN108682423A (zh) * 2018-05-24 2018-10-19 北京奔流网络信息技术有限公司 一种语音识别方法和装置
CN110164435B (zh) * 2019-04-26 2024-06-25 平安科技(深圳)有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN111739514B (zh) * 2019-07-31 2023-11-14 北京京东尚科信息技术有限公司 一种语音识别方法、装置、设备及介质
CN110853629A (zh) * 2019-11-21 2020-02-28 中科智云科技有限公司 一种基于深度学习的语音识别数字的方法
CN111312255A (zh) * 2020-04-24 2020-06-19 郑州迈拓信息技术有限公司 一种基于语音识别的词语拼音音调读音自我纠正装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1514387A (zh) * 2002-12-31 2004-07-21 中国科学院计算技术研究所 语音查询中的辨音方法
CN101825953A (zh) * 2010-04-06 2010-09-08 朱建政 一种语音输入和拼音输入相结合的中文输入法产品
CN111681669A (zh) * 2020-05-14 2020-09-18 上海眼控科技股份有限公司 一种基于神经网络的语音数据的识别方法与设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种改进后的递增式语音语料抽选算法;宁振江等;《中国科学院研究生院学报》;20050315(第02期);全文 *

Also Published As

Publication number Publication date
CN112767923A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
WO2021232725A1 (zh) 基于语音交互的信息核实方法、装置、设备和计算机存储介质
US10403282B2 (en) Method and apparatus for providing voice service
KR101309042B1 (ko) 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법
CN107016994B (zh) 语音识别的方法及装置
CN105931644B (zh) 一种语音识别方法及移动终端
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
EP3405912A1 (en) Analyzing textual data
JP2019061662A (ja) 情報を抽出する方法及び装置
CN105869640B (zh) 识别针对当前页面中的实体的语音控制指令的方法和装置
CN110334110A (zh) 自然语言分类方法、装置、计算机设备以及存储介质
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
JP7266683B2 (ja) 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム
CN109448704A (zh) 语音解码图的构建方法、装置、服务器和存储介质
CN109920409B (zh) 一种声音检索方法、装置、***及存储介质
CN111951779A (zh) 语音合成的前端处理方法及相关设备
KR101677859B1 (ko) 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치
CN110019741A (zh) 问答***答案匹配方法、装置、设备及可读存储介质
KR20060070605A (ko) 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법
CN110675866A (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
KR20190059185A (ko) 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템
JPWO2016178337A1 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
Chakraborty et al. Knowledge-based framework for intelligent emotion recognition in spontaneous speech
CN116343747A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
CN112767923B (zh) 一种语音识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant