CN113345442B - 语音识别方法、装置、电子设备及存储介质 - Google Patents
语音识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113345442B CN113345442B CN202110739246.0A CN202110739246A CN113345442B CN 113345442 B CN113345442 B CN 113345442B CN 202110739246 A CN202110739246 A CN 202110739246A CN 113345442 B CN113345442 B CN 113345442B
- Authority
- CN
- China
- Prior art keywords
- phoneme
- text
- recognition
- similar
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012549 training Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 238000012545 processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/527—Centralised call answering arrangements not requiring operator intervention
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种语音识别方法、装置、电子设备及存储介质,涉及语音识别技术领域。该方法包括:通过对输入语音进行识别,得到输入语音的初始识别文本,根据输入语音中的音素组,从预设的相似音素库中查找音素组所在的相似音素组对应的文本作为音素组对应的目标文本;其中,相似音素库中存储有:至少一个相似音素组和文本的对应关系,每个相似音素组包括音素相似度在预设范围内的多个音素组,每个相似音素组对应的文本为多个音素组的识别文本中出现次数最高的文本;将初始识别文本中音素组的识别文本替换为目标文本,得到目标识别文本。通过本申请可提高语音识别效果,从而为客户提供良好的用户体验。
Description
技术领域
本发明涉及语音识别技术领域,具体而言,涉及一种语音识别方法、装置、电子设备及存储介质。
背景技术
随着互联网技术和通信业务的发展,互联网供应服务商的电话访问需求急剧增加,传统的人工客服组成的呼叫中心难以应对当前的需求,但增加人工客服的数量往往面临着更大的人力成本,且接线量峰值庞大且不可控,因此产生了客服机器人。
现有的客服机器人主要解决一些客户的常见问题,通过将预设好的问题和答案存储在应答文件库中,以便根据客户的问题从应答文件库中调用对应的答案进行答复,但该客服机器人要求客户在提问过程中必须保证发音标准。
但是,由于互联网供应服务商所面对的客户来自于各个城市和地区,很难强制要求所有的客户都能进行标准的发音,而发音不标准会导致针对客户的提问识别效果不佳,无法为客户提供良好的用户体验。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种语音识别方法、装置、电子设备及存储介质,以便提高语音识别效果,从而为客户提供良好的用户体验。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种语音识别方法,包括:
对输入语音进行识别,得到所述输入语音的初始识别文本;
根据所述输入语音中的音素组,从预设的相似音素库中查找所述音素组所在的相似音素组对应的文本作为所述音素组对应的目标文本;其中,所述相似音素库中存储有:至少一个相似音素组和文本的对应关系,每个相似音素组包括音素相似度在预设范围内的多个音素组,所述每个相似音素组对应的文本为所述多个音素组的识别文本中出现次数最高的文本;
将所述初始识别文本中所述音素组的识别文本替换为所述目标文本,得到目标识别文本。
可选的,所述根据所述输入语音中音素组,从预设的相似音素库中查找所述音素组所在的相似音素组对应的文本作为所述音素组对应的目标文本之前,所述方法还包括:
获取预设历史时间段内的多个历史输入语音的识别文本;
从历史音素中确定所述至少一个相似音素组,其中,所述历史音素包括:所述多个历史输入语音中的多个音素组;
从所述多个历史输入语音的识别文本中,确定所述多个音素组的识别文本中出现次数最高的文本作为所述每个相似音素组对应的文本;
将所述相似音素组和文本的对应关系,存储至所述相似音素库中。
可选的,所述从历史音素中确定所述至少一个相似音素组,包括:
计算所述历史音素中每个音素组和其他音素组的音素相似度;
从所述历史音素中,确定音素相似度在所述预设范围内的多个音素组作为一个相似音素组。
可选的,所述每个音素组为文本长度为预设长度范围的识别文本对应的音素组,所述预设长度范围为大于或等于2,且小于或等于预设文本长度。
可选的,所述对输入语音进行识别,得到所述输入语音的初始识别文本,包括:
采用预设的语音识别模型,对所述输入语音进行识别,得到所述初始识别文本,其中,所述语音识别模型为预先采用样本语音和所述样本语音对应的识别文本进行训练得到的模型。
可选的,所述方法还包括:
存储所述输入语音和所述目标识别文本的对应关系。
可选的,所述获取预设历史时间段内的多个历史输入语音的识别文本之前,所述方法还包括:
在所述预设历史时间段内对所述多个历史输入语音进行识别,得到所述多个历史输入语音的识别文本;
存储所述多个历史输入语音的识别文本。
第二方面,本申请实施例还提供一种语音识别装置,包括:
识别模块,用于对输入语音进行识别,得到所述输入语音的初始识别文本;
查找模块,用于根据所述输入语音中的音素组,从预设的相似音素库中查找所述音素组所在的相似音素组对应的文本作为所述音素组对应的目标文本;其中,所述相似音素库中存储有:至少一个相似音素组和文本的对应关系,每个相似音素组包括音素相似度在预设范围内的多个音素组,所述每个相似音素组对应的文本为所述多个音素组的识别文本中出现次数最高的文本;
替换模块,用于将所述初始识别文本中所述音素组的识别文本替换为所述目标文本,得到目标识别文本。
可选的,在所述查找模块之前,所述装置还包括:
识别文本获取模块,用于获取预设时间段内的多个历史输入语音的识别文本;
相似音素组确定模块,用于从历史音素中确定所述至少一个相似音素组,其中,所述历史音素包括:所述多个历史输入语音中的多个音素组;
文本确定模块,用于从所述多个历史输入语音的识别文本中,确定所述多个音素组的识别文本中出现次数最高的文本作为所述每个相似音素组对应的文本;
第一存储模块,用于将所述相似音素组和文本的对应关系,存储至所述相似音素库中。
可选的,所述相似音素组确定模块包括:
相似度计算单元,用于计算所述历史音素中每个音素组和其他音素组的音素相似度;
相似音素组确定单元,用于从所述历史音素中,确定音素相似度在所述预设范围内的多个音素组作为一个相似音素组。
可选的,所述每个音素组为文本长度为预设长度范围的识别文本对应的音素组,所述预设长度范围为大于或等于2,且小于或等于预设文本长度。
可选的,所述识别模块具体用于采用预设的语音识别模型,对所述输入语音进行识别,得到所述初始识别文本,其中,所述语音识别模型为预先采用样本语音和所述样本语音对应的识别文本进行训练得到的模型。
可选的,所述装置还包括:
第二存储模块,用于存储所述输入语音和所述目标识别文本的对应关系。
可选的,在所述识别文本获取模块之前,所述装置还包括:
历史语音识别模块,用于在所述预设历史时间段内对所述多个历史输入语音进行识别,得到所述多个历史输入语音的识别文本;
第三存储模块,用于存储所述多个历史输入语音的识别文本。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行如上述实施例任一所述的语音识别方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述实施例任一所述的语音识别方法的步骤。
本申请的有益效果是:
本申请提供一种语音识别方法、装置、电子设备及存储介质,通过对输入语音进行识别,得到输入语音的初始识别文本,根据输入语音中的音素组,从预设的相似音素库中查找音素组所在的相似音素组对应的文本作为音素组对应的目标文本;其中,相似音素库中存储有:至少一个相似音素组和文本的对应关系,每个相似音素组包括音素相似度在预设范围内的多个音素组,每个相似音素组对应的文本为多个音素组的识别文本中出现次数最高的文本;将初始识别文本中音素组的识别文本替换为目标文本,得到目标识别文本。通过本申请提供的方案,可通过确定输入语音中的音素组所在的相似音素组对应的文本作为目标文本,并以目标文本对初始识别文本中音素组的识别文本进行替换,以实现用准确的文本对发音不标准的音素对应的文本进行替换,使得语音识别结果更加准确,提高语音识别效果,为客户提供良好的用户体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的第一种语音识别方法的流程示意图;
图2为本申请实施例提供的第二种语音识别方法的流程示意图;
图3为本申请实施例提供的第三种语音识别方法的流程示意图;
图4为本申请实施例提供的一种语音识别装置的结构示意图;
图5为本申请实施例提供的电子设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要说明的是,若出现术语“上”、“下”、等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
本申请实施例提供一种语音识别方法,可应用于语音识别场景例如语音聊天场景、语音交互场景等,其可由安装有预设语音识别程序的电子设备执行,该预设语音识别程序例如可以为独立的语音识别程序如智能音箱、智慧屏、智能遥控器等具有语音识别功能的智能家居设备中的语音识别程序,也可以为智能手机、智能平板等智能计算机设备;该预设语音识别程序也可以为预设客户端应用中嵌入的语音识别模型如应用中的语音机器人,例如客服语音机器人。
因此,该语音识别方法,可由任一支持语音识别功的电子设备执行。如下以客服机器人的语音识别场景进行示例说明,需要说明的是,本申请所提供的语音识别方法,还可应用于其他的一些语音识别场景,本申请实施例不对此进行限制。
图1为本申请实施例提供的第一种语音识别方法的流程示意图;如图1所示,该方法包括:
S10:对输入语音进行识别,得到输入语音的初始识别文本。
具体的,输入语音为客服机器人接收到的用户通过电话客户端输入的语音,通过客服机器人预设的语音识别方法,对输入语音进行语音识别,以将语音转换为初始识别文本。
在一种可选实施方式中,采用预设的语音识别模型,对输入语音进行识别,得到初始识别文本。
其中,语音识别模型为预先采用样本语音和样本语音对应的识别文本进行训练得到的模型。
S20:根据输入语音中的音素组,从预设的相似音素库中查找音素组所在的相似音素组对应的文本作为音素组对应的目标文本。
其中,相似音素库中存储有:至少一个相似音素组和文本的对应关系,每个相似音素组包括音素相似度在预设范围内的多个音素组,每个相似音素组对应的文本为多个音素组的识别文本中出现次数最高的文本。
具体的,音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素,不同语言中的发音动作都具有对应的音素。
音素分为元音与辅音两大类,以汉语音节为例,输入语音中的汉语音节是由包括至少一个音素的音素组构成的,示例的,汉语音节啊(ā)只有一个音素,爱(ài)有两个音素,代(dài)有三个音素。以英语音标为例,输入语音中的英语音标是由包括至少一个音素的音素组构成的,示例的,英语音标a//有一个音素,me/mi:/有两个音素,包括辅音/m/和前元音/i:/,gate/geit/有三个音素,包括:浊辅音/g/、清辅音/t/以及双元音/ei/。
相似音素是指容易被发音不标准的用户所混淆的多个音素,例如,声母的平舌音和卷舌音、韵母的前鼻音和后鼻音、英语中不同字母的相同或相似发音、或者相同字母的不同发音等,而相似音素组则是通过对相似音素进行组合得到的音素相似度在预设范围内的多个音素组。需要说明的是,由于英语中存在不同字母相同发音的情况,则相似音素组中也可以只包括一个音素组。
以汉语为例,声母分别为平舌音和卷舌音、韵母相同构成的两个音素组为相似音素组,如“shan”和“san”,或者声母相同、韵母分别为前鼻音和后鼻音构成的两个音素组也为相似音素组,如“shang”和“sang”,以音素相似度表示两个音素组之间的近似程度。以英语为例,“affect(影响)”的发音/’fekt/和“effect”的发音均为/I’fekt/为相似音素组。
需要说明的是,由于不同地区的客户的口音不同,因此相似音素组的定义方式也不相同,可根据当地客户发音容易造成混淆的音节对相似音素组进行自定义,本申请对此不做限制。
相似音素库中除了存储有至少一个相似音素组外,还存储有每个相似音素组对应的文本,以预先统计的预设历史时间内该相似音素组中的多个音素组的识别文本中出现次数最高的文本作为该相似音素组对应的文本。
在相似音素库中查找输入语音中的音素组所属的相似音素组,并根据相似音素组和文本的对应关系得到目标文本。
S30:将初始识别文本中音素组的识别文本替换为目标文本,得到目标识别文本。
具体的,从相似音素库中确定音素组所在的相似音素组对应的文本作为音素组的目标文本后,以目标文本对初始识别文本中该音素组对应的识别文本进行替换,得到目标识别文本。
以汉语为例,音素组“wangluo”和“wangle”为相似音素组,“wangluo”对应的识别文本为“网络”,“wangle”的识别文本为“忘了”,而相似音素库中“wangluo”和“wangle”的相似音素组对应的文本为“网络”,则将初始识别文本中“wangle”的识别文本“忘了”替换为“网络”。
以英语为例,/kwait/和/t/为相似音素组,/kwait/对应的识别文本为“quite(相当)”,//>t/对应的识别文本为“quiet(安静地)”相似音素库中相似音素组/kwait/和//>t/的识别文本为“quite”,则将初始识别文本中//>t/的识别文本“quiet”替换为“quite”。
在一种可选实施方式中,若从相似音素库中未查找到音素组所在的相似音素库,则对该音素组对应的识别文本不进行替换,并在预设时间段内对相似音素库进行更新。
本申请实施例提供一种语音识别方法,通过对输入语音进行识别,得到输入语音的初始识别文本,根据输入语音中的音素组,从预设的相似音素库中查找音素组所在的相似音素组对应的文本作为音素组对应的目标文本;其中,相似音素库中存储有:至少一个相似音素组和文本的对应关系,每个相似音素组包括音素相似度在预设范围内的多个音素组,每个相似音素组对应的文本为多个音素组的识别文本中出现次数最高的文本;将初始识别文本中音素组的识别文本替换为目标文本,得到目标识别文本。通过本申请实施例提供的方法,可通过确定输入语音中的音素组所在的相似音素组对应的文本作为目标文本,并以目标文本对初始识别文本中音素组的识别文本进行替换,以实现用准确的文本对发音不标准的音素对应的文本进行替换,使得语音识别结果更加准确,提高语音识别效果,为客户提供良好的用户体验。
在上述实施例的基础上,本申请实施例还提供一种语音识别方法,图2为本申请实施例提供的第二种语音识别方法的流程示意图,如图2所示,在上述S20之前,该方法还包括:
S11:获取预设历史时间段内的多个历史输入语音的识别文本。
具体的,由于白天客服机器人要进行客服工作,若在白天进行相似音素库的更新,可能会影响客服机器人的工作,因此设定固定时间段对相似音素库进行更新,如凌晨1点至4点。预设历史时间段即为相似音素库进行更新的固定时间段之外的其余时间段,多个历史输入语音为预设历史时间段内所有客户的所有输入语音,通过对预设历史时间段内的多个历史输入语音的识别文本进行存储,以在固定时间段内更新相似音素库时获取预设历史时间段内的多个历史输入语音的识别文本。
S12:从历史音素中确定至少一个相似音素组。
具体的,历史音素包括:多个历史输入语音中的多个音素组。根据相似音素组识别方法或预先定义的相似音素组,从多个历史输入语音中的多个音素组中提取至少一个相似音素组。
S13:从多个历史输入语音的识别文本中,确定多个音素组的识别文本中出现次数最高的文本作为每个相似音素组对应的文本。
具体的,针对提取的每个相似音素组,确定在多个历史输入语音的识别文本中,每个相似音素组中的多个音素组对应的识别文本,并统计每个音素组对应的识别文本出现的次数,以出现次数最高的音素组对应的识别文本作为正确的识别文本,其他音素组对应的识别文本作为错误的识别文本,将出现次数最高的音素组对应的识别文本作为该相似音素组对应的文本。
S14:将相似音素组和文本的对应关系,存储至相似音素库中。
具体的,将从多个历史输入语音中的多个音素组中提取的相似音素组以及相似音素组对应的文本存储在相似音素库中,完成对相似音素库的更新。
需要说明的是,上述S11-S14可以每天在预设历史时间段内执行一次,以实现对相似音素库的定期更新。
在一种可选实施方式中,在上述S11之前,该方法还包括:
在预设历史时间段内对多个历史输入语音进行识别,得到多个历史输入语音的识别文本,存储多个历史输入语音的识别文本。
具体的,在预设历史时间内,若客服机器人接收到客户的咨询电话,则通过预设的语音识别方法对用户的历史输入语音进行语音识别,以将多个历史输入语音转换为对应的识别文本,并将该识别文本存储在电子设备中,在预设历史时间段之外的固定时间段内,通过对多个历史输入语音的识别文本执行上述S11-S14,更新相似音素库。
需要说明的是,在预设历史时间段内除了对多个历史输入语音进行识别,得到多个历史输入语音的识别文本之外,还提取出多个历史输入语音中的多个音素组作为历史音素,将多个历史输入语音的识别文本和历史音素一起进行保存。
本申请实施例提供的语音识别方法,获取预设历史时间段内的多个历史输入语音的识别文本,从历史音素中确定至少一个相似音素组,其中,历史音素包括:多个历史输入语音中的多个音素组;从多个历史输入语音的识别文本中,确定多个音素组的识别文本中出现次数最高的文本作为每个相似音素组对应的文本,将相似音素组和文本的对应关系,存储至相似音素库中。通过本申请实施例提供的方法,可根据预设历史时间段内的多个历史输入语音的识别文本对相似音素库进行更新,以不断扩大相似音素库中包含的相似音素组和对应的文本,以便在使用时更好的对初始识别文本中音素组的识别文本进行替换,得到更加准确的目标识别文本,提高语音识别效果,为客户提供良好的用户体验。
在上述实施例的基础上,本申请实施例还提供一种语音识别方法,图3为本申请实施例提供的第三种语音识别方法的流程示意图,如图3所示,上述S12包括:
S121:计算历史音素中每个音素组和其他音素组的音素相似度。
具体的,采用预设的音素相似度计算方法,对历史音素中的每个音素组和其他音素组计算音素相似度。
在一种可选实施方式中,预设的音素相似度计算方法为汉明距离计算法,计算每个音素组和其他音素组的汉明距离,以汉明距离表示音素相似度,汉明距离越小,音素相似度越高,反之,汉明距离越大,音素相似度越低。
在一种可选实施方式中,若每个音素组对应的文本长度为单字,由于单字的音素组可能对应多个发音相似的文本,导致情况较为复杂;而若每个音素组对应的文本长度过长,如一句话,这样的文本对应的音素组可能根据不存在相似音素组,没有替换的必要,因此需要限定每个音素组为文本长度为预设长度范围的识别文本对应的音素组,预设长度范围为大于或等于2,且小于或等于预设文本长度。示例的,预设文本长度可以为5,则2≦文本长度≦5。
S122:从历史音素中,确定音素相似度在预设范围内的多个音素组作为一个相似音素组。
具体的,通过上述S121计算每个音素组和其他音素组的音素相似度后,可将音素相似度在预设范围内的多个音素组作为一个相似音素组。预设范围以所选择的音素相似度计算方法确定。
在一种可选实施方式中,以汉明距离表示音素相似度,则将预设范围设置为汉明距离小于2的多个音素组作为一个相似音素组。
本申请实施例提供的方法,通过计算历史音素中每个音素组和其他音素组的音素相似度,从历史音素中,确定音素相似度在预设范围内的多个音素组作为一个相似音素组。通过本申请实施例提供的方法,可以通过音素相似度确定相似音素组,便于从多个历史输入语音的多个音素组中确定相似音素组,从而提高语音识别效果,为客户提供良好的用户体验。
在上述实施例的基础上,本申请实施例还提供一种语音识别方法,该方法还可包括:
存储输入语音和目标识别文本的对应关系。
具体的,通过将输入语音和目标识别文本的对应关系存储在电子设备中,一方面可以进行人工质检,判断本申请实施例提供的语音识别方法中经过替换得到的目标识别文本和输入语音之间的准确度,另一方面,可以将该输入语音和目标识别文本作为样本语音和样本语音对应的识别文本输入至语音识别模型,以实现对语音识别模型的训练,提高语音识别模型的识别效果。
在上述实施例的基础上,本申请实施例还提供一种语音识别装置,图4为本申请实施例提供的一种语音识别装置的结构示意图,如图4所示,该装置包括:
识别模块10,用于对输入语音进行识别,得到输入语音的初始识别文本;
查找模块11,用于根据输入语音中的音素组,从预设的相似音素库中查找音素组所在的相似音素组对应的文本作为音素组对应的目标文本;其中,相似音素库中存储有:至少一个相似音素组和文本的对应关系,每个相似音素组包括音素相似度在预设范围内的多个音素组,每个相似音素组对应的文本为多个音素组的识别文本中出现次数最高的文本;
替换模块12,用于将初始识别文本中音素组的识别文本替换为目标文本,得到目标识别文本。
可选的,在查找模块11之前,该装置还包括:
识别文本获取模块,用于对获取预设时间段内的多个历史输入语音的识别文本;
相似音素组确定模块,用于从历史音素中确定至少一个相似音素组,其中,历史音素包括:多个历史输入语音中的多个音素组;
文本确定模块,用于从多个历史输入语音的识别文本中,确定多个音素组的识别文本中出现次数最高的文本作为每个相似音素组对应的文本;
第一存储模块,用于将相似音素组和文本的对应关系,存储至相似音素库中。
可选的,相似音素组确定模块包括:
相似度计算单元,用于计算历史音素中每个音素组和其他音素组的音素相似度;
相似音素组确定单元,用于从历史音素中,确定音素相似度在预设范围内的多个音素组作为一个相似音素组。
可选的,每个音素组为文本长度为预设长度范围的识别文本对应的音素组,预设长度范围为大于或等于2,且小于或等于预设文本长度。
可选的,识别模块10具体用于采用预设的语音识别模型,对输入语音进行识别,得到初始识别文本,其中,语音识别模型为预先采用样本语音和样本语音对应的识别文本进行训练得到的模型。
可选的,该装置还包括:
第二存储模块,用于存储输入语音和目标识别文本的对应关系。
可选的,在识别文本获取模块之前,该装置还包括:
历史语音识别模块,用于在预设历史时间段内对多个历史输入语音进行识别,得到多个历史输入语音的识别文本;
第三存储模块,用于存储多个历史输入语音的识别文本。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器,或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上***(system-on-a-chip,简称SOC)的形式实现。
图5为本申请实施例提供的电子设备的示意图,如图5所示,该电子设备100包括:处理器101、存储介质102和总线,存储介质102存储有处理器101可执行的程序指令,当电子设备100运行时,处理器101与存储介质102之间通过总线通信,处理器101执行程序指令,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本发明还提供一种程序产品,例如计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法实施例。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种语音识别方法,其特征在于,包括:
对输入语音进行识别,得到所述输入语音的初始识别文本;
根据所述输入语音中的音素组,从预设的相似音素库中查找所述音素组所在的相似音素组对应的文本作为所述音素组对应的目标文本;其中,所述相似音素库中存储有:至少一个相似音素组和文本的对应关系,每个相似音素组包括音素相似度在预设范围内的多个音素组,所述每个相似音素组对应的文本为所述多个音素组的识别文本中出现次数最高的文本;
将所述初始识别文本中所述音素组的识别文本替换为所述目标文本,得到目标识别文本;
所述根据所述输入语音中音素组,从预设的相似音素库中查找所述音素组所在的相似音素组对应的文本作为所述音素组对应的目标文本之前,所述方法还包括:
获取预设历史时间段内的多个历史输入语音的识别文本;
从历史音素中确定所述至少一个相似音素组,其中,所述历史音素包括:所述多个历史输入语音中的多个音素组;
从所述多个历史输入语音的识别文本中,确定所述多个音素组的识别文本中出现次数最高的文本作为所述每个相似音素组对应的文本;
将所述相似音素组和文本的对应关系,存储至所述相似音素库中。
2.根据权利要求1所述的方法,其特征在于,所述从历史音素中确定所述至少一个相似音素组,包括:
计算所述历史音素中每个音素组和其他音素组的音素相似度;
从所述历史音素中,确定音素相似度在所述预设范围内的多个音素组作为一个相似音素组。
3.根据权利要求2所述的方法,其特征在于,所述每个音素组为文本长度为预设长度范围的识别文本对应的音素组,所述预设长度范围为大于或等于2,且小于或等于预设文本长度。
4.根据权利要求1所述的方法,其特征在于,所述对输入语音进行识别,得到所述输入语音的初始识别文本,包括:
采用预设的语音识别模型,对所述输入语音进行识别,得到所述初始识别文本,其中,所述语音识别模型为预先采用样本语音和所述样本语音对应的识别文本进行训练得到的模型。
5.根据权利要求1-4中任一所述的方法,其特征在于,所述方法还包括:
存储所述输入语音和所述目标识别文本的对应关系。
6.根据权利要求1-4中任一所述的方法,其特征在于,所述获取预设历史时间段内的多个历史输入语音的识别文本之前,所述方法还包括:
在所述预设历史时间段内对所述多个历史输入语音进行识别,得到所述多个历史输入语音的识别文本;
存储所述多个历史输入语音的识别文本。
7.一种语音识别装置,其特征在于,包括:
识别模块,用于对输入语音进行识别,得到所述输入语音的初始识别文本;
查找模块,用于根据所述输入语音中的音素组,从预设的相似音素库中查找所述音素组所在的相似音素组对应的文本作为所述音素组对应的目标文本;其中,所述相似音素库中存储有:至少一个相似音素组和文本的对应关系,每个相似音素组包括音素相似度在预设范围内的多个音素组,所述每个相似音素组对应的文本为所述多个音素组的识别文本中出现次数最高的文本;
替换模块,用于将所述初始识别文本中所述音素组的识别文本替换为所述目标文本,得到目标识别文本;
在所述查找模块之前,所述装置还包括:
识别文本获取模块,用于获取预设时间段内的多个历史输入语音的识别文本;
相似音素组确定模块,用于从历史音素中确定所述至少一个相似音素组,其中,所述历史音素包括:所述多个历史输入语音中的多个音素组;
文本确定模块,用于从所述多个历史输入语音的识别文本中,确定所述多个音素组的识别文本中出现次数最高的文本作为所述每个相似音素组对应的文本;
第一存储模块,用于将所述相似音素组和文本的对应关系,存储至所述相似音素库中。
8.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行如权利要求1至6任一所述的语音识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一所述的语音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110739246.0A CN113345442B (zh) | 2021-06-30 | 2021-06-30 | 语音识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110739246.0A CN113345442B (zh) | 2021-06-30 | 2021-06-30 | 语音识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113345442A CN113345442A (zh) | 2021-09-03 |
CN113345442B true CN113345442B (zh) | 2024-06-04 |
Family
ID=77481957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110739246.0A Active CN113345442B (zh) | 2021-06-30 | 2021-06-30 | 语音识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113345442B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869634A (zh) * | 2016-03-31 | 2016-08-17 | 重庆大学 | 一种基于领域的带反馈语音识别后文本纠错方法及*** |
CN107301865A (zh) * | 2017-06-22 | 2017-10-27 | 海信集团有限公司 | 一种用于语音输入中确定交互文本的方法和装置 |
CN107731228A (zh) * | 2017-09-20 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 英文语音信息的文本转换方法和装置 |
JP2019012095A (ja) * | 2017-06-29 | 2019-01-24 | 日本放送協会 | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム |
JP2019045788A (ja) * | 2017-09-06 | 2019-03-22 | 株式会社日立情報通信エンジニアリング | 通話音声認識システム及びその音声認識制御方法 |
CN109545243A (zh) * | 2019-01-23 | 2019-03-29 | 北京猎户星空科技有限公司 | 发音质量评价方法、装置、电子设备及存储介质 |
CN109920432A (zh) * | 2019-03-05 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN110223673A (zh) * | 2019-06-21 | 2019-09-10 | 龙马智芯(珠海横琴)科技有限公司 | 语音的处理方法及装置、存储介质、电子设备 |
CN110570842A (zh) * | 2019-10-25 | 2019-12-13 | 南京云白信息科技有限公司 | 基于音素近似度和发音标准度的语音识别方法及*** |
CN110808034A (zh) * | 2019-10-31 | 2020-02-18 | 北京大米科技有限公司 | 语音转换方法、装置、存储介质及电子设备 |
CN111462748A (zh) * | 2019-01-22 | 2020-07-28 | 北京猎户星空科技有限公司 | 语音识别处理方法、装置、电子设备及存储介质 |
CN112489626A (zh) * | 2020-11-18 | 2021-03-12 | 华为技术有限公司 | 一种信息识别方法、装置及存储介质 |
CN112735394A (zh) * | 2020-12-16 | 2021-04-30 | 青岛海尔科技有限公司 | 一种语音的语义解析方法及装置 |
CN112820294A (zh) * | 2021-01-06 | 2021-05-18 | 镁佳(北京)科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150058006A1 (en) * | 2013-08-23 | 2015-02-26 | Xerox Corporation | Phonetic alignment for user-agent dialogue recognition |
CN107945786B (zh) * | 2017-11-27 | 2021-05-25 | 北京百度网讯科技有限公司 | 语音合成方法和装置 |
-
2021
- 2021-06-30 CN CN202110739246.0A patent/CN113345442B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869634A (zh) * | 2016-03-31 | 2016-08-17 | 重庆大学 | 一种基于领域的带反馈语音识别后文本纠错方法及*** |
CN107301865A (zh) * | 2017-06-22 | 2017-10-27 | 海信集团有限公司 | 一种用于语音输入中确定交互文本的方法和装置 |
JP2019012095A (ja) * | 2017-06-29 | 2019-01-24 | 日本放送協会 | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム |
JP2019045788A (ja) * | 2017-09-06 | 2019-03-22 | 株式会社日立情報通信エンジニアリング | 通話音声認識システム及びその音声認識制御方法 |
CN107731228A (zh) * | 2017-09-20 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 英文语音信息的文本转换方法和装置 |
CN111462748A (zh) * | 2019-01-22 | 2020-07-28 | 北京猎户星空科技有限公司 | 语音识别处理方法、装置、电子设备及存储介质 |
CN109545243A (zh) * | 2019-01-23 | 2019-03-29 | 北京猎户星空科技有限公司 | 发音质量评价方法、装置、电子设备及存储介质 |
CN109920432A (zh) * | 2019-03-05 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN110223673A (zh) * | 2019-06-21 | 2019-09-10 | 龙马智芯(珠海横琴)科技有限公司 | 语音的处理方法及装置、存储介质、电子设备 |
CN110570842A (zh) * | 2019-10-25 | 2019-12-13 | 南京云白信息科技有限公司 | 基于音素近似度和发音标准度的语音识别方法及*** |
CN110808034A (zh) * | 2019-10-31 | 2020-02-18 | 北京大米科技有限公司 | 语音转换方法、装置、存储介质及电子设备 |
CN112489626A (zh) * | 2020-11-18 | 2021-03-12 | 华为技术有限公司 | 一种信息识别方法、装置及存储介质 |
CN112735394A (zh) * | 2020-12-16 | 2021-04-30 | 青岛海尔科技有限公司 | 一种语音的语义解析方法及装置 |
CN112820294A (zh) * | 2021-01-06 | 2021-05-18 | 镁佳(北京)科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113345442A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及*** | |
CN110797016B (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
US8170866B2 (en) | System and method for increasing accuracy of searches based on communication network | |
CN108847241A (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
CN111310440B (zh) | 文本的纠错方法、装置和*** | |
JP2017058674A (ja) | 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器 | |
CN110808032B (zh) | 一种语音识别方法、装置、计算机设备及存储介质 | |
JP7266683B2 (ja) | 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム | |
EP2940551B1 (en) | Method and device for implementing voice input | |
CN111611349A (zh) | 语音查询方法、装置、计算机设备及存储介质 | |
JP7400112B2 (ja) | 自動音声認識のための英数字列のバイアス付加 | |
CN110852075B (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
CN109508441B (zh) | 通过自然语言实现数据统计分析的方法、装置及电子设备 | |
CN112818680B (zh) | 语料的处理方法、装置、电子设备及计算机可读存储介质 | |
CN111223476B (zh) | 语音特征向量的提取方法、装置、计算机设备和存储介质 | |
CN112562640A (zh) | 多语言语音识别方法、装置、***及计算机可读存储介质 | |
CN110503956A (zh) | 语音识别方法、装置、介质及电子设备 | |
Ons et al. | Fast vocabulary acquisition in an NMF-based self-learning vocal user interface | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
CN110570838B (zh) | 语音流处理方法和装置 | |
CN109273004B (zh) | 基于大数据的预测性语音识别方法及装置 | |
CN113345442B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN111916062A (zh) | 语音识别方法、装置和*** | |
CN115691503A (zh) | 语音识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |