CN112562675A - 语音信息处理方法、装置及存储介质 - Google Patents
语音信息处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112562675A CN112562675A CN201910848567.7A CN201910848567A CN112562675A CN 112562675 A CN112562675 A CN 112562675A CN 201910848567 A CN201910848567 A CN 201910848567A CN 112562675 A CN112562675 A CN 112562675A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- phoneme
- fuzzy
- target word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims description 30
- 238000003672 processing method Methods 0.000 title description 18
- 238000005516 engineering process Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K7/00—Methods or arrangements for sensing record carriers, e.g. for reading patterns
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本公开是关于一种语音信息处理方法、装置、存储介质及电子设备,所述方法包括:基于语音识别技术,确定采集到的语音信息对应的文本信息,所述文本信息包括单词;将所述文本信息中的单词作为目标单词,根据所述目标单词对应的音素序列和预先设置的发音词典,确定所述目标单词对应的模糊词,其中,所述发音词典包括多个单词以及每一单词对应的音素序列;输出所述目标单词以及所述目标单词对应的模糊词。通过本公开的技术方案,可以解决现有的语音识别技术对同音、发音易混等单词识别不准确的问题,提升用户体验。
Description
技术领域
本公开涉及信息技术领域,尤其涉及一种语音信息处理方法、装置及存储介质。
背景技术
随着信息技术的高速发展,语音识别(Automatic Speech Recognition,ASR)技术也得到了快速发展。语音识别是一门利用计算机实现从语音到文本自动转换的综合性应用技术,集成了包括信号处理、模式识别、机器学习、数值分析、自然语言处理、高性能计算等一系列基础学科的优秀成果,是一门跨领域、跨学科的应用型研究,已在语言学习等领域得到了广泛应用。
相关技术中的语音识别技术,通常采用基于统计模式识别算法对采集到的语音信息进行识别。然而,对于语言学习等领域,英文等语言中存在大量同音的单词、发音易混等单词,采用相关技术中的语音识别技术很难准确识别出这些单词。
发明内容
为克服相关技术中存在的问题,本公开提供一种语音信息处理方法、装置及存储介质。
根据本公开实施例的第一方面,提供一种语音信息处理方法,包括:
基于语音识别技术,确定采集到的语音信息对应的文本信息,所述文本信息包括单词;
将所述文本信息中的单词作为目标单词,根据所述目标单词对应的音素序列和预先设置的发音词典,确定所述目标单词对应的模糊词,其中,所述发音词典包括多个单词以及每一单词对应的音素序列;
输出所述目标单词以及所述目标单词对应的模糊词。
可选地,所述根据所述目标单词对应的音素序列和预先设置的发音词典,确定所述目标单词对应的模糊词,包括:
从所述发音词典的单词中选取所对应的音素序列与所述目标单词对应的音素序列相同的单词,作为所述目标单词对应的模糊词。
可选地,所述根据所述目标单词对应的音素序列和预先设置的发音词典,确定所述目标单词对应的模糊词,包括:
若所述目标单词对应的音素序列包括第一预设类型音素,则以所述目标单词对应的音素序列为基准序列,从所述发音词典的单词中选取所对应的音素序列满足以下条件的单词,作为所述目标单词对应的模糊词:
所对应的音素序列包括所述第一预设类型音素,且所述第一预设类型音素在该音素序列中的位置,与所述基准序列中的所述第一预设类型音素在所述基准序列中的位置相同;
该音素序列中除所述第一预设类型音素以外的音素组成的第一音素序列,与所述基准序列中除所述第一预设类型音素以外的音素组成的第二音素序列相同。
可选地,所述根据所述目标单词对应的音素序列和预先设置的发音词典,确定所述目标单词对应的模糊词,包括:
若所述目标单词对应的音素序列的第一个音素和/或最后一个音素为第二预设类型音素,则将该音素序列中除所述第二预设类型音素以外的音素整合为新的音素序列,从所述发音词典的单词中,选取所对应的音素序列与该新的音素序列相同的单词,作为所述目标单词对应的模糊词。
可选地,所述输出所述目标单词以及所述目标单词对应的模糊词,包括:
根据预设优先级对所述目标单词对应的模糊词进行排序;
若所述目标单词对应的模糊词的数量大于预设数量,则根据排序结果,从所述目标单词对应的所有模糊词中筛选所述预设数量的模糊词,输出所述目标单词以及筛选出的模糊词;
若所述目标单词对应的模糊词的数量小于或等于所述预设数量,则根据所述排序结果输出所述目标单词以及所述目标单词对应的所有模糊词。
根据本公开实施例的第二方面,提供一种语音信息处理装置,包括:
第一确定模块,被配置为基于语音识别技术,确定采集到的语音信息对应的文本信息,所述文本信息包括单词;
第二确定模块,被配置为将所述文本信息中的单词作为目标单词,根据所述目标单词对应的音素序列和预先设置的发音词典,确定所述目标单词对应的模糊词,其中,所述发音词典包括多个单词以及每一单词对应的音素序列;
输出模块,被配置为输出所述目标单词以及所述目标单词对应的模糊词。
可选地,所述第二确定模块包括:
第一选取子模块,被配置为从所述发音词典的单词中选取所对应的音素序列与所述目标单词对应的音素序列相同的单词,作为所述目标单词对应的模糊词。
可选地,所述第二确定模块包括:
第二选取子模块,被配置为在所述目标单词对应的音素序列包括第一预设类型音素时,以所述目标单词对应的音素序列为基准序列,从所述发音词典的单词中选取所对应的音素序列满足以下条件的单词,作为所述目标单词对应的模糊词:
所对应的音素序列包括所述第一预设类型音素,且所述第一预设类型音素在该音素序列中的位置,与所述基准序列中的所述第一预设类型音素在所述基准序列中的位置相同;
该音素序列中除所述第一预设类型音素以外的音素组成的第一音素序列,与所述基准序列中除所述第一预设类型音素以外的音素组成的第二音素序列相同。
可选地,所述第二确定模块包括:
第三选取子模块,被配置为在所述目标单词对应的音素序列的第一个音素和/或最后一个音素为第二预设类型音素时,将该音素序列中除所述第二预设类型音素以外的音素整合为新的音素序列,从所述发音词典的单词中,选取所对应的音素序列与该新的音素序列相同的单词,作为所述目标单词对应的模糊词。
可选地,所述输出模块包括:
排序子模块,被配置为根据预设优先级对所述目标单词对应的模糊词进行排序;
第一输出子模块,被配置为在所述目标单词对应的模糊词的数量大于预设数量时,根据排序结果,从所述目标单词对应的所有模糊词中筛选所述预设数量的模糊词,输出所述目标单词以及筛选出的模糊词;
第二输出子模块,被配置为在所述目标单词对应的模糊词的数量小于或等于所述预设数量时,根据所述排序结果输出所述目标单词以及所述目标单词对应的所有模糊词。
根据本公开实施例的第三方面,提供一种语音信息处理装置,包括:处理器;用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
基于语音识别技术,确定采集到的语音信息对应的文本信息,所述文本信息包括单词;
将所述文本信息中的单词作为目标单词,根据所述目标单词对应的音素序列和预先设置的发音词典,确定所述目标单词对应的模糊词,其中,所述发音词典包括多个单词以及每一单词对应的音素序列;
输出所述目标单词以及所述目标单词对应的模糊词。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的语音信息处理方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:基于语音识别技术确定采集到的语音信息对应的文本信息,将文本信息中的单词作为目标单词,根据目标单词对应的音素序列和预先设置的发音词典,确定目标单词对应的模糊词,并输出目标单词以及目标单词对应的模糊词,供用户选择,这样,可以解决现有的语音识别技术对同音、发音易混等单词识别不准确的问题,提升用户体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种实施环境的示意图;
图2是根据一示例性实施例示出的一种语音信息处理方法的流程图;
图3是根据一示例性实施例示出的一种语音信息处理装置的框图;
图4是根据另一示例性实施例示出的一种语音信息处理装置的框图;
图5是根据一示例性实施例示出的一种用于语音信息处理方法的装置的框图;
图6是根据另一示例性实施例示出的一种用于语音信息处理方法的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
值得说明的是,本公开的说明书和权利要求书以及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必理解为特定的顺序或先后次序。
在对本公开实施例提供的语音信息处理方法进行说明之前,首先对本公开实施例涉及的实施环境进行说明。图1是本公开实施例涉及的实施环境的示意图,如图1所示,本公开实施例涉及的实施环境包括:用户终端10和服务器20,且用户终端10与服务器20之间通信连接。用户终端10可通过其内置的语音采集装置(如麦克风)采集用户输入的语音信息并将采集到的语音信息发送给服务器20,服务器20通过对采集到的语音信息进行处理,确定语音信息对应的文本信息以及文本信息中的单词对应的模糊词,并将文本信息中的单词以及单词对应的模糊词发送给用户终端10,用户终端10显示服务器反馈的单词及其对应的模糊词,以供用户选择。
值得说明的是,在该实施环境中,用户终端10与服务器20之间可以利用各种有线或无线技术来建立通信连接。例如,连接方式可以例如包括但不限于:蓝牙、WiFi(Wireless-Fidelity,无线保真)、2G网络、3G网络、4G网络等等。用户终端10可以例如是智能手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、智能穿戴设备等等,服务器20可以为任何能够提供语音信息处理功能的设备。
此外,本公开实施例提供的语音信息处理方法也可以在用户终端10本地执行,具体地,用户终端10可以通过其内置的语音采集装置(如麦克风)采集语音信息,通过对采集到的语音信息进行处理,确定语音信息对应的文本信息以及文本信息中的单词对应的模糊词,然后,通过其显示装置(如显示屏)输出显示文本信息中的单词以及单词对应的模糊词,以供用户选择。
基于图1所示的实施环境,本公开实施例提供一种语音信息处理方法,该方法可应用于图1所示的用户终端10或者服务器20。参见图2,图2是根据一示例性实施例示出的一种语音信息处理方法的流程图,该方法包括以下步骤:
在步骤S201中,基于语音识别技术,确定采集到的语音信息对应的文本信息。
其中,文本信息包括单词。
在具体实施时,可首先对采集到的语音信息进行降噪、分帧处理、预加重和加窗处理等预处理,并对处理后的语音信息进行特征提取。接着,将提取出的特征输入预先建立的语音识别模型,得到相应的文本信息。其中,该语音识别模型可以是利用大量语音信息及其对应的文本信息进行训练得到的,示例地,语音识别模型可以是隐马尔科夫模型(HiddenMarkov Model,HMM),也可以是神经网络模型(Neural Network,NN),本公开实施例对此不做限定。
值得说明的是,对采集到的语音信息进行预处理和特征提取的具体方式属于本领域技术人员公知的,在本公开实施例中不再详细阐述。
此外,也可以通过本领域技术人员公知的其他语音识别技术对采集到的语音信息进行处理,确定语音信息对应的文本信息,本公开实施例对此不做限定。
在步骤S202中,将文本信息中的单词作为目标单词,根据目标单词对应的音素序列和预先设置的发音词典,确定目标单词对应的模糊词。
其中,发音词典包括多个单词以及每一单词对应的音素序列。
在本公开的实施例中,音素是语音的最小单元,而音素序列是多个音素整合而成的有序序列。通过查找发音词典可确定目标单词对应的音素序列,例如,单词为“bad”,则对应的音素序列包括三个音素/b/、/d/。在具体实施时,可预先设置多种语言的发音词典,根据采集到的语音对应的语言选择该语言对应的发音词典,例如,语音对应的语言为英文,则选择英文的发音词典。
考虑到在英文等语言中同音单词不易区分、含有难区分的音素(如和/e/)的单词(如bad和bed)易混淆以及首个或最后一个音素为清辅音的单词与其他单词易混淆(如bite和buy)等,因而在具体实施时,针对这些情况,步骤S201可通过以下三种可选的实施方式中的一种或多种实现。
实施方式一:针对同音单词
同音单词对应的音素序列相同,因而在具体实施时,可从发音词典的单词中选取所对应的音素序列与目标单词对应的音素序列相同的单词,作为目标单词对应的模糊词。例如,目标单词为two,其音标为/tu:/,对应的音素序列为/t/、/u:/,则从相应的发音词典中选取音素序列相同的单词too作为该目标单词two的模糊词;同样地,目标单词为be,则从相应的发音词典中选取音素序列与目标单词be的音素序列(/b/、/i:/)的单词bee作为该目标单词be的模糊词。
实施方式二:针对含有难区分音素的单词
具体地,若目标单词对应的音素序列包括第一预设类型音素,则以目标单词对应的音素序列为基准序列,从发音词典的单词中选取所对应的音素序列满足以下条件的单词,作为目标单词对应的模糊词:①所对应的音素序列包括第一预设类型音素,且该第一预设类型音素在该音素序列中的位置,与基准序列中的第一预设类型音素在基准序列中的位置相同;②该音素序列中除第一预设类型以外的音素组成的第一音素序列,与基准序列中除第一预设类型以外的音素组成的第二音素序列相同。其中,第一预设类型音素可以由用户或者制造商根据实际需要进行设置,第一预设类型音素可以例如包括但不限于/e/、/a:/等难以区分的音素。
例如,目标单词为bed,其对应的音标为/bed/,对应的音素序列为/b/、/e/、/d/,其含有第一预设类型音素/e/,则可从发音词典的单词中选取单词bad(对应的音素序列为/b/、/d/),作为该目标单词bed的模糊词。
实施方式三:针对所对应的首个或最后一个音素为清辅音的单词
在该情况下,在对语音信息进行识别时可能存在该单词的清辅音音素被忽略而导致识别结果不准确的问题,例如,单词bite容易被误识别为单词buy,因而若目标单词对应的音素序列的第一个音素和/或最后一个音素为第二预设类型音素,则将该音素序列中除该第二预设类型音素以外的音素整合为新的音素序列,从发音词典的单词中,选取所对应的音素序列与该新的音素序列相同的单词,作为目标单词对应的模糊词。其中,第二预设类型音素可由用户或者制造商根据需要进行设置,第二预设类型音素可以例如包括但不限于清辅音音素,如/p/、/t/、/k/、/s/、/f/等。
例如,目标单词为bite,其对应的音标为/bait/,对应的音素序列为/b/、/ai/、/t/,其最后一个音素为第二预设类型音素,则将除音素/t/以外的音素整合成新的音素序列/b/、/ai/,从发音词典中选取与该新的音素序列相同的单词buy作为目标单词bite对应的模糊词。
在步骤S203中,输出目标单词以及目标单词对应的模糊词。
在一种可选的实施方式中,可以输出目标单词以及目标单词对应的所有模糊词。
在另一种可选的实施方式中,考虑到目标单词可能对应大量模糊词,若输出所有的模糊词供用户选择,会在一定程度上影响用户体验,因此,可根据预设优先级对目标单词对应的模糊词进行排序,若目标单词对应的模糊词的数量大于预设数量,则根据排序结果,从目标单词对应的所有模糊词中筛选预设数量的模糊词,并输出目标单词以及筛选出的模糊词;若目标单词对应的模糊词的数量小于或等于预设数量,则根据排序结果输出目标单词以及目标单词对应的所有模糊词。例如,可对目标单词对应的所有模糊词按照预设优先级从高到低的顺序降序排列,若模糊词的数量大于预设数量N,则根据排序结果,筛选出前N位的模糊词并输出显示目标单词以及这N个模糊词。可选地,也可以对目标单词对应的所有模糊词按照预设优先级从低到高的顺序升序排列,若模糊词的数量大于预设数量N,则根据排序结果,筛选出后N位的模糊词并输出显示目标单词以及这N个模糊词。
其中,预设数量和预设优先级可以由用户或者制造商根据需要预先设置的,预设数量可以例如为10~20之间的任意整数,预设优先级可以例如包括:①根据上述第一种实施方式确定的模糊词(即与目标单词发音相同的模糊词)>根据其他实施方式确定的模糊词;②对于根据上述第二种实施方式确定的模糊词,对于含有音素/e/的目标单词,其含有音素的模糊词>含有音素/a:/的模糊词;③日常生活中出现频率较高的模糊词>日常生活中出现频率较低的模糊词等。
值得说明的是,若上述实施例所述的语音信息处理方法由用户终端实施,则用户终端的处理单元可将目标单词以及目标单词对应的模糊词输出至用户终端的显示装置(如显示屏)进行显示,以供用户从这些单词中选取出正确的单词;若上述实施例所述的语音信息处理方法由服务器实施,则服务器可将目标单词以及目标单词对应的模糊词发送给与服务器通信连接的用户终端,由用户终端显示目标单词及其对应的模糊词,以供用户从这些单词中选取出正确的单词。
通过上述语音信息处理方法,基于语音识别技术确定采集到的语音信息对应的文本信息,将文本信息中的单词作为目标单词,根据目标单词对应的音素序列和预先设置的发音词典,确定目标单词对应的模糊词,并输出目标单词以及目标单词对应的模糊词,供用户选择,这样,可以解决现有的语音识别技术对同音、发音易混等单词识别不准确的问题,提升用户体验。
本公开实施例还提供一种信息处理装置,该装置可应用于图1所示的用户终端10或者服务器20。参见图3,图3是根据一示例性实施例示出的一种语音信息处理装置的框图,该装置300包括:
第一确定模块301,被配置为基于语音识别技术,确定采集到的语音信息对应的文本信息,所述文本信息包括单词;
第二确定模块302,被配置为将所述文本信息中的单词作为目标单词,根据所述目标单词对应的音素序列和预先设置的发音词典,确定所述目标单词对应的模糊词,其中,所述发音词典包括多个单词以及每一单词对应的音素序列;
输出模块303,被配置为输出所述目标单词以及所述目标单词对应的模糊词。
可选地,如图4所示,所述第二确定模块302包括:
第一选取子模块321,被配置为从所述发音词典的单词中选取所对应的音素序列与所述目标单词对应的音素序列相同的单词,作为所述目标单词对应的模糊词。
可选地,如图4所示,所述第二确定模块302包括:
第二选取子模块322,被配置为在所述目标单词对应的音素序列包括第一预设类型音素时,以所述目标单词对应的音素序列为基准序列,从所述发音词典的单词中选取所对应的音素序列满足以下条件的单词,作为所述目标单词对应的模糊词:
所对应的音素序列包括所述第一预设类型音素,且所述第一预设类型音素在该音素序列中的位置,与所述基准序列中的所述第一预设类型音素在所述基准序列中的位置相同;
该音素序列中除所述第一预设类型音素以外的音素组成的第一音素序列,与所述基准序列中除所述第一预设类型音素以外的音素组成的第二音素序列相同。
可选地,如图4所示,所述第二确定模块302包括:
第三选取子模块323,被配置为在所述目标单词对应的音素序列的第一个音素和/或最后一个音素为第二预设类型音素时,将该音素序列中除所述第二预设类型音素以外的音素整合为新的音素序列,从所述发音词典的单词中,选取所对应的音素序列与该新的音素序列相同的单词,作为所述目标单词对应的模糊词。
可选地,如图4所示,所述输出模块303包括:
排序子模块331,被配置为根据预设优先级对所述目标单词对应的模糊词进行排序;
第一输出子模块332,被配置为在所述目标单词对应的模糊词的数量大于预设数量时,根据排序结果,从所述目标单词对应的所有模糊词中筛选所述预设数量的模糊词,输出所述目标单词以及筛选出的模糊词;
第二输出子模块333,被配置为在所述目标单词对应的模糊词的数量小于或等于所述预设数量时,根据所述排序结果输出所述目标单词以及所述目标单词对应的所有模糊词。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
另外,本领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
采用上述语音识别装置,基于语音识别技术确定采集到的语音信息对应的文本信息,将文本信息中的单词作为目标单词,根据目标单词对应的音素序列和预先设置的发音词典,确定目标单词对应的模糊词,并输出目标单词以及目标单词对应的模糊词,供用户选择,这样,可以解决现有的语音识别技术对同音、发音易混等单词识别不准确的问题,提升用户体验。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的语音信息处理方法的步骤。
本公开还提供一种语音信息处理装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为实现本公开提供的语音信息处理方法的步骤。
图5是根据一示例性实施例示出的一种用于语音信息处理方法的装置500的框图。例如,装置500可以被提供为用户终端。例如,装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电力组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的语音信息处理方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件506为装置500的各种组件提供电力。电力组件506可以包括电源管理***,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到装置500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WiFi,2G,3G,4G,5G或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述语音信息处理方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述语音信息处理方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图6是根据一示例性实施例示出的一种用于语音信息处理方法的装置600的框图。例如,装置600可以被提供为一服务器。参照图6,装置600包括处理组件622,其进一步包括一个或多个处理器,以及由存储器632所代表的存储器资源,用于存储可由处理组件622的执行的指令,例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行上述语音信息处理方法。
装置600还可以包括一个电源组件626被配置为执行装置600的电源管理,一个有线或无线网络接口650被配置为将装置600连接到网络,和一个输入输出(I/O)接口658。装置600可以操作基于存储在存储器632的操作***,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种语音信息处理方法,其特征在于,包括:
基于语音识别技术,确定采集到的语音信息对应的文本信息,所述文本信息包括单词;
将所述文本信息中的单词作为目标单词,根据所述目标单词对应的音素序列和预先设置的发音词典,确定所述目标单词对应的模糊词,其中,所述发音词典包括多个单词以及每一单词对应的音素序列;
输出所述目标单词以及所述目标单词对应的模糊词。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标单词对应的音素序列和预先设置的发音词典,确定所述目标单词对应的模糊词,包括:
从所述发音词典的单词中选取所对应的音素序列与所述目标单词对应的音素序列相同的单词,作为所述目标单词对应的模糊词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标单词对应的音素序列和预先设置的发音词典,确定所述目标单词对应的模糊词,包括:
若所述目标单词对应的音素序列包括第一预设类型音素,则以所述目标单词对应的音素序列为基准序列,从所述发音词典的单词中选取所对应的音素序列满足以下条件的单词,作为所述目标单词对应的模糊词:
所对应的音素序列包括所述第一预设类型音素,且所述第一预设类型音素在该音素序列中的位置,与所述基准序列中的所述第一预设类型音素在所述基准序列中的位置相同;
该音素序列中除所述第一预设类型音素以外的音素组成的第一音素序列,与所述基准序列中除所述第一预设类型音素以外的音素组成的第二音素序列相同。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标单词对应的音素序列和预先设置的发音词典,确定所述目标单词对应的模糊词,包括:
若所述目标单词对应的音素序列的第一个音素和/或最后一个音素为第二预设类型音素,则将该音素序列中除所述第二预设类型音素以外的音素整合为新的音素序列,从所述发音词典的单词中,选取所对应的音素序列与该新的音素序列相同的单词,作为所述目标单词对应的模糊词。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述输出所述目标单词以及所述目标单词对应的模糊词,包括:
根据预设优先级对所述目标单词对应的模糊词进行排序;
若所述目标单词对应的模糊词的数量大于预设数量,则根据排序结果,从所述目标单词对应的所有模糊词中筛选所述预设数量的模糊词,输出所述目标单词以及筛选出的模糊词;
若所述目标单词对应的模糊词的数量小于或等于所述预设数量,则根据所述排序结果输出所述目标单词以及所述目标单词对应的所有模糊词。
6.一种语音信息处理装置,其特征在于,包括:
第一确定模块,被配置为基于语音识别技术,确定采集到的语音信息对应的文本信息,所述文本信息包括单词;
第二确定模块,被配置为将所述文本信息中的单词作为目标单词,根据所述目标单词对应的音素序列和预先设置的发音词典,确定所述目标单词对应的模糊词,其中,所述发音词典包括多个单词以及每一单词对应的音素序列;
输出模块,被配置为输出所述目标单词以及所述目标单词对应的模糊词。
7.根据权利要求8所述的装置,其特征在于,所述第二确定模块包括:
第一选取子模块,被配置为从所述发音词典的单词中选取所对应的音素序列与所述目标单词对应的音素序列相同的单词,作为所述目标单词对应的模糊词。
8.根据权利要求8所述的装置,其特征在于,所述第二确定模块包括:
第二选取子模块,被配置为在所述目标单词对应的音素序列包括第一预设类型音素时,以所述目标单词对应的音素序列为基准序列,从所述发音词典的单词中选取所对应的音素序列满足以下条件的单词,作为所述目标单词对应的模糊词:
所对应的音素序列包括所述第一预设类型音素,且所述第一预设类型音素在该音素序列中的位置,与所述基准序列中的所述第一预设类型音素在所述基准序列中的位置相同;
该音素序列中除所述第一预设类型音素以外的音素组成的第一音素序列,与所述基准序列中除所述第一预设类型音素以外的音素组成的第二音素序列相同。
9.根据权利要求8所述的装置,其特征在于,所述第二确定模块包括:
第三选取子模块,被配置为在所述目标单词对应的音素序列的第一个音素和/或最后一个音素为第二预设类型音素时,将该音素序列中除所述第二预设类型音素以外的音素整合为新的音素序列,从所述发音词典的单词中,选取所对应的音素序列与该新的音素序列相同的单词,作为所述目标单词对应的模糊词。
10.根据权利要求6至9中任一项所述的装置,其特征在于,所述输出模块包括:
排序子模块,被配置为根据预设优先级对所述目标单词对应的模糊词进行排序;
第一输出子模块,被配置为在所述目标单词对应的模糊词的数量大于预设数量时,根据排序结果,从所述目标单词对应的所有模糊词中筛选所述预设数量的模糊词,输出所述目标单词以及筛选出的模糊词;
第二输出子模块,被配置为在所述目标单词对应的模糊词的数量小于或等于所述预设数量时,根据所述排序结果输出所述目标单词以及所述目标单词对应的所有模糊词。
11.一种语音信息处理装置,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
基于语音识别技术,确定采集到的语音信息对应的文本信息,所述文本信息包括单词;
将所述文本信息中的单词作为目标单词,根据所述目标单词对应的音素序列和预先设置的发音词典,确定所述目标单词对应的模糊词,其中,所述发音词典包括多个单词以及每一单词对应的音素序列;
输出所述目标单词以及所述目标单词对应的模糊词。
12.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910848567.7A CN112562675B (zh) | 2019-09-09 | 2019-09-09 | 语音信息处理方法、装置及存储介质 |
PCT/CN2019/111308 WO2021046958A1 (zh) | 2019-09-09 | 2019-10-15 | 语音信息处理方法、装置及存储介质 |
RU2019143666A RU2733816C1 (ru) | 2019-09-09 | 2019-10-15 | Способ обработки речевой информации, устройство и запоминающий носитель информации |
KR1020197032746A KR102334299B1 (ko) | 2019-09-09 | 2019-10-15 | 음성 정보 처리 방법, 장치, 프로그램 및 저장 매체 |
JP2019562645A JP7116088B2 (ja) | 2019-09-09 | 2019-10-15 | 音声情報処理方法、装置、プログラム及び記録媒体 |
US16/714,790 US11270693B2 (en) | 2019-09-09 | 2019-12-15 | Speech information processing method, device and storage medium |
EP20151035.1A EP3790001B1 (en) | 2019-09-09 | 2020-01-09 | Speech information processing method, device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910848567.7A CN112562675B (zh) | 2019-09-09 | 2019-09-09 | 语音信息处理方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112562675A true CN112562675A (zh) | 2021-03-26 |
CN112562675B CN112562675B (zh) | 2024-05-24 |
Family
ID=69157636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910848567.7A Active CN112562675B (zh) | 2019-09-09 | 2019-09-09 | 语音信息处理方法、装置及存储介质 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11270693B2 (zh) |
EP (1) | EP3790001B1 (zh) |
JP (1) | JP7116088B2 (zh) |
KR (1) | KR102334299B1 (zh) |
CN (1) | CN112562675B (zh) |
RU (1) | RU2733816C1 (zh) |
WO (1) | WO2021046958A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053362A (zh) * | 2021-03-30 | 2021-06-29 | 建信金融科技有限责任公司 | 语音识别的方法、装置、设备和计算机可读介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489657A (zh) * | 2020-12-04 | 2021-03-12 | 宁夏新航信息科技有限公司 | 一种数据分析***与数据分析方法 |
CN113409767B (zh) * | 2021-05-14 | 2023-04-25 | 北京达佳互联信息技术有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
CN113689882A (zh) * | 2021-08-24 | 2021-11-23 | 上海喜马拉雅科技有限公司 | 发音评测方法、装置、电子设备及可读存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7062436B1 (en) * | 2003-02-11 | 2006-06-13 | Microsoft Corporation | Word-specific acoustic models in a speech recognition system |
CN201054644Y (zh) * | 2006-07-25 | 2008-04-30 | 陈修志 | 具有语音识别及翻译功能的移动终端 |
US20080270138A1 (en) * | 2007-04-30 | 2008-10-30 | Knight Michael J | Audio content search engine |
US20090157383A1 (en) * | 2007-12-18 | 2009-06-18 | Samsung Electronics Co., Ltd. | Voice query extension method and system |
CN103677729A (zh) * | 2013-12-18 | 2014-03-26 | 北京搜狗科技发展有限公司 | 一种语音输入方法和*** |
CN105243143A (zh) * | 2015-10-14 | 2016-01-13 | 湖南大学 | 基于即时语音内容检测的推荐方法及*** |
US20160155436A1 (en) * | 2014-12-02 | 2016-06-02 | Samsung Electronics Co., Ltd. | Method and apparatus for speech recognition |
WO2017114172A1 (zh) * | 2015-12-29 | 2017-07-06 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
CN107665705A (zh) * | 2017-09-20 | 2018-02-06 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
US20180182376A1 (en) * | 2016-12-22 | 2018-06-28 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN108417202A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语音识别方法及*** |
CN109493846A (zh) * | 2018-11-18 | 2019-03-19 | 深圳市声希科技有限公司 | 一种英语口音识别*** |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6363342B2 (en) | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
KR100318762B1 (ko) * | 1999-10-01 | 2002-01-04 | 윤덕용 | 외래어 음차표기의 음성적 거리 계산방법 |
JP2002215184A (ja) * | 2001-01-19 | 2002-07-31 | Casio Comput Co Ltd | 音声認識装置、及びプログラム |
US7590533B2 (en) * | 2004-03-10 | 2009-09-15 | Microsoft Corporation | New-word pronunciation learning using a pronunciation graph |
JP4604178B2 (ja) | 2004-11-22 | 2010-12-22 | 独立行政法人産業技術総合研究所 | 音声認識装置及び方法ならびにプログラム |
US8201087B2 (en) * | 2007-02-01 | 2012-06-12 | Tegic Communications, Inc. | Spell-check for a keyboard system with automatic correction |
US8560318B2 (en) * | 2010-05-14 | 2013-10-15 | Sony Computer Entertainment Inc. | Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event |
JP2013125144A (ja) | 2011-12-14 | 2013-06-24 | Nippon Hoso Kyokai <Nhk> | 音声認識装置およびそのプログラム |
US9135912B1 (en) | 2012-08-15 | 2015-09-15 | Google Inc. | Updating phonetic dictionaries |
US9293129B2 (en) * | 2013-03-05 | 2016-03-22 | Microsoft Technology Licensing, Llc | Speech recognition assisted evaluation on text-to-speech pronunciation issue detection |
US9196246B2 (en) * | 2013-06-14 | 2015-11-24 | Mitsubishi Electric Research Laboratories, Inc. | Determining word sequence constraints for low cognitive speech recognition |
CN107195296B (zh) * | 2016-03-15 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及*** |
CN109841209A (zh) * | 2017-11-27 | 2019-06-04 | 株式会社速录抓吧 | 语音识别设备和*** |
US10839159B2 (en) * | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
-
2019
- 2019-09-09 CN CN201910848567.7A patent/CN112562675B/zh active Active
- 2019-10-15 JP JP2019562645A patent/JP7116088B2/ja active Active
- 2019-10-15 WO PCT/CN2019/111308 patent/WO2021046958A1/zh active Application Filing
- 2019-10-15 KR KR1020197032746A patent/KR102334299B1/ko active IP Right Grant
- 2019-10-15 RU RU2019143666A patent/RU2733816C1/ru active
- 2019-12-15 US US16/714,790 patent/US11270693B2/en active Active
-
2020
- 2020-01-09 EP EP20151035.1A patent/EP3790001B1/en active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7062436B1 (en) * | 2003-02-11 | 2006-06-13 | Microsoft Corporation | Word-specific acoustic models in a speech recognition system |
CN201054644Y (zh) * | 2006-07-25 | 2008-04-30 | 陈修志 | 具有语音识别及翻译功能的移动终端 |
US20080270138A1 (en) * | 2007-04-30 | 2008-10-30 | Knight Michael J | Audio content search engine |
US20090157383A1 (en) * | 2007-12-18 | 2009-06-18 | Samsung Electronics Co., Ltd. | Voice query extension method and system |
CN103677729A (zh) * | 2013-12-18 | 2014-03-26 | 北京搜狗科技发展有限公司 | 一种语音输入方法和*** |
US20160155436A1 (en) * | 2014-12-02 | 2016-06-02 | Samsung Electronics Co., Ltd. | Method and apparatus for speech recognition |
CN105243143A (zh) * | 2015-10-14 | 2016-01-13 | 湖南大学 | 基于即时语音内容检测的推荐方法及*** |
WO2017114172A1 (zh) * | 2015-12-29 | 2017-07-06 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
US20180182376A1 (en) * | 2016-12-22 | 2018-06-28 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN107665705A (zh) * | 2017-09-20 | 2018-02-06 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
CN108417202A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语音识别方法及*** |
CN109493846A (zh) * | 2018-11-18 | 2019-03-19 | 深圳市声希科技有限公司 | 一种英语口音识别*** |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053362A (zh) * | 2021-03-30 | 2021-06-29 | 建信金融科技有限责任公司 | 语音识别的方法、装置、设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
RU2733816C1 (ru) | 2020-10-07 |
WO2021046958A1 (zh) | 2021-03-18 |
US11270693B2 (en) | 2022-03-08 |
JP2022503255A (ja) | 2022-01-12 |
KR102334299B1 (ko) | 2021-12-06 |
KR20210032875A (ko) | 2021-03-25 |
JP7116088B2 (ja) | 2022-08-09 |
EP3790001B1 (en) | 2023-07-12 |
EP3790001A1 (en) | 2021-03-10 |
CN112562675B (zh) | 2024-05-24 |
US20210074273A1 (en) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112562675B (zh) | 语音信息处理方法、装置及存储介质 | |
EP3133532A1 (en) | Method and device for training classifier and recognizing a type of information | |
CN110874145A (zh) | 一种输入方法、装置及电子设备 | |
CN111831806B (zh) | 语义完整性确定方法、装置、电子设备和存储介质 | |
CN109961791B (zh) | 一种语音信息处理方法、装置及电子设备 | |
CN109558599B (zh) | 一种转换方法、装置和电子设备 | |
CN109002184A (zh) | 一种输入法候选词的联想方法和装置 | |
CN110069143B (zh) | 一种信息防误纠方法、装置和电子设备 | |
CN112735396A (zh) | 语音识别纠错方法、装置及存储介质 | |
CN113936697B (zh) | 语音处理方法、装置以及用于语音处理的装置 | |
CN105913841B (zh) | 语音识别方法、装置及终端 | |
CN110930977B (zh) | 一种数据处理方法、装置和电子设备 | |
CN112331194A (zh) | 一种输入方法、装置和电子设备 | |
CN110908523A (zh) | 一种输入方法及装置 | |
CN117642817A (zh) | 识别音频数据类别的方法、装置及存储介质 | |
CN114550691A (zh) | 一种多音字消歧方法、装置、电子设备及可读存储介质 | |
CN113035189A (zh) | 一种文档演示的控制方法、装置和设备 | |
CN111831132A (zh) | 一种信息推荐方法、装置和电子设备 | |
US20230196001A1 (en) | Sentence conversion techniques | |
CN113807082B (zh) | 一种目标用户确定方法、装置和用于确定目标用户的装置 | |
CN111258991B (zh) | 一种数据处理方法、装置及存储介质 | |
CN114740985A (zh) | 一种功能调用方法、装置和用于调用功能的装置 | |
CN113342183A (zh) | 一种输入方法、装置和用于输入的装置 | |
CN112668340A (zh) | 一种信息处理方法及装置 | |
CN117636861A (zh) | 设备的唤醒方法、装置、电子设备、可读存储介质及芯片 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |