CN110444205B - 一种语音识别的调整方法和装置 - Google Patents
一种语音识别的调整方法和装置 Download PDFInfo
- Publication number
- CN110444205B CN110444205B CN201910676314.6A CN201910676314A CN110444205B CN 110444205 B CN110444205 B CN 110444205B CN 201910676314 A CN201910676314 A CN 201910676314A CN 110444205 B CN110444205 B CN 110444205B
- Authority
- CN
- China
- Prior art keywords
- voice
- identification
- candidate
- recognition
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000004044 response Effects 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 abstract description 6
- 238000012937 correction Methods 0.000 abstract description 3
- 240000000467 Carum carvi Species 0.000 description 7
- 235000005747 Carum carvi Nutrition 0.000 description 7
- WHGYBXFWUBPSRW-FOUAGVGXSA-N beta-cyclodextrin Chemical compound OC[C@H]([C@H]([C@@H]([C@H]1O)O)O[C@H]2O[C@@H]([C@@H](O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O3)[C@H](O)[C@H]2O)CO)O[C@@H]1O[C@H]1[C@H](O)[C@@H](O)[C@@H]3O[C@@H]1CO WHGYBXFWUBPSRW-FOUAGVGXSA-N 0.000 description 7
- 244000062250 Kaempferia rotunda Species 0.000 description 4
- 235000013422 Kaempferia rotunda Nutrition 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- MWOOGOJBHIARFG-UHFFFAOYSA-N vanillin Chemical compound COC1=CC(C=O)=CC=C1O MWOOGOJBHIARFG-UHFFFAOYSA-N 0.000 description 2
- FGQOOHJZONJGDT-UHFFFAOYSA-N vanillin Natural products COC1=CC(O)=CC(C=O)=C1 FGQOOHJZONJGDT-UHFFFAOYSA-N 0.000 description 2
- 235000012141 vanillin Nutrition 0.000 description 2
- 244000018436 Coriandrum sativum Species 0.000 description 1
- 235000002787 Coriandrum sativum Nutrition 0.000 description 1
- 244000131316 Panax pseudoginseng Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语音识别的调整方法及装置,所述方法包括:步骤101,接收用户发出的第一语音;步骤102,基于所述第一语音确定至少一个候选识别结果,基于第一识别策略从所述至少一个候选识别结果中选择一个候选识别结果形成第一语音识别结果;步骤103,接收用户发出的第二语音;步骤104,响应于所述第二语音,基于所述第二识别策略从所述至少一个候选识别结果中的其它候选识别结果中选择一个候选识别结果形成第二语音识别结果;其中,所述第二识别策略不同于所述第一识别策略。通过本发明的方法,能够提供更加准确的语音识别结果,加快了语音识别的修正过程,降低了语音识别的错误率,提升了用户体验。
Description
技术领域
本发明实施例涉及语音交互领域,特别涉及一种语音识别的调整方法和装置。
背景技术
近年来,随着语音识别技术的发展,越来越多的用户开始利用语音与手机进行交互。然而,由于存在很多同音字或同音词,也有一些字或词的发音很类似,导致语音识别的结果存在不准确的情况。此外,还有一些用户在语音识别中发音不准确导致语音识别结果不准确。针对上述情况,可以对语音识别的结果进行调整,例如,在首次识别时,将识别结果中排在第一位的识别结果提供给用户,响应于用户重复语音指令,将上述识别结果中的其他结果如排在第二位的识别结果提供给用户。
然而,在上述语音识别的调整过程中,采用了固定的语音识别策略,即无论是首次识别,还是后续识别,识别结果的排序并不会发生变化,从而导致语音识别结果的调整效果较差,严重影响了用户体验。
发明内容
针对现有技术中的问题,本发明提供一种语音识别的调整方法和装置。
本发明提供一种语音识别的调整方法,所述方法包括:
步骤101,接收用户发出的第一语音;
步骤102,基于所述第一语音确定至少一个候选识别结果,基于第一识别策略从所述至少一个候选识别结果中选择一个候选识别结果形成第一语音识别结果;
步骤103,接收用户发出的第二语音;
步骤104,响应于所述第二语音,基于所述第二识别策略从所述至少一个候选识别结果中的其它候选识别结果中选择一个候选识别结果形成第二语音识别结果;其中,所述第二识别策略不同于所述第一识别策略。
本发明提供一种语音识别的调整装置,所述装置包括:
语音接收单元,用于接收用户发出的第一语音;
语音识别单元,用于基于所述第一语音确至少一个候选识别结果,基于第一识别策略从所述至少一个候选识别结果中选择一个候选识别结果形成第一语音识别结果;
所述语音接收单元,还用于接收用户发出的第二语音;
语音识别单元,还用于响应于所述第二语音,基于所述第二识别策略从所述至少一个候选识别结果中的其它候选识别结果中选择一个候选识别结果形成第二语音识别结果;其中,所述第二识别策略不同于所述第一识别策略。
本发明提供一种语音识别的调整装置,其特征在于,所述装置包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如上所述的方法。
本发明提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。
通过本发明的方法和装置,在识别出需要对语音识别结果进行修正时,采用不同与第一识别策略的第二识别策略,从而能够提供更加准确的语音识别结果,加快了语音识别的修正过程,降低了语音识别的错误率,提升了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一个实施例中的语音识别的调整方法。
图2是本发明一个实施例中的语音识别的调整装置。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明,而非对本发明说明书技术方案的限定,在不冲突的情况下,本发明的实施例以及实施例的技术特征可以相互结合。
以下对本发明的语音识别的调整方法进行说明,参见图1,所述方法包括如下步骤:
步骤101,接收用户发出的第一语音;
步骤102,基于所述第一语音确定至少一个候选识别结果,基于第一识别策略从所述至少一个候选识别结果中选择一个候选识别结果形成第一语音识别结果;
步骤103,接收用户发出的第二语音;
步骤104,响应于所述第二语音,基于第二识别策略从所述至少一个候选识别结果中的其它候选识别结果中选择一个候选识别结果形成第二语音识别结果;其中,所述第二识别策略不同于所述第一识别策略。
优选的,本发明的语音识别的调整方法可以应用于任何装置或设备,如车辆、移动终端、智能家居设备等,本发明的语音识别的调整方法可以用于任何需要进行语音识别的应用程序、APP、小程序中,如支持语音输入的输入法、语音助手等。
优选的,步骤101中的第一语音、步骤103中的第二语音可以是一个词,或者一句完整的话。
优选的,在步骤102中,基于所述第一语音确定至少一个候选识别结果,其中,所述至少一个候选识别结果的发音与所述第一语音相同或类似,例如第一语音为“rénshēng”时,候选识别结果可包括“人生”、“人声”、“人参”、“人身”、“认生”、“妊娠”等。
优选的,在步骤102中,对所述第一语音进行分词得到至少一个词,针对上述至少一个词中的每个词,均识别得到至少一个候选识别结果,基于第一识别策略,针对上述每个词从其对应的至少一个候选识别结果中选择一个候选识别结果,将为上述至少一个词中的每一个词所选择出的候选识别结果组合形成第一语音识别结果。例如,第一语音为“wǒxǐhuānxiāngcài”,则分词得到三个词,分别是“wǒ”、“xǐhuān”、“xiāngcài”,针对第一个词“wǒ”,识别得到一个候选识别结果“我”,针对第二个词“xǐhuān”,识别得到一个候选识别结果“喜欢”,针对第三个词“xiāngcài”,识别得到四个候选识别结果“湘菜”、“香菜”、“香奈儿”、“香袋”,则根据第一识别策略(例如,基于用户使用频率的识别策略),针对上述三个词均选择一个候选识别结果,“wǒ”、“xǐhuān”分别只有一个候选识别结果,因此,选择出的候选识别结果分别为“我”、“喜欢”,对于“xiāngcài”,假设当前用户对“xiāngcài”的四个候选识别结果的使用频率从高到低分别是“湘菜”、“香菜”、“香奈儿”、“香袋”,则选择出的候选识别结果是“湘菜”,基于上述选择结果,组合形成第一语音识别结果“我喜欢湘菜”。
优选的,在步骤102之后,还包括步骤1021,将第一语音识别结果提供给用户,例如,显示第一语音识别结果,和/或,播放所述第一语音识别结果。在另一个实施例中,步骤1021还可以包括执行第一语音识别结果,例如第一语音为“dǎohang dàoxuéyuànlù”,对应的第一语音识别结果为“导航到学院路”,则播放所述第一语音识别结果的同时执行所述第一语音识别结果,即将目的地设置为学院路并导航。
优选的,在步骤1021执行完毕后执行步骤103。
优选的,在步骤1021的执行过程中执行步骤103。例如,在第一语音为“dǎohang dàoxuéyuànlù”,对应的第一语音识别结果为“导航到学院路”的实施例中,装置或设备在播放上述第一语音识别结果的过程中,用户通过显示在装置或设备上的第一语音识别结果发现语音识别发生了错误,则发出第二语音,此时,装置或设备接收第二语音,并且中断执行所述第一语音识别结果。
优选的,在步骤104中,响应于第二语音,基于第二识别策略从所述至少一个候选识别结果中的其它候选识别结果中选择一个候选识别结果形成第二语音识别结果,具体为:判断所述第二语音是否为所述第一语音的修正语音,响应于所述第二语音为所述第一语音的修正语音,基于第二识别策略从所述至少一个候选识别结果中的其它候选识别结果中选择一个候选识别结果形成第二语音识别结果。
优选的,响应于所述第二语音不为所述第一语音的修正语音,即第二语音为独立于第一语音的语音,对其进行如第一语音的识别过程,即基于所述第二语音确定至少一个候选识别结果,基于第一识别策略从所述至少一个候选识别结果中选择一个候选识别结果形成语音识别结果。
优选的,判断所述第二语音是否为所述第一语音的修正语音,具体为:判断所述第二语音是否为否定语音,如果是,则第二语音为所述第一语音的修正语音。例如,第二语音为“búduì”、“cuòle”。
优选的,判断所述第二语音是否为所述第一语音的修正语音,具体为:判断所述第二语音是否与第一语音重复,如果是,则所述第二语音为所述第一语音的修正语音,所述重复可以为全部重复,如第一语音为“xiāngcài”,第二指令也为“xiāngcài”,所述重复也可以为部分重复,第二语音为第一语音的部分语音,即第二语音为第一语音识别结果中需要修正的部分所对应的语音,如第一语音为“wǒxǐhuānxiāngcài”,用户本意是“我喜欢香菜”,但第一语音识别结果为“我喜欢湘菜”,此时,第二语音可以为“xiāngcài”。
优选的,判断所述第二语音是否为所述第一语音的修正语音,具体为:判断所述第二语音是否包括否定语音和重复语音,如果是,则所述第二语音为所述第一语音的修正语音。其中,所述否定语音例如可以为“búduì”、“cuòle”,所述重复语音为所述第一语音的全部重复或部分重复。例如,第一语音为“dǎohang dàoxuéyuànlù”,第二语音为“búduì,dǎohang dàoxuéyuànlù”或“búduì,xuéyuànlù”时,则第二语音是第一语音的修正语音,第二语音为“búduì,dǎohang dàoxuéqīnglù”,则第二语音不是第一语音的修正语音,这是因为该种情况实质上是用户在说出语音指令时发生了口误,或者用户在说出第一语音后改变了主意,其中的“búduì”是对第一语音的否定,而并非是对第一语音识别结果的否定。可见,本发明判断第二语音是否为所述第一语音的修正语音的方法能够更加准确的识别用户的意图,提升了用户体验。
优选的,在步骤104中,仅针对所述第二语音中的重复语音执行基于第二识别策略从所述至少一个候选识别结果中的其它候选识别结果中选择一个候选识别结果的操作,并基于上述选择出的候选识别结果和针对第一语音中的未重复语音在步骤102中所选择出的候选识别结果形成第二语音识别结果。其中,所述未重复语音是指所述第一语音中除去所述第二语音的重复语音的语音。例如,当第一语音为“dǎohang dàoxuéyuànlù”、第一语音识别结果为“导航到学院路”、第二语音为“búduì,xuéyuànlù”时,仅对重复语音“xuéyuànlù”执行基于第二识别策略的选择候选识别结果的过程,假设执行结果为“学苑路”,而对于第一语音中的未重复语音“dǎohangdào”不执行基于第二识别策略从所述至少一个候选识别结果中的其它候选识别结果中选择一个候选识别结果的操作,而仍然使用其在步骤102中选择出的候选识别结果“导航到”,因此,第二语音识别结果为“导航到学苑路”。
优选的,步骤102中,基于第一识别策略从所述至少一个候选识别结果中选择一个候选识别结果形成第一语音识别结果,具体为:基于第一识别策略对所述至少一个候选识别结果中的每一个进行评估得到对应的第一评估值,基于所述第一评估值选择一个候选识别结果形成第一语音识别结果。例如,第一语音为“wǒxǐhuānxiāngcài”时,针对第三个词“xiāngcài”识别得到的四个候选识别结果“湘菜”、“香菜”、“香奈儿”、“香袋”,根据基于用户使用频率的识别策略,评估得到对应的第一评估值为10、9、8、7,则选择第一评估值最高的候选识别结果,即选择“湘菜”。
优选的,步骤104中,基于第二识别策略从所述至少一个候选识别结果中的其它候选识别结果中选择一个候选识别结果形成第二语音识别结果,具体为:基于第二识别策略对所述至少一个候选识别结果中的其它候选识别结果中的每一个进行评估得到对应的第二评估值,基于所述第二评估值从所述其他候选识别结果中选择一个候选识别结果形成第二语音识别结果。例如,在第一语音为“wǒxǐhuānxiāngcài”的场景中,若第二语音为“búduì,xiāngcài”,假设第二识别策略为基于用户画像的识别策略,且基于用户画像可知该用户不喜欢香菜、喜欢香奈儿的包,则针对除“湘菜”外的其余三个候选识别结果“香菜”、“香奈儿”、“香袋”,基于第二识别策略进行评估,得到第二评估值为7、10、7,则选择“香奈儿”作为候选识别结果,进而形成第二语音识别结果“我喜欢香奈儿”。
优选的,所述第二评估值为基于第二识别策略在第一评估值的基础上调整得到。例如,“香菜”、“香奈儿”、“香袋”的第一评估值为9、8、7,基于第二识别策略,对香菜的第一评估值减2得到第二评估值,对香奈儿的第一评估值加2,得到上述三个候选识别结果的第二评估值为7、10、7。
优选的,步骤104中,其他候选识别结果为不同于构成所述第一语音识别结果的候选识别结果。
优选的,所述第一识别策略和所述第二识别策略选自识别策略集合,所述识别策略集合中包括至少两个识别策略。
优选的,所述第一识别策略可以为所述识别策略集合中的一个识别策略,第二识别策略可以为所述识别策略集合中的另一个识别策略。
优选的,所述第一识别策略可以综合所述识别策略集合中的至少两个识别策略;所述第二识别策略可以综合所述识别策略集合中的至少两个识别策略。所述第一识别策略所综合的至少两个识别策略中至少有一个和所述第二识别策略所中和的至少两个识别策略不同。
优选的,实时地对识别策略集合中的识别策略进行优先级的评估,基于所述优先级,从所述识别策略集合中选择第一识别策略和第二识别策略。例如,在对话开始初期,选择基于用户使用频率的识别策略作为第一识别策略,而在对话进行一段时间后,选择基于对话上下文的识别策略作为第一识别策略。
通过本发明的方法,在识别出需要对语音识别结果进行修正时,采用不同与第一识别策略的第二识别策略,从而能够提供更加准确地语音识别结果,加快了语音识别的修正过程,降低了语音识别的错误率,提升了用户体验。
本发明还提供一种语音识别的调整装置,参见图2,所述装置包括:
语音接收单元,用于接收用户发出的第一语音;
语音识别单元,用于基于所述第一语音确定至少一个候选识别结果,基于第一识别策略从所述至少一个候选识别结果中选择一个候选识别结果形成第一语音识别结果;
所述语音接收单元,还用于接收用户发出的第二语音;
语音识别单元,还用于响应于所述第二语音,基于所述第二识别策略从所述至少一个候选识别结果中的其它候选识别结果中选择一个候选识别结果形成第二语音识别结果;其中,所述第二识别策略不同于所述第一识别策略。
优选的,本发明的语音识别的调整装置可以应用于任何装置或设备,如车辆、移动终端、智能家居设备等,本发明的语音识别的自动调整装置可以应用于任何需要进行语音识别的应用程序、APP、小程序中,如支持语音输入的输入法、语音助手等。
优选的,第一语音和第二语音可以是一个词,或者一句完整的话。
优选的,所述至少一个候选识别结果的发音与所述第一语音相同或类似。
优选的,所述语音识别单元,还用于:对所述第一语音进行分词得到至少一个词,针对上述至少一个词中的每个词,均识别得到至少一个候选识别结果,基于第一识别策略,针对上述每个词从其对应的至少一个候选识别结果中选择一个候选识别结果,将为上述至少一个词中的每一个词所选择出的候选识别结果组合形成第一语音识别结果。
优选的,所述装置还包括:识别结果提供单元,用于将第一语音识别结果提供给用户。所述识别结果提供单元可以显示第一语音识别结果,和/或,播放所述第一语音识别结果。
优选的,所述装置还可以包括执行单元,用于执行第一语音识别结果。
优选的,在所述识别结果提供单元和/或所述执行单元执行其功能的过程中,所述语音接收单元接收用户发出的第二语音。
优选的,在所述识别结果提供单元和/或所述执行单元执行完其功能后,所述语音接收单元接收用户发出的第二语音。
优选的,所述语音识别单元,还用于:判断所述第二语音是否为所述第一语音的修正语音,响应于所述第二语音为所述第一语音的修正语音,基于所述第二识别策略从所述至少一个候选识别结果中的其它候选识别结果中选择一个候选识别结果形成第二语音识别结果。
优选的,所述语音识别单元,还用于:响应于所述第二语音不为所述第一语音的修正语音,即第二语音为独立于第一语音的语音,对其进行如第一语音的识别过程,即基于所述第二语音确定至少一个候选识别结果,基于第一识别策略从所述至少一个候选识别结果中选择一个候选识别结果形成语音识别结果。
优选的,所述判断所述第二语音是否为所述第一语音的修正语音,具体为以下之一:
判断所述第二语音是否为否定语音,如果是,则第二语音为所述第一语音的修正语音;
判断所述第二语音是否与第一语音重复,如果是,则所述第二语音为所述第一语音的修正语音;
判断所述第二语音是否包括否定语音和重复语音,如果是,则所述第二语音为所述第一语音的修正语音。
优选的,所述语音识别单元仅针对所述第二语音中的重复语音执行基于第二识别策略从所述至少一个候选识别结果中的其它候选识别结果中选择一个候选识别结果的操作,并基于上述选择出的候选识别结果和所述语音识别单元针对第一语音中的未重复语音所选择出的候选识别结果形成第二语音识别结果。其中,所述未重复语音是指所述第一语音中除去所述第二语音的重复语音的语音。
优选的,所述语音识别单元还用于基于第一识别策略对所述至少一个候选识别结果中的每一个进行评估得到对应的第一评估值,基于所述第一评估值选择一个候选识别结果形成第一语音识别结果。
优选的,所述语音识别单元还用于基于第二识别策略对所述至少一个候选识别结果中的其它候选识别结果中的每一个进行评估得到对应的第二评估值,基于所述第二评估值从所述其他候选识别结果中选择一个候选识别结果形成第二语音识别结果。
优选的,所述语音识别单元还用于基于第二识别策略在第一评估值的基础上调整得到所述第二评估值。
优选的,其他候选识别结果为不同于构成所述第一语音识别结果的候选识别结果。
优选的,所述装置还包括策略选择单元,用于从识别策略集合选择至少一个识别策略作为所述第一识别策略、第二识别策略。所述识别策略集合中包括至少两个识别策略。
优选的,所述策略选择单元,还用于:从所述识别策略集合选择一个识别策略作为所述第一识别策略,从所述识别策略集合选择另一个识别策略作为所述第二识别策略。
优选的,所述策略选择单元,还用于:综合所述识别策略集合中的至少两个识别策略作为所述第一识别策略、第二识别策略。所述第一识别策略所综合的至少两个识别策略中至少有一个和所述第二识别策略所中和的至少两个识别策略不同。
优选的,所述策略选择单元,还用于:实时地对识别策略集合中的识别策略进行优先级的评估,基于所述优先级,从识别策略集合选择至少一个识别策略作为所述第一识别策略、第二识别策略。例如,在对话开始初期,选择基于用户画像的识别策略作为第一识别策略,而在对话进行一段时间后,选择基于对话上下文的识别策略作为第一识别策略。
本发明提供一种语音识别的调整装置,其特征在于,所述装置包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如上所述的方法。
本发明提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。
以上说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范围。在具体实现时,本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少,在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。
尽管已经示出和描述了本发明的实施例,本领域技术人员应当理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同替换所限定,在未经创造性劳动所作的改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种语音识别的调整方法,其特征在于,所述方法包括:
接收用户发出的第一语音;
基于所述第一语音确定至少一个候选识别结果;
基于第一识别策略对所述至少一个候选识别结果中的每一个进行评估得到其第一评估值,基于所述第一评估值从所述至少一个候选识别结果中选择一个候选识别结果形成第一语音识别结果;其中,所述第一识别策略为识别策略集合中的识别策略,实时地对所述识别策略集合中的识别策略进行优先级的评估,基于所述优先级,从所述识别策略集合中选择第一识别策略;
接收用户发出的第二语音;
响应于第二语音,基于第二识别策略对所述基于第一语音确定的至少一个候选识别结果中的其它候选识别结果中的每一个进行评估得到其第二评估值,基于所述第二评估值从所述其它候选识别结果中选择一个候选识别结果形成第二语音识别结果;其中,所述第二识别策略为所述识别策略集合中不同于所述第一识别策略的识别策略,实时地对所述识别策略集合中的识别策略进行优先级的评估,基于所述优先级,从所述识别策略集合中选择第二识别策略;
其中,响应于第二语音,基于所述第二识别策略从所述至少一个候选识别结果中的其它候选识别结果中选择一个候选识别结果形成第二语音识别结果,具体为:判断所述第二语音是否为所述第一语音的修正语音,响应于所述第二语音为所述第一语音的修正语音,基于所述第二识别策略从所述至少一个候选识别结果中的其它候选识别结果中选择一个候选识别结果形成第二语音识别结果。
2.根据权利要求1所述的方法,其特征在于,
对所述第一语音进行分词得到至少一个词,针对上述至少一个词中的每个词,均识别得到至少一个候选识别结果,基于所述第一识别策略,针对上述每个词从所述至少一个候选识别结果中选择一个候选识别结果,将为上述至少一个词中的每一个词所选择出的候选识别结果组合形成第一语音识别结果。
3.根据权利要求1或2所述的方法,其特征在于,所述判断所述第二语音是否为所述第一语音的修正语音,具体为以下之一:
判断所述第二语音是否为否定语音,如果是,则第二语音为所述第一语音的修正语音;
判断所述第二语音是否与第一语音重复,如果是,则所述第二语音为所述第一语音的修正语音;
判断所述第二语音是否包括否定语音和重复语音,如果是,则所述第二语音为所述第一语音的修正语音。
4.一种语音识别的调整装置,其特征在于,所述装置包括:
语音接收单元,用于接收用户发出的第一语音;
语音识别单元,用于基于第一语音确定至少一个候选识别结果,基于第一识别策略对所述至少一个候选识别结果中的每一个进行评估得到其第一评估值,基于第一所述评估值从所述至少一个候选识别结果中选择一个候选识别结果形成第一语音识别结果;其中,所述第一识别策略为识别策略集合中的识别策略,实时地对所述识别策略集合中的识别策略进行优先级的评估,基于所述优先级,从所述识别策略集合中选择第一识别策略;
所述语音接收单元,还用于接收用户发出的第二语音
所述语音识别单元,还用于响应于第二语音,基于第二识别策略对所述基于第一语音确定的至少一个候选识别结果中的其它候选识别结果中的每一个进行评估得到其第二评估值,基于所述第二评估值从所述其它候选识别结果中选择一个候选识别结果形成第二语音识别结果;其中,所述第二识别策略为所述识别策略集合中不同于所述第一识别策略的识别策略,实时地对所述识别策略集合中的识别策略进行优先级的评估,基于所述优先级,从所述识别策略集合中选择第二识别策略;
其中,所述语音识别单元,还用于:判断所述第二语音是否为所述第一语音的修正语音,响应于所述第二语音为所述第一语音的修正语音,基于所述第二识别策略从所述至少一个候选识别结果中的其它候选识别结果中选择一个候选识别结果形成第二语音识别结果。
5.根据权利要求4所述的装置,其特征在于,所述语音识别单元,还用于:对所述第一语音进行分词得到至少一个词,针对上述至少一个词中的每个词,均识别得到至少一个候选识别结果,基于所述第一识别策略,针对上述每个词从所述至少一个候选识别结果中选择一个候选识别结果,将为上述至少一个词中的每一个词所选择出的候选识别结果组合形成第一语音识别结果。
6.根据权利要求4或5所述的装置,其特征在于,所述判断所述第二语音是否为所述第一语音的修正语音,具体为以下之一:
判断所述第二语音是否为否定语音,如果是,则第二语音为所述第一语音的修正语音;
判断所述第二语音是否与第一语音重复,如果是,则所述第二语音为所述第一语音的修正语音;
判断所述第二语音是否包括否定语音和重复语音,如果是,则所述第二语音为所述第一语音的修正语音。
7.一种语音识别的调整装置,其特征在于,所述装置包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如权利要求1-3任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如权利要求1-3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910676314.6A CN110444205B (zh) | 2019-07-25 | 2019-07-25 | 一种语音识别的调整方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910676314.6A CN110444205B (zh) | 2019-07-25 | 2019-07-25 | 一种语音识别的调整方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110444205A CN110444205A (zh) | 2019-11-12 |
CN110444205B true CN110444205B (zh) | 2021-08-13 |
Family
ID=68431498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910676314.6A Active CN110444205B (zh) | 2019-07-25 | 2019-07-25 | 一种语音识别的调整方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110444205B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103645876A (zh) * | 2013-12-06 | 2014-03-19 | 百度在线网络技术(北京)有限公司 | 语音输入方法和装置 |
CN103903613A (zh) * | 2014-03-10 | 2014-07-02 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN108804414A (zh) * | 2018-05-04 | 2018-11-13 | 科沃斯商用机器人有限公司 | 文本修正方法、装置、智能设备及可读存储介质 |
CN109918485A (zh) * | 2019-01-07 | 2019-06-21 | 口碑(上海)信息技术有限公司 | 语音识别菜品的方法及装置、存储介质、电子装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9799325B1 (en) * | 2016-04-14 | 2017-10-24 | Xerox Corporation | Methods and systems for identifying keywords in speech signal |
-
2019
- 2019-07-25 CN CN201910676314.6A patent/CN110444205B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103645876A (zh) * | 2013-12-06 | 2014-03-19 | 百度在线网络技术(北京)有限公司 | 语音输入方法和装置 |
CN103903613A (zh) * | 2014-03-10 | 2014-07-02 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN108804414A (zh) * | 2018-05-04 | 2018-11-13 | 科沃斯商用机器人有限公司 | 文本修正方法、装置、智能设备及可读存储介质 |
CN109918485A (zh) * | 2019-01-07 | 2019-06-21 | 口碑(上海)信息技术有限公司 | 语音识别菜品的方法及装置、存储介质、电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110444205A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105632499B (zh) | 用于优化语音识别结果的方法和装置 | |
CN100559463C (zh) | 声音识别用辞典编制装置和声音识别装置 | |
JP4643911B2 (ja) | 音声認識方法及び装置 | |
US6195635B1 (en) | User-cued speech recognition | |
US20110276329A1 (en) | Speech dialogue apparatus, dialogue control method, and dialogue control program | |
JP2008203559A (ja) | 対話装置及び方法 | |
JP4515054B2 (ja) | 音声認識の方法および音声信号を復号化する方法 | |
CN105282332B (zh) | 语音拨号方法及装置 | |
CN107342085A (zh) | 语音处理方法及装置 | |
CN105529030A (zh) | 语音识别处理方法和装置 | |
KR20040068023A (ko) | 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법 | |
KR20190012419A (ko) | 발화 유창성 자동 평가 시스템 및 방법 | |
CN114783424A (zh) | 文本语料筛选方法、装置、设备及存储介质 | |
CN110444205B (zh) | 一种语音识别的调整方法和装置 | |
CN111312236A (zh) | 语音识别***的域管理方法 | |
CN112863496A (zh) | 一种语音端点检测方法以及装置 | |
WO2019163242A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
CN115019781A (zh) | 一种对话业务执行方法、装置、存储介质及电子设备 | |
CN113160801B (zh) | 语音识别方法、装置以及计算机可读存储介质 | |
CN111048098B (zh) | 语音校正***及语音校正方法 | |
CN114255761A (zh) | 语音识别方法、装置、设备、存储介质和计算机程序产品 | |
CN115294974A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN110544480B (zh) | 语音识别资源切换方法和装置 | |
CN112820281A (zh) | 一种语音识别方法、装置及设备 | |
CN111933146A (zh) | 语音识别***及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |