CN112331194A - 一种输入方法、装置和电子设备 - Google Patents
一种输入方法、装置和电子设备 Download PDFInfo
- Publication number
- CN112331194A CN112331194A CN201910703691.4A CN201910703691A CN112331194A CN 112331194 A CN112331194 A CN 112331194A CN 201910703691 A CN201910703691 A CN 201910703691A CN 112331194 A CN112331194 A CN 112331194A
- Authority
- CN
- China
- Prior art keywords
- text
- voice
- user
- similarity
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 239000012634 fragment Substances 0.000 claims description 33
- 230000004048 modification Effects 0.000 claims description 23
- 238000012986 modification Methods 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种输入方法、装置和电子设备,其中,所述方法包括:获取用户输入的第一语音数据,识别为第一文本并展示;获取用户输入的第二语音数据,识别为第二文本并判断用户是否具有修改所述第一文本的意图;确定用户具有修改所述第一文本的意图时,依据所述第二文本对所述第一文本进行修改;进而用户确定输入法语音识别错误后,可以通过再次输入该语句的语音数据来实现对识别错误的文本进行修改,而无需用户手动修改,提高了输入效率。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种输入方法、装置和电子设备。
背景技术
随着计算机技术的发展,诸如手机、平板电脑等电子设备越来越普及,给人们的生活、学习、工作带来了极大的便利。这些电子设备通常安装有输入法应用程序(简称输入法),使得用户可使用该输入法进行信息输入。
随着语音识别技术的进步,语音输入也逐渐发展成为输入法的一种输入方式,用户可以在输入法界面触发语音输入,然后输出对应的语音;输入法接收到用户的语音数据后,对语音数据进行语音识别,然后在编辑框中显示语音识别结果。
其中,当输入法语音识别结果错误时,用户需要手动修改,例如手动删除错误的文本,并输入正确的文本,如用户输入的语音“今天是第七天上班”,而语音识别结果为“今天是第一天上班”;此时用户手动删除编辑框中的“一”,然后通过输入法键盘输入“七”。又例如触发修改模式后语音修改;如上述例子,用户触发修改模式后,发出语音“将“一”替换为“七””。进而使得在进行语音输入过程中,语音识别结果错误时,修改错误结果的操作繁琐,导致输入效率低。
发明内容
本发明实施例提供一种输入方法,以提高输入效率。
相应的,本发明实施例还提供了一种输入装置和一种电子设备,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种输入方法,具体包括:获取用户输入的第一语音数据,识别为第一文本并展示;获取用户输入的第二语音数据,识别为第二文本并判断用户是否具有修改所述第一文本的意图;确定用户具有修改所述第一文本的意图时,依据所述第二文本对所述第一文本进行修改。
可选地,所述判断用户是否具有修改所述第一文本的意图,包括:采用语音相似度算法,计算第一语音数据和第二语音数据的语音相似度;依据所述语音相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述判断用户是否具有修改所述第一文本的意图,包括:采用文本相似度算法,计算所述第一文本与所述第二文本的文本相似度;依据所述文本相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述计算第一语音数据和第二语音数据的语音相似度,包括:将所述第一语音数据划分为多个语音片段,并采用多个所述语音片段生成多个语音片段集合;其中,一个所述语音片段集合包括一个语音片段或多个连续的语音片段;分别计算各语音片段集合与所述第二语音数据的语音相似度;所述依据所述语音相似度,判断用户是否具有修改所述第一文本的意图,包括:依据最大的语音相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:采用所述第二文本,替换语音相似度最大的语音片段集合对应的文本。
可选地,所述计算所述第一文本与所述第二文本的文本相似度,包括:将所述第一文本划分为多个文本片段,并采用多个所述文本片段生成多个文本片段集合;其中,一个所述文本片段集合包括一个文本片段或多个连续的文本片段;分别计算各文本片段集合与所述第二文本的文本相似度;所述依据所述文本相似度,判断用户是否具有修改所述第一文本的意图,包括:依据最大的文本相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:采用所述第二文本,替换文本相似度最大的文本片段集合对应的文本片段。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:采用第二文本,替换所述第一文本。
可选地,在所述识别为第二文本之后,所述的方法还包括:在编辑框中展示所述第二文本;所述依据所述第二文本对所述第一文本进行修改,包括:删除所述第一文本。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:在候选栏中展示所述第二文本;接收上屏指令,采用所述上屏指令对应的所述第二文本替换所述第一文本。
可选地,所述的方法还包括:确定用户不具有修改所述第一文本的意图时,展示所述第二文本。
本发明实施例还公开了一种输入装置,具体包括:第一获取模块,用于获取用户输入的第一语音数据,识别为第一文本并展示;第二获取模块,用于获取用户输入的第二语音数据,识别为第二文本;判断模块,用于判断用户是否具有修改所述第一文本的意图;修改模块,用于确定用户具有修改所述第一文本的意图时,依据所述第二文本对所述第一文本进行修改。
可选地,所述判断模块,包括:语音相似度计算子模块,用于采用语音相似度算法,计算第一语音数据和第二语音数据的语音相似度;第一意图判断子模块,用于依据所述语音相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述判断模块,包括:文本相似度计算子模块,用于采用文本相似度算法,计算所述第一文本与所述第二文本的文本相似度;第二意图判断子模块,用于依据所述文本相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述语音相似度计算子模块,用于将所述第一语音数据划分为多个语音片段,并采用多个所述语音片段生成多个语音片段集合;其中,一个所述语音片段集合包括一个语音片段或多个连续的语音片段;分别计算各语音片段集合与所述第二语音数据的语音相似度;所述第一意图判断子模块,用于依据最大的语音相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述修改模块,包括:第一文本修改子模块,用于采用所述第二文本,替换语音相似度最大的语音片段集合对应的文本。
可选地,所述文本相似度计算子模块,用于将所述第一文本划分为多个文本片段,并采用多个所述文本片段生成多个文本片段集合;其中,一个所述文本片段集合包括一个文本片段或多个连续的文本片段;分别计算各文本片段集合与所述第二文本的文本相似度;所述第二意图判断子模块,用于依据最大的文本相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述修改模块,包括:第二文本修改子模块,用于采用所述第二文本,替换文本相似度最大的文本片段集合对应的文本片段。
可选地,所述修改模块,包括:第三文本修改子模块,用于采用所述第二文本,替换所述第一文本。
可选地,所述的装置还包括:第一展示模块,用于在所述识别为第二文本之后,在编辑框中展示所述第二文本;所述修改模块,包括:第四文本修改子模块,用于删除所述第一文本。
可选地,所述修改模块,包括:第五文本修改子模块,用于在候选栏中展示所述第二文本;接收上屏指令,采用所述上屏指令对应的所述第二文本替换所述第一文本。
可选地,所述的装置还包括:第二展示模块,用于确定用户不具有修改所述第一文本的意图时,展示所述第二文本。
本发明实施例还公开了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如本发明实施例任一所述的输入方法。
本发明实施例还公开了一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取用户输入的第一语音数据,识别为第一文本并展示;获取用户输入的第二语音数据,识别为第二文本并判断用户是否具有修改所述第一文本的意图;确定用户具有修改所述第一文本的意图时,依据所述第二文本对所述第一文本进行修改。
可选地,所述判断用户是否具有修改所述第一文本的意图,包括:采用语音相似度算法,计算第一语音数据和第二语音数据的语音相似度;依据所述语音相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述判断用户是否具有修改所述第一文本的意图,包括:采用文本相似度算法,计算所述第一文本与所述第二文本的文本相似度;依据所述文本相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述计算第一语音数据和第二语音数据的语音相似度,包括:将所述第一语音数据划分为多个语音片段,并采用多个所述语音片段生成多个语音片段集合;其中,一个所述语音片段集合包括一个语音片段或多个连续的语音片段;分别计算各语音片段集合与所述第二语音数据的语音相似度;所述依据所述语音相似度,判断用户是否具有修改所述第一文本的意图,包括:依据最大的语音相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:采用所述第二文本,替换语音相似度最大的语音片段集合对应的文本。
可选地,所述计算所述第一文本与所述第二文本的文本相似度,包括:将所述第一文本划分为多个文本片段,并采用多个所述文本片段生成多个文本片段集合;其中,一个所述文本片段集合包括一个文本片段或多个连续的文本片段;分别计算各文本片段集合与所述第二文本的文本相似度;所述依据所述文本相似度,判断用户是否具有修改所述第一文本的意图,包括:依据最大的文本相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:采用所述第二文本,替换文本相似度最大的文本片段集合对应的文本片段。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:采用所述第二文本,替换所述第一文本。
可选地,在所述识别为第二文本之后,还包含用于进行以下操作的指令:在编辑框中展示所述第二文本;所述依据所述第二文本对所述第一文本进行修改,包括:删除所述第一文本。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:在候选栏中展示所述第二文本;接收上屏指令,采用所述上屏指令对应的所述第二文本替换所述第一文本。
可选地,还包含用于进行以下操作的指令:确定用户不具有修改所述第一文本的意图时,展示所述第二文本。
本发明实施例包括以下优点:
综上,本发明实施例中,输入法可以获取用户输入的第一语音数据,识别为第一文本并展示;当用户确定输入法针对第一语音数据的识别结果错误时,可以输入第二语音数据,进而输入法可以获取用户输入的第二语音数据,识别为第二文本并判断用户是否具有修改所述第一文本的意图;当确定用户具有修改所述第一文本进行的意图时,可以依据所述第二文本对所述第一文本进行修改;进而用户确定输入法语音识别错误后,可以通过再次输入该语句的语音数据来实现对识别错误的文本进行修改,而无需用户手动修改,提高了输入效率。
附图说明
图1是本发明的一种输入方法实施例的步骤流程图;
图2是本发明的一种输入方法可选实施例的步骤流程图;
图3是本发明的一种输入装置实施例的结构框图;
图4是本发明的一种输入装置可选实施例的结构框图;
图5根据一示例性实施例示出的一种用于输入的电子设备的结构框图;
图6是本发明根据另一示例性实施例示出的一种用于输入的电子设备的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种输入方法实施例的步骤流程图,具体可以包括如下步骤:
步骤102、获取用户输入的第一语音数据,识别为第一文本并展示。
步骤104、获取用户输入的第二语音数据,识别为第二文本并判断用户是否具有修改所述第一文本的意图。
步骤106、确定用户具有修改所述第一文本的意图时,依据所述第二文本对所述第一文本进行修改。
本发明实施例中,输入法可以提供自动对语音识别的错误结果进行修改的功能,当用户输入某一语句的语音数据后,若确定输入法对该语句的语音数据的识别结果是错误的,则可以调整语调、语气、发音、音量等再次输入该语句对应的语音数据。输入法在获取到当前输入的语音数据后,可以对当前输入的语音数据进行语音识别,以及判断是否需要对上一次输入的语音数据的识别结果进行修改。当确定需要对上次输入的语音数据的修改时,可以依据当前语音识别的结果对上一次语音识别的结果进行修改;从而实现自动对语音识别的错误结果进行修改。
为了便于后续说明,可以将用户依次输入的语音数据分别称为第一语音数据和第二语音数据。
当用户输入第一语音数据后,输入法可以获取第一语音数据;然后可以对第一语音数据进行语音识别,确定对应的第一文本并展示所述第一文本,例如可以在编辑框中展示所述第一文本。
当用户依据展示的第一文本,确定输入法针对第一语音数据的识别结果错误时,可以输入用于修改第一文本的第二语音数据,以对第一文本进行修改。当用户依据展示的第一文本,确定输入法针对第一语音数据的识别结果正确时,可以输入下一段文本对应的第二语音数据。因此输入法接收到第二语音数据后,一方面可以对第二语音数据进行识别,确定对应的第二文本;另一方面可以判断用户是否具有修改第一文本的意图。其中,判断用户是否具有修改第一文本的意图的方式可以包括多种,如可以通过将第一语音数据与第二语音数据进行比对来判断;又例如可以在识别第二语音数据对应的第二文本后,通过将第一文本和第二文本进行比对来判断,本发明实施例对此不作限制。
当确定用户具有修改所述第一文本的意图时,可以依据所述第二文本对所述第一文本进行修改,例如采用第二文本替换第一文本等;本发明实施例对此不作限制。当然,当确定用户不具有修改所述第一文本的意图时,可以直接对所述第二文本进行展示。
本发明的一个示例中,用户输入“不用验收”的第一语音数据后,输入法可以获取第一语音数据,识别为第一文本为“不用眼熟”并展示。用户确定输入法针对第一语音数据识别错误时,再次调整语气、音量、语调等输入“不用验收”的第二语音数据。对应的,输入法获取第二语音数据,识别为第二文本为“不用验收”。进而可以确定用户具有修改第一文本的意图,然后可以依据所述第二文本对所述第一文本进行修改。例如将编辑框中的“不用眼熟”修改为“不用验收”。
综上,本发明实施例中,输入法可以获取用户输入的第一语音数据,识别为第一文本并展示;当用户确定输入法针对第一语音数据的识别结果错误时,可以输入第二语音数据,进而输入法可以获取用户输入的第二语音数据,识别为第二文本并判断用户是否具有修改所述第一文本的意图;当确定用户具有修改所述第一文本进行的意图时,可以依据所述第二文本对所述第一文本进行修改;进而用户确定输入法语音识别错误后,可以通过再次输入该语句的语音数据来实现对识别错误的文本进行修改,而无需用户手动修改,提高了输入效率。
本发明的另一个实施例中,对如何判断用户是否具有修改所述第一文本的意图,以及如何修改第一文本进行说明。
参照图2,示出了本发明的一种输入方法可选实施例的步骤流程图,具体可以包括如下步骤:
步骤202、获取用户输入的第一语音数据,识别为第一文本并展示。
本发明实施例中,用户可以在输入法界面中触发语音输入功能如点击语音输入标识,然后输入第一语音数据;输入法接收到第一语音数据后,可以对所述第一语音数据进行语音识别,确定对应的第一文本。例如可以对所述第一语音数据进行语音增强,然后将语音增强后的第一语音数据输入中语音识别模型中,得到对应的第一文本。以及可以在编辑框中展示所述第一文本,其中,不同应用程序中编辑框的名称不同,例如聊天应用中的编辑框可以是指消息输入框,浏览器中的编辑框可以是指搜索框等等,本发明实施例对此不作限制。
步骤204、获取用户输入的第二语音数据,识别为第二文本。
当用户继续输入第二语音数据后,输入法可以接收第二语音数据,然后可以对第二语音数据进行语音识别,确定对应的第二文本;其中,对第二语音数据识别的方式与上述对第一语音数据识别的方式类似,再次不再赘述。
本发明实施例中,输入法在获取到第二语音数据后,可以依据第一语音数据和第二语音数据,判断用户是否具有修改所述第一文本的意图;可以参照步骤206-步骤208。也可以在识别第二语音数据对应的第二文本后,依据所述第一文本和第二文本,判断用户是否具有修改所述第一文本的意图;可以参照步骤210-步骤212。
步骤206、采用语音相似度算法,计算第一语音数据和第二语音数据的语音相似度。
步骤208、依据所述语音相似度,判断用户是否具有修改所述第一文本的意图。
本发明的一个示例中,可以采用语音相似度算法,计算第一语音数据和第二语音数据的语音相似度。其中,在采用语音相似度算法计算语音相似度的过程中,可以分别对第一语音数据和第二语音数据进行频域整形、电平调整、滤波、补偿等一系列处理,然后对处理后的第一语音数据和第二语音数据进行相似度打分,得到对应的语音相似度。再将语音相似度与语音相似度阈值进行比对,判断所述语音相似度是否大于语音相似度阈值。当所述语音相似度大于语音相似度阈值时,可以确定用户具有修改所述第一文本的意图;当所述语音相似度不大于语音相似度阈值时,可以确定用户不具有修改所述第一文本的意图。其中,所述语音相似度阈值可以按照需求设置,本发明实施例对此不作限制。
本发明实施例中,一种计算第一语音数据和第二语音数据的语音相似度的方式可以是:采用整段第一语音数据和整段第二语音数据进行计算,计算整段第一语音数据和整段第二语音数据的语音相似度。
其中,当用户输入一语句的语音数据后,输入法可能只是将该语句中的部分文本识别错误;为了进一步提高用户输入效率,用户可以无需再次输入整个语句的语音数据,只需再次输入识别错误的文本对应的语音片段,即可实现修改该语句中部分识别错误的文本。
因此本发明的一个示例中,又一种计算第一语音数据和第二语音数据的语音相似度的方式可以是:将所述第一语音数据划分为多个语音片段,并采用多个所述语音片段生成多个语音片段集合;其中,一个所述语音片段集合包括一个语音片段或多个连续的语音片段;分别计算各语音片段集合与所述第二语音数据的语音相似度;依据最大的语音相似度,判断用户是否具有修改所述第一文本的意图。
本发明的一种示例中,可以按照第一语音数据对应各帧语音数据之间的时间间隔,从时间间隔大于间隔阈值的两帧之间划分语音片段;所述时间间隔可以按照需求设置,本发明实施例对此不作限制。例如第一语音数据为“我好累啊,不想说话,明天找我吧”,对应的第一文本为“我好累啊,不想说话,明天奏我吧”;第二语音数据“明天找我吧”对应的语音数据。其中,第一语音数据中“啊”和“不”之间的时间间隔、“话”和“明”之间的时间间隔,均大于间隔阈值,因此可以将第一语音数据划分为三个语音片段:语音片段A1:“我好累啊”对应的语音、语音片段A2:“想说话”对应的语音和语音片段A3:“明天找我吧”对应的语音。然后采用这三个语音片段生成6个语音片段集合,如:集合S1{A1}、集合S2{A2}、集合S3{A3}、集合S4{A1、A2}、集合S5{A2、A3}、集合S1{A1、A2、A3}。针对每一个语音片段集合,计算该语音片段集合与所述第二语音数据的语音相似度,进而得到各语音片段集合与第二语音数据的语音相似度。然后可以选取出最大的语音相似度,依据所述最大的语音相似度,判断用户是否具有修改第一文本的意图。其中,语音相似度最大的语音片段集合,即是第一语音数据中与第二语音数据最相似的语音片段集合。例如分别计算6个语音片段集合与第一语音数据的语音相似度,分别为:0.25(S1)、0.21(S2)、0.94(S3)、0.18(S4)、0.67(S5)、0.32(S6);可以确定最大的语音相似度为0.94,语音相似度最大的语音片段集合为S3。
步骤210、采用文本相似度算法,计算所述第一文本与所述第二文本的文本相似度。
步骤212、依据所述文本相似度,判断用户是否具有修改所述第一文本的意图。
本发明另一个示例中,可以采用文本相似度算法,计算所述第一文本与所述第二文本的文本相似度。例如,可以计算所述第一文本与第二文本的编辑距离,依据所述编辑距离确定文本相似度;又例如,计算所述第一文本与第二文本的杰卡德系数,依据所述杰卡德系数确定文本相似度;还例如,计算所述第一文本的词向量与第二文本的词向量,依据所述词向量确定文本相似度。当然还可以计算其他参数,依据其他参数确定文本相似度,本发明实施例对此不作限制。然后可以将文本相似度与文本相似度阈值进行比对,判断所述文本相似度是否大于文本相似度阈值。当所述文本相似度大于文本相似度阈值时,可以确定用户具有修改所述第一文本的意图;当所述文本相似度不大于文本相似度阈值时,可以确定用户不具有修改所述第一文本的意图。其中,所述文本相似度阈值可以按照需求设置,本发明实施例对此不作限制。
本发明的一个示例中,一种计算所述第一文本与所述第二文本的文本相似度的方式可以是:采用整段第一文本和整段第二文本进行计算,计算整段第一文本和整段第二文本的文本相似度。
当然,本发明的一个示例中,又计算所述第一文本与所述第二文本的文本相似度的方式可以是:将所述第一文本划分为多个文本片段,并采用多个所述文本片段生成多个文本片段集合;其中,一个所述文本片段集合包括一个文本片段或多个连续的文本片段;分别计算各文本片段集合与所述第二文本的文本相似度;依据最大的文本相似度,判断用户是否具有修改所述第一文本的意图。
本发明实施例中,输入法在对语音数据进行语音识别后,可能会为识别结果添加对应的标点符号,因此一种将所述第一文本划分为多个文本片段的方式可以是,依据第一文本句中的标点符号,将第一文本划分为多个文本片段。例如,第一文本:“我好累啊,不想说话,明天找我吧”,可以确定第一文本中句中包括两个标点符号,可以将第一文本划分为3个文本片段:文本片段B1“我好累啊”、文本片段B2“不想说话”不想说话和文本片段B3“明天找我吧”。然后采用这三个文本片段组成6个文本片段集合,这与上述采用三个语音片段组成6个语音片段集合类似,在此不再赘述。
本发明实施例中,输入法在对语音数据进行语音识别后,可能无法为识别结果的添加正确的标点符号;或者当识别结果是较短的语句时,其句中不存在标点符号。因此另一种将所述第一文本划分为多个文本片段的方式可以是,对第一文本进行分词处理,确定第一文本的多个文本片段。例如第一文本“我今天好开心”,对第一文本进行分词处理,得到3个文本片段:文本片段C1“我”、文本片段C2“今天”和文本片段C3“好开心”。然后采用这三个文本片段生成6个语音片段集合,如:集合R1{C1}、集合R2{C2}、集合R3{C3}、集合R4{C1、C2}、集合R5{C2、C3}、集合R1{C1、C2、C3}。再分别确定各文本片段集合与所述第二文本对应的文本相似度,并选取最大的文本相似度;然后依据最大的文本相似度,判断用户是否具有修改所述第一文本的意图。其中,文本相似度最大的文本片段集合,即为第一文本中与第二文本最相似的文本片段集合。例如,第二文本为“伐开心”,计算第二文本与6个语音片段集合的文本相似度分别为:0.33(R1)、0.29(R2)、0.87(R3)、0.22(R4)、0.57(R5)、0.42(R6);可以确定最大的文本相似度为0.87,文本相似度最大的语音片段集合为R3。
当然,也可以将上述方式进行结合,进而得到文本相似度和语音相似度后,可以将两者进行加权计算。然后可以将加权计算的结果作为最终的相似度,并将最终的相似度与联合相似度阈值进行比对,判断用户是否具有修改第一文本的意图;所述联合相似度阈值可以按照需求确定,本发明实施例对此不作限制。其中,文本相似度的权重和语音相似度的权重可以按照需求设置,本发明实施例对此不作限制。
步骤214、采用所述第二文本,替换所述第一文本。
本发明实施例中,在识别第二文本后,可以不在编辑框中展示所述第二文本;待确定用户具有修改第一文本的意图后,可以采用所述第二文本,替换所述第一文本。
本发明的一个示例中,输入法可以主动采用第二文本替换第一文本。
若步骤206是采用整段第一语音数据与整段第二语音数据计算语音相似度的,或者,步骤210是采用整段第一文本与整段第二文本计算文本相似度的,则所述采用第二文本替换第一文本一种方式可以是,采用整段第二文本的替换整段第一文本。即可以删除编辑框中第一文本,然后在第一文本对应的位置添加所述第二文本。其中另一种方式可以是:采用所述第二文本的部分替换所述第一文本的部分:可以将第一文本与第二文本进行比对,确定第一文本中的错误字词和第二文本中的正确字词;采用所述第二文本中的正确字词,替换所述第一文本中的错误字词。其中,第一文本中的错误字词与第二文本中的正确字词对应。可以将第一文本中的字词与第二文本中的字词进行逐个比对,当确定第一文本中某个位置上的字词,与第二文本中该位置上的字词不同时,可以将第一文本中该位置上的字词称为错误字词,将第二文本中该位置上的字词称为正确字词。然后可以在编辑框中删除第一文本中的错误字词,并在该错误字词对应的位置上,添加第二文本中与该错误字词位置对应的正确字词。
若步骤206是采用第一语音数据的语音片段集合与第二语音数据计算语音相似度的,则所述采用第二文本替换第一文本一种方式可以是:采用所述第二文本,替换语音相似度最大的语音片段集合对应的文本。若步骤210是依据第一文本对应的文本片段集合与第二文本对应的文本相似度确定文本相似度的,则可以采用所述第二文本,替换文本相似度最大的文本片段集合对应的文本片段。
本发明的一种示例中,输入法可以基于用户触发,实现采用第二文本替换第一文本。
其中,所述采用第二文本替换第一文本的又一种方式可以是:在候选栏中展示所述第二文本;接收上屏指令,采用所述上屏指令对应的所述第二文本替换所述第一文本。其中,采用所述上屏指令对应的第二文本替换所述第一文本,与上述类似,在此不再赘述。当然,当第二文本包括多个时,也可以在候选栏分别展示各第二文本;待用户针对其中一个第二文本执行上屏操作时,可以依据上屏指令对应的第二文本修改所述第一文本。
当然,在识别第二文本后,也可以在编辑框中展示所述第二文本;待确定用户具有修改第一文本的意图后,可以直接删除所述第一文本,进而实现依据所述第二文本对所述第一文本进行修改。
步骤216、展示所述第二文本。
本发明实施例中,若确定用户不具有修改所述第一文本的意图,则可以直接在编辑框中第一文本之后,展示所述第二文本。
综上,本发明实施例中,输入法可以获取用户输入的第一语音数据,识别为第一文本并展示;当确定输入法针对第一语音数据的识别结果错误时,可以输入第二语音数据,进而输入法可以获取用户输入的第二语音数据,识别为第二文本并判断用户是否具有修改第一文本的意图;当确定具有修改所述第一文本的意图时,依据所述第二文本对所述第一文本进行修改;进而用户确定输入法语音识别错误后,可以通过再次输入该语句的语音数据来实现对识别错误的文本进行修改,而无需用户手动修改,提高了输入效率和用户体验。
其次,本发明实施例中,可以采用语音相似度算法,计算第一语音数据和第二语音数据的语音相似度,来判断用户是否具有修改所述第一文本的意图,也可以采用文本相似度算法,计算所述第一文本与所述第二文本的文本相似度,来判断用户是否具有修改所述第一文本的意图;还可以将两者进行加权计算,来判断用户是否具有修改所述第一文本的意图;从而能够准确的确定用户修改意图,降低误修改率,进一步提高了输入效率。
进一步,本发明实施例中,还可以将所述第一语音数据划分为多个语音片段,并采用多个所述语音片段生成多个语音片段集合;其中,一个所述语音片段集合包括一个语音片段或多个连续的语音片段;分别计算各语音片段集合与所述第二语音数据的语音相似度,然后依据最大的语音相似度,判断用户是否具有修改所述第一文本的意图;以及可以将所述第一文本划分为多个文本片段,并采用多个所述文本片段生成多个文本片段集合;其中,一个所述文本片段集合包括一个文本片段或多个连续的文本片段;分别计算各文本片段集合与所述第二文本的文本相似度,再依据最大的文本相似度,判断用户是否具有修改所述第一文本的意图;进而当输入法将某一语句中的部分文本识别错误时,用户无需再次输入该整个语句的语音数据,只需再次输入该识别错误的文本对应的语音片段,即可实现对该语句中部分识别错误的文本进行修改,操作简便,提高了用户体验。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明的一种输入装置实施例的结构框图,具体可以包括如下模块:
第一获取模块302,用于获取用户输入的第一语音数据,识别为第一文本并展示;
第二获取模块304,用于获取用户输入的第二语音数据,识别为第二文本;
判断模块306,用于判断用户是否具有修改所述第一文本的意图;
修改模块308,用于确定用户具有修改所述第一文本的意图时,依据所述第二文本对所述第一文本进行修改。
参照图4,示出了本发明的一种输入装置可选实施例的结构框图。
本发明一个可选的实施例中,所述判断模块306,包括:
语音相似度计算子模块3062,用于采用语音相似度算法,计算第一语音数据和第二语音数据的语音相似度;
第一意图判断子模块3064,用于依据所述语音相似度,判断用户是否具有修改所述第一文本的意图。
本发明一个可选的实施例中,所述判断模块306,包括:
文本相似度计算子模块3066,用于采用文本相似度算法,计算所述第一文本与所述第二文本的文本相似度;
第二意图判断子模块3068,用于依据所述文本相似度,判断用户是否具有修改所述第一文本的意图。
本发明一个可选的实施例中,所述语音相似度计算子模块3062,用于将所述第一语音数据划分为多个语音片段,并采用多个所述语音片段生成多个语音片段集合;其中,一个所述语音片段集合包括一个语音片段或多个连续的语音片段;分别计算各语音片段集合与所述第二语音数据的语音相似度;所述第一意图判断子模块3064,用于依据最大的语音相似度,判断用户是否具有修改所述第一文本的意图。
本发明一个可选的实施例中,所述修改模块308,包括:
第一文本修改子模块3082,用于采用所述第二文本,替换语音相似度最大的语音片段集合对应的文本。
本发明一个可选的实施例中,所述文本相似度计算子模块3066,用于将所述第一文本划分为多个文本片段,并采用多个所述文本片段生成多个文本片段集合;其中,一个所述文本片段集合包括一个文本片段或多个连续的文本片段;分别计算各文本片段集合与所述第二文本的文本相似度;所述第二意图判断子模块3068,用于依据最大的文本相似度,判断用户是否具有修改所述第一文本的意图。
本发明一个可选的实施例中,所述修改模块308,包括:
第二文本修改子模块3084,用于采用所述第二文本,替换文本相似度最大的文本片段集合对应的文本片段。
本发明一个可选的实施例中,所述修改模块308,包括:
第三文本修改子模块3086,用于采用所述第二文本,替换所述第一文本。
本发明一个可选的实施例中,所述的装置还包括:
第一展示模块310,用于在所述识别为第二文本之后,在编辑框中展示所述第二文本;
所述修改模块308,包括:第四文本修改子模块3088,用于删除所述第一文本。
本发明一个可选的实施例中,所述修改模块308,包括:
第五文本修改子模块30810,用于在候选栏中展示所述第二文本;接收上屏指令,采用所述上屏指令对应的所述第二文本替换所述第一文本。
本发明一个可选的实施例中,所述的装置还包括:
第二展示模块312,用于确定用户不具有修改所述第一文本的意图时,展示所述第二文本。
综上,本发明实施例中,输入法可以获取用户输入的第一语音数据,识别为第一文本并展示;当用户确定输入法针对第一语音数据的识别结果错误时,可以输入第二语音数据,进而输入法可以获取用户输入的第二语音数据,识别为第二文本并判断用户是否具有修改所述第一文本的意图;当确定用户具有修改所述第一文本进行的意图时,可以依据所述第二文本对所述第一文本进行修改;进而用户确定输入法语音识别错误后,可以通过再次输入该语句的语音数据来实现对识别错误的文本进行修改,而无需用户手动修改,提高了输入效率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图5是根据一示例性实施例示出的一种用于输入的电子设备500的结构框图。例如,电子设备500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,电子设备500可以包括以下一个或多个组件:处理组件502,存储器504,电力组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制电子设备500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理部件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在电子设备500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件506为电子设备500的各种组件提供电力。电力组件506可以包括电源管理***,一个或多个电源,及其他与为电子设备500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述电子设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当电子设备500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当电子设备500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为电子设备500提供各个方面的状态评估。例如,传感器组件514可以检测到设备500的打开/关闭状态,组件的相对定位,例如所述组件为电子设备500的显示器和小键盘,传感器组件514还可以检测电子设备500或电子设备500一个组件的位置改变,用户与电子设备500接触的存在或不存在,电子设备500方位或加速/减速和电子设备500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于电子设备500和其他设备之间有线或无线方式的通信。电子设备500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件514经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件514还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由电子设备500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种输入方法,所述方法包括:获取用户输入的第一语音数据,识别为第一文本并展示;获取用户输入的第二语音数据,识别为第二文本并判断用户是否具有修改所述第一文本的意图;确定用户具有修改所述第一文本的意图时,依据所述第二文本对所述第一文本进行修改。
可选地,所述判断用户是否具有修改所述第一文本的意图,包括:采用语音相似度算法,计算第一语音数据和第二语音数据的语音相似度;依据所述语音相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述判断用户是否具有修改所述第一文本的意图,包括:采用文本相似度算法,计算所述第一文本与所述第二文本的文本相似度;依据所述文本相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述计算第一语音数据和第二语音数据的语音相似度,包括:将所述第一语音数据划分为多个语音片段,并采用多个所述语音片段生成多个语音片段集合;其中,一个所述语音片段集合包括一个语音片段或多个连续的语音片段;分别计算各语音片段集合与所述第二语音数据的语音相似度;所述依据所述语音相似度,判断用户是否具有修改所述第一文本的意图,包括:依据最大的语音相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:采用所述第二文本,替换语音相似度最大的语音片段集合对应的文本。
可选地,所述计算所述第一文本与所述第二文本的文本相似度,包括:将所述第一文本划分为多个文本片段,并采用多个所述文本片段生成多个文本片段集合;其中,一个所述文本片段集合包括一个文本片段或多个连续的文本片段;分别计算各文本片段集合与所述第二文本的文本相似度;所述依据所述文本相似度,判断用户是否具有修改所述第一文本的意图,包括:依据最大的文本相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:采用所述第二文本,替换文本相似度最大的文本片段集合对应的文本片段。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:采用所述第二文本,替换所述第一文本。
可选地,在所述识别为第二文本之后,所述的方法还包括:在编辑框中展示所述第二文本;所述依据所述第二文本对所述第一文本进行修改,包括:删除所述第一文本。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:在候选栏中展示所述第二文本;接收上屏指令,采用所述上屏指令对应的所述第二文本替换所述第一文本。
图6是本发明根据另一示例性实施例示出的一种用于输入的电子设备600的结构示意图。该电子设备600可以是服务器,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在服务器上执行存储介质630中的一系列指令操作。
服务器还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,一个或一个以上键盘656,和/或,一个或一个以上操作***641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取用户输入的第一语音数据,识别为第一文本并展示;获取用户输入的第二语音数据,识别为第二文本并判断用户是否具有修改所述第一文本的意图;确定用户具有修改所述第一文本的意图时,依据所述第二文本对所述第一文本进行修改。
可选地,所述判断用户是否具有修改所述第一文本的意图,包括:采用语音相似度算法,计算第一语音数据和第二语音数据的语音相似度;依据所述语音相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述判断用户是否具有修改所述第一文本的意图,包括:采用文本相似度算法,计算所述第一文本与所述第二文本的文本相似度;依据所述文本相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述计算第一语音数据和第二语音数据的语音相似度,包括:将所述第一语音数据划分为多个语音片段,并采用多个所述语音片段生成多个语音片段集合;其中,一个所述语音片段集合包括一个语音片段或多个连续的语音片段;分别计算各语音片段集合与所述第二语音数据的语音相似度;所述依据所述语音相似度,判断用户是否具有修改所述第一文本的意图,包括:依据最大的语音相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:采用所述第二文本,替换语音相似度最大的语音片段集合对应的文本。
可选地,所述计算所述第一文本与所述第二文本的文本相似度,包括:将所述第一文本划分为多个文本片段,并采用多个所述文本片段生成多个文本片段集合;其中,一个所述文本片段集合包括一个文本片段或多个连续的文本片段;分别计算各文本片段集合与所述第二文本的文本相似度;所述依据所述文本相似度,判断用户是否具有修改所述第一文本的意图,包括:依据最大的文本相似度,判断用户是否具有修改所述第一文本的意图。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:采用所述第二文本,替换文本相似度最大的文本片段集合对应的文本片段。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:采用所述第二文本,替换所述第一文本。
可选地,在所述识别为第二文本之后,还包含用于进行以下操作的指令:在编辑框中展示所述第二文本;所述依据所述第二文本对所述第一文本进行修改,包括:删除所述第一文本。
可选地,所述依据所述第二文本对所述第一文本进行修改,包括:在候选栏中展示所述第二文本;接收上屏指令,采用所述上屏指令对应的所述第二文本替换所述第一文本。
可选地,还包含用于进行以下操作的指令:确定用户不具有修改所述第一文本的意图时,展示所述第二文本。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种输入方法、一种输入装置和一种电子设备,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种输入方法,其特征在于,包括:
获取用户输入的第一语音数据,识别为第一文本并展示;
获取用户输入的第二语音数据,识别为第二文本并判断用户是否具有修改所述第一文本的意图;
确定用户具有修改所述第一文本的意图时,依据所述第二文本对所述第一文本进行修改。
2.根据权利要求1所述的方法,其特征在于,所述判断用户是否具有修改所述第一文本的意图,包括:
采用语音相似度算法,计算第一语音数据和第二语音数据的语音相似度;
依据所述语音相似度,判断用户是否具有修改所述第一文本的意图。
3.根据权要求1所述的方法,其特征在于,所述判断用户是否具有修改所述第一文本的意图,包括:
采用文本相似度算法,计算所述第一文本与所述第二文本的文本相似度;
依据所述文本相似度,判断用户是否具有修改所述第一文本的意图。
4.根据权利要求2所述的方法,其特征在于,所述计算第一语音数据和第二语音数据的语音相似度,包括:
将所述第一语音数据划分为多个语音片段,并采用多个所述语音片段生成多个语音片段集合;其中,一个所述语音片段集合包括一个语音片段或多个连续的语音片段;
分别计算各语音片段集合与所述第二语音数据的语音相似度;
所述依据所述语音相似度,判断用户是否具有修改所述第一文本的意图,包括:
依据最大的语音相似度,判断用户是否具有修改所述第一文本的意图。
5.根据权利要求4所述的方法,其特征在于,所述依据所述第二文本对所述第一文本进行修改,包括:
采用所述第二文本,替换语音相似度最大的语音片段集合对应的文本。
6.根据权利要求3所述的方法,其特征在于,所述计算所述第一文本与所述第二文本的文本相似度,包括:
将所述第一文本划分为多个文本片段,并采用多个所述文本片段生成多个文本片段集合;其中,一个所述文本片段集合包括一个文本片段或多个连续的文本片段;
分别计算各文本片段集合与所述第二文本的文本相似度;
所述依据所述文本相似度,判断用户是否具有修改所述第一文本的意图,包括:
依据最大的文本相似度,判断用户是否具有修改所述第一文本的意图。
7.根据权利要求6所述的方法,其特征在于,所述依据所述第二文本对所述第一文本进行修改,包括:
采用所述第二文本,替换文本相似度最大的文本片段集合对应的文本片段。
8.一种输入装置,其特征在于,包括:
第一获取模块,用于获取用户输入的第一语音数据,识别为第一文本并展示;
第二获取模块,用于获取用户输入的第二语音数据,识别为第二文本;
判断模块,用于判断用户是否具有修改所述第一文本的意图;
修改模块,用于确定用户具有修改所述第一文本的意图时,依据所述第二文本对所述第一文本进行修改。
9.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-7任一所述的输入方法。
10.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取用户输入的第一语音数据,识别为第一文本并展示;
获取用户输入的第二语音数据,识别为第二文本并判断用户是否具有修改所述第一文本的意图;
确定用户具有修改所述第一文本的意图时,依据所述第二文本对所述第一文本进行修改。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910703691.4A CN112331194B (zh) | 2019-07-31 | 2019-07-31 | 一种输入方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910703691.4A CN112331194B (zh) | 2019-07-31 | 2019-07-31 | 一种输入方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112331194A true CN112331194A (zh) | 2021-02-05 |
CN112331194B CN112331194B (zh) | 2024-06-18 |
Family
ID=74319624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910703691.4A Active CN112331194B (zh) | 2019-07-31 | 2019-07-31 | 一种输入方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112331194B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177114A (zh) * | 2021-05-28 | 2021-07-27 | 重庆电子工程职业学院 | 一种基于深度学习的自然语言语义理解方法 |
CN117789706A (zh) * | 2024-02-27 | 2024-03-29 | 富迪科技(南京)有限公司 | 一种音频信息内容识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005116992A1 (en) * | 2004-05-27 | 2005-12-08 | Koninklijke Philips Electronics N.V. | Method of and system for modifying messages |
CN1941077A (zh) * | 2005-09-27 | 2007-04-04 | 株式会社东芝 | 识别语音输入中的字符串的语音识别设备和方法 |
CN103106061A (zh) * | 2013-03-05 | 2013-05-15 | 北京车音网科技有限公司 | 语音输入方法和装置 |
EP2685453A1 (en) * | 2012-07-12 | 2014-01-15 | Samsung Electronics Co., Ltd | Method for correcting voice recognition error and broadcast receiving apparatus applying the same. |
CN103645876A (zh) * | 2013-12-06 | 2014-03-19 | 百度在线网络技术(北京)有限公司 | 语音输入方法和装置 |
CN104331265A (zh) * | 2014-09-30 | 2015-02-04 | 北京金山安全软件有限公司 | 一种语音输入方法、装置及终端 |
CN109192197A (zh) * | 2018-09-18 | 2019-01-11 | 湖北函数科技有限公司 | 基于互联网的大数据语音识别*** |
CN111243593A (zh) * | 2018-11-09 | 2020-06-05 | 奇酷互联网络科技(深圳)有限公司 | 语音识别纠错方法、移动终端和计算机可读存储介质 |
-
2019
- 2019-07-31 CN CN201910703691.4A patent/CN112331194B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005116992A1 (en) * | 2004-05-27 | 2005-12-08 | Koninklijke Philips Electronics N.V. | Method of and system for modifying messages |
CN1941077A (zh) * | 2005-09-27 | 2007-04-04 | 株式会社东芝 | 识别语音输入中的字符串的语音识别设备和方法 |
EP2685453A1 (en) * | 2012-07-12 | 2014-01-15 | Samsung Electronics Co., Ltd | Method for correcting voice recognition error and broadcast receiving apparatus applying the same. |
CN103106061A (zh) * | 2013-03-05 | 2013-05-15 | 北京车音网科技有限公司 | 语音输入方法和装置 |
CN103645876A (zh) * | 2013-12-06 | 2014-03-19 | 百度在线网络技术(北京)有限公司 | 语音输入方法和装置 |
CN104331265A (zh) * | 2014-09-30 | 2015-02-04 | 北京金山安全软件有限公司 | 一种语音输入方法、装置及终端 |
CN109192197A (zh) * | 2018-09-18 | 2019-01-11 | 湖北函数科技有限公司 | 基于互联网的大数据语音识别*** |
CN111243593A (zh) * | 2018-11-09 | 2020-06-05 | 奇酷互联网络科技(深圳)有限公司 | 语音识别纠错方法、移动终端和计算机可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177114A (zh) * | 2021-05-28 | 2021-07-27 | 重庆电子工程职业学院 | 一种基于深度学习的自然语言语义理解方法 |
CN117789706A (zh) * | 2024-02-27 | 2024-03-29 | 富迪科技(南京)有限公司 | 一种音频信息内容识别方法 |
CN117789706B (zh) * | 2024-02-27 | 2024-05-03 | 富迪科技(南京)有限公司 | 一种音频信息内容识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112331194B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111145756B (zh) | 一种语音识别方法、装置和用于语音识别的装置 | |
CN105489220B (zh) | 语音识别方法及装置 | |
CN110210310B (zh) | 一种视频处理方法、装置和用于视频处理的装置 | |
CN107944447B (zh) | 图像分类方法及装置 | |
CN109961791B (zh) | 一种语音信息处理方法、装置及电子设备 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
US11335348B2 (en) | Input method, device, apparatus, and storage medium | |
CN110764627B (zh) | 一种输入方法、装置和电子设备 | |
CN110931028B (zh) | 一种语音处理方法、装置和电子设备 | |
CN110069143B (zh) | 一种信息防误纠方法、装置和电子设备 | |
CN112562675A (zh) | 语音信息处理方法、装置及存储介质 | |
CN111210844A (zh) | 语音情感识别模型的确定方法、装置、设备及存储介质 | |
CN111199730B (zh) | 语音识别方法、装置、终端及存储介质 | |
CN112651235A (zh) | 一种诗歌生成的方法及相关装置 | |
CN112735396A (zh) | 语音识别纠错方法、装置及存储介质 | |
CN112331194B (zh) | 一种输入方法、装置和电子设备 | |
CN109725736B (zh) | 一种候选排序方法、装置及电子设备 | |
CN111739535A (zh) | 一种语音识别方法、装置和电子设备 | |
CN109887492B (zh) | 一种数据处理方法、装置和电子设备 | |
CN110858099B (zh) | 候选词生成方法及装置 | |
CN105913841B (zh) | 语音识别方法、装置及终端 | |
CN114462410A (zh) | 实体识别方法、装置、终端及存储介质 | |
CN114154485A (zh) | 一种文本纠错方法和装置 | |
CN111524505B (zh) | 一种语音处理方法、装置和电子设备 | |
CN114154395A (zh) | 一种模型处理方法、装置和用于模型处理的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |