CN109955270A - 语音选项选择***与方法以及使用其的智能机器人 - Google Patents
语音选项选择***与方法以及使用其的智能机器人 Download PDFInfo
- Publication number
- CN109955270A CN109955270A CN201810007702.0A CN201810007702A CN109955270A CN 109955270 A CN109955270 A CN 109955270A CN 201810007702 A CN201810007702 A CN 201810007702A CN 109955270 A CN109955270 A CN 109955270A
- Authority
- CN
- China
- Prior art keywords
- sound options
- options
- sound
- response sentence
- command statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000004044 response Effects 0.000 claims abstract description 68
- 238000001514 detection method Methods 0.000 claims abstract description 40
- 238000010187 selection method Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims description 15
- 230000002452 interceptive effect Effects 0.000 claims description 14
- 230000002618 waking effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000272525 Anas platyrhynchos Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/003—Controls for manipulators by means of an audio-responsive input
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Electrically Operated Instructional Devices (AREA)
- User Interface Of Digital Computer (AREA)
- Toys (AREA)
Abstract
本发明公开一种语音选项选择***与方法以及使用其的智能机器人。此种语音选项选择方法包括:检测一声音信号中是否存在第一命令语句;根据第一命令语句,判断出与第一命令语句对应的一组语音选项;依序地播放出所述组语音选项中的每一语音选项,其中于播放一语音选项后,将间隔一预设时间区段,再继续播放次一语音选项;于默认时间区段内,检测所述声音信号中是否存在响应语句;若所述声音信号中存在响应语句,则判断所述响应语句是否符合所述多个语音选项之一;以及若所述响应语句符合所述多个语音选项之一,则输出与所述语音选项对应的任务内容。本发明使得用户欲发出选择指令时不需等待机器人将所有选项全部描述完。
Description
技术领域
本发明涉及一种语音选项选择***与方法以及使用其的智能机器人,特别涉及一种能够清楚提供用户选项且能够正确辨识用户所选择的选项的语音选项选择***与方法以及使用其的智能机器人。
背景技术
一般来说,机器人所指的能自动执行任务的机器装置,由简单的逻辑电路或是更高阶的计算机程序来控制。因此,通常机器人是个高度机电整合的装置。近年来,机器人领域的相关技术发展越来越多元,如:工业型机器人、服务型机器人…等。
由于大众对于生活便利的追求,服务型机器人开始被越来越多人接受。服务型机器人的种类很多,应用范围也很广泛。服务型机器人,如:专业服务机器人(ProfessionalService Robot)、个人/家庭用服务机器人(Personal/Domestic Use Robot)…等等。常见地,个人/家庭用服务机器人能够辨识使用者的语意,并根据用户的指令提供服务或与用户互动。
通常,当用户对机器人发出指令时,机器人根据内建程序的设定可能会提供用户多个服务选项进行选择。然而,在背景音频吵杂的情况下,机器人在辨识用户的选择指令时经常发生误判。再者,使用者常需等待机器人将所有选项全部描述完后才能发出选择指令,同时,用户所发出的选择指令也必须完全符合机器人所提供的选项之一才能让机器人顺利进行语音识别。此外,由于语言中存在有同音异字的状况,因此即便使用者所发出的选择指令的发音与机器人所提供的选项之一的发音相同,机器人也可能无法顺利辨识使用者所发出的选择指令。前述情形都会让使用者在与机器人进行互动时感到不便。
发明内容
为改善前述缺点,本发明提供了一种能够清楚提供用户选项且能够正确辨识用户所选择的选项的语音选项选择***与方法以及使用其的智能机器人。
本发明所提供的语音选项选择***,运作于一休眠模式与一工作模式。此种语音选项选择***包括音频检测装置、存储器与处理器。处理器连接于音频检测装置与存储器。当语音选项选择***运作于休眠模式下,音频检测装置会持续检测一收音单元所接收的声音信号中是否存在一唤醒语句。存储器设置以储存一互动程序与一数据库。须说明的是,此数据库储存有多个第一命令语句、多组语音选项与多个任务内容,每一第一命令语句对应于其中一组语音选项,且每组语音选项中的每一语音选项对应于所述多个任务内容之一。
当检测到唤醒语句时,音频检测装置会产生一提示信号来将处理器唤醒。于处理器由提示信号唤醒后,语音选项选择***会进入工作模式。当语音选项选择***运作于工作模式下,处理器会执行互动程序以执行以下操作:控制音频检测装置检测收音单元所接收的声音信号中是否存在所述多个第一命令语句之一;根据所测到的第一命令语句,判断出与第一命令语句对应的组语音选项;通过一播音单元,依序地播放出所述组语音选项中的每一语音选项,其中于播放所述多个语音选项之一后,间隔一预设时间区段,再继续播放次一语音选项;于每一默认时间区段内,控制音频检测装置检测收音单元所接收的声音信号中是否存在一响应语句;若声音信号中存在响应语句,则判断响应语句是否符合所述多个语音选项之一;以及若响应语句符合所述多个语音选项之一,则输出与语音选项对应的任务内容,并使语音选项选择***回到休眠模式。
再者,本发明所提供的语音选项选择方法适用于前述的语音选项选择***。本发明所提供的语音选项选择方法主要是以前述的语音选项选择***中的互动程序来实现。除此之外,本发明所提供的智能机器人主要包括中央处理器与前述的语音选项选择***。中央处理器会根据语音选项选择***所输出的任务内容产生控制指令,使得智能机器人根据控制指令执行一动作。
由于本发明所提供的语音选项选择***与方法,以及使用其的智能机器人在根据命令语句提供语音选项时能够加入停顿的时间间隔,使得用户欲发出选择指令时不需等待机器人将所有选项全部描述完。另外,于描述语音选项的期间,本发明所提供的语音选项选择***与方法,以及使用其的智能机器人将暂停检测收音单元所接收的声音信号中是否存在命令语句,此作法将可减少指令误判的频率。
附图说明
图1为根据本发明一例示性实施例绘示的语音选项选择***的方块图;
图2为根据本发明一例示性实施例绘示的语音选项选择方法的流程图;以及
图3为根据本发明一例示性实施例绘示的语音选项选择方法中步骤S250的流程图。
具体实施方式
在下文将参看说明书附图更充分地描述各种例示性实施例,在说明书附图中展示一些例示性实施例。然而,本发明概念可能以许多不同形式来体现,且不应解释为限于本文中所阐述的例示性实施例。确切而言,提供此等例示性实施例使得本发明将为详尽且完整,且将向本领域技术人员充分传达本发明概念的范畴。在诸附图中,类似数字始终指示类似组件。
大体而言,本发明所提供的语音选项选择***与方法,以及使用其的智能机器人最大的特点即在于,即便不设置降噪模块也能够清楚提供用户选项且能够正确辨识用户所选择的选项。以下将以数个实施例来说明本发明所提供的语音情绪辨识***与方法,以及使用其的智能机器人。
[语音选项选择***的一实施例]
首先说明本发明的语音选项选择***的架构,请参照图1,图1为根据本发明一例示性实施例绘示的语音选项选择***的方块图。
如图1所示,本实施例所提供的语音选项选择***100包括音频检测装置10、存储器20与处理器30,且处理器30连接于音频检测装置10与存储器20。存储器20设置以储存互动程序22与数据库24。数据库24储存有多个第一命令语句、多组语音选项与多个任务内容。每一第一命令语句对应于其中一组语音选项,且每组语音选项中的每一语音选项对应于所述多个任务内容之一。
语音选项选择***100运作于一休眠模式与一工作模式。当语音选项选择***100运作于休眠模式时,音频检测装置10会持续检测一收音单元40(如:一麦克风)所接收的一声音信号中是否存在一唤醒语句,且当检测到所述唤醒语句时,音频检测装置10便产生一提示信号以唤醒处理器30。于处理器30被唤醒后,语音选项选择***100便会进入工作模式。
语音选项选择***100的主要工作机制为,当语音选项选择***100运作于工作模式时,处理器30会执行互动程序22以根据用户所发出的命令语句提供多个语音选项,再根据用户所发出的响应语句输出与所述多个语音选项之一对应的任务内容。
须说明的是,音频检测装置10检测到唤醒语句后产生提示信号以唤醒处理器30的唤醒方式应为本领域中技术人员所熟悉,因此以下便不细述此唤醒方式。另须说明的是,语音选项选择***100中的音频检测装置10、存储器20与处理器30可以固件的形式来实现,或者由任何适合的硬件、固件、软件、和/或软件、固件及硬件的组合来实现。
[语音选项选择方法的一实施例]
请参照图2,图2为根据本发明一例示性实施例绘示的语音选项选择方法的方块图。
本实施例所提供的语音选项选择方法是由图1所绘示的语音选项选择***中的处理器30执行储存于存储器20中的一互动程序22来实现,故请同时参照图1与图2以利了解。如图2所示,大体而言,本实施例所提供的语音选项选择方法包括以下步骤:检测收音单元所接收的声音信号,以及判断收音单元所接收的声音信号是否存在第一命令语句(步骤S208与步骤S210);根据第一命令语句,判断出与第一命令语句对应的一组语音选项(步骤S220);依序地播放出所述组语音选项中的每一语音选项(步骤S230);判断收音单元所接收的声音信号是否存在响应语句,以及判断所述多个语音选项是否全部播放完毕(步骤S240与步骤S242);判断响应语句是否符合所述多个语音选项之一(步骤S250);以及输出与语音选项对应的任务内容(步骤S260)。
接着要说明的是本实施例所提供的语音选项选择方法中各步骤的细节。
于处理器30被唤醒使得语音选项选择***100运作于工作模式后,便进入步骤S208与步骤S210。于步骤S208与步骤S210中,处理器30会控制音频检测装置10检测收音单元所接收的声音信号,以判断所接收的声音信号是否存在第一命令语句。举例来说,第一命令语句可为「唱歌」、「说故事」…等,第一命令语句可由***建置者通过互动程序预先设定,也可由用户通过互动程序进行新增。须说明的是,音频检测装置10检测收音单元40所接收的声音信号是否存在第一命令语句的方法为,将声音信号进行处理后与第一命令语句作比对。本领域中技术人员应可理解一般对声音信号进行音频处理的方式,故于此便不针对声音信号进行音频处理的方式做细述。
假设音频检测装置10检测到收音单元40所接收的声音信号是否存在有「说故事」的第一命令语句,则进入步骤S220,处理器30会通过数据库22判断出与「说故事」的第一命令语句对应的一组语音选项。举例来说,与「说故事」的第一命令语句对应的一组语音选项可为:「项目一:小红帽」、「项目二:丑小鸭」与「项目三:白雪公主」,但本发明于此并不限制。与第一命令语句对应的多个语音选项可由***建置者通过互动程序预先设定,也可由用户通过互动程序进行新增。
接着,判断出与「说故事」的第一命令语句对应的所述组语音选项后即进入步骤S230与步骤S240。于步骤S230中,处理器30会控制通过一播音单元50(如:喇叭)依序地播放出所述组语音选项中的每一语音选项。值得注意的是,于处理器30控制播音单元50播放一个语音选项后,会计时一个预设时间区段,待计时结束后再控制播音单元50播放下一个语音选项。于步骤S240中,于每个预设时间区段内,处理器30会判断收音单40元所接收的声音信号是否存在有响应语句。也就是说,用户不用等到播音单元50拨放完所有的语音选项后才发出响应语句,而可以在每个预设时间区段内发出响应语句。
亦值得注意的是,于处理器30控制播音单元50播放语音选项的期间,处理器30会控制音频检测装置10停止检测收音单元40所接收的声音信号,但于前述的预设时间区段内,处理器30会控制音频检测装置10恢复检测收音单元40所接收的声音信号。如此一来,于处理器30控制播音单元50播放语音选项的期间,便不会因为收音单元40接收到播音单元50所播放的语音选项而***的误判。
除此之外,于前述的预设时间区段内,当音频检测装置10检测到收音单元40所接收的声音信号的振幅高于一阈值时,表示使用者可能正在发出响应语句,此时处理器30便会延长前述的预设时间区段,以确保***不会因为默认时间区段不够长而无法检测到使用者较慢发出的响应语句。举例来说,预设时间区段可为3秒钟,当音频检测装置10检测到收音单元40所接收的声音信号的振幅高于一阈值时,处理器30便会将此预设时间区段延长为5秒钟或7秒钟。须说明的是,此预设时间区段可由***建置者通过互动程序预先设定,也可由用户通过互动程序重新设定。
值得注意的是,每当预设时间区段计时结束后,还会进入步骤S242。于步骤S242中,处理器30会判断所述组语音选项中的所有语音选项是否播放完毕。若所述多个语音选项尚未全部播放完毕,则会回到步骤S230,处理器30会控制播音单元50继续依序地播放出剩余的所述多个语音选项;另一方面,若所有语音选项已播放完毕,则会回到步骤S208与步骤S210,以再次判断收音单元40所接收的声音信号是否存在第一命令语句。
假设于前述的预设时间区段内,处理器30判断出收音单40元所接收的声音信号存在有一响应语句,便进入步骤S250。于步骤S250中,判断此响应语句是否符合所述多个语音选项之一。
请参照图3,图3为根据本发明一例示性实施例绘示的语音选项选择方法中步骤S250的流程图。如图3所示,步骤S250是由以下步骤来实现:将响应语句转换成文本数据(步骤S252);通过自然语音处理逻辑,将文本数据转换为机器数据(步骤S254);根据机器数据判断响应语句是否为所述多个语音选项之一、对应于所述多个语音选项之一的特定数字、与所述多个语音选项之一同义的字词或者对应于所述多个语音选项之一的简化字词(步骤S256);以及根据机器数据产生对应于响应语句的拼音数据,并判断响应语句的拼音数据与所述多个语音选项之一的拼音数据是否符合(步骤S258)。
首先,于步骤S252中,处理器30会将响应语句转换成文本数据。举例来说,处理器30可通过语音转文本识别(Speech To Text;STT)算法来将语句转换成文本数据;也就是说,通过语音转文本识别算法,处理器30可以将使用者发出的响应语句转换成用户使用的文字。接着,于步骤S254中,处理器30会通过自然语音处理逻辑(Natural LanguageProcessing;NLP),将文本数据转换为机器数据;也就是说,通过自然语音处理逻辑,处理器30可以将对应于响应语句的文字转换成处理器30可读的机器数据,如此一来,处理器30才能根据机器数据判断用户发出的响应语句是否为所述多个语音选项之一。
为了能够正确地判断使用者发出的响应语句是否为所述多个语音选项之一,处理器30将执行步骤S256与步骤S258。
于步骤S256中,处理器30会将使用者发出的响应语句和每一个语音选项、对应于每一个语音选项的特定数字、与每一个语音选项同义的字词,或者对应于每一个语音选项的简化字词作比对。承上例,由于和「说故事」的第一命令语句对应的所述组语音选项为:「项目一:小红帽」、「项目二:丑小鸭」与「项目三:白雪公主」,因此,若经比对后,使用者发出的响应语句符合「项目一」、「项目二」或「项目三」(即,完整的语音选项),处理器30即可根据使用者发出的响应语句判断出其选择的语音选项。若经比对后,使用者发出的响应语句符合「1」、「2」或「3」(即,对应于每一个语音选项的特定数字),处理器30也能根据使用者发出的响应语句判断出其选择的语音选项。再者,若经比对后,使用者发出的响应语句符合「答案一」、「答案二」或「答案三」(即,每一个语音选项同义的字词),处理器30也能根据使用者发出的响应语句判断出其选择的语音选项。此外,若经比对后,使用者发出的响应语句符合「项一」、「项二」或「项三」(即,对应于每一个语音选项的简化字词),处理器30也能根据使用者发出的响应语句判断出其选择的语音选项。
若于步骤S256中,处理器30能根据使用者发出的响应语句判断出其选择的语音选项,便进入步骤S260,处理器30将输出与语音选项对应的任务内容。
然而,若于步骤S256中,处理器30无法根据使用者发出的响应语句判断出用户选择的语音选项,则会进入步骤S258。于步骤S258中,处理器30根据机器数据产生对应于响应语句的拼音数据,并判断响应语句的拼音数据与所述多个语音选项之一的拼音数据是否符合。进一步说明,由于所述多个语音选项「项目一」、「项目二」与「项目三」的拼音数据分别为「ㄒㄧㄤˋㄇㄨˋㄧ」、「ㄒㄧㄤˋㄇㄨˋㄦˋ」与「ㄒㄧㄤˋㄇㄨˋㄙㄢ」,承上例,假设使用者发出的响应语句是「项目二」,则根据步骤S254中产生的机器数据,处理器30会产生对应于「项目二」的拼音数据,即「ㄒㄧㄤˋㄇㄨˋㄦˋ」。此时,于步骤S258中,处理器30便可判断出用户所选择的语音选项为项目二的「丑小鸭」。因此,于步骤S260中,处理器30便会输出代表「说『丑小鸭』的故事」的任务内容的一指令。
值得注意的是,于本实施例中,拼音数据是以中文的注音符号作举例,本发明于此并不限定。也就是说,于本发明的其他实施例中,拼音数据也可以是其他语言的拼音符号。
另外也值得注意的是,虽然特定的方法参照在本文中所描绘的流程图来进行描述,但是本领域中技术人员应该容易地理解,本发明所提供的语音选项选择方法中各步骤的执行顺序并不因此而限制。也就是说,于本发明的其他实施例所提供的语音选项选择方法中,各步骤的执行顺序可以改变、某些步骤可以被组合或者某些步骤可以省略。
因此,于图3与前述说明中,虽然处理器30先执行了步骤S256后再执行步骤S258,但本发明于此并不限制步骤S256与步骤S258的顺序性。因此,处理器30亦可先执行步骤S258再执行步骤S256。也就是说,若处理器30判断响应语句的拼音数据与所述多个语音选项之一的拼音数据不符合,则进一步将使用者发出的响应语句和每一个语音选项、对应于每一个语音选项的特定数字、与每一个语音选项同义的字词,或者对应于每一个语音选项的简化字词作比对。
此外,处理器30亦可同时执行步骤S256与步骤S258。于此情况下,若步骤S256较快执行完且使得处理器30能根据使用者发出的响应语句判断出其选择的语音选项,则无需再执行步骤S258;另一方面,若步骤S258较快执行完且使得处理器30能根据使用者发出的响应语句判断出其选择的语音选项,则无需再执行步骤S256。
[智能机器人的一实施例]
本实施例所提供的智能机器人包括中央处理器以及如前述任一实施例所描述的语音选项选择***。举例来说,本实施例所提供的智能机器人可由一个人/家庭用服务机器人来实现。
于处理器30输出代表与用户所选择的语音选项对应的任务内容的指令后,中央处理器会根据此指令控制智能机器人执行相关动作。如前述任一实施例所描述的语音选项选择***设置于本实施例所提供的智能机器人中,前述的收音单元40可由智能机器人的麦克风来实现,前述的播音单元50可由智能机器人的喇叭来实现。
值得注意的是,于本实施例中,语音选项选择***中的处理器30为设置于智能机器人内的一内建处理单元,且若语音选项选择***中的处理器30为设置于智能机器人内的一内建处理单元,此内建处理单元须为较高规格的处理单元。
于本发明的其他实施例中,智能机器人同时具有设置于其内的内建处理单元与设置于其外的云端服务器。若智能机器人同时具有设置于其内的内建处理单元与设置于其外的云端服务器,此云端服务器需具有较高规格的运算能力,而此内建处理单元可为规格较低的处理单元。于此情况下,当智能机器人连接网络时,处理器30便会以设置于智能机器人外部的云端服务器来实现,而当智能机器人未连接网络时,处理器30便会以设置于智能机器人内部的内建处理单元来实现。
由于本实施例所提供的智能机器人由于设置有如前述任一实施例所描述的语音选项选择***,因此本实施例所提供的智能机器人在根据命令语句提供语音选项时能够加入停顿的时间间隔,使得用户欲发出选择指令时不需等待机器人将所有选项全部描述完。同时,也因为本实施例所提供的智能机器人由于设置有如前述任一实施例所描述的语音选项选择***,在描述语音选项的期间,本实施例所提供的智能机器人会暂停检测收音单元所接收的声音信号中是否存在命令语句,以减少指令误判的频率。
[实施例的可能功效]
于本发明所提供的语音选项选择***与方法,以及使用其的智能机器人中,在根据命令语句提供语音选项时会加入停顿的时间间隔,如此一来,用户欲发出选择指令时不需等待机器人将所有选项全部描述完。再者,于描述语音选项的期间,将暂停检测收音单元所接收的声音信号中是否存在命令语句,此作法将可减少指令误判的频率。
此外,于本发明所提供的语音选项选择***与方法,以及使用其的智能机器人中,在根据使用者的响应语句判断用户所选择的语音选项时,会将用户发出的响应语句和每一个语音选项、对应于每一个语音选项的特定数字、与每一个语音选项同义的字词,或者对应于每一个语音选项的简化字词作比对。另外,还会根据机器数据产生对应于响应语句的拼音数据,并将响应语句的拼音数据与该些语音选项之一的拼音数据作比对。如此一来,便能准确地根据使用者的响应语句判断出用户所选择的语音选项,以减少选项误判的频率。
最后须说明地是,于前述说明中,尽管已将本发明技术的概念以多个示例性实施例具体地示出与阐述,然而在本领域技术人员将理解,在不背离由以下权利要求所界定的本发明技术的概念的范围的条件下,可对其作出形式及细节上的各种变化。
Claims (18)
1.一种语音选项选择***,运作于一休眠模式与一工作模式,其特征在于,包括:
一音频检测装置,于所述休眠模式下,持续检测一收音单元所接收的一声音信号中是否存在一唤醒语句,其中当检测到所述唤醒语句时,所述音频检测装置产生一提示信号;
一存储器,设置以储存一互动程序与一数据库,其中所述数据库储存有多个第一命令语句、多组语音选项与多个任务内容,每一所述第一命令语句对应于其中一组语音选项,且每组语音选项中的每一语音选项对应于所述多个任务内容之一;以及
一处理器,连接于所述音频检测装置与所述存储器,其中于所述处理器由所述提示信号唤醒后,所述语音选项选择***进入所述工作模式,于所述工作模式下,所述处理器执行所述互动程序以执行以下操作:
控制所述音频检测装置检测所述收音单元所接收的所述声音信号中是否存在所述多个第一命令语句之一;
根据所述第一命令语句,判断出与所述第一命令语句对应的所述组语音选项;
通过一播音单元,依序地播放出所述组语音选项中的每一语音选项,其中于播放所述多个语音选项之一后,间隔一预设时间区段,再继续播放次一所述语音选项;
于所述默认时间区段内,控制所述音频检测装置检测所述收音单元所接收的所述声音信号中是否存在一响应语句;
若所述声音信号中存在所述响应语句,则判断所述响应语句是否符合所述多个语音选项之一;以及
若所述响应语句符合所述多个语音选项之一,则输出与所述语音选项对应的所述任务内容,并使所述语音选项选择***回到所述休眠模式。
2.如权利要求1所述的语音选项选择***,其特征在于,若所述声音信号中不存在所述响应语句,或所述响应语句不符合所述多个语音选项之一,则所述处理器进一步执行以下操作:
判断所述多个语音选项是否全部播放完毕;
若所述多个语音选项尚未全部播放完毕,则通过所述播音单元继续依序地播放出剩余的所述多个语音选项;以及
若所述多个语音选项已全部播放完毕,则控制所述音频检测装置继续检测所述收音单元所接收的所述声音信号中是否存在所述多个第一命令语句之一。
3.如权利要求1所述的语音选项选择***,其特征在于,当所述处理器通过所述播音单元依序地播放出所述多个语音选项时,所述音频检测装置停止检测所述收音单元所接收的所述声音信号,而于所述多个预设时间区段内,所述音频检测装置恢复检测所述收音单元所接收的所述声音信号。
4.如权利要求1所述的语音选项选择***,其特征在于,于所述默认时间区段内,若所述收音单元所接收的所述声音信号的振幅高于一阈值时,则所述处理器延长所述预设时间区段。
5.如权利要求1所述的语音选项选择***,其特征在于,于判断所述响应语句是否符合所述多个语音选项之一时,所述处理器进一步执行以下操作:
将所述响应语句转换成一文本数据;
通过一自然语音处理逻辑,将所述文本数据转换为一机器数据;以及
根据所述机器数据判断所述响应语句是否符合所述多个语音选项之一。
6.如权利要求5所述的语音选项选择***,其特征在于,当判断所述响应语句是否符合所述多个语音选项之一时,所述处理器根据所述机器数据判断所述响应语句是否为所述多个语音选项之一、对应于所述多个语音选项之一的一特定数字、与所述多个语音选项之一同义的一字词或者对应于所述多个语音选项之一的一简化字词。
7.如权利要求6所述的语音选项选择***,其特征在于,若所述响应语句并非所述多个语音选项之一、对应于所述多个语音选项之一的所述特定数字、与所述多个语音选项之一同义的所述字词或者对应于所述多个语音选项之一的所述简化字词,则所述处理器根据所述机器数据产生对应于所述响应语句的拼音数据,并判断所述响应语句的拼音数据与所述多个语音选项之一的拼音数据是否符合。
8.如权利要求1所述的语音选项选择***,其特征在于,所述存储器还储存有多个第二命令语句,每一第二命令语句对应于所述多个任务内容之一,且当所述处理器执行所述互动程序时进一步执行以下操作:
控制所述音频检测装置检测所述收音单元所接收的所述声音信号中是否存在所述多个第二命令语句之一;以及
根据所述第二命令语句,输出与所述第二命令语句对应的所述任务内容,并使所述语音选项选择***回到所述休眠模式。
9.一种语音选项选择方法,适用于一种语音选项选择***,其特征在于,所述语音选项选择***运作于一休眠模式与一工作模式,所述语音选项选择***包括一音频检测装置、一存储器与一处理器,所述数据库储存有多个第一命令语句、多组语音选项与多个任务内容,每一第一命令语句对应于其中一组语音选项,且每组语音选项中的每一语音选项对应于所述多个任务内容之一,所述处理器连接于所述音频检测装置与所述存储器,且所述处理器设置以执行一互动程序以执行所述语音选项选择方法,包括:
检测一收音单元所接收的一声音信号中是否存在所述多个第一命令语句之一;
根据所述第一命令语句,判断出与所述第一命令语句对应的所述组语音选项;
通过一播音单元,依序地播放出所述组语音选项中的每一语音选项,其中于播放所述多个语音选项之一后,间隔一预设时间区段,再继续播放次一所述语音选项;
于所述预设时间区段内,检测所述收音单元所接收的所述声音信号中是否存在一响应语句;
若所述声音信号中存在所述响应语句,则判断所述响应语句是否符合所述多个语音选项之一;以及
若所述响应语句符合所述多个语音选项之一,则输出与所述语音选项对应的所述任务内容,并使所述语音选项选择***回到所述休眠模式。
10.如权利要求9所述的语音选项选择方法,其特征在于,还包括:
判断所述多个语音选项是否全部播放完毕;
若所述多个语音选项尚未全部播放完毕,则通过所述播音单元继续依序地播放出剩余的所述多个语音选项;以及
若所述多个语音选项已全部播放完毕,则继续检测所述收音单元所接收的所述声音信号中是否存在所述多个第一命令语句之一。
11.如权利要求9所述的语音选项选择方法,其特征在于,当所述播音单元依序地播放出所述多个语音选项时,停止检测所述收音单元所接收的所述声音信号,而于所述多个预设时间区段内,恢复检测所述收音单元所接收的所述声音信号。
12.如权利要求9所述的语音选项选择方法,其特征在于,于所述预设时间区段内,若所述收音单元所接收的所述声音信号的振幅高于一阈值时,则延长所述预设时间区段。
13.如权利要求9所述的语音选项选择方法,其特征在于,判断所述响应语句是否符合所述多个语音选项之一的步骤包括:
将所述响应语句转换成一文本数据;
通过一自然语音处理逻辑,将所述文本数据转换为一机器数据;以及
根据所述机器数据判断所述响应语句是否符合所述多个语音选项之一。
14.如权利要求13所述的语音选项选择方法,其特征在于,于判断所述响应语句是否符合所述多个语音选项之一的步骤中,根据所述机器数据判断所述响应语句是否为所述多个语音选项之一、对应于所述多个语音选项之一的一特定数字、与所述多个语音选项之一同义的一字词或者对应于所述多个语音选项之一的一简化字词。
15.如权利要求14所述的语音选项选择方法,其特征在于,所述回应语句并非所述多个语音选项之一、对应于所述多个语音选项之一的所述特定数字、与所述多个语音选项之一同义的所述字词或者对应于所述多个语音选项之一的所述简化字词,则根据所述机器数据产生对应于所述响应语句的拼音数据,并判断所述响应语句的拼音数据与所述多个语音选项之一的拼音数据是否符合。
16.如权利要求9所述的语音选项选择方法,其特征在于,所述存储器还储存有多个第二命令语句,每一第二命令语句对应于所述多个任务内容之一,且所述语音选项选择方法还包括:
控制所述音频检测装置检测所述收音单元所接收的所述声音信号中是否存在所述多个第二命令语句之一;以及
根据所述第二命令语句,输出与所述第二命令语句对应的所述任务内容,并使所述语音选项选择***回到所述休眠模式。
17.一种智能机器人,其特征在于,包括:
一中央处理器;以及
一如权利要求1-8任一项所述的语音选项选择***,设置以根据一收音单元所接收的一声音信号中的一命令语句提供多个语音选项,并辨识一响应语句,以输出一任务内容;
其中,所述中央处理器根据所述语音选项选择***所输出的所述任务内容产生一控制指令,使得所述智能机器人根据所述控制指令执行一动作。
18.如权利要求17所述的智能机器人,其特征在于,于所述语音选项选择***中,所述处理器为一内建处理单元或一云端服务器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106145299A TWI651714B (zh) | 2017-12-22 | 2017-12-22 | 語音選項選擇系統與方法以及使用其之智慧型機器人 |
TW106145299 | 2017-12-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109955270A true CN109955270A (zh) | 2019-07-02 |
CN109955270B CN109955270B (zh) | 2022-04-26 |
Family
ID=66213756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810007702.0A Expired - Fee Related CN109955270B (zh) | 2017-12-22 | 2018-01-04 | 语音选项选择***与方法以及使用其的智能机器人 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10672395B2 (zh) |
CN (1) | CN109955270B (zh) |
TW (1) | TWI651714B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10896675B1 (en) * | 2018-06-29 | 2021-01-19 | X Development Llc | Multi-tiered command processing |
TWI709052B (zh) * | 2018-10-31 | 2020-11-01 | 仁寶電腦工業股份有限公司 | 智能酒櫃及酒款的搜尋方法 |
WO2021015308A1 (ko) * | 2019-07-19 | 2021-01-28 | 엘지전자 주식회사 | 로봇 및 그의 기동어 인식 방법 |
TWI739286B (zh) * | 2020-01-21 | 2021-09-11 | 國立臺灣師範大學 | 互動學習系統 |
CN114267356B (zh) * | 2021-12-30 | 2024-04-02 | 重庆特斯联智慧科技股份有限公司 | 一种人机交互物流机器人及其控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103021403A (zh) * | 2012-12-31 | 2013-04-03 | 威盛电子股份有限公司 | 基于语音识别的选择方法及其移动终端装置及信息*** |
CN104538030A (zh) * | 2014-12-11 | 2015-04-22 | 科大讯飞股份有限公司 | 一种可以通过语音控制家电的控制***与方法 |
US20170113353A1 (en) * | 2014-04-17 | 2017-04-27 | Softbank Robotics Europe | Methods and systems for managing dialogs of a robot |
TWI584270B (zh) * | 2016-06-15 | 2017-05-21 | 瑞昱半導體股份有限公司 | 語音控制系統及其方法 |
CN106847285A (zh) * | 2017-03-31 | 2017-06-13 | 上海思依暄机器人科技股份有限公司 | 一种机器人及其语音识别方法 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8374879B2 (en) * | 2002-02-04 | 2013-02-12 | Microsoft Corporation | Systems and methods for managing interactions from multiple speech-enabled applications |
US7215743B2 (en) * | 2002-12-20 | 2007-05-08 | International Business Machines Corporation | Telephony signals containing an IVR decision tree |
US20070055520A1 (en) * | 2005-08-31 | 2007-03-08 | Microsoft Corporation | Incorporation of speech engine training into interactive user tutorial |
US8768702B2 (en) * | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US10705794B2 (en) * | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8588806B2 (en) * | 2010-02-26 | 2013-11-19 | Thl Holding Company, Llc | Wireless device and methods for use in a paging network |
US10381001B2 (en) * | 2012-10-30 | 2019-08-13 | Google Technology Holdings LLC | Voice control user interface during low-power mode |
WO2015116151A1 (en) * | 2014-01-31 | 2015-08-06 | Hewlett-Packard Development Company, L.P. | Voice input command |
US9495959B2 (en) * | 2014-02-27 | 2016-11-15 | Ford Global Technologies, Llc | Disambiguation of dynamic commands |
WO2015145219A1 (en) * | 2014-03-28 | 2015-10-01 | Navaratnam Ratnakumar | Systems for remote service of customers using virtual and physical mannequins |
US10430156B2 (en) * | 2014-06-27 | 2019-10-01 | Nuance Communications, Inc. | System and method for allowing user intervention in a speech recognition process |
JP6671379B2 (ja) * | 2014-10-01 | 2020-03-25 | エクスブレイン・インコーポレーテッド | 音声および接続プラットフォーム |
US20160133255A1 (en) * | 2014-11-12 | 2016-05-12 | Dsp Group Ltd. | Voice trigger sensor |
KR102387567B1 (ko) * | 2015-01-19 | 2022-04-18 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10504509B2 (en) * | 2015-05-27 | 2019-12-10 | Google Llc | Providing suggested voice-based action queries |
CN106933561A (zh) * | 2015-12-31 | 2017-07-07 | 北京搜狗科技发展有限公司 | 语音输入方法和终端设备 |
CN107293298B (zh) * | 2016-04-05 | 2021-02-19 | 富泰华工业(深圳)有限公司 | 语音控制***及方法 |
US10318112B2 (en) * | 2016-05-27 | 2019-06-11 | Rovi Guides, Inc. | Systems and methods for enabling quick multi-application menu access to media options |
US10249300B2 (en) * | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
KR102471499B1 (ko) * | 2016-07-05 | 2022-11-28 | 삼성전자주식회사 | 영상처리장치, 영상처리장치의 구동방법 및 컴퓨터 판독가능 기록매체 |
CN106328132A (zh) * | 2016-08-15 | 2017-01-11 | 歌尔股份有限公司 | 一种智能设备的语音交互控制方法和装置 |
GB2553840B (en) * | 2016-09-16 | 2022-02-16 | Emotech Ltd | Robots, methods, computer programs and computer-readable media |
KR20180062746A (ko) * | 2016-12-01 | 2018-06-11 | 삼성전자주식회사 | 음성 신호를 입력 또는 출력하는 램프 장치 및 상기 램프 장치의 구동 방법 |
US20180174581A1 (en) * | 2016-12-19 | 2018-06-21 | Pilot, Inc. | Voice-activated vehicle lighting control hub |
US11100384B2 (en) * | 2017-02-14 | 2021-08-24 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
KR20180118461A (ko) * | 2017-04-21 | 2018-10-31 | 엘지전자 주식회사 | 음성 인식 장치 및 음성 인식 방법 |
KR101949497B1 (ko) * | 2017-05-02 | 2019-02-18 | 네이버 주식회사 | 사용자 발화의 표현법을 파악하여 기기의 동작이나 컨텐츠 제공 범위를 조정하여 제공하는 사용자 명령 처리 방법 및 시스템 |
KR102471493B1 (ko) * | 2017-10-17 | 2022-11-29 | 삼성전자주식회사 | 전자 장치 및 음성 인식 방법 |
US10515640B2 (en) * | 2017-11-08 | 2019-12-24 | Intel Corporation | Generating dialogue based on verification scores |
US11221669B2 (en) * | 2017-12-20 | 2022-01-11 | Microsoft Technology Licensing, Llc | Non-verbal engagement of a virtual assistant |
CN108130683A (zh) * | 2017-12-21 | 2018-06-08 | 迪尔阿扣基金两合公司 | 一种家用电器以及用于运行家用电器的方法 |
EP3506255A1 (en) * | 2017-12-28 | 2019-07-03 | Spotify AB | Voice feedback for user interface of media playback device |
US10601599B2 (en) * | 2017-12-29 | 2020-03-24 | Synaptics Incorporated | Voice command processing in low power devices |
US10650807B2 (en) * | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
-
2017
- 2017-12-22 TW TW106145299A patent/TWI651714B/zh not_active IP Right Cessation
-
2018
- 2018-01-04 CN CN201810007702.0A patent/CN109955270B/zh not_active Expired - Fee Related
- 2018-04-10 US US15/949,105 patent/US10672395B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103021403A (zh) * | 2012-12-31 | 2013-04-03 | 威盛电子股份有限公司 | 基于语音识别的选择方法及其移动终端装置及信息*** |
US20170113353A1 (en) * | 2014-04-17 | 2017-04-27 | Softbank Robotics Europe | Methods and systems for managing dialogs of a robot |
CN104538030A (zh) * | 2014-12-11 | 2015-04-22 | 科大讯飞股份有限公司 | 一种可以通过语音控制家电的控制***与方法 |
TWI584270B (zh) * | 2016-06-15 | 2017-05-21 | 瑞昱半導體股份有限公司 | 語音控制系統及其方法 |
CN106847285A (zh) * | 2017-03-31 | 2017-06-13 | 上海思依暄机器人科技股份有限公司 | 一种机器人及其语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109955270B (zh) | 2022-04-26 |
TW201928943A (zh) | 2019-07-16 |
US20190198018A1 (en) | 2019-06-27 |
US10672395B2 (en) | 2020-06-02 |
TWI651714B (zh) | 2019-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11676600B2 (en) | Methods and apparatus for detecting a voice command | |
US11756563B1 (en) | Multi-path calculations for device energy levels | |
CN109955270A (zh) | 语音选项选择***与方法以及使用其的智能机器人 | |
US10943606B2 (en) | Context-based detection of end-point of utterance | |
KR102293063B1 (ko) | 사용자 정의 가능한 웨이크업 음성 명령 | |
US9940936B2 (en) | Methods and apparatus for detecting a voice command | |
EP2946383B1 (en) | Methods and apparatus for detecting a voice command | |
US9361885B2 (en) | Methods and apparatus for detecting a voice command | |
JP6926241B2 (ja) | ホットワード認識音声合成 | |
EP2842125B1 (en) | Embedded system for construction of small footprint speech recognition with user-definable constraints | |
CN112201246B (zh) | 基于语音的智能控制方法、装置、电子设备及存储介质 | |
KR102029820B1 (ko) | 음성 인식을 이용하여 전원을 제어하는 전자 장치 및 이의 전원 제어 방법 | |
US5657425A (en) | Location dependent verbal command execution in a computer based control system | |
US20060074658A1 (en) | Systems and methods for hands-free voice-activated devices | |
CN109697981B (zh) | 一种语音交互方法、装置、设备及存储介质 | |
CN103680505A (zh) | 语音识别方法及*** | |
KR20230104712A (ko) | 개인화된 네거티브에 기초한 핫워드 인식 적응 | |
US20220122593A1 (en) | User-friendly virtual voice assistant | |
Yoshimura | Casual conversation technology achieving natural dialog with computers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220426 |