TWI489372B - 語音操控方法與行動終端裝置 - Google Patents

語音操控方法與行動終端裝置 Download PDF

Info

Publication number
TWI489372B
TWI489372B TW102125767A TW102125767A TWI489372B TW I489372 B TWI489372 B TW I489372B TW 102125767 A TW102125767 A TW 102125767A TW 102125767 A TW102125767 A TW 102125767A TW I489372 B TWI489372 B TW I489372B
Authority
TW
Taiwan
Prior art keywords
voice
mobile terminal
terminal device
language understanding
voice signal
Prior art date
Application number
TW102125767A
Other languages
English (en)
Other versions
TW201439896A (zh
Inventor
guo-feng Zhang
Original Assignee
Via Tech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Via Tech Inc filed Critical Via Tech Inc
Publication of TW201439896A publication Critical patent/TW201439896A/zh
Application granted granted Critical
Publication of TWI489372B publication Critical patent/TWI489372B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/16Transforming into a non-visible representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3215Monitoring of peripheral devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72484User interfaces specially adapted for cordless or mobile telephones wherein functions are triggered by incoming communication events
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Otolaryngology (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Description

語音操控方法與行動終端裝置
本發明是有關於一種語音操控的技術,且特別是有關於一種透過語音觸發以啟動和進行語音交互的語音操控方法與使用此方法的行動終端裝置。
隨著科技的發展,具有語音系統之行動終端裝置已日漸普及。上述的語音系統是透過語音理解技術,讓使用者與行動終端裝置進行溝通。舉例來說,使用者只要對上述的行動終端裝置講出某項要求,例如想要查車次、查天氣或是欲撥打電話等,系統便會依據使用者的語音信號,採取對應的動作。上述的動作可能是以語音方式回答使用者問題或是依照使用者指令去驅使行動終端裝置的系統進行動作。
以語音系統啟動的便捷性來說,目前大都是觸發行動終端裝置的螢幕其所顯示的應用程式來啟動,或者透過行動終端裝置所設置的實體按鍵來啟動。因此,使用者必須直接觸及行動終端裝置的螢幕或所設置的實體按鍵,以透過行動終端裝置本身來 啟動語音系統,然而這對於使用者來說,在某些場合,上述的設計卻是相當的不便。比如說:在行車期間,或者在廚房做菜時,需要撥打位於客廳的行動電話,以詢問友人食譜細節等使用者無法立即觸及行動終端裝置,但需使語音系統開啟的情況。
更進一步,開啟語音對話後,如何進行更符合人類對話自然規律的完全脫手的多次交互對話。換言之,目前若使用者需要與行動終端裝置進行多次交互對話,仍必須透過手,來啟動行動終端裝置的語音系統,而無法做到如同兩個自然人之間的對話,可以連續語音問答,無需每次一問一答之後都需要手動開啟行動終端裝置的語音系統來進行下一次語音問答。
基此,如何改進上述的這些缺點,成為亟待解決的議題。
本發明提供一種行動終端裝置與語音操控方法,可更快速地提供語音服務。使用者僅需發送具有識別資訊的語音信號,即可方便地與行動終端裝置進行語音溝通。更進一步,行動終端裝置可與使用者進行連續語音應答,並可根據使用者所說的內容來終止語音交互,更符合人類對話的自然規律。在對話過程中不再需要手動參與,可以實現人機對話的完全脫手,藉以可更方便、快速地提供語音服務。
本發明提出一種行動終端裝置,其包括語音接收單元、語音輸出單元、語音喚醒模組以及語言理解模組。語音喚醒模組 用以判斷是否接收到符合識別資訊的第一語音信號。語言理解模組耦接於語音接收單元、語音輸出單元以及語音喚醒模組。其中,當語音喚醒模組判斷第一語音信號符合識別資訊時,行動終端裝置啟動語音接收單元,且語言理解模組判斷語音接收單元是否在第一語音信號之後接收到第二語音信號。倘若語音接收單元未接收到第二語音信號,則語言理解模組執行語音對話模式。倘若語音接收單元接收到第二語音信號,則語言理解模組解析第二語音信號而獲得語音辨識結果。其中,當語音辨識結果具有可執行請求資訊時,語言理解模組執行應答操作,且行動終端裝置關閉語音接收單元接收第三語音信號,以及當語音辨識結果不具有可執行請求資訊時,語言理解模組執行語音對話模式。上述語言理解模組在執行語音對話模式時,語言理解模組會自動發送語音應答以詢問使用者的請求資訊。在此,當使用者輸出第四語音信號以做為回應時,語言理解模組會判斷使用者所輸出的第四語音信號是否符合對話終止提示資訊,或是否具有可執行請求資訊。若所述第四語音信號符合對話終止提示資訊或具有可執行請求資訊,語言理解模組則會根據對話終止提示資訊而終止語音對話模式,或者執行對應的可執行請求資訊;若所述第四語音信號不符合對話終止提示資訊且不具有可執行請求資訊,語言理解模組則會繼續執行語音對話模式,直到使用者所輸出的語音信號符合對話終止提示資訊或具有可執行請求資訊為止。另一方面,語言理解模組在執行語音對話模式時,若使用者未輸出第四語音信號以做為 回應,語言理解模組則會繼續透過語音輸出單元發送語音應答來詢問使用者,直到語言理解模組於預設時間內,由於使用者的第四語音信號不符合對話終止提示資訊且不具有可執行請求資訊,亦或一直未發出第四語音信號,語言理解模組自動發送語音應答以詢問使用者的請求資訊的次數,超過預設次數,則終止語音對話模式。
本發明提出一種語音操控方法,用於行動終端裝置。語 音操控方法包括以下步驟。判斷是否接收到符合識別資訊的第一語音信號。當第一語音信號符合識別資訊時,判斷在第一語音信號之後是否接收到第二語音信號。倘若未接收到第二語音信號,則執行語音對話模式。倘若接收到第二語音信號,則解析第二語音信號而獲得語音辨識結果。其中,當語音辨識結果具有可執行請求資訊時,執行應答操作,並關閉接收第三語音信號,以及當語音辨識結果不具有可執行請求資訊時,執行語音對話模式。上在執行語音對話模式的步驟中,會自動發送語音應答以詢問使用者的請求資訊。在此,當使用者輸出第四語音信號以做為回應時,會判斷使用者所輸出的第四語音信號是否符合對話終止提示資訊,或是否具有可執行請求資訊。若所述第四語音信號符合對話終止提示資訊或具有可執行請求資訊,則會根據對話終止提示資訊而終止語音對話模式,或者執行對應的可執行請求資訊;若所述第四語音信號不符合對話終止提示資訊且不具有可執行請求資訊,則會繼續執行語音對話模式,直到使用者所輸出的語音信號 符合對話終止提示資訊或具有可執行請求資訊為止。另一方面,在執行語音對話模式的步驟中,若使用者未輸出第四語音信號以做為回應,則會繼續發送語音應答來詢問使用者,直到於預設時間內,由於使用者的第四語音信號不符合要求或一直未發出第四語音信號,語言理解模組自動發送語音應答以詢問使用者的請求資訊的次數,超過預設次數,則終止語音對話模式。
基於上述,在行動終端裝置未啟動其語音交互功能時,倘若語音喚醒模組接收到符合識別資訊的語音信號,則語音接收單元會被啟動,以接收在上述語音信號之後的另一個語音信號。之後,語言理解模組則會根據上述另一個語音信號來做出應答操作並終止行動終端裝置的語音交互功能;或者根據上述另一個語音信號發送語音應答,直到解析到對話終止提示資訊或做出應答操作為止。若語音接收單元被啟動後,在預定時間內未接收到另一個有效語音的次數超過一預定次數,則該行動終端裝置關閉該語音接收單元。這裏的有效語音可以是可執行的請求資訊(比如,“幫我查下上海今天的天氣情況”)或者是符合一對話終止提示資訊的語音(比如,“好,沒事了”),再或者為一可應答之資訊(比如,“今天的我太太過生日,我買什麽禮物比較好?”)。藉此,行動終端裝置可依據符合識別資訊的語音信號,而啟動語音交互功能,藉以可更快速、更便捷地提供語音服務。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
100、300‧‧‧行動終端裝置
104、304‧‧‧輔助操控裝置
106、306‧‧‧語義資料庫
110、310‧‧‧語音輸出單元
120、320‧‧‧語音接收單元
130、330‧‧‧語言理解模組
140、340‧‧‧來電通信單元
350‧‧‧語音喚醒模組
A1‧‧‧語音應答
C‧‧‧來電通話
V1、V2、V3‧‧‧語音信號
SD‧‧‧語音辨識結果
SO‧‧‧語音通知
SI‧‧‧語音信號
S202、S204、S206、S208‧‧‧語音接聽方法的各步驟
S402、S404、S406、S408、S410、S412、S414、S502、S504、S506、S508、S510‧‧‧語音操控方法的流程圖
圖1是依照本發明一實施例所繪示的行動終端裝置的方塊圖。
圖2是依照本發明一實施例所繪示之語音接聽方法的流程圖。
圖3是依照本發明一實施例所繪示的行動終端裝置的方塊圖。
圖4是依照本發明一實施例所繪示之語音操控方法的流程圖。
圖5是依照本發明一實施例所繪示之語音操控方法的流程圖。
雖然現今的行動終端裝置已可提供語音系統,以讓使用者發出語音來和行動終端裝置溝通,但使用者在啟動此語音系統時,仍必須透過行動終端裝置本身來啟動。因此在使用者無法立即觸及行動終端裝置,但需使語音系統開啟的情況,往往無法滿足使用者立即的需求。更進一步,即使能夠喚醒語音對話系統,但目前的行動裝置在對話過程中仍然需要手的不時參與,比如使用者提問結束後,需要再次詢問時需要手動再次開啟語音對話系 統,極不方便。為此,本發明提出一種語音接聽方法、語音操控方法及行動終端裝置,讓使用者能夠更便捷地開啟語音系統。更進一步,本發明能夠使得使用者在整個對話過程中,擺脫手的操作,使得對話更加便捷快速自然。為了使本發明之內容更為明瞭,以下特舉實施例作為本發明確實能夠據以實施的範例。
圖1是依照本發明一實施例所繪示的行動終端裝置的方 塊圖。請參照圖1,行動終端裝置100具有語音輸出單元110、語音接收單元120、語言理解模組130以及來電通信單元140。行動終端裝置100例如為行動電話(Cell phone)、個人數位助理(Personal Digital Assistant,PDA)手機、智慧型手機(Smart phone),或是安裝有通訊軟體的掌上型電腦(Pocket PC)、平板型電腦(Tablet PC)或筆記型電腦等等。行動終端裝置100可以是任何具備通訊功能的可攜式(Portable)行動裝置,在此並不限制其範圍。此外,行動終端裝置100可使用Android作業系統、Microsoft作業系統、Android作業系統、Linux作業系統等等,不限於上述。在本實施例中,行動終端裝置100會透過來電通信單元140接收到來電通話C。當來電通信單元140接收到來電通話C時,行動終端裝置100會透過語音輸出單元110,自動發送語音通知SO以詢問使用者如何進行回應。此時,行動終端裝置100會透過語音接收單元120以接收來自使用者的語音信號SI,並透過語言理解模組130來對此語音信號SI進行解析以產生語音辨識結果SD。最後,行動終端裝置100會透過來電通信單元140,以根據 語音辨識結果SD來執行對應的通信操作。上述的模組與單元的功能分述如下。
語音輸出單元110例如是揚聲器。語音輸出單元110具 有擴音功能,用以輸出語音通知以及來自通話對象的語音。具體來說,當行動終端裝置100接收到來電通話C時,行動終端裝置100可透過語音輸出單元110發送語音通知SO,以告知使用者來電通話C的來源(例如通話對象)或詢問使用者是否要接聽此來電通話C等等。例如,來電通信單元140可依據來電通話C而透過語音輸出單元110發出關於來電通話C的電話號碼資訊,或進而依據聯絡人通訊錄而查出撥出此來電通話C的聯絡人名稱,不限於上述。舉例來說,來電通信單元140可透過語音輸出單元110而發送出「王大明給您來電,現在接聽嗎?」、「X公司給您來電,現在接聽嗎?」、「來電是0922-123564,現在接聽嗎?」或「來電是886922-123564,現在接聽嗎?」等關於來電通話C的資訊。此外,倘若此來電通話C未提供電話號碼,則來電通信單元140亦可透過語音輸出單元110而送出預設的語音通知SO,例如,「這是未知電話,現在接聽嗎?」等等。另一方面,當使用者接通來電通話C後,使用者也會透過語音輸出單元110來進行接聽。
語音接收單元120例如為麥克風,用以接收使用者的聲音,以獲得來自使用者的語音信號SI。
語言理解模組130耦接於語音接收單元120,用以解析語音接收單元120所接收的語音信號SI,以獲得語音辨識結果。具 體而言,語言理解模組130可包括語音辨識模組以及語音處理模組(未繪示),其中,語音辨識模組會接收從語音接收單元120傳來的語音信號SI,以將語音信號轉換成多個分段語義(例如詞彙或字句等)。語音處理模組則可依據這些分段語義而解析出這些分段語義所代表的意指(例如意圖、時間、地點等),進而判斷出上述語音信號SI中所表示的意思。此外,語音處理模組還會根據所解析的結果產生對應的應答內容。
更進一步而言,在電腦系統架構下的自然語言理解中,通常會使用固定詞語法來擷取語音信號SI的語句,以解析這些語句所意指的指令或意圖(例如接聽來電通話C、拒絕接聽來電通話C或發送簡訊等動作)等,而判斷出語音信號SI的意思,藉以獲得語音辨識結果。在本實施例中,語言理解模組130的語音處理模組,可透過語義資料庫106,來查詢語音信號SI中所分割成的分段語義是對應於哪些指令,其中語義資料庫106可記錄有各種分段語義與各種命令的關係。在本實施例中,根據上述各種分段語義,語言理解模組130的語音處理模組還可判斷出語音信號SI中哪些是使用者欲回應來電通話C的資訊。
舉例來說,當使用者回應「好的」、「接聽」、「接一下」等之類表示要接聽來電通話C的語音信號SI時,語言理解模組130可透過語義資料庫106來查詢「好的」、「接聽」、「接一下」等所對應的命令,而解析出上述的語音信號SI是用以表示接聽來電通話C。在另一實施例中,當使用者回應「不接」、「不」、「先不接」 等之類表示要拒絕接聽來電通話C的語音信號SI時,語言理解模組130可透過語義資料庫106來查詢「不接」、「不」、「先不接」等所對應的命令,而解析出上述的語音信號SI是用以表示拒絕接聽來電通話C。
在另一實施例中,當使用者回應「先不接,告訴他我到 公司後再打電話給他」等之類表示發送訊息以回應來電通話C的語音信號SI時,語言理解模組130可透過語義資料庫106來查詢「先不接」所對應的命令,而解析出語音信號SI為表示拒絕接聽來電通話C。並且,語言理解模組130還可透過語義資料庫106來判斷出「告訴他」是表示發送訊息的命令,藉以根據這個命令來執行通信操作,例如是根據這個命令來產生通信信號(如發送簡訊等)。其中,語言理解模組130還可判斷出「告訴他」之後的語音是表示發送訊息時的應答內容(例如是「到公司後再打電話」)。
需說明的是,在本實施例中,語言理解模組130可由一 個或數個邏輯閘組合而成的硬體電路來實作,亦可以是以電腦程式碼來實作。值得一提的是,在另一實施例中,上述的語言理解模組亦可配置於雲端伺服器中。也就是說,行動終端裝置100亦可與雲端伺服器(未繪示)連線,其中雲端伺服器連線具有語言理解模組。如此一來,行動終端裝置100可將所接收到的語音信號SI,發送給雲端伺服器中的語言理解模組進行解析,再從雲端伺服器獲得語音辨識結果。
來電通信單元140耦接於語音接收單元120與語言理解 模組130。來電通信單元140用以接收來電通話C及執行通信操作。具體來說,來電通信單元140接收到來電通話C後,可根據使用者的語音(後將詳述),來進行接聽來電通話C、拒接來電通話C、傳送預設語音應答以回應來電通話C,或者傳送簡訊、語音應答等應答信號,以回應來電通話C,其中應答信號中具有使用者欲回應來電通話C的應答內容。
在此說明的是,本實施例的行動終端裝置100具有通常模式及第一模式。其中,第一模式例如是行動終端裝置100用於行動中的行車裝置中而進入車載模式。更具體而言,在此第一模式中,當行動終端裝置100接收到來電通話C時,行動終端裝置100會自動發送語音通知(例如來電通話的來源)以詢問使用者是否接聽這個來電通話C,即行動終端裝置100可自動地開啟其免持系統,以和使用者進行語音交互。相對而言,通常模式例如是行動終端裝置100於非車載模式的時候。亦即,在此通常模式中,行動終端裝置100不會自動發送語音通知以詢問使用者是否接聽這個來電通話C,而無法根據使用者的語音信號來做回應,即行動終端裝置100不會自動地開啟其免持系統。
如此一來,當行動終端裝置100切換為第一模式時,若行動終端裝置100接收到來電通話,則會發送語音通知使用者,以讓使用者透過語音的方式,傳送語音信號至行動終端裝置100,使得行動終端裝置100可根據使用者所說的話,來回應此來電通話(例如接聽或拒絕接聽來電通話等通信操作)。
需說明的是,本實施例的行動終端裝置100可自動從通 常模式切換為第一模式。具體而言,當行動終端裝置100連線於輔助裝置104時,行動終端裝置100可從通常模式切換為第一模式。另一方面,當行動終端裝置100未連線於輔助裝置104時,行動終端裝置104可從第一模式切換為通常模式。在此,行動終端裝置100可匹配於輔助裝置104。其中,當行動終端裝置100透過無線傳輸訊號或者電性連接於輔助裝置104時,可使行動終端裝置10自動切換為第一模式。
此外,在另一實施例中,當行動終端裝置100用於行動 中的行車裝置時,行動終端裝置100也可根據感應行車裝置的速度的大小,來決定是否切換成第一模式。例如,當行車裝置的速度超過門檻值時,行動終端裝置100則會從通常模式切換為第一模式。另一方面,當行車裝置的速度未超過門檻值時,行動終端裝置100則會從自第一模式切換為通常模式。如此一來,使用者可更加便利地透過語音來操控行動終端裝置100。
圖2是依照本發明一實施例所繪示之語音接聽方法的流 程圖。請同時參照圖1及圖2,於步驟202中,行動終端裝置100會從通常模式切換為第一模式。在行動終端裝置100於第一模式的情況下,如步驟S204所示,當來電通信單元140接收到來電通話C時,來電通信單元140會透過語音輸出單元110發送語音通知SO,並啟動語音接收單元120接收語音信號SI。根據上述的語音通知SO,使用者可得知來電通話C的來源,並可透過語音的方 式來操控來電通信單元140以回應此來電通話C。因此,當來電通信單元140接收到來電通話C時,來電通信單元140會啟動語音接收單元120以接收來自使用者的語音信號SI。
於步驟S206,語言理解模組130會解析語音接收單元120所接收到的語音信號SI,以獲得語音辨識結果。在此,語言理解模組130可接收來自語音接收單元120的語音信號SI,並將語音信號SI分割成多個分段語義。並且,語言理解模組130會對上述分段語義進行自然語言理解,以辨識出語音信號SI中的應答資訊。
接著,於步驟S208,來電通信單元140會根據語言理解模組130所解析出的語音辨識結果,執行對應的通信操作。在本實施例中,由於使用者可透過語音的方式,以命令行動終端裝置100進行接聽、拒接來電通話C、發送訊息或其他動作以回應來電通話C,因此語言理解模組130解析語音信號SI之後,可判斷出語音信號SI中的命令。故來電通信單元140可根據語音信號SI中的命令來執行對一的通信操作。上述來電通信單元140所執行的通信操作可以是接聽來電通話C、拒絕接聽來電通話C、傳送預設語音應答以回應來電通話C,或者傳送簡訊、語音應答等應答信號,以回應來電通話C,其中應答信號中具有使用者欲回應來電通話C的應答內容。
為了使本領域的技術人員進一步了解本實施例來電通信單元140所執行的通信操作,底下再舉諸實施例,其中,仍搭配圖1的行動終端裝置100來進行說明。
當行動終端裝置100切換為第一模式時(例如行動終端裝置100用於行動中的行車裝置中而進入車載模式),假設來電通信單元140接收到來電通話C,且來電通信單元140會透過語音輸出單元110發送「王大明給您來電,現在接聽嗎?」這個語音通知SO。在本實施例中,倘若使用者回應「好的」這個語音信號SI,則來電通信單元140會接聽這個來電通話C。
另一方面,倘若使用者回應「不接」這個語音信號SI,則來電通信單元140會拒絕接聽這個來電通話C。在一實施例中,來電通信單元140還可傳送「您撥的電話暫時無法接聽,請稍後再撥,或在『嗶』聲後留言」這個預設語音應答來回應來電通話C。
此外,倘若使用者回應「先不接,告訴他我到公司後再打電話給他」這個語音信號SI,則來電通信單元140會拒絕接聽這個來電通話C,並且會自語音辨識結果取得應答內容,即「到公司後再打電話」這個應答內容以發送簡訊,其中例如在簡訊中記載「我在開會,稍後再回撥」這個簡訊內容來回應來電通話C。
如此一來,在行動終端裝置100進入車載模式的情況下,行動終端裝置100可自動詢問使用者是否接聽來電通話C,以讓使用者直接透過語音的方式來操控行動終端裝置100進行接聽、拒絕接聽或其他通信操作。
另外需說明的是,本實施利並不限制使用者透過語音的方式來回應來電通話C。在其他實施例中,使用者可透過按壓配置於行動終端裝置100的按鍵(未繪示),以令來電通信單元140進 行接聽/拒接。或者,使用者也可透過連線於行動終端裝置100的輔助操控裝置104(例如是具有藍芽功能或無線傳輸功能的隨身裝置),來操控來電通信單元140進行接聽/拒接。
依據上述,行動終端裝置100可自動從通常模式切換為 第一模式。並且,當來電通信單元140在第一模式接收到來電通話時,語音輸出單元110會發送語音通知以詢問使用者。當使用者發送語音信號時,語言理解模組130會對此語音信號進行解析,且來電通信單元140會根據語言理解模組130解析後所獲得的語音辨識結果,執行對應的通信操作。如此一來,行動終端裝置可更快速地提供語音服務,其中當行動終端裝置100在第一模式的情況下,例如用於行動中的行車裝置時,使用者可方便地根據行動終端裝置100所發送的語音通知,透過語音的方式來回應來電通話。藉此,使用者可更加便利地操控行動終端裝置。
圖3是依照本發明一實施例所繪示的行動終端裝置的方 塊圖。請參照圖3,行動終端裝置300具有語音輸出單元310、語音接收單元320、語言理解模組330以及語音喚醒模組350。本實施例的行動終端裝置300與圖1的行動終端裝置100相似,其不同之處在於:本實施例的行動終端裝置300更具有語音喚醒模組350。
語音喚醒模組350用以判斷是否接收到具有識別資訊的 語音信號。在本實施例中,當語音喚醒模組350未接收到具有識別資訊的語音信號時,語音輸出單元310、語音接收單元320及語 言理解模組330可以處於待機或關閉等模式,即行動終端裝置300不會與使用者進行語音交互。而當語音喚醒模組350接收到具有識別資訊的語音信號時,行動終端裝置300則會啟動語音接收單元320以接收之後的語音信號,並透過語言理解模組330來進行解析,即行動終端裝置300會依據此語音信號與使用者進行語音交互,且還可執行對應於語音信號的應答操作等。故在本實施例中,使用者可直接以語音的方式,說出具有識別資訊的語音(例如特定的字彙,如名字),來喚醒行動終端裝置300執行語音交互功能。此外,本實施例的語音喚醒模組350可由一個或數個邏輯閘組合而成的硬體電路來實作,亦可以是以電腦程式碼來實作。
值得一提的是,由於語音接收單元320是在語音喚醒模 組350辨識出識別資訊之後而被啟動,因此語言理解模組330可避免對非語音信號(例如雜音信號)進行解析。此外,由於語音喚醒模組350只要能辨識出識別資訊所對應的音訊(例如「小茜」這個識別資訊所對應的音訊),即會判斷所接收到的語音信號具有識別資訊,因此語音喚醒模組350可以不具備有自然語言理解的能力,而具有較低功率的消耗。如此一來,當使用者未提供具有識別資訊的語音信號時,行動終端裝置300不會啟動語音交互功能,故行動終端裝置300不僅可方便使用者透過語音來進行操控,亦可節省電源消耗。
故在本實施例中,行動終端裝置300可透過語音喚醒模 組350來判斷是否接收到符合識別資訊的語音信號(底下以語音信 號V1表示),若是,則行動終端裝置300會啟動語音接收單元320以接收音訊,並且透過語言理解模組330判斷語音接收單元320是否在語音信號V1之後接收到另一語音信號(底下以語音信號V2表示)。倘若語言理解模組330判斷語音接收單元320接收到語音信號V2,語言理解模組330會解析語音信號V2而獲得語音辨識結果,以及判斷語音辨識結果中是否具有可執行請求資訊。若語音辨識結果具有可執行請求資訊時,則行動終端裝置300會透過語言理解模組330執行應答操作,並終止語音交互功能。
然而,若上述語音接收單元320在語音信號V1之後,未 接收到另一語音信號V2,或者,語言理解模組330解析語音信號V2而獲得的語音辨識結果,不具有可執行請求資訊時,則行動終端裝置300會透過語言理解模組330執行語音對話模式,以和使用者進行語音溝通。其中,語言理解模組330在執行語音對話模式時,語言理解模組330會自動發送語音應答以詢問使用者的請求資訊(即使用者的意圖)。此時,語言理解模組330會判斷使用者所輸出的語音信號是否符合對話終止提示資訊,或是否具有可執行請求資訊。若有,則會終止語音對話模式,或者執行對應的可執行請求資訊;若否,則語言理解模組330則會繼續執行語音對話模式,即語言理解模組330會自動發送語音應答以詢問使用者的請求資訊(即使用者的意圖)。直到使用者所輸出的語音信號符合對話終止提示資訊或具有可執行請求資訊為止。
以下即搭配上述行動終端裝置300來說明語音操控的方 法。圖4是依照本發明一實施例所繪示之語音操控方法的流程圖。請同時參照圖3及圖4,於步驟S402中,語音喚醒模組350會判斷是否接收到符合識別資訊的語音信號(底下以語音信號V1表示)。詳細而言,識別資訊可以是特定的字彙(例如名字)所對應的預設音,其中此預設音會在特定音頻範圍或特定能量範圍之內。也就是說,語音喚醒模組350可判斷是否接收到在特定音頻範圍或特定能量範圍之內的預設音,而判斷出是否接收到具有識別資訊的語音信號V1。在本實施例中,使用者可預先透過行動終端裝置300的系統來設定這個識別資訊,例如預先提供識別資訊所對應的預設音,而語音喚醒模組350可藉由比對語音信號V1是否符合這個預設音,來判斷語音信號V1是否具有識別資訊。舉例來說,假設識別資訊為「小茜」這個名字所對應的預設音,則語音喚醒模組350會判斷是否接收到具有「小茜」的語音信號V1。
倘若語音喚醒模組350未接收到符合識別資訊的語音信號V1,則如步驟S404所示,行動終端裝置300不會啟動語音交互功能。由於語音喚醒模組350未接收到符合識別資訊的語音信號V1,因此語音接收單元320是成關閉狀態或休眠狀態而不會進行語音信號的接收,故行動終端裝置300中的語言理解模組330不會取得到之後的語音信號來進行解析。舉例來說,假設識別資訊為「小茜」,倘若使用者未說出「小茜」而是說出「小王」等其他語音,即語音喚醒模組350無法接收到符合「小茜」的語音信號V1,故行動終端裝置300的語音交互功能不會被啟動。
於步驟S406中,當語音喚醒模組350判斷語音信號V1符合識別資訊時,行動終端裝置300會啟動語音接收單元320以接收音訊。並且,語言理解模組330會依據語音接收單元320所接收到的音訊,判斷語音接收單元320是否在語音信號V1之後接收到另一語音信號(底下以語音信號V2表示)。在本實施例中,語言理解模組330可判斷語音接收單元320所接收到的音訊的能量是否超過一設定值。若所述音訊的能量未超過設定值,則語言理解模組330會判斷此音訊為雜音,藉以判斷語音接收單元320未接收到語音信號V2;若所述音訊的能量已達設定值,則語言理解模組330可判斷語音接收單元320已接收到語音信號V2,進而根據此語音信號V2來執行後續的步驟。
倘若語言理解模組330判斷語音接收單元320未接收到語音信號V2,則如步驟S408所示,語言理解模組330會執行語音對話模式。在語音對話模式中,語言理解模組330可透過語音輸出單元310發送語音應答,且可透過語音接收單元320繼續接收及解析來自使用者的另一個語音信號,據以做出另一個語音應答或者應答操作,直到語言理解模組330判斷出具有對話終止提示資訊的語音信號,或者行動終端裝置300已完成使用者的命令或請求為止。關於語音對話模式的詳細步驟,將於後詳述(如圖5所示)。
倘若語言理解模組330判斷語音接收單元320接收到語音信號V2,則如步驟S410所示,語言理解模組330會解析語音 信號V2而獲得語音辨識結果。語言理解模組330可接收來自語音接收單元320的語音信號V2,並將語音信號V2分割成多個分段語義,以及對上述分段語義進行自然語言理解,以辨識出語音信號V2中的內容。如同圖1的語言理解模組130,本實施例的語言理解模組330可依據固定詞語法來擷取語音信號V2的語句,以解析這些語句所意指的指令或意圖(例如命令句或者詢問句)等,而判斷出語音信號V2的意思,藉以獲得語音辨識結果。其中,語言理解模組330可透過語義資料庫306,來查詢語音信號V2中所分割成的分段語義是對應於哪些指令,而上述語義資料庫306可記錄有各種分段語義與各種命令的關係。
接著,如步驟S412所示,語言理解模組330會判斷語音 辨識結果中是否具有可執行請求資訊。詳細而言,可執行請求資訊例如是指讓行動終端裝置300完成所請求的操作。也就是說,語言理解模組330可依據語音辨識結果中的可執行請求資訊,讓行動終端裝置300執行一個動作,其中行動終端裝置300例如可透過一個或多個應用程式來完成。舉例來說,當語音信號V2為「幫我打電話給王大明」、「幫我查台北明天的天氣」或「現在幾點」等,則語音信號V2具有可執行請求資訊,因此,語言理解模組330解析上述語音信號V2後,可令行動終端裝置300撥打電話給王大明、上網查並回報台北明天的天氣、或者查詢並回報現在的時間等這些動作。
另一方面,若語音辨識結果不具有可執行請求資訊,則 表示語言理解模組330無法依據語音辨識結果而判斷使用者的意圖,因此無法讓行動終端裝置300完成所請求的操作。舉例來說,當語音信號V2為「幫我打電話」、「幫我查天氣」、「現在」等,則語言理解模組330解析語音信號V2後,無法令行動終端裝置300完成上述所請求的操作。亦即,語言理解模組330無法判斷出上述語音信號V2中的通話對象、查詢哪一時間內或哪一地點的天氣,以及無法根據一個不具完整語意的句子來執行。
當語音辨識結果具有可執行請求資訊時,則如步驟S414 所示,語言理解模組330會執行應答操作,且行動終端裝置300會關閉接收其他語音信號(底下以語音信號V3表示),藉以關閉行動終端裝置300的語音交互功能。
具體來說,當可執行請求資訊為操作指令時,則語言理 解模組330會啟動對應於操作指令的操作功能。例如,當可執行請求資訊為「調低螢幕的亮度」,則語言理解模組330會發出一調整亮度的信號於行動終端裝置300的系統,使其將螢幕的亮度調低。此外,當可執行請求資訊為詢問句時,則語言理解模組330會發送對應於此詢問句的語音應答。此時語言理解模組330可辨識出詢問句中的一個或多個關鍵詞,並依據這些關鍵詞而自搜尋引擎中進行查詢對應的答案,再透過語音輸出單元310來輸出語音應答。例如,當可執行請求資訊為「明天台北的溫度是幾度?」,則語言理解模組330可發出一查詢信號以透過搜尋引擎查詢對應的答案,並透過語音輸出單元310來輸出「明天台北的溫度是26 度」這個語音應答。
在此說明的是,由於上述的可執行請求資訊會讓行動終 端裝置300完成所請求的操作,因此語言理解模組330執行應答操作之後,此時的語音接收單元320會成關閉或休眠狀態,而不會接收到其他的語音信號V3。更進一步而言,當語音接收單元320被關閉接收語音信號V3時,若使用者欲透過語音的方式來令行動終端裝置300執行所請求的操作,則使用者需再呼叫具有識別資訊的語音,藉以透過語音喚醒模組350來進行判斷,進而再次啟動語音接收單元320。
當語音辨識結果不具有可執行請求資訊時,則如步驟 S408所示,語言理解模組330會執行語音對話模式(關於語音對話模式的詳細步驟,將於後詳述,如圖5所示)。在此,語言理解模組330會根據語音信號V2透過語音輸出單元310發送語音應答,並且會透過語音接收單元320,繼續接收另一個語音信號。也就是說,語言理解模組330會繼續接收及解析來自使用者的語音信號,據以做出另一個語音應答或者應答操作,直到語言理解模組330判斷出具有對話終止提示資訊的語音信號,或者行動終端裝置300已完成使用者的命令或請求為止。
如此一來,在本實施例中,使用者僅需發送具有識別資訊的語音信號,即可方便地與行動終端裝置300進行語音溝通。由於行動終端裝置300可在關閉語音接收單元320之後,再次根據所述具有識別資訊的語音信號而自動打開語音交互功能,故使 用者可完全地解放雙手,而和行動終端裝置300進行對話,並完全透過語音的方式來操控行動終端裝置300執行對應的應答操作等等。
為了使本領域的技術人員進一步了解上述語言理解模組330所執行的語音對話模式,底下再舉諸實施例為例,其中仍搭配圖3的行動終端裝置300來進行說明。
圖5是依照本發明一實施例所繪示之語音操控方法的流程圖。請同時參照圖3、圖4與圖5,語言理解模組330在執行語音對話模式(如圖4的步驟S408)時,於圖5的步驟S502中,語言理解模組330會產生語音應答,底下以語音應答A1表示,並透過語音輸出單元310輸出。由於語言理解模組330會因未接收到語音信號V2(如圖4的步驟S406)而執行語音對話模式,或者是因接收到不具有可執行請求資訊的語音信號V2而執行語音對話模式(如圖4的步驟S412),故此時,語言理解模組330會自動發送語音應答A1以詢問使用者的請求資訊(即使用者的意圖)。
舉例來說,當語音接收單元320未接收到語音信號V2時,語言理解模組330可透過語音輸出單元310發送「有什麼事嗎?」、「需要提供什麼服務?」等,不限於此,藉以詢問使用者。此外,當語言理解模組330所接收到的語音信號V2不具有可執行請求資訊時,語言理解模組330可透過語音輸出單元310發送「您說的是哪一個地方的天氣?」、「您說的是誰的電話?」或「您說的是什麼意思?」等等,不限於此。
需說明的是,語言理解模組330亦可根據這個不具有可執行請求資訊的語音信號V2,而找出匹配此語音信號V2的語音應答。換言之,語言理解模組330可進入語音聊天的模式,以和使用者進行溝通。其中,語言理解模組330可透語義資料庫306來實現上述的語音聊天的模式。詳細而言,語義資料庫306可記錄有多種候選答案,而語言理解模組330依據優先順序來選取這些候選答案的其中之一來做為語音應答。例如,語言理解模組330可依據眾人使用習慣,以決定這些候選答案的優先順序。或者,語言理解模組330可依據使用者的喜好或者習慣,以決定這些候選答案的優先順序。值得一提的是,語義資料庫306中亦可記錄先前語言理解模組330所輸出的語音應答的內容,並依據先前的內容來產生語音應答。上述選出語音應答的方法為舉例說明,本實施例並不以此為限制。
當語言理解模組330透過語音輸出單元310輸出語音應答之後,於步驟S504中,語言理解模組330會判斷語音接收單元320是否再接收到其他語音信號(底下以語音信號V4表示)。此處與圖4的步驟S406相似,可參照前述的說明。
當語音接收單元320接收語音信號V4時,則如步驟S506所示,語言理解模組330會判斷語音信號V4是否符合對話終止提示資訊,或者語音信號V4是否具有可執行請求資訊。對話終止提示資訊例如是特定詞彙,用以表示對話終止。亦即,語言理解模組330會對語音信號V4進行解析,倘若解析到上述的特定詞彙, 則判斷語音信號V4符合對話終止提示資訊。舉例來說,當語音信號V4符合「再見」或「沒事了」等這些對話終止提示資訊,則語音接收單元320不會繼續接收語音信號。另一方面,若語音信號V4具有可執行請求資訊,則語言理解模組330即會執行對應於可執行請求資訊的應答操作。並且,語言理解模組330會終止語音對話模式,而語音接收單元320亦不再繼續接收語音信號。在此與圖4的步驟S414相似,可參照前述的說明。
在步驟S506中,若語音信號V4符合對話終止提示資訊, 或者具有可執行請求資訊時,則如步驟S508所示,語言理解模組330則終止語音對話模式,並終止接收之後的語音信號,據以結束行動終端裝置300和使用者進行語音溝通。也就是說,此時若使用者欲透過語音的方式來操控行動終端裝置300,則需說出具有識別資訊(例如「小茜」這個名子)的語音信號,才可再啟動行動終端裝置300執行語音交互。
此外,在步驟S506中,若語音信號V4不符合對話終止 提示資訊,亦不具有可執行請求資訊時,則回到步驟S502,語言理解模組330會繼續透過語音輸出單元310發送語音應答來詢問使用者。
另一方面,返回步驟S504,當語音接收單元320未接收到語音信號V4,則如步驟S510所示,語言理解模組330會判斷於預設時間內未接收到語音信號V4的次數,是否超過預設次數。具體來說,若於預設時間內未接收到語音信號V4,則語言理解模 組330會記錄一筆次數。如此一來,當所記錄的次數未超過預設次數時,則回到步驟S502,語言理解模組330會繼續透過語音輸出單元310發送語音應答,藉以詢問使用者的意圖。其中,語言理解模組330可於語音接收單元320未接收到語音信號V4的預設時間之後,產生語音應答。上述的語音應答例如是「您還在嗎?」、「需要提供什麼服務?」等問句,不限於此。
反之,在步驟S510中,當所記錄的次數為超過預設次數 時,則如步驟S508所示,語言理解模組330會終止此語音對話模式,且語音接收單元320會終止接收之後的語音信號,亦即行動終端裝置300會結束與使用者進行語音溝通,以結束語音交互。
值得一提的是,當行動終端裝置300結束語音交互功能 之後,使用者不僅可呼叫具有識別資訊的語音信號,以和行動終端裝置300溝通,使用者亦可透過輔助操控裝置304,從輔助操控裝置304發出無線傳輸信號至行動終端裝置300,以啟動語音交互功能。於此,行動終端裝置300便會啟動語音接收單元320來接收語音信號。
依據上述,本實施例的行動終端裝置300可據符合識別 資訊的語音信號,而啟動行動終端裝置300的語音交互功能,藉以可更快速地提供語音服務。其中,在行動終端裝置300未啟動其語音交互功能時,語音喚醒模組350會偵測符合識別資訊的語音信號。倘若語音喚醒模組350接收到上述符合識別資訊的語音信號時,語音接收單元320則會被啟動,以接收在上述語音信號 之後的另一個語音信號。之後,語言理解模組330則會根據上述另一個語音信號來做出應答操作並終止行動終端裝置300的語音交互功能;或者根據上述另一個語音信號發送語音應答,藉以獲得使用者的意圖或和使用者對話,直到解析到對話終止提示資訊或做出應答操作為止。如此一來,使用者僅需發送具有識別資訊的語音信號,即可方便地與行動終端裝置300進行語音溝通,並在通話過程中可以完全解放雙手,因為行動終端裝置300是在一個對話回合後自動打開語音交互功能。藉此,使用者可更加便利地操控行動終端裝置300。
綜上所述,在本發明的語音接聽方法與行動終端裝置 中,行動終端裝置可自動從通常模式切換為第一模式。並且,當行動終端裝置在第一模式接收到來電通話時,行動終端裝置可發送語音通知以詢問使用者,而讓使用者可透過語音的方式發送語音信號來操控行動終端裝置進行回應。此時,行動終端裝置可根據來自使用者的語音信號進行解析,並根據解析後所獲得的語音辨識結果,執行對應的應答操作。如此一來,使用者可方便地根據行動終端裝置所發送的語音通知,透過語音的方式來回應來電通話。
此外,在本發明的語音操控方法與行動終端裝置中,行 動終端裝置可據符合識別資訊的語音信號,以啟動語音交互功能。在行動終端裝置未啟動其語音交互功能時,倘若行動終端裝置接收到符合識別資訊的語音信號,行動終端裝置則會接收在上 述語音信號之後的另一個語音信號。之後,行動終端裝置會根據上述另一個語音信號來做出應答操作並終止語音交互功能;或者根據上述另一個語音信號發送語音應答,藉以獲得使用者的意圖或和使用者對話,直到解析到對話終止提示資訊或做出應答操作為止。如此一來,使用者僅需發送具有識別資訊的語音信號,即可方便地與行動終端裝置進行語音溝通,並在通話過程中可以完全解放雙手,因為行動終端裝置總是在一個對話回合後自動打開語音輸入。且行動終端裝置可根據使用者所說的內容來終止語音交互,藉以可更快速地提供語音服務。基此,本發明的語音接聽方法、語音操控方法與行動終端裝置,可讓使用者可更加便利地操控行動終端裝置。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
S402、S404、S406、S408、S410、S412、S414‧‧‧語音操控方法的流程圖

Claims (20)

  1. 一種行動終端裝置,包括:一語音接收單元;一語音輸出單元;一語音喚醒模組,判斷是否接收到符合一識別資訊的一第一語音信號;以及一語言理解模組,耦接於該語音接收單元、該語音輸出單元以及該語音喚醒模組,其中當該語音喚醒模組判斷該第一語音信號符合該識別資訊時,該行動終端裝置啟動該語音接收單元,且該語言理解模組判斷該語音接收單元是否在該第一語音信號之後接收到一第二語音信號,倘若該語音接收單元未接收到該第二語音信號,則該語言理解模組執行一語音對話模式,倘若該語音接收單元接收到該第二語音信號,則該語言理解模組解析該第二語音信號而獲得一語音辨識結果,其中當該語音辨識結果具有一可執行請求資訊時,該語言理解模組執行一應答操作,且該行動終端裝置關閉該語音接收單元接收一第三語音信號,以及當該語音辨識結果不具有一可執行請求資訊時,該語言理解模組執行該語音對話模式。
  2. 如申請專利範圍第1項所述的行動終端裝置,其中執行該語音對話模式的步驟更包括:該語言理解模組自動發送語音應答以詢問使用者的請求資訊。
  3. 如申請專利範圍第2項所述的行動終端裝置,其中當使用者輸出一第四語音信號作為回應時,該語言理解模組判斷該第四語音信號是否符合一對話終止提示資訊,或是否具有該可執行請求資訊。
  4. 如申請專利範圍第3項所述的行動終端裝置,其中當該第四語音信號符合該終止提示資訊或具有該可執行請求資訊時,該語言理解模組根據對話終止提示資訊而終止該語音對話模式,或執行對應的該可執行請求資訊。
  5. 如申請專利範圍第3項所述的行動終端裝置,其中當該第四語音信號不符合該終止提示資訊且不具有該可執行請求資訊時,該語言理解模組再次執行該語音對話模式。
  6. 如申請專利範圍第5項所述的行動終端裝置,其中當該語言理解模組在執行該語音對話模式時,若使用者未輸出該第四語音信號時,該語言理解模組則再次執行該語音對話模式。
  7. 如申請專利範圍第5或第6項所述的行動終端裝置,其中當該語言理解模組於一預設時間內,由於使用者發出的該第四語音信號不符合該終止提示資訊或不具有該可執行請求資訊,亦或一直未發出該第四語音信號,而導致該語言理解模組自動發送另一語音應答以詢問使用者的請求資訊的次數超過該預設次數,則終止該語音對話模式,且該行動終端裝置關閉該語音接收單元。
  8. 如申請專利範圍第1項所述的行動終端裝置,其中當該可執行請求資訊為一操作指令時,該語言理解模組啟動對應於該操 作指令的一操作功能。
  9. 如申請專利範圍第1項所述的行動終端裝置,其中當該可執行請求資訊為一詢問句,該語言理解模組透過該語音輸出單元發送對應於該詢問句的一語音應答。
  10. 如申請專利範圍第1項所述的行動終端裝置,其中該行動終端裝置默認在一個對話回合後自動打開該語音接收單元,除非前一個對話回合中使用者發出一對話終止提示資訊。
  11. 一種語音操控方法,用於一行動終端裝置,該方法包括:判斷是否接收到符合一識別資訊的一第一語音信號;當該第一語音信號符合該識別資訊時,判斷在該第一語音信號之後是否接收到一第二語音信號;倘若未接收到該第二語音信號,則執行一語音對話模式;倘若接收到該第二語音信號,則解析該第二語音信號而獲得一語音辨識結果;當該語音辨識結果具有一可執行請求資訊時,執行一應答操作,並關閉接收一第三語音信號;以及當該語音辨識結果不具有一可執行請求資訊時,執行該語音對話模式。
  12. 如申請專利範圍第11項所述的語音操控方法,其中執行該語音對話模式的步驟更包括:該語言理解模組自動發送語音應答以詢問使用者的請求資訊。
  13. 如申請專利範圍第12項所述的語音操控方法,其中當使用者輸出一第四語音信號作為回應時,該語言理解模組判斷該第四語音信號是否符合一對話終止提示資訊,或者是否具有該可執行請求資訊。
  14. 如申請專利範圍第13項所述的語音操控方法,其中當該第四語音信號符合該終止提示資訊或是具有該可執行請求資訊時,該語言理解模組根據對話終止提示資訊而終止該語音對話模式,或執行對應的該可執行請求資訊。
  15. 如申請專利範圍第13項所述的語音操控方法,其中當該第四語音信號不符合該終止提示資訊且不具有該可執行請求資訊時,該語言理解模組再次執行該語音對話模式。
  16. 如申請專利範圍第15項所述的語音操控方法,其中當該語言理解模組在執行該語音對話模式時,若使用者未輸出該第四語音信號時,該語言理解模組則再次執行該語音對話模式。
  17. 如申請專利範圍第15項或第16項所述的語音操控方法,其中當該語言理解模組於一預設時間內,由於使用者發出的該第四語音信號不符合該終止提示資訊或者不具有該可執行請求資訊,或者一直未發出該第四語音信號,而自動發送另一語音應答以詢問使用者的請求資訊的次數超過該預設次數,則終止該語音對話模式,且該行動終端裝置關閉該語音接收單元。
  18. 如申請專利範圍第11項所述的語音操控方法,當該語音辨識結果具有該可執行請求資訊時,執行該應答操作的步驟包括: 當該可執行請求資訊為一操作指令時,啟動對應於該操作指令的一操作功能。
  19. 如申請專利範圍第11項所述的語音操控方法,其中當該語音辨識結果具有該可執行請求資訊時,執行該應答操作的步驟更包括:當該可執行請求資訊為一詢問句,發送對應於該詢問句的一語音應答。
  20. 如申請專利範圍第11項所述的語音操控方法,其中該行動終端裝置默認在一個對話回合後自動打開一語音接收單元,除非前一個對話回合中使用者發出一對話終止提示資訊。
TW102125767A 2013-04-10 2013-07-18 語音操控方法與行動終端裝置 TWI489372B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310123229XA CN103198831A (zh) 2013-04-10 2013-04-10 语音操控方法与移动终端装置
CN201310291242.6A CN104104790A (zh) 2013-04-10 2013-07-11 语音操控方法与移动终端装置

Publications (2)

Publication Number Publication Date
TW201439896A TW201439896A (zh) 2014-10-16
TWI489372B true TWI489372B (zh) 2015-06-21

Family

ID=48721306

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102125767A TWI489372B (zh) 2013-04-10 2013-07-18 語音操控方法與行動終端裝置

Country Status (3)

Country Link
US (1) US20140309996A1 (zh)
CN (3) CN103198831A (zh)
TW (1) TWI489372B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110364143A (zh) * 2019-08-14 2019-10-22 腾讯科技(深圳)有限公司 语音唤醒方法、装置及其智能电子设备
TWI790647B (zh) * 2021-01-13 2023-01-21 神盾股份有限公司 語音助理系統

Families Citing this family (152)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP4138075A1 (en) 2013-02-07 2023-02-22 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
EP3040985B1 (en) * 2013-08-26 2023-08-23 Samsung Electronics Co., Ltd. Electronic device and method for voice recognition
CN103595869A (zh) * 2013-11-15 2014-02-19 华为终端有限公司 一种终端语音控制方法、装置及终端
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6359327B2 (ja) * 2014-04-25 2018-07-18 シャープ株式会社 情報処理装置および制御プログラム
US10553098B2 (en) 2014-05-20 2020-02-04 Ooma, Inc. Appliance device integration with alarm systems
US9633547B2 (en) 2014-05-20 2017-04-25 Ooma, Inc. Security monitoring and control
KR102245098B1 (ko) * 2014-05-23 2021-04-28 삼성전자주식회사 휴대 단말 및 그 제어 방법
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US11330100B2 (en) * 2014-07-09 2022-05-10 Ooma, Inc. Server based intelligent personal assistant services
CN104253902A (zh) * 2014-07-21 2014-12-31 宋婉毓 与智能语音设备进行语音交互的方法
CN105490890A (zh) * 2014-09-16 2016-04-13 中兴通讯股份有限公司 智能家庭终端及其控制方法
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
JP6259530B2 (ja) * 2014-10-24 2018-01-10 株式会社ソニー・インタラクティブエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
KR101643560B1 (ko) * 2014-12-17 2016-08-10 현대자동차주식회사 음성 인식 장치, 그를 가지는 차량 및 그 방법
CN105788600B (zh) * 2014-12-26 2019-07-26 联想(北京)有限公司 声纹识别方法和电子设备
CN104598192B (zh) * 2014-12-29 2018-08-07 联想(北京)有限公司 信息处理方法及电子设备
CN104683584B (zh) * 2015-03-06 2017-08-25 广东欧珀移动通信有限公司 一种移动终端便捷通话方法及***
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) * 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
CN104821168B (zh) * 2015-04-30 2017-03-29 北京京东方多媒体科技有限公司 一种语音识别方法及装置
US10009286B2 (en) 2015-05-08 2018-06-26 Ooma, Inc. Communications hub
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
CN104916015B (zh) * 2015-05-25 2018-02-06 安恒世通(北京)网络科技有限公司 一种声控锁具的方法
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10235129B1 (en) 2015-06-29 2019-03-19 Amazon Technologies, Inc. Joining users to communications via voice commands
CN106326307A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种语言交互方法
CN105100455A (zh) * 2015-07-06 2015-11-25 珠海格力电器股份有限公司 语音控制接听来电通话的方法和装置
CN105224278B (zh) * 2015-08-21 2019-02-22 百度在线网络技术(北京)有限公司 语音交互服务处理方法及装置
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
CN105471712A (zh) * 2015-11-25 2016-04-06 深圳狗尾草智能科技有限公司 一种机器人答复***及其答复方法
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105704327B (zh) * 2016-03-31 2019-06-14 宇龙计算机通信科技(深圳)有限公司 一种拒接电话的方法及***
US10854199B2 (en) 2016-04-22 2020-12-01 Hewlett-Packard Development Company, L.P. Communications with trigger phrases
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
TWI584270B (zh) * 2016-06-15 2017-05-21 瑞昱半導體股份有限公司 語音控制系統及其方法
CN107644640A (zh) * 2016-07-22 2018-01-30 佛山市顺德区美的电热电器制造有限公司 一种信息处理方法及家电设备
US10580404B2 (en) * 2016-09-01 2020-03-03 Amazon Technologies, Inc. Indicator for voice-based communications
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
CN106603826A (zh) * 2016-11-29 2017-04-26 维沃移动通信有限公司 一种应用事件的处理方法及移动终端
CN106782554B (zh) * 2016-12-19 2020-09-25 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN106653021B (zh) * 2016-12-27 2020-06-02 上海智臻智能网络科技股份有限公司 语音唤醒的控制方法、装置及终端
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN106782541A (zh) * 2017-02-24 2017-05-31 太仓市同维电子有限公司 一种带有语音识别功能的家庭网关设计方法
CN107016070B (zh) * 2017-03-22 2020-06-02 北京光年无限科技有限公司 一种用于智能机器人的人机对话方法及装置
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
CN107291451B (zh) * 2017-05-25 2021-01-19 深圳市冠旭电子股份有限公司 语音唤醒方法及装置
US11269393B2 (en) * 2017-06-02 2022-03-08 Apple Inc. Techniques for adjusting computing device sleep states
CN109145096A (zh) * 2017-06-27 2019-01-04 中国海洋大学 基于规则库的个性化日常陪护机器人自动问答***
US20190019505A1 (en) * 2017-07-12 2019-01-17 Lenovo (Singapore) Pte. Ltd. Sustaining conversational session
TWI655624B (zh) * 2017-08-03 2019-04-01 晨星半導體股份有限公司 聲控裝置及相關的聲音訊號處理方法
CN107895578B (zh) * 2017-11-15 2021-07-20 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN107886948A (zh) 2017-11-16 2018-04-06 百度在线网络技术(北京)有限公司 语音交互方法及装置,终端,服务器及可读存储介质
CN108182939A (zh) * 2017-12-13 2018-06-19 苏州车萝卜汽车电子科技有限公司 用于自助服务的语音处理方法及装置
CN110136719B (zh) * 2018-02-02 2022-01-28 上海流利说信息技术有限公司 一种实现智能语音对话的方法、装置及***
CN110164426B (zh) * 2018-02-10 2021-10-26 佛山市顺德区美的电热电器制造有限公司 语音控制方法和计算机存储介质
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
CN108847216B (zh) * 2018-06-26 2021-07-16 联想(北京)有限公司 语音处理方法及电子设备、存储介质
CN108847236A (zh) * 2018-07-26 2018-11-20 珠海格力电器股份有限公司 语音信息的接收方法及装置、语音信息的解析方法及装置
CN108986809B (zh) * 2018-08-30 2020-01-03 广东小天才科技有限公司 一种便携式设备及其唤醒方法和装置
CN109377989B (zh) * 2018-09-27 2021-03-12 昆山品源知识产权运营科技有限公司 唤醒方法、装置、***、设备及存储介质
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109243462A (zh) * 2018-11-20 2019-01-18 广东小天才科技有限公司 一种语音唤醒方法及装置
CN109545211A (zh) * 2018-12-07 2019-03-29 苏州思必驰信息科技有限公司 语音交互方法及***
CN109686368B (zh) * 2018-12-10 2020-09-08 北京梧桐车联科技有限责任公司 语音唤醒应答处理方法及装置、电子设备及存储介质
CN109788128A (zh) * 2018-12-27 2019-05-21 深圳市优必选科技有限公司 一种来电提示方法、来电提示装置及终端设备
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN109584878A (zh) * 2019-01-14 2019-04-05 广东小天才科技有限公司 一种语音唤醒方法及***
CN109767767A (zh) * 2019-01-25 2019-05-17 广州富港万嘉智能科技有限公司 一种语音交互方法、***、电子设备及存储介质
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
CN110025172A (zh) * 2019-05-27 2019-07-19 广东金石卖场建设有限公司 一种语音控制的服装展示架
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110246497A (zh) * 2019-07-09 2019-09-17 王振仁 一种语音控制灯具的控制方法、***及介质
CN110473556B (zh) * 2019-09-17 2022-06-21 深圳市万普拉斯科技有限公司 语音识别方法、装置和移动终端
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN112732340B (zh) 2019-10-14 2022-03-15 思必驰科技股份有限公司 人机对话处理方法及装置
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111899734A (zh) * 2020-07-16 2020-11-06 陕西闪现智能科技有限公司 智能语音对话装置及其运行方法、智能语音对话机器人
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112233672A (zh) * 2020-09-30 2021-01-15 成都长虹网络科技有限责任公司 分布式语音控制方法、***、计算机设备和可读存储介质
CN112435663A (zh) * 2020-11-11 2021-03-02 青岛歌尔智能传感器有限公司 命令语音管理方法、装置、设备及介质
AU2021448947A1 (en) * 2021-06-01 2023-12-21 Paymentus Corporation Methods, apparatuses, and systems for dynamically navigating interactive communication systems
CN114020189B (zh) * 2022-01-05 2022-04-19 浙江口碑网络技术有限公司 易查模式开启方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010047263A1 (en) * 1997-12-18 2001-11-29 Colin Donald Smith Multimodal user interface
TW200518041A (en) * 2003-11-21 2005-06-01 Acer Inc Speech interactive method and
US20050165609A1 (en) * 1998-11-12 2005-07-28 Microsoft Corporation Speech recognition user interface
TW201013635A (en) * 2008-09-24 2010-04-01 Mitac Int Corp Intelligent voice system and method thereof

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842168A (en) * 1995-08-21 1998-11-24 Seiko Epson Corporation Cartridge-based, interactive speech recognition device with response-creation capability
US7292678B2 (en) * 2000-08-31 2007-11-06 Lamson Holdings Llc Voice activated, voice responsive product locator system, including product location method utilizing product bar code and aisle-situated, aisle-identifying bar code
JP4209247B2 (ja) * 2003-05-02 2009-01-14 アルパイン株式会社 音声認識装置および方法
US20050209858A1 (en) * 2004-03-16 2005-09-22 Robert Zak Apparatus and method for voice activated communication
CN100474871C (zh) * 2005-12-20 2009-04-01 中国人民解放军信息工程大学 一种信号传输信道检测方法和呼叫控制***
US8165886B1 (en) * 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10705794B2 (en) * 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
CN102332269A (zh) * 2011-06-03 2012-01-25 陈威 呼吸面具中呼吸噪声的消除方法
US20130031476A1 (en) * 2011-07-25 2013-01-31 Coin Emmett Voice activated virtual assistant
CN102447786A (zh) * 2011-11-14 2012-05-09 候万春 一种个人专用生活协助装置和方法
CN202413790U (zh) * 2011-12-15 2012-09-05 浙江吉利汽车研究院有限公司 一种汽车自适应性语音提示***
CN102722662A (zh) * 2012-05-14 2012-10-10 深圳职业技术学院 一种计算机的声控锁屏和解屏***及方法
KR102009423B1 (ko) * 2012-10-08 2019-08-09 삼성전자주식회사 음성 인식을 이용한 미리 설정된 동작 모드의 수행 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010047263A1 (en) * 1997-12-18 2001-11-29 Colin Donald Smith Multimodal user interface
US20050165609A1 (en) * 1998-11-12 2005-07-28 Microsoft Corporation Speech recognition user interface
TW200518041A (en) * 2003-11-21 2005-06-01 Acer Inc Speech interactive method and
TW201013635A (en) * 2008-09-24 2010-04-01 Mitac Int Corp Intelligent voice system and method thereof

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110364143A (zh) * 2019-08-14 2019-10-22 腾讯科技(深圳)有限公司 语音唤醒方法、装置及其智能电子设备
CN110364143B (zh) * 2019-08-14 2022-01-28 腾讯科技(深圳)有限公司 语音唤醒方法、装置及其智能电子设备
TWI790647B (zh) * 2021-01-13 2023-01-21 神盾股份有限公司 語音助理系統

Also Published As

Publication number Publication date
TW201439896A (zh) 2014-10-16
CN103198831A (zh) 2013-07-10
CN104104790A (zh) 2014-10-15
US20140309996A1 (en) 2014-10-16
CN107274897A (zh) 2017-10-20

Similar Documents

Publication Publication Date Title
TWI489372B (zh) 語音操控方法與行動終端裝置
TWI535258B (zh) 語音接聽方法與行動終端裝置
AU2019246868B2 (en) Method and system for voice activation
US9479911B2 (en) Method and system for supporting a translation-based communication service and terminal supporting the service
US9978369B2 (en) Method and apparatus for voice control of a mobile device
CN107895578B (zh) 语音交互方法和装置
US11949818B1 (en) Selecting user device during communications session
CA3066344C (en) System and method for asynchronous multi-mode messaging
US9111538B2 (en) Genius button secondary commands
KR20190075800A (ko) 지능형 개인 보조 인터페이스 시스템
US20060074658A1 (en) Systems and methods for hands-free voice-activated devices
US20160171981A1 (en) Method for Embedding Voice Mail in a Spoken Utterance Using a Natural Language Processing Computer System
CN111357048A (zh) 用于控制家庭助手装置的方法和***
CN107978316A (zh) 控制终端的方法及装置
CN113260974B (zh) 通信数据处理方法和***
JP2007529916A (ja) コンピュータでの音声通信
KR20200045851A (ko) 음성 인식 서비스를 제공하는 전자 장치 및 시스템
EP3089160B1 (en) Method and apparatus for voice control of a mobile device