TW201635134A - 一種語音控制方法及裝置 - Google Patents

一種語音控制方法及裝置 Download PDF

Info

Publication number
TW201635134A
TW201635134A TW104129021A TW104129021A TW201635134A TW 201635134 A TW201635134 A TW 201635134A TW 104129021 A TW104129021 A TW 104129021A TW 104129021 A TW104129021 A TW 104129021A TW 201635134 A TW201635134 A TW 201635134A
Authority
TW
Taiwan
Prior art keywords
instruction
voice
application
foreground
command
Prior art date
Application number
TW104129021A
Other languages
English (en)
Inventor
shan-wen Shi
Bo-Xue Zhang
li-juan Cai
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201635134A publication Critical patent/TW201635134A/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申請公開了一種語音控制方法及裝置,用以提高語音控制效率。該方法語音系統接收使用者輸入的語音指令;並判斷該語音指令是否與前台應用相關聯;若是,則將與所述語音指令對應的控制指令發送給所述前台應用,以使得所述應用執行所述控制指令;否則,在後台應用中確定出與所述語音指令相關聯的應用,將語音指令對應的控制指令發送給確定出的後台應用,以使得所述應用執行所述控制指令,這樣,可有效提高語音控制的效率。

Description

一種語音控制方法及裝置
本申請涉及電腦技術領域,尤其涉及一種語音控制方法及裝置。
隨著電腦資訊技術的飛速發展,目前,人機互動的方式已經逐漸從肢體接觸擴展到語音控制,以提高人機互動的便利性。
目前的語音控制是通過終端(如,車載導航、手機、電腦等)上安裝的語音助手實現的。具體的,使用者可通過語音助手輸入語音指令,該語音助手根據該語音指令執行相應的任務(即進行語音控制)。
目前的語音助手在進行語音控制時,往往需要通過與使用者輸入的語音指令相關聯的應用(Application,App)來執行該語音指令。
考慮到在實際應用場景中,使用者在通過語音助手啟動某個應用(以下稱為第一個應用)後,可能還會通過語音助手啟動其他應用(以下稱為第二個應用)。這時,該後啟動的第二個應用會在前台運行,而先啟動的第一個應 用就會由前台運行切換至後台運行。此外,在實際應用場景中,用戶在啟動第二個應用之後,往往還會基於第一個應用來輸入語音指令,以使得該第一個應用執行該語音指令。
但是,目前的語音助手只能控制前台應用執行基於該前台應用的語音指令,無法控制後台應用執行進階語音指令,這就會導致語音控制效率較低的問題。
例如,假設語音助手接收使用者輸入的“我要聽劉德華的音樂”語音指令,則語音助手會在前台運行音樂App,控制音樂App播放劉德華的某首歌曲(執行語音指令),若語音助手接收到使用者輸入的“我現在在哪裡?”語音指令,則語音助手會將音樂App從前台切換到後台運行,同時,在前台運行地圖App,控制地圖App確定當前地理位置。然後,當語音助手接收到使用者輸入的“我要聽劉德華的下一首音樂”,由於語音助手確定當前前台運行的地圖App與“我要聽劉德華的下一首音樂”不相關,因此,會給出提示資訊,如,“我不知道你在說什麼”,拒絕執行該“我要聽劉德華的下一首音樂”這一語音指令,則語音控制效率較低。
本申請實施例提供一種語音控制方法及裝置,用以提高語音控制效率。
本申請實施例提供的一種語音控制方法,包括: 語音系統接收使用者輸入的語音指令;並判斷該語音指令是否與前台應用相關聯;若是,則將與所述語音指令對應的控制指令發送給所述前台應用,以使得所述應用執行所述控制指令;否則,在後台應用中確定出與所述語音指令相關聯的應用,將語音指令對應的控制指令發送給確定出的後台應用,以使得所述應用執行所述控制指令。
本申請實施例提供的一種語音控制裝置,包括:第一接收模組,用於接收使用者輸入的語音指令;判斷模組,用於判斷該語音指令是否與前台應用相關聯;控制模組,用於在所述判斷模組判斷語音指令與前台應用相關聯時,將與所述語音指令對應的控制指令發送給所述前台應用,以使得所述應用執行所述控制指令;或者在所述判斷模組判斷語音指令與前台應用不相關聯時,在後台應用中確定出與所述語音指令相關聯的應用,將語音指令對應的控制指令發送給確定出的後台應用,以使得所述應用執行所述控制指令。
本申請實施例提供一種語音控制方法及裝置,該方法語音系統接收使用者輸入的語音指令;並判斷該語音指令是否與前台應用相關聯;若是,則將與所述語音指令對應的控制指令發送給所述前台應用,以使得所述應用執行所述控制指令;否則,在後台應用中確定出與所述語音指令相關聯的應用,將語音指令對應的控制指令發送給確定出 的後台應用,以使得所述應用執行所述控制指令,可見,該語音系統不僅可控制前台應用執行基於該前台應用的語音指令,還可以控制後台應用執行進階語音指令,從而,可有效提高語音控制的效率。
31‧‧‧第一接收模組
32‧‧‧判斷模組
33‧‧‧控制模組
34‧‧‧確定模組
35‧‧‧內容壓入模組
36‧‧‧內容彈出模組
37‧‧‧第二接收模組
38‧‧‧第三接收模組
39‧‧‧第一展示模組
40‧‧‧顯示模組
41‧‧‧隱藏模組
42‧‧‧第二展示模組
43‧‧‧第三展示模組
此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用於解釋本申請,並不構成對本申請的不當限定。在附圖中:圖1為本申請實施例提供的語音控制方法總體流程示意圖;圖2為本申請實施例提供的語音控制方法具體流程示意圖;圖3為本申請實施例提供的語音控制裝置結構示意圖。
為使本申請的目的、技術方案和優點更加清楚,下面將結合本申請具體實施例及相應的附圖對本申請技術方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請一部分實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本申請保護的範圍。
圖1為本申請實施例提供的語音控制方法,具體包括以下步驟:
S101:語音系統接收使用者輸入的語音指令。
在本申請實施例中,所述的語音系統為安裝在終端上的語音系統,該語音系統用於接收使用者輸入的語音指令,並將語音指令對應的控制指令發送給相應的App,以使得App執行接收到的控制指令,實現語音控制;其中所述的終端可包括但不限於:手機、移動電腦、車載設備等終端。
在實際應用場景中,使用者往往需要向語音系統輸入語音指令,語音系統可接收使用者輸入的語音指令。
例如,用戶在駕車過程中想要聽音樂時,則該語音系統可接收使用者輸入的“我要聽音樂”這一語音指令。
又例如,上例中,音樂App接收到該語音指令對應的控制命令時,會展示介面內容(即App中與語音指令相關的頁面內容),比如展示音樂清單供使用者選擇一首待播放音樂,使用者想要選擇介面內容中展示的第三首音樂時,則該語音系統可接收使用者輸入的“選擇第三首”這一語音指令。
又例如,在上例中,假設音樂App正在前台運行並播放第三首音樂,使用者想知道當前地理位置時,則語音系統可接收使用者輸入的“我在哪裡”的語音指令。
上述三個例子中,“我要聽音樂”和“選擇第三首”這兩個語音指令為與音樂App相關的指令,“我在哪裡” 是與地圖App相關的指令。此外,“我要聽音樂”和“我在哪裡”為要求語音系統執行新的任務的指令,將這類型指令稱為初始指令;“選擇第三首”這一指令是基於“我要聽音樂”這一初始指令的指令,將這類型指令稱為過程指令。
需要說明的是,本申請實施例中,App在前台運行時,會展示介面內容,在後台運行時,當然也就不會展示介面內容了,因此,只要是正在展示介面內容的App均說明該App正在前台運行,只要App在前台運行就會展示介面內容。
S102:判斷該語音指令是否與前台應用相關聯,若是,執行步驟S103,否則,執行步驟S104。
在本申請實施例中,所述的語音系統中安裝的App可包括:即時通訊App、地圖App、音樂App、視頻App等不同類型的App,這些App中,有些App可能正在前台運行,有些App可能正在後台運行,其餘App可能未啟動。
在本申請實施例中,語音系統在判斷該語音指令是否與前台應用相關聯時,具體可根據該語音指令的內容,判斷該語音指令的內容是否與前台App相關聯。
例如,假設音樂App在前台運行,地圖App在後台運行,若語音系統接收到“我要聽下一首音樂”這一語音指令時,可解析並獲取語音指令的內容,如,“我要聽音樂,且需要聽下一首”,根據該語音指令的內容,確定該 語音指令與前台運行的音樂App相關聯,然後可將與“我要聽下一首音樂”這一語音指令對應的控制指令發送給與語音指令相關聯的音樂App,以使得該音樂App執行“我要聽下一首音樂”這一語音指令對應的控制指令。
上例中,若語音系統接收到“我想知道當前地理位置”這一語音指令時,可解析並獲取語音指令的內容,如,“確定當前地理位置”,根據該語音指令的內容,可確定該語音指令與前台運行的音樂App不關聯,進一步的,可在後台應用中確定出與該語音指令相關聯的地圖App,將語音指令對應的控制指令發送給該地圖App,以使得該地圖App執行該控制指令。
上述根據語音指令的內容判斷語音指令是否與前台App相關聯的方法中,針對每一個語音指令,需要首先對該語音指令進行內容分析,然後遍歷前台App,根據語音指令的內容判斷該語音指令是否與前台App相關聯,該方法確定App的效率較低,語音系統的開銷也較大。
因此,考慮到語音指令可對應不同的指令類型,如,不同的語音指令與不同類型的App相關聯。
在本申請實施例中,不同類型的App可包括:未啟動App、前台App、和後台App,其中,未啟動App、前台App、後台App可分別對應於第一指令、第二指令和第三指令這三種指令類型。可預先為不同指令類型設置不同的判斷該語音指令是否與前台應用相關聯的方法,具體的,在預設的各指令類型中,確定出與當前接收到的語音指令 相匹配的指令類型,根據確定出的指令類型,判斷該語音指令是否與前台應用相關聯。
其中,在預設的各指令類型中,確定出與當前接收到的語音指令相匹配的指令類型,具體可根據語音指令中的關鍵字和/或語音指令的語義確定該語音指令的指令類型,具體的,可以預先為不同指令類型設置不同的關鍵字,即,每一個指令類型對應若干個關鍵字構成的集合,若當前接收到的語音指令中的關鍵字與某一個指令類型對應的預設關鍵字相匹配時,則可根據該某一個指令類型確定語音指令對應的App;和/或預先為不同指令類型設置不同的語義,即,每一個指令類型對應若干個語義構成的集合,若當前接收到的語音指令中的關鍵字與某一個指令類型對應的預設語義相匹配時,則可根據該某一個指令類型確定語音指令對應的App。
例如,預設指令類型包括與音樂App相關的指令和與地圖App相關的指令。則,當語音系統當前接收到的語音指令為“我要聽音樂”時,可以根據語音指令中的關鍵字“音樂”確定該語音指令與預設的音樂App相關的指令相匹配,確定音樂App為該語音指令對應的App。若當前接收到的語音指令為“我在哪裡”,則通過語義分析工具分析該語音指令,當通過語義分析工具得到的語義為“確定當前的地理位置”,則將可確定當前地理位置的地圖App作為該語音指令對應的App。
所述的語義分析工具可以位於終端側,也可以位於網 路側。當語義分析工具位於網路側時,語音系統可以通過終端將使用者輸入的語音指令發送給網路側的伺服器,伺服器在確定出該語音指令的語義之後,將語義返回給終端的語音系統,供該語音系統確定App使用。
S103:將與所述語音指令對應的控制指令發送給所述前台應用,以使得所述應用執行所述控制指令。
在本申請實施例中,當判斷該語音指令與前台App相關聯時,說明該語音指令是基於前台App(即基於介面內容)的語音指令,則直接將與該語音指令對應的控制指令發送給與語音指令相關聯的前台App,以使得該前台App執行相應的控制指令。
S104:在後台應用中確定出與所述語音指令相關聯的應用,將語音指令對應的控制指令發送給確定出的後台應用,以使得所述應用執行所述控制指令。
在本申請實施例中,當判斷該語音指令與前台App不關聯時,說明該語音指令不是基於介面內容的語音指令,該語音指令可能是基於後台App的語音指令,也可能是基於未啟動的App的語音指令,則首先從後台App中判斷該語音指令是否與後台App相關聯,若是,則將語音指令對應的控制指令發送給確定出的後台App,以使得該後台App執行該控制指令。
在本申請實施例中,所述的控制指令可以是根據語音指令的內容預設的控制指令,該控制指令用於指示確定出的當前未啟動的App啟動且在前台運行,以及展示介面內 容;該控制指令還用於指示確定出的後台運行的App切換至前台運行,並展示介面內容。
例如,“我要聽音樂”這一語音指令的控制指令可以為“若音樂App在後台運行時,切換至前台運行並展示音樂清單,且播放第一首音樂”或者“若音樂App未啟動,則啟動音樂App在前台運行,並展示音樂清單,且播放第一首音樂”。
又例如,“我在哪裡”這一語音指令的控制指令可以為“若地圖App在後台運行時,切換至前台運行並展示電子地圖,標識當前地理位置”或者“若地圖App未啟動,則啟動地圖App在前台運行,並展示電子地圖,標識當前地理位置”。
沿用上例,若未啟動的音樂App接收到語音系統發送的“若音樂App未啟動,則啟動音樂App在前台運行,並展示音樂清單,且播放第一首音樂”和“若音樂App在後台運行時,切換至前台運行並展示音樂清單,且播放第一首音樂”的控制指令時,執行該控制指令,也即,音樂App啟動音樂App在前台運行,並展示音樂清單,且播放第一首音樂。
假設音樂App在前台運行並播放音樂時,語音系統又接收到“我在哪裡”的語音指令,並確定該語音指令對應的地圖App後,向該地圖App發送“若地圖App在後台運行時,切換至前台運行並展示電子地圖,標識當前地理位置”和“若地圖App未啟動,則啟動地圖App在前台 運行,並展示電子地圖,標識當前地理位置”的控制指令,地圖App執行該控制指令,亦即,地圖App啟動地圖App在前台運行,並展示電子地圖,標識當前地理位置,此時,由於音樂App與地圖App相互獨立,因此,音樂App並不會退出運行,而是在後台運行,例如,在後台繼續播放音樂。
上述圖1所示的方法,語音系統接收使用者輸入的語音指令,並判斷該語音指令是否與前台應用相關聯;若是,則將與所述語音指令對應的控制指令發送給所述前台應用,以使得所述應用執行所述控制指令;否則,在後台應用中確定出與所述語音指令相關聯的應用,將語音指令對應的控制指令發送給確定出的後台應用,以使得所述應用執行所述控制指令,這樣,該語音系統不僅可控制前台應用執行基於該前台應用的語音指令,還可以控制後台應用執行進階語音指令,從而,可有效提高語音控制的效率。
例如,語音系統接收使用者輸入的“我要聽音樂”這一語音指令時,啟動與該語音指令相關聯的音樂App在前台運行,當語音系統在播放音樂時,接收到“我在哪裡”這一語音指令時,啟動地圖App,且將音樂App切換至後台運行,當語音系統再次接收到與音樂App相關的語音指令,如“我要聽下一首”時,判斷該語音指令是否與地圖App(前台App)相關聯,若不關聯,則判斷該語音指令是否與音樂App(後台App)相關聯,當判斷語音指令 “我要聽下一首”與音樂App(後台App)相關聯,則將“我要聽下一首”這一語音指令對應的控制命令發送給音樂App,以使得音樂App執行“我要聽下一首”的控制指令。
在本申請實施例中,所述語音系統為語音作業系統,該語音作業系統用於控制安裝於該語音系統中的任意一個應用執行所述控制指令,即語音系統為一個全域控制系統。
在本申請實施例中,當通過步驟S102接收到的語音指令與前台應用和後台應用均不關聯時,從未啟動的應用中確定出與語音指令相關聯的應用;將前台運行應用切換至後台運行,啟動與所述語音指令相關聯的應用並在前台運行;將語音指令對應的控制指令發送給前台運行的應用,以使得所述應用執行所述控制指令。
可見,本申請實施例提供的語音系統能夠實現多應用同時運行,也就是說,該語音系統支援多工併發,也即,有新的應用啟動時,正在運行的應用不需要退出啟動(即結束運行),而是可以繼續在前台或後台運行,此外,當再次接收到與後台App相關的語音指令(該語音指令稱為進階語音指令)時,該後台App可執行該語音指令並切換至前台運行。
考慮到實際應用場景中,若使用者當前輸入的語音指令是基於某一個初始指令的過程指令時,使用者輸入的語音指令都比較簡短,以至於語音系統無法根據當前輸入的 語音指令的內容確定該語音指令對應的App。
例如,假設語音系統接收到“我要聽音樂”語音指令,並通過前台音樂App播放介面內容中的第一個音樂,當使用者突然想要聽介面內容中的第五個音樂時,使用者會直接輸入“選擇第五個”的語音指令,但是語音系統接收到該“選擇第五個”語音指令時,根據該語音指令的內容無法判斷該語音指令與哪一個App相關聯,因此,也就無法準確的判斷該語音指令是否與前台App相關聯。
為了提高判斷語音指令是否與前台App相關聯的準確性,在本申請實施例中,可通過判斷語音指令的指令類型來準確判斷語音指令是否與前台App相關聯,具體的,預設指令類型包括:即前台App和後台App無關的第一指令,與前台App相關聯的第二指令、與後台App相關聯的第三指令。
其中,與前台App相關聯的第二指令既包括初始指令也包括基於介面的過程指令,與後台App相關聯的第三指令既包括初始指令也包括基於狀態的過程指令。與前台App和後台App無關的第一指令一般為初始指令,而不是過程指令。
在本申請實施例中,將與歷史語音指令無直接關係的語音指令,或者說與歷史語音指令不屬於一個會話的語音指令,稱為初始指令。將與歷史語音指令有直接關係,即基於歷史語音指令的新的語音指令為進階語音指令,也稱為過程指令。
比如,語音系統接收到“我要聽歌”這一語音指令時,該語音指令不是基於某一語音指令的語音指令,而是一個需要語音系統執行新任務的初始指令。當語音系統接收到“下一首”這一語音指令時,該語音指令一般是基於“我要聽歌”這一初始指令的語音指令,這類型語音指令稱為進階語音指令或過程指令。
只有已經啟動的應用才能成功執行過程指令,但是,所有應用(包括已經啟動或未啟動的應用)均可以執行初始指令。
由於在已經啟動的應用中,至少包括前台應用和後台應用,因此,過程指令可包括基於介面的過程指令(即基於前台應用的過程指令),還包括基於狀態的過程指令(即基於後台應用的過程指令)。
例如,可以將包括“啟動”、“我要”、“我想”、“哪裡”、“哪兒”等關鍵字的語音指令定義為初始指令,或者將語義為“用戶想要啟動某項應用”、“用戶想要確定當前的地理位置”等的語音指令定義為初始指令。
又例如,可以將包括“關閉”、“切換”、“選擇”、“確認”或“取消”等關鍵字的語音指令定義為基於介面的過程指令,或者將語義為“應用前後台切換”、“選擇介面內容”等的語音指令定義為基於介面的過程指令。
還例如,可以將包括“上一”、“下一”、“最前”、“最後”、“暫停”、“開始”等關鍵字的語音指 令定義為基於狀態的過程指令,或者將語義為“切換上一個”、“切換下一個”、“暫停播放”等的語音指令定義為基於狀態的過程指令。
當語音系統接收到使用者輸入的語音指令時,在預設的指令類型中,確定出與當前語音指令相匹配的指令類型,具體可通過上述的語音指令中的關鍵字或語音指令的語義確定該語音指令的指令類型。
以通過語音指令的語義確定該語音指令的指令類型為例說明,則預先為不同指令類型設置不同的語義,即,每一個指令類型對應若干個語義構成的集合,如,預設第一指令對應的第一語義集合、第二指令對應第二語義集合、第三指令對應的第三語義集合,各語義集合中的語義互不相同; 在預設的各指令類型中,確定出與所述語音指令相匹配的指令類型,具體的:確定所述語音指令的語義;根據所述語音指令的語義,在預設的各指令類型分別對應的語義集合中,查找是否存在與所述語音指令的語義相匹配的語義,若是,則確定查找出的語義所在的語義集合對應的指令類型為與所述語音指令相匹配的指令類型。更具體的,確定所述語音指令的語義;根據所述語音指令的語義,分別在預設的第一指令對應的第一語義集合、第二指令對應的第二語義集合和第三指令對應的第三語義集合中,查找是否存在與所述語音指令的語義相匹配的語義;若確定在所述第一語義集合中存在與所述語音指令的語義 相匹配的語義,則確定第一指令為與所述語音指令相匹配的指令類型;若確定在所述第二語義集合中存在與所述語音指令的語義相匹配的語義,則確定第二指令為與所述語音指令相匹配的指令類型;若確定在所述第三語義集合中存在與所述語音指令的語義相匹配的語義,則確定第三指令為與所述語音指令相匹配的指令類型。
在本申請實施例中,根據所述指令類型,判斷該語音指令是否與前台應用相關聯,具體包括: 確定與所述語音指令相匹配的指令類型是否為第一指令,若是,則確定該語音指令與前台應用和後台應用均不關聯,否則,確定該語音指令與前台應用或後台應用關聯;或者 確定與所述語音指令相匹配的指令類型是否為第二指令,若是,則確定該語音指令與前台應用相關聯,否則,確定該語音指令不與前台應用相關聯;或者 確定與所述語音指令相匹配的指令類型是否為第三指令,若是,則確定該語音指令與後台應用相關聯,否則,確定該語音指令不與後台應用相關聯。
例如,當語音系統接收到“我要聽音樂”時,確定該語音指令中存在與初始指令對應的關鍵字“我要”,則確定該語音指令與初始指令(第一指令)相匹配,則確定語音指令與前台App和後台App均不關聯。
上例中,假設音樂App展示音樂清單後,使用者根據音樂App展示的介面內容,向語音系統輸入“選擇第三 首”,此時,音樂App在前台運行,語音系統確定該語音指令中,存在與基於介面的過程指令對應的關鍵字“選擇”,則確定語音指令與基於介面的過程指令相匹配,則確定該語音指令與前台App(前台音樂App)相關聯。
上例中,假設音樂App在後台運行,當用戶想要更換正在播放的音樂時,向語音系統輸入“下一首”語音指令。語音系統確定該語音指令中,存在與基於狀態的過程指令對應的關鍵字“下一”,則確定語音指令與基於狀態的過程指令相匹配,則確定該語音指令與後台App(如後台音樂App)相關聯。
在本申請實施例中,當確定出與語音指令相匹配的指令類型為基於介面的過程指令時,確定前台運行的App為語音指令對應的App,但是當前台運行的App不止一個時,如,語音系統通過多視窗運行多個App時,就需要從多個前台運行的App中確定出一個App作為語音指令對應的App。
則在本申請實施例中,從多個前台運行的App中確定出一個與語音指令相關聯的App時,可監測前台運行的App,當監測到存在前台運行的App時,針對每一個前台運行的App,將該App對應的介面內容壓入一個設定堆疊,不同的App對應不同的設定堆疊,也就是說,同一個App的介面內容在同一個設定堆疊,不同App的介面內容在不同的設定堆疊。當監測到前台運行的App退出前台運行時,將介面內容彈出該App對應的設定堆疊; 在前台運行的各App中確定與語音指令相關聯的App時,可從設定堆疊中,查找介面內容與語音指令的內容相匹配的設定堆疊,確定查找到的設定堆疊對應的App為語音指令對應的App。具體的,可確定語音指令的語義或關鍵字,在多個分別與前台運行的App對應的設定堆疊中的介面內容中,查找與語音指令的語義相匹配(相同或相近似)的介面內容,當確定某一個設定堆疊中的介面內容中存在與語音指令的語義相匹配的介面內容,則將該確定出的設定堆疊對應的App確定為與該語音指令相關聯的前台App。
例如,假設語音系統監測到前台運行的App中包括地圖App和音樂App,音樂App的介面上包括歌手清單,地圖App的介面上包括電子地圖,將地圖App和音樂App對應的介面內容分別壓入設定堆疊1和設定堆疊2;若當前接收到的基於介面的過程指令為“選擇劉德華”,則從設定堆疊1和設定堆疊2中儲存的介面內容中查找劉德華,將包括“劉德華”的介面內容的設定堆疊2作為與語音指令的內容相匹配的設定堆疊,確定設定堆疊2對應的音樂App為與“選擇劉德華”這一語音指令相關聯的前台App。
在本申請實施例中,語音系統接收使用者輸入的語音指令之前,還需要接收啟動指令,以等待並接收使用者輸入語音指令,該啟動指令可以是接收來自於應用的啟動指令,也可以接收不是來自應用的啟動指令。進一步的,為 了方便使用者操作,語音系統接收到該啟動指令之後,還可以向使用者輸出語音、文字、圖示等類型的提示資訊,以提示使用者當前可以輸入語音指令,例如可以向使用者輸出“請輸入語音指令”的提示音。
在本申請實施例中,接收不是來自應用的啟動指令時,可接收使用者通過終端的實體按鍵、軟按鍵(如點擊觸控式螢幕上顯示的圖示按鍵)輸入的啟動指令,還可接收使用者通過生物特徵資訊(如,語音、面部特徵、指紋等)輸入的啟動指令。也就是說,語音系統只要接收到通過實體按鍵、軟按鍵輸入的啟動指令、使用者通過合法的生物特徵資訊輸入的啟動指令,或者App發送的啟動指令時,均可等待並接收使用者輸入語音指令。所述合法的生物特徵資訊為:與預存生物特徵資訊相匹配的生物特徵資訊。
在本申請實施例中,當接收App發送的啟動指令,緊接著接收到使用者輸入的語音指令時,語音系統可確定發送啟動指令的App需要執行相應的控制指令,因此,可直接確定發送啟動指令的App為使用者輸入的語音指令對應的App,而不需要確定語音指令的指令類型,也不需要根據指令類型確定App。
當接收到的啟動指令不是來自於App的啟動指令時(即,通過實體按鍵、軟按鍵、或生物特徵資訊發送的啟動指令時),由於語音系統無法直接確定哪一個App需要執行相應的控制指令,因此,才會在預設的各指令類型 中,確定出與語音指令相匹配的指令類型,並根據指令類型,確定語音指令對應的App。
在本申請實施例中,App執行控制指令之後,還需要向語音系統返回執行結果。
在本申請實施例中,當接收到預設指令時,可展示資訊提示視窗,所述的預設指令可包括但不限於:使用者輸入的語音指令或者啟動指令;具體的,當接收到啟動指令時,展示資訊提示視窗,進一步的,可在資訊提示視窗中顯示用於提示使用者輸入語音指令的識別字;所述的資訊提示視窗還用於顯示提示資訊,該提示資訊可以為:語音系統接收到的語音指令,和/或App執行所述控制指令後返回的執行結果等;也就是說,在接收到使用者輸入的語音指令時,在已經展示的資訊提示視窗中顯示所述語音指令;在接收到App執行所述控制指令後返回的執行結果時,在已經展示的資訊提示視窗中顯示所述執行結果。
所述的資訊提示視窗也稱為語音視窗,這樣,使用者就可在資訊提示視窗方便快捷的看到輸入語音指令的識別字、App返回的執行結果等提示資訊,當然,本申請實施例所述執行結果也可以以語音播報的方式輸出給使用者。
進一步的,App執行控制指令之後,向語音系統返回執行結果時,同時可以向語音系統返回一些提示資訊,該提示資訊用於提示語音系統需要展示執行結果、需要播報執行結果或者需要使用者輸入語音指令等,語音系統只有 在接收到對應的提示資訊時,才會執行相應的操作。
在本申請實施例中,為了避免資訊提示視窗遮擋App介面內容,降低使用者操作的便利性,所述資訊提示視窗為不佔據全螢幕的視窗,優選的,資訊提示視窗可以為浮動視窗,這樣,使用者就可以根據自身的需求靈活的移動浮動視窗,使其不影響用戶想要獲取的App展示的介面內容。
在本申請實施例中,為了進一步避免資訊提示視窗遮擋App介面內容,則在接收到隱藏資訊提示視窗指令時,隱藏已經展示的資訊提示視窗;當接收到App執行控制指令後返回的執行結果時開始計時,若在第一預設時間段內未接收到使用者輸入的語音指令,隱藏或關閉所述視窗。
比如,第一預設時間段為2秒,當接收到App返回的執行結果時開始計時,2秒內未接收到使用者輸入的語音指令,則隱藏資訊提示視窗。當然,在App返回的執行結果時,確定使用者需要輸入語音指令,當不需要使用者輸入語音指令時,可以不計時,也不隱藏資訊提示視窗。此外,語音系統可以在視窗介面上顯示隱藏圖示,使用者通過點擊該隱藏圖示,來輸入隱藏資訊提示視窗指令。
在本申請實施例中,隱藏或關閉資訊提示視窗並不影響App的運行,例如,當音樂App在播放當前音樂A時,使用者向語音系統輸入“播放劉德華的音樂”語音指令,當音樂App通過資訊展示視窗向使用者展示“請輸入目標音樂”的提示資訊並開始計時,當語音系統在2秒內 未接收到使用者輸入的語音指令時,關閉資訊提示視窗,但是不會關閉音樂App,音樂App仍然可播放當前音樂。
當然,在本申請實施例中,顯示提示資訊時,不限於在資訊提示視窗上顯示,也可以在前台運行的應用的介面上顯示,具體的,確定出所述語音指令對應的應用之後,所述方法還包括:若當前存在前台運行的應用時,在所述前台運行的應用展示的介面上顯示語音系統接收到的語音指令,和/或前台應用執行所述控制指令後返回的執行結果。
考慮到在實際應用場景中,App在執行控制指令的過程中,可能會無回應,為了避免App無回應時,用戶不知情的等待,在本申請實施例中,語音系統從語音指令發送給確定出的App起開始計時,當在第二預設時間段內未接收到App返回的執行結果時,向使用者展示提示資訊,其中,該提示資訊為出錯提示資訊,使用者獲取該提示資訊後,就可能會及時關閉App或進行重新輸入語音指令等操作。
以下將結合圖2具體說明本申請實施例提供的語音控制方法。
參見圖2,為語音控制方法的具體流程示意圖,包括以下步驟:
S201:接收啟動指令,具體可通過實體按鍵、軟按鍵、語音或App發送啟動指令。
S202:輸出提示音,等待語音指令輸入並開始計時。
S203:展示資訊提示視窗。
S204:判斷是否超時(即計時時間是否大於第一預設時間),若是,執行步驟S219,否則,執行步驟S205。
S205:接收語音指令。
S206:判斷啟動指令是否來自App,若是,執行步驟S218,否則,執行步驟S207。
S207:確定語音指令的指令類型。
S208:指令類型為初始指令,從未啟動的App中確定出與語音指令相關聯的App。
S209:指令類型為基於介面的過程指令時,判斷前台運行的App是否為一個,若是,執行步驟S210,否則,執行步驟S211。
S210:確定前台運行的App為與語音指令相關聯的前台App。
S211:從設定堆疊中,查找介面內容與所述語音指令的內容相匹配的設定堆疊,確定查找到的設定堆疊對應的App,為與語音指令相關聯的前台App。
S212:指令類型為基於狀態的過程指令時,在後台運行的App中(即後台App中),確定與語音指令相關聯的後台App。
S213:確定語音指令對應的控制命令。
S214:將控制命令發送給確定出的語音指令對應的App並開始計時。
S215:判斷是否超時(即計時時間是否大於第二預設 時間),若是,執行步驟S216,否則,執行步驟S217。
S216:返回錯誤結果。
S217:展示App返回的執行結果。
S218:將發送啟動指令的App確定為所述語音指令對應的App。
S219:隱藏資訊提示視窗。
以上為本申請實施例提供的語音控制方法,基於同樣的思路,本申請實施例還提供了一種語音控制裝置,如圖3所示。
圖3為本申請實施例提供的語音控制裝置,具體包括:第一接收模組31,用於接收使用者輸入的語音指令;判斷模組32,用於判斷該語音指令是否與前台應用相關聯;控制模組33,用於在所述判斷模組判斷語音指令與前台應用相關聯時,將與所述語音指令對應的控制指令發送給所述前台應用,以使得所述應用執行所述控制指令;或者在所述判斷模組判斷語音指令與前台應用不相關聯時,在後台應用中確定出與所述語音指令相關聯的應用,將語音指令對應的控制指令發送給確定出的後台應用,以使得所述應用執行所述控制指令。
可選的,判斷模組32具體用於:在預設的各指令類型中,確定出與所述語音指令相匹配的指令類型;根據所 述指令類型,判斷該語音指令是否與前台應用相關聯。
可選的,所述裝置還包括:確定模組34,用於當所述判斷模組32判斷所述語音指令與前台應用和後台應用均不關聯時,從未啟動的應用中確定出與所述語音指令相關聯的應用;將前台運行應用切換至後台運行,啟動與所述語音指令相關聯的應用並在前台運行;將語音指令對應的控制指令發送給前台運行的應用,以使得所述應用執行所述控制指令。
可選的,所述預設的各指令類型包括:與介面內容和後台應用無關的第一指令、與介面內容相關聯的第二指令、與後台應用相關聯的第三指令;所述判斷模組32具體用於:確定所述語音指令的語義;根據所述語音指令的語義,在預設的各指令類型分別對應的語義集合中,查找是否存在與所述語音指令的語義相匹配的語義,若是,則確定查找出的語義所在的語義集合對應的指令類型為與所述語音指令相匹配的指令類型。
可選的,所述判斷模組32具體用於:確定與所述語音指令相匹配的指令類型是否為第一指令,若是,則確定該語音指令與前台應用和後台應用均不關聯,否則,確定該語音指令與前台應用或後台應用關聯;或者確定與所述語音指令相匹配的指令類型是否為第二指令,若是,則確定該語音指令與前台應用相關聯,否則,確定該語音指令不與前台應用相關聯;或者確定與所述語音指令相匹配的指令類型是否為第三指 令,若是,則確定該語音指令與後台應用相關聯,否則,確定該語音指令不與後台應用相關聯。
可選的,所述裝置還包括:內容壓入模組35,用於當監測到存在前台運行的應用時,將所述前台運行的應用對應的介面內容壓入與該前台運行的應用對應的設定堆疊;內容彈出模組36,用於當監測到所述前台運行的應用退出前台運行時,將所述介面內容彈出所述設定堆疊;所述判斷模組32,具體用於:當前台運行的應用包括不止一個時,從設定堆疊中,查找介面內容與所述語音指令的內容相匹配的設定堆疊,確定所述查找到的設定堆疊對應的應用為與所述語音指令相關聯的前台應用。
可選的,所述裝置還包括:第二接收模組37,用於接收使用者輸入的語音指令之前,接收不是來自於應用的啟動指令,以等待使用者輸入語音指令。
可選的,所述裝置還包括:第三接收模組38,用於接收應用發送的啟動指令,以等待使用者輸入語音指令;所述控制模組33還用於:將語音指令對應的控制指令發送給發送啟動指令的應用,以使得所述應用執行所述控制指令。
可選的,所述裝置還包括:第一展示模組39,用於在接收到啟動指令時,展示 資訊提示視窗,並在所述資訊提示視窗中顯示用於提示使用者輸入語音指令的識別字;還包括顯示模組40,用於在接收到使用者輸入的語音指令時,在已經展示的資訊提示視窗中顯示所述語音指令,在接收到應用執行所述控制指令後返回的執行結果時,在已經展示的資訊提示視窗中顯示所述執行結果;還包括隱藏模組41,用於在接收到隱藏資訊提示視窗指令時,隱藏已經展示的資訊提示視窗,在第一預設時間段內未接收到使用者輸入的語音指令時,隱藏已經展示的資訊提示視窗。
可選的,所述資訊提示視窗為不佔據全螢幕的浮動視窗。
可選的,所述裝置還包括:第二展示模組42,用於從所述控制指令發送給確定出的所述應用起開始計時,當在第二預設時間段內未接收到應用返回的執行結果時,向使用者展示提示資訊。
可選的,所述裝置還包括:第三展示模組43,用於確定出所述語音指令對應的應用之後,若當前存在前台運行的應用時,在所述前台運行的應用展示的介面上顯示語音系統接收到的語音指令,和/或前台應用執行所述控制指令後返回的執行結果。
可選的,所述語音系統為語音作業系統,該語音作業系統用於控制安裝於該語音系統中的任意一個應用執行所述控制指令。
本申請實施例提供的語音控制方法及裝置,該方法語音系統接收使用者輸入的語音指令,並判斷該語音指令是否與前台應用相關聯;若是,則將與所述語音指令對應的控制指令發送給所述前台應用,以使得所述應用執行所述控制指令;否則,在後台應用中確定出與所述語音指令相關聯的應用,將語音指令對應的控制指令發送給確定出的後台應用,以使得所述應用執行所述控制指令,這樣,該語音系統不僅可控制前台應用執行基於該前台應用的語音指令,還可以控制後台應用執行進階語音指令,從而,可有效提高語音控制的效率。
本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或電腦程式產品。因此,本發明可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
本發明是參照根據本發明實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理設備的處理器以產生一個機器,使得通過電腦或其他可程式設 計資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。
這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理設備上,使得在電腦或其他可程式設計設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。
記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。
電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體 (PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體,可用於儲存可以被計算設備存取的資訊。按照本文中的界定,電腦可讀媒體不包括暫存電腦可讀媒體(transitory media),如調變的資料信號和載波。
還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
本領域技術人員應明白,本申請的實施例可提供為方法、系統或電腦程式產品。因此,本申請可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本申請可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品 的形式。
以上所述僅為本申請的實施例而已,並不用於限制本申請。對於本領域技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本申請的權利要求範圍之內。

Claims (26)

  1. 一種語音控制方法,其特徵在於,包括:語音系統接收使用者輸入的語音指令;並判斷該語音指令是否與前台應用相關聯;若是,則將與該語音指令對應的控制指令發送給該前台應用,以使得該應用執行該控制指令;否則,在後台應用中確定出與該語音指令相關聯的應用,將語音指令對應的控制指令發送給確定出的後台應用,以使得該應用執行該控制指令。
  2. 如申請專利範圍第1項所述的方法,其中,判斷該語音指令是否與前台應用相關聯,具體包括:在預設的各指令類型中,確定出與該語音指令相匹配的指令類型;根據該指令類型,判斷該語音指令是否與前台應用相關聯。
  3. 如申請專利範圍第1項所述的方法,其中,當判斷該語音指令與前台應用和後台應用均不關聯時,從未啟動的應用中確定出與該語音指令相關聯的應用;將前台運行應用切換至後台運行,啟動與該語音指令相關聯的應用並在前台運行;將語音指令對應的控制指令發送給前台運行的應用,以使得該應用執行該控制指令。
  4. 如申請專利範圍第2項所述的方法,其中,該預設的各指令類型包括:與介面內容和後台應用無關的第一指令、與介面內容相關聯的第二指令、與後台應用相關聯 的第三指令;在預設的各指令類型中,確定出與該語音指令相匹配的指令類型,具體包括:確定該語音指令的語義;根據該語音指令的語義,在預設的各指令類型分別對應的語義集合中,查找是否存在與該語音指令的語義相匹配的語義,若是,則確定查找出的語義所在的語義集合對應的指令類型為與該語音指令相匹配的指令類型。
  5. 如申請專利範圍第4項所述的方法,其中,根據該指令類型,判斷該語音指令是否與前台應用相關聯,具體包括:確定與該語音指令相匹配的指令類型是否為第一指令,若是,則確定該語音指令與前台應用和後台應用均不關聯,否則,確定該語音指令與前台應用或後台應用關聯;或者確定與該語音指令相匹配的指令類型是否為第二指令,若是,則確定該語音指令與前台應用相關聯,否則,確定該語音指令不與前台應用相關聯;或者確定與該語音指令相匹配的指令類型是否為第三指令,若是,則確定該語音指令與後台應用相關聯,否則,確定該語音指令不與後台應用相關聯。
  6. 如申請專利範圍第5項所述的方法,其中,該方法還包括:當監測到存在前台運行的應用時,將該前台運行的應 用對應的介面內容壓入與該前台運行的應用對應的設定堆疊,當監測到該前台運行的應用退出前台運行時,將該介面內容彈出該設定堆疊;判斷語音指令與前台應用相關聯,具體包括:當前台運行的應用包括不止一個時,從設定堆疊中,查找介面內容與該語音指令的內容相匹配的設定堆疊,確定該查找到的設定堆疊對應的應用,作為與該語音指令相關聯的前台應用。
  7. 如申請專利範圍第1項所述的方法,其中,接收使用者輸入的語音指令之前,該方法還包括:接收不是來自於應用的啟動指令,以等待使用者輸入語音指令。
  8. 如申請專利範圍第1項所述的方法,其中,該方法還包括:接收應用發送的啟動指令,以等待使用者輸入語音指令;將語音指令對應的控制指令發送給發送啟動指令的應用,以使得該應用執行該控制指令。
  9. 如申請專利範圍第7或8項所述的方法,其中,該方法還包括:在接收到啟動指令時,展示資訊提示視窗,並在該資訊提示視窗中顯示用於提示使用者輸入語音指令的識別字;在接收到使用者輸入的語音指令時,在已經展示的資 訊提示視窗中顯示該語音指令;在接收到應用執行該控制指令後返回的執行結果時,在已經展示的資訊提示視窗中顯示該執行結果;在接收到隱藏資訊提示視窗指令時,隱藏已經展示的資訊提示視窗;在第一預設時間段內未接收到使用者輸入的語音指令時,隱藏已經展示的資訊提示視窗。
  10. 如申請專利範圍第9項所述的方法,其中,該資訊提示視窗為不佔據全螢幕的浮動視窗。
  11. 如申請專利範圍第1項所述的方法,其中,該方法還包括:從該控制指令發送給確定出的該應用起開始計時,當在第二預設時間段內未接收到應用返回的執行結果時,向使用者展示提示資訊。
  12. 如申請專利範圍第1項所述的方法,其中,確定出該語音指令對應的應用之後,該方法還包括:若當前存在前台運行的應用時,在該前台運行的應用展示的介面上顯示語音系統接收到的語音指令,和/或前台應用執行該控制指令後返回的執行結果。
  13. 如申請專利範圍第1項所述的方法,其中,該語音系統為語音作業系統,該語音作業系統用於控制安裝於該語音系統中的任意一個應用執行該控制指令。
  14. 一種語音控制裝置,其特徵在於,包括:第一接收模組,用於接收使用者輸入的語音指令; 判斷模組,用於判斷該語音指令是否與前台應用相關聯;控制模組,用於在該判斷模組判斷語音指令與前台應用相關聯時,將與該語音指令對應的控制指令發送給該前台應用,以使得該應用執行該控制指令;或者在該判斷模組判斷語音指令與前台應用不相關聯時,在後台應用中確定出與該語音指令相關聯的應用,將語音指令對應的控制指令發送給確定出的後台應用,以使得該應用執行該控制指令。
  15. 如申請專利範圍第14項所述的裝置,其中,該判斷模組具體用於:在預設的各指令類型中,確定出與該語音指令相匹配的指令類型;根據該指令類型,判斷該語音指令是否與前台應用相關聯。
  16. 如申請專利範圍第14項所述的裝置,其中,該裝置還包括:確定模組,用於當該判斷模組判斷該語音指令與前台應用和後台應用均不關聯時,從未啟動的應用中確定出與該語音指令相關聯的應用;將前台運行應用切換至後台運行,啟動與該語音指令相關聯的應用並在前台運行;將語音指令對應的控制指令發送給前台運行的應用,以使得該應用執行該控制指令。
  17. 如申請專利範圍第15項所述的裝置,其中,該預設的各指令類型包括:與介面內容和後台應用無關的第一指令、與介面內容相關聯的第二指令、與後台應用相關聯的第三指令; 該判斷模組具體用於:確定該語音指令的語義;根據該語音指令的語義,在預設的各指令類型分別對應的語義集合中,查找是否存在與該語音指令的語義相匹配的語義,若是,則確定查找出的語義所在的語義集合對應的指令類型為與該語音指令相匹配的指令類型。
  18. 如申請專利範圍第17項所述的裝置,其中,該判斷模組具體用於:確定與該語音指令相匹配的指令類型是否為第一指令,若是,則確定該語音指令與前台應用和後台應用均不關聯,否則,確定該語音指令與前台應用或後台應用關聯;或者確定與該語音指令相匹配的指令類型是否為第二指令,若是,則確定該語音指令與前台應用相關聯,否則,確定該語音指令不與前台應用相關聯;或者確定與該語音指令相匹配的指令類型是否為第三指令,若是,則確定該語音指令與後台應用相關聯,否則,確定該語音指令不與後台應用相關聯。
  19. 如申請專利範圍第18項所述的裝置,其中,該裝置還包括:內容壓入模組,用於當監測到存在前台運行的應用時,將該前台運行的應用對應的介面內容壓入與該前台運行的應用對應的設定堆疊;內容彈出模組,用於當監測到該前台運行的應用退出前台運行時,將該介面內容彈出該設定堆疊;該判斷模組,具體用於:當前台運行的應用包括不止 一個時,從設定堆疊中,查找介面內容與該語音指令的內容相匹配的設定堆疊,確定該查找到的設定堆疊對應的應用為與該語音指令相關聯的前台應用。
  20. 如申請專利範圍第14項所述的裝置,其中,該裝置還包括:第二接收模組,用於接收使用者輸入的語音指令之前,接收不是來自於應用的啟動指令,以等待使用者輸入語音指令。
  21. 如申請專利範圍第14項所述的裝置,其中,該裝置還包括:第三接收模組,用於接收應用發送的啟動指令,以等待使用者輸入語音指令;該控制模組還用於:將語音指令對應的控制指令發送給發送啟動指令的應用,以使得該應用執行該控制指令。
  22. 如申請專利範圍第20或21項所述的裝置,其中,該裝置還包括:第一展示模組,用於在接收到啟動指令時,展示資訊提示視窗,並在該資訊提示視窗中顯示用於提示使用者輸入語音指令的識別字;還包括顯示模組,用於在接收到使用者輸入的語音指令時,在已經展示的資訊提示視窗中顯示該語音指令,在接收到應用執行該控制指令後返回的執行結果時,在已經展示的資訊提示視窗中顯示該執行結果;還包括隱藏模組,用於在接收到隱藏資訊提示視窗指 令時,隱藏已經展示的資訊提示視窗,在第一預設時間段內未接收到使用者輸入的語音指令時,隱藏已經展示的資訊提示視窗。
  23. 如申請專利範圍第22項所述的裝置,其中,該資訊提示視窗為不佔據全螢幕的浮動視窗。
  24. 如申請專利範圍第14項所述的裝置,其中,該裝置還包括:第二展示模組,用於從該控制指令發送給確定出的該應用起開始計時,當在第二預設時間段內未接收到應用返回的執行結果時,向使用者展示提示資訊。
  25. 如申請專利範圍第14項所述的裝置,其中,該裝置還包括:第三展示模組,用於確定出該語音指令對應的應用之後,若當前存在前台運行的應用時,在該前台運行的應用展示的介面上顯示語音系統接收到的語音指令,和/或前台應用執行該控制指令後返回的執行結果。
  26. 如申請專利範圍第14項所述的裝置,其中,該語音系統為語音作業系統,該語音作業系統用於控制安裝於該語音系統中的任意一個應用執行該控制指令。
TW104129021A 2015-03-30 2015-09-02 一種語音控制方法及裝置 TW201635134A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510146261.9A CN106157955A (zh) 2015-03-30 2015-03-30 一种语音控制方法及装置

Publications (1)

Publication Number Publication Date
TW201635134A true TW201635134A (zh) 2016-10-01

Family

ID=57007262

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104129021A TW201635134A (zh) 2015-03-30 2015-09-02 一種語音控制方法及裝置

Country Status (4)

Country Link
US (1) US10573303B2 (zh)
CN (1) CN106157955A (zh)
TW (1) TW201635134A (zh)
WO (1) WO2016160852A1 (zh)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049670B2 (en) * 2016-06-06 2018-08-14 Google Llc Providing voice action discoverability example for trigger term
CN106847272A (zh) * 2016-12-12 2017-06-13 北京光年无限科技有限公司 与运行应用关联的智能机器人的数据交互方法
CN106648875A (zh) * 2016-12-31 2017-05-10 深圳市优必选科技有限公司 应用切换方法和装置
CN108401066B (zh) * 2017-02-08 2022-01-25 北京奇虎科技有限公司 在智能终端中进行语音控制的方法、装置和智能终端
CN106941000A (zh) * 2017-03-21 2017-07-11 百度在线网络技术(北京)有限公司 基于人工智能的语音交互方法和装置
CN107122179A (zh) 2017-03-31 2017-09-01 阿里巴巴集团控股有限公司 语音的功能控制方法和装置
KR102365649B1 (ko) * 2017-06-28 2022-02-22 삼성전자주식회사 화면 제어 방법 및 이를 지원하는 전자 장치
US10449440B2 (en) * 2017-06-30 2019-10-22 Electronic Arts Inc. Interactive voice-controlled companion application for a video game
CN107240400B (zh) * 2017-07-03 2020-08-11 重庆小雨点小额贷款有限公司 终端操作方法及装置
CN107346228B (zh) * 2017-07-04 2021-07-16 联想(北京)有限公司 电子设备的语音处理方法及***
US11423879B2 (en) * 2017-07-18 2022-08-23 Disney Enterprises, Inc. Verbal cues for high-speed control of a voice-enabled device
CN107506639A (zh) * 2017-08-28 2017-12-22 广东小天才科技有限公司 一种应用管控方法和装置
CN107704233B (zh) * 2017-09-29 2021-06-15 联想(北京)有限公司 一种信息处理方法和电子设备
CN107945796B (zh) * 2017-11-13 2021-05-25 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及计算机可读介质
CN108108142A (zh) * 2017-12-14 2018-06-01 广东欧珀移动通信有限公司 语音信息处理方法、装置、终端设备及存储介质
KR102532300B1 (ko) * 2017-12-22 2023-05-15 삼성전자주식회사 어플리케이션 실행 방법 및 이를 위한 장치
CN107910003A (zh) * 2017-12-22 2018-04-13 智童时刻(厦门)科技有限公司 一种用于智能设备的语音交互方法及语音控制***
CN108091333B (zh) * 2017-12-28 2021-11-30 Oppo广东移动通信有限公司 语音控制方法及相关产品
CN108459880A (zh) * 2018-01-29 2018-08-28 出门问问信息科技有限公司 语音助手唤醒方法、装置、设备及存储介质
CN108520743B (zh) * 2018-02-02 2021-01-22 百度在线网络技术(北京)有限公司 智能设备的语音控制方法、智能设备及计算机可读介质
CN108391005A (zh) * 2018-02-07 2018-08-10 宁夏凯速德科技有限公司 终端app的打开方法和装置
CN108647002A (zh) * 2018-03-30 2018-10-12 联想(北京)有限公司 信息处理方法及电子设备
CN108509175B (zh) * 2018-03-30 2021-10-22 联想(北京)有限公司 一种语音交互方法及电子设备
CN108712566B (zh) * 2018-04-27 2020-10-30 维沃移动通信有限公司 一种语音助手唤醒方法及移动终端
CN110487287A (zh) * 2018-05-14 2019-11-22 上海博泰悦臻网络技术服务有限公司 交互式导航控制方法、***、车机及存储介质
CN108845788B (zh) * 2018-06-11 2021-09-14 联想(北京)有限公司 模拟操控方法和便携式终端
CN108845736A (zh) * 2018-06-12 2018-11-20 苏州思必驰信息科技有限公司 用于车载语音***的交互方法及***
CN108881466B (zh) * 2018-07-04 2020-06-26 百度在线网络技术(北京)有限公司 交互方法和装置
CN109151200A (zh) * 2018-08-27 2019-01-04 维沃移动通信有限公司 一种通讯方法及移动终端
CN109767762A (zh) * 2018-12-14 2019-05-17 深圳壹账通智能科技有限公司 基于语音识别的应用程序控制方法及终端设备
CN109903763B (zh) * 2019-01-11 2022-02-22 百度在线网络技术(北京)有限公司 服务控制方法、装置及设备
WO2020150899A1 (zh) * 2019-01-22 2020-07-30 京东方科技集团股份有限公司 语音控制方法、语音控制装置以及计算机可执行非易失性存储介质
CN110223682B (zh) * 2019-04-29 2022-01-11 阿波罗智联(北京)科技有限公司 一种语音指令仲裁方法和装置
US11133005B2 (en) 2019-04-29 2021-09-28 Rovi Guides, Inc. Systems and methods for disambiguating a voice search query
EP3942399B1 (en) * 2019-05-06 2024-04-10 Google LLC Automated assistant for generating, in response to a request from a user, application input content using application data from other sources
US11170774B2 (en) * 2019-05-21 2021-11-09 Qualcomm Incorproated Virtual assistant device
CN110299138A (zh) * 2019-06-28 2019-10-01 北京机械设备研究所 一种增强现实装配工艺指导***及方法
CN112581946A (zh) * 2019-09-29 2021-03-30 百度在线网络技术(北京)有限公司 语音控制方法、装置、电子设备和可读存储介质
CN111028828A (zh) * 2019-12-20 2020-04-17 京东方科技集团股份有限公司 一种基于画屏的语音交互方法、画屏及存储介质
TWI732518B (zh) * 2020-04-09 2021-07-01 鑽贏雲股份有限公司 模組化指令控制系統及其方法
CN113741770A (zh) * 2020-05-29 2021-12-03 比亚迪股份有限公司 基于图像识别的控制方法和***及车辆、存储介质
CN111739531B (zh) * 2020-06-11 2022-08-09 浙江沁园水处理科技有限公司 一种语音控制方法
CN111880875B (zh) * 2020-07-15 2023-12-22 百度在线网络技术(北京)有限公司 多媒体播放的控制方法、装置、设备、存储介质和***
CN111968640A (zh) * 2020-08-17 2020-11-20 北京小米松果电子有限公司 语音控制方法、装置、电子设备及存储介质
CN111986670A (zh) * 2020-08-25 2020-11-24 Oppo广东移动通信有限公司 语音控制方法、装置、电子设备和计算机可读存储介质
US11978449B2 (en) 2021-03-02 2024-05-07 Samsung Electronics Co., Ltd. Electronic device for processing user utterance and operation method therefor
CN113593562A (zh) * 2021-07-30 2021-11-02 东风汽车有限公司东风日产乘用车公司 语音控制方法、电子设备及存储介质
CN113752966B (zh) * 2021-09-14 2022-12-23 合众新能源汽车有限公司 车机***的交互方法、装置和计算机可读介质

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409344B2 (en) * 2005-03-08 2008-08-05 Sap Aktiengesellschaft XML based architecture for controlling user interfaces with contextual voice commands
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
DE102005061365A1 (de) * 2005-12-21 2007-06-28 Siemens Ag Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem
JP4677379B2 (ja) * 2006-07-28 2011-04-27 キヤノン株式会社 画像処理装置及び画像処理方法
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8611560B2 (en) 2007-04-13 2013-12-17 Navisense Method and device for voice operated control
US8577062B2 (en) 2007-04-27 2013-11-05 Personics Holdings Inc. Device and method for controlling operation of an earpiece based on voice activity in the presence of audio content
US8555201B2 (en) * 2008-06-05 2013-10-08 Qualcomm Incorporated Wireless communication device having deterministic control of foreground access of the user interface
US8582034B2 (en) * 2008-09-16 2013-11-12 Intel Corporation Adaptive screen color calibration
KR101625668B1 (ko) 2009-04-20 2016-05-30 삼성전자 주식회사 전자기기 및 전자기기의 음성인식방법
DE102009051508B4 (de) 2009-10-30 2020-12-03 Continental Automotive Gmbh Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
US8334842B2 (en) 2010-01-15 2012-12-18 Microsoft Corporation Recognizing user intent in motion capture system
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN103038818B (zh) 2010-06-24 2016-10-12 本田技研工业株式会社 在车载语音识别***与车外语音识别***之间的通信***和方法
US8898065B2 (en) 2011-01-07 2014-11-25 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US8996386B2 (en) 2011-01-19 2015-03-31 Denso International America, Inc. Method and system for creating a voice recognition database for a mobile device using image processing and optical character recognition
US9081550B2 (en) 2011-02-18 2015-07-14 Nuance Communications, Inc. Adding speech capabilities to existing computer applications with complex graphical user interfaces
US9262612B2 (en) * 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
EP4235365A3 (en) 2011-08-05 2023-11-01 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
TWI516941B (zh) 2011-08-16 2016-01-11 鴻海精密工業股份有限公司 電子設備及其根據耳機的控制功能調整控制模式的方法
US8954334B2 (en) 2011-10-15 2015-02-10 Zanavox Voice-activated pulser
KR101356368B1 (ko) * 2012-02-24 2014-01-29 주식회사 팬택 어플리케이션 전환 장치 및 방법
US9230556B2 (en) * 2012-06-05 2016-01-05 Apple Inc. Voice instructions during navigation
CN103593230B (zh) * 2012-08-13 2017-05-10 百度在线网络技术(北京)有限公司 移动终端的后台任务控制方法及移动终端
CN103591947B (zh) * 2012-08-13 2016-12-28 百度在线网络技术(北京)有限公司 移动终端的语音后台导航方法及移动终端
US8863198B2 (en) 2012-08-17 2014-10-14 Flextronics Ap, Llc Television having silos that animate content source searching and selection
US9275642B2 (en) 2012-11-13 2016-03-01 Unified Computer Intelligence Corporation Voice-operated internet-ready ubiquitous computing device and method thereof
CN106981290B (zh) 2012-11-27 2020-06-30 威盛电子股份有限公司 语音控制装置和语音控制方法
US9264801B2 (en) 2012-12-04 2016-02-16 Storz Endoskop Produktions Gmbh System and method for pairing a command device incorporating a microphone to a remotely controlled medical system
CN104076916B (zh) * 2013-03-29 2017-05-24 联想(北京)有限公司 一种信息处理方法以及电子设备
US9305554B2 (en) 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
CN103500578B (zh) * 2013-10-22 2016-05-11 上海云视科技股份有限公司 语音操控方法和装置
US9489171B2 (en) * 2014-03-04 2016-11-08 Microsoft Technology Licensing, Llc Voice-command suggestions based on user identity
JP6440513B2 (ja) 2014-05-13 2018-12-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識機能を用いた情報提供方法および機器の制御方法
KR102216048B1 (ko) 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
US9220084B1 (en) * 2014-05-30 2015-12-22 Apple Inc. Activation of voice over internet protocol applications based on push notifications
US9536521B2 (en) 2014-06-30 2017-01-03 Xerox Corporation Voice recognition

Also Published As

Publication number Publication date
US10573303B2 (en) 2020-02-25
CN106157955A (zh) 2016-11-23
WO2016160852A1 (en) 2016-10-06
US20160293164A1 (en) 2016-10-06

Similar Documents

Publication Publication Date Title
TW201635134A (zh) 一種語音控制方法及裝置
US10866785B2 (en) Equal access to speech and touch input
JP6272901B2 (ja) 発話対象の識別
KR101418163B1 (ko) 컨텍스트 정보를 이용한 음성 인식 복구
TWI506619B (zh) 用於情境式語音命令的方法、裝置及非過渡電腦可讀媒體
US8918628B2 (en) Electronic device and method for starting applications in the electronic device
US9454964B2 (en) Interfacing device and method for supporting speech dialogue service
US11587568B2 (en) Streaming action fulfillment based on partial hypotheses
WO2020221162A1 (zh) 应用程序推荐、装置、电子设备及介质
US20140006948A1 (en) Method and mobile phone for capturing audio file or video file
TW201721472A (zh) 資料處理方法、裝置和智慧終端機
CN109192212B (zh) 语音控制方法及装置
CN107293294B (zh) 一种语音识别处理方法及装置
CN110874200B (zh) 交互方法、设备、存储介质和操作***
CN111949240A (zh) 交互方法、存储介质、服务程序和设备
CN112652302B (zh) 语音控制方法、装置、终端及存储介质
CN109165052B (zh) 应用场景的交互处理方法、装置及终端、***、存储介质
US20180366113A1 (en) Robust replay of digital assistant operations
US20150347511A1 (en) Universal identifier
WO2019045816A1 (en) GRAPHIC DATA SELECTION AND DIGITAL CONTENT PRESENTATION
EP3149926B1 (en) System and method for handling a spoken user request
CN110874176B (zh) 交互方法、存储介质、操作***和设备
TW201734783A (zh) 一種應用程式啟動方法及裝置
CN110874201B (zh) 交互方法、设备、存储介质和操作***
KR20210052912A (ko) 앱 사용 패턴과 대화 분석을 통한 앱 기능 바로가기 추천 방법 및 장치