WO2024139974A1 - 一种交互方法、电子设备及介质 - Google Patents

一种交互方法、电子设备及介质 Download PDF

Info

Publication number
WO2024139974A1
WO2024139974A1 PCT/CN2023/135194 CN2023135194W WO2024139974A1 WO 2024139974 A1 WO2024139974 A1 WO 2024139974A1 CN 2023135194 W CN2023135194 W CN 2023135194W WO 2024139974 A1 WO2024139974 A1 WO 2024139974A1
Authority
WO
WIPO (PCT)
Prior art keywords
electronic device
interface
voice
instruction
mobile phone
Prior art date
Application number
PCT/CN2023/135194
Other languages
English (en)
French (fr)
Inventor
刁猛
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2024139974A1 publication Critical patent/WO2024139974A1/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/48Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for in-vehicle communication

Definitions

  • the present application relates to the field of communication technology, and in particular to an interaction method, electronic equipment and medium.
  • the present application provides an interaction method, electronic device and medium.
  • the present application provides an interaction method, including: a first electronic device and a second electronic device establish a connection, and the second electronic device displays a first interface, the first interface includes first display content; the first electronic device detects a wake-up command of a voice assistant; the first electronic device sends first data corresponding to the wake-up command to the second electronic device, wherein the first data includes data corresponding to a voice wake-up state animation; the second electronic device displays a second interface based on the first data and the first display content, the second interface includes the first display content and second display content corresponding to the first data.
  • the first electronic device when the user wakes up the voice assistant of the first electronic device, the first electronic device will not directly project the current display interface to the second electronic device for display, but will only send the data corresponding to the voice wake-up state animation to the second electronic device, and the second electronic device will draw the data corresponding to the voice wake-up state animation. In this way, the interaction between the user and the interface of the second electronic device will not be interrupted, and the user experience will be improved.
  • the first electronic device may be a mobile phone
  • the second electronic device may be a car computer
  • the first display content may be the display content of the current display interface of the car computer
  • the second interface may refer to the voice wake-up status animation displayed on the current display interface of the car computer.
  • the interaction method further includes, in response to an interaction operation between the user and the first electronic device, the second electronic device displays a third interface, where the third interface includes the first display content and third display content corresponding to the interaction operation.
  • the voice interaction content includes text corresponding to the user's voice command, smart prompts, and intention option content; the voice interaction state effects include listening effects or broadcasting effects.
  • the current operating status of the first electronic device and the second electronic device can refer to the applications currently running on the first electronic device and the second electronic device, which is used to determine whether there are applications in the first electronic device and the second electronic device that can execute the intention in a running state.
  • the second electronic device executes the intended instruction based on the slot parameter, so that the user's intended instruction can be accurately executed.
  • the functions within the application can be accurately controlled.
  • determining an execution device for the intent instruction based on the current operating status of the first electronic device and the second electronic device includes: using a device that is running a first application or a device that displays an interface of the first application in the first electronic device and the second electronic device as an execution device for the intent instruction, and the first application is an application that can execute the intent instruction.
  • a device that is running an application that can execute intent instructions or a device that displays the interface of an application that can execute intent instructions serves as an execution device of intent instructions, which can save device resources without restarting the corresponding application of another device.
  • the fourth interface includes the first display content and the fourth display content corresponding to the first data.
  • the second electronic device can display the first display content in full screen.
  • the vehicle computer may include a vehicle computer host CPU, that is, the vehicle computer is a control system capable of executing the interaction method of the present application.
  • the vehicle computer may also be a combination structure including a vehicle computer host CPU and devices such as a microphone, a speaker, a steering wheel voice button, a central control screen, a USB, Bluetooth physical components, Wi-Fi physical components, and a network antenna physical component.
  • the present application provides an electronic device, which is a first electronic device, and the first electronic device establishes a connection with a second electronic device; the first electronic device is used to detect a wake-up command of a voice assistant; the first electronic device is used to send first data corresponding to the wake-up command to the second electronic device, wherein the first data includes data corresponding to a voice wake-up state animation, but does not include interface data corresponding to a current application interface of the first electronic device.
  • a first electronic device is used to detect a user intended instruction, determine an execution device for the intended instruction based on the type of the intended instruction and the current operating states of the first electronic device and the second electronic device; and when it is determined that the execution device for the intended instruction is the second electronic device, send the intended instruction to the second electronic device.
  • the present application provides an electronic device, which is a first electronic device, and the first electronic device establishes a connection with a second electronic device;
  • the first electronic device includes: a voice assistant application, which is used to detect a wake-up command of the voice assistant, and send first data corresponding to the wake-up command to a first voice assistant atomic service module of the first electronic device, wherein the first data includes data corresponding to the voice wake-up state animation, and does not include data corresponding to the current application interface of the first electronic device;
  • the first voice assistant atomic service module is used to send data corresponding to the voice wake-up state animation to a second voice assistant atomic service module of the second electronic device.
  • the present application provides an electronic device, comprising: a memory for storing a computer program, the computer program comprising program instructions; a processor for executing the program instructions so that the electronic device executes the interaction method mentioned in the present application.
  • the present application provides a computer-readable storage medium, which stores a computer program.
  • the computer program includes program instructions, and the program instructions are executed by an electronic device to enable the electronic device to execute the interaction method mentioned in the present application.
  • FIG1a is a schematic diagram showing a hardware structure of an electronic device according to some embodiments of the present application.
  • FIG4 shows a method of interaction between a mobile phone and a vehicle computer according to some embodiments of the present application
  • FIG6 is a schematic diagram showing a flow chart of an interaction method according to some embodiments of the present application.
  • FIG9a shows a schematic diagram of data transmission during voice interaction and vehicle-computer reverse control process according to some embodiments of the present application
  • FIG9b shows a schematic diagram of a process of collaborative distribution of intentions according to some embodiments of the present application.
  • FIG. 11a is a schematic diagram showing a deployment scheme for implementing voice mutual assistance capability according to some embodiments of the present application.
  • FIG. 11 b shows a schematic flow chart of an interaction method according to some embodiments of the present application.
  • the illustrative embodiments of the present application include, but are not limited to, an interaction method, an electronic device, and a medium.
  • the electronic device mentioned in the present application is first introduced.
  • the electronic device may be the first electronic device mentioned in the present application, or the second electronic device mentioned in the present application.
  • the first electronic device and the second electronic device may include but are not limited to a communication module capable of executing the interaction method of the present application, or a mobile phone, personal computer, tablet computer, wearable device (such as a smart watch, smart bracelet, etc.), car machine, etc. including the above-mentioned communication module.
  • the electronic device may include a processor 110, an external memory interface 120, an internal memory 121, a universal serial bus (USB) interface 130, a charging management module 140, a power management module 141, a battery 142, an antenna 1, an antenna 2, a mobile communication module 150, a wireless communication module 160, an audio module 170, a speaker 170A, a receiver 170B, a microphone 170C, an earphone interface 170D, a sensor module 180, a button 190, a motor 191, an indicator 192, a camera 193, a display screen 194, and a subscriber identification module (SIM) card interface 195, etc.
  • SIM subscriber identification module
  • the power management module 141 is used to connect the battery 142, the charging management module 140 and the processor 110.
  • the power management module 141 receives input from the battery 142 and/or the charging management module 140, and supplies power to the processor 110, the internal memory 121, the display screen 194, the camera 193, and the wireless communication module 160.
  • the power management module 141 can also be used to monitor parameters such as battery capacity, battery cycle number, battery health status (leakage, impedance), etc.
  • the power management module 141 can also be set in the processor 110.
  • the power management module 141 and the charging management module 140 can also be set in the same device.
  • Antenna 1 and antenna 2 are used to transmit and receive electromagnetic wave signals.
  • Each antenna in the electronic device can be used to cover a single or multiple communication frequency bands. Different antennas can also be reused to improve the utilization of the antennas.
  • antenna 1 can be reused as a diversity antenna for a wireless local area network.
  • the antenna can be used in combination with a tuning switch.
  • the modem processor may include a modulator and a demodulator.
  • the modulator is used to modulate the low-frequency baseband signal to be sent into a medium-high frequency signal.
  • the demodulator is used to demodulate the received electromagnetic wave signal into a low-frequency baseband signal.
  • the demodulator then transmits the demodulated low-frequency baseband signal to the baseband processor for processing.
  • the application processor outputs a sound signal through an audio device (not limited to a speaker 170A, a receiver 170B, etc.), or displays an image or video through a display screen 194.
  • the modem processor may be an independent device.
  • the modem processor may be independent of the processor 110 and be set in the same device as the mobile communication module 150 or other functional modules.
  • Microphone 170C also called “microphone” or “microphone” is used to convert sound signals into electrical signals. When making a call or sending a voice message, the user can make a sound by putting his mouth close to the microphone 170C to input the sound signal into the microphone 170C.
  • the electronic device can be provided with at least one microphone 170C. In other embodiments, the electronic device can be provided with two microphones 170C, which can not only collect sound signals but also realize noise reduction function. In other embodiments, the electronic device can also be provided with three, four or more microphones 170C to realize the collection of sound signals, noise reduction, identification of sound sources, and realization of directional recording function, etc.
  • the window manager is used to manage window programs.
  • the window manager can obtain the display screen size, determine whether there is a status bar, lock the screen, capture the screen, etc.
  • Content providers are used to store and retrieve data and make it accessible to applications.
  • the data may include videos, images, audio, calls made and received, browsing history and bookmarks, phone books, etc.
  • the view system includes visual controls, such as controls for displaying text, controls for displaying images, etc.
  • the view system can be used to build applications.
  • a display interface can be composed of one or more views.
  • a display interface including a text notification icon can include a view for displaying text and a view for displaying images.
  • the phone manager is used to provide the communication functions of the mobile phone, such as the management of call status (including answering, hanging up, etc.).
  • Android Runtime includes core libraries and virtual machines. Android Runtime is responsible for scheduling and management of the Android system.
  • the media library supports playback and recording of a variety of commonly used audio and video formats, as well as static image files, etc.
  • the media library can support a variety of audio and video encoding formats, such as: MPEG4, H.264, MP3, AAC, AMR, JPG, PNG, etc.
  • the structure illustrated in the embodiments of the present application does not constitute a specific limitation on the electronic device.
  • the first electronic device and the second electronic device may include more or fewer components than shown in the figure, or combine certain components, or separate certain components, or arrange components differently, or arrange components with similar functions, etc.
  • the illustrated components may be implemented in hardware, software, or a combination of software and hardware.
  • the CPU is used to run the operating system of the mobile phone to execute the interactive method of the present application.
  • the voice assistant application interconnection protocol and related business applications (such as music applications, navigation applications, etc.) in the operating system can be run.
  • the architecture of the operating system of the mobile phone is described in detail later and will not be repeated here.
  • Bluetooth physical components are used to implement Bluetooth short-range communication (generally within 10m) between mobile phones and other electronic devices such as car computers.
  • Wi-Fi physical components are used to implement Wi-Fi communication between mobile phones and other electronic devices such as car computers.
  • the network antenna physical component may include a first antenna and a second antenna for transmitting and receiving electromagnetic wave signals.
  • the first antenna and the second antenna may be used to cover a single or multiple communication frequency bands. Different antennas may also be reused to improve the utilization of the antennas.
  • the first antenna may be reused as a diversity antenna for a wireless local area network.
  • the first antenna and the second antenna may be used in combination with a tuning switch.
  • the screen is used to display human-computer interaction interfaces, images, videos, etc.
  • the screen includes a display panel.
  • Microphones and speakers can be used for voice interaction. Specifically, speakers, also called “loudspeakers”, are used to convert audio electrical signals into sound signals. The mobile phone can play voice through the speaker and receive user voice through the microphone.
  • speakers also called “loudspeakers”
  • the mobile phone can play voice through the speaker and receive user voice through the microphone.
  • the structure illustrated in the embodiments of the present application does not constitute a specific limitation on the mobile phone.
  • the mobile phone may include more or fewer components than those illustrated, or combine certain components, or separate certain components, or arrange components differently, or arrange components with similar functions, etc.
  • the illustrated components may be implemented in hardware, software, or a combination of software and hardware.
  • the second electronic device may be a vehicle computer, and the following introduces a partial structure of a car including a vehicle computer.
  • the car may include: a microphone, a speaker, a steering wheel voice button, a vehicle computer, a central control screen, a USB, a Bluetooth physical component, a Wi-Fi physical component, and a network antenna physical component.
  • the USB interface can be used to physically connect to electronic devices such as car computers, such as connecting cables.
  • the USB interface is an interface that complies with USB standard specifications, and can be a Mini USB interface, a Micro USB interface, a USB Type C interface, etc.
  • the USB interface can be used to connect a charger to charge a mobile phone, and can also be used to transfer data between a mobile phone and peripheral devices. It can also be used to connect headphones to play audio through the headphones.
  • Wi-Fi physical components are used to implement Wi-Fi communication between mobile phones and other electronic devices such as car computers.
  • Microphones and speakers can be used for voice interaction. Specifically, speakers, also called “loudspeakers”, are used to convert audio electrical signals into sound signals. The mobile phone can play voice through the speaker and receive user voice through the microphone.
  • speakers also called “loudspeakers”
  • the mobile phone can play voice through the speaker and receive user voice through the microphone.
  • the steering wheel voice button is used to wake up the voice assistant.
  • the vehicle computer may include a vehicle computer host CPU, that is, the vehicle computer is a control system capable of executing the interactive method of the present application.
  • the vehicle computer may also be a combination structure including a vehicle computer host CPU and a microphone, a speaker, a steering wheel voice button, a central control screen, a USB, a Bluetooth physical component, a Wi-Fi physical component, a network antenna physical component, etc. Or it may include more or less components than those shown in FIG. 1 and mentioned above, or combine certain components, or split certain components, or arrange different components, or arrange components with similar functions, etc.
  • the illustrated components may be implemented in hardware, software, or a combination of software and hardware.
  • the operating system of the mobile phone may include:
  • the voice wake-up module is used to monitor the user's voice wake-up commands and draw the corresponding wake-up state animation of the mobile phone voice assistant.
  • the voice assistant atomic service module is used to send voice interaction status data and interface data to the vehicle machine.
  • the voice intention collaborative distribution module is used to determine the execution device of the user's intention instruction, and when it is determined that the execution device of the user's intention instruction is the vehicle computer, the intention instruction is sent to the vehicle computer. It is also used to receive the intention instruction sent by the vehicle computer that needs to be executed by the mobile phone.
  • Business application used to execute the corresponding intent instructions, and send the video stream data obtained by encoding the application interface during the execution process to the voice assistant atomic service module of the mobile phone.
  • the vehicle computer's operating system may include:
  • the voice assistant application is used to recognize user voice commands, understand the intention of user voice commands, determine the execution device of user intended commands, provide voice response, etc.
  • the voice wake-up module is used to monitor the user's voice wake-up commands and draw the corresponding wake-up state animation of the car voice assistant.
  • the voice assistant atomic service data module is used to receive voice interaction status data and interface data sent from a mobile phone connected to the vehicle computer, and send the received voice interaction status data and interface data to the distributed collaborative UI module.
  • the voice intention collaborative distribution module is used to determine the execution device of the user's intention instruction, and when it is determined that the user's intention instruction execution device is a mobile phone, the intention instruction is sent to the mobile phone. It is also used to receive the intention instruction sent by the mobile phone that needs to be executed by the vehicle computer.
  • the process of interaction between the vehicle computer and the mobile phone may include:
  • the user wakes up the mobile phone voice assistant by pressing the square control button.
  • the voice assistant can be awakened by any method, such as by the user's voice wake-up word or by the car's control button.
  • the vehicle computer broadcasts a response sound.
  • the mobile phone sends the response audio data to the vehicle computer, and the vehicle computer broadcasts the response sound based on the audio data.
  • the mobile phone projects the driving mode interface to the vehicle computer, and the vehicle computer displays the voice wake-up effect.
  • the mobile phone driving mode interface refers to the current display interface of the mobile phone when the mobile phone is connected to the vehicle computer.
  • the mobile phone driving mode desktop can also be a display interface obtained by removing some non-core data from the current display interface of the mobile phone. For example, a display interface obtained by removing some controls or icons on the current display interface.
  • the user performs voice interaction.
  • the user can issue the intended instruction by voice.
  • the user issues a voice instruction of "navigate to address A"
  • the vehicle computer can receive the user's intended instruction through a microphone or other audio receiving device.
  • the mobile phone performs ASR recognition and intent understanding.
  • the vehicle computer can send the intention command to the mobile phone.
  • the mobile phone performs ASR recognition and intention understanding on the intention command, obtains voice interaction information, and projects the current interface of the mobile phone including the voice interaction information to the vehicle computer.
  • the mobile phone screen is projected to display voice interaction information.
  • the car computer can display the current interface of the mobile phone, and the voice interaction information can be displayed on the current interface of the mobile phone.
  • the mobile phone executes the user's voice intention command.
  • the mobile phone can send voice broadcast data to the vehicle computer, and the vehicle computer performs voice broadcast.
  • the mobile phone when the mobile phone is connected to the car computer, the mobile phone will automatically enter the driving mode.
  • the mobile phone voice assistant is awakened, if the mobile phone driving mode desktop is not displayed on the car central control screen, it will directly apply for the mobile phone driving mode desktop to be projected to the car computer screen.
  • the mobile phone driving mode desktop refers to the current display interface of the mobile phone when the mobile phone is connected to the car computer, or the display interface obtained by removing some non-core data from the current display interface of the mobile phone.
  • the mobile phone driving mode desktop can include an application shortcut entry navigation bar (such as a voice wake-up ball), status information, service cards, application window interface, etc.
  • the car computer screen When the mobile phone driving mode desktop is projected to the car computer, as shown in Figure 3a, the car computer screen will directly display the mobile phone driving mode desktop and voice status animation.
  • the mobile phone when the user interacts with the voice assistant through the wake-up icon of the projection interface, the mobile phone projects the driving mode desktop interface to the car computer screen, and the car computer can display the voice status animation, ASR text or tips during the interaction.
  • the current car computer human-machine interface HMI
  • the user may just want to wake up the mobile phone assistant and need the mobile phone assistant to perform some functions, such as playing music.
  • the screen projection method adopted is the projection of the mobile phone application interface, that is, the display interface of the car computer only has the projected application interface window of the mobile phone, and does not include other functional interfaces of the driving mode desktop. In this way, since the voice interface is not projected, the voice assistant collaboration function cannot be used on the car computer.
  • GUI Graphic User Interface
  • voice interaction GUI including user automatic speech recognition (Automatic Speech Recognition, ASR) text display, intelligent prompts (tips), multi-round user selection GUI, etc.
  • voice image status animation GUI including voice awakening (listening) status animation, voice broadcast status animation
  • the car machine After the car machine detects the user's touch screen operation, it can send the corresponding touch screen event to the corresponding application of the mobile phone to achieve reverse control of the corresponding application of the mobile phone.
  • the interface of the mobile phone screen projection will also cover the car machine HMI, interrupting the user's interaction with the car machine HMI, resulting in a poor user experience.
  • an embodiment of the present application provides an interactive method, including: establishing a connection between a first electronic device and a second electronic device, when the voice assistant of the first electronic device is awakened, the first electronic device sends the voice assistant awakening state dynamic effect data to the second electronic device instead of sending the current display interface data of the first electronic device, and the second electronic device uses the voice assistant awakening state to wake up the second electronic device.
  • the state animation data displays the voice assistant wake-up state animation.
  • the first electronic device In the subsequent voice interaction process between the user and the first electronic device, the first electronic device only sends the voice interaction data of the voice interaction process (that is, the data corresponding to the voice interaction GUI and the voice image state animation GUI mentioned above, etc.) to the second electronic device, and also does not send the current display interface of the first electronic device.
  • the second electronic device can draw the voice interaction GUI and the voice image state animation GUI on the current display interface of the second electronic device based on the voice interaction data.
  • the voice assistant of the first electronic device in the process of executing the user's intention instruction, if it is determined that the user has the need to view the current application interface of the first electronic device, will project the corresponding application interface to the second electronic device for display.
  • the first electronic device when the user wakes up the voice assistant of the first electronic device, the first electronic device will not directly project the current display interface to the second electronic device for display, but will only send the voice wake-up state animation to the second electronic device, and the second electronic device will draw the voice wake-up state animation. In this way, the interaction between the user and the interface of the second electronic device will not be interrupted, and the user experience will be improved.
  • the mobile phone when the first electronic device is a mobile phone and the second electronic device is a car computer, when the user wakes up the voice assistant of the mobile phone through the wake-up word "Xiaoyi", the mobile phone can send the data corresponding to the wake-up state animation to the car computer, and the car computer displays the wake-up state animation and smart tips "What day of the week is today" on the original car computer HMI based on the data corresponding to the wake-up state animation.
  • the first electronic device may send data corresponding to the voice interaction content and data corresponding to the voice interaction state dynamic effect to a second electronic device, and the second electronic device displays the voice interaction content and the voice interaction dynamic effect on the current display interface of the second electronic device based on the data corresponding to the voice interaction content and the data corresponding to the voice interaction state dynamic effect.
  • the voice interaction content may include text corresponding to the user's voice command, intelligent prompts, and intent understanding content
  • the voice interaction state dynamic effect may include a broadcast dynamic effect, a listening dynamic effect, and the like.
  • the interaction between the user and the first electronic device may include the user issuing a voice command to the voice assistant of the first electronic device.
  • the first electronic device is a mobile phone and the second electronic device is a car computer
  • the car computer may receive the user's voice command based on a microphone and other devices, and may send the received data corresponding to the user's voice command to the mobile phone.
  • the execution device may parse the user intent instruction to obtain the intent parameters and slot parameters corresponding to the intent instruction, and call the intent parameters and slot parameters corresponding to the user intent instruction to execute the user intent instruction.
  • the intent parameters may be characteristic parameters that characterize the type of user intent, such as map navigation, air conditioning control, music playback control, etc.
  • the slot parameters may be specific detail characteristic parameters corresponding to the characteristic parameters of the user intent type, for example, the specific detail characteristic parameters corresponding to the map navigation may be the navigation destination, the specific detail characteristic parameters corresponding to the air conditioning control may be the specific temperature, and the specific detail characteristic parameters corresponding to the music playback control may be the song name, album name, singer, music label (such as language, instrument, style, emotion, era, singer gender, ranking list, etc.), playback application name, etc.
  • the vehicle computer can display the voice assistant wake-up state animation on the current original interface of the vehicle computer based on the data corresponding to the voice assistant wake-up state animation. In some embodiments, in addition to displaying the voice assistant wake-up state animation on the current original interface, the vehicle computer can also display smart tips.
  • the user can select Shenzhen North Station from the options “1. Shenzhen Railway Station” and “2. Shenzhen North Station” by sending a voice intent instruction to the voice assistant of the mobile phone.
  • the vehicle computer can receive the user's voice intent instruction through a microphone or other device, and send the data corresponding to the voice intent instruction to the mobile phone.
  • the mobile phone determines that the user's intent instruction is to navigate to Shenzhen North Station based on the data corresponding to the user's voice intent instruction.
  • the execution device is determined based on the method of determining the execution device mentioned in the subsequent step 608.
  • the display mode of the application interface drawn by the vehicle computer based on the application interface data during the execution of the mobile phone can be any feasible display mode such as full screen display, floating window display, split screen display, etc.
  • the awakened device can first determine whether the intent instruction type is an exclusive type, wherein the exclusive type is an intent type that can only be executed by the vehicle computer or the mobile phone.
  • the non-exclusive type is an intent type that can be executed by both the mobile phone and the vehicle computer.
  • vehicle control intents such as vehicle air conditioning, lighting control, etc.
  • the vehicle control intent can only be executed by the vehicle computer
  • the vehicle control intent is an exclusive type of intent corresponding to the vehicle computer.
  • the intent instruction is to open the B service of application A, but the vehicle computer does not have application A installed, and the mobile phone has application A installed, then the type of the intent instruction is an exclusive type of intent corresponding to the mobile phone.
  • the intent instruction is to navigate, and the navigation application needs to be opened, and the vehicle computer and the mobile phone both have the navigation application installed, and can execute the intent instruction, then the type of the intent instruction is a non-exclusive type or not an exclusive type.
  • the mobile phone receives a user command to turn on the vehicle air conditioner.
  • This intention can only be executed by the vehicle computer, which is an exclusive type corresponding to the vehicle computer.
  • the device that executes the user's intention is determined to be the vehicle computer, and the intention command is sent to the vehicle computer.
  • the mobile phone When the mobile phone receives the user instruction "Navigate to address A", it determines that the user's intention is navigation-type, which is not an exclusive intention. At this time, the mobile phone can determine whether there is a device running a navigation application or whether there is an application displayed on the device's interface that can execute the current intention instruction. For example, if the mobile phone is running a navigation application and the car computer is not running a navigation application, the mobile phone will be used as the user intention execution device. Alternatively, if the mobile phone is running a navigation application in the background, but the navigation application interface is not displayed in the foreground, and the car computer's foreground interface displays the navigation application interface, the car computer can be preferentially selected as the intention instruction execution device.
  • the user's intention is judged to be a music playing intention, which is not an exclusive type.
  • the mobile phone can judge whether there is a device running a music application or whether there is an application currently playing music, or whether the current audio application of the device is the top application or the focus application, etc. to judge the execution device. For example, if the mobile phone is running a music application and the car computer is not running a music application, the mobile phone is used as the user intention execution device.
  • this application may include but is not limited to the above methods for determining the execution device.
  • this application it is possible to determine the execution device that is more in line with the user's habits based on the type of the intended instruction and the current operating status of the device, thereby improving the user experience.
  • the execution device may parse the user intent instruction to obtain the intent parameters and slot parameters corresponding to the intent instruction, and call the intent parameters and slot parameters corresponding to the user intent instruction to execute the user intent instruction.
  • the intent parameters may be characteristic parameters that characterize the type of user intent, such as map navigation, air conditioning control, music playback control, etc.
  • the slot parameters may be specific detail characteristic parameters corresponding to the characteristic parameters of the user intent type, for example, the specific detail characteristic parameters corresponding to the map navigation may be the navigation destination, the specific detail characteristic parameters corresponding to the air conditioning control may be the specific temperature, and the specific detail characteristic parameters corresponding to the music playback control may be the song name, album name, singer, music label (such as language, instrument, style, emotion, era, singer gender, ranking list, etc.), playback application name, etc.
  • the intention parameter corresponding to the user's intention instruction is "map navigation”
  • the slot parameter is the destination address "address A" to which the application needs to navigate.
  • the user's intended instruction is "adjust the air conditioner to 26 degrees”.
  • the intent parameter corresponding to the user's intended instruction is "air conditioner control”.
  • the slot parameter temperature is 26 degrees.
  • the corresponding intent parameter can be "Music playback control”
  • the slot parameters can be Music A, Mr. Liu, and Huawei Music.
  • the execution device executes the intention instruction based on the intention parameter and the slot parameter, which can enable the user's intention instruction to be accurately executed. And it can realize accurate control of the in-application function of another device by waking up the voice assistant of one device.
  • the above-mentioned execution device may also be determined by the vehicle computer.
  • the mobile phone encodes the application interface during the execution process and obtains the video stream data and sends it to the vehicle computer.
  • the mobile phone can project the interface of the process of executing the intention command to the vehicle display.
  • the interface of the navigation application can be projected to the vehicle display.
  • the mobile phone can encode the application interface into video stream data and send the video stream data to the vehicle computer. After the vehicle computer receives the video stream data, it can decode the video stream data, obtain the decoded data, and draw the corresponding application interface based on the decoded data for display.
  • the mobile phone can also choose whether to project the interface during the execution of the intention instruction to the vehicle display according to user needs.
  • the intention types that need to project the interface during the execution of the intention instruction to the vehicle display and the intention types that do not need to project the interface during the execution of the intention instruction to the vehicle display can be stored in the mobile phone.
  • the intention types that need to send the interface data during the execution process may include navigation types, etc.
  • the intention types that do not need to send the interface data during the execution process may include music playback types, etc.
  • the mobile phone may also issue an inquiry command through voice broadcast or any other feasible method, so that the user can choose whether to project the interface during the execution of the intended command to the vehicle computer display. For example, the mobile phone may broadcast "Do you need to project the screen to the vehicle computer display?" When the user selects yes, the mobile phone can project the interface during the execution of the intended command to the vehicle computer display.
  • the vehicle computer decodes the video stream data, and draws a corresponding interface based on the decoded data for display.
  • the mode of displaying the interface of the vehicle computer can be set according to actual needs.
  • the projection interface of the mobile phone can be displayed in full screen, or it can be displayed in split screen.
  • the first screen area displays the original interface of the vehicle computer
  • the second screen area displays the projection interface of the mobile phone, etc. This can facilitate users to view the interfaces of the vehicle computer and the mobile phone, thereby improving the user experience.
  • the mobile phone when the user wakes up the mobile assistant, the mobile phone will not directly project the current display interface data to the car computer, but only send the voice interaction data of the voice interaction process to the car computer, and the car computer will draw the interactive interface such as interactive effects and interactive text. In this way, the interaction between the user and the car computer HMI will not be interrupted, and the user experience will be improved.
  • the mobile phone When the intention is executed, the mobile phone can project the corresponding application interface to the car computer display according to the user's needs, which is convenient for users to watch and improves the user experience.
  • the voice interaction data includes wake-up animation data, so that the car computer can obtain the entrance to wake up the voice assistant, so that the user can control the application of the mobile phone through the car computer, that is, the voice assistant collaborative function can be used.
  • the application shared to the car computer by the mobile phone can be consistent with the native application of the car computer in the car computer voice interaction experience, thereby improving the user experience.
  • steps of the interactive method shown in FIG. 6 in the embodiment of the present application may include more or fewer steps than those described above, and although the steps in the flowchart in the embodiment of the present application are displayed in sequence as indicated by the arrows, these steps are not necessarily executed in sequence in the order indicated by the arrows. The execution of these steps is not strictly limited in order, and they can be executed in any other order.
  • steps in the figure may include a plurality of sub-steps or a plurality of stages, and these sub-steps or stages are not necessarily executed at the same time, but can be executed at different times, and their execution order is not necessarily performed in sequence, but can be executed in turn or alternately with other steps or at least a portion of the sub-steps or stages of other steps.
  • the process may include:
  • the voice assistant of the mobile phone sends voice assistant status data (or data corresponding to the voice image status animation GUI) and voice interaction interface data (or voice interaction GUI) to the voice assistant atomic service module of the mobile phone.
  • the voice assistant atomic service module of the mobile phone sends the voice assistant status data and voice interaction interface data to the voice assistant atomic service module of the vehicle computer.
  • the voice assistant distributed collaborative UI module on the vehicle side detects the user's control of the voice interaction interface and sends the corresponding control information to the voice assistant atomic service module on the vehicle side.
  • the voice assistant atomic service module of the vehicle computer sends the corresponding control information to the voice assistant atomic service module of the mobile phone.
  • the voice assistant atomic service module of the mobile phone sends the corresponding control information to the voice assistant of the mobile phone, and the voice assistant of the mobile phone makes a corresponding response.
  • the voice assistant of the mobile phone is awakened.
  • the execution device of the intention command can be judged by the type of intention command (whether it belongs to the exclusive type that can only be executed by the car computer or mobile phone), the current operating status of the vehicle and the mobile phone (for example, whether there is an application that can execute the user's intention command on the device currently), etc.
  • the mobile phone voice assistant determines that the execution device is the car computer, the intention command is sent to the voice intention collaborative distribution module of the mobile phone.
  • the voice intention collaborative distribution module of the mobile phone sends the intention command to the voice intention collaborative distribution module of the car computer, and the voice intention collaborative distribution module of the car computer can call the corresponding application to execute the intention command.
  • the mobile phone voice assistant determines that the execution device is a mobile phone, it can directly call the corresponding mobile phone application to execute the intention command.
  • the execution application can call the intention parameters and slot parameters corresponding to the user's intention command to execute the user's intention.
  • the execution device can still be determined based on the same method as the mobile phone, and the intention instructions can be distributed to the corresponding execution device through the car's voice intention collaborative distribution module and the mobile phone's voice intention collaborative distribution module.
  • FIG. 9c shows a schematic diagram of an interaction method in the embodiment of the present application.
  • the interaction method may include:
  • the mobile phone and the vehicle computer can be connected in any feasible manner such as Bluetooth, WIFI or USB.
  • the voice assistant of the mobile phone may be awakened by the user through the car control button or by any feasible method such as the voice wake-up word corresponding to the mobile phone.
  • the voice assistant of the mobile phone sends the wake-up state animation data to the voice assistant atomic service module of the mobile phone.
  • the voice assistant atomic service module of the mobile phone sends the wake-up state animation data to the voice assistant atomic service module of the vehicle computer.
  • the voice assistant atomic service module of the vehicle computer sends the wake-up state dynamic effect data to the voice assistant distributed collaborative UI module of the vehicle computer.
  • the voice assistant distributed collaborative UI module of the vehicle computer draws the wake-up state animation based on the wake-up state animation data.
  • the vehicle computer currently displays the first interface, and the first interface includes the first display content
  • the voice assistant distributed collaborative UI module of the vehicle computer receives the wake-up state animation data, it can draw the wake-up state animation (i.e., the second display content) on the first display content of the vehicle computer based on the wake-up state animation data.
  • the vehicle computer displays the second interface, wherein the second interface includes the first display content and the second display content.
  • the voice interaction content may include a voice interaction GUI, for example, a voice prompt GUI and a voice image state effect GUI (such as voice listening state effect, voice broadcast state effect), etc.
  • the voice prompt GUI may include user ASR text display, smart tips, multi-round user selection GUI, etc.
  • the voice image state effect GUI may include voice listening state effect, voice broadcast state effect, etc.
  • the voice assistant atomic service module of the mobile phone sends the data corresponding to the voice interaction content to the voice assistant atomic service module of the vehicle computer. Service module.
  • the voice assistant atomic service module of the vehicle computer sends the data corresponding to the voice interaction content to the voice assistant distributed collaborative UI module of the vehicle computer.
  • the distributed collaborative interface module of the vehicle computer draws the voice interaction interface based on the data corresponding to the voice interaction content.
  • the distributed collaborative UI module of the vehicle computer can draw a voice interaction interface on the current display interface of the vehicle computer based on the data corresponding to the voice interaction content.
  • the voice assistant of the mobile phone determines whether the execution device of the intended command is the mobile phone. If yes, go to 917; if not, go to 913.
  • the mobile phone voice assistant can determine the execution device of the intended instruction.
  • the mobile phone voice assistant can determine the device to execute the user's intention based on the type of user's intention, the operating status of the mobile phone and the vehicle computer, such as whether the current mobile phone and the vehicle computer have applications that can execute the intention in a running state.
  • the mobile phone voice assistant can first determine whether the type of the intention instruction is an exclusive type, and the exclusive type is an intention that can only be executed by the vehicle or the mobile phone.
  • the device corresponding to the exclusive type is determined to be the execution device.
  • the execution device can be judged based on the device operating status, such as whether there is a device running an application that can execute the current intention instruction or whether there is an application displayed on the interface of the device as an application that can execute the current intention instruction.
  • the device that is running the application that can execute the current intention instruction or the device that displays the interface of the application that can execute the current intention instruction is determined as the execution device.
  • the voice assistant of the mobile phone sends the intent command to the voice intent collaborative distribution module of the mobile phone.
  • the voice intention collaborative distribution module of the mobile phone sends the intention instruction to the voice intention collaborative distribution module of the vehicle computer.
  • the voice intention collaborative distribution module of the vehicle computer sends the intention instruction to the corresponding application of the vehicle computer.
  • the corresponding application of the mobile phone encodes the application interface during the execution process and obtains the video stream data and sends it to the voice assistant atomic service module of the mobile phone.
  • the mobile phone application can also choose whether to send the interface data during the execution process to the mobile phone voice assistant atomic service module of the mobile phone according to user needs.
  • the intent types that need to send the interface data during the execution process and the intent types that do not need to send the interface data during the execution process can be stored inside the mobile phone.
  • the intent types that need to send the interface data during the execution process may include navigation types, etc.
  • the intent types that do not need to send the interface data during the execution process may include music playback types, etc.
  • the interface data during the execution of the intent instruction is sent to the mobile phone voice assistant atomic service module of the mobile phone, so that the mobile phone voice assistant atomic service module of the mobile phone sends the interface data during the execution process to the voice assistant atomic service module of the vehicle computer.
  • the voice assistant atomic service module of the mobile phone sends the video stream data to the voice assistant atomic service module of the vehicle computer.
  • the voice assistant atomic service module of the vehicle computer sends the video stream data to the distributed collaborative UI module of the vehicle computer.
  • the distributed collaborative UI module of the vehicle computer decodes the video stream data and draws the interface based on the decoded data.
  • the distributed collaborative UI module of the car computer can draw the corresponding interface based on the interface data, and the car computer can display the projection interface of the mobile phone.
  • the mode of displaying the interface of the vehicle computer can be set according to actual needs.
  • the projection interface of the mobile phone can be displayed in full screen, or it can be displayed in split screen.
  • the first screen area displays the original interface of the vehicle computer
  • the second screen area displays the projection interface of the mobile phone, etc. This can facilitate users to view the interfaces of the vehicle computer and the mobile phone, thereby improving the user experience.
  • steps of the interactive method shown in FIG. 9c in the embodiment of the present application may include more or fewer steps than those described above, and although the steps in the flowchart in the embodiment of the present application are displayed in sequence as indicated by the arrows, these steps are not necessarily executed in the order indicated by the arrows. There is no strict order restriction for the execution of these steps, and they can be executed in any other order.
  • steps in the figure may include multiple sub-steps or multiple stages, and these sub-steps or stages are not necessarily executed at the same time, but can be executed at different times, and their execution order is not necessarily based on Rather, the steps may be performed in rotation or alternation with at least a portion of other steps or sub-steps or phases of other steps.
  • FIG10 shows a schematic diagram of an interaction method in the embodiment of the present application.
  • the interaction method may include:
  • the voice assistant of the mobile phone and the voice assistant atomic service module of the vehicle computer determine that the mobile phone and the vehicle computer are connected.
  • the voice assistant of the vehicle computer detects a user's command to wake up the voice assistant.
  • the car voice assistant can be awakened by the user through any feasible method such as using the car control button or the corresponding voice wake-up word of the mobile phone.
  • the car's voice assistant draws the wake-up state animation and the voice interaction interface during the voice interaction process.
  • the voice assistant of the vehicle computer determines the user's intended instruction.
  • the voice assistant of the vehicle computer sends the intention instruction to the voice intention collaborative distribution module of the vehicle computer.
  • the voice intention collaborative distribution module of the vehicle computer sends the intention instruction to the voice intention collaborative distribution module of the mobile phone.
  • the voice intention collaborative distribution module of the mobile phone sends an execution instruction to the corresponding application of the mobile phone.
  • the corresponding application of the mobile phone encodes the application interface during the execution process and sends the video stream data obtained to the voice assistant atomic service module of the mobile phone.
  • the voice assistant atomic service module of the mobile phone sends the video stream data to the voice assistant atomic service module of the vehicle computer.
  • the distributed collaborative UI module of the vehicle computer decodes the video stream data and draws the interface based on the decoded data.
  • steps of the interactive method shown in Figure 10 in the embodiment of the present application may include more or less steps than those described above, and although the various steps in the flowchart in the embodiment of the present application are displayed in sequence as indicated by the arrows, these steps are not necessarily performed in sequence in the order indicated by the arrows. The execution of these steps is not strictly limited in order, and they can be performed in any other order.
  • steps in the figure may include a plurality of sub-steps or a plurality of stages, and these sub-steps or stages are not necessarily performed at the same time, but can be performed at different times, and their execution order is not necessarily performed in sequence, but can be performed in turn or alternately with other steps or at least a portion of the sub-steps or stages of other steps.
  • Figure 11a shows a specific deployment scheme for realizing voice mutual assistance capability.
  • the specific deployment scheme in the embodiment of the present application is to deploy a voice assistant atomic service module and a voice assistant distributed collaborative UI (or distributed Voice-HMI) module on the vehicle side, and open the voice atomization capability on the corresponding mobile phone side (for example, deploy a voice assistant atomic service module on the mobile phone side).
  • a voice assistant atomic service module and a voice assistant distributed collaborative UI (or distributed Voice-HMI) module
  • Voice-HMI distributed Voice-HMI
  • the mobile phone side opens up the voice assistant status capability (that is, it can send voice assistant status data to the vehicle side) and the GUI interface data capability of the voice assistant interaction on the mobile phone side (that is, it can send data corresponding to the voice interaction GUI to the vehicle side) to realize the voice assistant mutual assistance capabilities of the vehicle and mobile phone, such as the voice assistant status capability and the GUI capability of voice assistant interaction, that is, the vehicle side receives voice assistant status data (such as idle state data, wake-up listening state data, broadcast state data) and draws corresponding state animations (such as idle state animations, wake-up listening state animations, broadcast state animations), and the vehicle side receives voice interaction interface data (such as ASR text data/intelligent tips data/multi-round data and selections, etc.) and draws the interaction interface.
  • voice assistant status data such as idle state data, wake-up listening state data, broadcast state data
  • state animations such as idle state animations, wake-up listening state animations, broadcast state animations
  • voice interaction interface data such as ASR text data/inte
  • the distributed collaborative UI module of the vehicle computer detects that the user wakes up the mobile phone voice assistant by pressing a button.
  • the user can wake up the mobile phone voice assistant through the car's square control button.
  • the distributed collaborative UI module of the vehicle computer sends a wake-up message to the mobile phone voice assistant.
  • the voice assistant of the mobile phone enters the voice wake-up state and starts receiving audio.
  • the voice assistant of the mobile phone sends the response audio stream data, the voice wake-up state dynamic effect data and the intelligent voice tips data to the distributed UI module of the vehicle computer.
  • the distributed UI module of the vehicle computer controls the vehicle computer to play the response and display the voice wake-up status animation and intelligent tips.
  • the distributed collaborative UI module of the vehicle computer receives the sound and sends the audio stream data to the mobile phone voice assistant.
  • the voice assistant of the mobile phone performs voice recognition based on the audio stream data.
  • the voice assistant of the mobile phone sends the recognized ASR text data to the distributed collaborative UI module of the vehicle computer.
  • the distributed collaborative UI module of the vehicle computer controls the vehicle computer to display the ASR text.
  • the voice assistant of the mobile phone understands the intention and obtains the audio stream data of the voice broadcast.
  • the voice assistant of the mobile phone sends the audio stream data of the voice broadcast and the voice broadcast status animation to the distributed collaborative UI module of the vehicle computer.
  • the distributed collaborative UI module displays the voice broadcast status animation and controls the vehicle computer to perform voice broadcast.
  • the voice assistant of the mobile phone obtains GUI data of multiple rounds of conversations.
  • the voice assistant of the mobile phone sends the GUI data of multiple rounds of conversations to the distributed collaborative UI module of the vehicle computer.
  • the distributed collaborative UI module of the vehicle computer controls the vehicle computer to display GUI cards for multiple rounds of dialogue.
  • the distributed collaborative UI module of the vehicle computer obtains the intention instruction selected by the user.
  • the distributed collaborative UI module of the vehicle computer sends the intention command selected by the user to the mobile phone.
  • the voice assistant of the mobile phone determines the execution device based on the intent instruction.
  • the voice assistant of the mobile phone sends the intention instruction to the voice intention collaborative distribution module of the mobile phone.
  • the voice intention collaborative distribution module of the mobile phone sends the intention instruction to the voice intention collaborative distribution module of the vehicle computer.
  • the voice intention collaborative distribution module of the vehicle computer sends the intention instruction to the vehicle computer application.
  • the mobile phone can also choose whether to project the interface during the execution of the intention instruction to the vehicle display according to user needs.
  • the intention types that need to project the interface during the execution of the intention instruction to the vehicle display and the intention types that do not need to project the interface during the execution of the intention instruction to the vehicle display can be stored in the mobile phone.
  • the intention types that need to send the interface data during the execution process may include navigation types, etc.
  • the intention types that do not need to send the interface data during the execution process may include music playback types, etc.
  • the phone's voice assistant detects that the Voice Activity Detection (VAD) timeout is greater than the set value and exits the voice state.
  • VAD Voice Activity Detection
  • the voice assistant of the mobile phone sends the exit voice status animation data to the vehicle computer.
  • the distributed collaborative UI module of the vehicle computer controls the vehicle computer to display the exit voice status animation.
  • the mobile phone when the user wakes up the mobile assistant, the mobile phone will not directly project the current display interface data to the car computer, but only send the voice interaction data of the voice interaction process to the car computer, and the car computer will draw the interactive interface such as interactive effects and interactive text. In this way, the interaction between the user and the car computer HMI will not be interrupted, and the user experience will be improved.
  • the mobile phone When the intention is executed, the mobile phone can project the corresponding application interface to the car computer display according to the user's needs, which is convenient for users to watch and improves the user experience.
  • the voice interaction data includes wake-up animation data, so that the car computer can obtain the entrance to wake up the voice assistant, so that the user can control the application of the mobile phone through the car computer, that is, the voice assistant collaborative function can be used.
  • the application shared to the car computer by the mobile phone can be consistent with the native application of the car computer in the car computer voice interaction experience, thereby improving the user experience.
  • the steps of the interactive method shown in FIG. 6 in the embodiment of the present application may include more or fewer steps than those described above, and although the steps in the flowchart in the embodiment of the present application are displayed in sequence as indicated by the arrows, these steps are not necessarily executed in the order indicated by the arrows. There is no strict order restriction for the execution of these steps, and they can be executed in any other order. Moreover, at least some of the steps in the figure may include multiple sub-steps or multiple stages, and these sub-steps or stages may be executed in any order. The segments are not necessarily executed at the same time, but can be executed at different times. The execution order is not necessarily sequential, but can be executed in turn or alternately with other steps or sub-steps of other steps or at least part of the stages.
  • the various embodiments disclosed in the present application may be implemented in hardware, software, firmware, or a combination of these implementation methods.
  • the embodiments of the present application may be implemented as a computer program or program code executed on a programmable system, the programmable system comprising at least one processor, a storage system (including volatile and non-volatile memory and/or storage elements), at least one input device, and at least one output device.
  • Program code can be applied to input instructions to perform the functions described in this application and generate output information.
  • the output information can be applied to one or more output devices in a known manner.
  • a processing system includes any system having a processor such as, for example, a digital signal processor (DSP), a microcontroller, an application specific integrated circuit (ASIC), or a microprocessor.
  • DSP digital signal processor
  • ASIC application specific integrated circuit
  • Program code can be implemented with high-level programming language or object-oriented programming language to communicate with the processing system.
  • program code can also be implemented with assembly language or machine language.
  • the mechanism described in this application is not limited to the scope of any specific programming language. In either case, the language can be a compiled language or an interpreted language.
  • the disclosed embodiments may be implemented in hardware, firmware, software, or any combination thereof.
  • the disclosed embodiments may also be implemented as instructions carried or stored on one or more temporary or non-temporary machine-readable (e.g., computer-readable) storage media, which may be read and executed by one or more processors.
  • instructions may be distributed over a network or through other computer-readable media.
  • machine-readable media may include any mechanism for storing or transmitting information in a machine (e.g., computer) readable form, including, but not limited to, floppy disks, optical disks, optical disks, read-only memories (CD-ROMs), magneto-optical disks, read-only memories (ROMs), random access memories (RAMs), erasable programmable read-only memories (EPROMs), electrically erasable programmable read-only memories (EEPROMs), magnetic or optical cards, flash memory, or a tangible machine-readable memory for transmitting information (e.g., carrier waves, infrared signals, digital signals, etc.) using the Internet in electrical, optical, acoustic, or other forms of propagation signals. Therefore, machine-readable media include any type of machine-readable media suitable for storing or transmitting electronic instructions or information in a machine (e.g., computer) readable form.
  • a machine-readable media include any type of machine-readable media suitable for storing or transmitting electronic instructions or information in a machine
  • a logical unit/module can be a physical unit/module, or a part of a physical unit/module, or can be implemented as a combination of multiple physical units/modules.
  • the physical implementation method of these logical units/modules themselves is not the most important.
  • the combination of functions implemented by these logical units/modules is the key to solving the technical problems proposed by the present application.
  • the above-mentioned device embodiments of the present application do not introduce units/modules that are not closely related to solving the technical problems proposed by the present application, which does not mean that there are no other units/modules in the above-mentioned device embodiments.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请涉及通信技术领域,公开了一种交互方法、电子设备及介质,其中,交互方法包括:第一电子设备和第二电子设备建立连接,并且第二电子设备显示第一界面,第一界面包括第一显示内容;第一电子设备检测到语音助手的唤醒指令;第一电子设备发送对应唤醒指令的第一数据至第二电子设备,其中,第一数据包括语音唤醒状态动效对应的数据;第二电子设备基于第一数据以及第一显示内容显示第二界面,第二界面包括第一显示内容以及对应第一数据的第二显示内容。基于上述方案,当用户唤醒第一电子设备的语音助手时,第一电子设备只发送语音唤醒状态动效对应的数据至第二电子设备,如此,不会打断用户与第二电子设备的界面的交互,提升用户体验。

Description

一种交互方法、电子设备及介质
本申请要求2022年12月30日提交中国专利局、申请号为202211727325.0、申请名称为“一种交互方法、电子设备及介质”的中国专利申请的优先权,上述申请的全部内容通过引用结合在本申请中。
技术领域
本申请涉及通信技术领域,特别涉及一种交互方法、电子设备及介质。
背景技术
随着手机等电子设备的发展普及,手机等电子设备已经被用户随身随地携带。同时,随着汽车智能化的发展,越来越多的汽车都配置了车载娱乐***(或称为中控屏***、车机)。其中,汽车的车机的硬件计算能力升级迭代周期相对较长,因此车机的应用和服务不够丰富。而电子设备有最新的计算硬件平台、最新的软件平台、最新的高速移动数据网络连接能力以及各种用户习惯的应用和服务等,因此,一般会将汽车的车机和电子设备连接,以实现车机和电子设备的硬件互助或应用生态共享。例如,当电子设备与车机通过有线或无线方式连接后,用户可以通过汽车的输入输出设备(如车机大屏、按键旋钮、汽车麦克风、喇叭、摄像头等)控制使用电子设备上的应用。
在手机与车机互联场景下,如何保障驾驶安全的同时,提高交互的快捷方便性,成为业界研究方向。
发明内容
为实现在手机与车机互联场景下,保障驾驶安全的同时,提高交互的快捷方便性,本申请提供一种交互方法、电子设备及介质。
第一方面,本申请提供一种交互方法,包括:第一电子设备和第二电子设备建立连接,并且第二电子设备显示第一界面,第一界面包括第一显示内容;第一电子设备检测到语音助手的唤醒指令;第一电子设备发送对应唤醒指令的第一数据至第二电子设备,其中,第一数据包括语音唤醒状态动效对应的数据;第二电子设备基于第一数据以及第一显示内容显示第二界面,第二界面包括第一显示内容以及对应第一数据的第二显示内容。
基于上述方案,当用户唤醒第一电子设备的语音助手时,第一电子设备不会将当前显示界面直接投屏到第二电子设备上进行显示,而是只发送语音唤醒状态动效对应的数据至第二电子设备,由第二电子设备绘制语音唤醒状态动效对应的数据。如此,不会打断用户与第二电子设备的界面的交互,提升用户体验。
在一些实施例中,第一电子设备可以为手机,第二电子设备可以为车机,其中,第一显示内容可以为车机的当前显示界面的显示内容,第二界面可以指在车机当前的显示界面上显示语音唤醒状态动效。
在一种可能的实现中,交互方法还包括响应于用户与第一电子设备的交互操作,第二电子设备显示第三界面,第三界面包括第一显示内容以及对应交互操作的第三显示内容。
可以理解,上述用户与第一电子设备的交互操作可以指用户通过语音指令等方式与第一电子设备的语音助手进行交互,在一些实施例中,第二电子设备可以接收语音指令,把语音指令对应的数据发送至第一电子设备,第一电子设备对语音指令进行ASR识别,意图理解等过程,且第一电子设备可以将第三显示内容对应的数据,即ASR识别得到的文本数据,意图理解的结果数据(多轮用户选择GUI)、智能tips等语音交互内容数据以及语音交互状态动效数据(例如聆听动效、播报动效)发送至车机进行显示。
在用户与第一电子设备的交互过程中,第一电子设备可以只发送语音交互内容和语音交互状态动效,而不发送手机的应用界面对应的界面数据,如此,如此,不会打断用户与第二电子设备的界面的交互,提升用户体验。
在一种可能的实现中,第三显示内容包括对应交互操作的语音交互内容和语音交互状态动效。
在一种可能的实现中,响应于用户与第一电子设备的交互操作,第二电子设备显示第三界面包括:响应于用户与第一电子设备的交互操作,第一电子设备发送语音交互内容对应的数据以及语音交互状态动效对应的数据至第二电子设备;第二电子设备基于语音交互内容对应的数据、语音交互状态动效对应的数据以及第一显示内容显示第三界面。
在一种可能的实现中,语音交互内容包括用户语音指令对应的文本、智能提示以及意图选项内容;语音交互状态动效包括聆听动效或播报动效。
在一种可能的实现中,第一电子设备检测到用户意图指令,基于意图指令的类型以及第一电子设备和第二电子设备的当前运行状态确定意图指令的执行设备;在确定意图指令的执行设备是第二电子设备时,第一电子设备发送意图指令至第二电子设备。
可以理解,第一电子设备在检测到用户意图指令时,基于意图指令的类型以及第一电子设备和第二电子设备的当前运行状态确定意图指令的执行设备,如此,可以在意图指令为第一电子设备无法执行的意图时,通过第二电子设备执行意图指令,保证意图指令的执行,此外,能够基于第一电子设备和第二电子设备的当前运行状态确定意图指令的执行设备当前最适合执行用户意图指令的设备,提升用户体验。其中,第一电子设备和第二电子设备的当前运行状态可以指当前第一电子设备和第二电子设备当前正在运行的应用,用以判断第一电子设备和第二电子设备是否存在能够执行意图的应用处于运行状态。
在一种可能的实现中,第二电子设备基于意图指令获取意图参数和槽位参数,基于意图参数和槽位参数执行意图指令。
可以理解,本申请实施例中,第二电子设备基于槽位参数执行意图指令,可以使得能够精确执行用户意图指令。例如,可以对应用内的功能进行精确控制。
在一种可能的实现中,基于意图指令的类型以及第一电子设备和第二电子设备的当前运行状态确定意图指令的执行设备,包括:在意图指令的类型为专属类型时,确定意图指令的执行设备为专属类型对应的执行设备;在意图指令不为专属类型时,基于第一电子设备和第二电子设备的当前运行状态确定意图指令的执行设备。
在一种可能的实现中,基于第一电子设备和第二电子设备的当前运行状态确定意图指令的执行设备,包括:将第一电子设备和第二电子设备中,正在运行第一应用的设备或者显示第一应用的界面的设备作为意图指令的执行设备,第一应用为能够执行意图指令的应用。
可以理解,正在运行能够执行意图指令的应用的设备或者显示能够执行意图指令的应用的界面的设备作为意图指令的执行设备,能够实现无需重新启动另一设备的对应应用,节省设备资源。
在一种可能的实现中,在意图指令的执行设备为第一电子设备,且意图指令的类型为预设的无需投屏显示执行过程的类型时,第一电子设备不发送意图指令执行过程中的显示界面对应的数据至第二电子设备。
在一些实施例中,预设的无需投屏显示执行过程的类型可以为音乐播放类型等无需观看画面的类型。如此,可以有效不必要的界面数据的传输和相关界面的绘制,节省设备资源。
在一种可能的实现中,在意图指令的执行设备为第一电子设备,且意图指令的类型为预设的需要投屏显示执行过程的类型时,第一电子设备发送意图指令执行过程中的显示界面对应的第一数据至第二电子设备;第一电子设备基于显示界面对应的第一数据显示第四界面。
在一种可能的实现中,第四界面包括第一显示内容以及对应第一数据的第四显示内容。
在一种可能的实现中,第一显示内容和第四显示内容显示在第一电子设备屏幕的不同区域。
可以理解,第二电子设备可以将第一显示内容和第四显示内容可以分屏显示。
在一种可能的实现中,第四界面包括对应第一数据的第四显示内容。
可以理解,第二电子设备可以将第一显示内容全屏显示。
在一种可能的实现中,第一数据不包括第一电子设备的当前应用界面对应的界面数据。
在一种可能的实现中,第一电子设备为手机,第二电子设备为车机。
在一些实施例中,车机可以包括车机主机CPU,即车机为能够执行本申请交互方法的控制***,在另一些实施例中,车机也可以为包括车机主机CPU以及麦克风、喇叭、方向盘语音按键、中控大屏、USB、蓝牙物理元器件、Wi-Fi物理元器件、网络天线物理元器件等器件的组合结构。
在一些实施例中,手机可以包括:存储器,用于存储计算机程序,计算机程序包括程序指令;处理器,用于执行程序指令,以使手机执行本申请提及的交互方法。车机可以包括:存储器,用于存储计算机程序,计算机程序包括程序指令;处理器,用于执行程序指令,以使手机执行本申请提及的交互方法。
第二方面,本申请提供一种电子设备,电子设备为第一电子设备,第一电子设备与第二电子设备建立连接;第一电子设备,用于检测语音助手的唤醒指令;第一电子设备,用于发送对应唤醒指令的第一数据至第二电子设备,其中,第一数据包括语音唤醒状态动效对应的数据,不包括第一电子设备的当前应用界面对应的界面数据。
在一种可能的实现中,第一电子设备,用于响应于用户与语音助手的交互操作,发送语音交互内容对应的数据以及语音交互状态动效对应的数据至第二电子设备。
在一种可能的实现中,第一电子设备,用于检测到用户意图指令,基于意图指令的类型以及第一电子设备和第二电子设备的当前运行状态确定意图指令的执行设备;在确定意图指令的执行设备是第二电子设备时,发送意图指令至第二电子设备。
第三方面,本申请提供一种电子设备,电子设备为第二电子设备,第二电子设备与第一电子设备建立连接;第二电子设备,用于显示第一界面,第一界面包括第一显示内容;第二电子设备,用于基于第一电子设备发送的第一数据以及第一显示内容显示第二界面,第二界面包括第一显示内容以及对应第一数据的第二显示内容,其中,第一数据包括语音唤醒状态动效对应的数据,不包括第一电子设备的当前应用界面对应的数据。
在一种可能的实现中,第二电子设备,用于响应于用户与第一电子设备的语音助手的交互操作显示第三界面,第三界面包括第一显示内容以及对应交互操作的第三显示内容。
第四方面,本申请提供一种电子设备,电子设备为第一电子设备,第一电子设备与第二电子设备建立连接;第一电子设备包括:语音助手应用,用于检测到语音助手的唤醒指令,发送对应唤醒指令的第一数据至第一电子设备的第一语音助手原子服务模块,其中,第一数据包括语音唤醒状态动效对应的数据,不包括第一电子设备的当前应用界面对应的数据;第一语音助手原子服务模块,用于发送语音唤醒状态动效对应的数据至第二电子设备的第二语音助手原子服务模块。
在一种可能的实现中,语音助手应用,用于响应于用户与语音助手的交互操作,发送语音交互内容对应的数据以及语音交互状态动效对应的数据至第一语音助手原子服务模块;第一语音助手原子服务模块,用于发送语音交互内容对应的数据以及语音交互状态动效对应的数据至第二电子设备的第二语音助手原子服务模块。
在一种可能的实现中,第二电子设备还包括第一语音意图协同分发模块;语音助手应用,用于检测到用户意图指令,基于意图指令的类型以及第一电子设备和第二电子设备的当前运行状态确定意图指令的执行设备;在确定意图指令的执行设备是第二电子设备时,发送意图指令至第一语音意图协同分发模块;第一语音意图协同分发模块发送意图指令至第二电子设备的语音意图协同分发模块。
第五方面,本申请提供一种电子设备,电子设备为第二电子设备,第二电子设备与第二电子设备建立连接;第二电子设备包括:语音助手分布式协同UI模块,用于控制第二电子设备的屏幕显示第一界面,第一界面包括第一显示内容;语音助手分布式协同UI模块,用于基于第一电子设备发送的第一数据以及第一显示内容显示第二界面,第二界面包括第一显示内容以及对应第一数据的第二显示内容,其中,第一数据包括语音唤醒状态动效对应的数据,不包括第一电子设备的当前应用界面对应的数据。
在一种可能的实现中,语音助手分布式协同UI模块,用于响应于用户与第一电子设备的语音 助手的交互操作,控制第二电子设备的屏幕显示第三界面,第三界面包括第一显示内容以及对应交互操作的第三显示内容。
第六方面,本申请提供一种电子设备,包括:存储器,用于存储计算机程序,计算机程序包括程序指令;处理器,用于执行程序指令,以使电子设备执行本申请提及的交互方法。
第七方面,本申请提供一种计算机可读取存储介质,计算机可读取存储介质存储有计算机程序,计算机程序包括程序指令,程序指令被电子设备运行以使电子设备执行本申请提及的交互方法。
附图说明
图1a根据本申请一些实施例,示出了一种电子设备的硬件结构示意图;
图1b根据本申请一些实施例,示出了一种电子设备的软件结构示意图;
图1c根据本申请一些实施例,示出了一种汽车和手机的结构示意图;
图1d根据本申请一些实施例,示出了一种汽车和手机的结构示意图;
图2根据本申请的一些实施例,示出了一种车机和手机进行交互的过程示意图;
图3a根据本申请的一些实施例,示出了一种手机驾驶模式桌面投屏的场景示意图;
图3b根据本申请的一些实施例,示出了一种手机驾驶模式桌面投屏的场景示意图;
图4根据本申请的一些实施例,示出了一种手机与车机的交互方式;
图5根据本申请一些实施例,示出了一种车机和手机进行交互的过程示意图;
图6根据本申请一些实施例,示出了一种交互方法的流程示意图;
图7根据本申请一些实施例,示出了一种交互过程的场景示意图;
图8根据本申请一些实施例,示出了一种交互过程的场景示意图;
图9a根据本申请一些实施例,示出了一种语音交互过程数据的传递及车机反向控制过程示意图;
图9b根据本申请一些实施例,示出了一种意图协同分发的过程示意图;
图9c根据本申请一些实施例,示出了一种交互方法的流程示意图;
图10根据本申请一些实施例,示出了一种交互方法的流程示意图;
图11a根据本申请一些实施例,示出了一种语音互助能力实现的部署方案示意图;
图11b根据本申请一些实施例,示出了一种交互方法的流程示意图。
具体实施方式
本申请的说明性实施例包括但不限于一种交互方法、电子设备及介质。
下面在详细介绍本申请的交互方法之前,首先本申请提及的电子设备进行介绍。电子设备可以为本申请提及的第一电子设备,也可以为本申请提及的第二电子设备。其中,第一电子设备和第二电子设备可以包括但不限于能够执行本申请交互方法的通信模组,或者包括上述通信模组的手机、个人计算机、平板电脑、可穿戴设备(例如智能手表、智能手环等)、车机等。
如图1a所示,电子设备可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解,处理器110可以用于运行电子设备的操作***以执行本申请实施例交互方法中电子设备侧的步骤。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuit sound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purpose input/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备充电,也可以用于电子设备与***设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备的结构限定。在本申请另一些实施例中,电子设备也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备上的包括无线局域网(wireless local area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星***(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波, 将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备可以通过无线通信技术与网络以及其他设备通信。
电子设备通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194也可以称为屏幕,用于显示图像,视频等。在一些实施例中,电子设备可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备可以支持一种或多种视频编解码器。这样,电子设备可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。
电子设备可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备可以设置至少一个麦克风170C。在另一些实施例中,电子设备可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备可以接收按键输入,产生与电子设备的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。 例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
在一些实施例中,电子设备的软件***可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android***为例,示例性说明手机的软件结构。如图1b所示,分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android***分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和***库,以及内核层。
应用程序层可以包括一系列应用程序包。应用程序包可以包括语音助手,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
应用程序框架层可以包括窗口管理器,内容提供器,视图***,电话管理器,资源管理器,通知管理器等。在一些实施例中,语音唤醒模块、语音助手原子化服务模块、语音意图协同分发模块可以根据实际需求设置在操作***中,例如,可以设置在应用程序的框架层中。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图***包括可视控件,例如显示文字的控件,显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供手机的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
***库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子***进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器 驱动。
可以理解的是,本申请实施例示意的结构并不构成对电子设备的具体限定。在本申请另一些实施例中,第一电子设备和第二电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,或者而具有相似功能的部件布置等。图示的部件可以以硬件,软件或软件和硬件的组合实现。
例如,在一些实施例中,第一电子设备为手机。如图1c所示,手机可以包括CPU、麦克风、喇叭、USB接口、蓝牙物理元器件、Wi-Fi物理元器件、网络天线物理元器件、屏幕等。
其中,CPU用于运行手机的操作***以执行本申请的交互方法,例如,可以运行操作***中的语音助手应用、互联协议以及相关业务应用(例如音乐应用、导航应用等)。其中,手机的操作***的架构在后文中详述,此处不再赘述。
USB接口可以用于实现手机与汽车车机等电子设备进行有线连接,例如连接线连接。其中,USB接口是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口可以用于连接充电器为手机充电,也可以用于手机与***设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。
蓝牙物理元器件用于实现手机与其他电子设备例如汽车车机的蓝牙短距离通信(一般10m内的距离)。
Wi-Fi物理元器件用于实现手机与其他电子设备例如汽车车机之间的Wi-Fi通信。
网络天线物理元器件可以包括第一天线和第二天线,用于发射和接收电磁波信号。第一天线和第二天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将第一天线复用为无线局域网的分集天线。在另外一些实施例中,第一天线和第二天线可以和调谐开关结合使用。
屏幕用于显示人机交互界面、图像、视频等。屏幕包括显示面板。
麦克风和喇叭可以用于语音交互。具体的,喇叭,也称“扬声器”,用于将音频电信号转换为声音信号。手机可以通过喇叭播放语音,可以通过麦克风接收用户语音。
可以理解的是,本申请实施例示意的结构并不构成对手机的具体限定。在本申请另一些实施例中,手机可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,或者而具有相似功能的部件布置等。图示的部件可以以硬件,软件或软件和硬件的组合实现。
在一些实施例中,第二电子设备可以为车机,下面对包含车机的汽车的部分结构进行介绍。如图1c所示,汽车可以包括:麦克风、喇叭、方向盘语音按键、车机、中控大屏、USB、蓝牙物理元器件、Wi-Fi物理元器件、网络天线物理元器件。
车机可以包括车机主机CPU,车机主机CPU可以包括一个或多个处理单元,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。处理器中可以设置存储单元,用于存储指令和数据。车机主机CPU可以用于运行车机的操作***以执行本申请的交互方法,例如操作***中的语音助手应用、互联协议、以及相关业务应用(例如音乐应用、导航应用等),还用于控制中控大屏显示HMI界面。其中,车机的操作***的架构在后文中详述,此处不再赘述。
USB接口可以用于与汽车车机等电子设备进行物理连接,例如连接线连接。其中,USB接口是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口可以用于连接充电器为手机充电,也可以用于手机与***设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。
蓝牙物理元器件用于实现手机与其他电子设备例如汽车车机的蓝牙短距离通信(一般10m内的距离)。
Wi-Fi物理元器件用于实现手机与其他电子设备例如汽车车机之间的Wi-Fi通信。
网络天线物理元器件可以包括第一天线和第二天线,用于发射和接收电磁波信号。第一天线和第二天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将第一天线复用为无线局域网的分集天线。在另外一些实施例中,第一天线和第二天线 可以和调谐开关结合使用。
中控大屏用于显示HMI,中控大屏包括显示面板。
麦克风和喇叭可以用于语音交互。具体的,喇叭,也称“扬声器”,用于将音频电信号转换为声音信号。手机可以通过喇叭播放语音,可以通过麦克风接收用户语音。
方向盘语音按键用于唤醒语音助手。
在一些实施例中,车机可以包括车机主机CPU,即车机为能够执行本申请交互方法的控制***,在另一些实施例中,车机也可以为包括车机主机CPU以及麦克风、喇叭、方向盘语音按键、中控大屏、USB、蓝牙物理元器件、Wi-Fi物理元器件、网络天线物理元器件等器件的组合结构。或者可以包括比图1所示的以及上述提及的更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,或者而具有相似功能的部件布置等。图示的部件可以以硬件,软件或软件和硬件的组合实现。
在一些实施例中,如图1d所示,手机的操作***可以包括:
语音助手应用:用于对用户语音指令进行识别,以及对用户语音指令进行意图理解、确定用户意图指令的执行设备、进行语音应答等。
语音唤醒模块,用于监听用户语音唤醒指令,并绘制手机语音助手对应的唤醒状态动效。
语音助手原子化服务模块,用于将语音交互状态数据和界面数据发送至车机端。
语音意图协同分发模块,用于确定用户的意图指令的执行设备,并在确定用户的意图指令执行设备为车机时,将意图指令发送至车机。并用于接收车机发送的需要手机执行的意图指令。
业务应用:用于执行对应的意图指令,并将对执行过程中的应用界面进行编码获取的视频流数据发送至手机的语音助手原子服务模块。
车机的操作***可以包括:
语音助手应用,用于对用户语音指令进行识别,以及对用户语音指令进行意图理解、确定用户意图指令的执行设备、进行语音应答等。
语音唤醒模块,用于监听用户语音唤醒指令,并绘制车机语音助手对应的唤醒状态动效。
语音助手分布式协同UI模块:用于根据接收的语音交互状态数据和界面数据在车机显示界面进行对应界面的绘制。
语音助手原子服务数据模块,用于接收来自与车机连接的手机发送的语音交互状态数据和界面数据,并将接收到的语音交互状态数据和界面数据发送给分布式协同UI模块。
语音意图协同分发模块,用于确定用户的意图指令的执行设备,并在确定用户的意图指令执行设备为手机时,将意图指令发送至手机。并用于接收手机发送的需要车机执行的意图指令。
业务应用:用于执行对应的意图指令。
下面以手机和车机的交互过程为例对一些实施例中分布式设备间的交互过程进行介绍。如图2所示,车机和手机进行交互的过程可以包括:
101:手机和车机建立连接。
可以理解,手机和车机建立连接的方式可以为手机和车机通过蓝牙、无线保真(wireless fidelity,Wi-Fi)网络或者连接线等任意可实施的连接方式。
102:用户通过方控按键唤醒手机语音助手。
其中,语音助手被唤醒的方式可以为用户通过语音唤醒词、或者通过汽车方控按键唤醒等任意方式。
103:车机播报应答声音。
可以理解,本申请实施例中,手机将应答音频数据发送至车机,车机基于音频数据播报应答声音。
104:手机将驾驶模式界面投屏至车机,车机显示语音唤醒动效。
可以理解,手机驾驶模式界面(桌面)即是指手机与车机连接状态下手机的当前显示界面。在一些实施例中,手机驾驶模式桌面也可以为手机的当前显示界面中去除一些非核心数据所获取的显示界面。例如,在当前显示界面上去除一些控件或图标等所获取的显示界面。
105:用户进行语音交互。
可以理解,用户可以通过语音方式发出意图指令,例如,用户发出“导航到地址A”的语音指令,车机可以通过麦克风等收音设备接收用户的意图指令。
106:手机进行ASR识别,意图理解。
在一些实施例中,车机可以将意图指令发送至手机。手机对意图指令进行ASR识别,意图理解等,获取语音交互信息,并将包括语音交互信息的手机当前界面投屏至车机。
107:手机投屏显示语音交互信息。
可以理解,车机可以显示手机当前界面,手机当前界面上可以显示语音交互信息。
例如,手机对意图指令对应的文本进行显示,并对意图指令进行确认等。例如,当用户发出“导航到地址A”的语音指令,则手机可以在当前界面上显示“导航到地址A”语音指令对应的文本,并对该语音指令进行理解,显示语义理解后的多个选项“导航到地址A1”、“导航到地址A2”、“导航到地址A”等,便于用户选择确认。上述手机与用户交互过程中的显示界面均可以投屏至车机进行显示。
108:手机执行用户语音意图指令。
可以理解,手机在确认用户意图指令后,可以执行用户意图指令,例如在确认用户选择了“导航到地址A”时可以打开导航应用进行导航。
109:车机进行语音播报。
在一些实施例中,手机可以发送语音播报数据至车机,由车机进行语音播报。
可以理解,在上述实施例中,当手机与车机连接后,手机将会自动进入驾驶模式,当手机语音助手被唤醒后,如果手机驾驶模式桌面不在汽车中控屏幕投屏显示时会直接申请手机驾驶模式桌面投屏到车机屏幕,其中,如前所述,手机驾驶模式桌面即是指手机与车机连接状态下手机的当前显示界面,或者为手机的当前显示界面中去除一些非核心数据所获取的显示界面。手机驾驶模式桌面可以包括应用快捷入口导航栏(例如语音唤醒球)、状态信息、服务卡片、应用窗口界面等。
当手机驾驶模式桌面投屏到车机后,如图3a所示,车机屏幕将会直接显示手机驾驶模式桌面以及语音状态动效。如图3b所示,在用户通过投屏界面的唤醒图标与语音助手交互过程中,手机投屏驾驶模式桌面界面到车机屏幕,车机可以显示语音状态动效、交互过程中的ASR文本或者tips。如此,会导致当前车机的人机界面(Human Machine Interface,HMI)被手机驾驶模式桌面覆盖,打断用户与车机的HMI的交互。而此时,用户可能只是想唤醒手机助手,需要手机助手执行一些功能,例如播放音乐等,此时并没有观看手机当前界面的需求,而是想继续与车机的HMI进行交互,例如,想要继续观看车机屏幕上的导航界面,但此时由于手机投屏的界面已经覆盖了车机应用界面,将会导致用户体验较差,在一些情况下,也会影响驾驶安全。
此外,一些车机与手机互联方案中,采用的投屏方式为手机应用界面投屏,即车机的显示界面只有手机被投屏应用界面窗口,不包括驾驶模式桌面的其他部分功能界面,如此,由于没有进行语音界面的投屏,因此导致车机端无法使用语音助手协同功能。
此外,另一些车机与手机互联方案中,手机语音助手被唤醒后,如图4所示,语音交互过程的图形用户界面(Graphical User Interface,GUI),例如,语音交互GUI(包括用户自动语音识别(Automatic Speech Recognition,ASR)文本显示、智能提示(tips)、多轮用户选择GUI等)以及语音形象状态动效GUI(包括语音唤醒(聆听)状态动效、语音播报状态动效)等,是在手机上完成GUI界面绘制之后依赖手机当前显示界面投屏到车机屏幕进行显示。车机在检测到用户触屏操作后,可以将对应的触屏事件发送至手机的对应应用以实现反向控制手机的对应应用。在上述方案中,手机投屏的界面也会覆盖车机HMI,打断用户与车机的HMI的交互,导致用户体验较差。
为解决上述问题,本申请实施例提供一种交互方法,包括:第一电子设备和第二电子设备建立连接,当第一电子设备的语音助手被唤醒后,第一电子设备发送语音助手唤醒状态动效数据至第二电子设备,而不发送第一电子设备的当前显示界面数据,第二电子设备基于语音助手唤醒状 态动效数据显示语音助手唤醒状态动效。在后续用户与第一电子设备的语音交互过程中时,第一电子设备只将语音交互过程的语音交互数据(即前述中提及的语音交互GUI以及语音形象状态动效GUI对应的数据等)发送至第二电子设备,同样不发送第一电子设备的当前显示界面。第二电子设备可以基于语音交互数据在第二电子设备的当前显示界面上进行语音交互GUI以及语音形象状态动效GUI的绘制。第一电子设备的语音助手在接收到用户意图指令后,在执行用户意图指令的过程中,若确定用户具有观看第一电子设备当前应用界面的需求,则将对应应用界面投屏至第二电子设备显示。
基于上述方案,当用户唤醒第一电子设备的语音助手时,第一电子设备不会直接将当前显示界面直接投屏到第二电子设备上进行显示,而是只发送语音唤醒状态动效至第二电子设备,由第二电子设备绘制语音唤醒状态动效。如此,不会打断用户与第二电子设备的界面的交互,提升用户体验。例如,如图5所示,当第一电子设备为手机,第二电子设备为车机时,当用户通过唤醒词“小艺”唤醒了手机的语音助手,则手机可以将唤醒状态动效对应的数据发送至车机,车机基于唤醒状态动效对应的数据在原有的车机HMI显示唤醒状态动效以及智能tips“今天星期几”等。
在用户与第一电子设备进行语音交互时,第一电子设备可以发送语音交互内容对应的数据以及所述语音交互状态动效对应的数据至第二电子设备,第二电子设备基于语音交互内容对应的数据、语音交互状态动效对应的数据在第二电子设备的当前显示界面上显示语音交互内容以及语音交互动效。在一些实施例中,语音交互内容可以包括用户语音指令对应的文本、智能提示以及意图理解内容等,语音交互状态动效可以包括播报动效、聆听动效等。
在一些实施例中,用户与第一电子设备的交互操作可以包括用户向第一电子设备的语音助手发出语音指令的操作。例如,当第一电子设备为手机,第二电子设备为车机时,在用户与手机的语音助手交互过程中,例如,用户发出“导航到火车站”的语音指令时,车机可以要基于麦克风等设备,接收用户的语音指令,并可以将接收到的用户语音指令对应数据发送至手机,手机在接收到用户语音指令对应数据时,获取语音指令对应的识别文本,手机可以将语音指令对应的文本“导航到火车站”发送至车机,车机可以显示“导航到火车站”文本。
在一些实施例中,第二电子设备也可以在检测用户的语音指令时,执行语音指令的识别过程,例如直接对语音指令进行识别、意图理解等过程,获取对应的语音指令文本进行显示。而在意图执行时,第一电子设备可以按照用户需求将对应应用界面投屏至第二电子设备显示,如此便于用户观看,提升用户体验。并且,语音交互数据中包括唤醒状态动效数据,如此,可以使得第二电子设备获取唤醒语音助手的入口,使得用户可以通过第二电子设备控制使用第一电子设备的应用,即使得第二电子设备和第一电子设备可以使用语音助手协同功能。
此外,如上述提及的语音交互过程的GUI以及语音形象状态动效GUI,通过在第一电子设备(例如手机)上完成GUI界面绘制之后依赖第一电子设备当前显示界面投屏到第二电子设备(例如车机)屏幕进行显示的方案中,当用户唤醒的语音助手为第二电子设备的语音助手时,只能通过第二电子设备语音助手打开对应的第一电子设备应用,但是无法通过第二电子设备语音助手控制第一电子设备应用的具体功能,例如只能通过第二电子设备语音助手打开导航应用,无法用第二电子设备语音助手控制第一电子设备地图应用导航到某个目的地地址,再例如,只能通过第二电子设备语音助手打开音乐播放应用,无法控制第一电子设备音乐应用播放某个歌手的歌曲等。使得第一电子设备互联共享给第二电子设备的应用与第二电子设备原生应用在第二电子设备语音交互体验上无法一致。
为解决上述问题,本申请实施例中,当被唤醒的语音助手接收到用户意图指令后,可以根据用户意图的类型、当前是否有能够执行意图的应用处于运行状态等确定执行用户意图指令的设备,例如,在第一电子设备的语音助手被唤醒后,在接收到用户意图指令时,若确定第一电子设备为意图执行设备时,第一电子设备可以执行用户意图指令,并将执行过程中对应的应用界面数据发送至第二电子设备,由第二电子设备绘制对应应用界面。当确定第二电子设备为意图执行设备时,可以将意图指令发送至第二电子设备,由第二电子设备执行。
其中,被唤醒语音助手的设备确定意图执行设备的方式可以为:首先确定意图指令类型是否为 专属类型,专属类型为只能由第二电子设备或第一电子设备执行的意图。当确定意图指令的类型为专属类型时,则确定该专属类型对应的设备为执行设备。在确定该意图指令的类型不为专属类型时,可以通过第二电子设备和第一电子设备的当前运行状态确定执行设备,例如可以判断是否存在设备正在运行能执行当前意图指令的应用,若存在,确定正在运行能执行当前意图指令的应用的设备为执行设备。
例如,当第一电子设备为手机,第二电子设备为车机时,若手机接收到用户的意图指令为开启车辆空调,确定用户意图的类型为车辆控制类,即属于车机执行的专属类型意图,则确定执行用户意图的设备为车机。当接收到用户指令为“导航到地址A”,判断出用户意图为导航类,该意图不属于专属类型意图。此时手机可以判断是否存在设备正在运行导航应用,例如,若手机正在运行导航应用,车机未运行导航应用,则将手机作为用户意图执行设备。
此外,在一些实施例中,执行设备可以对用户意图指令进行解析获取意图指令对应的意图参数和槽位参数,并调用用户意图指令对应的意图参数和槽位参数,执行用户意图指令。其中,意图参数可以为表征用户意图种类的特征参数,例如地图导航、空调控制、音乐播控等,槽位参数可以为用户意图种类的特征参数所对应的具体细节特征参数,例如,地图导航对应的具体细节特征参数可以为导航目的地,空调控制对应的具体细节特征参数可以为具体温度,音乐播控对应的具体细节特征参数可以为歌曲名、专辑名、歌手、音乐标签(例如语言、乐器、风格、情感、年代、歌手性别、排行榜单等)、播放应用名称等。
例如,用户意图指令为“导航到地址A”,则用户意图指令对应的意图参数可以为“地图导航”,槽位参数可以为应用内需要导航到的目的地地址“地址A”。
例如,用户意图指令为“把空调调到26度”。则用户意图指令对应的意图参数可以为“空调控制”,槽位参数可以为温度“26度”。
例如用户意图指令为“用华为音乐播放刘先生的音乐A”,则对应的意图参数可以为“音乐播控”,槽位参数可以为音乐A、刘先生、华为音乐。
可以理解,本申请实施例中,执行设备基于意图参数和槽位参数执行意图指令,可以使得能够精确执行用户意图指令。且可以实现通过唤醒其中一个设备的语音助手,对另一个设备的应用内功能的精确控制。
基于上述方式,可以实现唤醒通过分布式协同设备中的其中一个设备的语音助手,对另一个设备的应用的精确控制,使得其中一个设备互联共享给另一个设备的应用与另一个设备的原生应用在另一个设备上的语音交互体验上保持一致,提升用户体验。
下面以第一电子设备为手机,第二电子设备为车机,且用户唤醒手机的语音助手为例,对本申请实施例中提及的交互方法进行详细说明。图6示出了本申请实施例中一种交互方法的示意图。如图6所示,交互方法可以包括:
601:手机和车机建立连接。
可以理解,手机和车机建立连接的方式可以为手机和车机通过蓝牙、WIFI或者USB等任意可实施的连接方式。
602:手机检测到用户唤醒语音助手的指令。
其中,手机语音助手被唤醒的方式可以为用户通过汽车方控按键的方式或者采用手机对应的语音唤醒词等任意可实施的方式。
603:手机发送语音助手唤醒状态动效对应的数据至车机。
本申请实施例中,当用户唤醒手机的语音助手时,手机不会直接将当前显示界面直接投屏到车机上进行显示,而是只发送语音唤醒状态动效数据或者语音唤醒状态动效数据以及智能tips数据至车机,由车机在原显示界面上绘制语音唤醒状态动效或者语音唤醒状态动效以及智能tips。如此,不会打断用户与车机的界面的交互,提升用户体验。
例如,当用户通过唤醒词“小艺”唤醒了手机语音助手,则手机可以将唤醒状态动效对应的数据发送至车机,如图5所示,车机基于唤醒状态动效对应的数据在原有的车机HMI界面显示唤醒聆听状态下的唤醒状态动效以及智能tips“今天星期几”等。
604:车机在当前显示界面上绘制语音助手唤醒状态动效。
在一些实施例中,车机可以基于语音助手唤醒状态动效对应的数据在车机当前原界面上显示语音助手唤醒状态动效。在一些实施例中,车机在当前原界面上除了显示语音助手唤醒状态动效,还可以显示智能tips。
605:手机将语音交互过程的语音交互数据发送至车机。
在一些实施例中,语音交互过程的语音交互数据可以指手机响应于用户与手机的语音助手进行的交互操作,所产生的语音交互内容以及对应的语音交互状态动效。用户与手机的语音助手进行的交互操作可以为用户向手机的语音助手发出语音意图指令的操作。
可以理解,车机可以通过麦克风等设备接收用户与手机的语音助手进行语音交互过程中的语音意图指令,并将语音意图指令对应的数据发送至手机,由手机进行ASR识别,意图理解等过程,且手机可以将语音交互内容数据,即ASR识别得到的文本数据,意图理解的结果数据(多轮用户选择GUI)、智能tips等,以及语音交互状态动效数据(例如聆听动效、播报动效)发送至车机进行显示。
例如,手机语音助手被唤醒后,车机显示显示原界面以及唤醒状态动效(或称为聆听状态动效),当用户发出“导航到火车站”的语音意图指令,车机可以将语音意图指令对应的数据发送至手机,手机在接收到用户语音意图指令数据时,对语音意图指令进行ASR识别,以获取语音意图指令对应的文本,并将该语音意图指令对应的文本发送至车机。如图7所示,车机可以显示原界面以及聆听状态动效以及“导航到火车站”文本。
此外,手机可以对该语音意图指令进行意图理解,获取意图理解结果,例如包括意图理解后的多个选项“1、深圳火车站”、“2.深圳北站”等,并将意图理解结果以及对应的播报状态动效发送至车机显示。如图7所示,车机可显示车机原界面以及语义理解后的多个选项“1、深圳火车站”、“2.深圳北站”以及播报状态动效。
本申请实施例中,手机可以只将语音交互数据发送至车机,而不发送手机当前的应用界面数据至车机,使得车机可以在车机原界面(即当前显示界面)上直接显示基于语音交互数据绘制的交互内容(即语音交互界面),不会完全遮挡车机原界面,提升用户体验。
在一些实施例中,车机可以通过麦克风等设备接收用户与手机的语音助手进行语音交互过程中的语音意图指令,并直接进行ASR识别,意图理解等过程,且车机可以直接在原界面上显示ASR识别得到的文本数据,意图理解的结果数据(多轮用户选择GUI)、智能tip等语音交互内容,以及语音交互状态动效数据(例如聆听动效、播报动效)发送至车机进行显示。
606:车机基于语音交互数据在当前显示界面上绘制语音交互界面。
607:手机确定用户的意图指令。
在一些实施例中,如图8中所示,用户可以在选项“1.深圳火车站”、“2.深圳北站”中通过向手机的语音助手发送语音意图指令选择深圳北站。车机可以可以通过麦克风等设备接收用用户语音意图指令,并将语音意图指令对应的数据发送至手机,手机基于用户语音意图指令对应数据确定用户的意图指令为导航到深圳北站。并基于后续步骤608中提及的判断执行设备的方式确定执行设备,若确定手机为执行设备时,在手机执意图指令的过程中,将手机执行意图指令过程中的导航界面数据发送至车机,车机可以基于手机执行过程中的导航界面数据绘制对应的导航界面进行显示。
在一些实施例中,也可以由车机直接对用户发出的语音意图指令进行ASR识别,意图理解等过程以进行用户意图指令的确定,并直接显示ASR识别文本,意图理解结果等语音交互内容。例如,车机可以基于用户选择深圳北站的语音意图指令确定用户的意图指令为导航到深圳北站。
在一些实施例中,车机显示上述导航界面的方式可以为全屏显示导航界面,例如将车机当前界面切换为导航界面。
在一些实施例中,车机显示上述导航界面的方式也可以为悬浮显示导航界面,例如,在车机当前界面上弹窗显示导航应用悬浮窗口,以显示对应的导航界面。
在一些实施例中,车机显示上述导航界面的方式还可以为将导航界面与其他应用界面分屏显 示,例如导航界面和其他应用界面显示在车机中控大屏的不同显示区域。
需要说明的是,本申请实施例中,车机基于手机执行过程中的应用界面数据绘制的应用界面的显示方式可以为全屏显示、悬浮窗显示、分屏显示等任意可实施的显示方式。
608:手机在确定手机为执行设备时,执行用户的意图指令。
可以理解,本申请实施例中,手机语音助手在确定用户的意图指令后,可以判断该意图指令的执行设备。在一些实施例中,被唤醒语音助手的设备可以根据用户意图的类型、手机和车机的运行状态,例如当前手机和车机是否有能够执行意图的应用处于运行状态等确定执行用户意图的设备。
在一些实施例中,被唤醒的设备可以首先确定意图指令类型是否为专属类型,其中,专属类型为只能由车机或手机执行的意图类型。非专属类型则为手机和车机都能执行的意图类型。例如,车辆控制类的意图,例如车辆空调、灯光控制等均只能由车机执行,则车辆控制类意图则是车机对应的专属类型的意图。例如,意图指令为打开A应用的B业务,而车机未安装A应用,手机安装了A应用,则该意图指令的类型则为手机对应的专属类型的意图。例如,意图指令为进行导航,需要打开导航应用,而车机和手机均安装了导航应用,都可以执行该意图指令,则该意图指令的类型为非专属类型或不为专属类型。
当确定意图指令的类型为专属类型时,则确定该专属类型对应的设备为执行设备。在确定该意图指令的类型不为专属类型时,可以基于设备运行状态,例如是否存在设备正在运行能执行当前意图指令的应用或是否存在设备的界面显示的应用为能够执行当前意图指令的应用等运行状态来判断执行设备。若存在设备正在运行能执行当前意图指令的应用或存在设备的界面显示的应用为能够执行当前意图指令的应用,确定正在运行能执行当前意图指令的应用的设备或显示能执行当前意图指令的应用的界面的设备为执行设备。
例如,当手机的语音助手被唤醒后,手机接收到用户指令为开启车辆空调,该意图只能由车机进行执行,为车机对应的专属类型,则确定执行用户意图的设备为车机,并将该意图指令发送至车机。
当手机接收到用户指令为“导航到地址A”,判断出用户意图为导航类,该意图不属于专属意图。此时手机可以判断是否存在设备正在运行导航应用或是否存在设备的界面显示的应用为能够执行当前意图指令的应用,例如,若手机正在运行导航应用,车机未运行导航应用,则将手机作为用户意图执行设备。再或者,手机正在后台运行导航应用,但导航应用界面未在前台显示,而车机前台界面显示导航应用界面,则可以优先选择车机作为意图指令执行设备。
当接收到用户指令为播放音乐B,此时判断出用户意图为音乐播放类意图,该类型不属于专属类型,此时,手机可以判断是否存在设备正在运行音乐应用或者当前是否存在正在播放音乐的应用等,或者是否存在设备当前的音频应用为栈顶应用或者焦点应用等判断执行设备。例如,若手机正在运行音乐应用,车机未运行音乐应用,则将手机作为用户意图执行设备。
可以理解,本申请上述举例只是示意性说明,本申请中可以包括但不限于上述确定执行设备的方式。本申请实施例中,能够基于意图指令的类型以及设备当前运行状态等确定更加符合用户习惯的执行设备,提升用户体验。
此外,在一些实施例中,执行设备可以对用户意图指令进行解析获取意图指令对应的意图参数和槽位参数,并调用用户意图指令对应的意图参数和槽位参数,执行用户意图指令。其中,意图参数可以为表征用户意图种类的特征参数,例如地图导航、空调控制、音乐播控等,槽位参数可以为用户意图种类的特征参数所对应的具体细节特征参数,例如,地图导航对应的具体细节特征参数可以为导航目的地,空调控制对应的具体细节特征参数可以为具体温度,音乐播控对应的具体细节特征参数可以为歌曲名、专辑名、歌手、音乐标签(例如语言、乐器、风格、情感、年代、歌手性别、排行榜单等)、播放应用名称等。
例如,用户意图指令为“导航到地址A”,则用户意图指令对应的意图参数为“地图导航”,槽位参数为应用内需要导航到的目的地地址“地址A”。
例如,用户意图指令为“把空调调到26度”。则用户意图指令对应的意图参数为“空调控制”, 槽位参数温度“26度”。
例如用户意图指令为“用华为音乐播放刘先生的音乐A”,则对应的意图参数可以为“音乐播控”,槽位参数可以为音乐A、刘先生、华为音乐。
可以理解,本申请实施例中,执行设备基于意图参数和槽位参数执行意图指令,可以使得能够精确执行用户意图指令。且可以实现通过唤醒其中一个设备的语音助手,对另一个设备的应用内功能的精确控制。
在一些实施例中,也可以由车机进行上述执行设备的确定。
609:手机将对执行过程中的应用界面进行编码获取的视频流数据发送至车机。
手机可以将执行意图指令的过程中的界面投屏至车机显示。例如,手机在运行导航应用的过程中,可以将导航应用的界面投屏至车机显示。
在一些实施例中,手机可以将应用界面编码成视频流数据,并将视频流数据发送至车机,车机接收到视频流数据后,可以对视频流数据进行解码,获取解码数据,基于解码数据绘制对应的应用界面进行显示。
在一些实施例中,手机也可以按照用户需求选择是否将执行意图指令的过程中的界面投屏至车机显示。例如,可以在手机内部存储需要将执行意图指令的过程中的界面投屏至车机显示的意图类型以及不需要将执行意图指令的过程中的界面投屏至车机显示的意图类型,例如,需要发送执行过程中的界面数据的意图类型可以包括导航类等。不需要发送执行过程中的界面数据的意图类型可以包括音乐播放类等。
在一些实施例中,手机也可以通过语音播报或者其他任意可实施的方式发出询问指令,以便用户选择是否需要将执行意图指令的过程中的界面投屏至车机显示。例如,手机可以播报“是否需要投屏到车机显示”,当用户选择需要,则手机可以将执行意图指令的过程中的界面投屏至车机显示。
610:车机对视频流数据进行解码,基于解码后的数据绘制对应的界面进行显示。
可以理解,本申请实施例中,车机显示界面的方式可以根据实际需求设置,例如,可以为全屏显示手机的投屏界面,或者也可以分屏显示,例如,第一屏幕区域显示车机的原始界面,第二屏幕区域显示手机的投屏界面等,如此可以便于用户观看车机和手机的界面,提升用户体验。
基于上述方案,当用户唤醒手机助手时,手机不会直接将当前显示界面数据直接投屏到车机上,而是只发送语音交互过程的语音交互数据至车机,由车机绘制交互动效、交互文本等交互界面。如此,不会打断用户与车机HMI的交互,提升用户体验。
而在意图执行时,手机可以按照用户需求将对应应用界面投屏至车机显示,如此便于用户观看,提升用户体验。并且,语音交互数据中包括唤醒动效数据,如此,可以使得车机获取唤醒语音助手的入口,使得用户可以通过车机控制使用手机的应用,即可以使用语音助手协同功能。
此外,基于上述方案,可以实现通过唤醒其中一个设备的语音助手,对另一个设备的应用的精确控制,例如,可以使得手机互联共享给车机的应用与车机原生应用在车机语音交互体验上保持一致,提升用户体验。
可以理解,本申请实施例中图6中所示的交互方法的步骤可以包括比上述更多或更少的步骤,且虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。这些步骤的执行并没有严格的顺序限制,其可以以其他的任意顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
下面基于上述手机和车机的软件架构,对本申请手机中语音交互过程数据(包括语音助手状态数据和语音交互界面数据等)的传递及车机反向控制过程进行简要介绍。如图9a所示,过程可以包括:
(1)手机的语音助手发送语音助手状态数据(或称为语音形象状态动效GUI对应的数据)和语音交互界面数据(或称为语音交互GUI)至手机的语音助手原子服务模块。
(2)手机的语音助手原子服务模块将语音助手状态数据和语音交互界面数据发送至车机的语音助手原子服务模块。
(3)车机的语音助手原子服务模块将语音助手状态数据和语音交互界面数据发送至车机的语音助手分布式协同UI模块,由车机的语音助手分布式协同UI模块基于语音助手状态数据和语音交互界面数据进行语音助手状态动效和语音交互界面的绘制。
(4)车机端的语音助手分布式协同UI模块检测到用户对语音交互界面的控制,将对应的控制信息发送至车机的语音助手原子服务模块。
(5)车机的语音助手原子服务模块将对应的控制信息发送至手机的语音助手原子服务模块。
(6)手机的语音助手原子服务模块将对应的控制信息发送至手机的语音助手,由手机的语音助手进行对应的响应。
下面对语音助手意图协同分发的过程进行简要介绍,如图9b所示,手机的语音助手被唤醒,在对用户语音指令进行意图理解,确定用户意图指令后,可以基于上下文场景感知,即通过意图指令的类型(是否属于只能车机或手机执行专属类型)、车辆和手机当前运行状态(例如是否存在设备当前正在运行能够执行用户意图指令的应用等)等判断意图指令的执行设备,在手机语音助手确定执行设备为车机时,则将意图指令发送至手机的语音意图协同分发模块,手机的语音意图协同分发模块将意图指令发送至车机的语音意图协同分发模块,车机的语音意图协同分发模块可以调用对应的应用执行意图指令。当手机语音助手确定执行设备为手机时,则可以直接调用对应的手机应用执行意图指令。其中,执行应用可以调用用户意图指令对应的意图参数和槽位参数,执行用户意图。
同样的,当车机的语音助手被唤醒后确定用户意图执行后,仍然可以基于上述与手机同样的方式确定执行设备,并通过车机的语音意图协同分发模块和手机的语音意图协同分发模块实现将意图指令分发给对应的执行设备。
下面以第一电子设备为手机,第二电子设备为车机,结合上述手机和车机的软件架构,以手机的语音助手被唤醒为例,对本申请实施例中的交互方法进行说明。图9c示出了本申请实施例中一种交互方法的示意图。如图9c所示,交互方法可以包括:
901:手机的语音助手和车机的语音助手确定手机和车机建立连接。
可以理解,手机和车机建立连接的方式可以为手机和车机通过蓝牙、WIFI或者USB等任意可实施的连接方式。
902:手机的语音助手检测到用户唤醒语音助手的指令。
其中,手机的语音助手被唤醒的方式可以为用户通过汽车控制按键的方式或者采用手机对应的语音唤醒词等任意可实施的方式。
903:手机的语音助手将唤醒状态动效数据发送至手机的语音助手原子服务模块。
904:手机的语音助手原子服务模块将唤醒状态动效数据发送至车机的语音助手原子服务模块。
905:车机的语音助手原子服务模块将唤醒状态动效数据发送至车机的语音助手分布式协同UI模块。
906:车机的语音助手分布式协同UI模块基于唤醒状态动效数据绘制唤醒状态动效。
可以理解,若车机当前显示第一界面,第一界面包括第一显示内容,则车机的语音助手分布式协同UI模块在接收到唤醒状态动效数据时,可以基于唤醒状态动效数据在车机的第一显示内容上绘制唤醒状态动效(即第二显示内容),此时,车机显示第二界面,其中,第二界面包括第一显示内容和第二显示内容。
907:手机的语音助手将语音交互内容对应的数据发送至手机的语音助手原子服务模块。
可以理解,本申请实施例中,语音交互内容可以包括语音交互GUI,例如,语音提示GUI以及语音形象状态动效GUI(例如语音聆听状态动效、语音播报状态动效)等。其中,语音提示GUI可以包括用户ASR文本显示、智能tips、多轮用户选择GUI等,语音形象状态动效GUI可以包括语音聆听状态动效、语音播报状态动效等。
908:手机的语音助手原子服务模块将语音交互内容对应的数据发送至车机的语音助手原子服 务模块。
909:车机的语音助手原子服务模块将语音交互内容对应的数据发送至车机的语音助手分布式协同UI模块。
910:车机的分布式协同界面模块基于语音交互内容对应的数据绘制语音交互界面。
可以理解,车机的分布式协同UI模块可以基于语音交互内容对应的数据在车机的当前显示界面上绘制语音交互界面。
911:手机的语音助手确定用户意图指令。
912:手机的语音助手判断意图指令的执行设备是否为手机。若是,转至917,若否,转至913。
可以理解,本申请实施例中,手机语音助手在确定用户的意图指令后,可以判断该意图指令的执行设备。在一些实施例中,手机语音助手可以根据用户意图的类型、手机和车机的运行状态,例如当前手机和车机是否有能够执行意图的应用处于运行状态等确定执行用户意图的设备。
在一些实施例中,手机语音助手可以首先确定意图指令类型是否为专属类型,专属类型为只能由车机或手机执行的意图。当确定意图指令的类型为专属类型时,则确定该专属类型对应的设备为执行设备。在确定该意图指令的类型不为专属类型时,可以基于设备运行状态,例如是否存在设备正在运行能执行当前意图指令的应用或是否存在设备的界面显示的应用为能够执行当前意图指令的应用等运行状态来判断执行设备。若存在设备正在运行能执行当前意图指令的应用或存在设备的界面显示的应用为能够执行当前意图指令的应用,确定正在运行能执行当前意图指令的应用的设备或显示能执行当前意图指令的应用的界面的设备为执行设备。
913:手机的语音助手将意图指令发送至手机的语音意图协同分发模块。
914:手机的语音意图协同分发模块将意图指令发送至车机的语音意图协同分发模块。
915:车机的语音意图协同分发模块发送意图指令至车机的对应应用。
916:车机的对应应用执行意图指令。
917:手机的语音助手发送意图指令给手机的对应应用。
918:手机的对应应用执行意图指令。
919:手机的对应应用将对执行过程中的应用界面进行编码获取的视频流数据发送至手机的语音助手原子服务模块。
在一些实施例中,手机应用也可以按照用户需求选择是否发送执行过程中的界面数据至手机的手机语音助手原子服务模块。例如,可以在手机内部存储需要发送执行过程中的界面数据的意图类型以及不需要发送执行过程中的界面数据的意图类型,例如,需要发送执行过程中的界面数据的意图类型可以包括导航类等。不需要发送执行过程中的界面数据的意图类型可以包括音乐播放类等。当用户当前的意图指令为需要发送执行过程中的界面数据的意图类型时,则发送执行意图指令的过程中的界面数据至手机的手机语音助手原子服务模块,以使得手机的手机语音助手原子服务模块将执行过程中的界面数据发送至车机的语音助手原子服务模块。
920:手机的语音助手原子服务模块将视频流数据发送至车机的语音助手原子服务模块。
921:车机的语音助手原子服务模块将视频流数据发送至车机的分布式协同UI模块。
922:车机的分布式协同UI模块对视频流数据进行解码,基于解码后的数据绘制界面。
可以理解,车机的分布式协同UI模块可以基于界面数据绘制对应界面,及车机可以显示手机的投屏界面。
可以理解,本申请实施例中,车机显示界面的方式可以根据实际需求设置,例如,可以为全屏显示手机的投屏界面,或者也可以分屏显示,例如,第一屏幕区域显示车机的原始界面,第二屏幕区域显示手机的投屏界面等,如此可以便于用户观看车机和手机的界面,提升用户体验。
可以理解,本申请实施例中图9c中所示的交互方法的步骤可以包括比上述更多或更少的步骤,且虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。这些步骤的执行并没有严格的顺序限制,其可以以其他的任意顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依 次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
下面以第一电子设备为手机,第二电子设备为车机,结合上述手机和车机的软件架构,以车机的语音助手被唤醒为例,对本申请实施例中的交互方法进行说明。图10示出了本申请实施例中一种交互方法的示意图。如图10所示,交互方法可以包括:
1001:手机的语音助手和车机的语音助手原子服务模块确定手机和车机建立连接。
1002:车机的语音助手检测到用户唤醒语音助手的指令。
其中,车机语音助手被唤醒的方式可以为用户通过汽车控制按键的方式或者采用手机对应的语音唤醒词等任意可实施的方式。
1003:车机的语音助手绘制唤醒状态动效和语音交互过程中的语音交互界面。
1004:车机的语音助手确定用户意图指令。
1005:车机的语音助手判断意图指令的执行设备是否为手机。若是,转至1006,若否,转至1014。
1006:车机的语音助手将意图指令发送至车机的语音意图协同分发模块。
1007:车机的语音意图协同分发模块将意图指令发送至手机的语音意图协同分发模块。
1008:手机的语音意图协同分发模块发送执行指令至手机的对应应用。
1009:手机的对应应用执行意图指令。
1010:手机的对应应用将对执行过程中的应用界面进行编码获取的视频流数据发送至手机的语音助手原子化服务模块。
1011:手机的语音助手原子化服务模块将视频流数据发送至车机的语音助手原子服务模块。
1012:车机的语音助手原子服务模块将视频流数据发送至车机的分布式协同UI模块。
1013:车机的分布式协同UI模块对视频流数据进行解码,基于解码后的数据绘制界面。
1014:车机的语音助手将意图指令发送至车机的对应应用。
1015:车机的对应应用执行意图指令。
可以理解,本申请实施例中图10中所示的交互方法的步骤可以包括比上述更多或更少的步骤,且虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。这些步骤的执行并没有严格的顺序限制,其可以以其他的任意顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
下面结合图11a和图11b,对本申请实施例中语音助手协同交互方法进行进一步的补充说明。
图11a示出了语音互助能力实现的具体部署方案,如图11a所示,本申请实施例中具体的部署方案为在车机端部署语音助手原子服务模块以及语音助手分布式协同UI(或称为分布式Voice-HMI)模块,在对应手机端开放语音原子化能力(例如,在手机端部署语音助手原子服务模块)。具体的,针对于车机端部署的语音助手原子服务模块,手机端开放语音助手状态能力(即可以发送语音助手状态数据至车机端)、手机端语音助手交互的GUI界面数据能力(即可以发送语音交互GUI对应的数据至车机端),以实现车机和手机的语音助手互助能力,例如语音助手状态能力以及语音助手交互的GUI能力,即实现车机接收语音助手状态数据(例如空闲态状态数据、唤醒聆听态状态数据、播报态状态数据)并进行对应状态动效(例如空闲态状态动效、唤醒聆听态状态动效、播报态状态动效)的绘制,以及实现车机接收语音交互界面数据(例如ASR文本数据/智能tips数据/多轮数据及选择等)并进行交互界面的绘制。
图11b中基于车机的界面显示内容示出了一种交互方法的示意图,以进一步说明手机和车机的协同交互过程。如图11b所示,交互方法可以包括:
1101:手机的分布式协同UI模块和车机的分布式协同UI模块确定手机和车机建立连接。
1102:车机的分布式协同UI模块检测到用户通过按键唤醒手机语音助手。
在一些实施例中,用户可以通过汽车方控按键唤醒手机语音助手。
1103:车机的分布式协同UI模块发送唤醒信息至手机语音助手。
1104:手机的语音助手进入语音唤醒状态并开始收音。
1105:手机的语音助手发送应答音频流数据、语音唤醒状态动效数据以及智能语音tips数据至车机的分布式UI模块。
1106:车机的分布式UI模块控制车机播放应答,并显示语音唤醒状态动效以及智能tips。
1107:车机的分布式协同UI模块进行收音,并发送音频流数据至手机语音助手。
1108:手机的语音助手基于音频流数据进行语音识别。
1109:手机的语音助手发送识别后的ASR文本数据至车机的分布式协同UI模块。
1110:车机的分布式协同UI模块控制车机显示ASR文本。
1111:手机的语音助手进行意图理解,获取语音播报的音频流数据。
1112:手机的语音助手将语音播报的音频流数据以及语音播报状态动效发送至车机的分布式协同UI模块。
1113:分布式协同UI模块显示语音播报状态动效并控制车机进行语音播报。
1114:手机的语音助手获取多轮对话的GUI数据。
1115:手机的语音助手发送多轮对话的GUI数据至车机的分布式协同UI模块。
1116:车机的分布式协同UI模块控制车机显示多轮对话的GUI卡片。
1117:车机的分布式协同UI模块获取用户选择的意图指令。
1118:车机的分布式协同UI模块将用户选择的意图指令发送至手机。
1119:手机的语音助手基于意图指令确定执行设备。
1120:手机的语音助手确定执行设备是手机时,发送意图指令至手机的对应应用。
1121:手机的语音助手确定执行设备是车机时,发送意图指令至车机的对应应用。
可以理解,手机的语音助手将意图指令发送至手机的语音意图协同分发模块。手机的语音意图协同分发模块将意图指令发送至车机的语音意图协同分发模块。车机的语音意图协同分发模块发送意图指令至车机应用。
1122:手机的对应应用按照实际需求投屏至车机。
在一些实施例中,手机也可以按照用户需求选择是否将执行意图指令的过程中的界面投屏至车机显示。例如,可以在手机内部存储需要将执行意图指令的过程中的界面投屏至车机显示的意图类型以及不需要将执行意图指令的过程中的界面投屏至车机显示的意图类型,例如,需要发送执行过程中的界面数据的意图类型可以包括导航类等。不需要发送执行过程中的界面数据的意图类型可以包括音乐播放类等。
1123:手机的语音助手检测到语音活动检测(Voice Activity Detection,VAD)超时时间大于设定值,退出语音状态。
1124:手机的语音助手发送退出语音状态动效数据至车机。
1125:车机的分布式协同UI模块控制车机显示退出语音状态动效。
基于上述方案,当用户唤醒手机助手时,手机不会直接将当前显示界面数据直接投屏到车机上,而是只发送语音交互过程的语音交互数据至车机,由车机绘制交互动效、交互文本等交互界面。如此,不会打断用户与车机HMI的交互,提升用户体验。
而在意图执行时,手机可以按照用户需求将对应应用界面投屏至车机显示,如此便于用户观看,提升用户体验。并且,语音交互数据中包括唤醒动效数据,如此,可以使得车机获取唤醒语音助手的入口,使得用户可以通过车机控制使用手机的应用,即可以使用语音助手协同功能。
此外,基于上述方案,可以实现通过唤醒其中一个设备的语音助手,对另一个设备的应用的精确控制,例如,可以使得手机互联共享给车机的应用与车机原生应用在车机语音交互体验上保持一致,提升用户体验。
可以理解,本申请实施例中图6中所示的交互方法的步骤可以包括比上述更多或更少的步骤,且虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。这些步骤的执行并没有严格的顺序限制,其可以以其他的任意顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶 段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本申请公开的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程***上执行的计算机程序或程序代码,该可编程***包括至少一个处理器、存储***(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码应用于输入指令,以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理***包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何***。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理***通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制,包括但不限于,软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如,载波、红外信号数字信号等)的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如,计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
在附图中,可以以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可能不需要这样的特定布置和/或排序。而是,在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
需要说明的是,本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块,在物理上,一个逻辑单元/模块可以是一个物理单元/模块,也可以是一个物理单元/模块的一部分,还可以以多个物理单元/模块的组合实现,这些逻辑单元/模块本身的物理实现方式并不是最重要的,这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外,为了突出本申请的创新部分,本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入,这并不表明上述设备实施例并不存在其它的单元/模块。
需要说明的是,在本专利的示例和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本申请的某些优选实施例,已经对本申请进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本申请的范围。

Claims (18)

  1. 一种交互方法,其特征在于,包括:
    第一电子设备和第二电子设备建立连接,并且所述第二电子设备显示第一界面,所述第一界面包括第一显示内容;
    所述第一电子设备检测到语音助手的唤醒指令;
    所述第一电子设备发送对应所述唤醒指令的第一数据至所述第二电子设备,其中,所述第一数据包括语音唤醒状态动效对应的数据;
    所述第二电子设备基于所述第一数据以及所述第一显示内容显示第二界面,所述第二界面包括所述第一显示内容以及对应所述第一数据的第二显示内容。
  2. 根据权利要求1所述的方法,其特征在于,响应于用户与所述第一电子设备的交互操作,所述第二电子设备显示第三界面,所述第三界面包括所述第一显示内容以及对应所述交互操作的第三显示内容。
  3. 根据权利要求2所述的方法,其特征在于,所述第三显示内容包括对应所述交互操作的语音交互内容和语音交互状态动效。
  4. 根据权利要求3所述的方法,其特征在于,所述语音交互内容包括用户语音指令对应的文本、智能提示以及意图理解内容;
    所述语音交互状态动效包括聆听动效或播报动效。
  5. 根据权利要求3或4所述的方法,其特征在于,所述响应于用户与所述第一电子设备的交互操作,所述第二电子设备显示第三界面包括:
    响应于用户与所述第一电子设备的交互操作,所述第一电子设备发送语音交互内容对应的数据以及所述语音交互状态动效对应的数据至第二电子设备;
    所述第二电子设备基于所述语音交互内容对应的数据、所述语音交互状态动效对应的数据以及所述第一显示内容显示第三界面。
  6. 根据权利要求1-5任一项所述的方法,其特征在于,还包括:所述第一电子设备检测到用户意图指令,基于所述意图指令的类型以及所述第一电子设备和所述第二电子设备的当前运行状态确定所述意图指令的执行设备;
    在确定所述意图指令的执行设备是所述第二电子设备时,所述第一电子设备发送所述意图指令至所述第二电子设备。
  7. 根据权利要求6所述的方法,其特征在于,还包括:所述第二电子设备基于所述意图指令获取意图参数和槽位参数,基于所述意图参数和所述槽位参数执行所述意图指令。
  8. 根据权利要求6所述的方法,其特征在于,所述基于所述意图指令的类型以及所述第一电子设备和所述第二电子设备的当前运行状态确定所述意图指令的执行设备,包括:
    在所述意图指令的类型为专属类型时,确定所述意图指令的执行设备为所述专属类型对应的执行设备;
    在所述意图指令不为专属类型时,基于所述第一电子设备和所述第二电子设备的当前运行状态确定所述意图指令的执行设备。
  9. 根据权利要求8所述的方法,其特征在于,基于所述第一电子设备和所述第二电子设备的当前运行状态确定所述意图指令的执行设备,包括:
    将所述第一电子设备和所述第二电子设备中,正在运行第一应用的设备或者显示所述第一应用的界面的设备作为所述意图指令的执行设备,所述第一应用为能够执行所述意图指令的应用。
  10. 根据权利要求8或9所述的方法,其特征在于,在所述意图指令的执行设备为第一电子设备,且所述意图指令的类型为预设的无需投屏显示执行过程的类型时,所述第一电子设备不发送所述意图指令执行过程中的显示界面对应的数据至第二电子设备。
  11. 根据权利要求8或9所述的方法,其特征在于,在所述意图指令的执行设备为第一电子设备,且所述意图指令的类型为预设的需要投屏显示执行过程的类型时,所述第一电子设备发送所述意图指令执行过程中的显示界面对应的第一数据至所述第二电子设备;
    所述第一电子设备基于所述显示界面对应的第一数据显示第四界面。
  12. 根据权利要求11所述的方法,其特征在于,所述第四界面包括所述第一显示内容以及对应所述第一数据的第四显示内容。
  13. 根据权利要求12所述的方法,其特征在于,所述第一显示内容和所述第四显示内容显示在第一电子设备屏幕的不同区域。
  14. 根据权利要求11所述的方法,其特征在于,所述第四界面包括对应所述第一数据的第四显示内容。
  15. 根据权利要求1-14任一项所述的方法,其特征在于,所述第一数据不包括所述第一电子设备的当前应用界面对应的界面数据。
  16. 根据权利要求1-15任一项所述的方法,其特征在于,所述第一电子设备为手机,所述第二电子设备为车机。
  17. 一种电子设备,其特征在于,包括:
    存储器,用于存储计算机程序,所述计算机程序包括程序指令;
    处理器,用于执行所述程序指令,以使所述电子设备执行权利要求1-16任意一项所述的交互方法。
  18. 一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被电子设备运行以使所述电子设备执行权利要求1-16任意一项所述的交互方法。
PCT/CN2023/135194 2022-12-30 2023-11-29 一种交互方法、电子设备及介质 WO2024139974A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202211727325.0 2022-12-30
CN202211727325.0A CN118280355A (zh) 2022-12-30 2022-12-30 一种交互方法、电子设备及介质

Publications (1)

Publication Number Publication Date
WO2024139974A1 true WO2024139974A1 (zh) 2024-07-04

Family

ID=91634389

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2023/135194 WO2024139974A1 (zh) 2022-12-30 2023-11-29 一种交互方法、电子设备及介质

Country Status (2)

Country Link
CN (1) CN118280355A (zh)
WO (1) WO2024139974A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150248218A1 (en) * 2014-03-03 2015-09-03 Apple Inc. Generating a dynamic user interface representing an arbitrary content provider back-end
CN110708086A (zh) * 2019-08-26 2020-01-17 华为技术有限公司 一种分屏显示方法与电子设备
CN114255745A (zh) * 2020-09-10 2022-03-29 华为技术有限公司 一种人机交互的方法、电子设备及***
CN115083401A (zh) * 2021-03-10 2022-09-20 Oppo广东移动通信有限公司 语音控制方法及装置
CN115497470A (zh) * 2021-06-18 2022-12-20 华为技术有限公司 跨设备的对话业务接续方法、***、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150248218A1 (en) * 2014-03-03 2015-09-03 Apple Inc. Generating a dynamic user interface representing an arbitrary content provider back-end
CN110708086A (zh) * 2019-08-26 2020-01-17 华为技术有限公司 一种分屏显示方法与电子设备
CN114006625A (zh) * 2019-08-26 2022-02-01 华为技术有限公司 一种分屏显示方法与电子设备
CN114255745A (zh) * 2020-09-10 2022-03-29 华为技术有限公司 一种人机交互的方法、电子设备及***
CN115083401A (zh) * 2021-03-10 2022-09-20 Oppo广东移动通信有限公司 语音控制方法及装置
CN115497470A (zh) * 2021-06-18 2022-12-20 华为技术有限公司 跨设备的对话业务接续方法、***、电子设备和存储介质

Also Published As

Publication number Publication date
CN118280355A (zh) 2024-07-02

Similar Documents

Publication Publication Date Title
CN110138959B (zh) 显示人机交互指令的提示的方法及电子设备
US11683850B2 (en) Bluetooth reconnection method and related apparatus
CN115729511A (zh) 一种播放音频的方法及电子设备
WO2021249087A1 (zh) 卡片分享方法、电子设备及通信***
WO2020239001A1 (zh) 一种哼唱识别方法及相关设备
CN113488042B (zh) 一种语音控制方法及电子设备
CN114844984B (zh) 通知消息的提醒方法及电子设备
CN116450251A (zh) 一种适配多设备的页面布局的方法及电子设备
CN114840280A (zh) 一种显示方法及电子设备
WO2022262366A1 (zh) 跨设备的对话业务接续方法、***、电子设备和存储介质
CN115314591A (zh) 设备交互方法、电子设备及计算机可读存储介质
CN113703894A (zh) 通知消息的显示方法和显示装置
CN114756785A (zh) 页面显示的方法、装置、电子设备以及可读存储介质
CN114530148A (zh) 一种控制方法、装置及电子设备
US20240168603A1 (en) Card Display Method, Electronic Device, and Computer-Readable Storage Medium
WO2024139974A1 (zh) 一种交互方法、电子设备及介质
WO2023005711A1 (zh) 一种服务的推荐方法及电子设备
US20240086035A1 (en) Display Method and Electronic Device
CN116524919A (zh) 设备唤醒方法、相关装置及通信***
CN115291960A (zh) 一种车载电子设备的控制方法及车载电子设备
CN110737765A (zh) 多轮对话的对话数据处理方法及相关装置
WO2024099212A1 (zh) 空间位置确定方法、***及其设备
CN116302291B (zh) 应用显示方法、电子设备以及存储介质
WO2024067169A1 (zh) 信息处理方法及电子设备
WO2024094046A1 (zh) 应用显示方法、电子设备以及存储介质