WO2020114384A1 - 一种语音交互方法和装置 - Google Patents

一种语音交互方法和装置 Download PDF

Info

Publication number
WO2020114384A1
WO2020114384A1 PCT/CN2019/122640 CN2019122640W WO2020114384A1 WO 2020114384 A1 WO2020114384 A1 WO 2020114384A1 CN 2019122640 W CN2019122640 W CN 2019122640W WO 2020114384 A1 WO2020114384 A1 WO 2020114384A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
voiceprint feature
voiceprint
identity
voice
Prior art date
Application number
PCT/CN2019/122640
Other languages
English (en)
French (fr)
Inventor
孙尧
Original Assignee
阿里巴巴集团控股有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集团控股有限公司 filed Critical 阿里巴巴集团控股有限公司
Publication of WO2020114384A1 publication Critical patent/WO2020114384A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • This application relates to the field of computer technology, and in particular to a voice interaction method and device.
  • smart devices can provide personalized services to users based on their historical usage data, habits, preferences, and so on.
  • smart devices can provide personalized services to users based on their historical usage data, habits, preferences, and so on.
  • the shared smart device for far-field voice interaction since there may be multiple users, how to provide personalized services for each user is currently a problem to be considered.
  • the embodiments of the present specification provide a voice interaction method and device for implementing a shared intelligent device to provide different users with personalized services that meet user needs.
  • an embodiment of this specification provides a voice interaction method, including:
  • an embodiment of the present specification further provides a voice interaction device for executing the voice interaction method according to the first aspect, the device includes:
  • Receiving module receiving voice commands input by users
  • a determining module extracting a first voiceprint feature from the voice instruction, and determining identity information of the user according to the first voiceprint feature
  • the service module provides a personalized service to the user based on the user's identity information and the recognition result of the voice instruction.
  • an embodiment of this specification also provides an electronic device, including:
  • Memory store programs
  • the processor executes the program stored in the memory, and specifically executes the voice interaction method as described in the first aspect.
  • the embodiments of the present specification also provide a computer-readable storage medium that stores one or more programs, where the one or more programs are electronic devices including multiple application programs When executed, the electronic device is caused to execute the voice interaction method as described in the first aspect.
  • FIG. 1 is a schematic flowchart of a voice interaction method provided by an embodiment of this specification
  • FIG. 2 is a schematic diagram of a UP module provided by an embodiment of this specification.
  • FIG. 3 is a schematic structural diagram of an electronic device provided by an embodiment of the present specification.
  • FIG. 4 is a schematic structural diagram of a voice interaction device provided by an embodiment of the present specification.
  • FIG. 1 is a schematic flowchart of a voice interaction method provided by an embodiment of the present specification. The method may be as follows.
  • Step 102 Receive a voice instruction input by a user.
  • Step 104 Extract the first voiceprint feature from the voice instruction, and determine the user's identity information according to the first voiceprint feature.
  • Step 106 Provide personalized services to the user based on the user's identity information and the recognition result of the voice instruction.
  • the microphone module After receiving the voice command input by the user, the microphone module transmits the voice command to the user profile (UP, User Profile) module, where the UP module is deployed in the shared smart device, Or it can be deployed on a private cloud server corresponding to a shared smart device.
  • UP User Profile
  • Voiceprint is a type of biological feature used to describe the spectrum of sound waves carrying verbal information.
  • the voiceprint feature can be used as an important feature to identify a person.
  • the UP module extracts the first voiceprint feature from the voice instruction, and determines the user's identity information according to the first voiceprint feature, and then can implement personalized services that meet the user's needs for different users based on the user's identity information.
  • determining the user's identity information according to the first voiceprint feature includes:
  • the first voiceprint feature database includes multiple user identifications, and a second voiceprint feature corresponding to any of the multiple user identifications;
  • the target user identity corresponding to the user is determined, and the target user identity is used to represent the user's identity information
  • the first voiceprint feature and the second voiceprint feature are the same or different voiceprint features.
  • the first voiceprint feature database is determined in the following manner:
  • the third voiceprint feature corresponding to any one of the multiple historical voice commands cluster the multiple historical voice commands to obtain multiple user IDs and any user with multiple user IDs Historical voice commands corresponding to the identity;
  • the second voiceprint feature and the third voiceprint feature are the same or different voiceprint features.
  • the voiceprint features include at least one of the following:
  • the UP module In order to determine the user's identity based on the user's voiceprint characteristics, the UP module first constructs multiple user IDs and any user ID by clustering voiceprints based on the historical voice instruction set in the shared smart device A first voiceprint feature database (also referred to as a voiceprint pool) that identifies the corresponding second voiceprint feature.
  • a first voiceprint feature database also referred to as a voiceprint pool
  • FIG. 2 is a schematic diagram of a UP module provided by an embodiment of this specification.
  • the UP module 200 at least includes: a voiceprint extraction unit 201, a voiceprint clustering model 202, a first voiceprint feature database 203, a UP data unit 204, an automatic language recognition (ASR, Automatic Speech Recognition) unit 205 , An identification unit 206, and a new identification unit 207.
  • ASR Automatic Speech Recognition
  • the UP module 200 obtains a set of historical voice commands in the same shared smart device, and the set of historical voice commands includes all historical voice commands on the shared smart device;
  • the voiceprint extraction unit 201 in the UP module 200 extracts the third voiceprint feature corresponding to any historical voice instruction from multiple historical voice instructions in the historical voice instruction set.
  • the third voiceprint feature includes but is not limited to : Language, timbre, tone, speed, accent, spectrum, etc.
  • the voiceprint clustering model 202 in the UP module 200 performs voiceprint clustering according to the third voiceprint feature corresponding to any historical voice instruction, and classifies historical voice instructions with high similarity of voiceprint features into one category. It is determined to be a historical voice command from the same user, and each type of historical voice command is labeled with a user label, that is, a user identification.
  • device abc-user 1 historical voice command
  • device abc-user 2 historical voice command
  • the voiceprint extraction unit 201 in the UP module 200 determines the second voiceprint feature corresponding to the user ID according to the historical voice instruction corresponding to the user ID.
  • any user identification and the second voiceprint feature corresponding to the user identification are stored in the first voiceprint feature database 203.
  • the second voiceprint feature (language, timbre, tone, speech rate, accent, spectrum, etc.) corresponding to device abc-user 1 and the second voiceprint feature (language, timbre, tone, tone, etc.) corresponding to device abc-user 2 Speech rate, accent, spectrum, etc.), etc.
  • the UP module 200 deletes the user’s data after a preset duration, for example, the historical voice command corresponding to the user, the user’s corresponding The user identity, and the second voiceprint feature corresponding to the user identity, etc.
  • the voiceprint clustering model 202 in the UP module 200 periodically updates the second voiceprint feature corresponding to the user identity stored in the first voiceprint database 203.
  • the first user portrait corresponding to the user identity is used to reflect the age and/or gender of the user corresponding to the user identity.
  • determining the first user portrait corresponding to the user identity according to the second voiceprint feature corresponding to the user identity includes:
  • the second voiceprint feature and the fourth voiceprint feature are the same or different voiceprint features.
  • the second voiceprint feature database which is the public voiceprint feature database in the public cloud server corresponding to the shared smart device, includes the fourth voiceprint feature corresponding to different user portraits, for example, the fourth voice corresponding to users of different genders Voiceprint features, fourth voiceprint features corresponding to users of different ages, etc.
  • the voiceprint in the UP module 200 gathers The class model 202 compares the second voiceprint feature corresponding to any user identity with the fourth voiceprint feature corresponding to different user portraits in the second voiceprint feature database to determine the first user portrait corresponding to the user identity (Gender and/or age), and store the first user portrait corresponding to any user identity in the UP data unit 204 in the UP module 200.
  • the UP data unit 204 stores device abc-user 1: female, young; device abc-user 2: male, old.
  • the second user portrait corresponding to the user identity is used to reflect the personalized needs of the user corresponding to the user identity.
  • determining the second user portrait corresponding to the user identity according to the historical voice instruction corresponding to the user identity includes:
  • the second user portrait corresponding to the user identity is determined.
  • the UP module 200 determines a second user portrait related to the user's personalized needs.
  • the ASR unit 205 in the UP module 200 converts the historical voice instructions corresponding to the same user identity into text instructions.
  • the text commands corresponding to device abc-user 1 are: 20180618 to play Jay Chou's blue and white porcelain, 20180619 to play Mao is not easy, etc.; device abc-user 2 is corresponding to the text commands: 20180618 to play Deng Lijun, 20180619 to play Chen Baiqiang, etc.
  • the UP data unit 204 in the UP module 200 analyzes the text instruction corresponding to any user ID according to a preset rule or a specific model, and determines that the user ID corresponds to the user ID to reflect the user ID
  • the second user portrait corresponding to the personalized needs of the user, and the second user portrait corresponding to any user identification are supplementarily stored in the UP data unit 204.
  • the UP data unit 204 stores that the device abc-user 1: female, young, likes popular songs, particularly likes Jay Chou and Mao Zhuan; the device abc-user 2: male, old people, likes old songs, especially likes Maria Teng and Chen Baiqiang ;Wait.
  • the UP module will periodically update the second user portrait corresponding to the user ID according to the historical voice instructions corresponding to each user ID.
  • the microphone module in the shared smart device receives the voice command input by the current user
  • the microphone module transmits the voice command to the UP module 200
  • the voiceprint extraction unit 201 in the UP module 200 The first voiceprint feature is extracted from the voice instruction, and the obtaining identification unit 206 in the UP module compares the first voiceprint feature with the first voiceprint feature database 203 stored in the UP module 200, any one of a plurality of user identifications
  • the second voiceprint feature corresponding to the user identity is matched, and the target user identity corresponding to the current user is determined according to the matching result, thereby providing a personalized service for the current user.
  • the specific process of determining the target user identity corresponding to the user according to the matching result, and then providing a personalized service for the current user includes at least the following two ways.
  • the identification of the target user corresponding to the user according to the matching result includes:
  • the user identification is determined as the target user identification.
  • the obtaining identification unit 206 in the UP module 200 combines the first voiceprint feature extracted by the voiceprint extraction unit 201 from the voice instruction of the current user with the stored in the first voiceprint feature database 203 The second voiceprint feature corresponding to any user identification is matched. If the matching degree between the first voiceprint feature and the second voiceprint feature corresponding to device abc-user 1 is greater than a preset threshold, the identification unit 206 is obtained It can be determined that the current user's target user identity is device abc-user1.
  • the above method for determining the user's identity according to the voiceprint characteristics is adopted, so that the recall rate can reach 80% and the accuracy rate can reach 85%. Among them, if the volume is too low, there is noise and other interference, the recall rate will increase.
  • the personalized service is provided to the user, including:
  • the personalized service is provided to the user.
  • the UP module 200 determines the first user portrait and/or the second user corresponding to the target user identity from the UP data unit 204 portrait. According to the first user portrait and/or the second user portrait corresponding to the target user identity, the age, gender, personalized needs, etc. of the current user can be learned.
  • the UP module 200 If the UP module 200 is a module deployed in a shared smart device, the UP module 200 transmits information such as the current user's voice instruction, first voiceprint feature, first user portrait, and/or second user portrait to the shared intelligence
  • the user profile decision (UPD, User Profile) module in the public cloud server corresponding to the device enables the UPD module to provide personalized services for the current user based on the above-mentioned relevant information.
  • the above-mentioned method of determining the current user's user portrait is used.
  • the recall rate can be Reaching 85%, the accuracy rate can reach 90%.
  • the voice interaction method shown in FIG. 1 is applied to a smart speaker, and providing personalized services to users includes at least one of the following:
  • the smart speaker can provide users with personalized services such as music recommendation and chat.
  • the UP module deployed in the smart speaker or the UP module deployed on the private cloud server corresponding to the smart speaker determines the second voiceprint feature and the first user portrait (age, gender) corresponding to each user using the smart speaker , Second user portrait (personal hobby), etc.
  • the UP module may determine the current user's identity information according to the first voiceprint feature extracted from the current user's voice instruction, thereby determining The second user portrait of the current user (personal hobby). Therefore, the UPD module can play a song that meets the user's personalized requirements for the current user according to the second user portrait (personal hobby) of the current user.
  • the UP module may determine the current user's identity information according to the first voiceprint feature extracted from the current user's voice instruction, thereby Determine the first user portrait (age) and second user portrait (personal hobby) of the current user. Therefore, the UPD module can play a song that meets the user's personalized needs for the current user according to the first user portrait (age) and the second user portrait (personal hobby) of the current user, and actively greet the current user.
  • the UPD module plays nursery rhymes for the current user, and can actively greet the current user "baby, play children's songs below" before playing the nursery rhymes.
  • the UP module when receiving the current user's voice instruction "in a bad mood today", may determine the current user's identity information according to the first voiceprint feature extracted from the current user's voice instruction, thereby Determine the first user portrait (age, gender) and second user portrait (personal hobby) of the current user. Therefore, the UPD module can determine to talk with the current user about some topics that meet the personalized needs of the user according to the first user portrait (age, gender) and the second user portrait (personal hobby) of the current user.
  • chat with the elderly about health issues chat with the young people about the World Cup, chat with children about the kindergarten, etc.
  • the current user can be identified according to the voiceprint, so that the smart speaker can provide different users with personalized services that meet user needs.
  • the obtaining identification unit 206 in the UP module 200 combines the first voiceprint feature extracted by the voiceprint extraction unit 201 from the voice instruction of the current user with the stored in the first voiceprint feature database 203 Match the second voiceprint feature corresponding to any user ID, if the first voiceprint feature matches the second voiceprint feature corresponding to any user ID stored in the first voiceprint feature database 203 If it is not greater than the preset threshold, the obtaining identification unit 206 may determine that the current user is a new user. At this time, the new identification unit 207 generates a new user identification, and then determines the new user identification as the target user identification of the current user.
  • the shared smart device cannot provide accurate personalized services for the current user .
  • the shared smart device can provide rough personalized services to current users based on historical service data.
  • a smart speaker if the current user is a new user, and according to the historical playback data in the smart speaker, it can be known that when the user using the smart speaker often plays songs of Jay Chou and Mao, the smart speaker plays Jay Chou or Mao for the new user Difficult songs without playing rock songs that the smart speaker has never played, etc. In order to provide rough personalized services for current new users.
  • the new user identity generated by the newly added identity unit 207 is added to the voiceprint clustering model 202 as a temporary user identity.
  • the UP module 200 may determine that the user corresponding to the temporary user identity is only a temporarily appearing user. Delete the corresponding related data;
  • the UP module 200 may determine that a new stable user has been added to the shared smart device (for example, in a household Add new members such as nanny, spouse, children, etc.), then upgrade the temporary user ID to a stable user ID, and add the user ID to the first voiceprint feature database 203, and in the UP data unit In 204, the corresponding first user portrait and/or second user portrait are determined, and so on.
  • the technical solution described in the embodiment of the present specification receives a voice command input by a user, extracts the first voiceprint feature from the voice command, and determines the user's identity information according to the first voiceprint feature, and then according to the user's identity information and the voice
  • the recognition result of the instruction provides personalized services to users, so that the shared smart device can provide different users with personalized services that meet user needs.
  • FIG. 3 is a schematic structural diagram of an electronic device according to an embodiment of the present specification.
  • the electronic device includes a processor, and optionally also includes an internal bus, a network interface, and a memory.
  • the memory may include a memory, such as a high-speed random access memory (Random-Access Memory, RAM), or may also include a non-volatile memory (non-volatile memory), such as at least one disk memory.
  • RAM random access memory
  • non-volatile memory such as at least one disk memory.
  • the electronic device may also include hardware required for other services.
  • the processor, network interface and memory can be connected to each other through an internal bus, which can be an ISA (Industry Standard Architecture, Industry Standard Architecture) bus, a PCI (Peripheral Component Interconnect) bus, or an EISA (Extended Industry, Standard Architecture, extended industry standard structure) bus, etc.
  • the bus can be divided into an address bus, a data bus, and a control bus. For ease of representation, only one bidirectional arrow is used in FIG. 3, but it does not mean that there is only one bus or one type of bus.
  • Memory store programs.
  • the program may include program code, and the program code includes a computer operation instruction.
  • the memory may include memory and non-volatile memory, and provide instructions and data to the processor.
  • the processor reads the corresponding computer program from the non-volatile memory into the memory and then runs it, forming a voice interaction device at a logical level.
  • the processor executes the program stored in the memory, and specifically executes the steps of the method embodiment shown in FIG. 1.
  • the above method as shown in FIG. 1 may be applied to the processor, or implemented by the processor.
  • the processor may be an integrated circuit chip with signal processing capabilities. In the implementation process, each step of the above method may be completed by an integrated logic circuit of hardware in the processor or instructions in the form of software.
  • the aforementioned processor may be a general-purpose processor, including a central processor (Central Processing Unit, CPU), a network processor (Network Processor, NP), etc.; it may also be a digital signal processor (Digital Signal Processor, DSP), dedicated integration Circuit (Application Specific Integrated Circuit, ASIC), field programmable gate array (Field-Programmable Gate Array, FPGA) or other programmable logic devices, discrete gates or transistor logic devices, discrete hardware components.
  • CPU Central Processing Unit
  • NP Network Processor
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable Gate Array
  • the general-purpose processor may be a microprocessor or the processor may be any conventional processor or the like.
  • the steps of the method disclosed in conjunction with the embodiments of the present specification may be directly embodied and executed by a hardware decoding processor, or may be executed and completed by a combination of hardware and software modules in the decoding processor.
  • the software module may be located in a mature storage medium in the art, such as random access memory, flash memory, read-only memory, programmable read-only memory, or electrically erasable programmable memory, and registers.
  • the storage medium is located in the memory.
  • the processor reads the information in the memory and completes the steps of the above method in combination with its hardware.
  • the electronic device may execute the method executed by the method embodiment shown in FIG. 1 and implement the functions of the method embodiment shown in FIG. 1 described above, and the embodiments of this specification will not be repeated here.
  • the embodiments of the present specification also propose a computer-readable storage medium that stores one or more programs, and the one or more programs include instructions, which are executed by an electronic device that includes multiple application programs At this time, the electronic device can execute the voice interaction method in the embodiment shown in FIG. 1 and specifically perform the steps of the method embodiment shown in FIG. 1.
  • FIG. 4 is a schematic structural diagram of a voice interaction device provided by an embodiment of the present specification.
  • the apparatus 400 shown in FIG. 4 may be used to execute the method in the embodiments shown in FIGS. 1-2.
  • the apparatus 400 includes:
  • the receiving module 401 receives voice commands input by the user
  • the determining module 402 extracts the first voiceprint feature from the voice instruction, and determines the user's identity information according to the first voiceprint feature;
  • the service module 403 provides personalized services to the user based on the user's identity information and the recognition result of the voice instruction.
  • the determination module 402 further includes:
  • the first determining unit determines a first voiceprint feature database, where the first voiceprint feature database includes multiple user identifications and a second voiceprint feature corresponding to any of the multiple user identifications;
  • the matching unit matches the first voiceprint feature with the second voiceprint feature corresponding to any one of the multiple user identifications;
  • the second determining unit determines the target user identity corresponding to the user according to the matching result, and the target user identity is used to represent the user's identity information;
  • the first voiceprint feature and the second voiceprint feature are the same or different voiceprint features.
  • the first voiceprint feature database is determined and obtained in the following manner:
  • the third voiceprint feature corresponding to any one of the multiple historical voice commands cluster the multiple historical voice commands to obtain multiple user IDs and any user with multiple user IDs Historical voice commands corresponding to the identity;
  • the second voiceprint feature and the third voiceprint feature are the same or different voiceprint features.
  • the second determining unit is specifically used for:
  • the user identification is determined as the target user identification.
  • the second determining unit is specifically used for:
  • the determination module 402 is also used to:
  • the first user portrait corresponding to the user identity is used to reflect the age and/or gender of the user corresponding to the user identity.
  • the determination module 402 is specifically used for:
  • the second voiceprint feature and the fourth voiceprint feature are the same or different voiceprint features.
  • the determination module 402 is also used to:
  • the second user portrait corresponding to the user identity is used to reflect the personalized needs of the user corresponding to the user identity.
  • the determination module 402 is specifically used for:
  • the second user portrait corresponding to the user identity is determined.
  • the service module 403 is specifically used for:
  • the personalized service is provided to the user.
  • the device 400 is a smart speaker, and providing personalized services to users includes at least one of the following:
  • the voiceprint features include at least one of the following:
  • the receiving module receives the voice instruction input by the user; the determination module extracts the first voiceprint feature from the voice instruction, and determines the user's identity information according to the first voiceprint feature; the service module based on the user's identity information, and The recognition result of the voice command provides personalized services to the users, so that the shared intelligent device can provide different users with personalized services that meet the needs of users.
  • the improvement of a technology can be clearly distinguished from the improvement of hardware (for example, the improvement of the circuit structure of diodes, transistors, switches, etc.) or the improvement of software (the improvement of the process flow).
  • hardware for example, the improvement of the circuit structure of diodes, transistors, switches, etc.
  • software the improvement of the process flow.
  • the improvement of many methods and processes can be regarded as a direct improvement of the hardware circuit structure.
  • Designers almost get the corresponding hardware circuit structure by programming the improved method flow into the hardware circuit. Therefore, it cannot be said that the improvement of a method flow cannot be realized by hardware physical modules.
  • a programmable logic device (Programmable Logic Device, PLD) (such as a field programmable gate array (Field Programmable Gate Array, FPGA)) is such an integrated circuit, and its logic function is determined by the user programming the device.
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • HDL Hardware Description Language
  • ABEL Advanced Boolean Expression
  • AHDL AlteraHardwareDescriptionLanguage
  • Confluence CUPL
  • CornellUniversityProgrammingLanguage HDCal
  • JHDL JavaHardwareDescriptionLanguage
  • Lava Lava
  • Lola MyHDL
  • PALASM RHDL
  • VHDL Very-High-Speed Integrated Circuit Hardware Description
  • the controller may be implemented in any suitable manner, for example, the controller may take a microprocessor or processor and a computer-readable medium storing computer-readable program code (such as software or firmware) executable by the (micro)processor , Logic gates, switches, application specific integrated circuits (Application Specific Integrated Circuit, ASIC), programmable logic controllers and embedded microcontrollers.
  • Examples of controllers include but are not limited to the following microcontrollers: ARC625D, Atmel AT91SAM, Microchip PIC18F26K20 and Silicon Labs C8051F320, the memory controller can also be implemented as part of the control logic of the memory.
  • controller in addition to implementing the controller in the form of pure computer-readable program code, it is entirely possible to logically program method steps to make the controller use logic gates, switches, application specific integrated circuits, programmable logic controllers and embedded The same function is realized in the form of a microcontroller or the like. Therefore, such a controller can be regarded as a hardware component, and the device for implementing various functions included therein can also be regarded as a structure within the hardware component. Or even, the means for realizing various functions can be regarded as both a software module of an implementation method and a structure within a hardware component.
  • the system, device, module or unit explained in the above embodiments may be specifically implemented by a computer chip or entity, or implemented by a product with a certain function.
  • a typical implementation device is a computer.
  • the computer may be, for example, a personal computer, a laptop computer, a cellular phone, a camera phone, a smart phone, a personal digital assistant, a media player, a navigation device, an email device, a game console, a tablet computer, a wearable device, or A combination of any of these devices.
  • the embodiments of the present invention may be provided as methods, systems, or computer program products. Therefore, the present invention may take the form of an entirely hardware embodiment, an entirely software embodiment, or an embodiment combining software and hardware. Moreover, the present invention may take the form of a computer program product implemented on one or more computer usable storage media (including but not limited to disk storage, CD-ROM, optical storage, etc.) containing computer usable program code.
  • computer usable storage media including but not limited to disk storage, CD-ROM, optical storage, etc.
  • each flow and/or block in the flowchart and/or block diagram and a combination of the flow and/or block in the flowchart and/or block diagram may be implemented by computer program instructions.
  • These computer program instructions can be provided to the processor of a general-purpose computer, special-purpose computer, embedded processing machine, or other programmable data processing device to produce a machine that enables the generation of instructions executed by the processor of the computer or other programmable data processing device
  • These computer program instructions may also be stored in a computer readable memory that can guide a computer or other programmable data processing device to work in a specific manner, so that the instructions stored in the computer readable memory produce an article of manufacture including an instruction device, the instructions
  • the device implements the functions specified in one block or multiple blocks of the flowchart one flow or multiple flows and/or block diagrams.
  • These computer program instructions can also be loaded onto a computer or other programmable data processing device, so that a series of operating steps are performed on the computer or other programmable device to produce computer-implemented processing, which is executed on the computer or other programmable device
  • the instructions provide steps for implementing the functions specified in one block or multiple blocks of the flowchart one flow or multiple flows and/or block diagrams.
  • the computing device includes one or more processors (CPUs), input/output interfaces, network interfaces, and memory.
  • processors CPUs
  • input/output interfaces network interfaces
  • memory volatile and non-volatile memory
  • Memory may include non-permanent memory, random access memory (RAM) and/or non-volatile memory in computer-readable media, such as read only memory (ROM) or flash memory (flash RAM). Memory is an example of computer-readable media.
  • RAM random access memory
  • ROM read only memory
  • flash RAM flash random access memory
  • Computer-readable media including permanent and non-permanent, removable and non-removable media, can store information by any method or technology.
  • the information may be computer readable instructions, data structures, modules of programs, or other data.
  • Examples of computer storage media include, but are not limited to, phase change memory (PRAM), static random access memory (SRAM), dynamic random access memory (DRAM), other types of random access memory (RAM), read-only memory (ROM), electrically erasable programmable read-only memory (EEPROM), flash memory or other memory technologies, read-only compact disc read-only memory (CD-ROM), digital versatile disc (DVD) or other optical storage, Magnetic tape cassettes, magnetic tape magnetic disk storage or other magnetic storage devices or any other non-transmission media can be used to store information that can be accessed by computing devices.
  • computer-readable media does not include temporary computer-readable media (transitory media), such as modulated data signals and carrier waves.
  • the present application may be described in the general context of computer-executable instructions executed by a computer, such as program modules.
  • program modules include routines, programs, objects, components, data structures, etc. that perform specific tasks or implement specific abstract data types.
  • the present application may also be practiced in distributed computing environments in which tasks are performed by remote processing devices connected through a communication network.
  • program modules may be located in local and remote computer storage media including storage devices.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种语音交互方法和装置,方法包括:接收用户输入的语音指令(102);从语音指令中提取第一声纹特征,并根据第一声纹特征确定用户的身份信息(104);根据用户的身份信息,以及对语音指令的识别结果,向用户提供个性化服务(106)。

Description

一种语音交互方法和装置
本申请要求2018年12月06日递交的申请号为201811488466.5、发明名称为“一种语音交互方法和装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机技术领域,尤其涉及一种语音交互方法和装置。
背景技术
随着科技的发展,智能设备的智能化程度越来越高。实际应用中,智能设备可以根据用户的历史使用数据、习惯、偏好等,为用户提供个性化服务。但是,针对于远场语音交互的共享型智能设备,由于面向的用户可能为多个,如何为每个用户都可以提供个性化服务,是当前需要考虑的问题。
因此,需要一种更加有效的语音交互方法。
发明内容
本说明书实施例提供一种语音交互方法和设备,用于实现共享型智能设备为不同用户提供符合用户需求的个性化服务。
第一方面,本说明书实施例提供了一种语音交互方法,包括:
接收用户输入的语音指令;
从所述语音指令中提取第一声纹特征,并根据所述第一声纹特征确定所述用户的身份信息;
根据所述用户的身份信息,以及对所述语音指令的识别结果,向所述用户提供个性化服务。
第二方面,本说明书实施例还提供了一种语音交互装置,用于执行如第一方面所述的语音交互方法,所述装置包括:
接收模块,接收用户输入的语音指令;
确定模块,从所述语音指令中提取第一声纹特征,并根据所述第一声纹特征确定所述用户的身份信息;
服务模块,根据所述用户的身份信息,以及对所述语音指令的识别结果,向所述用户提供个性化服务。
第三方面,本说明书实施例还提供了一种电子设备,包括:
存储器,存放程序;
处理器,执行所述存储器存储的程序,并具体执行如第一方面所述的语音交互方法。
第四方面,本说明书实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行如第一方面所述的语音交互方法。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
接收用户输入的语音指令,从语音指令中提取第一声纹特征,并根据第一声纹特征确定用户的身份信息,进而根据用户的身份信息,以及对语音指令的识别结果,向用户提供个性化服务,从而实现共享型智能设备为不同用户提供符合用户需求的个性化服务。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的一种语音交互方法的流程示意图;
图2为本说明书实施例提供的UP模块的示意图;
图3为本说明书实施例提供的一种电子设备的结构示意图;
图4为本说明书实施例提供的一种语音交互装置的结构示意图。
具体实施方式
下面结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书实施例提供的一种语音交互方法的流程示意图。所述方法可以如下所示。
步骤102,接收用户输入的语音指令。
步骤104,从语音指令中提取第一声纹特征,并根据第一声纹特征确定用户的身份信息。
步骤106,根据用户的身份信息,以及对语音指令的识别结果,向用户提供个性化服务。
针对于远场语音交互的共享型智能设备,麦克风模块接收到用户输入的语音指令之后,将语音指令传输至用户画像(UP,User Profile)模块,其中,UP模块部署在共享型智能设备中,或者部署在共享型智能设备对应的私有云服务器上。
声纹(VP,Voice Print)是生物特征的一种,用于描述携带言语信息的声波频谱。鉴于每个人的声纹特征的相对稳定性和强区分性,可以将声纹特征作为识别一个人的重要特征。
UP模块从语音指令中提取第一声纹特征,并根据第一声纹特征来确定用户的身份信息,进而可以实现根据用户的身份信息,为不同用户提供符合用户需求的个性化服务。
本说明书实施例中,根据第一声纹特征确定用户的身份信息,包括:
确定第一声纹特征数据库,第一声纹特征数据库中包括多个用户身份标识,以及与多个用户身份标识中任一用户身份标识对应的第二声纹特征;
将第一声纹特征与多个用户身份标识中任一用户身份标识对应的第二声纹特征进行匹配;
根据匹配结果,确定用户对应的目标用户身份标识,目标用户身份标识用于表示用户的身份信息;
第一声纹特征与第二声纹特征为相同或不同的声纹特征。
其中,通过以下方式确定得到第一声纹特征数据库:
获取历史语音指令集合,历史语音指令集合中包括多个历史语音指令;
提取多个历史语音指令中任一历史语音指令对应的第三声纹特征;
根据多个历史语音指令中任一历史语音指令对应的第三声纹特征,对多个历史语音指令进行声纹聚类,得到多个用户身份标识,以及与多个用户身份标识中任一用户身份标识对应的历史语音指令;
根据多个用户身份标识中任一用户身份标识对应的历史语音指令,确定该用户身份标识对应的第二声纹特征;
第二声纹特征和第三声纹特征为相同或不同的声纹特征。
其中,声纹特征包括下述至少一种:
语言、音色、音调、语速、口音,和频谱。
为了可以根据用户的声纹特征来确定用户的身份,UP模块首先根据共享型智能设备 中的历史语音指令集合,通过声纹聚类的方式,构建包括多个用户身份标识,以及任一用户身份标识对应的第二声纹特征的第一声纹特征数据库(也可以称为,声纹池)。
图2为本说明书实施例提供的UP模块的示意图。
如图2所示,UP模块200至少包括:声纹提取单元201、声纹聚类模型202、第一声纹特征数据库203、UP数据单元204、自动语言识别(ASR,Automatic Speech Recognition)单元205、获得标识单元206、新增标识单元207。
UP模块200构建第一声纹特征数据库203的过程:
首先,UP模块200获取同一共享型智能设备中的历史语音指令集合,历史语音指令集合中包括该共享型智能设备上所有的历史语音指令;
其次,UP模块200中的声纹提取单元201,从历史语音指令集合中的多个历史语音指令中,提取任一历史语音指令对应的第三声纹特征,第三声纹特征包含但不限于:语言、音色、音调、语速、口音、频谱,等。
然后,UP模块200中的声纹聚类模型202,根据任一历史语音指令对应的第三声纹特征进行声纹聚类,将声纹特征相似度很高的历史语音指令归为一类,确定为来自同一个用户的历史语音指令,并为每一类历史语音指令打上一个用户标签,即用户身份标识。
例如,设备abc-用户1的历史语音指令,设备abc-用户2的历史语音指令,等。
最后,UP模块200中的声纹提取单元201,根据一个用户身份标识对应的历史语音指令,确定该用户身份标识对应的第二声纹特征。进而将任一用户身份标识,以及该用户身份标识对应的第二声纹特征存储在第一声纹特征数据库203中。
例如,设备abc-用户1对应的第二声纹特征(语言、音色、音调、语速、口音、频谱,等),设备abc-用户2对应的第二声纹特征(语言、音色、音调、语速、口音、频谱,等),等。
在一实施例中,对于很久没有使用共享型智能设备的用户,为了节约空间,UP模块200会在预设时长后删除该用户的数据,例如,该用户对应的历史语音指令,该用户对应的用户身份标识,以及该用户身份标识对应的第二声纹特征,等。
在另一实施例中,随着时间的变化,一个人年龄的增长或生理发育的影响,都可能会导致声音的变化。因此,UP模块200中的声纹聚类模型202会定期更新第一声纹数据库203中存储的用户身份标识对应的第二声纹特征。
本说明书实施例中,还包括:
根据用户身份标识对应的第二声纹特征,确定用户身份标识对应的第一用户画像;
用户身份标识对应的第一用户画像,用于反映与用户身份标识对应的用户的年龄和/或性别。
具体地,根据用户身份标识对应的第二声纹特征,确定用户身份标识对应的第一用户画像,包括:
确定第二声纹特征数据库,第二声纹特征数据库中包括不同用户画像对应的第四声纹特征;
将用户身份标识对应的第二声纹特征,与不同用户画像对应的第四声纹特征进行匹配;
根据匹配结果,确定用户身份标识对应的第一用户画像;
其中,第二声纹特征与第四声纹特征为相同或不同的声纹特征。
第二声纹特征数据库,也即共享型智能设备对应的公有云服务器中的公共声纹特征数据库,其中包括不同用户画像对应的第四声纹特征,例如,不同性别的用户对应的第四声纹特征、不同年龄的用户对应的第四声纹特征,等。
仍以上述图2为例,针对UP模块200中第一声纹特征数据库203中存储的多个用户身份标识以及任一用户身份标识对应的第二声纹特征,UP模块200中的声纹聚类模型202,将任一用户身份标识对应的第二声纹特征与第二声纹特征数据库中不同用户画像对应的第四声纹特征进行对比,从而判断该用户身份标识对应的第一用户画像(性别和/或年龄),并将任一用户身份标识对应的第一用户画像存储在UP模块200中的UP数据单元204中。
例如,UP数据单元204中存储有,设备abc-用户1:女性、年轻;设备abc-用户2:男性、老年。
本说明书实施例中,还包括:
根据用户身份标识对应的历史语音指令,确定用户身份标识对应的第二用户画像;
用户身份标识对应的第二用户画像,用于反映与用户身份标识对应的用户的个性化需求。
具体地,根据用户身份标识对应的历史语音指令,确定用户身份标识对应的第二用户画像,包括:
将用户身份标识对应的历史语音指令转换为文本指令;
根据预设规则对文本指令进行分析;
根据分析结果,确定用户身份标识对应的第二用户画像。
仍以上述图2为例,为了更好地为不同用户提供符合用户需求的个性化服务,UP模块200确定与用户的个性化需求相关的第二用户画像。
具体地,首先,UP模块200中的ASR单元205,将同一用户身份标识对应的历史语音指令转换为文本指令。例如,设备abc-用户1对应的文本指令为:20180618播放周杰伦的青花瓷、20180619播放毛不易,等;设备abc-用户2对应的文本指令为:20180618播放邓丽君、20180619播放陈百强,等。
然后,UP模块200中的UP数据单元204,根据预设规则,或特定的模型,对任一用户身份标识对应的文本指令进行分析,确定该用户身份标识对应,用于反映与该用户身份标识对应的用户的个性化需求的第二用户画像,以及将任一用户身份标识对应的第二用户画像补充存储在UP数据单元204中。
例如,UP数据单元204中存储有,设备abc-用户1:女性、年轻、喜欢流行歌曲、特别喜欢周杰伦和毛不易;设备abc-用户2:男性、老年、喜欢老歌、特别喜欢邓丽君和陈百强;等。
随着时间的变化,不同用户的喜好可能会发生变化,因此,UP模块会根据每个用户身份标识对应的历史语音指令,定期更新用户身份标识对应的第二用户画像。
仍以上述图2为例,当共享型智能设备中的麦克风模块接收到当前用户输入的语音指令之后,麦克风模块将该语音指令传输至UP模块200,UP模块200中的声纹提取单元201从该语音指令中提取第一声纹特征,UP模块中的获得标识单元206,将第一声纹特征与UP模块200中第一声纹特征数据库203中存储的,多个用户身份标识中任一用户身份标识对应的第二声纹特征,进行匹配,以及根据匹配结果,确定当前用户对应的目标用户身份标识,进而为当前用户提供个性化服务。
根据匹配结果确定用户对应的目标用户身份标识,进而为当前用户提供个性化服务的具体过程包括下述至少两种方式。
第一种:
本说明书实施例中,根据匹配结果,确定用户对应的目标用户身份标识,包括:
当第一声纹特征与多个用户身份标识中的一个用户身份标识对应的第二声纹特征之间的匹配度大于预设阈值时,将用户身份标识确定为目标用户身份标识。
仍以上述图2为例,UP模块200中的获得标识单元206,将声纹提取单元201从当前用户的语音指令中提取的第一声纹特征,与第一声纹特征数据库203中存储的任一用户身份标识对应的第二声纹特征进行匹配,若第一声纹特征与设备abc-用户1对应的第 二声纹特征之间的匹配度大于预设阈值,因此,获得标识单元206可以确定当前用户的目标用户身份标识为设备abc-用户1。
针对于单条语音指令,采用上述根据声纹特征来确定用户身份的方式,使得召回率可以达到80%,准确率可以达到85%。其中,若可以排除音量过小、有噪音等干扰情况,召回率还会有所提高。
需要说明的是,若用户注册了声纹,则根据声纹特征确定用户身份信息的准确率将大大提高。
本说明书实施例中,根据用户的身份信息,以及对语音指令的识别结果,向用户提供个性化服务,包括:
确定目标用户身份标识对应的第一用户画像和/或第二用户画像;
根据目标用户身份标识对应的第一用户画像和第二用户画像,以及对语音指令的识别结果,向用户提供个性化服务。
仍以上述图2为例,获得标识单元206确定当前用户的目标用户身份标识之后,UP模块200从UP数据单元204中,确定与目标用户身份标识对应的第一用户画像和/或第二用户画像。根据与目标用户身份标识对应的第一用户画像和/或第二用户画像,可以了解到当前用户的年龄、性别、个性化需求,等。
若UP模块200为部署在共享型智能设备中的模块,则UP模块200将当前用户的语音指令、第一声纹特征、第一用户画像和/或第二用户画像等信息传输至共享型智能设备对应的公有云服务器中的用户画像决策(UPD,User Profile Decision)模块,使得UPD模块根据上述相关信息,为当前用户提供个性化服务。
需要说明的是,UPD模块为当前用户提供个性化服务的过程中,当前用户的隐私信息不会泄露到公有云服务器中,可以保证用户使用共享型智能设备的隐私安全性。
针对于单条语音指令,采用上述根据确定当前用户的用户画像的方式,在当前用户对应的历史语音指令数据充足的情况下(例如,一个月内有超过10条的历史语音指令),召回率可以达到85%,准确率可以达到90%。
本说明书实施例中,图1所示的语音交互方法应用于智能音箱,向用户提供个性化服务包括下述至少一种:
音乐推荐和聊天。
当共享型智能设备为智能音箱时,智能音箱可以为用户提供音乐推荐、聊天等个性化服务。
当多个用户共用一个智能音箱时,每个人有自己的个性化需求和点播记录。例如,老人爱听邓丽君,年轻人爱听周杰伦,儿童爱听儿歌,等。因此,部署在智能音箱中的UP模块或部署在智能音箱对应的私有云服务器上的UP模块,确定使用智能音箱的每个用户对应的第二声纹特征、第一用户画像(年龄、性别)、第二用户画像(个人爱好),等。
在一实施例中,当接收到当前用户的语音指令“我想听歌”时,UP模块可以根据从当前用户的语音指令中提取的第一声纹特征,确定当前用户的身份信息,从而确定当前用户的第二用户画像(个人爱好)。使得UPD模块可以根据可以当前用户的第二用户画像(个人爱好),为当前用户播放符合用户个性化需求的歌曲。
例如,为喜欢周杰伦的用户播放周杰伦的歌曲,为喜欢邓丽君的用户播放邓丽君的歌曲,等。
在另一实施例中,当接收到当前用户的语音指令“我想听歌”时,UP模块可以根据从当前用户的语音指令中提取的第一声纹特征,确定当前用户的身份信息,从而确定当前用户的第一用户画像(年龄)、第二用户画像(个人爱好)。使得UPD模块可以根据可以当前用户的第一用户画像(年龄)和第二用户画像(个人爱好),为当前用户播放符合用户个性化需求的歌曲,以及主动问候当前用户。
例如,当前用户为儿童时,UPD模块为当前用户播放儿歌,并可以在播放儿歌之前主动问候当前用户“宝贝,下面给你播放儿歌呦”。
在另一实施例中,当接收到当前用户的语音指令“今天心情不好”时,UP模块可以根据从当前用户的语音指令中提取的第一声纹特征,确定当前用户的身份信息,从而确定当前用户的第一用户画像(年龄、性别)、第二用户画像(个人爱好)。使得UPD模块可以根据可以当前用户的第一用户画像(年龄、性别)和第二用户画像(个人爱好),确定与当前用户聊一些符合用户个性化需求的话题。
例如,与老人聊养生话题,与年轻人聊世界杯话题,与儿童聊幼儿园话题,等。
针对同一智能音箱,可以根据声纹识别出当前用户,从而实现智能音箱为不同用户提供符合用户需求的个性化服务。
第二种:
本说明书实施例中,还包括:
当第一声纹特征与多个用户身份标识中任一用户身份标识对应的第二声纹特征之间的匹配度均不大于预设阈值时,在第一声纹特征数据库中增加一个新的用户身份标识。
仍以上述图2为例,UP模块200中的获得标识单元206,将声纹提取单元201从当前用户的语音指令中提取的第一声纹特征,与第一声纹特征数据库203中存储的任一用户身份标识对应的第二声纹特征进行匹配,若第一声纹特征与第一声纹特征数据库203中存储的任一用户身份标识对应的第二声纹特征之间的匹配度均不大于预设阈值,则获得标识单元206可以确定当前用户为新用户。此时,新增标识单元207生成一个新的用户身份标识,进而将该新的用户身份标识确定为当前用户的目标用户身份标识。
由于UP模块200中的UP数据单元204中,未存储有与该新的用户身份标识对应的第一用户画像和第二用户画像,因此,共享型智能设备无法为当前用户提供精准的个性化服务。但是,共享型智能设备可以根据历史服务数据,为当前用户提供粗略的个性化服务。
例如,针对智能音箱,若当前用户为新用户,且根据智能音箱中的历史播放数据可知,使用该智能音箱的用户经常点播周杰伦和毛不易的歌曲时,则智能音箱为新用户播放周杰伦或毛不易的歌曲,而不会播放该智能音箱从来没有播放过的摇滚歌曲,等。从而实现为当前新用户提供粗略的个性化服务。
仍以上述图2为例,针对于新增标识单元207生成的新的用户身份标识,作为临时用户身份标识添加到声纹聚类模型202中。
若之后预设时间段内未接收到与该临时用户身份标识对应的用户发送的语音指令,则UP模块200可以确定该与该临时用户身份标识对应的用户仅为临时出现的使用用户,可以将其对应的相关数据删除;
若之后预设时间段内接收到与该临时用户身份标识对应的用户发送的语音指令超过预设数量,则UP模块200可以确定共享型智能设备新增加了一个稳定的使用用户(例如,家庭中增加了保姆、配偶、子女等新成员),则将该临时用户身份标识升级为一个稳定的用户身份标识,并将该用户身份标识添加到第一声纹特征数据库203中,以及在UP数据单元204中确定与其对应的第一用户画像和/或第二用户画像,等。
本说明书实施例记载的技术方案,接收用户输入的语音指令,从语音指令中提取第一声纹特征,并根据第一声纹特征确定用户的身份信息,进而根据用户的身份信息,以及对语音指令的识别结果,向用户提供个性化服务,从而实现共享型智能设备为不同用户提供符合用户需求的个性化服务。
图3为本说明书实施例提供的一种电子设备的结构示意图。如图3所示,在硬件层 面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成语音交互装置。处理器,执行存储器所存放的程序,并具体执行图1所示的方法实施例的步骤。
上述如图1所述的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备可执行图1所示方法实施例执行的方法,并实现上述图1所示方法实施 例的功能,本说明书实施例在此不再赘述。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图1所示实施例中的语音交互方法,并具体执行图1所示方法实施例的步骤。
图4为本说明书实施例提供的一种语音交互装置的结构示意图。图4所示的装置400可以用于执行上述图1-图2所示实施例的方法,装置400包括:
接收模块401,接收用户输入的语音指令;
确定模块402,从语音指令中提取第一声纹特征,并根据第一声纹特征确定用户的身份信息;
服务模块403,根据用户的身份信息,以及对语音指令的识别结果,向用户提供个性化服务。
可选地,确定模块402,进一步包括:
第一确定单元,确定第一声纹特征数据库,第一声纹特征数据库中包括多个用户身份标识,以及与多个用户身份标识中任一用户身份标识对应的第二声纹特征;
匹配单元,将第一声纹特征与多个用户身份标识中任一用户身份标识对应的第二声纹特征进行匹配;
第二确定单元,根据匹配结果,确定用户对应的目标用户身份标识,目标用户身份标识用于表示用户的身份信息;
其中,第一声纹特征与第二声纹特征为相同或不同的声纹特征。
可选地,通过以下方式确定得到第一声纹特征数据库:
获取历史语音指令集合,历史语音指令集合中包括多个历史语音指令;
提取多个历史语音指令中任一历史语音指令对应的第三声纹特征;
根据多个历史语音指令中任一历史语音指令对应的第三声纹特征,对多个历史语音指令进行声纹聚类,得到多个用户身份标识,以及与多个用户身份标识中任一用户身份标识对应的历史语音指令;
根据多个用户身份标识中任一用户身份标识对应的历史语音指令,确定用户身份标识对应的第二声纹特征;
其中,第二声纹特征和第三声纹特征为相同或不同的声纹特征。
可选地,第二确定单元,具体用于:
当第一声纹特征与多个用户身份标识中的一个用户身份标识对应的第二声纹特征之间的匹配度大于预设阈值时,将该用户身份标识确定为目标用户身份标识。
可选地,第二确定单元,具体用于:
当第一声纹特征与多个用户身份标识中任一用户身份标识对应的第二声纹特征之间的匹配度均不大于预设阈值时,在第一声纹特征数据库中增加一个新的用户身份标识。
可选地,确定模块402,还用于:
根据用户身份标识对应的第二声纹特征,确定用户身份标识对应的第一用户画像;
用户身份标识对应的第一用户画像,用于反映与用户身份标识对应的用户的年龄和/或性别。
可选地,确定模块402,具体用于:
确定第二声纹特征数据库,第二声纹特征数据库中包括不同用户画像对应的第四声纹特征;
将用户身份标识对应的第二声纹特征,与不同用户画像对应的第四声纹特征进行匹配;
根据匹配结果,确定用户身份标识对应的第一用户画像;
其中,第二声纹特征与第四声纹特征为相同或不同的声纹特征。
可选地,确定模块402,还用于:
根据用户身份标识对应的历史语音指令,确定用户身份标识对应的第二用户画像;
用户身份标识对应的第二用户画像,用于反映与用户身份标识对应的用户的个性化需求。
可选地,确定模块402,具体用于:
将用户身份标识对应的历史语音指令转换为文本指令;
根据预设规则对文本指令进行分析;
根据分析结果,确定用户身份标识对应的第二用户画像。
可选地,服务模块403,具体用于:
确定目标用户身份标识对应的第一用户画像和第二用户画像;
根据目标用户身份标识对应的第一用户画像和第二用户画像,以及对语音指令的识别结果,向用户提供个性化服务。
可选地,装置400为智能音箱,向用户提供个性化服务包括下述至少一种:
音乐推荐和聊天。
可选地,声纹特征包括下述至少一种:
语言、音色、音调、语速、口音,和频谱。
根据语音交互装置,接收模块接收用户输入的语音指令;确定模块从语音指令中提取第一声纹特征,并根据第一声纹特征确定用户的身份信息;服务模块根据用户的身份信息,以及对语音指令的识别结果,向用户提供个性化服务,从而实现共享型智能设备为不同用户提供符合用户需求的个性化服务。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit, ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分 互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (15)

  1. 一种语音交互方法,包括:
    接收用户输入的语音指令;
    从所述语音指令中提取第一声纹特征,并根据所述第一声纹特征确定所述用户的身份信息;
    根据所述用户的身份信息,以及对所述语音指令的识别结果,向所述用户提供个性化服务。
  2. 如权利要求1所述的方法,根据所述第一声纹特征确定所述用户的身份信息,包括:
    确定第一声纹特征数据库,所述第一声纹特征数据库中包括多个用户身份标识,以及与所述多个用户身份标识中任一用户身份标识对应的第二声纹特征;
    将所述第一声纹特征与所述多个用户身份标识中任一用户身份标识对应的所述第二声纹特征进行匹配;
    根据匹配结果,确定所述用户对应的目标用户身份标识,所述目标用户身份标识用于表示所述用户的身份信息;
    其中,所述第一声纹特征与所述第二声纹特征为相同或不同的声纹特征。
  3. 如权利要求2所述的方法,通过以下方式确定得到所述第一声纹特征数据库:
    获取历史语音指令集合,所述历史语音指令集合中包括多个历史语音指令;
    提取所述多个历史语音指令中任一历史语音指令对应的第三声纹特征;
    根据所述多个历史语音指令中任一历史语音指令对应的所述第三声纹特征,对所述多个历史语音指令进行声纹聚类,得到所述多个用户身份标识,以及与所述多个用户身份标识中任一用户身份标识对应的历史语音指令;
    根据所述多个用户身份标识中任一用户身份标识对应的历史语音指令,确定所述用户身份标识对应的所述第二声纹特征;
    其中,所述第二声纹特征和所述第三声纹特征为相同或不同的声纹特征。
  4. 如权利要求3所述的方法,根据匹配结果,确定所述用户对应的目标用户身份标识,包括:
    当所述第一声纹特征与所述多个用户身份标识中的一个用户身份标识对应的所述第二声纹特征之间的匹配度大于预设阈值时,将所述用户身份标识确定为所述目标用户身份标识。
  5. 如权利要求4所述的方法,还包括:
    当所述第一声纹特征与所述多个用户身份标识中任一用户身份标识对应的所述第二声纹特征之间的匹配度均不大于所述预设阈值时,在所述第一声纹特征数据库中增加一个新的用户身份标识。
  6. 如权利要求3所述的方法,还包括:
    根据所述用户身份标识对应的所述第二声纹特征,确定所述用户身份标识对应的第一用户画像;
    所述用户身份标识对应的第一用户画像,用于反映与所述用户身份标识对应的用户的年龄和/或性别。
  7. 如权利要求6所述的方法,根据所述用户身份标识对应的所述第二声纹特征,确定所述用户身份标识对应的第一用户画像,包括:
    确定第二声纹特征数据库,所述第二声纹特征数据库中包括不同用户画像对应的第四声纹特征;
    将所述用户身份标识对应的所述第二声纹特征,与所述不同用户画像对应的所述第四声纹特征进行匹配;
    根据匹配结果,确定所述用户身份标识对应的第一用户画像;
    其中,所述第二声纹特征与所述第四声纹特征为相同或不同的声纹特征。
  8. 如权利要求7所述的方法,还包括:
    根据所述用户身份标识对应的历史语音指令,确定所述用户身份标识对应的第二用户画像;
    所述用户身份标识对应的第二用户画像,用于反映与所述用户身份标识对应的用户的个性化需求。
  9. 如权利要求8所述的方法,根据所述用户身份标识对应的历史语音指令,确定所述用户身份标识对应的第二用户画像,包括:
    将所述用户身份标识对应的历史语音指令转换为文本指令;
    根据预设规则对所述文本指令进行分析;
    根据分析结果,确定所述用户身份标识对应的第二用户画像。
  10. 如权利要求9所述的方法,根据所述用户的身份信息,以及对所述语音指令的识别结果,向所述用户提供个性化服务,包括:
    确定所述目标用户身份标识对应的第一用户画像和第二用户画像;
    根据所述目标用户身份标识对应的第一用户画像和第二用户画像,以及对所述语音指令的识别结果,向所述用户提供个性化服务。
  11. 如权利要求10所述的方法,其特征在于,所述方法应用于智能音箱,向所述用户提供个性化服务包括下述至少一种:
    音乐推荐和聊天。
  12. 如权利要求2、3、7任一项所述的方法,其特征在于,所述声纹特征包括下述至少一种:
    语言、音色、音调、语速、口音,和频谱。
  13. 一种语音交互装置,用于执行如权利要求1-12任一项所述的语音交互方法,所述装置包括:
    接收模块,接收用户输入的语音指令;
    确定模块,从所述语音指令中提取第一声纹特征,并根据所述第一声纹特征确定所述用户的身份信息;
    服务模块,根据所述用户的身份信息,以及对所述语音指令的识别结果,向所述用户提供个性化服务。
  14. 一种电子设备,包括:
    存储器,存放程序;
    处理器,执行所述存储器存储的程序,并具体执行如权利要求1-12任一项所述的语音交互方法。
  15. 一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行如权利要求1-12任一项所述的语音交互方法。
PCT/CN2019/122640 2018-12-06 2019-12-03 一种语音交互方法和装置 WO2020114384A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811488466.5A CN111292733A (zh) 2018-12-06 2018-12-06 一种语音交互方法和装置
CN201811488466.5 2018-12-06

Publications (1)

Publication Number Publication Date
WO2020114384A1 true WO2020114384A1 (zh) 2020-06-11

Family

ID=70975228

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/122640 WO2020114384A1 (zh) 2018-12-06 2019-12-03 一种语音交互方法和装置

Country Status (3)

Country Link
CN (1) CN111292733A (zh)
TW (1) TW202022851A (zh)
WO (1) WO2020114384A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI746149B (zh) * 2020-09-04 2021-11-11 宏碁股份有限公司 智能音箱、智能音箱運作系統與點陣圖案的定時顯示方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112333546A (zh) * 2020-07-31 2021-02-05 深圳Tcl新技术有限公司 数据的推送方法、***及计算机可读存储介质
CN112233670A (zh) * 2020-08-28 2021-01-15 福州智象信息技术有限公司 一种基于alexa云服务的语音交互方法及***
CN112181348A (zh) * 2020-08-28 2021-01-05 星络智能科技有限公司 声音风格切换方法、***、计算机设备及可读存储介质
CN112185362A (zh) * 2020-09-24 2021-01-05 苏州思必驰信息科技有限公司 针对用户个性化服务的语音处理方法及装置
CN114630171A (zh) * 2020-12-11 2022-06-14 海信视像科技股份有限公司 显示设备以及配置切换方法
CN114613368A (zh) * 2022-03-08 2022-06-10 广州国音智能科技有限公司 一种云端服务器、基于多设备的身份认证方法和***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100158207A1 (en) * 2005-09-01 2010-06-24 Vishal Dhawan System and method for verifying the identity of a user by voiceprint analysis
CN103730120A (zh) * 2013-12-27 2014-04-16 深圳市亚略特生物识别科技有限公司 电子设备的语音控制方法及***
CN105609103A (zh) * 2015-12-18 2016-05-25 合肥寰景信息技术有限公司 一种语音即时识别***
CN105810200A (zh) * 2016-02-04 2016-07-27 深圳前海勇艺达机器人有限公司 基于声纹识别的人机对话装置及其方法
CN105979376A (zh) * 2015-12-02 2016-09-28 乐视致新电子科技(天津)有限公司 一种推荐方法和装置
US20170244700A1 (en) * 2016-02-22 2017-08-24 Kurt Ransom Yap Device and method for validating a user using an intelligent voice print
CN107481720A (zh) * 2017-06-30 2017-12-15 百度在线网络技术(北京)有限公司 一种显式声纹识别方法及装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258535A (zh) * 2013-05-30 2013-08-21 中国人民财产保险股份有限公司 基于声纹识别的身份识别方法及***
CN104765996B (zh) * 2014-01-06 2018-04-27 讯飞智元信息科技有限公司 声纹密码认证方法及***
CN105575391B (zh) * 2014-10-10 2020-04-03 阿里巴巴集团控股有限公司 声纹信息管理方法、装置以及身份认证方法、***
CN105117195B (zh) * 2015-09-09 2018-05-08 百度在线网络技术(北京)有限公司 语音输入的引导方法和装置
CN105895077A (zh) * 2015-11-15 2016-08-24 乐视移动智能信息技术(北京)有限公司 录音标记方法及录音装置
CN105656756A (zh) * 2015-12-28 2016-06-08 百度在线网络技术(北京)有限公司 好友推荐方法和装置
CN106446045B (zh) * 2016-08-31 2020-01-21 上海交通大学 基于对话交互的用户画像的构建方法及***
CN106448670B (zh) * 2016-10-21 2019-11-19 竹间智能科技(上海)有限公司 基于深度学习和强化学习的自动回复对话***
CN108075892B (zh) * 2016-11-09 2021-07-27 斑马智行网络(香港)有限公司 一种语音处理的方法、装置和设备
CN106782564B (zh) * 2016-11-18 2018-09-11 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
CN106709754A (zh) * 2016-11-25 2017-05-24 云南电网有限责任公司昆明供电局 一种用基于文本挖掘的电力用户分群方法
CN106506524B (zh) * 2016-11-30 2019-01-11 百度在线网络技术(北京)有限公司 用于验证用户的方法和装置
CN106708983A (zh) * 2016-12-09 2017-05-24 竹间智能科技(上海)有限公司 基于对话交互信息构建用户画像的***及方法
CN107147618B (zh) * 2017-04-10 2020-05-15 易视星空科技无锡有限公司 一种用户注册方法、装置及电子设备
CN108305615B (zh) * 2017-10-23 2020-06-16 腾讯科技(深圳)有限公司 一种对象识别方法及其设备、存储介质、终端
CN108062375B (zh) * 2017-12-12 2021-12-10 百度在线网络技术(北京)有限公司 一种用户画像的处理方法、装置、终端和存储介质
CN108550050A (zh) * 2018-03-27 2018-09-18 昆山和君纵达数据科技有限公司 一种基于呼叫中心数据的用户画像方法
CN108897734B (zh) * 2018-06-13 2023-08-22 康键信息技术(深圳)有限公司 用户画像生成方法、装置、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100158207A1 (en) * 2005-09-01 2010-06-24 Vishal Dhawan System and method for verifying the identity of a user by voiceprint analysis
CN103730120A (zh) * 2013-12-27 2014-04-16 深圳市亚略特生物识别科技有限公司 电子设备的语音控制方法及***
CN105979376A (zh) * 2015-12-02 2016-09-28 乐视致新电子科技(天津)有限公司 一种推荐方法和装置
CN105609103A (zh) * 2015-12-18 2016-05-25 合肥寰景信息技术有限公司 一种语音即时识别***
CN105810200A (zh) * 2016-02-04 2016-07-27 深圳前海勇艺达机器人有限公司 基于声纹识别的人机对话装置及其方法
US20170244700A1 (en) * 2016-02-22 2017-08-24 Kurt Ransom Yap Device and method for validating a user using an intelligent voice print
CN107481720A (zh) * 2017-06-30 2017-12-15 百度在线网络技术(北京)有限公司 一种显式声纹识别方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI746149B (zh) * 2020-09-04 2021-11-11 宏碁股份有限公司 智能音箱、智能音箱運作系統與點陣圖案的定時顯示方法

Also Published As

Publication number Publication date
TW202022851A (zh) 2020-06-16
CN111292733A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
WO2020114384A1 (zh) 一种语音交互方法和装置
CN106653016B (zh) 智能交互方法和装置
CN107507612B (zh) 一种声纹识别方法及装置
CN110288985B (zh) 语音数据处理方法、装置、电子设备及存储介质
KR102446962B1 (ko) 다수의 연령 및/또는 어휘 수준을 수용하는 자동화 어시스턴트
US11386905B2 (en) Information processing method and device, multimedia device and storage medium
US11423890B2 (en) Dynamic and/or context-specific hot words to invoke automated assistant
CN111292734B (zh) 一种语音交互方法和装置
US11257487B2 (en) Dynamic and/or context-specific hot words to invoke automated assistant
JP7300435B2 (ja) 音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体
CN109065044A (zh) 唤醒词识别方法、装置、电子设备及计算机可读存储介质
WO2017084185A1 (zh) 基于语义分析的智能终端控制方法、***及智能终端
US11586689B2 (en) Electronic apparatus and controlling method thereof
US10277834B2 (en) Suggestion of visual effects based on detected sound patterns
CN110706707B (zh) 用于语音交互的方法、装置、设备和计算机可读存储介质
US20200135169A1 (en) Audio playback device and audio playback method thereof
CN110659361B (zh) 一种对话方法、装置、设备及介质
WO2020114323A1 (zh) 一种用于个性化语音合成的方法和装置
CN109255050A (zh) 一种推送音频数据的方法及装置
JP2021156907A (ja) 情報処理装置および情報処理方法
WO2019169921A1 (zh) 录音搜索方法、装置及电子设备
US11823671B1 (en) Architecture for context-augmented word embedding
CN111767083B (zh) 误唤醒音频数据的收集方法、播放设备、电子设备、介质
Pham et al. Smart teddy bear a vision-based story Teller
CN111862947A (zh) 用于控制智能设备的方法、装置、电子设备和计算机存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19892164

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19892164

Country of ref document: EP

Kind code of ref document: A1