WO2015014122A1 - 语音交互的方法、***以及交互终端 - Google Patents

语音交互的方法、***以及交互终端 Download PDF

Info

Publication number
WO2015014122A1
WO2015014122A1 PCT/CN2014/072487 CN2014072487W WO2015014122A1 WO 2015014122 A1 WO2015014122 A1 WO 2015014122A1 CN 2014072487 W CN2014072487 W CN 2014072487W WO 2015014122 A1 WO2015014122 A1 WO 2015014122A1
Authority
WO
WIPO (PCT)
Prior art keywords
string
key information
current
voice
user
Prior art date
Application number
PCT/CN2014/072487
Other languages
English (en)
French (fr)
Inventor
付春元
雷倍一
Original Assignee
深圳创维-Rgb电子有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳创维-Rgb电子有限公司 filed Critical 深圳创维-Rgb电子有限公司
Publication of WO2015014122A1 publication Critical patent/WO2015014122A1/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • the present invention relates to the field of electronic product technologies, and in particular, to a method, system, and interactive terminal for voice interaction. Background technique
  • Voice interaction is a language communication with the machine, let the machine understand what you are saying, and give the corresponding answer.
  • the machine When inputting the voice signal, the machine first converts the voice signal into the corresponding text or command through the recognition and understanding process, and then Classified into different categories, and finally analyze the corresponding answers according to different category information.
  • the technology has entered various fields such as industry, home appliances, communications, automotive electronics, and consumer electronics.
  • the existing voice interaction mainly stays in the form of question-and-answer.
  • the main object of the present invention is to provide a method, system and interactive terminal for voice interaction, which aims to improve the experience of human-machine dialogue, and provide humanized services for users to realize humanized interaction.
  • the invention provides a method for voice interaction, comprising the steps of:
  • the preset matching rules include word segmentation processing, similarity calculation, matching manner, and completion information.
  • the matching manner includes exact matching, center matching, and broad matching.
  • the step of transmitting the current voice information input by the user to the voice recognition server and receiving the character string converted by the voice recognition server according to the current voice information further includes: parsing the voice information input by the user, and extracting the voice information
  • the key information word in the key information word is saved to the corresponding dialogue scene.
  • the step of matching the character string and the key information word according to a preset matching rule comprises:
  • the character string matches the key information word portion, the character string is complemented according to the key information word and the missing information of the character string.
  • the similarity between the character string and the key information word is calculated by: assuming that the last voice information is A, the current voice information is B, and the key information words included in A are Al, A2, A3, ..., The key information words contained in An, B are Bl, B2, B3, ..., Bm, and the similarity S (A, B) of Bay' JA and B is:
  • the present invention further provides an interactive terminal, including:
  • a sending and receiving module configured to send current voice information input by the user to the voice recognition service And receiving a character string converted by the voice recognition server according to the current voice information; the determining module, configured to determine, according to the saved key information words of the current conversation scene, whether the character string conforms to the current conversation scene;
  • a matching module configured to match the string according to a preset matching rule and the key information word
  • the operation module is configured to send the matched string to the semantic parsing server, and after receiving the operation instruction returned by the semantic parsing server according to the string, execute the operation instruction to answer the user.
  • the preset matching rules include word segmentation processing, similarity calculation, matching mode, and completion information.
  • the matching manner includes exact matching, center matching, and broad matching.
  • the interactive terminal further includes:
  • the parsing and saving module is configured to parse the voice information input by the user, extract key information words in the voice information, and save the key information words into the corresponding conversation scene.
  • the matching module includes:
  • a calculating unit configured to calculate a similarity between the character string and the key information word
  • a determining unit configured to determine, according to the calculated similarity and the preset matching rule, whether the character string and the key information word completely match
  • a completion unit configured to complete the string according to the key information word and the missing information of the string.
  • the interactive terminal further includes:
  • the present invention further provides a system for voice interaction, including an interactive terminal, a voice recognition server, and a semantic resolution server, wherein:
  • the interactive terminal includes:
  • a sending and receiving module configured to send current voice information input by the user to the voice recognition server, and receive a character string converted by the voice recognition server according to the current voice information
  • a judging module configured to judge the character according to a key information word of the saved current conversation scene Whether the string conforms to the current conversation scenario
  • a matching module configured to match the string and the key information word according to a preset matching rule
  • an operation module configured to send the matched string to a semantic resolution server, and receive the semantic resolution server according to the After the operation instruction returned by the string, the operation instruction is executed to answer the user;
  • the voice recognition server is configured to receive current voice information input by the user sent by the interaction terminal, and convert the current voice information into a corresponding character string;
  • the semantic parsing server is configured to receive the matched string sent by the interactive terminal, parse the semantics corresponding to the string, and generate a corresponding operation instruction. After receiving the current voice information input by the user, the present invention sends the current voice information to the voice recognition server, and after receiving the character string converted by the voice recognition server according to the current voice information, according to the key information words of the saved current conversation scene.
  • FIG. 1 is a schematic flowchart of a first embodiment of a method for voice interaction according to the present invention
  • FIG. 2 is a schematic flowchart of matching a character string and a key information word in a voice interaction method according to the present invention
  • FIG. 3 is a schematic flowchart of a second embodiment of a voice interaction method according to the present invention.
  • FIG. 4 is a schematic flowchart of a third embodiment of a method for voice interaction according to the present invention.
  • FIG. 5 is a schematic structural diagram of a first embodiment of an interaction terminal according to the present invention.
  • FIG. 6 is a schematic structural diagram of a matching module of an interactive terminal according to the present invention.
  • FIG. 7 is a schematic structural diagram of a second embodiment of an interactive terminal according to the present invention.
  • FIG. 8 is a schematic structural diagram of a third embodiment of an interactive terminal according to the present invention.
  • FIG. 9 is a schematic structural diagram of a first embodiment of a voice interaction system according to the present invention.
  • the implementation, functional features, and advantages of the present invention will be further described with reference to the accompanying drawings. detailed description
  • the present invention provides a method of voice interaction. After receiving the current voice information input by the user, according to the relevance of the context semantics, it is determined whether the current voice information conforms to the current conversation scene, and when the content is met, the corresponding operation instruction is executed and the user is answered.
  • FIG. 1 is a schematic flowchart of a first embodiment of a method for voice interaction according to the present invention.
  • Step S10 Send the current voice information input by the user to the voice recognition server, and receive the character string converted by the voice recognition server according to the current voice information;
  • the voice recognition server After receiving the current voice information input by the user through the voice input device, the current voice information is sent to the voice recognition server, and the voice recognition server identifies the current voice information, and Convert the audio file to a corresponding string represented by text information, and return the string to the interactive terminal.
  • Step S20 determining, according to the saved key information words of the current conversation scenario, whether the character string conforms to the current conversation scenario; if yes, executing step S21;
  • Step S21 matching a character string according to a preset matching rule and a key information word
  • a plurality of conversation scenarios may be included, such as: a chat scene, a weather scene, a map scene, a movie music scene, a stock scene, a recipe scene, a joke scene, a weekly dream scene, a date query scene, a translation scene, and a web browsing scene.
  • the dialog scene that can be answered by dialogue with the interactive terminal; when performing voice interaction in each of the dialog scenarios, the interactive terminal saves the key information words in the user dialogue process and associates them with the corresponding dialogue scenes.
  • the character string is matched according to the preset matching rule and the key information word corresponding to the current conversation scene.
  • the preset matching rule is a preset rule for processing a character string to improve the information of the string; the matching rule may include word segmentation processing, similarity calculation, matching mode, and completion information. step.
  • FIG. 2 is a matching character string and key information in the voice interaction method of the present invention.
  • step S21 specifically includes:
  • Step S211 calculating a similarity between the character string and the key information word
  • the similarity between the current voice information and the previous voice information is calculated according to the last voice information in the saved current conversation scene, which can be calculated according to the following formula:
  • Step S212 judging whether the character string and the key information word completely match according to the calculated similarity and the preset matching rule
  • the matching methods in the preset matching rules include exact matching, center matching, and broad matching; wherein, the exact matching means that the current voice information is identical to the key information words of the previous voice information, and the center matching refers to the current
  • the voice information includes the key information words of the last voice information
  • the broad match refers to the key information words of the current voice information including the last voice information or words related to the key information words.
  • Step S213 If the character string matches the key information word part, the character string is complemented according to the key information word and the missing information of the character string.
  • the string does not meet the exact matching condition, that is, the string matches the key information word part, the missing information in the keyword of the string is determined according to the key information word, and the string is complemented to be in the current conversation scene.
  • the key information words match exactly.
  • Step S30 Send the matched character string to the semantic parsing server, and after receiving the operation instruction returned by the semantic parsing server according to the character string, execute the operation instruction to answer the user.
  • Matching strings according to preset matching rules and key information words to make them match the current conversation scene After the key information words are completely matched, the matched string including the complete key information word is sent to the semantic parsing server for the semantic parsing server to parse the complete semantics of the string, and the semantic parsing server parses out the complete semantics of the string. And generating an operation instruction for performing the related operation according to the semantics of the string, and sending the operation instruction to the interactive terminal. After receiving the operation instruction returned by the semantic resolution server according to the character string, the interactive terminal executes the operation instruction and makes a corresponding answer to the user.
  • FIG. 3 is a schematic flowchart diagram of a second embodiment of a method for voice interaction according to the present invention.
  • the method before performing step S10, the method further includes:
  • Step S40 Parse the voice information input by the user, extract the key information words in the voice information, and save the key information words into the corresponding conversation scene.
  • the voice information input by the user is received, the voice information is parsed, and the key information words are extracted, and saved to the conversation scene, and each received voice information is The processing is performed.
  • the key information words of the last voice information saved may be used to determine whether the current voice information conforms to the current conversation scene.
  • FIG. 4 is a schematic flowchart diagram of a third embodiment of a method for voice interaction according to the present invention.
  • the method further includes:
  • step S50 if the character string does not match the current conversation scene, the key information word corresponding to the other conversation scene is determined, and the conversation scene that the string matches is determined, and the current conversation scene is modified into the conversation scene.
  • the key information word corresponding to the other conversation scene saved in the interaction terminal is determined, and the dialogue scene that the string matches is determined, and the current conversation scene is modified to be
  • the determined dialogue scene further enhances the experience of human-machine dialogue and further ensures that it can provide users with personalized services.
  • the invention also provides an interactive terminal.
  • FIG. 5 is a schematic structural diagram of a first embodiment of an interactive terminal according to the present invention.
  • the sending and receiving module 101 is configured to send the current voice information input by the user to the voice recognition server, and receive the character string converted by the voice recognition server according to the current voice information;
  • the determining module 102 is configured to determine, according to the saved key information words of the current conversation scenario, whether the character string conforms to the current conversation scenario;
  • the matching module 103 is configured to match the character string according to the preset matching rule and the key information word; the operation module 104 is configured to send the matched character string to the semantic resolution server, and receive the returned by the semantic resolution server according to the string After the operation instruction, the operation instruction is executed to give an answer to the user.
  • the sending and receiving module 101 sends the current voice information to The voice recognition server recognizes the current voice information, converts the audio file into a corresponding character string represented by the text information, and returns the character string to the interactive terminal.
  • the determining module 102 determines whether the character string conforms to the current conversation scene according to the key information words of the current conversation scene saved in the interactive terminal.
  • a plurality of conversation scenarios may be included, such as: a chat scene, a weather scene, a map scene, a movie music scene, a stock scene, a recipe scene, a joke scene, a weekly dream scene, a date query scene, a translation scene, and a web browsing scene.
  • the dialog scene that can be answered by dialogue with the interactive terminal; when performing voice interaction in each of the dialog scenarios, the interactive terminal saves the key information words in the user dialogue process and associates them with the corresponding dialogue scenes.
  • the matching module 103 matches the string according to the preset matching rule and the key information word corresponding to the current conversation scene.
  • the preset matching rule is a preset rule for processing a character string to improve the information of the string; the matching rule may include word segmentation processing, similarity calculation, matching mode, and completion information. step.
  • FIG. 6 is a schematic structural diagram of a matching module of an interactive terminal according to the present invention.
  • the matching module 103 includes:
  • the calculating unit 1031 is configured to calculate a similarity between the character string and the key information word
  • the determining unit 1032 is configured to determine, according to the calculated similarity and the preset matching rule, whether the character string and the key information word completely match;
  • the completion unit 1033 is configured to complete the string according to the key information word and the missing information of the string.
  • the calculation unit 1031 calculates the similarity between the current voice information and the previous voice information, and can be calculated according to the following formula:
  • the key information words contained in A are Al, A2, A3, ..., An, and the key information words contained in B are Bl, B2, B3, ..., Bm.
  • the similarity of the sentences is:
  • a i max( ⁇ (A , B 1 ), s(A , B 2 ) ⁇ s(A , B m ))
  • the matching methods in the preset matching rules include exact matching, center matching, and broad matching; wherein, the exact matching means that the current voice information is identical to the key information words of the previous voice information, and the center matching refers to the current
  • the voice information includes the key information words of the last voice information
  • the broad match refers to the key information words of the current voice information including the last voice information or words related to the key information words.
  • the determining unit 1032 determines, according to the matching method, whether the character string and the key information word match completely, that is, whether the condition of the exact match is met. If it is met, it means that the complete semantics can be obtained according to the string.
  • the completion unit 1033 determines the missing information in the keyword of the string according to the key information word, and completes the string. It exactly matches the key information words in the current conversation scenario.
  • the matched string including the complete key information word is sent to the semantic parsing server for semantics.
  • the parsing server parses the complete semantics of the string.
  • the semantic parsing server After parsing the complete semantics of the string, the semantic parsing server generates an operation instruction for performing the related operation according to the semantics of the string, and sends the operation instruction to the interactive terminal.
  • the interactive terminal After receiving the operation instruction returned by the semantic resolution server according to the character string, the interactive terminal executes the operation instruction through the operation module 104, and makes a corresponding answer to the user.
  • FIG. 7 is a schematic structural diagram of a second embodiment of an interactive terminal according to the present invention.
  • the interactive terminal further includes:
  • the parsing and saving module 105 is configured to parse the voice information input by the user, extract key information words in the voice information, and save the key information words into the corresponding conversation scene.
  • the voice information input by the user is received, and the parsing and saving module 105 parses the voice information, and extracts the key information words therein, and saves to the conversation scene for each reception.
  • the obtained voice information is subjected to the processing.
  • the key information words of the last voice information saved may be used to determine whether the current voice information conforms to the current conversation scene.
  • FIG. 8 is a schematic structural diagram of a third embodiment of an interactive terminal according to the present invention.
  • the interactive terminal further includes:
  • the matching module 106 is configured to compare the key information words corresponding to the other conversation scenes; the determining and modifying module 107 is configured to determine the dialogue scene that the character string matches, and modify the current conversation scene to the conversation scene.
  • the comparison module 106 corresponds to the other conversation scene saved in the interaction terminal by the comparison module 106.
  • the key information word, the determining and modifying module 107 determines, according to the comparison result, the dialog scene that the string matches, that is, when the string matches the key information word of a certain dialogue scene, determining that the string conforms to the conversation scene, and simultaneously The determining and modifying module 107 modifies the current conversation scene to a dialog scenario that the string conforms to.
  • the key information word corresponding to the other conversation scene saved in the interaction terminal is determined, and the dialogue scene that the string matches is determined, and Modifying the current conversation scene to the determined conversation scene further enhances the experience of the human-machine dialogue, and further ensures that the user can provide a personalized service.
  • the invention further provides a system for voice interaction.
  • FIG. 9 is a schematic structural diagram of a first embodiment of a voice interaction system according to the present invention.
  • the voice interaction system includes an interaction terminal 100, a voice recognition server 200, and a semantic resolution server 300, where:
  • the interactive terminal 100 includes:
  • the sending and receiving module 101 is configured to send the current voice information input by the user to the voice recognition server, and receive the character string converted by the voice recognition server according to the current voice information;
  • the determining module 102 is configured to determine, according to the saved key information words of the current conversation scenario, whether the character string conforms to the current conversation scenario;
  • the matching module 103 is configured to match the character string according to the preset matching rule and the key information word;
  • the operation module 104 is configured to send the matched character string to the semantic resolution server, and receive the returned by the semantic resolution server according to the string After the operation instruction is executed, the operation instruction is executed to give an answer to the user;
  • the voice recognition server 200 is configured to receive current voice information input by the user sent by the interaction terminal 100, and convert the current voice information into a corresponding character string;
  • the semantic parsing server 300 is configured to receive the matched string sent by the interactive terminal, parse the semantics corresponding to the string, and generate corresponding operation instructions.
  • the system of the voice interaction includes all the technical solutions of all the foregoing embodiments of the interactive terminal, and the technical effects achieved are also the same, and are not mentioned here.
  • the above description is only the preferred embodiment of the present invention, and is not intended to limit the scope of the invention, and the equivalent structure or equivalent flow transformation made by the specification and the drawings of the present invention may be directly or indirectly applied to other related
  • the technical field is equally included in the scope of patent protection of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种语音交互的方法、相应的***和一种交互终端,所述方法包括:将用户输入的当前语音信息发送至语音识别服务器,接收语音识别服务器根据该当前语音信息转换得到的字符串(S10);根据从与用户对话过程中的上下文中提取出来并保存的当前对话场景的关键信息词,判断字符串是否符合当前对话场景(S20);若是,则根据预置的匹配规则和关键信息词,匹配字符串(S21);将匹配后的字符串发送至语义解析服务器,接收到语义解析服务器根据字符串所返回的操作指令后,执行该操作指令,向用户做出回答(S30)。采用所公开的方案,提升了人机对话的体验感,并且为用户提供了人性化的服务,实现了人性化的人机交互。

Description

说 明 书 语音交互的方法、 ***以及交互终端 技术领域
本发明涉及到电子产品技术领域, 特别涉及到一种语音交互的方法、 系 统以及交互终端。 背景技术
语音交互是与机器进行语言交流, 让机器明白你说的是什么, 并给出相 应的答案, 当输入语音信号时, 机器先通过识别和理解过程把语音信号转变 为相应的文本或命令, 然后归为不同的类别, 最后根据不同的类别信息分析 出对应的答案。 目前, 该技术已经进入工业、 家电、 通信、 汽车电子、 消费 电子产品等各个领域。 但是, 现有的语音交互主要是停留在一问一答的形式 上, 用户问什么, 智能终端就回答什么, 略显呆板; 在^艮多情况下智能终端 不能理解用户输入语句的意思, 或者不能理解用户输入的缺少关键信息的语 句或者省略句的意思; 并且, 由于智能终端不能根据上下文语义环境分析当 前用户输入的语句的意思, 因而不能根据当前对话环境给用户必要的提示和 引导。 这样, 就会导致人机对话的体验感较差, 使交互欠缺人性化。 发明内容
本发明的主要目的为提供一种语音交互的方法、 ***以及交互终端, 旨 在提升人机对话的体验感, 并且为用户提供人性化的服务, 实现人性化的交 互。
本发明提供一种语音交互的方法, 包括步骤:
将用户输入的当前语音信息发送至语音识别服务器, 接收语音识别服务 器根据该当前语音信息转换得到的字符串;
根据保存的当前对话场景的关键信息词, 判断所述字符串是否符合所述 当前对话场景; 若是, 则根据预置的匹配规则和所述关键信息词, 匹配所述 字符串;
将匹配后的所述字符串发送至语义解析服务器, 接收到语义解析服务器 根据所述字符串所返回的操作指令后, 执行该操作指令, 向用户做出回答。 优选地, 预置的匹配规则包括分词处理、 相似度计算、 匹配方式和补全 信息。
优选地, 所述匹配方式包括精确匹配、 中心匹配和广泛匹配。
优选地, 所述将用户输入的当前语音信息发送至语音识别服务器, 接收 语音识别服务器根据该当前语音信息转换得到的字符串的步骤之前, 还包括: 解析用户输入的语音信息, 提取该语音信息中的关键信息词, 将该关键 信息词保存至对应的对话场景中。
优选地, 所述根据预置的匹配规则匹配所述字符串与所述关键信息词的 步骤包括:
计算所述字符串与所述关键信息词的相似度;
根据计算出的相似度以及预置的匹配规则, 判断所述字符串与所述关键 信息词是否完全匹配;
若所述字符串与所述关键信息词部分匹配, 则根据所述关键信息词以及 该字符串缺失的信息, 补全该字符串。
优选地, 所述字符串与所述关键信息词的相似度通过以下方法计算: 假设上一次语音信息为 A, 当前语音信息为 B, A包含的关键信息词为 Al、 A2、 A3、…、 An, B包含的关键信息词为 Bl、 B2、 B3、…、 Bm, 贝' J A 和 B的相似度 S (A, B) 为:
S(A,B)=("- 1 】 +"·- 1 )12 .
m n
其中:
a = max(^( ,^Χ^Λ,^) ······ , ))
b, = max(s(A1,Bi),s(A2,Bi) ······ siA^B^) ° 优选地, 在所述判断字符串是否符合所述当前对话场景的步骤之后, 还 包括:
若所述字符串不符合所述当前对话场景, 比对该字符串与其他对话场景 对应的关键信息词, 确定所述字符串所符合的对话场景, 并将当前对话场景 ^ίι爹改为该对话场景。 本发明进一步提供一种交互终端, 包括:
发送及接收模块, 用于将用户输入的当前语音信息发送至语音识别服务 器, 接收语音识别服务器根据该当前语音信息转换得到的字符串; 判断模块, 用于根据保存的当前对话场景的关键信息词, 判断所述字符 串是否符合所述当前对话场景;
匹配模块, 用于根据预置的匹配规则和所述关键信息词, 匹配所述字符 串;
操作模块, 用于将匹配后的所述字符串发送至语义解析服务器, 接收到 语义解析服务器根据所述字符串所返回的操作指令后, 执行该操作指令, 向 用户做出回答。
优选地, 预置的匹配规则包括分词处理、 相似度计算、 匹配方式和补全 信息。
优选地, 所述匹配方式包括精确匹配、 中心匹配和广泛匹配。
优选地, 交互终端还包括:
解析及保存模块, 用于解析用户输入的语音信息, 提取该语音信息中的 关键信息词, 将该关键信息词保存至对应的对话场景中。
优选地, 所述匹配模块包括:
计算单元, 用于计算所述字符串与所述关键信息词的相似度;
判断单元, 用于根据计算出的相似度以及预置的匹配规则, 判断所述字 符串与所述关键信息词是否完全匹配;
补全单元, 用于根据所述关键信息词以及该字符串缺失的信息, 补全该 字符串。
优选地, 交互终端还包括:
比对模块, 用于比对所述字符串与其他对话场景对应的关键信息词; 确定及修改模块, 用于确定所述字符串所符合的对话场景, 并将当前对 话场景修改为该对话场景。 本发明进一步还提供一种语音交互的***, 包括交互终端、 语音识别服 务器和语义解析服务器, 其中:
所述交互终端包括:
发送及接收模块, 用于将用户输入的当前语音信息发送至语音识别服务 器, 接收语音识别服务器根据该当前语音信息转换得到的字符串;
判断模块, 用于根据保存的当前对话场景的关键信息词, 判断所述字符 串是否符合所述当前对话场景;
匹配模块, 用于根据预置的匹配规则匹配所述字符串与所述关键信息词; 操作模块, 用于将匹配后的所述字符串发送至语义解析服务器, 接收到 语义解析服务器根据所述字符串所返回的操作指令后, 执行该操作指令, 向 用户做出回答;
所述语音识别服务器, 用于接收所述交互终端发送的用户输入的当前语 音信息, 将该当前语音信息转换为对应的字符串;
所述语义解析服务器, 用于接收所述交互终端发送的匹配后的字符串, 解析所述字符串对应的语义, 并生成相应的操作指令。 本发明通过接收到用户输入的当前语音信息后, 将其发送至语音识别服 务器, 并在接收到语音识别服务器根据该当前语音信息转换得到的字符串后, 根据保存的当前对话场景的关键信息词, 判断字符串是否符合当前对话场景; 若是, 根据预置的匹配规则和关键信息词, 匹配字符串; 然后将匹配后的字 符串发送至语义解析服务器, 在接收到语义解析服务器根据字符串所返回的 操作指令后, 执行该操作指令, 向用户做出回答, 从而提升了人机对话的体 验感, 并且为用户提供了人性化的服务, 实现了人性化的人机交互。 附图说明
图 1为本发明语音交互的方法第一实施例的流程示意图;
图 2为本发明语音交互的方法中匹配字符串与关键信息词的流程示意图; 图 3为本发明语音交互的方法第二实施例的流程示意图;
图 4为本发明语音交互的方法第三实施例的流程示意图;
图 5为本发明交互终端第一实施例的结构示意图;
图 6为本发明交互终端的匹配模块的结构示意图;
图 7为本发明交互终端第二实施例的结构示意图;
图 8为本发明交互终端第三实施例的结构示意图;
图 9为本发明语音交互的***第一实施例的结构示意图。 本发明目的的实现、 功能特点及优点将结合实施例, 参照附图做进一步 说明。 具体实施方式
应当理解, 此处所描述的具体实施例仅仅用以解释本发明, 并不用于限 定本发明。
本发明提供一种语音交互的方法。 在接收到用户输入的当前语音信息后, 根据上下文语义的关联性, 判断当前语音信息是否符合当前对话场景, 并在 符合时执行相应的操作指令以及向用户回答。
参照图 1 , 图 1为本发明语音交互的方法第一实施例的流程示意图。
本实施例所提供的语音交互的方法, 包括:
步骤 S10,将用户输入的当前语音信息发送至语音识别服务器,接收语音 识别服务器根据该当前语音信息转换得到的字符串;
在用户与交互终端进行语音交互的过程中, 接收到用户通过语音输入设 备所输入的当前语音信息后, 将该当前语音信息发送至语音识别服务器, 语 音识别服务器对该当前语音信息进行识别, 并将音频文件转换为对应的以文 字信息表示的字符串, 将该字符串返回至交互终端。
步骤 S20,根据保存的当前对话场景的关键信息词, 判断字符串是否符合 当前对话场景; 若是, 则执行步骤 S21 ;
步骤 S21 , 根据预置的匹配规则和关键信息词, 匹配字符串;
接收到语音识别服务器返回的字符串后, 根据交互终端中所保存的当前 对话场景的关键信息词, 判断该字符串是否符合当前对话场景。 本实施例中, 可以包括多种对话场景, 例如: 聊天场景、 天气场景、 地图场景、 电影音乐 场景、 股票场景、 菜谱场景、 笑话场景、 周公解梦场景、 日期查询场景、 翻 译场景和网页浏览场景等可以通过和交互终端对话得到回答的对话场景; 在 每一种对话场景下进行语音交互时, 交互终端都会保存用户对话过程中的关 键信息词, 并将其与相应的对话场景进行对应。
当判断出字符串符合当前对话场景, 即字符串所对应的当前语音信息为 当前对话场景下的内容时, 根据预置的匹配规则以及当前对话场景对应的关 键信息词, 匹配字符串。 本实施例中, 预置的匹配规则为预先设定的用于对 字符串进行处理的规则, 以完善字符串的信息; 匹配规则可以包括分词处理、 相似度计算、 匹配方式和补全信息等步骤。
请一并参照图 2,图 2为本发明语音交互的方法中匹配字符串与关键信息 词的流程示意图。
在本实施例中, 步骤 S21具体包括:
步骤 S211 , 计算字符串与关键信息词的相似度;
在判断出字符串符合当前对话场景时, 根据所保存的当前对话场景下的 上一次语音信息, 计算当前语音信息和上一次语音信息的相似度, 可以根据 以下公式计算:
假设上一次语音信息为 A, 当前语音信息为 B , A包含的关键信息词为 Al、 A2、 A3、…、 An, B包含的关键信息词为 Bl、 B2、 B3、…、 Bm, 贝' J A 和 B的相似度为:
S(A,B)=( "- 1 】 + "·- 1 )12
m n
其中:
a, = max(^(A , B1 ), s(A , B2 ) ······ s(A , Bm ))
bi = max(s(A1 , β. ), 5(^ , 5 ) · ··· ·· s(An , Bi )) 在相似度计算时, 充分考虑了句子的每个词的深层含义。
步骤 S212, 根据计算出的相似度以及预置的匹配规则, 判断字符串与关 键信息词是否完全匹配;
本实施例中, 预置的匹配规则中的匹配方法包括精确匹配、 中心匹配和 广泛匹配; 其中, 精确匹配是指当前语音信息和上一次语音信息的关键信息 词完全相同, 中心匹配是指当前语音信息中包含上一次语音信息的关键信息 词即可, 而广泛匹配是指当前语音信息中包含上一次语音信息的关键信息词 或包括与该关键信息词相关的词。 在计算出当前语音信息和上一次语音信息 的相似度后, 根据匹配方法, 判断字符串与关键信息词是否完全匹配, 即是 否符合精确匹配的条件。 如符合, 则说明根据该字符串即可得到完整的语义。
步骤 S213, 若字符串与关键信息词部分匹配, 则根据关键信息词以及该 字符串缺失的信息, 补全该字符串。
如字符串不符合精确匹配的条件, 即字符串与关键信息词部分匹配, 则 根据关键信息词判断字符串的关键词中所缺失的信息, 补全该字符串, 使其 与当前对话场景下的关键信息词完全匹配。
步骤 S30,将匹配后的字符串发送至语义解析服务器,接收到语义解析服 务器根据字符串所返回的操作指令后, 执行该操作指令, 向用户做出回答。
在根据预置的匹配规则和关键信息词匹配字符串, 使其与当前对话场景 下的关键信息词完全匹配后, 将匹配后的包括完整关键信息词的字符串发送 至语义解析服务器, 供语义解析服务器解析该字符串的完整语义, 语义解析 服务器解析出字符串的完整语义后, 根据该字符串的语义生成进行相关操作 的操作指令, 并发送至交互终端。 交互终端在接收到语义解析服务器根据字 符串所返回的操作指令后, 执行该操作指令, 并向用户做出相应的回答。
本实施例通过接收到用户输入的当前语音信息后, 将其发送至语音识别 服务器, 并在接收到语音识别服务器根据该当前语音信息转换得到的字符串 后, 根据保存的当前对话场景的关键信息词, 判断字符串是否符合当前对话 场景; 若是, 根据预置的匹配规则和关键信息词, 匹配字符串; 然后将匹配 后的字符串发送至语义解析服务器, 在接收到语义解析服务器根据字符串所 返回的操作指令后, 执行该操作指令, 向用户做出回答, 从而提升了人机对 话的体验感, 并且为用户提供了人性化的服务, 实现了人性化的人机交互。 参照图 3 , 图 3为本发明语音交互的方法第二实施例的流程示意图。
在本发明语音交互的方法第一实施例的基础上, 在执行步骤 S10之前, 该 方法还包括:
步骤 S40, 解析用户输入的语音信息, 提取该语音信息中的关键信息词, 将该关键信息词保存至对应的对话场景中。
本实施例中, 在相应的对话场景下, 接收到用户输入的语音信息, 解析 该语音信息, 并提取出其中的关键信息词, 保存至该对话场景下, 对每次接 收到的语音信息都进行该处理, 在之后所接收到当前语音信息时, 通过所保 存的上一次语音信息的关键信息词, 即可以判断出当前语音信息是否符合当 前对话场景。 例如, 在聊天场景中, 如用户输入 "小李是我的朋友", 交互终 端就会通过分词处理得到关键信息 "小李 /nr"、 "我 /r"、 "朋友 /n" , 对话场景 会记录为 "聊天场景"; 当用户再输入 "谁是我的朋友" 时, 交互终端就会根 据聊天场景解析该语音信息, 并采用预置的匹配规则匹配已经记录的关键信 息后给出答案 "小李"。
在相应的对话场景下, 接收到用户输入的语音信息, 解析该语音信息, 并提取出其中的关键信息词, 保存至该对话场景下, 在之后所接收到当前语 音信息时, 通过所保存的上一次语音信息的关键信息词, 即可以判断出当前 语音信息是否符合当前对话场景, 从而为更加智能地识别用户输入的语音信 息提供了基础。 参照图 4 , 图 4为本发明语音交互的方法第三实施例的流程示意图。
在本发明语音交互的方法第一实施例和第二实施例的基础上, 在执行步 骤 S20之后, 该方法还包括:
步骤 S50,若字符串不符合当前对话场景, 比对该字符串与其他对话场景 对应的关键信息词, 确定字符串所符合的对话场景, 并将当前对话场景修改 为该对话场景。
在根据交互终端中所保存的当前对话场景的关键信息词, 判断出该字符 串不符合当前对话场景时, 比对该字符串与交互终端中所保存的其他对话场 景对应的关键信息词, 并根据比对结果确定字符串所符合的对话场景, 即当 字符串与某一个对话场景的关键信息词相匹配时, 则确定该字符串符合该对 话场景, 同时, 将当前对话场景修改为字符串所符合的对话场景。
在判断出字符串不符合当前对话场景时, 比对该字符串与交互终端中所 保存的其他对话场景对应的关键信息词, 确定该字符串符合的对话场景, 并 将当前对话场景修改为所确定的对话场景, 进一步提升了人机对话的体验感, 并进一步保证了能够为用户提供人性化的服务。 本发明还提供一种交互终端。
参照图 5 , 图 5为本发明交互终端第一实施例的结构示意图。
本实施例所提供的交互终端, 包括:
发送及接收模块 101 ,用于将用户输入的当前语音信息发送至语音识别服 务器, 接收语音识别服务器根据该当前语音信息转换得到的字符串;
判断模块 102, 用于根据保存的当前对话场景的关键信息词, 判断字符串 是否符合当前对话场景;
匹配模块 103 , 用于根据预置的匹配规则和关键信息词, 匹配字符串; 操作模块 104, 用于将匹配后的字符串发送至语义解析服务器,接收到语 义解析服务器根据字符串所返回的操作指令后, 执行该操作指令, 向用户做 出回答。
在用户与交互终端进行语音交互的过程中, 接收到用户通过语音输入设 备所输入的当前语音信息后, 发送及接收模块 101将该当前语音信息发送至 语音识别服务器, 语音识别服务器对该当前语音信息进行识别, 并将音频文 件转换为对应的以文字信息表示的字符串, 将该字符串返回至交互终端。
发送及接收模块 101接收到语音识别服务器返回的字符串后, 判断模块 102根据交互终端中所保存的当前对话场景的关键信息词,判断该字符串是否 符合当前对话场景。 本实施例中, 可以包括多种对话场景, 例如: 聊天场景、 天气场景、 地图场景、 电影音乐场景、 股票场景、 菜谱场景、 笑话场景、 周 公解梦场景、 日期查询场景、 翻译场景和网页浏览场景等可以通过和交互终 端对话得到回答的对话场景; 在每一种对话场景下进行语音交互时, 交互终 端都会保存用户对话过程中的关键信息词, 并将其与相应的对话场景进行对 应。
当判断出字符串符合当前对话场景, 即字符串所对应的当前语音信息为 当前对话场景下的内容时, 匹配模块 103根据预置的匹配规则以及当前对话 场景对应的关键信息词, 匹配字符串。 本实施例中, 预置的匹配规则为预先 设定的用于对字符串进行处理的规则, 以完善字符串的信息; 匹配规则可以 包括分词处理、 相似度计算、 匹配方式和补全信息等步骤。
请一并参照图 6 , 图 6为本发明交互终端的匹配模块的结构示意图。
在本实施例中, 匹配模块 103包括:
计算单元 1031 , 用于计算字符串与关键信息词的相似度;
判断单元 1032, 用于根据计算出的相似度以及预置的匹配规则, 判断字 符串与关键信息词是否完全匹配;
补全单元 1033 , 用于根据关键信息词以及该字符串缺失的信息, 补全该 字符串。
在判断出字符串符合当前对话场景时, 根据所保存的当前对话场景下的 上一次语音信息, 通过计算单元 1031计算当前语音信息和上一次语音信息的 相似度, 可以根据以下公式计算:
假设上一次语音信息为 A, 当前语音信息为 B , A包含的关键信息词为 Al、 A2、 A3、…、 An, B包含的关键信息词为 Bl、 B2、 B3、…、 Bm, 这两 个句子的相似度为:
m a. V" a.
S(A,B)=( "- 1 】 + "·- 1 )12
m n
其中: ai = max(^(A , B1 ), s(A , B2 ) ······ s(A , Bm ))
bi = max(s(A1 , β. ), 5(^ , 5 ) · ··· ·· s(An , Bi )) 在相似度计算时, 充分考虑了句子的每个词的深层含义。
本实施例中, 预置的匹配规则中的匹配方法包括精确匹配、 中心匹配和 广泛匹配; 其中, 精确匹配是指当前语音信息和上一次语音信息的关键信息 词完全相同, 中心匹配是指当前语音信息中包含上一次语音信息的关键信息 词即可, 而广泛匹配是指当前语音信息中包含上一次语音信息的关键信息词 或包括与该关键信息词相关的词。 在计算出当前语音信息和上一次语音信息 的相似度后, 判断单元 1032根据匹配方法, 判断字符串与关键信息词是否完 全匹配, 即是否符合精确匹配的条件。 如符合, 则说明根据该字符串即可得 到完整的语义。
如字符串不符合精确匹配的条件, 即字符串与关键信息词部分匹配, 则 通过补全单元 1033 , 根据关键信息词判断字符串的关键词中所缺失的信息, 补全该字符串, 使其与当前对话场景下的关键信息词完全匹配。
在根据预置的匹配规则和关键信息词匹配字符串, 使其与当前对话场景 下的关键信息词完全匹配后, 将匹配后的包括完整关键信息词的字符串发送 至语义解析服务器, 供语义解析服务器解析该字符串的完整语义, 语义解析 服务器解析出字符串的完整语义后, 根据该字符串的语义生成进行相关操作 的操作指令, 并发送至交互终端。 交互终端在接收到语义解析服务器根据字 符串所返回的操作指令后, 通过操作模块 104执行该操作指令, 并向用户做出 相应的回答。
本实施例通过接收到用户输入的当前语音信息后, 将其发送至语音识别 服务器, 并在接收到语音识别服务器根据该当前语音信息转换得到的字符串 后, 根据保存的当前对话场景的关键信息词, 判断字符串是否符合当前对话 场景; 若是, 根据预置的匹配规则和关键信息词, 匹配字符串; 然后将匹配 后的字符串发送至语义解析服务器, 在接收到语义解析服务器根据字符串所 返回的操作指令后, 执行该操作指令, 向用户做出回答, 从而提升了人机对 话的体验感, 并且为用户提供了人性化的服务, 实现了人性化的人机交互。 参照图 7 , 图 7为本发明交互终端第二实施例的结构示意图。
在本发明交互终端第一实施例的基础上, 该交互终端还包括: 解析及保存模块 105 , 用于解析用户输入的语音信息,提取该语音信息中 的关键信息词, 将该关键信息词保存至对应的对话场景中。
本实施例中, 在相应的对话场景下, 接收到用户输入的语音信息, 解析 及保存模块 105解析该语音信息, 并提取出其中的关键信息词, 保存至该对话 场景下, 对每次接收到的语音信息都进行该处理, 在之后所接收到当前语音 信息时, 通过所保存的上一次语音信息的关键信息词, 即可以判断出当前语 音信息是否符合当前对话场景。 例如, 在聊天场景中, 如用户输入 "小李是 我的朋友", 交互终端就会通过分词处理得到关键信息 "小李 /nr"、 "我 /r"、 "朋 友 /n" , 对话场景会记录为 "聊天场景"; 当用户再输入 "谁是我的朋友" 时, 交互终端就会根据聊天场景解析该语音信息, 并采用预置的匹配规则匹配已 经记录的关键信息后给出答案 "小李"。
在相应的对话场景下, 接收到用户输入的语音信息, 解析该语音信息, 并提取出其中的关键信息词, 保存至该对话场景下, 在之后所接收到当前语 音信息时, 通过所保存的上一次语音信息的关键信息词, 即可以判断出当前 语音信息是否符合当前对话场景, 从而为更加智能地识别用户输入的语音信 息提供了基础。 参照图 8 , 图 8为本发明交互终端第三实施例的结构示意图。
在本发明交互终端第一实施例和第二实施例的基础上, 该交互终端还包 括:
比对模块 106, 用于比对字符串与其他对话场景对应的关键信息词; 确定及修改模块 107 , 用于确定字符串所符合的对话场景, 并将当前对话 场景修改为该对话场景。
在根据交互终端中所保存的当前对话场景的关键信息词, 判断出该字符 串不符合当前对话场景时, 通过比对模块 106比对该字符串与交互终端中所保 存的其他对话场景对应的关键信息词, 确定及修改模块 107根据比对结果确定 字符串所符合的对话场景, 即当字符串与某一个对话场景的关键信息词相匹 配时, 则确定该字符串符合该对话场景, 同时, 确定及修改模块 107将当前对 话场景修改为字符串所符合的对话场景。
在判断出字符串不符合当前对话场景时, 比对该字符串与交互终端中所 保存的其他对话场景对应的关键信息词, 确定该字符串符合的对话场景, 并 将当前对话场景修改为所确定的对话场景, 进一步提升了人机对话的体验感 , 并进一步保证了能够为用户提供人性化的服务。 本发明进一步还提供一种语音交互的***。
参照图 9, 图 9为本发明语音交互的***第一实施例的结构示意图。
本实施例所提供的语音交互的***, 包括交互终端 100、 语音识别服务器 200和语义解析服务器 300, 其中:
交互终端 100包括:
发送及接收模块 101 ,用于将用户输入的当前语音信息发送至语音识别服 务器, 接收语音识别服务器根据该当前语音信息转换得到的字符串;
判断模块 102, 用于根据保存的当前对话场景的关键信息词, 判断字符串 是否符合当前对话场景;
匹配模块 103 , 用于根据预置的匹配规则和关键信息词, 匹配字符串; 操作模块 104, 用于将匹配后的字符串发送至语义解析服务器,接收到语 义解析服务器根据字符串所返回的操作指令后, 执行该操作指令, 向用户做 出回答;
语音识别服务器 200,用于接收交互终端 100发送的用户输入的当前语音 信息, 将该当前语音信息转换为对应的字符串;
语义解析服务器 300, 用于接收交互终端发送的匹配后的字符串, 解析字 符串对应的语义, 并生成相应的操作指令。
本语音交互的***包括了上述交互终端全部实施例的全部技术方案, 所 达到的技术效果也完全相同, 在此不做赞述。 以上所述仅为本发明的优选实施例, 并非因此限制本发明的专利范围, 凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换, 或直接 或间接运用在其他相关的技术领域, 均同理包括在本发明的专利保护范围。

Claims

权 利 要 求 书
1、 一种语音交互的方法, 其特征在于, 包括步骤:
将用户输入的当前语音信息发送至语音识别服务器, 接收语音识别服务 器根据该当前语音信息转换得到的字符串;
根据保存的当前对话场景的关键信息词, 判断所述字符串是否符合所述 当前对话场景; 若是, 则根据预置的匹配规则和所述关键信息词, 匹配所述 字符串;
将匹配后的所述字符串发送至语义解析服务器, 接收到语义解析服务器 根据所述字符串所返回的操作指令后, 执行该操作指令, 向用户做出回答。
2、根据权利要求 1所述的语音交互的方法, 其特征在于, 预置的匹配规 则包括分词处理、 相似度计算、 匹配方式和补全信息。
3、根据权利要求 2所述的语音交互的方法, 其特征在于, 所述匹配方式 包括精确匹配、 中心匹配和广泛匹配。
4、根据权利要求 1所述的语音交互的方法, 其特征在于, 在所述将用户 输入的当前语音信息发送至语音识别服务器, 接收语音识别服务器根据该当 前语音信息转换得到的字符串的步骤之前, 还包括:
解析用户输入的语音信息, 提取该语音信息中的关键信息词, 将该关键 信息词保存至对应的对话场景中。
5、根据权利要求 4所述的语音交互的方法, 其特征在于, 所述根据预置 的匹配规则匹配所述字符串与所述关键信息词的步骤包括:
计算所述字符串与所述关键信息词的相似度;
根据计算出的相似度以及预置的匹配规则, 判断所述字符串与所述关键 信息词是否完全匹配;
若所述字符串与所述关键信息词部分匹配, 则根据所述关键信息词以及 该字符串缺失的信息, 补全该字符串。
6、根据权利要求 5所述的语音交互的方法, 其特征在于, 所述字符串与 所述关键信息词的相似度通过以下方法计算:
假设上一次语音信息为 A, 当前语音信息为 B, A包含的关键信息词为 Al、 A2、 A3、…、 An, B包含的关键信息词为 Bl、 B2、 B3、…、 Bm, 则 A 和 B的相似度 S ( A, B ) 为:
m a.
)=( "- 1 】+ V"" a.
S(A,B ·- 1 1 )12 .
m n
其中:
ai = max(^(A , BX ), s(Ai , B2 ) · ·· ·· · ^(A , Bm ))
bi = max(s(A1 , β ·· ·· ·· s(An , Bi )) °
7、根据权利要求 6所述的语音交互的方法, 其特征在于, 在所述判断字 符串是否符合所述当前对话场景的步骤之后, 还包括:
若所述字符串不符合所述当前对话场景, 比对该字符串与其他对话场景 对应的关键信息词, 确定所述字符串所符合的对话场景, 并将当前对话场景 ^ίι爹改为该对话场景。
8、 一种交互终端, 其特征在于, 包括:
发送及接收模块, 用于将用户输入的当前语音信息发送至语音识别服务 器, 接收语音识别服务器根据该当前语音信息转换得到的字符串;
判断模块, 用于根据保存的当前对话场景的关键信息词, 判断所述字符 串是否符合所述当前对话场景;
匹配模块, 用于根据预置的匹配规则和所述关键信息词, 匹配所述字符 串;
操作模块, 用于将匹配后的所述字符串发送至语义解析服务器, 接收到 语义解析服务器根据所述字符串所返回的操作指令后, 执行该操作指令, 向 用户做出回答。
9、根据权利要求 8所述的交互终端, 其特征在于, 预置的匹配规则包括 分词处理、 相似度计算、 匹配方式和补全信息。
10、 根据权利要求 9所述的交互终端, 其特征在于, 所述匹配方式包括 精确匹配、 中心匹配和广泛匹配。
11、 根据权利要求 8所述的交互终端, 其特征在于, 还包括:
解析及保存模块, 用于解析用户输入的语音信息, 提取该语音信息中的 关键信息词, 将该关键信息词保存至对应的对话场景中。
12、根据权利要求 11所述的交互终端,其特征在于,所述匹配模块包括: 计算单元, 用于计算所述字符串与所述关键信息词的相似度;
判断单元, 用于根据计算出的相似度以及预置的匹配规则, 判断所述字 符串与所述关键信息词是否完全匹配;
补全单元, 用于根据所述关键信息词以及该字符串缺失的信息, 补全该 字符串。
13、 根据权利要求 12所述的交互终端, 其特征在于, 还包括: 比对模块, 用于比对所述字符串与其他对话场景对应的关键信息词; 确定及修改模块, 用于确定所述字符串所符合的对话场景, 并将当前对 话场景修改为该对话场景。
14、一种语音交互的***, 包括如权利要求 9至 13中任一项所述的交互 终端、 语音识别服务器和语义解析服务器, 其特征在于, 其中:
所述交互终端包括:
发送及接收模块, 用于将用户输入的当前语音信息发送至语音识别服务 器, 接收语音识别服务器根据该当前语音信息转换得到的字符串;
判断模块, 用于根据保存的当前对话场景的关键信息词, 判断所述字符 串是否符合所述当前对话场景;
匹配模块,用于根据预置的匹配规则匹配所述字符串与所述关键信息词; 操作模块, 用于将匹配后的所述字符串发送至语义解析服务器, 接收到 语义解析服务器根据所述字符串所返回的操作指令后, 执行该操作指令, 向 用户做出回答;
所述语音识别服务器, 用于接收所述交互终端发送的用户输入的当前语 音信息, 将该当前语音信息转换为对应的字符串; 所述语义解析服务器, 用于接收所述交互终端发送的匹配后的字符串 , 解析所述字符串对应的语义, 并生成相应的操作指令。
PCT/CN2014/072487 2013-07-31 2014-02-25 语音交互的方法、***以及交互终端 WO2015014122A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310330351.4 2013-07-31
CN201310330351.4A CN103413549B (zh) 2013-07-31 2013-07-31 语音交互的方法、***以及交互终端

Publications (1)

Publication Number Publication Date
WO2015014122A1 true WO2015014122A1 (zh) 2015-02-05

Family

ID=49606552

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/072487 WO2015014122A1 (zh) 2013-07-31 2014-02-25 语音交互的方法、***以及交互终端

Country Status (2)

Country Link
CN (1) CN103413549B (zh)
WO (1) WO2015014122A1 (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413549B (zh) * 2013-07-31 2016-07-06 深圳创维-Rgb电子有限公司 语音交互的方法、***以及交互终端
JP6359327B2 (ja) * 2014-04-25 2018-07-18 シャープ株式会社 情報処理装置および制御プログラム
CN104966513B (zh) * 2014-06-09 2018-09-04 腾讯科技(深圳)有限公司 语言命令处理方法和装置
CN105373527B (zh) * 2014-08-27 2020-11-27 中兴通讯股份有限公司 一种省略恢复方法及问答***
CN104268195A (zh) * 2014-09-19 2015-01-07 三星电子(中国)研发中心 终端中的本地资源的处理方法和装置
CN104464733B (zh) * 2014-10-28 2019-09-20 百度在线网络技术(北京)有限公司 一种语音对话的多场景管理方法及装置
CN104574246A (zh) * 2014-12-22 2015-04-29 百度在线网络技术(北京)有限公司 医疗智能分诊方法、装置及设备
CN104679472A (zh) * 2015-02-13 2015-06-03 百度在线网络技术(北京)有限公司 人机语音交互方法和装置
CN105206266B (zh) * 2015-09-01 2018-09-11 重庆长安汽车股份有限公司 基于用户意图猜测的车载语音控制***及方法
CN105679310A (zh) * 2015-11-17 2016-06-15 乐视致新电子科技(天津)有限公司 一种用于语音识别方法及***
CN105590626B (zh) * 2015-12-29 2020-03-03 百度在线网络技术(北京)有限公司 持续语音人机交互方法和***
CN105912692B (zh) * 2016-04-22 2019-09-27 华讯方舟科技有限公司 一种智能语音对话的方法和装置
CN107644639A (zh) * 2016-07-21 2018-01-30 北京快乐智慧科技有限责任公司 一种语音交互的方法和***
CN106023993A (zh) * 2016-07-29 2016-10-12 西安旭天电子科技有限公司 基于自然语言的机器人控制***及控制方法
CN106228983B (zh) * 2016-08-23 2018-08-24 北京谛听机器人科技有限公司 一种人机自然语言交互中的场景处理方法及***
CN107146622B (zh) * 2017-06-16 2021-02-19 合肥美的智能科技有限公司 冰箱、语音交互***、方法、计算机设备、可读存储介质
CN107274889A (zh) * 2017-06-19 2017-10-20 北京紫博光彦信息技术有限公司 一种根据语音生成业务单据的方法及装置
CN107292109B (zh) * 2017-06-27 2021-04-20 美的集团股份有限公司 饮食规划方法和装置
CN107644641B (zh) * 2017-07-28 2021-04-13 深圳前海微众银行股份有限公司 对话场景识别方法、终端以及计算机可读存储介质
CN110209761B (zh) * 2018-02-07 2021-06-29 刘劲彤 一种物品管理的语音交互方法及***
CN108491517A (zh) * 2018-03-22 2018-09-04 青岛农业大学 一种地域性农业信息服务语音查询终端
CN108597537A (zh) * 2018-04-06 2018-09-28 东莞市华睿电子科技有限公司 一种音频信号相似度检测方法
CN108595423A (zh) * 2018-04-16 2018-09-28 苏州英特雷真智能科技有限公司 一种基于属性区间变化的动态本体结构的语义分析方法
CN108717853B (zh) * 2018-05-09 2020-11-20 深圳艾比仿生机器人科技有限公司 一种人机语音交互方法、装置及存储介质
CN109063090A (zh) * 2018-07-26 2018-12-21 挖财网络技术有限公司 自动化运维管理***
CN110875038A (zh) * 2018-09-03 2020-03-10 蔚来汽车有限公司 意图行为关系的定义方法及意图转换为行为的执行方法
CN110970021B (zh) * 2018-09-30 2022-03-08 航天信息股份有限公司 一种问答控制方法、装置及***
CN111063344B (zh) * 2018-10-17 2022-06-28 青岛海信移动通信技术股份有限公司 一种语音识别方法、移动终端以及服务器
CN109359211B (zh) * 2018-11-13 2024-05-07 平安科技(深圳)有限公司 语音交互的数据更新方法、装置、计算机设备和存储介质
CN111261150A (zh) * 2018-11-30 2020-06-09 阿里巴巴集团控股有限公司 一种人机对话的实现方法及装置
CN109660678A (zh) * 2018-12-07 2019-04-19 深圳前海微众银行股份有限公司 电核***实现方法、***及可读存储介质
CN111312235B (zh) * 2018-12-11 2023-06-30 阿里巴巴集团控股有限公司 一种语音交互方法、装置及***
CN109949816A (zh) * 2019-02-14 2019-06-28 安徽云之迹信息技术有限公司 机器人语音处理方法及装置、云端服务器
CN110086945B (zh) * 2019-04-24 2021-07-20 北京百度网讯科技有限公司 通信方法、服务器、智能设备、服务器、存储介质
CN112002311A (zh) * 2019-05-10 2020-11-27 Tcl集团股份有限公司 文本纠错方法、装置、计算机可读存储介质及终端设备
CN110223697B (zh) * 2019-06-13 2022-04-22 思必驰科技股份有限公司 人机对话方法及***
CN112153213A (zh) * 2019-06-28 2020-12-29 青岛海信移动通信技术股份有限公司 一种确定语音信息的方法和设备
CN110335603A (zh) * 2019-07-12 2019-10-15 四川长虹电器股份有限公司 应用于电视场景的多模态交互方法
CN110211577B (zh) * 2019-07-19 2021-06-04 宁波方太厨具有限公司 终端设备及其语音交互方法
CN112349283B (zh) * 2019-08-09 2024-03-12 杭州九阳小家电有限公司 一种基于用户意图的家电控制方法及智能家电
WO2021087917A1 (zh) * 2019-11-07 2021-05-14 南京阿凡达机器人科技有限公司 基于应用程序控制的语音交互方法、机器人、计算机设备
CN111061857A (zh) * 2019-12-10 2020-04-24 珠海格力电器股份有限公司 菜谱生成方法、装置、电子设备及存储介质
CN111475614B (zh) * 2020-03-09 2023-08-25 百度在线网络技术(北京)有限公司 知识推理对话方法、装置、电子设备和存储介质
CN111881330B (zh) * 2020-08-05 2023-10-27 颐家(上海)医疗养老服务有限公司 居家服务场景自动还原方法及***
CN112188253B (zh) * 2020-09-28 2022-10-28 深圳创维-Rgb电子有限公司 语音控制方法、装置、智能电视和可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1058453A1 (en) * 1998-12-17 2000-12-06 Matsushita Electric Industrial Co., Ltd. Method and apparatus for retrieving desired video and audio scene using voice recognition
CN1855101A (zh) * 2005-04-20 2006-11-01 索尼计算机娱乐公司 会话帮助装置
US7212972B2 (en) * 1999-12-08 2007-05-01 Ddi Corporation Audio features description method and audio video features description collection construction method
CN101329667A (zh) * 2008-08-04 2008-12-24 深圳市大正汉语软件有限公司 多语言语音互译的智能翻译设备及其控制方法
CN101477798A (zh) * 2009-02-17 2009-07-08 北京邮电大学 一种分析和提取设定场景的音频数据的方法
CN103000173A (zh) * 2012-12-11 2013-03-27 优视科技有限公司 一种语音交互方法及装置
CN103413549A (zh) * 2013-07-31 2013-11-27 深圳创维-Rgb电子有限公司 语音交互的方法、***以及交互终端

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7653627B2 (en) * 2005-05-13 2010-01-26 Microsoft Corporation System and method for utilizing the content of an online conversation to select advertising content and/or other relevant information for display
US20080134038A1 (en) * 2006-12-05 2008-06-05 Electronics And Telecommunications Research Interactive information providing service method and apparatus
CN101071418B (zh) * 2007-03-29 2010-06-23 腾讯科技(深圳)有限公司 聊天方法与***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1058453A1 (en) * 1998-12-17 2000-12-06 Matsushita Electric Industrial Co., Ltd. Method and apparatus for retrieving desired video and audio scene using voice recognition
US7212972B2 (en) * 1999-12-08 2007-05-01 Ddi Corporation Audio features description method and audio video features description collection construction method
CN1855101A (zh) * 2005-04-20 2006-11-01 索尼计算机娱乐公司 会话帮助装置
CN101329667A (zh) * 2008-08-04 2008-12-24 深圳市大正汉语软件有限公司 多语言语音互译的智能翻译设备及其控制方法
CN101477798A (zh) * 2009-02-17 2009-07-08 北京邮电大学 一种分析和提取设定场景的音频数据的方法
CN103000173A (zh) * 2012-12-11 2013-03-27 优视科技有限公司 一种语音交互方法及装置
CN103413549A (zh) * 2013-07-31 2013-11-27 深圳创维-Rgb电子有限公司 语音交互的方法、***以及交互终端

Also Published As

Publication number Publication date
CN103413549A (zh) 2013-11-27
CN103413549B (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
WO2015014122A1 (zh) 语音交互的方法、***以及交互终端
US11437041B1 (en) Speech interface device with caching component
KR101768509B1 (ko) 온라인 음성 번역 방법 및 장치
KR100679043B1 (ko) 음성 대화 인터페이스 장치 및 방법
CN109271498B (zh) 面向虚拟机器人的自然语言交互方法及***
KR20170033722A (ko) 사용자의 발화 처리 장치 및 방법과, 음성 대화 관리 장치
WO2018102980A1 (zh) 语音交互方法、装置及***
KR100772660B1 (ko) 대화 관리 장치 및 그를 위한 대화 예제 기반의 대화모델링기법을 통한 대화 관리 방법
CN107909998B (zh) 语音指令处理方法、装置、计算机设备和存储介质
CN110047481B (zh) 用于语音识别的方法和装置
WO2018045646A1 (zh) 基于人工智能的人机交互方法和装置
US20210406473A1 (en) System and method for building chatbot providing intelligent conversational service
TWI588816B (zh) 一種語言交互方法
CN105512228A (zh) 一种基于智能机器人的双向问答数据处理方法和***
JP2020030408A (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
CN111161726B (zh) 一种智能语音交互方法、设备、介质及***
KR20210098880A (ko) 차량용 기기의 음성 처리 방법, 장치, 기기 및 저장 매체
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN111159364A (zh) 对话***、对话装置、对话方法以及存储介质
CN111091819A (zh) 语音识别装置和方法、语音交互***和方法
CN110196927A (zh) 一种多轮人机对话方法、装置及设备
WO2015188454A1 (zh) 一种快速进入ivr菜单的方法及装置
CN111933149A (zh) 语音交互方法、穿戴式设备、终端及语音交互***
CN107621874B (zh) 内容分发方法及***
KR20170048008A (ko) 질의의도를 분석하기 위한 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14832101

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14832101

Country of ref document: EP

Kind code of ref document: A1