CN111640432A - 语音控制方法、装置、电子设备及存储介质 - Google Patents

语音控制方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111640432A
CN111640432A CN202010463288.1A CN202010463288A CN111640432A CN 111640432 A CN111640432 A CN 111640432A CN 202010463288 A CN202010463288 A CN 202010463288A CN 111640432 A CN111640432 A CN 111640432A
Authority
CN
China
Prior art keywords
target
entity
sentence
statement
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010463288.1A
Other languages
English (en)
Other versions
CN111640432B (zh
Inventor
高丛
苏少炜
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202010463288.1A priority Critical patent/CN111640432B/zh
Publication of CN111640432A publication Critical patent/CN111640432A/zh
Application granted granted Critical
Publication of CN111640432B publication Critical patent/CN111640432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种语音控制方法、装置、电子设备及存储介质,属于互联网技术领域。所述方法包括:获取被输入的第一语音信号对应的第一语句,第一语音信号用于控制执行目标任务;从所述第一语句中获取目标推理信息,所述目标推理信息是通过间接方式描述实体的短语;根据所述目标推理信息,获取与所述目标推理信息对应的目标实体;将所述第一语句中的所述目标推理信息替换为所述目标实体,得到第二语句;基于第二语句,执行目标任务。通过上述方法实现了在输入语句通过间接方式给出目标实体的情况下,获取到隐含的目标实体,可以提高语音控制的正确率。

Description

语音控制方法、装置、电子设备及存储介质
技术领域
本公开涉及互联网技术领域,特别涉及一种语音控制方法、装置、电子设备及存储介质。
背景技术
任务型对话有着很广阔的应用场景,比如可以应用在天气查询、机票预订等场景中。其中,任务型对话输入的语音信号通常描述一个指令,需要电子设备识别该语音信号的意图,然后基于该意图执行该指令对应的任务。
其中,意图包括槽位的槽位值,电子设备在识别该语音信号的意图时,需要识别出该语音信号中的实体,然后从实体中识别出槽位的槽位值。当该语音信号中没有通过直接方式给出实体时,智能设备则无法识别出隐含的实体,从而不能正确获取该语音信号的意图以及正确执行该语音信号对应的任务,从而导致语音控制的准确率低。
发明内容
本公开实施例提供了一种语音控制方法、装置、电子设备及存储介质,能够提高语音控制的正确率。所述技术方案如下:
第一方面,提供了一种语音控制方法,所述方法包括:
获取被输入的第一语音信号对应的第一语句,所述第一语音信号用于控制执行目标任务;
从所述第一语句中获取目标推理信息,所述目标推理信息是通过间接方式描述实体的短语;
根据所述目标推理信息,获取与所述目标推理信息对应的目标实体;
将所述第一语句中的所述目标推理信息替换为所述目标实体,得到第二语句;
基于所述第二语句,执行所述目标任务。
在一种可能的实现方式中,所述从所述第一语句中获取目标推理信息,包括:
获取所述第一语句中的实体指称,以及,获取所述第一语句的句法树,所述句法树中包括多个节点以及每个节点之间的语法关系,每个节点对应所述第一语句中的一个词语;
根据所述实体指称和所述句法树,获取所述目标推理信息。
在另一种可能的实现方式中,所述根据所述实体指称和所述句法树,获取所述目标推理信息,包括:
将所述实体指称对应的节点作为所述句法树的第一基础节点;
从所述第一基础节点在所述句法树的相邻节点中,选择第一目标节点,所述第一目标节点对应的第一目标词语与所述实体指称满足目标语法关系,且所述第一目标词语和所述实体指称在所述第一语句中相邻;
将所述第一目标词语与所述实体指称进行拼接,得到所述句法树的第一推理信息;
根据所述第一推理信息,获取所述目标推理信息。
在另一种可能的实现方式中,所述根据所述第一推理信息,获取所述目标推理信息,包括:
将所述第一推理信息对应的节点作为所述句法树的第二基础节点;
响应于所述句法树中所述第二基础节点的相邻节点中存在第二目标节点,将所述第二目标节点对应的第二目标词语与所述第一推理信息进行拼接,得到所述句法树的第二推理信息,根据所述第二推理信息,获取所述目标推理信息,所述第二目标词语与所述第一推理信息满足所述目标语法关系,且所述第二目标词语和所述第一推理信息在所述第一语句中相邻;
响应于所述句法树中所述第二基础节点的相邻节点中不存在所述第二目标节点,将所述第一推理信息作为所述目标推理信息。
在另一种可能的实现方式中,所述获取所述第一语句中的实体指称,包括:
对所述第一语句进行分词处理,得到所述第一语句中的分词;
将所述分词中词性为目标词性的分词作为所述实体指称,或者,将所述分词中类型为第一目标类型的分词作为所述实体指称,或者,将所述分词中与预定义的实体库中的实体匹配的分词作为所述实体指称。
在另一种可能的实现方式中,所述根据所述目标推理信息,获取与所述目标推理信息对应的目标实体,包括:
获取所述目标推理信息中的第一实体和所述第一实体的第一属性关系;
根据所述第一实体和所述第一属性关系,构建查询语句;
通过所述查询语句,查询所述查询语句对应的第一属性值;
将所述第一属性值作为所述目标实体。
在另一种可能的实现方式中,所述根据所述目标推理信息,获取与所述目标推理信息对应的目标实体,包括:
根据所述目标推理信息,从关系语句库中选择与所述目标推理信息相似度最高的目标关系语句;
获取所述目标关系语句对应的第二属性值;
将所述第二属性值作为所述目标实体。
在另一种可能的实现方式中,所述根据所述目标推理信息,从关系语句库中选择与所述目标推理信息相似度最高的目标关系语句,包括:
获取所述目标推理信息对应的第一特征向量和所述关系语句库中的每个关系语句对应的第二特征向量;
根据所述第一特征向量和所述每个关系语句对应的第二特征向量,从所述关系语句库中选择所述目标关系语句。
在另一种可能的实现方式中,所述基于所述第二语句,执行所述目标任务,包括:
获取所述第二语句的意图,所述意图包括槽位的槽位值;
响应于所述槽位值为所述目标实体且所述目标实体的类型为所述槽位对应的第二目标类型,或者响应于所述槽位值为所述目标实体且所述目标实体为预定义的实体库中的实体,根据所述意图执行所述目标任务。
第二方面,提供了一种语音控制装置,所述装置包括:
第一语句获取模块,被配置为获取被输入的第一语音信号对应的第一语句,所述第一语音信号用于控制执行目标任务;
目标推理信息获取模块,被配置为从所述第一语句中获取目标推理信息,所述目标推理信息是通过间接方式描述实体的短语;
目标实体获取模块,被配置为根据所述目标推理信息,获取与所述目标推理信息对应的目标实体;
第二语句获取模块,被配置为将所述第一语句中的所述目标推理信息替换为所述目标实体,得到第二语句;
任务执行模块,被配置为基于所述第二语句,执行所述目标任务。
在一种可能的实现方式中,所述目标推理信息获取模块,还被配置为获取所述第一语句中的实体指称,以及,获取所述第一语句的句法树,所述句法树中包括多个节点以及每个节点之间的语法关系,每个节点对应所述第一语句中的一个词语;根据所述实体指称和所述句法树,获取所述目标推理信息。
在另一种可能的实现方式中,所述目标推理信息获取模块,还被配置为将所述实体指称对应的节点作为所述句法树的第一基础节点;从所述第一基础节点在所述句法树的相邻节点中,选择第一目标节点,所述第一目标节点对应的第一目标词语与所述实体指称满足目标语法关系,且所述第一目标词语和所述实体指称在所述第一语句中相邻;将所述第一目标词语与所述实体指称进行拼接,得到所述句法树的第一推理信息;根据所述第一推理信息,获取所述目标推理信息。
在另一种可能的实现方式中,所述目标推理信息获取模块,还被配置为将所述第一推理信息对应的节点作为所述句法树的第二基础节点;响应于所述句法树中所述第二基础节点的相邻节点中存在第二目标节点,将所述第二目标节点对应的第二目标词语与所述第一推理信息进行拼接,得到所述句法树的第二推理信息,根据所述第二推理信息,获取所述目标推理信息,所述第二目标词语与所述第一推理信息满足所述目标语法关系,且所述第二目标词语和所述第一推理信息在所述第一语句中相邻;响应于所述句法树中所述第二基础节点的相邻节点中不存在所述第二目标节点,将所述第一推理信息作为所述目标推理信息。
在另一种可能的实现方式中,所述目标推理信息获取模块,还被配置为对所述第一语句进行分词处理,得到所述第一语句中的分词;将所述分词中词性为目标词性的分词作为所述实体指称,或者,将所述分词中类型为第一目标类型的分词作为所述实体指称,或者,将所述分词中与预定义的实体库中的实体匹配的分词作为所述实体指称。
在另一种可能的实现方式中,所述目标实体获取模块,还被配置为获取所述目标推理信息中的第一实体和所述第一实体的第一属性关系;根据所述第一实体和所述第一属性关系,构建查询语句;通过所述查询语句,查询所述查询语句对应的第一属性值;将所述第一属性值作为所述目标实体。
在另一种可能的实现方式中,所述目标实体获取模块,还被配置为根据所述目标推理信息,从关系语句库中选择与所述目标推理信息相似度最高的目标关系语句;获取所述目标关系语句对应的第二属性值;将所述第二属性值作为所述目标实体。
在另一种可能的实现方式中,所述目标实体获取模块,还被配置为获取所述目标推理信息对应的第一特征向量和所述关系语句库中的每个关系语句对应的第二特征向量;根据所述第一特征向量和所述每个关系语句对应的第二特征向量,从所述关系语句库中选择所述目标关系语句。
在另一种可能的实现方式中,所述任务执行模块,还被配置为获取所述第二语句的意图,所述意图包括槽位的槽位值;响应于所述槽位值为所述目标实体且所述目标实体的类型为所述槽位对应的第二目标类型,或者响应于所述槽位值为所述目标实体且所述目标实体为预定义的实体库中的实体,根据所述意图执行所述目标任务。
第三方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现上述任一种可能实现方式中的语音控制方法中所执行的操作。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述任一种可能实现方式中的语音控制方法中电子设备执行的操作。
本公开实施例提供的技术方案带来的有益效果是:
在本公开实施例中,获取输入的第一语音信号对应的第一语句,第一语音信号用于控制执行目标任务,通过从第一语句中获取目标推理信息,目标推理信息是通过间接方式描述实体的短语,即首先获取到通过间接方式描述目标实体的短语,然后根据目标推理信息,获取与目标推理信息对应的目标实体,即根据该通过间接方式描述目标实体的短语来获取目标实体,实现了在输入语句未直接给出目标实体的情况下,获取到该隐含的目标实体,然后将第一语句中的目标推理信息替换为目标实体,得到第二语句,基于第二语句,执行目标任务,可以提高语音控制的正确率。上述方法可以应用在任务型对话***中,通过知识推理,使任务型对话***也可以理解目标实体以间接方式描述的句子。并且,上述方法先从第一语句中获取目标推理信息,根据目标推理信息获取对应的目标实体,也即是,在目标推理信息而非整个句子上应用知识推理技术,可以减少计算量和无关语义带来的推理难度。另外,通过对目标推理信息进行知识推理得到精确的实体,相当于为后续的意图识别以及槽位提取进行了消歧操作,从而可以提高语义理解的准确性。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种实施环境的示意图;
图2是本公开实施例提供的一种语音控制方法的流程图;
图3是本公开实施例提供的一种语音控制方法的流程图;
图4是本公开实施例提供的一种句法树的示意图;
图5是本公开实施例提供的一种句法树的示意图;
图6是本公开实施例提供的一种句法树的示意图;
图7是本公开实施例提供的一种语音控制方法的流程图;
图8是本公开实施例提供的一种语音控制装置的框图;
图9是本公开实施例提供的一种电子设备的结构示意图;
图10是本公开实施例提供的一种服务器的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
首先,对说明书中涉及到的专业数据做出解释:
实体指称(Mention):自然语言句子中可能对应知识库中一个实体的词,如句子“我要听B的歌”中的实体指称“B”对应了知识库中的实体<b>。
命名实体识别(Named Entity Recognition,NER):自然语言处理领域的一种任务,给一个句子,识别出句子中的人名、地名等词汇。其中“人名”、“地名”是类型,可自定义。
句法依存分析(Syntactic Parsing):分析句子的句法结构,得到句子中词与词之间的关系,可能的关系有:主谓关系、动宾关系、定中关系、附加关系等。
图1是本公开实施例提供的一种实施环境的示意图。参见图1,该实施环境包括电子设备101和服务器102,电子设备101和服务器102之间通过无线或者有线网络连接。并且,电子设备101上可以安装有服务器102提供服务的目标应用,电子设备101对应的用户可以通过该目标应用实现例如数据传输、消息交互等功能。
电子设备101可以为电脑、手机、平板电脑、智能音箱、智能家居、智能玩具或者其他电子设备。目标应用可以为电子设备101上安装的任一目标应用;并且,目标应用可以为电子设备101操作***中的目标应用,还可以为第三方提供的目标应用。例如,目标应用可以为购物应用、查询应用、社交应用或者音乐应用等。服务器102可以为该目标应用对应的后台服务器。相应的,服务器102可以为购物服务器、查询服务器、社交应用服务器或者音乐服务器等。
电子设备101可以通过目标应用与用户进行语音交互,也即电子设备101可以通过目标应用接收用户的第一语音信号,以及根据第一语音信号执行相应的任务。例如,电子设备101通过查询应用接收用户输入的第一语音信号为“查询莫斯科明天的天气”,电子设备101确定第一语音信号的意图为查询天气,获取第一语音信号所对应的多个实体“莫斯科”、“明天”、“天气”,然后从这多个实体中识别出意图的槽位的槽位值,将槽位值填充到意图的槽位中,得到意图的槽位信息,结合该实例,意图的槽位信息包括:城市:莫斯科、日期:明天。然后电子设备101根据该意图的槽位信息,执行第一语音信号对应的任务。
在很多情况下,第一语音信号中的实体往往不是直接给出的,而是通过短语将目标实体间接描述出来,例如,第一语音信号为“查询俄罗斯首都明天的天气”,其中包含了一个隐含的实体“莫斯科”,电子设备101如果识别不出该隐含的实体,则无法获取意图的准确槽位信息,从而不能正确执行第一语音信号对应的任务。
本公开中提出的语音控制方法则可以准确识别出第一语音信号中隐含的目标实体,电子设备101通过先从第一语音信号对应的第一语句中获取目标推理信息,目标推理信息是通过间接方式描述实体的短语,然后根据目标推理信息获取目标实体,可以避免在识别实体的时候遗漏隐含的实体,结合上述实例,电子设备101先获取第一语音信号对应的第一语句中的目标推理信息“俄罗斯首都”,然后再获取该目标推理信息对应的目标实体“莫斯科”,从而可以得到隐含的目标实体。后续电子设备101将第一语句中的目标推理信息替换为目标实体,得到第二语句,基于第二语句,执行目标任务,可以提高语音控制的正确率。
在上述方案中,电子设备101可以将被输入的第一语音信号发送给服务器102,由服务器102获取第二语句,以及基于第二语句执行目标任务。
图2是本公开实施例提供的一种语音控制方法的流程图。参见图2,该实施例包括:
步骤201:获取被输入的第一语音信号对应的第一语句,第一语音信号用于控制执行目标任务。
步骤202:从第一语句中获取目标推理信息,目标推理信息是通过间接方式描述实体的短语。
步骤203:根据目标推理信息,获取与目标推理信息对应的目标实体。
步骤204:将第一语句中的目标推理信息替换为目标实体,得到第二语句。
步骤205:基于第二语句,执行目标任务。
在一种可能的实现方式中,从第一语句中获取目标推理信息,包括:
获取第一语句中的实体指称,以及,获取第一语句的句法树,句法树中包括多个节点以及每个节点之间的语法关系,每个节点对应第一语句中的一个词语;
根据实体指称和句法树,获取目标推理信息。
在另一种可能的实现方式中,根据实体指称和句法树,获取目标推理信息,包括:
将实体指称对应的节点作为句法树的第一基础节点;
从第一基础节点在句法树的相邻节点中,选择第一目标节点,第一目标节点对应的第一目标词语与实体指称满足目标语法关系,且第一目标词语和实体指称在第一语句中相邻;
将第一目标词语与实体指称进行拼接,得到句法树的第一推理信息;
根据第一推理信息,获取目标推理信息。
在另一种可能的实现方式中,根据第一推理信息,获取目标推理信息,包括:
将第一推理信息对应的节点作为句法树的第二基础节点;
响应于句法树中第二基础节点的相邻节点中存在第二目标节点,将第二目标节点对应的第二目标词语与第一推理信息进行拼接,得到句法树的第二推理信息,根据第二推理信息,获取目标推理信息,第二目标词语与第一推理信息满足目标语法关系,且第二目标词语和第一推理信息在第一语句中相邻;
响应于句法树中第二基础节点的相邻节点中不存在第二目标节点,将第一推理信息作为目标推理信息。
在另一种可能的实现方式中,获取第一语句中的实体指称,包括:
对第一语句进行分词处理,得到第一语句中的分词;
将分词中词性为目标词性的分词作为实体指称,或者,将分词中类型为第一目标类型的分词作为实体指称,或者,将分词中与预定义的实体库中的实体匹配的分词作为实体指称。
在另一种可能的实现方式中,根据目标推理信息,获取与目标推理信息对应的目标实体,包括:
获取目标推理信息中的第一实体和第一实体的第一属性关系;
根据第一实体和第一属性关系,构建查询语句;
通过查询语句,查询查询语句对应的第一属性值;
将第一属性值作为目标实体。
在另一种可能的实现方式中,根据目标推理信息,获取与目标推理信息对应的目标实体,包括:
根据目标推理信息,从关系语句库中选择与目标推理信息相似度最高的目标关系语句;
获取目标关系语句对应的第二属性值;
将第二属性值作为目标实体。
在另一种可能的实现方式中,根据目标推理信息,从关系语句库中选择与目标推理信息相似度最高的目标关系语句,包括:
获取目标推理信息对应的第一特征向量和关系语句库中的每个关系语句对应的第二特征向量;
根据第一特征向量和每个关系语句对应的第二特征向量,从关系语句库中选择目标关系语句。
在另一种可能的实现方式中,基于第二语句,执行目标任务,包括:
获取第二语句的意图,意图包括槽位的槽位值;
响应于槽位值为目标实体且目标实体的类型为槽位对应的第二目标类型,或者响应于槽位值为目标实体且目标实体为预定义的实体库中的实体,根据意图执行目标任务。
在本公开实施例中,获取输入的第一语音信号对应的第一语句,第一语音信号用于控制执行目标任务,通过从第一语句中获取目标推理信息,目标推理信息是通过间接方式描述实体的短语,即首先获取到通过间接方式描述目标实体的短语,然后根据目标推理信息,获取与目标推理信息对应的目标实体,即根据该通过间接方式描述目标实体的短语来获取目标实体,实现了在输入语句未直接给出目标实体的情况下,获取到该隐含的目标实体,然后将第一语句中的目标推理信息替换为目标实体,得到第二语句,基于第二语句,执行目标任务,可以提高语音控制的正确率。上述方法可以应用在任务型对话***中,通过知识推理,使任务型对话***也可以理解目标实体以间接方式描述的句子。并且,上述方法先从第一语句中获取目标推理信息,根据目标推理信息获取对应的目标实体,也即是,在目标推理信息而非整个句子上应用知识推理技术,可以减少计算量和无关语义带来的推理难度。另外,通过对目标推理信息进行知识推理得到精确的实体,相当于为后续的意图识别以及槽位提取进行了消歧操作,从而可以提高语义理解的准确性。
图3是本公开实施例提供的一种语音控制方法的流程图。在本公开实施例中,以电子设备执行语音对应的任务为例进行说明。参见图3,该实施例包括:
步骤301:电子设备获取被输入的第一语音信号对应的第一语句,第一语音信号用于控制执行目标任务。
其中,目标任务是指用户想要电子设备完成的特定的操作,例如,任务是设置闹钟操作、查询天气操作、播放音乐操作或者其他操作,本公开对此不做限制。
该步骤的实现步骤包括:电子设备接收被输入的第一语音信号,对第一语音信号进行自动语音识别(Automatic Speech Recognition,ASR),得到第一语音信号对应的第一语句。例如,第一语音信号为“我要听A的老公唱的歌”,则电子设备识别得到第一语句为文字信息“我要听A的老公唱的歌”。再如,第一语音信号为“查询中国货币对美国的钱的汇率”,则电子设备识别得到第一语句为文字信息“查询中国货币对美国的钱的汇率”。
在本公开实施例中,电子设备通过先对第一语音信号进行语音识别,得到第一语音信号对应的第一语句,方便后续处理。
步骤302:电子设备获取第一语句中的实体指称。
其中,实体指称是指自然语言句子中可能对应知识库中一个实体的词,例如句子“我要听B的歌”中的实体指称“B”对应了知识库中的实体<b>。又如句子“播放C的歌曲‘唯一’”中的实体指称“C”对应了知识库中的实体“C”,实体指称“唯一”对应了知识库中的实体“唯一”。
在一种可能的实现方式中,电子设备获取第一语句中的实体指称的实现步骤可以通过以下步骤(1)和(2)实现,包括:
(1)电子设备对第一语句进行分词处理,得到第一语句中的分词。
电子设备可以通过任一分词工具对第一语句进行分词处理,得到第一语句中的分词;例如,电子设备可以通过分词模型对第一语句进行分词处理,得到第一语句中的分词。相应的,本步骤可以为:电子设备将第一语句输入分词模型,得到分词模型输出的第一语句中的分词。
其中,该分词模型可以为搜狗分词、结巴分词、简易中文分词***(SimpleChinese Words Segmentation,SCWS)、腾讯文智、盘古分词或者其他分词模型,本公开对此不做限制。
例如,电子设备对第一语句“我要听A的老公唱的歌”进行分词处理,得到分词可以包括:“我”、“要”、“听”、“A”、“的”、“老公”、“唱”、“的”、“歌”。再如,电子设备对第一语句“查询中国货币对美国的钱的汇率”进行分词处理,得到分词可以包括:“查询”、“中国”、“货币”、“对”、“美国”、“的”、“钱”、“的”“汇率”。
在本公开实施例中,电子设备通过分词模型对第一语句进行分词处理,来得到第一语句中的分词,分词处理的效率高,从而获取实体指称的效率高。
(2)电子设备将分词中的目标分词作为实体指称。
在一种可能的实现方式中,目标分词可以为词性为目标词性的分词。相应的,本步骤可以为:电子设备将分词中词性为目标词性的分词作为实体指称。其中,目标词性可以预设在电子设备中,并且目标词性可以为任意词性。例如,目标词性为名词,当然目标词性还可以为其他名词,本公开对此不做限制。
例如,以目标词性为名词为例,电子设备从“我”、“要”、“听”、“A”、“的”、“老公”、“唱”、“的”、“歌”中获取第一语句“我要听A的老公唱的歌”中的实体指称包括:“A”、“老公”、“歌”。
在本公开实施例中,通过将分词中词性为目标词性的分词作为实体指称,方法简单,易于实现。
在另一种可能的实现方式中,目标分词可以为类型为第一目标类型的分词。相应的,电子设备将分词中的目标分词作为实体指称的步骤可以为:电子设备将分词中类型为第一目标类型的分词作为实体指称。
在本步骤中,电子设备可以通过命名实体识别(Named Entity Recognition,NER)获取分词中类型为第一目标类型的分词。其中,第一目标类型可以预设在电子设备中,并且第一目标类型可以为任意类型,例如第一目标类型为人名、地名、机构名、专有名词等,当然第一目标类型还可以为其他类型,例如时间,本公开对此不做限制。
例如,以第一目标类型为人名为例,电子设备从“我”、“要”、“听”、“A”、“的”、“老公”、“唱”、“的”、“歌”中获取第一语句“我要听A的老公唱的歌”中的实体指称包括:“A”。
在本公开实施例中,通过将分词中类型为第一目标类型的分词作为实体指称,方法简单,易于实现。
在另一种可能的实现方式中,目标分词可以为分词中与预定义的实体库中的实体匹配的分词。相应的,电子设备将分词中的目标分词作为实体指称的步骤可以为:电子设备将分词中与预定义的实体库中的实体匹配的分词作为实体指称。
电子设备将分词中与预定义的实体库中的实体匹配的分词作为实体指称的实现步骤包括:对于每个分词,电子设备确定预定义的实体库中每个实体与该词语的相似度,根据每个实体与该词语的相似度,确定该预定义的实体库中是否存在与该分词的相似度大于预设阈值的实体,响应于存在,确定该分词为实体指称;响应于不存在,确定该分词不是实体指称。
进一步的,电子设备可以将向量相似度作为两个词语之间的相似度,相应的,电子设备确定预定义的实体库中每个实体与该词语的相似度的步骤包括:对于每个实体,确定该实体对应的第一向量和该分词对应的第二向量,确定该第一向量与第二向量之间的向量相似度,将向量相似度作为该实体与该词语的相似度。
在本公开实施例中,由于实体指称是指自然语言句子中可能对应知识库中一个实体的词,电子设备通过将分词中与预定义的实体库中的实体匹配的分词作为实体指称,可以确保得到的实体指称的准确。
步骤303:电子设备获取第一语句的句法树,该句法树中包括多个节点以及每个节点之间的语法关系,每个节点对应第一语句中的一个词语。
该句法树用于描述第一语句中包括的词语间的关系。电子设备将第一语句分析成一棵句法树,每个节点对应第一语句中的一个词语,且第一语句中词语之间的相对关系决定了词语在句法树的节点的位置,句法树通过树的结构描述出第一语句中各个词语之间的依存关系,也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。
在一种可能的实现方式中,电子设备获取第一语句中的句法树的实现步骤可以包括:电子设备将第一语句输入句法树模型,得到句法树模型输出的第一语句的句法树。其中,句法树模型可以为TreeLSTMs(一种句法树模型)和TBCNNs(另一种句法树模型),当然,句法树模型还可以为其他模型,本公开对此不做限制。通过句法树模型获取第一语句中的句法树,方法简单,易于实现,且可以保证句法树的准确。
例如,第一语句为“我要听A的老公唱的歌”,则电子设备生成第一语句对应的句法树为图4所示。
步骤304:电子设备根据实体指称和句法树,获取目标推理信息。
其中,目标推理信息包括在第一语句中,是通过间接方式描述实体的短语,目标推理信息对应了一个隐含的实体,为了获取到该隐含的实体,需要先从第一语句中获取需要被推理的信息,即目标推理信息。例如,第一语句为“查询俄罗斯首都明天的天气”,则目标推理信息为“俄罗斯首都”,第一语句为“我要听A的老公唱的歌”,则目标推理信息为“A的老公”。
在一种可能的实现方式中,电子设备根据实体指称和句法树获取目标推理信息,包括下述步骤(1)-(3):
(1)电子设备将实体指称对应的节点作为句法树的第一基础节点。
(2)电子设备从第一基础节点在句法树的相邻节点中,选择第一目标节点,电子设备将第一目标节点的对应的第一目标词语与实体指称进行拼接,得到句法树的第一推理信息。
其中,第一目标词语与实体指称满足目标语法关系,且第一目标词语和实体指称在第一语句中相邻,目标语法关系可以包括定中、状中、附加关系中的一种。
(3)电子设备根据第一推理信息,获取目标推理信息。该步骤包括下述(A)-(B):
(A):电子设备将第一推理信息对应的节点作为句法树的第二基础节点,从该第二基础节点在句法树的相邻节点中,搜索第二目标节点,电子设备响应于句法树中第二基础节点的相邻节点中存在第二目标节点,将第二目标节点对应的第二目标词语与第一推理信息进行拼接,得到句法树的第二推理信息,根据第二推理信息,获取目标推理信息。
其中,第二目标词语与第一推理信息满足目标语法关系,且第二目标词语和第一推理信息在第一语句中相邻。
(B):电子设备响应于句法树中第二基础节点的相邻节点中不存在第二目标节点,将第一推理信息作为目标推理信息。
需要说明的一点是,电子设备根据第二推理信息获取目标推理信息的步骤和电子设备根据第一推理信息获取目标推理信息的步骤类似,此处不再赘述。
例如,参考图4,第一语句为“我要听A的老公唱的歌”,电子设备从第一语句中获取的实体指称为“A”,将“A”对应的节点作为句法树的第一基础节点,则相邻节点包括节点1和节点2,其中节点1的词语为“的”,节点2的词语为“老公”,“的”与“A”的关系为附加关系且“的”和“A”在第一语句中相邻,则节点1为第一目标节点,“老公”与“A”的关系为定中关系,但“老公”与“A”在第一语句中不相邻,则节点2不是第一目标节点。电子设备将第一目标节点的词语与实体指称拼接后,得到的第一推理信息为“A的”。
然后电子设备将第一推理信息“A的”对应的节点0和节点1作为句法树的第二基础节点,则相邻节点为节点2,节点2的词语“老公”与“A的”的关系为附加关系,并且第一语句中相邻,则节点2为第二目标节点,电子设备将“老公”和第一推理信息“A的”进行拼接,得到第二推理信息“A的老公”,然后电子设备将第二推理信息“A的老公”对应的节点0、节点1和节点2作为句法树的第三基础节点,则相邻节点为节点3,节点3的词语“唱”与“A的老公”的关系为主谓关系,则节点3不是第三目标节点,则电子设备响应于句法树中第三基础节点的相邻节点中不存在第三目标节点,将第二推理信息“A的老公”作为目标推理信息。
又如,参考图5,第一语句为“查询中国货币对美国的钱的汇率”,电子设备从第一语句中获取的实体指称为“中国”和“美国”,将“中国”和“美国”对应的节点作为句法树的第一基础节点,则相邻节点包括节点2、节点3和节点4,其中节点2的词语为“的”,节点3的词语为“钱”。节点4的词语为“货币”,“的”与“美国”的关系为附加关系且“的”和“美国”在第一语句中相邻,则节点2为第一目标节点,“钱”与“美国”的关系为定中关系,但“钱”与“美国”在第一语句中不相邻,则节点3不是第一目标节点。“货币”与“中国”的关系为定中关系且“货币”与“中国”在第一语句中相邻,则节点4为第一目标节点。电子设备将第一目标节点的词语与实体指称拼接后,得到的第一推理信息包括“美国的”和“中国货币”。
然后电子设备将第一推理信息“美国的”和“中国货币”对应的节点0、节点1、节点2、节点4、作为句法树的第二基础节点,则相邻节点包括节点3和节点5,节点3的词语“钱”与“美国的”的关系为定中关系,且在第一语句中相邻,则节点3是第二目标节点。节点5的词语“汇率”与“中国货币”的关系为定中关系,但在第一语句中不相邻,节点5不是第二目标节点,则电子设备响应于从节点0和节点4的相邻节点中搜索不到第二目标节点,将第一推理信息“中国货币”作为目标推理信息。然后电子设备将“钱”和第一推理信息“美国的”进行拼接,得到第二推理信息“美国的钱”,然后电子设备将第二推理信息“美国的钱”对应的节点1、节点2和节点3、作为句法树的第二基础节点,则相邻节点包括节点6和节点7,节点6的词语“对”与“美国的钱”的关系为介宾关系,则节点6不是第三目标节点,节点7的词语“的”与“美国的钱”的关系为附加关系,且在第一语句中相邻,节点7是第三目标节点,电子设备将“的”与“美国的钱”进行拼接,得到第三推理信息“美国的钱的”。将第三推理信息对应的节点作为第四基础节点,则相邻节点只有节点6,节点6不是第四目标节点,则电子设备响应于句法树中第四基础节点的相邻节点中不存在第四目标节点,将第三推理信息“美国的钱的”作为目标推理信息。从而得到“查询中国货币对美国的钱的汇率”的目标推理信息包括“中国货币”和“美国的钱的”。
再如,参考图6,第一语句为“我要听A老公的歌”,电子设备从第一语句中获取的实体指称为“A”,将“A”对应的节点作为句法树的第一基础节点,则相邻节点为节点1,节点1的词语为“老公”,“老公”与“A”的关系为定中关系且“老公”和“A”在第一语句中相邻,则节点1为第一目标节点,电子设备将第一目标节点的词语与第一基础节点的词语拼接后,得到的第一推理词语为“A老公”。
然后电子设备将第一推理信息“A老公”对应的节点0和节点1作为句法树的第二基础节点,则相邻节点包括节点2和节点3,节点2的词语“的”与“A老公”的关系为附加关系,并且第一语句中相邻,则节点2为第二目标节点,节点3的词语“歌”与“A老公”的关系为定中关系,但“歌”与“A老公”在第一语句中不相邻,则节点3不是第二目标节点,电子设备将“的”和第一推理信息“A老公”进行拼接,得到第二推理信息“A老公的”。然后电子设备将第二推理信息“A老公的”对应的节点0、节点1和节点2作为句法树的第三基础节点,则相邻节点为节点3,节点3的词语“歌”与“A老公的”的关系为定中关系,且“歌”与“A老公的”在第一语义信号中相邻,则节点3是第三目标节点,电子设备将“歌”和第二推理信息“A老公的”进行拼接,得到第三推理信息“A老公的歌”。然后,电子设备将第三推理信息对应的节点作为第四基础节点,则相邻节点只有节点4,且节点4不是第五目标节点,则电子设备响应于句法树中第四基础节点的相邻节点中不存在第四目标节点,将第三推理信息“A老公的歌”作为目标推理信息。
在本公开实施例中,由于目标推理信息是通过间接方式描述目标实体的短语,而句法树描述了句子中各个词语之间的依存关系,指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的,因此,电子设备通过获取第一语句中的实体指称以及获取第一语句的句法树,将实体指称与句法树结合来获取目标推理信息,保证了目标推理信息的准确性。
步骤305:电子设备根据目标推理信息,获取与目标推理信息对应的目标实体。
在一种可能的实现方式中,该步骤的实现步骤包括:电子设备获取目标推理信息中的第一实体和第一实体的第一属性关系;电子设备根据第一实体和第一属性关系构建查询语句;通过查询语句,查询该查询语句对应的第一属性值;电子设备将第一属性值作为目标实体。
其中,电子设备可以通过查询预设的词典来获取目标推理信息中的第一实体和第一实体的第一属性关系,词典用于存储实体以及实体的属性关系。例如,词典中存储的实体包括“A”、“C”、“b”、存储的属性关系包括“丈夫”、“妻子”、“作品-歌曲”、“作品-电影”等。上述实体和属性关系只是实例性说明,本公开对此不做限制。
以目标推理信息为“A老公的歌”为例进行说明,电子设备获取目标推理信息中的第一实体和第一实体的第一属性关系的步骤包括:电子设备通过查询预设的词典得到分词“A”对应词典中的第一实体“A”、分词“老公”对应词典中的第一属性关系“丈夫”、分词“歌”对应词典中的第一属性关系“作品-歌曲”,确定“A老公的歌”包括的第一实体和第一实体的第一属性关系为<A>、<丈夫>、<作品-歌曲>。
电子设备可以从知识图谱中查询查询语句对应的第一属性值。
结合上述实例,电子设备将第一实体<A>和第一属性关系<丈夫>构建为查询语句<A>的<丈夫>,在知识图谱中获取<A>的<丈夫>对应的属性值为<b>,然后电子设备将<b>和<作品-歌曲>构建为查询语句<b>的<作品-歌曲>,在知识图谱中获取<b>的<作品-歌曲>对应的第一属性值包括<稻香>,然后将“稻香”作为目标实体。
在本公开实施例中,电子设备通过获取目标推理信息中的第一实体和第一实体的第一属性关系,根据第一实体和第一属性关系,构建查询语句,通过查询语句获取查询语句对应的第一属性值,将第一属性值作为目标实体,运用了知识图谱的问答技术,方法简单,易于实现。
在另一种可能的实现方式中,电子设备根据目标推理信息,获取与目标推理信息对应的目标实体的步骤包括:电子设备根据目标推理信息从关系语句中选择与目标推理信息的相似度最高的目标关系语句,获取目标关系语句对应的第二属性值,将第二属性值作为目标实体。
其中,关系语句库用于存储多个关系语句,关系语句包括实体和实体的属性关系,关系语句的结构可以为<实体>的<属性关系>,例如,关系语句为“C的妻子”。
电子设备可以预先创建好该关系语句库,电子设备创建该关系语句库的实现步骤可以包括:电子设备获取知识图谱中的所有实体和属性关系,将实体和属性关系按照<实体>的<属性关系>的句式拼接成人造句子,得到关系语句,以及设置关系语句对应的属性值。例如,将知识图谱中的实体“A”和属性关系“丈夫”拼接成关系语句:A的丈夫,设置该关系语句对应的属性值为“b”。又如,将知识图谱中的实体“A”、属性关系“丈夫”和属性关系“作品-歌曲”拼接成关系语句:A的丈夫的歌曲,设置该关系语句对应的属性值为“稻香”。
进一步的,电子设备根据目标推理信息从关系语句中选择与目标推理信息的相似度最高的目标关系语句的实现步骤可以包括:电子设备获取目标推理信息对应的第一特征向量和关系语句库中的每个关系语句对应的第二特征向量;根据第一特征向量和每个关系语句对应的第二特征向量,从关系语句库中选择目标关系语句。
可选的,电子设备可以将目标推理信息和关系语句库中的每个关系语句分别输入特征向量模型,通过特征向量模型生成目标推理信息对应的第一特征向量和每个关系语句对应的第二特征向量。
电子设备根据第一特征向量和每个关系语句对应的第二特征向量,从关系语句库中选择目标关系语句的实现方式可以为:电子设备计算第一特征向量与每个第二特征向量的向量相似度,将向量相似度最高的第二特征向量所对应的关系语句作为目标关系语句。由于向量相似度可以很好地体现文本语句之间的相似度,通过向量相似度来获取目标关系语句,可以保证目标关系语句的准确性。
例如,目标推理信息为“A老公的歌”,电子设备获取的与“A老公的歌”的相似度最高的目标关系语句为“A的丈夫的歌曲”,则电子设备将该目标关系语句对应的第二属性值“稻香”作为目标实体。
需要说明的一点是,本公开是以知识图谱作为示例来说明获取目标实体的过程,其中,知识图谱是作为知识源来使用,当然,知识图谱还可以替换为关系数据库、在线百科等作为知识源,本公开对此不做限制。
需要说明的另一点是,实体的属性关系对应的属性值可以为多个,关系语句对应的第二属性值也可以为多个,例如,关系语句“A的丈夫的歌曲”对应的第二属性值可以包括“稻香”、“七里香”等。相应的,通过上述步骤获取的目标实体可以为多个,例如,获取的与目标推理信息“A老公的歌”对应的目标实体可以包括“稻香”、“七里香”等,本公开对此不做限制。
在本公开实施例中,电子设备通过根据目标推理信息从关系语句中选择与目标推理信息的相似度最高的目标关系语句,获取目标关系语句对应的第二属性值,将第二属性值作为目标实体,方法简单,易于实现。
需要说明的一点是,本公开先获取目标推理信息,通过对目标推理信息进行知识推理,得到隐含的目标实体,引入了知识推理技术,使任务型对话***可以理解目标实体以间接形式表述的句子。并且,通过实体指称识别和句法依存分析构建目标推理信息,在目标推理信息而非整个句子上应用知识推理技术,减少了计算量,降低了无关语义带来的推理难度。
另外,本公开通过对目标推理信息进行知识推理,得到隐含的精确的实体,相当于为后续意图识别和槽位提取做了消歧操作,可以提高意图识别和槽位提取的准确性,进而提高语音控制的正确性。
步骤306:电子设备将第一语句中的目标推理信息替换为目标实体,得到第二语句。
例如,第一语句为“我要听A老公的歌”,目标推理信息为“A老公的歌”,目标推理信息对应的目标实体为“稻香”,则第二语句为“我要听稻香”。
在本公开实施例中,由于目标推理信息是通过间接方式描述目标实体的短语,即目标推理信息实质上对应着该目标实体,电子设备通过将第一语句中的目标推理信息替换为目标实体,得到第二语句,后续获取第二语句的意图,以及根据该意图执行第二语句对应的任务,可以提高语义理解的准确性。
需要说明的一点是,第二语句可以为多个,例如,目标推理信息为“A老公的歌”,目标推理信息对应的目标实体包括“稻香”和“七里香”,则第二语句包括“我要听稻香”和“我要听七里香”。
步骤307:电子设备基于第二语句,执行目标任务。
在一种可能的实现方式中,电子设备获取第二语句的意图,该意图包括槽位的槽位值,电子设备可以直接根据该意图执行目标任务。
电子设备可以预设多个句法规则,且每个句法规则对应一个意图,电子设备根据预设的句法规则获取第二语句的意图,相应的,电子设备获取第二语句的意图的实现步骤包括:电子设备确定第二语句满足的句法规则,将句法规则对应的意图作为第二语句的意图,意图的槽位的槽位值根据句法规则从第二语句中获取。
其中,句法规则可以为“我要听{歌名}”,该句法规则对应的意图为播放音乐,句法规则还可以为“查询{城市}{日期}的天气”,该句法规则对应的意图为查询天气。上述句法规则的格式的只是实例性说明,句法规则还可以为其他格式,本公开对此不做限制。
以第二语句为“我要听稻香”为例进行说明,电子设备确定第二语句满足的句法规则,将句法规则对应的意图作为第二语句的意图的实现步骤可以为:电子设备通过对第二语句“我要听稻香”做句法分析,确定第二语句满足的句法规则为“我要听{歌名}”,将该句法规则对应的意图播放音乐作为第二语句的意图,然后将与槽位歌名对应的实体“稻香”作为该槽位的槽位值。
在本公开实施例中,电子设备通过根据预设的句法规则获取第二语句的意图,方法简单,易于实现。
在另一种可能的实现方式中,电子设备可以通过意图识别模型获取第二语句的意图,相应的,电子设备获取第二语句的意图的实现步骤可以为:电子设备将第二语句输入意图识别模型,得到意图识别模型输出的第二语句的意图,意图的槽位的槽位值通过序列标注模型从第二语句中获取。
在本公开实施例中,电子设备通过意图识别模型获取第二语句的意图,可以极大提高获取意图的效率。
在另一种可能的实现方式中,电子设备可以通过第二语句中的意图关键词获取第二语句的意图,相应的,电子设备获取第二语句的意图的实现步骤可以为:电子设备获取第二语句中的意图关键词和第二语句对应的实体,将该意图关键词对应的意图作为第二语句的意图,从第二语句对应的实体中识别意图的槽位的槽位值。其中,意图关键词可以预设在电子设备中,用于确定语音信号的意图。
例如,电子设备中预设的意图关键词包括“天气”、“播放”、“提醒”,且“天气”对应意图查询天气,“播放”对应意图播放音乐,“提醒”对应意图设置闹铃。以第二语句为“查询莫斯科明天的天气”为例,电子设备获取第二语句的意图的实现步骤可以为:电子设备获取“查询莫斯科明天的天气”中的意图关键词“天气”,以及获取“查询莫斯科明天的天气”对应的实体“莫斯科”和“明天”,将“天气”对应的意图查询天气作为“查询莫斯科明天的天气”的意图,从实体“莫斯科”和“明天”中识别查询天气的槽位城市的槽位值“莫斯科”,以及识别槽位日期的槽位值“明天”。
在本公开实施例中,电子设备通过第二语句中的意图关键词获取第二语句的意图,方法简单,易于实现。
需要说明的一点是,电子设备在获取第二语句的意图之后,要先进行槽位验证,响应于槽位验证通过,根据意图执行目标任务,响应于槽位验证不通过,不执行该意图对应的目标任务。
其中,电子设备进行槽位验证的实现步骤可以包括:电子设备响应于槽位值为目标实体且目标实体的类型为槽位对应的第二目标类型,确定槽位验证通过。或者响应于槽位值为目标实体且目标实体为预定义的实体库中的实体,确定槽位验证通过。
在本公开实施例中,电子设备通过在获取第二语句的意图之后,先进行槽位验证,响应于槽位验证通过,才根据意图执行目标任务,可以提高语音控制的正确率。
电子设备根据意图执行目标任务的实现方式可以为:电子设备将意图的槽位的槽位值作为参数输入到电子设备中存储的交互模型的目标Skill Server(技能服务)模块,通过目标Skill Server模块执行目标任务,其中,目标Skill Server模块是与意图对应的Skill Server模块,用于执行与意图对应的任务。
例如,第一语句为“我要听A老公的歌”,通过上述方法得到该第一语句对应的第二语句为“我要听稻香”,第二语句的意图为播放音乐,槽位信息为:歌名:稻香,该步骤包括:电子设备将“稻香”作为参数输入到第一Skill Server模块,通过第一Skill Server模块执行播放歌曲“稻香”的操作。其中,第一Skill Server模块是与意图播放音乐对应的SkillServer模块。
在本公开实施例中,获取输入的第一语音信号对应的第一语句,第一语音信号用于控制执行目标任务,通过从第一语句中获取目标推理信息,目标推理信息是通过间接方式描述实体的短语,即首先获取到通过间接方式描述目标实体的短语,然后根据目标推理信息,获取与目标推理信息对应的目标实体,即根据该通过间接方式描述目标实体的短语来获取目标实体,实现了在输入语句未直接给出目标实体的情况下,获取到该隐含的目标实体,然后将第一语句中的目标推理信息替换为目标实体,得到第二语句,基于第二语句,执行目标任务,可以提高语音控制的正确率。上述方法可以应用在任务型对话***中,通过知识推理,使任务型对话***也可以理解目标实体以间接方式描述的句子。并且,上述方法先从第一语句中获取目标推理信息,根据目标推理信息获取对应的目标实体,也即是,在目标推理信息而非整个句子上应用知识推理技术,可以减少计算量和无关语义带来的推理难度。另外,通过对目标推理信息进行知识推理得到精确的实体,相当于为后续的意图识别以及槽位提取进行了消歧操作,从而可以提高语义理解的准确性。
图7是本公开实施例提供的一种语音控制方法的流程图。在本公开实施例中,电子设备触发服务器执行语音对应的任务为例进行说明。参见图7,该实施例包括:
步骤701:电子设备接收被输入的第一语音信号,第一语音信号用于控制执行目标任务。
步骤702:电子设备向服务器发送该第一语音信号。
其中,服务器可以为电子设备上安装的目标应用的后台服务器,其中目标应用具有语音交互的功能。
步骤703:服务器接收第一语音信号,获取第一语音信号对应的第一语句。
该步骤的实现方式与步骤301中电子设备的实现方式同理,此处不再赘述。
需要说明的一点是,电子设备也可以获取第一语音信号对应的第一语句,向服务器直接发送第一语句,服务器接收第一语句。
步骤704:服务器获取第一语句中的实体指称以及获取第一语句的句法树,句法树中包括多个节点以及每个节点之间的语法关系,每个节点对应第一语句中的一个词语。
该步骤的实现方式与步骤302和303中电子设备的实现方式同理,此处不再赘述。
步骤705:服务器根据实体指称和句法树获取目标推理信息。
该步骤的实现方式与步骤304中电子设备的实现方式同理,此处不再赘述。
步骤706:服务器根据目标推理信息,获取与目标推理信息对应的目标实体。
该步骤的实现方式与步骤305中电子设备的实现方式同理,此处不再赘述。
步骤707:服务器将第一语句中的目标推理信息替换为目标实体,得到第二语句。
该步骤的实现方式与步骤306中电子设备的实现方式同理,此处不再赘述。
步骤708:服务器基于第二语句,执行目标任务,得到任务结果。
该步骤的实现方式与步骤307中电子设备的实现方式同理,此处不再赘述。例如,第一语音信号为“我要听A老公的歌”,则任务结果为“稻香”的音频文件。
步骤709:服务器向电子设备返回该任务结果。
例如,服务器将“稻香”的音频文件返回给电子设备。
步骤710:电子设备接收该任务结果,输出该任务结果。
电子设备接收“稻香”的音频文件,播放该“稻香”的音频文件。
需要说明的一点,步骤708-710也可以替换为:服务器获取第二语句的意图,意图包括槽位的槽位值,服务器响应于槽位值为目标实体且目标实体的类型为槽位对应的第二目标类型,或者响应于槽位值为目标实体且目标实体为预定义的实体库中的实体,向电子设备发送第二语句的意图。之后,电子设备接收第二语句的意图后,根据该意图执行目标任务。
在本公开实施例中,获取输入的第一语音信号对应的第一语句,第一语音信号用于控制执行目标任务,通过从第一语句中获取目标推理信息,目标推理信息是通过间接方式描述实体的短语,即首先获取到通过间接方式描述目标实体的短语,然后根据目标推理信息,获取与目标推理信息对应的目标实体,即根据该通过间接方式描述目标实体的短语来获取目标实体,实现了在输入语句未直接给出目标实体的情况下,获取到该隐含的目标实体,然后将第一语句中的目标推理信息替换为目标实体,得到第二语句,基于第二语句,执行目标任务,可以提高语音控制的正确率。上述方法可以应用在任务型对话***中,通过知识推理,使任务型对话***也可以理解目标实体以间接方式描述的句子。并且,上述方法先从第一语句中获取目标推理信息,根据目标推理信息获取对应的目标实体,也即是,在目标推理信息而非整个句子上应用知识推理技术,可以减少计算量和无关语义带来的推理难度。另外,通过对目标推理信息进行知识推理得到精确的实体,相当于为后续的意图识别以及槽位提取进行了消歧操作,从而可以提高语义理解的准确性。
图8是本公开实施例提供的一种语音控制装置的流程图。参见图8,该实施例包括:
第一语句获取模块801,被配置为获取被输入的第一语音信号对应的第一语句,第一语音信号用于控制执行目标任务。
目标推理信息获取模块802,被配置为从第一语句中获取目标推理信息,目标推理信息是通过间接方式描述实体的短语。
目标实体获取模块803,被配置为根据目标推理信息,获取与目标推理信息对应的目标实体。
第二语句获取模块804,被配置为将第一语句中的目标推理信息替换为目标实体,得到第二语句。
任务执行模块805,被配置为基于第二语句,执行目标任务。
在一种可能的实现方式中,目标推理信息获取模块802,还被配置为获取第一语句中的实体指称,以及,获取第一语句的句法树,句法树中包括多个节点以及每个节点之间的语法关系,每个节点对应第一语句中的一个词语;根据实体指称和句法树,获取目标推理信息。
在另一种可能的实现方式中,目标推理信息获取模块802,还被配置为将实体指称对应的节点作为句法树的第一基础节点;从第一基础节点在句法树的相邻节点中,选择第一目标节点,第一目标节点对应的第一目标词语与实体指称满足目标语法关系,且第一目标词语和实体指称在第一语句中相邻;将第一目标词语与实体指称进行拼接,得到句法树的第一推理信息;根据第一推理信息,获取目标推理信息。
在另一种可能的实现方式中,目标推理信息获取模块802,还被配置为将第一推理信息对应的节点作为句法树的第二基础节点;响应于句法树中第二基础节点的相邻节点中存在第二目标节点,将第二目标节点对应的第二目标词语与第一推理信息进行拼接,得到句法树的第二推理信息,根据第二推理信息,获取目标推理信息,第二目标词语与第一推理信息满足目标语法关系,且第二目标词语和第一推理信息在第一语句中相邻;响应于句法树中第二基础节点的相邻节点中不存在第二目标节点,将第一推理信息作为目标推理信息。
在另一种可能的实现方式中,目标推理信息获取模块802,还被配置为对第一语句进行分词处理,得到第一语句中的分词;将分词中词性为目标词性的分词作为实体指称,或者,将分词中类型为第一目标类型的分词作为实体指称,或者,将分词中与预定义的实体库中的实体匹配的分词作为实体指称。
在另一种可能的实现方式中,目标实体获取模块803,还被配置为获取目标推理信息中的第一实体和第一实体的第一属性关系;根据第一实体和第一属性关系,构建查询语句;通过查询语句,查询查询语句对应的第一属性值;将第一属性值作为目标实体。
在另一种可能的实现方式中,目标实体获取模块803,还被配置为根据目标推理信息,从关系语句库中选择与目标推理信息相似度最高的目标关系语句;获取目标关系语句对应的第二属性值;将第二属性值作为目标实体。
在另一种可能的实现方式中,目标实体获取模块803,还被配置为获取目标推理信息对应的第一特征向量和关系语句库中的每个关系语句对应的第二特征向量;根据第一特征向量和每个关系语句对应的第二特征向量,从关系语句库中选择目标关系语句。
在另一种可能的实现方式中,任务执行模块805,还被配置为获取第二语句的意图,意图包括槽位的槽位值;响应于槽位值为目标实体且目标实体的类型为槽位对应的第二目标类型,或者响应于槽位值为目标实体且目标实体为预定义的实体库中的实体,根据意图执行目标任务。
在本公开实施例中,获取输入的第一语音信号对应的第一语句,第一语音信号用于控制执行目标任务,通过从第一语句中获取目标推理信息,目标推理信息是通过间接方式描述实体的短语,即首先获取到通过间接方式描述目标实体的短语,然后根据目标推理信息,获取与目标推理信息对应的目标实体,即根据该通过间接方式描述目标实体的短语来获取目标实体,实现了在输入语句未直接给出目标实体的情况下,获取到该隐含的目标实体,然后将第一语句中的目标推理信息替换为目标实体,得到第二语句,基于第二语句,执行目标任务,可以提高语音控制的正确率。上述方法可以应用在任务型对话***中,通过知识推理,使任务型对话***也可以理解目标实体以间接方式描述的句子。并且,上述方法先从第一语句中获取目标推理信息,根据目标推理信息获取对应的目标实体,也即是,在目标推理信息而非整个句子上应用知识推理技术,可以减少计算量和无关语义带来的推理难度。另外,通过对目标推理信息进行知识推理得到精确的实体,相当于为后续的意图识别以及槽位提取进行了消歧操作,从而可以提高语义理解的准确性。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的语音控制装置在进行语音控制时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音控制装置与语音控制方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图9示出了本公开一个示例性实施例提供的电子设备900的结构框图。该电子设备900可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备900还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。
通常,电子设备900包括有:处理器901和存储器902。
处理器901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的语音控制方法。
在一些实施例中,电子设备900还可选包括有:***设备接口903和至少一个***设备。处理器901、存储器902和***设备接口903之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口903相连。具体地,***设备包括:射频电路904、触摸显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。
***设备接口903可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和***设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和***设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路904用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路904包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路904还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏905用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时,显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时,显示屏905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏905可以为一个,设置电子设备900的前面板;在另一些实施例中,显示屏905可以为至少两个,分别设置在电子设备900的不同表面或呈折叠设计;在再一些实施例中,显示屏905可以是柔性显示屏,设置在电子设备900的弯曲表面上或折叠面上。甚至,显示屏905还可以设置成非矩形的不规则图形,也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件906用于采集图像或视频。可选地,摄像头组件906包括前置摄像头和后置摄像头。通常,前置摄像头设置在电子设备的前面板,后置摄像头设置在电子设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路907还可以包括耳机插孔。
定位组件908用于定位电子设备900的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。
电源909用于为电子设备900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,电子设备900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于:加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。
加速度传感器911可以检测以电子设备900建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号,控制触摸显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器912可以检测电子设备900的机体方向及转动角度,陀螺仪传感器912可以与加速度传感器911协同采集用户对电子设备900的3D动作。处理器901根据陀螺仪传感器912采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器913可以设置在电子设备900的侧边框和/或触摸显示屏905的下层。当压力传感器913设置在电子设备900的侧边框时,可以检测用户对电子设备900的握持信号,由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在触摸显示屏905的下层时,由处理器901根据用户对触摸显示屏905的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器914用于采集用户的指纹,由处理器901根据指纹传感器914采集到的指纹识别用户的身份,或者,由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器901授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置电子设备900的正面、背面或侧面。当电子设备900上设置有物理按键或厂商Logo时,指纹传感器914可以与物理按键或厂商Logo集成在一起。
光学传感器915用于采集环境光强度。在一个实施例中,处理器901可以根据光学传感器915采集的环境光强度,控制触摸显示屏905的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏905的显示亮度;当环境光强度较低时,调低触摸显示屏905的显示亮度。在另一个实施例中,处理器901还可以根据光学传感器915采集的环境光强度,动态调整摄像头组件906的拍摄参数。
接近传感器916,也称距离传感器,通常设置在电子设备900的前面板。接近传感器916用于采集用户与电子设备900的正面之间的距离。在一个实施例中,当接近传感器916检测到用户与电子设备900的正面之间的距离逐渐变小时,由处理器901控制触摸显示屏905从亮屏状态切换为息屏状态;当接近传感器916检测到用户与电子设备900的正面之间的距离逐渐变大时,由处理器901控制触摸显示屏905从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图9中示出的结构并不构成对电子设备900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图10是本公开实施例提供的一种服务器的结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)1001和一个或一个以上的存储器1002,其中,所述存储器1002中存储有至少一条指令,所述至少一条指令由所述处理器1001加载并执行以实现上述语音控制方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备中的处理器执行以完成下述实施例中语音控制方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (12)

1.一种语音控制方法,其特征在于,所述方法包括:
获取被输入的第一语音信号对应的第一语句,所述第一语音信号用于控制执行目标任务;
从所述第一语句中获取目标推理信息,所述目标推理信息是通过间接方式描述实体的短语;
根据所述目标推理信息,获取与所述目标推理信息对应的目标实体;
将所述第一语句中的所述目标推理信息替换为所述目标实体,得到第二语句;
基于所述第二语句,执行所述目标任务。
2.根据权利要求1所述的方法,其特征在于,所述从所述第一语句中获取目标推理信息,包括:
获取所述第一语句中的实体指称,以及,获取所述第一语句的句法树,所述句法树中包括多个节点以及每个节点之间的语法关系,每个节点对应所述第一语句中的一个词语;
根据所述实体指称和所述句法树,获取所述目标推理信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述实体指称和所述句法树,获取所述目标推理信息,包括:
将所述实体指称对应的节点作为所述句法树的第一基础节点;
从所述第一基础节点在所述句法树的相邻节点中,选择第一目标节点,所述第一目标节点对应的第一目标词语与所述实体指称满足目标语法关系,且所述第一目标词语和所述实体指称在所述第一语句中相邻;
将所述第一目标词语与所述实体指称进行拼接,得到所述句法树的第一推理信息;
根据所述第一推理信息,获取所述目标推理信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一推理信息,获取所述目标推理信息,包括:
将所述第一推理信息对应的节点作为所述句法树的第二基础节点;
响应于所述句法树中所述第二基础节点的相邻节点中存在第二目标节点,将所述第二目标节点对应的第二目标词语与所述第一推理信息进行拼接,得到所述句法树的第二推理信息,根据所述第二推理信息,获取所述目标推理信息,所述第二目标词语与所述第一推理信息满足所述目标语法关系,且所述第二目标词语和所述第一推理信息在所述第一语句中相邻;
响应于所述句法树中所述第二基础节点的相邻节点中不存在所述第二目标节点,将所述第一推理信息作为所述目标推理信息。
5.根据权利要求2所述的方法,其特征在于,所述获取所述第一语句中的实体指称,包括:
对所述第一语句进行分词处理,得到所述第一语句中的分词;
将所述分词中词性为目标词性的分词作为所述实体指称,或者,将所述分词中类型为第一目标类型的分词作为所述实体指称,或者,将所述分词中与预定义的实体库中的实体匹配的分词作为所述实体指称。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标推理信息,获取与所述目标推理信息对应的目标实体,包括:
获取所述目标推理信息中的第一实体和所述第一实体的第一属性关系;
根据所述第一实体和所述第一属性关系,构建查询语句;
通过所述查询语句,查询所述查询语句对应的第一属性值;
将所述第一属性值作为所述目标实体。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标推理信息,获取与所述目标推理信息对应的目标实体,包括:
根据所述目标推理信息,从关系语句库中选择与所述目标推理信息相似度最高的目标关系语句;
获取所述目标关系语句对应的第二属性值;
将所述第二属性值作为所述目标实体。
8.根据权利要求7所述的方法,其特征在于,所述根据所述目标推理信息,从关系语句库中选择与所述目标推理信息相似度最高的目标关系语句,包括:
获取所述目标推理信息对应的第一特征向量和所述关系语句库中的每个关系语句对应的第二特征向量;
根据所述第一特征向量和所述每个关系语句对应的第二特征向量,从所述关系语句库中选择所述目标关系语句。
9.根据权利要求1所述的方法,其特征在于,所述基于所述第二语句,执行所述目标任务,包括:
获取所述第二语句的意图,所述意图包括槽位的槽位值;
响应于所述槽位值为所述目标实体且所述目标实体的类型为所述槽位对应的第二目标类型,或者响应于所述槽位值为所述目标实体且所述目标实体为预定义的实体库中的实体,根据所述意图执行所述目标任务。
10.一种语音控制装置,其特征在于,所述装置包括:
第一语句获取模块,被配置为获取被输入的第一语音信号对应的第一语句,所述第一语音信号用于控制执行目标任务;
目标推理信息获取模块,被配置为从所述第一语句中获取目标推理信息,所述目标推理信息是通过间接方式描述实体的短语;
目标实体获取模块,被配置为根据所述目标推理信息,获取与所述目标推理信息对应的目标实体;
第二语句获取模块,被配置为将所述第一语句中的所述目标推理信息替换为所述目标实体,得到第二语句;
任务执行模块,被配置为基于所述第二语句,执行所述目标任务。
11.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至权利要求9任一项所述的语音控制方法所执行的操作。
12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的语音控制方法所执行的操作。
CN202010463288.1A 2020-05-27 2020-05-27 语音控制方法、装置、电子设备及存储介质 Active CN111640432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010463288.1A CN111640432B (zh) 2020-05-27 2020-05-27 语音控制方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010463288.1A CN111640432B (zh) 2020-05-27 2020-05-27 语音控制方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111640432A true CN111640432A (zh) 2020-09-08
CN111640432B CN111640432B (zh) 2023-09-15

Family

ID=72332385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010463288.1A Active CN111640432B (zh) 2020-05-27 2020-05-27 语音控制方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111640432B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581955A (zh) * 2020-11-30 2021-03-30 广州橙行智动汽车科技有限公司 语音控制方法、服务器、语音控制***和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170185673A1 (en) * 2015-12-25 2017-06-29 Le Holdings (Beijing) Co., Ltd. Method and Electronic Device for QUERY RECOMMENDATION
CN107590130A (zh) * 2017-09-30 2018-01-16 北京三快在线科技有限公司 场景确定方法及装置、存储介质和电子设备
CN110659366A (zh) * 2019-09-24 2020-01-07 Oppo广东移动通信有限公司 语义解析方法、装置、电子设备以及存储介质
CN110704479A (zh) * 2019-09-12 2020-01-17 新华三大数据技术有限公司 任务处理方法、装置、电子设备及存储介质
CN110909126A (zh) * 2019-11-01 2020-03-24 深圳前海微众银行股份有限公司 一种信息查询方法及装置
CN110990526A (zh) * 2019-11-21 2020-04-10 腾讯科技(深圳)有限公司 一种查询语句展示方法及相关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170185673A1 (en) * 2015-12-25 2017-06-29 Le Holdings (Beijing) Co., Ltd. Method and Electronic Device for QUERY RECOMMENDATION
CN107590130A (zh) * 2017-09-30 2018-01-16 北京三快在线科技有限公司 场景确定方法及装置、存储介质和电子设备
CN110704479A (zh) * 2019-09-12 2020-01-17 新华三大数据技术有限公司 任务处理方法、装置、电子设备及存储介质
CN110659366A (zh) * 2019-09-24 2020-01-07 Oppo广东移动通信有限公司 语义解析方法、装置、电子设备以及存储介质
CN110909126A (zh) * 2019-11-01 2020-03-24 深圳前海微众银行股份有限公司 一种信息查询方法及装置
CN110990526A (zh) * 2019-11-21 2020-04-10 腾讯科技(深圳)有限公司 一种查询语句展示方法及相关设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581955A (zh) * 2020-11-30 2021-03-30 广州橙行智动汽车科技有限公司 语音控制方法、服务器、语音控制***和可读存储介质
CN112581955B (zh) * 2020-11-30 2024-03-08 广州橙行智动汽车科技有限公司 语音控制方法、服务器、语音控制***和可读存储介质

Also Published As

Publication number Publication date
CN111640432B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN110556127B (zh) 语音识别结果的检测方法、装置、设备及介质
CN111933112B (zh) 唤醒语音确定方法、装置、设备及介质
WO2022057435A1 (zh) 基于搜索的问答方法及存储介质
CN108922531B (zh) 槽位识别方法、装置、电子设备及存储介质
CN111524501A (zh) 语音播放方法、装置、计算机设备及计算机可读存储介质
CN111324699A (zh) 语义匹配的方法、装置、电子设备及存储介质
CN111428079B (zh) 文本内容处理方法、装置、计算机设备及存储介质
CN112052354A (zh) 视频推荐方法、视频展示方法、装置及计算机设备
WO2019223393A1 (zh) 生成歌词、显示歌词的方法、装置、电子设备及存储介质
CN112289302B (zh) 音频数据的合成方法、装置、计算机设备及可读存储介质
CN114333774A (zh) 语音识别方法、装置、计算机设备及存储介质
CN113220590A (zh) 语音交互应用的自动化测试方法、装置、设备及介质
CN110837557B (zh) 摘要生成方法、装置、设备及介质
CN111640432B (zh) 语音控制方法、装置、电子设备及存储介质
CN112764600A (zh) 资源处理方法、装置、存储介质及计算机设备
CN113593521B (zh) 语音合成方法、装置、设备及可读存储介质
CN111125424B (zh) 提取歌曲核心歌词的方法、装置、设备及存储介质
CN114328815A (zh) 文本映射模型的处理方法、装置、计算机设备及存储介质
CN109635153B (zh) 迁移路径生成方法、装置及存储介质
CN112487162A (zh) 确定文本语义信息的方法、装置、设备以及存储介质
CN111737423B (zh) 领域识别方法、装置、电子设备及存储介质
CN111524533B (zh) 语音操作方法、装置、电子设备及存储介质
CN111259161B (zh) 本体建立方法、装置及存储介质
CN108446276B (zh) 确定歌单关键词的方法和装置
CN113761150A (zh) 实体抽取方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant