CN108074565A - 语音指令跳转与详细指令执行的方法和*** - Google Patents

语音指令跳转与详细指令执行的方法和*** Download PDF

Info

Publication number
CN108074565A
CN108074565A CN201611038268.XA CN201611038268A CN108074565A CN 108074565 A CN108074565 A CN 108074565A CN 201611038268 A CN201611038268 A CN 201611038268A CN 108074565 A CN108074565 A CN 108074565A
Authority
CN
China
Prior art keywords
instruction
entity
text
detailed instructions
text instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611038268.XA
Other languages
English (en)
Inventor
庞子龙
曹磊
王子剑
严武
李震川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Connaught Intelligent Technology Co Ltd
Original Assignee
Shanghai Connaught Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Connaught Intelligent Technology Co Ltd filed Critical Shanghai Connaught Intelligent Technology Co Ltd
Priority to CN201611038268.XA priority Critical patent/CN108074565A/zh
Publication of CN108074565A publication Critical patent/CN108074565A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种语音指令跳转与详细指令执行的方法(200),该方法包括:采用语音识别技术将用户语音指令翻译为文本(201);使用字典方法对所述文本指令进行分词(202);分别使用训练好的语法结构深度神经网络模型和语言实体深度神经网络模型对经分词之后的文本指令的语法结构和语言实体进行分析,其中根据预先设定的语法和实体模式从所述经分析的文本指令中寻找并提取特定指令要素(203);根据提取的特定指令要素跳转至期望的用户界面以及进行详细指令执行(204)。此外本发明还涉及一种语音指令跳转与详细指令执行的***。

Description

语音指令跳转与详细指令执行的方法和***
技术领域
本发明涉及语音指令处理领域,具体地涉及一种语音指令跳转与详细指令执行方法和***。
背景技术
众所周知,iPhone搭载的Siri可以让用户能够直接通过语音与iPhone手机进行简单的交流完成简单的手机指令;而Android***的Voice Action也具有类似的功能,但它对用户指令要求较为严格,更加死板。
在专利文献103839549A(“一种语音指令控制方法及***”)中公开了使用文本匹配的方法执行语音指令,然而这种方法太过死板,用户只能通过***既定的指令名称来执行指令,而不能达到通过自然语言控制指令的水平。
在专利文献104992709A(“一种语音指令的执行方法及语音识别装置”)中在语音指令识别方面与上述文献103839549A中所公开的类似,也是通过预设语音指令进行指令执行的。
专利文献105070288A(“车载语音指令识别方法和装置”)中所公开的内容与上述两者不同,其中公开了使用一个DNN(深度神经网络)确定用户的情绪,再将情绪与上下文场景结合推断用户意图,根据用户意图为用户选择需要的指令执行,这种方法将情绪与上下文结合纳入语音指令执行,但基于情绪的意图理解具有一定不确定性,误差也可能较大。
发明内容
本发明提出一种语音指令跳转与详细指令执行的方法,该方法包括:采用语音识别技术将用户语音指令翻译为文本指令;使用字典方法对所述文本指令进行分词;分别使用训练好的语法结构深度神经网络模型和语言实体深度神经网络模型对经分词之后的文本指令的语法结构和语言实体进行分析,其中根据预先设定的语法和实体模式从所述经分析的文本指令中寻找并提取特定指令要素;根据提取的特定指令要素跳转至期望的用户界面以及进行详细指令执行。
本发明主要构思在于,采用DNN对用户自然语言指令进行语法分析和语言实体识别,并结合语法与实体内容实现具有粗略指令跳转和详细指令执行的方法和语音指令***,以便能够更好地投入各种实际应用中。
其中,自动分词的基本算法主要分为两大类:基于频度统计的分词方法和基于词典的分词方法。优选地,本发明采用的是基于词典的分词方法,基于词典的分词方法是以词典为基础对语句通过匹配进行切分。
优选地,在基于词典的分词方法进行分词中采用正向最大匹配分词法。所谓的最大匹配,就是要求每一句的分词结果中的词汇总量最少,又分为增字和减字匹配法。由于增字匹配法需要一种特殊的词典结构支持才能达到较高的分词效率,所以在本发明的一个优选实施形式中采用减字匹配法。
在本发明的一个优选实施形式中,在对文本指令的语法结构进行分析及语言实体进行识别的过程中,将文本指令与预先设定的语法和实体模式进行对比,从而找到适合的相应语法和实体模式,随后根据要素提取模式提取所述特定指令要素。
此外有利地,在如上所述提取所述特定指令要素之后,如果还具有其他指令要素,那么自动对指令界面内容进行填充。
其中有利地,根据经验及收集的用户交流数据预先设定大量的语法匹配模式、实体匹配模式以及要素提取模式。
此外本发明还提出一种语音指令跳转与详细指令执行的***,包括:
翻译单元,用于采用语音识别技术将用户语音指令翻译为文本指令;
分词单元,用于使用字典方法对所述文本指令进行分词;
提取单元,用于分别使用训练好的语法结构DNN模型和语言实体DNN模型对经分词之后的文本指令的语法结构和语言实体进行分析,其中根据预先设定的语法和实体模式从所述经分析的文本指令中寻找并提取特定指令要素;
跳转单元,用于根据提取的特定指令要素跳转至期望的用户界面以及进行详细指令执行。
与本发明所述的***相比,当前语音指令***均通过关键词实现模糊指令的执行,缺少对语法的分析,无法完成详细指令调用。
总之,相比于现有技术,本发明的构思在于,使用预先训练的DNN模型解析出用户指令的语法结构,同时使用DNN模型识别出用户指令中关键的语言实体,并且结合语法结构与语言实体的模式,为用户实现更加灵活、精准、自然的指令跳转功能,同时本发明可以通过语法结构与语言实体模式实现功能跳转后详细指令执行,即解析并执行指令参数,实现详细指令的执行。
本发明至少具有以下两个优点:
1.指令执行更为细化:现有大多数语音指令的方法中,仅仅根据用户固定的语言指令匹配既定的关键词进行指令跳转或执行,而本发明的指令执行***还能够有效的提取用户自然语言中与指令相关的要素信息,可以让用户只说一句话就直接为其生成一个最为完善的指令,或者填充一些指令要素,指令内容更加细化,用户使用更加便捷。
2.使用深度神经网络对语法分析及实体的识别,方法具有更强的智能性和适应性。深度网络具有自学习的特性,在经过大量的文本训练后具有更高的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅描述本发明的一部分实施例。这些附图对于本发明来说并不是限制性的,而是起示例性的作用。其中:
图1示意地示出按照本发明的方法的示意流程图;
图2示意地示出DNN-parser网络结构;
图3示意地示出分词后的文本指令之间的依赖关系;
图4示意地示出通过DNN-NER模型进行要素提取的示意图;
图5示意地示出按照本发明的***的方框图。
具体实施形式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施形式,都属于本公开保护的范围。
图1示意地示出按照本发明的方法的示意流程图。下面结合一个具体实施例详细描述按照本发明的方法。在方法步骤201中,采用语音识别技术将用户语音指令翻译为文本指令,具体来说,在该例子中,首先用户通过麦克风或者智能手机按住发音键说话可以发出指令。
在方法步骤202中,对文本指令进行分词,具体来说,通过语音识别***将用户发出的中文指令转换为中文文本之后,再使用基于词典的分词方法对中文文本分词。
在方法步骤203中,分别使用训练好的语法结构DNN模型(结构如图2,输入词向量、POS标签、arc标签,多个隐层使用立方激活函数,输出使用softmax层)和语言实体DNN模型(输入词向量,隐层使用四层栈式自编码神经网络结构,输出使用softmax层)对经分词之后的文本指令的语法结构和语言实体进行分析,其中根据预先设定的语法和实体模式从所述经分析的文本指令中寻找并提取特定指令要素。
其中,预先训练两个DNN模型:用于语法分析的DNN-parser和用于命名实体识别的DNN-NER。
图2示意地示出DNN-parser网络结构。其中采集大量的文本语句、分词、词性标注及词语依赖标签。在分词之后采用每一个词语的词向量表示、词性标注(POS标签)(如NN,NNP,NNS,DT,JJ等等)以及arc标签作为网络的输入。
这样,训练好的模型能够在输入一个分词完成的句子后,快速的输出各词之间的依赖关系,示例性地如图3所述那样。例如在图3中,语法依赖关系为:
SUB(要-2,我-1)
root(ROOT-0,要-2)
VMOD(交-5,给-3)
PMOD(给-3,张三-4)
VC(要-2,交-5)
AMOD(元-7,300-6)
VMOD(交-5,元-7)
OBJ(交-5,话费-8)。
对于图3中的这句指令“我要给张三转账300元”,图4示意地示出通过DNN-NER模型对其进行要素提取的示意图。具体来说,DNN-NER模型可以识别金额、人名、地点、功能名、***、电话号码、邮箱等关键命名实体。只要向DNN-NER模型中输入一句话,便可以提取出关键的实体及实体类型,比如输入如图3中所述的“我要给张三转账300元”,那么通过DNN-NER模型可以提取出:人名=我,人名=张三,功能=转账,金额=(300)元,如图4所示。
随后,根据预先设计的语法模式和实体模式提取出文本指令成分中所含有的特定的比如重要的指令要素。如在图3和4中所述的文本指令“我要给张三转账300元”,首先可以根据实体识别模式找到人名:“我”、人名:“张三”;功能:“转账”;以及金额:“元”,然后通过语法依赖模式中“元”与“300”的AMOD关系找到完整的转账金额“300元”。
最后在方法步骤204中,根据提取的特定指令要素跳转至期望的用户界面以及进行详细指令执行。亦即具体来说,在该例子中跳转进入转账页面,再将“我”、“张三”、“300元”依据转账页面的情况转换为数字或者***填入相应的表单中。
具体来说,***会根据要素的完整性在不同情况下执行指令跳转、详细指令执行或指令表单填写等,如下表所示:
如果要素完整性比较低,可能只会执行页面跳转,如表格第一行中的“我要开户”;相比之下,如果要素完整性比较高,可能会执行页面跳转之后直接执行详细指令,如表格中的第三行“我要给手机13323432534充50块话费”。
通过使用按照本发明方法中的指令跳转基于语法及实体识别模式匹配,从而区别于现有关键词匹配的方法,深度挖掘词语、句子的真实语义意图。因此指令执行准确率高。
此外本发明还涉及一种相应的语音指令跳转与详细指令执行的***10,用于实现按照本发明的语音指令跳转与详细指令执行的方法。
在图5中示意地示出一种按照本发明的语音指令跳转与详细指令执行***10的方框图。
在图5中,***10包括:
翻译单元101,用于采用语音识别技术将用户语音指令翻译为文本指令;
分词单元102,用于对所述文本指令进行分词;
提取单元103,用于分别使用训练好的语法结构DNN模型和语言实体DNN模型对经分词之后的文本指令的语法结构和语言实体进行分析,其中根据预先设定的语法和实体模式从所述经分析的文本指令中寻找并提取特定指令要素;
跳转单元104,用于根据提取的特定指令要素跳转至期望的用户界面以及进行详细指令执行。
关于按照本发明的***10的详细特征可以参照前述对按照本发明提出的方法200的描述,反之亦然。
对所提出的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。应当理解,以上实施例中所公开的特征,除了有特别说明的情形外,都可以单独地或者相结合地使用。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本文所公开的本发明并不局限于所公开的具体实施例,而是意在涵盖如所附权利要求书所限定的本发明的精神和范围之内的修改。

Claims (7)

1.一种语音指令跳转与详细指令执行的方法(200),该方法包括:
采用语音识别技术将用户语音指令翻译为文本指令(201);
使用字典方法对所述文本指令进行分词(202);
分别使用训练好的语法结构深度神经网络模型和语言实体深度神经网络模型对经分词之后的文本指令的语法结构和语言实体进行分析,其中根据预先设定的语法和实体模式从所述经分析的文本指令中寻找并提取特定指令要素(203);
根据提取的特定指令要素跳转至期望的用户界面以及进行详细指令执行(204)。
2.根据权利要求1所述的方法,其中,在所述分词(202)步骤中采用正向最大匹配分词法。
3.根据权利要求2所述的方法,其中,正向最大匹配分词法中采用减字匹配法。
4.根据权利要求1所述的方法,其中,将所述文本指令与所述预先设定的语法和实体模式进行对比,找到适合的相应语法和实体模式,随后根据要素提取模式提取所述特定指令要素。
5.根据权利要求1或4所述的方法,其中,在提取所述特定指令要素之后,如果还具有其他指令要素,那么自动对指令界面内容进行填充。
6.根据权利要求4所述的方法,其中,根据经验及收集的用户交流数据预先设定大量的语法匹配模式、实体匹配模式以及要素提取模式。
7.一种语音指令跳转与详细指令执行的***(10),包括:
翻译单元(101),用于采用语音识别技术将用户语音指令翻译为文本指令;
分词单元(102),用于使用字典方法对所述文本指令进行分词;
提取单元(103),用于分别使用训练好的语法结构深度神经网络模型和语言实体深度神经网络模型对经分词之后的文本指令的语法结构和语言实体进行分析,其中根据预先设定的语法和实体模式从所述经分析的文本指令中寻找并提取特定指令要素;
跳转单元(104),用于根据提取的特定指令要素跳转至期望的用户界面以及进行详细指令执行。
CN201611038268.XA 2016-11-11 2016-11-11 语音指令跳转与详细指令执行的方法和*** Pending CN108074565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611038268.XA CN108074565A (zh) 2016-11-11 2016-11-11 语音指令跳转与详细指令执行的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611038268.XA CN108074565A (zh) 2016-11-11 2016-11-11 语音指令跳转与详细指令执行的方法和***

Publications (1)

Publication Number Publication Date
CN108074565A true CN108074565A (zh) 2018-05-25

Family

ID=62161321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611038268.XA Pending CN108074565A (zh) 2016-11-11 2016-11-11 语音指令跳转与详细指令执行的方法和***

Country Status (1)

Country Link
CN (1) CN108074565A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874438A (zh) * 2019-11-19 2020-03-10 中国银行股份有限公司 功能导航方法及装置
CN111292742A (zh) * 2020-01-14 2020-06-16 京东数字科技控股有限公司 数据处理方法、装置、电子设备和计算机存储介质
CN113205817A (zh) * 2021-07-06 2021-08-03 明品云(北京)数据科技有限公司 语音语义识别方法、***、设备及介质
CN113808587A (zh) * 2021-11-17 2021-12-17 南京隆远电气技术有限公司 一种语音指令自主识别算法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629246A (zh) * 2012-02-10 2012-08-08 北京百纳信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN105869640A (zh) * 2015-01-21 2016-08-17 上海墨百意信息科技有限公司 识别针对当前页面中的实体的语音控制指令的方法和装置
US20160259775A1 (en) * 2015-03-08 2016-09-08 Speaktoit, Inc. Context-based natural language processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629246A (zh) * 2012-02-10 2012-08-08 北京百纳信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法
CN105869640A (zh) * 2015-01-21 2016-08-17 上海墨百意信息科技有限公司 识别针对当前页面中的实体的语音控制指令的方法和装置
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
US20160259775A1 (en) * 2015-03-08 2016-09-08 Speaktoit, Inc. Context-based natural language processing
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王渊卓: ""面向家庭服务机器人的中文指令深层信息识别***"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
王玉美 等: ""基于改进的BP网络的语法分析***设计"", 《计算机应用研究》 *
王聪: ""家庭服务机器人中文语音指令解析器的研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874438A (zh) * 2019-11-19 2020-03-10 中国银行股份有限公司 功能导航方法及装置
CN110874438B (zh) * 2019-11-19 2023-04-07 中国银行股份有限公司 功能导航方法及装置
CN111292742A (zh) * 2020-01-14 2020-06-16 京东数字科技控股有限公司 数据处理方法、装置、电子设备和计算机存储介质
CN113205817A (zh) * 2021-07-06 2021-08-03 明品云(北京)数据科技有限公司 语音语义识别方法、***、设备及介质
CN113205817B (zh) * 2021-07-06 2021-12-07 明品云(北京)数据科技有限公司 语音语义识别方法、***、设备及介质
CN113808587A (zh) * 2021-11-17 2021-12-17 南京隆远电气技术有限公司 一种语音指令自主识别算法

Similar Documents

Publication Publication Date Title
CN109918680B (zh) 实体识别方法、装置及计算机设备
CN106649825B (zh) 语音交互***及其创建方法和装置
CN106598939B (zh) 一种文本纠错方法及装置、服务器、存储介质
CN108074565A (zh) 语音指令跳转与详细指令执行的方法和***
WO2018153213A1 (zh) 一种多语言混合语音识别方法
CN106484664A (zh) 一种短文本间相似度计算方法
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN105869640B (zh) 识别针对当前页面中的实体的语音控制指令的方法和装置
CN104008091A (zh) 一种基于情感值的网络文本情感分析方法
CN105261358A (zh) 用于语音识别的n元文法模型构造方法及语音识别***
CN110457689A (zh) 语义处理方法及相关装置
CN105045919B (zh) 一种信息输出方法及装置
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN106528538A (zh) 智能识别情绪的方法及装置
CN110377908A (zh) 语义理解方法、装置、设备及可读存储介质
CN107665188B (zh) 一种语义理解方法及装置
CN110070872A (zh) 一种基于智能语音识别的物流填单方法
CN110019698A (zh) 一种医学问答的智能服务方法及***
CN109977398A (zh) 一种特定领域的语音识别文本纠错方法
CN110032736A (zh) 一种文本分析方法、装置及存储介质
CN107480118A (zh) 文本编辑方法及装置
CN109032731A (zh) 一种面向操作***的基于语义理解的语音互动方法及***
CN111126061A (zh) 对联信息生成方法和装置
CN110225210A (zh) 基于通话摘要自动填写工单方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180525