CN111897511A - 一种语音绘图方法、装置、设备及存储介质 - Google Patents

一种语音绘图方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111897511A
CN111897511A CN202010758970.3A CN202010758970A CN111897511A CN 111897511 A CN111897511 A CN 111897511A CN 202010758970 A CN202010758970 A CN 202010758970A CN 111897511 A CN111897511 A CN 111897511A
Authority
CN
China
Prior art keywords
instruction
voice
keyword
keywords
drawing operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010758970.3A
Other languages
English (en)
Inventor
苗同亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202010758970.3A priority Critical patent/CN111897511A/zh
Publication of CN111897511A publication Critical patent/CN111897511A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提出一种语音绘图方法、装置、设备及存储介质,该方法包括:从语音绘图指令中,提取得到绘图关键词,所述绘图关键词为描述绘图操作的词语;基于所述绘图关键词的文本特征,确定与所述绘图关键词对应的绘图操作指令;执行所述绘图操作指令,以绘制图形。上述处理过程,实现了语音绘图指令中的绘图关键词与绘图操作指令之间的自动匹配及映射,通过执行上述处理过程,能够根据绘图者发出的语音绘图指令自动绘图,从而能够提升绘图者绘图效率,以及提升绘图体验。

Description

一种语音绘图方法、装置、设备及存储介质
技术领域
本申请涉及智能控制技术领域,尤其涉及一种语音绘图方法、装置、设备及存储介质。
背景技术
现有的绘图方法大部分为手工绘图方法,需要绘图者执行大量的绘图操作,绘图过程比较繁琐,给绘图者带来很多不便。
随着语音控制技术的不断发展,基于语音控制的各种产品不断提升我们的生活和办公效率。如果能够使绘图者通过语音进行绘图,将大大提升绘图效率,提升绘图者绘图体验。
发明内容
基于上述技术现状,本申请提出一种语音绘图方法、装置、设备及存储介质,意在使用户通过语音进行绘图,从而提升绘图效率,提升用户绘图体验。
为了达到上述目的,本申请具体提出如下技术方案:
一种语音绘图方法,包括:
从语音绘图指令中,提取得到绘图关键词,所述绘图关键词为描述绘图操作的词语;
基于所述绘图关键词的文本特征,确定与所述绘图关键词对应的绘图操作指令;其中,所述绘图操作指令为用于绘制预设的图形模板库中的、与所述绘图关键词匹配的图形的指令;
执行所述绘图操作指令,以绘制图形。
可选的,所述从语音绘图指令中,提取得到绘图关键词,包括:
对语音绘图指令进行语音识别处理,得到绘图指令文本;
从所述绘图指令文本中提取得到绘图关键词。
可选的,所述从所述绘图指令文本中提取得到绘图关键词,包括:
通过对所述绘图指令文本进行语法成分分析处理,从所述绘图指令文本中提取得到绘图语法结构,其中,所述绘图语法结构为表示绘图操作的语法结构;
分别提取所述绘图语法结构的各语法成分对应的文本内容的关键词,作为绘图关键词。
可选的,所述通过对所述绘图指令文本进行语法成分分析处理,从所述绘图指令文本中提取得到绘图语法结构,包括:
根据所述语音绘图指令的产生场景,对所述绘图指令文本进行语法成分分析处理,得到所述绘图指令文本的语法成分;
根据所述绘图指令文本的语法成分,以及所述语音绘图指令的产生场景,从所述绘图指令文本中提取得到与所述语音绘图指令的产生场景相匹配的绘图语法结构。
可选的,在从语音绘图指令中,提取得到绘图关键词后,所述方法还包括:
判断提取得到的绘图关键词是否包含了完整的绘图操作信息;所述完整的绘图操作信息,至少包括能够表示一次完整的绘图操作的最少的信息;
如果没有包含完整的绘图操作信息,则与发出所述语音绘图指令的对象进行交互,并从与所述对象的交互数据中提取绘图关键词,直至提取得到的绘图关键词包含了完整的绘图操作信息。
可选的,所述判断提取得到的绘图关键词是否包含了完整的绘图操作信息,包括:
根据提取得到的绘图关键词,确定与所述语音绘图指令对应的绘图内容;
根据提取得到的绘图关键词,以及与所述语音绘图指令对应的绘图内容,判断提取得到的绘图关键词是否包含了用于绘制所述绘图内容的完整的绘图操作信息。
可选的,所述基于所述绘图关键词的文本特征,确定与所述绘图关键词对应的绘图操作指令,包括:
将所述绘图关键词,输入预先训练的绘图指令映射模型,确定与所述绘图关键词对应的绘图操作指令;
其中,所述绘图指令映射模型,能够基于绘图关键词与绘图操作指令之间的对应关系,确定与输入的绘图关键词对应的绘图操作指令。
可选的,所述方法还包括:
在从语音绘图指令中,提取得到绘图关键词之前,根据历史绘图操作,预测并提示本次绘图操作的绘图内容;
当满足预设的绘图操作确认条件时,绘制提示的绘图内容;其中,所述预设的绘图操作确认条件,包括在提示所述本次绘图操作的绘图内容之后的设定时长内,没有接收到语音绘图指令。
可选的,所述根据历史绘图操作,预测并提示本次绘图操作的绘图内容,包括:
根据历史绘图操作,确定用户绘图习惯信息;
根据用户绘图习惯信息,以及前一次绘图操作的绘图内容,预测并提示本次绘图操作的绘图内容。
可选的,所述根据用户绘图习惯信息,以及前一次绘图操作的绘图内容,预测并提示本次绘图操作的绘图内容,包括:
根据用户绘图习惯信息、前一次绘图操作的绘图内容的类别和/或名称,以及前一次绘图操作的绘图内容所属的组织架构模型,预测并提示本次绘图操作的绘图内容。
可选的,在获取语音绘图指令之前,所述方法还包括:
输出预设的图例模板和/或输出绘图引导信息。
可选的,在从语音绘图指令中,提取得到绘图关键词之前,所述方法还包括:
从采集的语音数据中,识别目标用户发出的语音绘图指令。
一种语音绘图装置,包括:
关键词提取单元,用于从语音绘图指令中,提取得到绘图关键词,所述绘图关键词为描述绘图操作的词语;
指令确定单元,用于基于所述绘图关键词的文本特征,确定与所述绘图关键词对应的绘图操作指令;其中,所述绘图操作指令为用于绘制预设的图形模板库中的、与所述绘图关键词匹配的图形的指令;
指令执行单元,用于执行所述绘图操作指令,以绘制图形。
一种语音绘图设备,包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中的程序,实现上述的语音绘图方法。
一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的语音绘图方法。
采用本申请提出的语音绘图方法,当采集到绘图者发出的语音绘图指令时,从语音绘图指令中提取得到绘图关键词,然后基于提取的绘图关键词的文本特征,确定与绘图关键词对应的绘图操作指令,最后通过执行该绘图操作指令,实现绘制图形的目的。上述处理过程,实现了语音绘图指令中的绘图关键词与绘图操作指令之间的自动匹配及映射,通过执行上述处理过程,能够根据绘图者发出的语音绘图指令自动绘图,从而能够提升绘图者绘图效率,以及提升绘图体验。
进一步的,上述的语音绘图方法,能够根据语音绘图指令中的绘图关键词,确定用于绘制预设的图形模板库中的、与所述绘图关键词匹配的图形的绘图操作指令,执行该绘图操作指令,能够快速绘制出用户所需绘制的图形,例如可以基于用户一条语音绘图指令,一步绘制出图形框架、图形主体结构等,从而可以大幅提高用户绘图效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的一种语音绘图方法的流程示意图;
图2是本申请实施例提供的另一种语音绘图方法的流程示意图;
图3是本申请实施例提供的又一种语音绘图方法的流程示意图;
图4是本申请实施例提供的语音绘制的一种组织架构图的示意图;
图5是本申请实施例提供的一种语音绘图装置的结构示意图;
图6是本申请实施例提供的一种语音绘图设备的结构示意图。
具体实施方式
本申请实施例技术方案适用于绘图场景,尤其是在电子设备上的绘图场景,例如计算机绘图、平板绘图等。采用本申请实施例技术方案,绘图者只需要发出语音绘图指令,即可实现基于绘图者语音绘图指令的自动绘图,从而能够提升绘图效率,以及提升绘图者绘图体验。
本申请实施例技术方案可应用于具有语音采集功能的智能设备,例如计算机、智能手机、平板电脑、专业作图设备等,也可以应用于处理器等硬件处理设备,或者,还可以被编写为应用程序而被运行。当硬件设备执行本申请实施例技术方案,或者基于本申请实施例提出的语音绘图方法编写的软件程序被运行时,可以实现基于绘图者语音绘图指令的自动绘图处理。在后文的介绍中,以智能设备为执行主体,示例性地介绍本申请提出的语音绘图方法的处理过程,但是,应当理解的是,本申请实施例并不限定本申请提出的语音绘图方法的实现方式,除本申请实施例介绍的实现方式之外,任意的可以实现本申请提出的语音绘图方法的处理过程的实现方式,均在本申请实施例保护范围之内。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提出一种语音绘图方法,该方法可应用于具有语音采集功能的智能设备,例如计算机、智能手机、平板电脑、专业作图设备等。参见图1所示,该方法包括:
S101、从语音绘图指令中,提取得到绘图关键词。
其中,所述绘图关键词为描述绘图操作的词语。
具体的,上述的语音绘图指令,是指绘图者使用智能设备进行电子绘图时,口语发出的绘图指令语音。例如,“绘制一个圆”、“新建一个四行三列的表格”等语音指令,均可作为语音绘图指令。
当具有语音采集功能的智能设备工作于绘图模式时,会实时采集绘图者发出的语音绘图指令。当获取到语音绘图指令时,对该语义绘图指令进行解析,从中提取得到绘图关键词。
其中,上述的绘图关键词,是指描述绘图操作的词语,例如,对于绘图者发出的“新建一个四行三列的表格”这一语音绘图指令,智能设备通过对其进行解析,从中提取出“新建”、“四行三列”、“表格”三个绘图关键词。可以理解,基于该三个绘图关键词,可以表示一次完整的绘图操作,该操作即为新建表格的操作。
作为示例性的实现方式,智能设备在获取到语音绘图指令后,通过从语音绘图指令中检测与绘图操作相关的动词和名词等词语成分,实现绘图关键词的提取。
例如,当智能设备获取“新建一个四行三列的表格”这一语音绘图指令时,从该指令中检测与绘图操作相关的动词、名词、名词定语,最终检测到“新建”、“表格”和“四行三列”三个绘图关键词。
S102、基于所述绘图关键词的文本特征,确定与所述绘图关键词对应的绘图操作指令。
具体的,上述的绘图关键词的文本特征,是指能够用于表示绘图关键词的特征信息,例如可以是绘图关键词的特征向量、各个绘图关键词的组合特征等,或者也可以是绘图关键词的文本内容本身。
上述的绘图操作指令,是指智能设备可识别的计算机操作指令,其具体可以是指令代码的形式,也可以是绘图函数的形式,或者是绘图操作符的形式。该绘图操作指令,可以被智能设备识别及执行。可以理解,该绘图操作指令被智能设备执行时,可以实现与绘图操作指令对应的绘图操作。
在智能设备内部或者外设的存储装置中,存储着所有的绘图操作指令,基于存储的绘图操作指令,可以实现任意场景、任意类型的绘图操作。本申请实施例预先确定绘图关键词的文本特征,与绘图操作指令之间的对应关系,当从语音绘图指令中提取得到绘图关键词时,根据提取得到的绘图关键词的文本特征,从存储的所有绘图操作指令中,检索得到与绘图关键词的文本特征对应的绘图操作指令。
需要说明的是,基于绘图关键词的文本特征而确定的绘图操作指令,可以是一条指令,也可以是多条指令,当为多条指令时,多条指令构成绘图指令集。
作为优选的实现方式,在本申请实施例中,上述的基于绘图关键词的文本特征,确定的与绘图关键词对应的绘图操作指令,是用于绘制预设的图形模板库中的、与所述绘图关键词匹配的图形的指令。
本申请实施例预先设置图形模板库,在该图形模板库中,存储着预设的图形模板,例如组织架构图、流程图、数据流图等。
同时,本申请实施例预先确定与上述图形模板库中的各个图形对应的绘图操作指令,并将其存储到用于存储绘图操作指令的存储装置中。
可以理解,根据图形模板库中的图形的复杂程度,与图形对应的操作指令可以是一条或多条。本申请实施例中所述的用于绘制预设的图形模板库中的图形的指令,是指用于绘制图像的所有指令。
当从用户发出的语音绘图指令中提取到绘图关键词后。本申请实施例首先从预设的图形模板库中,确定出与提取到的绘图关键词匹配的图形,然后,从绘图操作指令存储装置中,读取与该图形对应的所有绘图操作指令,作为与提取到的绘图关键词对应的绘图操作指令。
S103、执行所述绘图操作指令,以绘制图形。
具体的,智能设备通过执行所确定出的绘图操作指令,即可实现与绘图操作指令对应的绘图操作,绘制出相应图形。
例如,智能设备执行与“新建”、“四行三列”、“表格”三个绘图关键词对应的绘图操作指令,即可绘制出一个四行三列的表格。
示例性的,智能设备根据确定的绘图操作指令生成宏命令之后,执行该绘图操作指令,即可实现绘图操作。
通过上述介绍可见,采用本申请实施例提出的语音绘图方法,当采集到绘图者发出的语音绘图指令时,从语音绘图指令中提取得到绘图关键词,然后基于提取的绘图关键词的文本特征,确定与绘图关键词对应的绘图操作指令,最后通过执行该绘图操作指令,实现绘制图形的目的。上述处理过程,实现了语音绘图指令中的绘图关键词与绘图操作指令之间的自动匹配及映射,通过执行上述处理过程,能够根据绘图者发出的语音绘图指令自动绘图,从而能够提升绘图者绘图效率,以及提升绘图体验。
进一步的,上述的语音绘图方法,能够根据语音绘图指令中的绘图关键词,确定用于绘制预设的图形模板库中的、与所述绘图关键词匹配的图形的绘图操作指令,执行该绘图操作指令,能够快速绘制出用户所需绘制的图形,例如可以基于用户一条语音绘图指令,一步绘制出图形框架、图形主体结构等,从而可以大幅提高用户绘图效率。
作为一种可选的实现方式,上述的从语音绘图指令中,提取得到绘图关键词,包括:
首先,对语音绘图指令进行语音识别处理,得到绘图指令文本。
示例性的,当对语音绘图指令进行语音识别处理之前,本申请实施例还对语音绘图指令进行预处理,包括降噪处理、静音切除处理等。
经过上述预处理之后,对语音绘图指令进行语音识别处理,识别该语音绘图指令对应的文本内容,得到绘图指令文本。
然后,从所述绘图指令文本中提取得到绘图关键词。
具体的,对于上述的绘图指令文本进行与绘图操作相关的关键词提取处理,即可提去得到绘图关键词。
示例性的,上述的从所述绘图指令文本中提取得到绘图关键词,具体可通过执行步骤SS10~SS11实现:
SS10、通过对所述绘图指令文本进行语法成分分析处理,从所述绘图指令文本中提取得到绘图语法结构。
其中,所述绘图语法结构为表示绘图操作的语法结构。
具体的,通过对绘图指令文本进行语法成分分析处理,可以确定绘图指令文本包含的各语法成分,例如可确定绘图指令文本中包含的主语、谓语、宾语、定语、状语、补语等语法成分,以及各语法成分对应的文本内容。
例如,对“新建一个四行三列的表格”进行语法成分分析处理,可以确定其中包含谓语“新建”、宾语“表格”和定语“一个”、“四行三列”。
基于对绘图指令文本的语法成分分析结果,从绘图指令文本中提取表示绘图操作的语法结构,得到绘图语法结构。
上述的绘图语法结构,是指由于绘图相关的语法成分构成的语法结构。例如,对“新建一个四行三列的表格”进行语法成分分析处理,确定其中包含的谓语“新建”、宾语“表格”和定语“一个”、“四行三列”后,在从各语法成分中,提取与绘图操作相关的语法成分,例如“新建”、“四行三列”、“表格”,可以得到绘图语法结构“新建/四行三列/表格”。
通常情况下,绘图语法结构由主语、谓语、宾语构成,有些情况下也可以没有主语,或者还具有定语等。
作为一种优选的实现方式,由于语音绘图指令的产生场景不同时,该语音绘图指令所表示的意义不同,因此,本申请实施例在对语音绘图指令进行语法成分分析处理时,结合语音绘图指令的产生场景而执行。
例如,在通讯录操作场景下“我想要添加张三的电话”表示用户想要将张三的电话号码存储到通讯录;但是在绘图操作场景中,“我想要添加张三的电话”则可能表示用户想要创建一个电话图形,该电话图形表示张三的电话;亦或者,在文本输入场景下,“我想要添加张三的电话”则可能表示用户想要添加“张三的电话”这几个文本字符。
可见,当产生绘图语音指令的场景不同时,绘图语音指令表示的实际意义不同。因此,对语音绘图指令对应的绘图指令文本进行语法成分分析时参考产生语音绘图指令的场景,有利于更加准确地确定绘图指令文本的语义,进而实现更准确的语法成分分析。
另一方面,当产生语音绘图指令的场景不同时,该语音绘图指令对应的绘图指令文本所表示的绘图操作的类型也可能不同。
因此,当从绘图指令文本的各语法成分中提取绘图语法结构时,本申请实施例以绘图指令文本的语法成分,以及该语音绘图指令的产生场景为依据,从绘图指令文本中提取得到与语音绘图指令的产生场景相匹配的绘图语法结构。
其中,与语音绘图指令的产生场景相匹配的绘图语法结构,是指能够表示与语音绘图指令的产生场景相匹配的绘图操作对应的绘图语法结构。
按照上述方式提取得到的绘图语法结构,能够与产生语音绘图指令的场景相匹配,并且符合绘图者在该场景下的绘图操作。
SS11、分别提取所述绘图语法结构的各语法成分对应的文本内容的关键词,作为绘图关键词。
具体的,针对从绘图指令文本中提取得到的绘图语法结构,分别提取该绘图语法结构的每个语法成分对应的文本内容的关键词,作为绘图关键词。
其中,与每个语法成分对应的文本内容的关键词,可以是语法成分对应的文本内容本身。
例如,假设从绘图指令文本中提取得到的绘图语法结构为“红色线条/绘制/红色三角形”,提取各语法成分的关键词,可以得到绘图关键词“红线”、“绘制”、“三角形”。
作为一种示例性的处理方式,参见图2所示,本申请实施例还提出,当从语音绘图指令中提取得到绘图关键词后,还执行步骤S202、判断提取得到的绘图关键词是否包含了完整的绘图操作信息。
所述完整的绘图操作信息,至少包括能够表示一次完整的绘图操作的最少的信息。
具体的,在绘图操作中,通常需要明确绘图位置、绘图线条宽度、线条颜色、线型,以及绘图尺寸等各种参数信息。但是,在用户单句语音绘图指令中,可能并不会完整地包含所有的参数信息。此时,无法基于用户单句语音绘图指令执行绘图操作。
因此,当从获取的语音绘图指令中提取得到绘图关键词后,本申请实施例首次判断提取得到的绘图关键词是否包含了完整的绘图操作信息,该完整的绘图操作信息,具体包括能够表示一次完整的绘图操作的最少的信息。
其中,能够表示一次完整的绘图操作的最少的信息,是指能够表示一次绘图操作的最不可缺少的信息,例如绘制位置、大小、形状等。
如果从语音绘图指令中提取得到的绘图关键词包含了完整的绘图操作信息,那么可以直接执行步骤S204、基于所述绘图关键词的文本特征,确定与所述绘图关键词对应的绘图操作指令。
如果从语音绘图指令中提取得到的绘图关键词没有包含完整的绘图操作信息,则执行步骤S203、与发出所述语音绘图指令的对象进行交互,并从与所述对象的交互数据中提取绘图关键词,直至提取得到的绘图关键词包含了完整的绘图操作信息。
具体的,当从绘图语音指令中提取得到的绘图关键词没有包含完整的绘图操作信息时,通过与发出该语音绘图指令的对象进行交互,使该对象发出更多的语音绘图指令,并不断地从该对象发出的各语音绘图指令中提取绘图关键词,并返回步骤S202判断提取得到的绘图关键词是否包含了完整的绘图操作信息;如果没有,则再次执行步骤S203,直到从该对象发出的众多语音绘图指令中,提取得到包含完整的绘图操作信息的绘图关键词。
例如,假设绘图者第一次发出语音绘图指令“绘制一个圆”,则可以提取得到绘图关键词“绘制”“圆”。但是,并不知道在什么位置,绘制一个多大半径的圆,因此该语音绘图指令中的绘图关键词没有包含完整的绘图操作信息。
此时,输出与该绘图者的交互信息“请确定在什么位置绘制一个圆”。
绘图者基于该交互信息,第二次发出语音绘图指令“圆心在(1,1)位置处”。
此时,根据该语音绘图指令,可以确定绘图关键词“圆心在(1,1)”,即确定了绘制圆的位置。但是还不能确定绘制的圆的大小。
此时再次输出与绘图者的交互信息“请问所需绘制的圆的半径是多大”。
绘图者基于该交互信息,第三次发出语音绘图指令“半径为3厘米”。
此时,根据该语音绘图指令,可以确定绘图关键词“半径3厘米”。
截至此时,总共提取得到绘图关键词“绘制”、“圆”、“圆心在(1,1)”、“半径3厘米”这4个绘图关键词,基于这4个绘图关键词,可以明确绘制圆的位置、大小,也就是明确了绘制一个圆的完整的绘图操作信息,此时,可以继续执行步骤S204,即实施后续的绘图处理。
其中,上述的与发出语音绘图指令的对象的交互过程,可以是文本交互过程,也可以是语音交互过程,还可以是文本与语音相结合的交互过程。
图2所示的方法实施例中的步骤S201、S204、S205分别与图1所示的方法实施例中的步骤S101、S102、S103,其具体处理内容请参见图1所示的方法实施例的内容,此处不再赘述。
作为一种示例性的实现方式,上述的判断提取得到的绘图关键词是否包含了完整的绘图操作信息,具体可按照如下方式处理:
首先,根据提取得到的绘图关键词,确定与所述语音绘图指令对应的绘图内容。
具体的,根据提取得到的绘图关键词,至少应当确定与该语音绘图指令对应的绘图内容。
例如,假设语音绘图指令为“绘制一个圆”,则根据从中提取得到的绘图关键词“绘制”、“圆”,可以确定与该语音绘图指令对应的绘图内容为“圆”。
然后,根据提取得到的绘图关键词,以及与所述语音绘图指令对应的绘图内容,判断提取得到的绘图关键词是否包含了用于绘制所述绘图内容的完整的绘图操作信息。
具体的,根据上述确定的绘图内容,可以确定绘制该绘图内容所需的绘图操作信息,例如当需要绘制一个圆时,需要知道圆心位置,以及圆的半径。
因此,基于与上述语音绘图指令对应的绘图内容,以及从上述语音绘图指令中提取得到的绘图关键词,可以判断提取得到的绘图关键词是否包含了用于绘制该绘图内容的完整的绘图操作信息。
例如,假设获取的语音绘图指令为“绘制一个圆”,从中提取得到的绘图关键词为“绘制”、“圆”,但是,绘制“圆”需要明确绘制的圆心位置和圆的半径,但是在提取得到的绘图关键词中,显然不包括表示圆心位置和圆的半径的关键词,因此可以确定提取得到的绘图关键词没有包含用于绘制圆的完整的绘图操作信息。
作为一种可选的实现方式,上述的基于所述绘图关键词的文本特征,确定与所述绘图关键词对应的绘图操作指令,具体包括:
将所述绘图关键词,输入预先训练的绘图指令映射模型,确定与所述绘图关键词对应的绘图操作指令;
其中,所述绘图指令映射模型,能够基于绘图关键词与绘图操作指令之间的对应关系,确定与输入的绘图关键词对应的绘图操作指令。
具体的,本申请实施例预先训练绘图指令映射模型,用于基于绘图关键词与绘图操作指令之间的对应关系,确定与绘图关键词对应的绘图操作指令。
该绘图指令映射模型的训练过程包括:
获取大量的语音数据,包括绘图者的语音数据,以及其他场景内的语音数据。对获取的语音数据进行语音识别和语义分析处理,提取绘图语法结构,以及绘图语法结构中的关键词,将语法结构中的关键词及其对应的绘图操作指令,输入构建的绘图指令映射模型,实现对该模型的反复训练,直至其可以自动输出与输入的关键词对应的绘图操作指令。
具体的,在训练过程中,如果输入的关键词命中已知关键词,则直接将该已知关键词对应的绘图操作指令,作为与输入的关键词对应的绘图操作指令。并增加该关键词与该绘图操作指令之间的匹配权重。
相反,如果输入的关键词为未知关键词,则此时模型无法确定与该关键词对应的绘图操作指令,此时,需要用户自行通过其他辅助工具手动绘图,相应的,该模型记录用户绘图动作,尤其是记录用户绘图过程中触发的各绘图操作指令,从而确定与该关键词对应的绘图操作指令。
需要说明的是,在上述训练过程中,当用户发出的语音绘图指令中包含的绘图关键词没有包含完整的绘图操作信息时,与用户进行交互,并从交互内容中提取绘图关键词,直到提取得到的绘图关键词包含了完整的绘图操作信息。然后再训练、识别包含完整的绘图操作信息的绘图关键词与绘图操作指令之间的对应关系。
进一步的,作为优选的实现方式,参见图3所示,本申请实施例还提出,在从语音绘图指令中,提取得到绘图关键词之前,首先执行步骤S301、根据历史绘图操作,预测并提示本次绘图操作的绘图内容。
具体的,上述的历史绘图操作,是指当前绘图者在本次绘图操作之前所执行的绘图操作。
可以理解,对于某一绘图者来说,其在某次绘图过程中,或者在历次绘图过程中,各个绘图操作之间可能具有相互联系。
例如,假设用户正在绘制一幅流程图,则当用户上一次绘制完成一个流程框之后,该用户在本次绘制中,很可能会再绘制一个流程框,因此,可以预见,流程框是本次绘图操作的绘图内容。
在用户绘图过程中,如果能够根据用户历史绘图操作,自动预测并提示本次绘图操作的绘图内容,则可以更进一步简化用户绘图操作,提升用户体验。
出于上述目的,本申请实施例设定,记录用户的特征信息,以及记录用户的历史绘图操作,用于对用户的当前绘图操作进行预测。
在从语音绘图指令中,提取得到绘图关键词之前,尤其是用户本次发出语音绘图指令之前,识别该用户的身份信息,以及根据该用户的历史绘图操作,预测该用户本次绘图操作的绘图内容,并且将预测的绘图内容提示给用户。示例性的,可以通过弹出框或语音播报的方式,提示预测的绘图内容。
在预测并提示本次绘图操作的绘图内容后,执行步骤S302、判断是否满足预设的绘图操作确认条件,该条件可以示例性的设置为在提示本次绘图操作的绘图内容之后的设定时长内,没有接收到语音绘图指令,也就是说,在提示本次绘图操作的绘图内容之后的设定时长内,用户没有纠正绘图内容,则此时执行步骤S303、绘制提示的绘图内容。
相反,如果不满足预设的绘图操作确认条件,例如在提示本次绘图操作的绘图内容之后的设定时长内,接收到语音绘图指令,则执行步骤S304、从语音绘图指令中,提取得到绘图关键词,以及执行后续的S305、S306步骤的处理。
可以理解,上述处理过程,实现了自动预测绘图内容,以及设置了绘制预测的绘图内容的机制。在用户绘图过程中,能够根据用户的绘图操作,***用户下一步绘图内容,从而协助用户绘图操作,进一步提升绘图效率。
上述的步骤S304~S306,分别对应图1所示的方法实施例中的步骤S101~S103,其具体内容请参见图1所示的方法实施例的内容,此处不再赘述。
示例性的,上述的根据历史绘图操作,预测并提示本次绘图操作的绘图内容,包括:
首先,根据历史绘图操作,确定用户绘图习惯信息。
具体的,通过总结用户历史绘图操作,可以确定用户绘图习惯信息,例如用户习惯的绘图先后顺序、用户常用图例、用户偏向的字号、字体等。
然后,根据用户绘图习惯信息,以及前一次绘图操作的绘图内容,预测并提示本次绘图操作的绘图内容。
具体的,根据用户前一次绘图操作的绘图内容,可以预测用户本次绘图操作的绘图内容,同时,结合用户绘图习惯信息,可以确定用户本次绘图内容的具体形式,例如绘图位置、颜色、字号、字体等,将以上信息相结合,即可确定本次绘图操作的绘图内容。
作为一种可选的实现方式,所述根据用户绘图习惯信息,以及前一次绘图操作的绘图内容,预测并提示本次绘图操作的绘图内容,包括:
根据用户绘图习惯信息、前一次绘图操作的绘图内容的类别和/或名称,以及前一次绘图操作的绘图内容所属的组织架构模型,预测并提示本次绘图操作的绘图内容。
具体的,本申请实施例将用户绘图习惯信息、本次绘图操作的绘图内容与前一次绘图操作的绘图内容的类别和/或名称的相似性,以及本次绘图操作的绘图内容与前一次绘图操作的绘图内容的关系,共同用于对本次绘图操作的绘图内容进行预测。
其中,本次绘图操作的绘图内容与前一次绘图操作的绘图内容的关系,可以是两者在同一组织架构模型中的相互关系。
用户绘图习惯信息,包含了用户绘图的绘图方向习惯、图例选择习惯、字号选取习惯、绘图频率和偏向等信息。根据用户绘图习惯信息,可以预测用户本次绘图操作的绘图内容。
当已知前一次绘图操作的绘图内容的类别和/或名称时,本次绘图操作所绘制的内容也可能具有相同或相似的类别和/或名称。例如根据前一次绘图操作绘制的公司同级开发小组下的组员一,可以预测用户本次绘制可能会新建一个组员二且其属性与组员一类似。或者,也可以根据用户所选择的绘图模型属于哪一领域,可能包含哪些要素,已经有哪些要素,后面可能需要哪些要素等进行预测。例如在公司内部职级关系模型中,当前一次绘图操作绘制了董事会时,判断出用户绘制的图形属于公司组织架构领域,在前一次绘制了董事会的情况下,本次绘制可能会进行董事会下属总经理的绘制。
本次绘图操作的绘图内容与前一次绘图操作的绘图内容的关系,通常是两者共处于同一组织架构模型中时的相互关系。根据前一次绘图内容,可以确定用户绘制的图形所属的组织架构模型,在某一确定的组织架构模型中,各个绘图内容分别作为组织架构模型中的各个元素,元素之间的相互关系由该组织架构模型而确定。因此,基于该组织架构模型,可以确定与前一次绘图内容具有直接关联关系的绘图内容,该绘图内容即可作为本次绘图内容的预测。
本申请实施例将上述三个预测方向相互结合,共同用于本次绘图操作的绘图内容的预测。
作为一种示例性的实现方式,上述每个预测方向的预测过程,均可以通过相应的预测模型来实现。三种不同预测方向的预测模型,也可以相互融合构成一个预测模型。
可选的,本申请实施例还提出,在获取语音绘图指令之前,输出预设的图例模板和/或输出绘图引导信息。
其中,预设的图例模板,是指与绘图者相匹配的图例模板,例如绘图者常用图例模板、绘图者上次绘图使用的图例模板等。
上述的绘图引导信息,包括用于引导绘图者进行语音绘图的信息,该信息可以以文字形式输出,也可以以语音播报的形式输出。
本申请实施例设定,当绘图者启动绘图时,首先识别绘图者身份,例如,当绘图者开启绘图软件时,利用绘图者登录账号、绘图者标识信息等,确定绘图者身份;或者当绘图者首次讲话时,采集绘图者声纹信息,进而基于声纹信息确定绘图者身份。
本申请实施例对应每一绘图者,记录其历史绘图操作过程,从而确定绘图者经常绘制的图形类型。基于该数据积累,当本次绘图者进行绘图时,在绘图开始之初,首先识别绘图者身份信息,然后根据绘图者身份信息,输出该绘图者经常绘制的图例模板,以供该绘图者快速选择图例模板。
例如,假设在用户正式说出语音绘图指令前,已经识别到该用户为公司行政人员,其经常需要绘制公司人事组织架构图,用于公司人事管理,则此时可以输出组织架构图例模板,以便于该用户绘制公司人事组织架构图。
另一方面,在绘图者启动绘图时,可以先输出绘图引导信息,例如:你可以这样说“新建/创建(一个)组织架构图/基本流程图/数据流图……”,用于引导绘图者进行语音绘图。
对于首次语音绘图的绘图者,上述的引导信息的输出,可以使绘图者快速适应语音绘图场景,从而提高语音绘图效率。
进一步的,本申请实施例还提出,在语音绘图场景中,智能设备实时采集绘图者语音绘图指令,然后,从采集到的语音绘图指令中,提取得到绘图关键词,用户确定绘图操作指令。
在某些情况下,语音绘图场景的声源较多,例如在会议场景中,主讲人可能需要边讲解边绘图。正常情况下,辅助主讲人讲解的智能设备应当采集主讲人发出的语音绘图指令,并基于采集的语音绘图指令执行绘图操作。
但是,有些时候,会场中的讲话人比较多,例如在讨论会场景中,有一个主讲人,同时有其他人可以参与讨论。此时,智能设备会采集到多个用户的语音,如果智能设备对所有采集到的语音,均执行相应的绘图操作,则会导致绘图内容混乱。
为了使得绘图更有条理,本申请实施例设定,当智能设备采集到语音数据时,从采集到的语音数据中,识别目标用户发出的语音绘图指令,然后基于该语音指令执行绘图操作。
例如,假设用户A为操作智能设备的用户,也就是用户A为主讲人,则当智能设备采集的语音数据时,从采集的到的语音数据中,识别用户A发出的语音绘图指令,用于后续的语音绘图操作。
为了更形象地介绍本申请实施例提出的语音绘图方法的处理过程,下面以用户语音绘制图4所示的组织架构图为例,介绍用户语音绘图处理过程。
在初始化阶段,没有收到用户语音操作指令,此时输出常见的图形样例模板,如:组织架构图、基本流程图、数据流图等。并提示用户使用语音操作来进行绘图。例如,输出提示语:您可以说,“创建一个**图”、“新建**图”。
用户:我想创建公司的组织架构图。
此语句中“创建”为特定操作,触发新建文件操作;“组织架构图”是对所要创建文件的一个限定,也为后续完善文件中的流程图提供一个图形模板,例如,职位描述采用图4中的圆形表示、连接线采用有向箭头、架构图自上而下绘制、图形整体居中等。
用户:添加一个董事会。
此语句中“添加”为动作,触发创建一个图例的操作(根据上文中涉及的是“组织架构图”,判断此图例的选择为组织架构图中的图例集合),关键词“董事会”作为图例的名称默认位置居中。
用户:添加一个总经理。
此语句中“添加”为动作,触发创建一个图例的操作,根据所选用的组织架构模型,并且该图为层级关系,上文已经新增董事会,由以上条件可预测此处添加的可为总经理,而关键词中含有“总经理”,所以确认图例名称为董事会下的总经理职位,将其放在董事会之下并以有向箭头进行连接,最后调整整体图形格式为居中对齐。此处自动预测出现提示等待用户确认,超时后默认确认,期间用户可通过鼠标等其他外置设备进行辅助选择和确认操作。
用户:总经理下添加财务部、人事行政部、市场营销部、技术部
此语句中“总经理”为上文内容,在其下添加为执行条件,说明其后的图例是在总经理之下进行添加的并为同级新增操作。语句中并未指明此次新建的图例数量,所以将“财务部”、“人事行政部”、“市场营销部”、“技术部”均列为此处所需要添加的子图例。将“财务部”、“人事行政部”、“市场营销部”、“技术部”均匀分散添加到总经理之下,并以有向箭头进行连接,即可得到如图4所示的组织架构图。
进一步的,用户继续说出语音绘图指令时,可以参照上述处理过程进一步在已绘制的组织架构图中添加图例内容。
与上述的语音绘图方法相对应的,本申请实施例还提出一种语音绘图装置,参见图5所示,该装置包括:
关键词提取单元100,用于从语音绘图指令中,提取得到绘图关键词,所述绘图关键词为描述绘图操作的词语;
指令确定单元110,用于基于所述绘图关键词的文本特征,确定与所述绘图关键词对应的绘图操作指令;
指令执行单元120,用于执行所述绘图操作指令,以绘制图形。
采用本申请实施例提出的语音绘图装置,当采集到绘图者发出的语音绘图指令时,从语音绘图指令中提取得到绘图关键词,然后基于提取的绘图关键词的文本特征,确定与绘图关键词对应的绘图操作指令,最后通过执行该绘图操作指令,实现绘制图形的目的。上述处理过程,实现了语音绘图指令中的绘图关键词与绘图操作指令之间的自动匹配及映射,通过执行上述处理过程,能够根据绘图者发出的语音绘图指令自动绘图,从而能够提升绘图者绘图效率,以及提升绘图体验。
进一步的,上述的语音绘图装置,能够根据语音绘图指令中的绘图关键词,确定用于绘制预设的图形模板库中的、与所述绘图关键词匹配的图形的绘图操作指令,执行该绘图操作指令,能够快速绘制出用户所需绘制的图形,例如可以基于用户一条语音绘图指令,一步绘制出图形框架、图形主体结构等,从而可以大幅提高用户绘图效率。
作为一种可选的实现方式,所述从语音绘图指令中,提取得到绘图关键词,包括:
对语音绘图指令进行语音识别处理,得到绘图指令文本;
从所述绘图指令文本中提取得到绘图关键词。
作为一种可选的实现方式,所述从所述绘图指令文本中提取得到绘图关键词,包括:
通过对所述绘图指令文本进行语法成分分析处理,从所述绘图指令文本中提取得到绘图语法结构,其中,所述绘图语法结构为表示绘图操作的语法结构;
分别提取所述绘图语法结构的各语法成分对应的文本内容的关键词,作为绘图关键词。
作为一种可选的实现方式,所述通过对所述绘图指令文本进行语法成分分析处理,从所述绘图指令文本中提取得到绘图语法结构,包括:
根据所述语音绘图指令的产生场景,对所述绘图指令文本进行语法成分分析处理,得到所述绘图指令文本的语法成分;
根据所述绘图指令文本的语法成分,以及所述语音绘图指令的产生场景,从所述绘图指令文本中提取得到与所述语音绘图指令的产生场景相匹配的绘图语法结构。
作为一种可选的实现方式,所述装置还包括:
交互处理单元,用于判断提取得到的绘图关键词是否包含了完整的绘图操作信息;所述完整的绘图操作信息,至少包括能够表示一次完整的绘图操作的最少的信息;
如果没有包含完整的绘图操作信息,则与发出所述语音绘图指令的对象进行交互,并从与所述对象的交互数据中提取绘图关键词,直至提取得到的绘图关键词包含了完整的绘图操作信息。
作为一种可选的实现方式,所述判断提取得到的绘图关键词是否包含了完整的绘图操作信息,包括:
根据提取得到的绘图关键词,确定与所述语音绘图指令对应的绘图内容;
根据提取得到的绘图关键词,以及与所述语音绘图指令对应的绘图内容,判断提取得到的绘图关键词是否包含了用于绘制所述绘图内容的完整的绘图操作信息。
作为一种可选的实现方式,所述基于所述绘图关键词的文本特征,确定与所述绘图关键词对应的绘图操作指令,包括:
将所述绘图关键词,输入预先训练的绘图指令映射模型,确定与所述绘图关键词对应的绘图操作指令;
其中,所述绘图指令映射模型,能够基于绘图关键词与绘图操作指令之间的对应关系,确定与输入的绘图关键词对应的绘图操作指令。
作为一种可选的实现方式,所述装置还包括:
预测绘制单元,用于在从语音绘图指令中,提取得到绘图关键词之前,根据历史绘图操作,预测并提示本次绘图操作的绘图内容;
当满足预设的绘图操作确认条件时,绘制提示的绘图内容;其中,所述预设的绘图操作确认条件,包括在提示所述本次绘图操作的绘图内容之后的设定时长内,没有接收到语音绘图指令。
作为一种可选的实现方式,所述根据历史绘图操作,预测并提示本次绘图操作的绘图内容,包括:
根据历史绘图操作,确定用户绘图习惯信息;
根据用户绘图习惯信息,以及前一次绘图操作的绘图内容,预测并提示本次绘图操作的绘图内容。
作为一种可选的实现方式,所述根据用户绘图习惯信息,以及前一次绘图操作的绘图内容,预测并提示本次绘图操作的绘图内容,包括:
根据用户绘图习惯信息、前一次绘图操作的绘图内容的类别和/或名称,以及前一次绘图操作的绘图内容所属的组织架构模型,预测并提示本次绘图操作的绘图内容。
作为一种可选的实现方式,所述装置还包括:
信息输出单元,用于输出预设的图例模板和/或输出绘图引导信息。
作为一种可选的实现方式,所述装置还包括:
指令识别单元,用于从采集的语音数据中,识别目标用户发出的语音绘图指令。
具体的,上述的语音绘图装置的各个单元的具体工作内容,请参见上述方法实施例的内容,此处不再赘述。
本申请另一实施例还提出一种语音绘图设备,参见图6所示,该设备包括:
存储器200和处理器210;
其中,所述存储器200与所述处理器210连接,用于存储程序;
所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的语音绘图方法。
具体的,上述目标检测结果的评测设备还可以包括:总线、通信接口220、输入设备230和输出设备240。
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:
总线可包括一通路,在计算机***各个部件之间传送信息。
处理器210可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器210可包括主处理器,还可包括基带芯片、调制解调器等。
存储器200中保存有执行本发明技术方案的程序,还可以保存有操作***和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器2102执行存储器200中所存放的程序,以及调用其他设备,可用于实现本申请实施例所提供的语音绘图方法的各个步骤。
本申请另一实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时,实现上述任一实施例提供的语音绘图方法的各个步骤。
上述的语音绘图设备的各个部分的具体工作内容,以及上述的存储介质中的计算机程序被处理器运行时的具体处理内容,均可参见本申请上述方法实施例的内容,此处不再重复。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种语音绘图方法,其特征在于,包括:
从语音绘图指令中,提取得到绘图关键词,所述绘图关键词为描述绘图操作的词语;
基于所述绘图关键词的文本特征,确定与所述绘图关键词对应的绘图操作指令;其中,所述绘图操作指令为用于绘制预设的图形模板库中的、与所述绘图关键词匹配的图形的指令;
执行所述绘图操作指令,以绘制图形。
2.根据权利要求1所述的方法,其特征在于,所述从语音绘图指令中,提取得到绘图关键词,包括:
对语音绘图指令进行语音识别处理,得到绘图指令文本;
通过对所述绘图指令文本进行语法成分分析处理,从所述绘图指令文本中提取得到绘图语法结构,其中,所述绘图语法结构为表示绘图操作的语法结构;
分别提取所述绘图语法结构的各语法成分对应的文本内容的关键词,作为绘图关键词。
3.根据权利要求2所述的方法,其特征在于,所述通过对所述绘图指令文本进行语法成分分析处理,从所述绘图指令文本中提取得到绘图语法结构,包括:
根据所述语音绘图指令的产生场景,对所述绘图指令文本进行语法成分分析处理,得到所述绘图指令文本的语法成分;
根据所述绘图指令文本的语法成分,以及所述语音绘图指令的产生场景,从所述绘图指令文本中提取得到与所述语音绘图指令的产生场景相匹配的绘图语法结构。
4.根据权利要求1所述的方法,其特征在于,在从语音绘图指令中,提取得到绘图关键词后,所述方法还包括:
判断提取得到的绘图关键词是否包含了完整的绘图操作信息;所述完整的绘图操作信息,至少包括能够表示一次完整的绘图操作的最少的信息;
如果没有包含完整的绘图操作信息,则与发出所述语音绘图指令的对象进行交互,并从与所述对象的交互数据中提取绘图关键词,直至提取得到的绘图关键词包含了完整的绘图操作信息。
5.根据权利要求4所述的方法,其特征在于,所述判断提取得到的绘图关键词是否包含了完整的绘图操作信息,包括:
根据提取得到的绘图关键词,确定与所述语音绘图指令对应的绘图内容;
根据提取得到的绘图关键词,以及与所述语音绘图指令对应的绘图内容,判断提取得到的绘图关键词是否包含了用于绘制所述绘图内容的完整的绘图操作信息。
6.根据权利要求1所述的方法,其特征在于,所述基于所述绘图关键词的文本特征,确定与所述绘图关键词对应的绘图操作指令,包括:
将所述绘图关键词,输入预先训练的绘图指令映射模型,确定与所述绘图关键词对应的绘图操作指令;
其中,所述绘图指令映射模型,能够基于绘图关键词与绘图操作指令之间的对应关系,确定与输入的绘图关键词对应的绘图操作指令。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在从语音绘图指令中,提取得到绘图关键词之前,根据历史绘图操作,确定用户绘图习惯信息;
根据用户绘图习惯信息,以及前一次绘图操作的绘图内容,预测并提示本次绘图操作的绘图内容;
当满足预设的绘图操作确认条件时,绘制提示的绘图内容;其中,所述预设的绘图操作确认条件,包括在提示所述本次绘图操作的绘图内容之后的设定时长内,没有接收到语音绘图指令。
8.根据权利要求7所述的方法,其特征在于,所述根据用户绘图习惯信息,以及前一次绘图操作的绘图内容,预测并提示本次绘图操作的绘图内容,包括:
根据用户绘图习惯信息、前一次绘图操作的绘图内容的类别和/或名称,以及前一次绘图操作的绘图内容所属的组织架构模型,预测并提示本次绘图操作的绘图内容。
9.根据权利要求1所述的方法,其特征在于,在获取语音绘图指令之前,所述方法还包括:
输出预设的图例模板和/或输出绘图引导信息。
10.一种语音绘图装置,其特征在于,包括:
关键词提取单元,用于从语音绘图指令中,提取得到绘图关键词,所述绘图关键词为描述绘图操作的词语;
指令确定单元,用于基于所述绘图关键词的文本特征,确定与所述绘图关键词对应的绘图操作指令;其中,所述绘图操作指令为用于绘制预设的图形模板库中的、与所述绘图关键词匹配的图形的指令;
指令执行单元,用于执行所述绘图操作指令,以绘制图形。
11.一种语音绘图设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中的程序,实现如权利要求1至9中的任意一项所述的语音绘图方法。
12.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至9中的任意一项所述的语音绘图方法。
CN202010758970.3A 2020-07-31 2020-07-31 一种语音绘图方法、装置、设备及存储介质 Pending CN111897511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010758970.3A CN111897511A (zh) 2020-07-31 2020-07-31 一种语音绘图方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010758970.3A CN111897511A (zh) 2020-07-31 2020-07-31 一种语音绘图方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111897511A true CN111897511A (zh) 2020-11-06

Family

ID=73182870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010758970.3A Pending CN111897511A (zh) 2020-07-31 2020-07-31 一种语音绘图方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111897511A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112356600A (zh) * 2020-11-12 2021-02-12 海南丰创建设工程有限公司 一种几何作图方法
CN112463912A (zh) * 2020-11-23 2021-03-09 浙江大学 一种基于树莓派和循环神经网络的简笔画识别与生成方法
CN112596659A (zh) * 2020-12-23 2021-04-02 陇东学院 一种基于智能语音和图像处理的绘画方法和装置
CN114995729A (zh) * 2022-05-11 2022-09-02 联想(北京)有限公司 一种语音绘图方法、装置及计算机设备
CN115344181A (zh) * 2022-05-04 2022-11-15 杭州格沃智能科技有限公司 一种人机交互***及其实现方法和应用
CN117150066A (zh) * 2023-10-27 2023-12-01 北京朗知网络传媒科技股份有限公司 汽车传媒领域的智能绘图方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07200795A (ja) * 1994-01-06 1995-08-04 Mitsubishi Heavy Ind Ltd 音声による作図方法
CN102445984A (zh) * 2010-10-08 2012-05-09 英业达股份有限公司 语音绘图***及其方法
US20140289632A1 (en) * 2013-03-21 2014-09-25 Kabushiki Kaisha Toshiba Picture drawing support apparatus and method
CN107818781A (zh) * 2017-09-11 2018-03-20 远光软件股份有限公司 智能交互方法、设备及存储介质
CN108536421A (zh) * 2018-04-19 2018-09-14 合肥学院 一种基于绘画软件的语音控制自由绘画***及其控制方法
CN110060674A (zh) * 2019-03-15 2019-07-26 重庆小雨点小额贷款有限公司 表格管理方法、装置、终端和存储介质
CN110298022A (zh) * 2019-06-04 2019-10-01 科大讯飞股份有限公司 流程图的处理方法及相关产品
CN110675870A (zh) * 2019-08-30 2020-01-10 深圳绿米联创科技有限公司 一种语音识别方法、装置、电子设备及存储介质
KR20200027646A (ko) * 2018-09-05 2020-03-13 삼성중공업 주식회사 음성 작업지시 기능을 가지는 도면 편집 장치 및 도면 편집 방법
CN111462265A (zh) * 2020-03-20 2020-07-28 南京赫曼机器人自动化有限公司 一种多模态机器人智能绘画方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07200795A (ja) * 1994-01-06 1995-08-04 Mitsubishi Heavy Ind Ltd 音声による作図方法
CN102445984A (zh) * 2010-10-08 2012-05-09 英业达股份有限公司 语音绘图***及其方法
US20140289632A1 (en) * 2013-03-21 2014-09-25 Kabushiki Kaisha Toshiba Picture drawing support apparatus and method
CN107818781A (zh) * 2017-09-11 2018-03-20 远光软件股份有限公司 智能交互方法、设备及存储介质
CN108536421A (zh) * 2018-04-19 2018-09-14 合肥学院 一种基于绘画软件的语音控制自由绘画***及其控制方法
KR20200027646A (ko) * 2018-09-05 2020-03-13 삼성중공업 주식회사 음성 작업지시 기능을 가지는 도면 편집 장치 및 도면 편집 방법
CN110060674A (zh) * 2019-03-15 2019-07-26 重庆小雨点小额贷款有限公司 表格管理方法、装置、终端和存储介质
CN110298022A (zh) * 2019-06-04 2019-10-01 科大讯飞股份有限公司 流程图的处理方法及相关产品
CN110675870A (zh) * 2019-08-30 2020-01-10 深圳绿米联创科技有限公司 一种语音识别方法、装置、电子设备及存储介质
CN111462265A (zh) * 2020-03-20 2020-07-28 南京赫曼机器人自动化有限公司 一种多模态机器人智能绘画方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟凡曦;凌滨;游岚华;崔珊珊;: "基于SoC的语音绘图***", 机电产品开发与创新, no. 03 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112356600A (zh) * 2020-11-12 2021-02-12 海南丰创建设工程有限公司 一种几何作图方法
CN112463912A (zh) * 2020-11-23 2021-03-09 浙江大学 一种基于树莓派和循环神经网络的简笔画识别与生成方法
CN112596659A (zh) * 2020-12-23 2021-04-02 陇东学院 一种基于智能语音和图像处理的绘画方法和装置
CN115344181A (zh) * 2022-05-04 2022-11-15 杭州格沃智能科技有限公司 一种人机交互***及其实现方法和应用
CN114995729A (zh) * 2022-05-11 2022-09-02 联想(北京)有限公司 一种语音绘图方法、装置及计算机设备
CN117150066A (zh) * 2023-10-27 2023-12-01 北京朗知网络传媒科技股份有限公司 汽车传媒领域的智能绘图方法和装置
CN117150066B (zh) * 2023-10-27 2024-01-23 北京朗知网络传媒科技股份有限公司 汽车传媒领域的智能绘图方法和装置

Similar Documents

Publication Publication Date Title
CN111897511A (zh) 一种语音绘图方法、装置、设备及存储介质
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN108847241B (zh) 将会议语音识别为文本的方法、电子设备及存储介质
CN107492379B (zh) 一种声纹创建与注册方法及装置
CN105931644B (zh) 一种语音识别方法及移动终端
CN108305626A (zh) 应用程序的语音控制方法和装置
CN108428446A (zh) 语音识别方法和装置
CN110597952A (zh) 信息处理方法、服务器及计算机存储介质
CN109616096B (zh) 多语种语音解码图的构建方法、装置、服务器和介质
CN113488024B (zh) 一种基于语义识别的电话打断识别方法和***
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及***
WO2022237376A1 (en) Contextualized speech to text conversion
CN111159987A (zh) 数据图表绘制方法、装置、设备和计算机可读存储介质
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN109637529A (zh) 基于语音的功能定位方法、装置、计算机设备及存储介质
KR102312993B1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
CN111309876A (zh) 一种服务请求的处理方法、装置、电子设备及存储介质
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及***
CN114186041A (zh) 一种答案输出方法
CN110263346B (zh) 基于小样本学习的语意分析方法、电子设备及存储介质
CN111326142A (zh) 基于语音转文本的文本信息提取方法、***和电子设备
CN115759048A (zh) 一种剧本文本处理方法及装置
CN111611793A (zh) 数据处理方法、装置、设备及存储介质
CN115113967A (zh) 问题反馈方法和装置、电子设备及存储介质
CN109255131B (zh) 翻译方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination