CN117636877B - 一种基于语音指令的智能***操作方法及*** - Google Patents
一种基于语音指令的智能***操作方法及*** Download PDFInfo
- Publication number
- CN117636877B CN117636877B CN202410094525.XA CN202410094525A CN117636877B CN 117636877 B CN117636877 B CN 117636877B CN 202410094525 A CN202410094525 A CN 202410094525A CN 117636877 B CN117636877 B CN 117636877B
- Authority
- CN
- China
- Prior art keywords
- voice
- instruction
- pinyin
- user
- command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012937 correction Methods 0.000 claims abstract description 42
- 230000004044 response Effects 0.000 claims abstract description 14
- 239000012634 fragment Substances 0.000 claims description 118
- 238000012545 processing Methods 0.000 claims description 30
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种基于语音指令的智能***操作方法及***,其方法,包括:基于语音服务前端子***对用户语音指令进行实时录制并转换为语音数据流准实时推送给语音服务后端子***;语音服务后端子***对语音数据流进行语音识别,并将识别结果准实时返回至语音服务前端子***;在用户语音指令输入结束后结合当前应用场景,进行语音纠错以及语音解析;语音服务前端子***按照语音解析结果生成***操作指令,控制前端页面作出操作响应。本发明在现有Web业务应用***的基础上,构建智能***操作***,通过语音服务前端子***和语音服务后端子***的结合对在不改版PC或复杂大屏导航操作逻辑的基础上有效理解用户的复杂的语音指令对应的是操作意图。
Description
技术领域
本发明涉及语音识别技术领域,特别涉及一种基于语音指令的智能***操作方法及***。
背景技术
语音输入法是以语音方式进行输入的方法。语音输入法集语音、手写、拼音、笔画、双拼等多种输入方式于一体,又可以在同一界面实现多种输入方式平滑切换,符合用户使用习惯,大大提升输入速度,基于语音的应用场景也越来越多随着语音识别技术的逐渐成熟,但大多情况下,语音主要应用语音播报、语音问答检索、针对大屏类的简单语音操作等。在一些场景,客户希望能实现更复杂的语音操作,在不改版PC或复杂大屏导航操作逻辑的基础上,语音指令难以精准的实现***操控。
发明内容
本发明提供一种基于语音指令的智能***操作方法及*** ,本发明在现有Web业务应用***的基础上,构建智能***操作***,通过语音服务前端子***和语音服务后端子***的结合对在不改版PC或复杂大屏导航操作逻辑(即保持客户既有习惯)的基础上有效理解用户的复杂的语音指令对应的是操作意图。
本发明提供一种基于语音指令的智能***操作方法,包括:
步骤1:基于语音服务前端子***对用户语音指令进行实时录制并转换为语音数据流准实时推送给语音服务后端子***;
步骤2:语音服务后端子***对语音数据流进行语音识别,并将识别结果准实时返回至语音服务前端子***;
步骤3:在用户语音指令输入结束后,结合当前应用场景,进行语音纠错以及语音解析,并将语音解析结果发送至语音服务前端子***;
步骤4:语音服务前端子***按照语音解析结果,生成***操作指令,控制前端页面作出操作响应。
优选的,在一种基于语音指令的智能***操作方法中,步骤1 ,包括:
获取用户语音指令的按照预设时长进行分段,获得语音片段并转化为语音数据流,准实时发送至语音服务后端子***;
将语音片段存储至临时数据集合中,将当前语音片段与临时数据集合中已有的语音片段进行对比,判断各个语音片段的一致性,若一致,判定用户的语音指令输入完成,并生成语音结束指令发送至语音服务后端子***。
优选的,在一种基于语音指令的智能***操作方法中,步骤2,包括:
语音服务后端子***接收语音数据流;
基于预训练的语音识别模型对语音数据流进行实时识别,获得识别结果;
将识别结果,同步发送至语音服务前端子***以及语音解析模块。
优选的,在一种基于语音指令的智能***操作方法中,步骤3,包括:
基于识别结果对用户的语音片段进行拼音转化,获得片段拼音语句,并根据片段拼音语句,对用户当前语音片段进行归类,获得归类结果;
在接收到语音服务前端子***上的语音结束指令时,根据全部语音片段的归类结果,确定用户语音指令对应的最终归类结果,基于最终归类结果,获得标准语句;
对各个语音片段进行串联,获得指令拼音语句,并结合用户的当前应用场景,基于标准语句对指令拼音语句进行纠错,获得纠错语音指令,并对纠错语音指令进行指令解析,得到语音解析结果,发送至语音服务前端子***。
优选的,在一种基于语音指令的智能***操作方法中,根据片段拼音语句,对当前语音片段进行归类,包括:
获取语音指令对应的关键词参考表,并对片段拼音语句进行关键词提取,基于所述关键词,遍历关键词参考表,判断是否存在匹配词,若存在匹配词,获取匹配词个数,当匹配词个数为1时,判定匹配词对应的操作分类为片段拼音语句对应的当前语音片段的归类结果;
当匹配词个数不为1时,获取上一语音片段对应的归类结果,判断匹配词对应的全部归类结果中是否存在与上一语音片段对应的归类结果一致的操作分类,若存在,将上一语音片段对应的归类结果作为当前语音片段对应的归类结果;
否则,基于匹配词对应的操作分类生成待定标签添加至当前片段拼音语句;
当不存在匹配词时,向当前片段拼音语句添加无效语句标签。
优选的,在一种基于语音指令的智能***操作方法中,根据全部语音片段的归类结果,确定用户语音指令对应的最终归类结果,基于最终归类结果,获得标准语句,包括:
获取全部语音片段对应的第一归类结果,判断归类结果是否一致,若一致,判定用户语音指令为单指令语音,并将所述第一归类结果作为最终归类结果;
否则,获取各个语音片段与相邻语音片段的第一归类结果的相似情况,若相邻片段的分类结果不一样,且相邻片段不携带无效语句标签时,则向相邻片段添加数字标签0;
否则,向相邻片段添加数字标签1;
当语音片段只有0数字标签时,判定所述语音片段为错误片段;
当语音片段不只有0数字标签时,判定所述语音片段为正确片段;
获取全部正确片段对应的第二归类结果,当第二归类结果一致时,判定用户语音指令为单指令语音,并将所述第二归类结果作为最终归类结果;
否则,判定用户语音指令为多指令语音,根据第二归类结果对语音片段进行片段归类,获得多个最终归类结果;
基于最终归类结果,获取对应操作分类对应的指令标准参考表并进行语句匹配,获得用户语音指令对应的全部标准语句。
优选的,在一种基于语音指令的智能***操作方法中,在接收到语音服务前端子***上的语音结束指令时,还包括,对当前应用场景进行确定,包括:
获取当前使用阶段中全部已响应***操作指令,并根据各个已响应***操作指令对应的指令响应时间,确定已响应***操作指令之间的关联使用偏好;
基于各个已响应***操作指令对应的语音指令,生成多个语音集合,对同一语音集合中的多个语音进行对比,确定当前使用阶段中各个已响应***操作指令的描述偏好;
基于描述偏好以及关联使用偏好,确定用户在当前使用阶段中的语音指令的使用偏好;
获取各个应用场景对应的语音控制偏好与所述使用偏好进行对比,获得最佳相似场景,并将所述最佳相似场景作为当前应用场景。
优选的,在一种基于语音指令的智能***操作方法中,对各个语音片段进行串联,获得指令拼音语句,并结合用户的当前应用场景,基于标准语句对指令拼音语句进行纠错,获得纠错语音指令,并对纠错语音指令进行指令解析,得到语音解析结果,包括:
当用户语音指令为单指令语音时,直接将各个语音片段进行串联,获得第一指令拼音语句,并基于单指令语音对应的标准语句,生成校准拼音;
当用户语音指令为多指令语音时,获取语音片段的片段归类结果,基于片段归类结果生成节点标签,对语音片段进行串联,并将节点标签添加至对应的位置,生成第二指令拼音语句;
基于节点标签顺序,对多个标准语句进行拼接,生成第二指令拼音语句对应的校准拼音;
根据校准拼音,并结合当前应用场景,对第一指令拼音语句或者第二指令拼音语句的错位音节进行修正,获得纠错语音指令;
根据最终归类结果,确定用户指令的解析规则,基于所述解析规则,对纠错语音指令进行解析,获得语音解析结果。
优选的,在一种基于语音指令的智能***操作方法中,根据校准拼音,并结合当前应用场景对第一指令拼音语句或者第二指令拼音语句的错位音节进行修正,获得纠错语音指令,包括:
通过自然处理技术,结合当前应用场景以及无效语句标签,对第一指令拼音语句或者第二指令拼音语句进行冗余删除,获得主干语句;
通过预训练语音模型将主干语句与校准拼音进行对比纠错,获得纠错语音指令。
本发明提供一种基于语音指令的智能***操作***,包括:语音服务前端子***以及语音服务后端子***;
其中,语音前端***包括语音录制模块、指令处理模块以及操作控制模块;
所述语音录制模块,用于对用户语音指令进行实时录制并转换为语音数据流准实时推送给语音识别模块;
所述指令处理模块,用于按照语音解析结果,生成***操作指令;
所述操作控制模块,用于控制前端页面作出操作响应;
语音后端***包括语音识别模块以及语音解析模块,其中,
所述语音识别模块,用于语音服务后端子***对语音数据流进行语音识别,并将识别结果准实时返回至指令处理模块。
所述语音解析模块,用于基于语音识别结果对用户语音指令进行语音解析,并在用户语音指令输入结束后,结合当前应用场景,将语音解析结果发送至指令处理模块。
与现有技术相比,本发明至少存在以下有益效果:
上述技术方案的工作原理及有益效果:本发明获取用户语音指令的按照预设时长(如300ms)进行分段,获得语音片段并转化为语音数据流,准实时发送至语音服务后端子***,实现了语音指令的自动采集,并自动分段确保用户及时输入较长的语音指令的情况下也可以及时得到识别反馈结果;将语音片段存储至临时数据集合中,将当前语音片段与临时数据集合中已有的语音片段进行对比,判断各个语音片段的一致性,若一致,判定用户的语音指令输入完成,并生成语音结束指令发送至语音服务后端子***,实现了语音指令输入的结束的智能识别,为语音指令的纠错解析处理提供触发依据,确保用户每个语音指令都被完整的录制,有效提高语音指令执行的准确度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在本申请文件中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一种基于语音指令的智能***操作方法的流程图;
图2为本发明一种基于语音指令的智能***操作方法步骤1的流程图;
图3为本发明一种基于语音指令的智能***操作方法步骤2的流程图;
图4为本发明一种基于语音指令的智能***操作方法步骤3的流程图;
图5为本发明一种基于语音指令的智能***操作***的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本发明一种基于语音指令的智能***操作方法,如图1所示,包括:
步骤1:基于语音服务前端子***对用户语音指令进行实时录制并转换为语音数据流准实时推送给语音服务后端子***;
步骤2:语音服务后端子***对语音数据流进行语音识别,并将识别结果准实时返回至语音服务前端子***;
步骤3:在用户语音指令输入结束后,结合当前应用场景,进行语音纠错以及语音解析,并将语音解析结果发送至语音服务前端子***;
步骤4:语音服务前端子***按照语音解析结果,生成***操作指令,控制前端页面作出操作响应。
本实施例中,语音服务前端子***按照语音解析结果,生成***操作指令,控制前端页面作出操作响应,主要结合Web应用的导航服务,以及基于场景(即场景依赖)的操作指令封装实现。前者基于语音识别业务实体目标及相关辅助信息,主要通过关键字匹配,借助导航服务实现用户语音指令的操作;后者基于场景(即场景依赖)的***操作指令进行更精细化的指令操作(比如,打开二级菜单、打开场景中的特定报表、切换tab或页面查询参数切换等)。
本实施例中,语音指令是指中文普通话语音,通过语音识别模块扩展对语音进行扩展,可以支持部分中文方言。
上述技术方案的工作原理及有益效果:本发明通过语音服务前端子***基于websocket通信对用户语音指令进行实时录制并转换为语音数据流推送至,语音服务后端子***,语音服务后端子***每一段语音片段实时解析并返回语音服务前端子***。在用户语音指令输入结束后,将语音输入结束前的语音进行串联结合当前应用场景,进行语音纠错以及语音解析,并将语音解析结果发送至语音服务前端子***,生成***操作指令,控制前端页面作出操作响应。本发明在现有Web业务应用***的基础上,构建智能***操作***,通过语音服务前端子***和语音服务后端子***的结合对在不改版PC或复杂大屏导航操作逻辑(即保持客户既有习惯)的基础上有效理解用户的复杂的语音指令对应的是操作意图。
实施例2:
在实施例1的基础上,步骤1 ,如图2所示,包括:
步骤101:获取用户语音指令的按照预设时长进行分段,获得语音片段并转化为语音数据流,准实时发送至语音服务后端子***;
步骤102:将语音片段存储至临时数据集合中,将当前语音片段与临时数据集合中已有的语音片段进行对比,判断各个语音片段的一致性,若一致,判定用户的语音指令输入完成,并生成语音结束指令发送至语音服务后端子***。
本实施例中,语音片段的一致性是指在一系列语音片段中,出现连续相同片段。
本实施例中,临时数据集合是用于临时存放用户语音指令的语音数据段的集合,在确定当前语音指令输入完成后,语音服务后端子***对该临时数据集合进行初始化,继续等待下雨语音指令的输入。
上述技术方案的工作原理及有益效果:本发明获取用户语音指令的按照预设时长(如300ms)进行分段,获得语音片段并转化为语音数据流,准实时发送至语音服务后端子***,实现了语音指令的自动采集,并自动分段确保用户及时输入较长的语音指令的情况下也可以及时得到识别反馈结果;将语音片段存储至临时数据集合中,将当前语音片段与临时数据集合中已有的语音片段进行对比,判断各个语音片段的一致性,若一致,判定用户的语音指令输入完成,并生成语音结束指令发送至语音服务后端子***,实现了语音指令输入的结束的智能识别,为语音指令的纠错解析处理提供触发依据,确保用户每个语音指令都被完整的录制,有效提高语音指令执行的准确度。
实施例3:
在实施例1的基础上,步骤2,如图3所示,包括:
步骤201:语音服务后端子***接收语音数据流;
步骤202:基于预训练的语音识别模型对语音数据流进行实时识别,获得识别结果;
步骤203:将识别结果,同步发送至语音服务前端子***以及语音解析模块。
上述技术方案的工作原理及有益效果:本发明在语音服务后端子***接收到语音数据流基于预训练的语音识别模型对语音数据流进行实时识别,并将识别结果,同步发送至语音服务前端子***以及语音解析模块,实现了语音指令录制过程中的同步处理,有效提高语音指令处理效率。
实施例4:
在实施例1的基础上,步骤3,如图4所示,包括:
步骤301:基于识别结果对用户的语音片段进行拼音转化,获得片段拼音语句,并根据片段拼音语句,对用户当前语音片段进行归类,获得归类结果;
步骤302:在接收到语音服务前端子***上的语音结束指令时,根据全部语音片段的归类结果,确定用户语音指令对应的最终归类结果,基于最终归类结果,获得标准语句;
步骤303:对各个语音片段进行串联,获得指令拼音语句,并结合用户的当前应用场景,基于标准语句对指令拼音语句进行纠错,获得纠错语音指令,并对纠错语音指令进行指令解析,得到语音解析结果,发送至语音服务前端子***。
本实施例中,片段拼音语句是各个语音片段对应的文字转化为中文拼音。
本实施例中,对用户当前语音片段进行归类是指对语音片段进行关键词匹配后,确定语音片段关键词识别对应的用户操作的分类结果,归类结果即所述语音片段对应的操作分类(例如,打开、进入、切换、调阅等)。
本实施例中,最终归类结果是用户整个语音指令对应的操作分类结果。
本实施例中,标准语句是指不同操作分类对应的操作指令的标准语句,该标准语句中包括但不限于操作类型(打开、进入、切换、调阅等)、服务类别(如报表、菜单/页面、模型、报告等)、目标业务实体(用户指令中具体要操作的目标业务实体对象)、参数(如时间参数年月、区域、特定组织等)。
本实施例中,指令拼音语句是指对临时数据集合中全部语音片段对应的片段拼音语句按照时间轴顺序进行连接,生成完整的语音指令对应的中文拼音语句。
本实施例中,当前应用场景是指用户输入当前语音指令的场景,例如,会议演示、日常使用等。
上述技术方案的工作原理及有益效果:本发明:基于识别结果对用户的语音片段进行拼音转化,获得片段拼音语句,降低中文声调对中文语音识别的影响,提升语音识别容错率,并根据片段拼音语句,对用户当前语音片段进行归类,获得归类结果,对每个语音片段都进行操作分类,为处理复杂多语音指令提供基础,确保用户语音指令确认的准确性,并在接收到语音服务前端子***上的语音结束指令时,根据全部语音片段的归类结果,确定用户语音指令对应的最终归类结果,实习用户语音指令的有效确认语音指令,及时单指令和多指令,确保标准语句获取的准确性,从而提高语音纠错的准确性;对各个语音片段进行串联,获得指令拼音语句,基于标准语句对指令拼音语句进行纠错,并结合用户的当前应用场景,对用户语音进行指令解析,得到语音解析结果,发送至语音服务前端子***,实现复杂语音指令的解析,确保在不改版PC或复杂大屏导航操作逻辑(即保持客户既有习惯)的基础上有效理解用户的复杂的语音指令对应的是操作意图。
实施例5:
在实施例4的基础上,根据片段拼音语句,对当前语音片段进行归类,包括:
获取语音指令对应的关键词参考表,并对片段拼音语句进行关键词提取,基于所述关键词,遍历关键词参考表,判断是否存在匹配词,若存在匹配词,获取匹配词个数,当匹配词个数为1时,判定匹配词对应的操作分类为片段拼音语句对应的当前语音片段的归类结果;
当匹配词个数不为1时,获取上一语音片段对应的归类结果,判断匹配词对应的全部归类结果中是否存在与上一语音片段对应的归类结果一致的操作分类,若存在,将上一语音片段对应的归类结果作为当前语音片段对应的归类结果;
否则,基于匹配词对应的操作分类生成待定标签添加至当前片段拼音语句;
当不存在匹配词时,向当前片段拼音语句添加无效语句标签。
本实施例中,关键词参考表是指根据各类语音指令对应的关键词生成的查询列表,该关键词为中文拼音版本。
本实施例中,匹配词是指关键词参考表中与语音片段关键词匹配的关键词。
本实施例中,待定标签添加是指无法存在多个匹配词但匹配词对应的归类结果与上一语音片段对应的归类结果不一致的语音片段。
并在当前语音片段的下一语音片段的归类结果确定时,将匹配词对应的全部归类结果与下一语音片段的归类结果进行对比,若存在与下一语音片段的归类结果一致的匹配词,则将该匹配词对应的归类结果作为当前语音片段的归类结果;
否则,向当前片段拼音语句添加无效语句标签。
本实施例中,无效语句标签是指无法确定归类结果的语音片段。
上述技术方案的工作原理及有益效果:本发明根据语音指令对应的关键词参考表,对每个语音指令片段进行操作归类,并在语音片段有多个归类可能(匹配词个数不为1)时,结合上下语音片段的归类结果对当前语音片段进行归类确定,提高了操作归类的智能性,并对无法确认归类结果的语音片段添加无效语句标签,为语音纠错过程中的处理提供基础,有效缩短纠错处理时间。
实施例6:
在实施例5的基础上,根据全部语音片段的归类结果,确定用户语音指令对应的最终归类结果,基于最终归类结果,获得标准语句,包括:
获取全部语音片段对应的第一归类结果,判断归类结果是否一致,若一致,判定用户语音指令为单指令语音,并将所述第一归类结果作为最终归类结果;
否则,获取各个语音片段与相邻语音片段的第一归类结果的相似情况,若相邻片段的分类结果不一样,且相邻片段不携带无效语句标签时,则向相邻片段添加数字标签0;
否则,向相邻片段添加数字标签1;
当语音片段只有0数字标签时,判定所述语音片段为错误片段;
当语音片段不只有0数字标签时,判定所述语音片段为正确片段;
获取全部正确片段对应的第二归类结果,当第二归类结果一致时,判定用户语音指令为单指令语音,并将所述第二归类结果作为最终归类结果;
否则,判定用户语音指令为多指令语音,根据第二归类结果对语音片段进行片段归类,获得多个最终归类结果;
基于最终归类结果,获取对应操作分类对应的指令标准参考表并进行语句匹配,获得用户语音指令对应的全部标准语句。
本实施例中,归类结果的一致是指相邻语音片段的归类结果是否一样。
本实施例中,处理语音指令的两个端点对应的语音片只有一个数字标签,其他语音片段都有两个数字标签,数字标签包括0和1。
本实施例中,错误片段是指没有相邻相同归类结果的语音片段,该语音片段可能由用户说话口音、音量太小无法录入等问题导致语音片段关键词无法匹配导致,也可能是语音指令输入停顿。
本实施例中,第一归类结果是指全部语音片段的归类结果;第二归类结果是指处理错误片段以外的语音片段的归类结果。
本实施例中,指令标准参考表是指不同操作指令对应的标准指令的输入对应的表格,例如,打开类语音指令,必要包括“打开”指令、打开文件、报表或者报告的名称等。
上述技术方案的工作原理及有益效果:本发明根据全部语音片段的一致性,对语音指令的操作分类结果进行确定,并在语音指令对应的全部语音片段归类结果不一致时,在通过相邻语音片段的一致性,对语音片段进行分类,获得错误片段和正确片段,然后再根据分类结果语音指控的复杂程度,为用户控制指令的解析提供基础,提高***复杂语音指令的处理能力,确保即使在多个复杂操作指令同时输入的情况下也可以成功解析生成对应的***操作指令。
实施例7:
在实施例5的基础上,在接收到语音服务前端子***上的语音结束指令时,还包括,对当前应用场景进行确定,包括:
获取当前使用阶段中全部已响应***操作指令,并根据各个已响应***操作指令对应的指令响应时间,确定已响应***操作指令之间的关联使用偏好;
基于各个已响应***操作指令对应的语音指令,生成多个语音集合,对同一语音集合中的多个语音进行对比,确定当前使用阶段中各个已响应***操作指令的描述偏好;
基于描述偏好以及关联使用偏好,确定用户在当前使用阶段中的语音指令的使用偏好;
获取各个应用场景对应的语音控制偏好与所述使用偏好进行对比,获得最佳相似场景,并将所述最佳相似场景作为当前应用场景。
本实施例中,关联使用偏好是指不同的已响应***操作指令同时被输入执行的用户使用偏好。
本实施例中,已响应***操作指令是指用户在当前使用阶段中根据语音指令控制已经完成的操作对应的***操作指令。
本实施例中,语音集合是指同一类型的已响应***操作指令构成的语音指令集合。
本实施例中,描述偏好是指在当前使用阶段中用户对不同类型的***操作指令的语音描述特点。
本实施例中,语音控制偏好是指预先设定好的不同场景对应的使用偏好。
本实施例中,最佳相似场景数字是指语音控制偏好与用户使用偏好相似度最高的应用场景。
上述技术方案的工作原理及有益效果:本发明根据当前使用阶段中全部已响应***操作指令的指令响应时间,确定通过同一语音指令输入的已响应***操作指令,从而确定各个已响应***操作指令的之间的关系,从而得到用户操作指令进行关联使用的偏好,然后在根据各个已响应***操作指令对应语音指令,确定各个已响应***操作指令的描述偏好,然后结合德奥更加全面的用户使用偏好,将获取各个应用场景对应的语音控制偏好与所述使用偏好进行对比,获得最佳相似场景,从而确定当前应用场景,为完整语音指令的解析提供了场景条件,确保获得符合当前应用场景的最佳解析规则,得到更加精准的复杂语音指令解析结果。
实施例8:
在实施例5的基础上,对各个语音片段进行串联,获得指令拼音语句,并结合用户的当前应用场景,基于标准语句对指令拼音语句进行纠错,获得纠错语音指令,并对纠错语音指令进行指令解析,得到语音解析结果,包括:
当用户语音指令为单指令语音时,直接将各个语音片段进行串联,获得第一指令拼音语句,并基于单指令语音对应的标准语句,生成校准拼音;
当用户语音指令为多指令语音时,获取语音片段的片段归类结果,基于片段归类结果生成节点标签,对语音片段进行串联,并将节点标签添加至对应的位置,生成第二指令拼音语句;
基于节点标签顺序,对多个标准语句进行拼接,生成第二指令拼音语句对应的校准拼音;
根据校准拼音,并结合当前应用场景,对第一指令拼音语句或者第二指令拼音语句的错位音节进行修正,获得纠错语音指令;
根据最终归类结果,确定用户指令的解析规则,基于所述解析规则,对纠错语音指令进行解析,获得语音解析结果。
本实施例中,第一指令拼音语句是指单指令语音对应的完整拼音语句。
本实施例中,第二指令拼音语句是指添加了节点标签的多指令语音对应的完整拼音语句。其中节点标签是指语音指令中操作类型转变的位置。
本实施例中,校准拼音是指各种操作指令对应的标准语句的中文拼音语句。
本实施例中,解析规则是指不同操作对应的操作实现对应的指令输入标准,该标准与指令标准参考表一致,其中解析过程中需要借用自然处理(NLP)技术及预训练模型,并结合自定义字典(主要是业务实体名称的导入),以确保解析的有效性。解析内容包括但不限于操作类型(打开、进入、切换、调阅等)、服务类别(如报表、菜单/页面、模型、报告等)、目标业务实体(用户指令中具体要操作的目标业务实体对象)、参数(如时间参数年月、区域、特定组织等)。
上述技术方案的工作原理及有益效果:本发明根据语音指令的指令数量语音指令进行不同的处理,从而确保标准语句的正确获取,保证语音纠错的精准进行,并根据最终归类结果,确定用户指令的解析规则,基于所述解析规则,对纠错语音指令进行解析,获得语音解析结果,实现了复杂语音指令以及多操作语音指令的操作意图的确定。
实施例9:
在实施例8的基础上,根据校准拼音,并结合当前应用场景对第一指令拼音语句或者第二指令拼音语句的错位音节进行修正,获得纠错语音指令,包括:
通过自然处理技术,结合当前应用场景以及无效语句标签,对第一指令拼音语句或者第二指令拼音语句进行冗余删除,获得主干语句;
通过预训练语音模型将主干语句与校准拼音进行对比纠错,获得纠错语音指令。
本实施例中,主干语句是指删除了冗余的语音指令。
上述技术方案的工作原理及有益效果:本发明通过自然处理技术,结合当前应用场景以及无效语句标签,对第一指令拼音语句或者第二指令拼音语句进行冗余删除,获得主干语句;通过预训练语音模型将主干语句与校准拼音进行对比纠错,获得纠错语音指令,提高语音指令的解析结果的准确性。
实施例10:
本发明提供一种基于语音指令的智能***操作***,如图5所示,包括:语音服务前端子***以及语音服务后端子***;
其中,语音前端***包括语音录制模块、指令处理模块以及操作控制模块;
所述语音录制模块,用于对用户语音指令进行实时录制并转换为语音数据流准实时推送给语音识别模块;
所述指令处理模块,用于按照语音解析结果,生成***操作指令;
所述操作控制模块,用于控制前端页面作出操作响应;
语音后端***包括语音识别模块以及语音解析模块,其中,
所述语音识别模块,用于语音服务后端子***对语音数据流进行语音识别,并将识别结果准实时返回至指令处理模块。
所述语音解析模块,用于在用户语音指令输入结束后,结合当前应用场景,进行语音纠错以及语音解析,并将语音解析结果发送至指令处理模块。
上述技术方案的工作原理及有益效果:本发明获取用户语音指令的按照预设时长(如300ms)进行分段,获得语音片段并转化为语音数据流,准实时发送至语音服务后端子***,实现了语音指令的自动采集,并自动分段确保用户及时输入较长的语音指令的情况下也可以及时得到识别反馈结果;将语音片段存储至临时数据集合中,将当前语音片段与临时数据集合中已有的语音片段进行对比,判断各个语音片段的一致性,若一致,判定用户的语音指令输入完成,并生成语音结束指令发送至语音服务后端子***,实现了语音指令输入的结束的智能识别,为语音指令的纠错解析处理提供触发依据,确保用户每个语音指令都被完整的录制,有效提高语音指令执行的准确度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种基于语音指令的智能***操作方法,其特征在于,包括:
步骤1:基于语音服务前端子***对用户语音指令进行实时录制并转换为语音数据流准实时推送给语音服务后端子***;
步骤2:语音服务后端子***对语音数据流进行语音识别,并将识别结果准实时返回至语音服务前端子***;
步骤3:在用户语音指令输入结束后,结合当前应用场景,进行语音纠错以及语音解析,并将语音解析结果发送至语音服务前端子***;
步骤4:语音服务前端子***按照语音解析结果,生成***操作指令,控制前端页面作出操作响应;
其中,步骤1 ,包括:
获取用户语音指令的按照预设时长进行分段,获得语音片段并转化为语音数据流,准实时发送至语音服务后端子***;
将语音片段存储至临时数据集合中,将当前语音片段与临时数据集合中已有的语音片段进行对比,判断各个语音片段的一致性,若一致,判定用户的语音指令输入完成,并生成语音结束指令发送至语音服务后端子***;
步骤3,包括:
基于识别结果对用户的语音片段进行拼音转化,获得片段拼音语句,并根据片段拼音语句,对用户当前语音片段进行归类,获得归类结果;
在接收到语音服务前端子***上的语音结束指令时,根据全部语音片段的归类结果,确定用户语音指令对应的最终归类结果,基于最终归类结果,获得标准语句;
对各个语音片段进行串联,获得指令拼音语句,并结合用户的当前应用场景,基于标准语句对指令拼音语句进行纠错,获得纠错语音指令,并对纠错语音指令进行指令解析,得到语音解析结果,发送至语音服务前端子***;
其中,根据片段拼音语句,对当前语音片段进行归类,包括:
获取语音指令对应的关键词参考表,并对片段拼音语句进行关键词提取,基于所述关键词,遍历关键词参考表,判断是否存在匹配词,若存在匹配词,获取匹配词个数,当匹配词个数为1时,判定匹配词对应的操作分类为片段拼音语句对应的当前语音片段的归类结果;
当匹配词个数不为1时,获取上一语音片段对应的归类结果,判断匹配词对应的全部归类结果中是否存在与上一语音片段对应的归类结果一致的操作分类,若存在,将上一语音片段对应的归类结果作为当前语音片段对应的归类结果;
否则,基于匹配词对应的操作分类生成待定标签添加至当前片段拼音语句;
当不存在匹配词时,向当前片段拼音语句添加无效语句标签。
2.根据权利要求1所述的一种基于语音指令的智能***操作方法,其特征在于,步骤2,包括:
语音服务后端子***接收语音数据流;
基于预训练的语音识别模型对语音数据流进行实时识别,获得识别结果;
将识别结果,同步发送至语音服务前端子***以及语音解析模块。
3.根据权利要求1所述的一种基于语音指令的智能***操作方法,其特征在于,根据全部语音片段的归类结果,确定用户语音指令对应的最终归类结果,基于最终归类结果,获得标准语句,包括:
获取全部语音片段对应的第一归类结果,判断归类结果是否一致,若一致,判定用户语音指令为单指令语音,并将所述第一归类结果作为最终归类结果;
否则,获取各个语音片段与相邻语音片段的第一归类结果的相似情况,若相邻片段的分类结果不一样,且相邻片段不携带无效语句标签时,则向相邻片段添加数字标签0;
否则,向相邻片段添加数字标签1;
当语音片段只有0数字标签时,判定所述语音片段为错误片段;
当语音片段不只有0数字标签时,判定所述语音片段为正确片段;
获取全部正确片段对应的第二归类结果,当第二归类结果一致时,判定用户语音指令为单指令语音,并将所述第二归类结果作为最终归类结果;
否则,判定用户语音指令为多指令语音,根据第二归类结果对语音片段进行片段归类,获得多个最终归类结果;
基于最终归类结果,获取对应操作分类对应的指令标准参考表并进行语句匹配,获得用户语音指令对应的全部标准语句。
4.根据权利要求1所述的一种基于语音指令的智能***操作方法,其特征在于,在接收到语音服务前端子***上的语音结束指令时,还包括,对当前应用场景进行确定,包括:
获取当前使用阶段中全部已响应***操作指令,并根据各个已响应***操作指令对应的指令响应时间,确定已响应***操作指令之间的关联使用偏好;
基于各个已响应***操作指令对应的语音指令,生成多个语音集合,对同一语音集合中的多个语音进行对比,确定当前使用阶段中各个已响应***操作指令的描述偏好;
基于描述偏好以及关联使用偏好,确定用户在当前使用阶段中的语音指令的使用偏好;
获取各个应用场景对应的语音控制偏好与所述使用偏好进行对比,获得最佳相似场景,并将所述最佳相似场景作为当前应用场景。
5.根据权利要求1所述的一种基于语音指令的智能***操作方法,其特征在于,对各个语音片段进行串联,获得指令拼音语句,并结合用户的当前应用场景,基于标准语句对指令拼音语句进行纠错,获得纠错语音指令,并对纠错语音指令进行指令解析,得到语音解析结果,包括:
当用户语音指令为单指令语音时,直接将各个语音片段进行串联,获得第一指令拼音语句,并基于单指令语音对应的标准语句,生成校准拼音;
当用户语音指令为多指令语音时,获取语音片段的片段归类结果,基于片段归类结果生成节点标签,对语音片段进行串联,并将节点标签添加至对应的位置,生成第二指令拼音语句;
基于节点标签顺序,对多个标准语句进行拼接,生成第二指令拼音语句对应的校准拼音;
根据校准拼音,并结合当前应用场景,对第一指令拼音语句或者第二指令拼音语句的错位音节进行修正,获得纠错语音指令;
根据最终归类结果,确定用户指令的解析规则,基于所述解析规则,对纠错语音指令进行解析,获得语音解析结果。
6.根据权利要求5所述的一种基于语音指令的智能***操作方法,其特征在于,根据校准拼音,并结合当前应用场景对第一指令拼音语句或者第二指令拼音语句的错位音节进行修正,获得纠错语音指令,包括:
通过自然处理技术,结合当前应用场景以及无效语句标签,对第一指令拼音语句或者第二指令拼音语句进行冗余删除,获得主干语句;
通过预训练语音模型将主干语句与校准拼音进行对比纠错,获得纠错语音指令。
7.一种基于语音指令的智能***操作***,其特征在于,包括:语音服务前端子***以及语音服务后端子***;
其中,语音前端***包括语音录制模块、指令处理模块以及操作控制模块;
所述语音录制模块,用于对用户语音指令进行实时录制并转换为语音数据流准实时推送给语音识别模块;
所述指令处理模块,用于按照语音解析结果,生成***操作指令;
所述操作控制模块,用于控制前端页面作出操作响应;
语音后端***包括语音识别模块以及语音解析模块,其中,
所述语音识别模块,用于语音服务后端子***对语音数据流进行语音识别,并将识别结果准实时返回至指令处理模块;
所述语音解析模块,用于基于语音识别结果对用户语音指令进行语音解析,并在用户语音指令输入结束后,结合当前应用场景,将语音解析结果发送至指令处理模块;
其中,语音录制模块对用户语音指令进行实时录制并转换为语音数据流准实时推送给语音识别模块的方法包括:
获取用户语音指令的按照预设时长进行分段,获得语音片段并转化为语音数据流,准实时发送至语音服务后端子***;
将语音片段存储至临时数据集合中,将当前语音片段与临时数据集合中已有的语音片段进行对比,判断各个语音片段的一致性,若一致,判定用户的语音指令输入完成,并生成语音结束指令发送至语音服务后端子***;
语音解析模块基于语音识别结果对用户语音指令进行语音解析,并在用户语音指令输入结束后,结合当前应用场景,将语音解析结果发送至指令处理模块的方法,包括:
基于识别结果对用户的语音片段进行拼音转化,获得片段拼音语句,并根据片段拼音语句,对用户当前语音片段进行归类,获得归类结果;
在接收到语音服务前端子***上的语音结束指令时,根据全部语音片段的归类结果,确定用户语音指令对应的最终归类结果,基于最终归类结果,获得标准语句;
对各个语音片段进行串联,获得指令拼音语句,并结合用户的当前应用场景,基于标准语句对指令拼音语句进行纠错,获得纠错语音指令,并对纠错语音指令进行指令解析,得到语音解析结果,发送至语音服务前端子***;
其中,根据片段拼音语句,对当前语音片段进行归类,包括:
获取语音指令对应的关键词参考表,并对片段拼音语句进行关键词提取,基于所述关键词,遍历关键词参考表,判断是否存在匹配词,若存在匹配词,获取匹配词个数,当匹配词个数为1时,判定匹配词对应的操作分类为片段拼音语句对应的当前语音片段的归类结果;
当匹配词个数不为1时,获取上一语音片段对应的归类结果,判断匹配词对应的全部归类结果中是否存在与上一语音片段对应的归类结果一致的操作分类,若存在,将上一语音片段对应的归类结果作为当前语音片段对应的归类结果;
否则,基于匹配词对应的操作分类生成待定标签添加至当前片段拼音语句;
当不存在匹配词时,向当前片段拼音语句添加无效语句标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410094525.XA CN117636877B (zh) | 2024-01-24 | 2024-01-24 | 一种基于语音指令的智能***操作方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410094525.XA CN117636877B (zh) | 2024-01-24 | 2024-01-24 | 一种基于语音指令的智能***操作方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117636877A CN117636877A (zh) | 2024-03-01 |
CN117636877B true CN117636877B (zh) | 2024-04-02 |
Family
ID=90021892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410094525.XA Active CN117636877B (zh) | 2024-01-24 | 2024-01-24 | 一种基于语音指令的智能***操作方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117636877B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877786A (zh) * | 2018-06-29 | 2018-11-23 | 恒信东方文化股份有限公司 | 指令识别方法 |
CN110767232A (zh) * | 2019-09-29 | 2020-02-07 | 深圳和而泰家居在线网络科技有限公司 | 语音识别控制方法及装置、计算机设备和计算机存储介质 |
CN111666380A (zh) * | 2020-06-12 | 2020-09-15 | 北京百度网讯科技有限公司 | 一种智能呼叫方法、装置、设备和介质 |
CN113223509A (zh) * | 2021-04-28 | 2021-08-06 | 华南理工大学 | 一种应用于多人混杂场景下的模糊语句识别方法及*** |
CN113284499A (zh) * | 2021-05-24 | 2021-08-20 | 湖北亿咖通科技有限公司 | 一种语音指令识别方法及电子设备 |
CN113496696A (zh) * | 2020-04-03 | 2021-10-12 | 中国科学院深圳先进技术研究院 | 一种基于语音识别的言语功能自动评估***和方法 |
CN114444479A (zh) * | 2022-04-11 | 2022-05-06 | 南京云问网络技术有限公司 | 一种端到端中文语音文本纠错方法、装置和存储介质 |
CN117351959A (zh) * | 2023-09-14 | 2024-01-05 | 广东云林信息工程技术股份有限公司 | 基于拼音纠错的多重模型语音识别与指令召回方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9672825B2 (en) * | 2013-01-03 | 2017-06-06 | Sestek Ses Iletisim Bilgisayar Teknolojileri Sanayi Ve Ticaret Anonim Sirketi | Speech analytics system and methodology with accurate statistics |
CN107451121A (zh) * | 2017-08-03 | 2017-12-08 | 京东方科技集团股份有限公司 | 一种语音识别方法及其装置 |
US20200082808A1 (en) * | 2018-09-12 | 2020-03-12 | Kika Tech (Cayman) Holdings Co., Limited | Speech recognition error correction method and apparatus |
US11081102B2 (en) * | 2019-08-16 | 2021-08-03 | Ponddy Education Inc. | Systems and methods for comprehensive Chinese speech scoring and diagnosis |
-
2024
- 2024-01-24 CN CN202410094525.XA patent/CN117636877B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877786A (zh) * | 2018-06-29 | 2018-11-23 | 恒信东方文化股份有限公司 | 指令识别方法 |
CN110767232A (zh) * | 2019-09-29 | 2020-02-07 | 深圳和而泰家居在线网络科技有限公司 | 语音识别控制方法及装置、计算机设备和计算机存储介质 |
CN113496696A (zh) * | 2020-04-03 | 2021-10-12 | 中国科学院深圳先进技术研究院 | 一种基于语音识别的言语功能自动评估***和方法 |
CN111666380A (zh) * | 2020-06-12 | 2020-09-15 | 北京百度网讯科技有限公司 | 一种智能呼叫方法、装置、设备和介质 |
CN113223509A (zh) * | 2021-04-28 | 2021-08-06 | 华南理工大学 | 一种应用于多人混杂场景下的模糊语句识别方法及*** |
CN113284499A (zh) * | 2021-05-24 | 2021-08-20 | 湖北亿咖通科技有限公司 | 一种语音指令识别方法及电子设备 |
CN114444479A (zh) * | 2022-04-11 | 2022-05-06 | 南京云问网络技术有限公司 | 一种端到端中文语音文本纠错方法、装置和存储介质 |
CN117351959A (zh) * | 2023-09-14 | 2024-01-05 | 广东云林信息工程技术股份有限公司 | 基于拼音纠错的多重模型语音识别与指令召回方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117636877A (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305634B (zh) | 解码方法、解码器及存储介质 | |
US10332033B2 (en) | Self-learning based dialogue apparatus and method for incremental dialogue knowledge | |
US7562014B1 (en) | Active learning process for spoken dialog systems | |
CN102176310B (zh) | 具有巨大词汇量的语音识别*** | |
WO2020215554A1 (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN106710586B (zh) | 一种语音识别引擎自动切换方法和装置 | |
US20170199867A1 (en) | Dialogue control system and dialogue control method | |
US20070219798A1 (en) | Training system for a speech recognition application | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN111477216A (zh) | 一种用于对话机器人的音意理解模型的训练方法及*** | |
CN109920415A (zh) | 基于语音识别的人机问答方法、装置、设备和存储介质 | |
CN110010121B (zh) | 验证应答话术的方法、装置、计算机设备和存储介质 | |
CN109785829B (zh) | 一种基于语音控制的客服辅助方法和*** | |
CN110021293A (zh) | 语音识别方法及装置、可读存储介质 | |
CN110503956B (zh) | 语音识别方法、装置、介质及电子设备 | |
US11907665B2 (en) | Method and system for processing user inputs using natural language processing | |
KR20210087098A (ko) | 음성 인터랙션에 기반하는 정보 검증 방법, 장치, 기기, 컴퓨터 저장 매체 및 컴퓨터 프로그램 제품 | |
WO2023272616A1 (zh) | 一种文本理解方法、***、终端设备和存储介质 | |
US20030050772A1 (en) | Apparatus and method for an automated grammar file expansion tool | |
CN112101003A (zh) | 语句文本的切分方法、装置、设备和计算机可读存储介质 | |
CN114492396A (zh) | 用于汽车专有名词的文本错误纠正方法及可读存储介质 | |
CN113593522A (zh) | 一种语音数据标注方法和装置 | |
CN117636877B (zh) | 一种基于语音指令的智能***操作方法及*** | |
CN110809796B (zh) | 具有解耦唤醒短语的语音识别***和方法 | |
CN111524508A (zh) | 语音对话***以及语音对话实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |