CN115410572A

CN115410572A - 语音交互方法、装置、终端、存储介质及程序产品

Info

Publication number: CN115410572A
Application number: CN202211046936.9A
Authority: CN
Inventors: 陈科鑫; 张晓帆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-11-29

Abstract

本申请实施例公开了一种语音交互方法、装置、终端、存储介质及程序产品，属于人机交互领域。该方法包括：对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果；基于所述文本识别结果构建在线语料库；在接收到语音指令的情况下，基于所述在线语料库以及语音识别模型对所述语音指令进行文本转换，得到语音识别文本；基于所述语音识别文本进行人机交互。采用本申请实施例提供的方案，能够基于当前界面显示元素构建在线语料库，并基于在线语料库对用户语音指令进行识别，有助于提高语音识别的准确性。

Description

语音交互方法、装置、终端、存储介质及程序产品

技术领域

本申请实施例涉及人机交互技术领域，特别涉及一种语音交互方法、装置、终端、存储介质及程序产品。

背景技术

随着智能设备的普及，人机交互也逐步兴起，语音识别是用户与智能设备进行人机交互的一个重要环节。

语音识别是指将人类语音处理成文本文字的过程，相关技术中，基于离线语料预先训练得到ASR(Automatic Speech Recognition，自动语音识别技术)语言模型，终端通过该语言模型获取语音识别结果。

然而，在实际的人机交互过程中，交互场景丰富多样，预先训练的语言模型存在不符合当前应用场景的情况，导致语音识别的准确度较低。

发明内容

本申请实施例提供了一种语音交互方法、装置、终端、存储介质及程序产品。所述技术方案如下：

一方面，本申请实施例提供了一种语音交互方法，所述方法包括：

对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果；

基于所述文本识别结果构建在线语料库；

在接收到语音指令的情况下，基于所述在线语料库以及语音识别模型对所述语音指令进行文本转换，得到语音识别文本；

基于所述语音识别文本进行人机交互。

另一方面，本申请实施例提供了一种语音交互装置，所述装置包括：

文本识别模块，用于对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果；

所述文本识别模块，还用于基于所述文本识别结果构建在线语料库；

文本转换模块，用于在接收到语音指令的情况下，基于所述在线语料库以及语音识别模型对所述语音指令进行文本转换，得到语音识别文本；

人机交互模块，用于基于所述语音识别文本进行人机交互。

另一方面，本申请实施例提供了一种终端，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如上述方面所述的语音交互方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如上述方面所述的语音交互方法。

另一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的语音交互方法。

本申请实施例中，在对语音指令进行文本转换时，除了应用到语音识别模型外，还应用到基于人机交互界面中界面显示元素的文本识别结果所构建的在线语料库，即在语音识别过程中融入符合当前人机交互场景的语料库，因此在语音指令指示对特定界面显示元素进行交互时，能够提高转换得到的语音识别文本与界面显示元素的相关性，从而提高语音识别的准确性，进而提高基于语音指令进行人机交互的交互准确性。

附图说明

图1是相关技术中进行语音交互的场景示意图；

图2示出了本申请一个示例性实施例提供的实施环境的示意图；

图3示出了本申请一示例性实施例提供的语音交互方法的流程图；

图4示出了本申请一示例性实施例提供的人机交互界面组成元素的示意图；

图5示出了本申请另一示例性实施例提供的语音交互方法的流程图；

图6示出了本申请一示例性实施例提供的隐性文本识别的过程的流程图；

图7示出了本申请另一示例性实施例提供的隐性文本识别的过程的流程图；

图8示出了本申请一示例性实施例提供的语音识别过程的示意图；

图9示出了本申请一示例性实施例提供的文本转换过程的流程图；

图10示出了本申请一示例性实施例提供的字符路径图的示意图；

图11示出了本申请一示例性实施例提供的语音交互***的主要组成部分的方框图；

图12示出了本申请另一示例性实施例提供的语音交互方法的流程图；

图13示出了本申请一示例性实施例提供的语音交互装置的结构框图；

图14示出了本申请一示例性实施例提供的终端的结构方框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

相关技术中，终端进行人机交互时往往基于预先训练得到的语音识别模型(基于离线语料库)进行用户语音识别，但是预先构建的离线语料库包含大量的词汇，且多是根据人类普遍语言习惯所构建的，因此往往无法与实际的人机交互场景相匹配，进而无法获取准确的语音识别结果。

图1示出了采用传统语音识别方法进行语音识别的示意图，用户所发出的语音指令为“点击离人心上”，但是利用语音识别模型识别出的结果是“点击丽人行上”，此时终端无法在当前界面检测到识别结果所指示的内容，导致语音交互失败，因此，相关技术中的语音交互方法的适用性较差，无法充分满足用户的语音交互需求。

使用本申请实施例中提供的语音交互方法，终端基于交互界面显示元素的文本识别结果构建在线语料库，即构建符合当前人机交互场景的语料库，再基于在线语料库以及语音识别模型进行语音识别，大大提高了语音识别的准确性，适用性更强。

图2示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境可以包括：终端210，服务器220。

终端210可以是智能手机、智能电视、智能车机、平板电脑、个人计算机、可穿戴式电子设备等电子设备，本申请实施例对此不进行限定。

本实施例以智能电视为例进行实施环境的说明。

终端210的内部设有内置语音采集组件230，语音采集组件230用于获取用户语音指令。此外，终端210也可以通过连接外置语音采集组件的方式采集用户语音指令，且在终端210与外设语音采集组件进行连接的情况下内置语音采集组件230不进行工作。内置语音采集组件230与终端210建立连接，相应的终端210能够通过该连接获取用户语音指令。语音采集组件230可以是内设话筒等，外设语音采集组件可以是耳麦等，本申请对采集用户语音指令的组件类型不进行限定。

本申请实施例中，终端210用于对语音采集组件230采集到的用户语音指令进行语音信号处理，基于当前界面显示元素得到语音指令对应的文本指令，并进行人机交互。

终端210具有与服务器220进行数据通信的功能，以无线通信的方式建立连接，进而通过该连接进行数据通信。该通信连接可以为无线保真连接或移动数据网络连接等等，本申请实施例对此不作限定。

本申请实施例中，终端基于当前界面显示元素获取语音指令对应的文本时，可以通过终端210进行处理，也可以借助服务器220生成对应文本。

需要说明的是，终端的语音识别程序被唤醒后才能执行语音识别步骤，该唤醒指令预先设定，本申请实施例中的步骤是在终端语音识别程序被唤醒后执行的，本申请实施例对于唤醒语音交互程序的方式不作限定。

需要说明的是本申请所采集的所有界面显示元素都是在用户同意并授权的情况下进行采集的，且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

示意性的，如图2所示，用户在使用智能电视时，唤醒语音识别程序后，发出播放某一视频的指令，语音采集组件230接收到该语音指令后发送给与之连接的终端210，终端接收到用户语音指令后基于当前智能电视所显示的界面显示元素，创建ASR模型，再基于该ASR模型得到语音指令对应的文本指令，根据得到的文本指令播放相应视频。

图3示出了本申请一示例性实施例提供的语音交互方法的流程图。该方法包括：

步骤301，对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果。

人机交互界面指进行用户需要进行语音交互时的显示界面，界面中的显示元素包括界面文字、图像以及图标等。

终端对交互界面的文字、图像以及图标等元素进行文本识别，可以得到对应的文本识别结果。

步骤302，基于文本识别结果构建在线语料库。

在线语料库不同于离线语料库预先设置，是对交互界面的元素进行文本识别实时构建的。

终端得到文本识别结果后，将文本识别结果中的文字、词汇或语句作为在线语料库的内容。如图4所示人机交互界面401的文本识别结果包括“花朵”、“闹钟”、“搜索本机”以及“花朵在跳舞”等，终端获得语音识别结果后，将“花朵”、“闹钟”、“搜索本机”以及“花朵在跳舞”等作为在线语料库的内容。

步骤303，在接收到语音指令的情况下，基于在线语料库以及语音识别模型对语音指令进行文本转换，得到语音识别文本。

终端采集到用户语音指令后，将采集到的用户语音指令的物理信号通过数模转换以及前端语音信号处理得到转换后的数字语音信号，再根据构建的在线语料库以及语音识别模型，对接收到的语音指令进行语音识别，得到语音识别文本。

其中，语音识别模型的作用是将通过前端语音信号处理得到的数字语音信号，通过一系列的算法处理，识别为对应的文本文字。

在一种可能的实施方式中，前端信号处理采用ANC(Active Noise Cancellation，主动噪声消除)算法消除环境噪音、采用AGC(Automatic Gain Control)算法调整语音信号的幅值范围使得处理后输出的信号幅值平稳。

需要说明的是，本申请实施例不对数模转换方式以及前端信号处理的算法进行限定。

步骤304，基于语音识别文本进行人机交互。

终端得到语音识别结果后，将语音识别文本转换为机器能够识别的机器指令，从而根据该机器指令执行相应操作，完成人机交互。例如，终端得到的语音识别结果为“打开美食视频”，终端将该语音识别文本转换为机器指令后，执行打开美食视频的操作。

终上所述，终端在对语音指令进行文本转换时，除了应用到语音识别模型外，还应用到基于人机交互界面中界面显示元素的文本识别结果所构建的在线语料库，即在语音识别过程中融入符合当前人机交互场景的语料库，因此在语音指令指示对特定界面显示元素进行交互时，能够提高转换得到的语音识别文本与界面显示元素的相关性，从而提高语音识别的准确性，进而提高基于语音指令进行人机交互的交互准确性。

在线语料库是根据终端对人机交互界面显示元素进行文本识别得到的文本识别结果构建，在进行交互界面文本识别时，有些文字文本是直接以可见文本的形式显示的，即能够被用户直接看到的文字，然而，在实际的语音交互场景中，用户可能会直接表达对人机交互界面中图像内容的描述，例如，用户语音指令为“点开那个花朵的视频”，但在人机交互界面内并没有“花朵”两个字符，而是存在一张带有花朵的图像，因此，终端在进行文本识别时，可以选择以下两种方式中的至少一种。

一、对人机交互界面中的界面显示元素进行显性文本识别，得到显性文本识别结果，显性文本在人机交互界面中可见。

显性文本识别是终端对人机交互界面中的显性文本进行识别，得到显性文本识别结果。

其中，显性文本是指在当前人机交互界面以文字形式显示的，能够直接被用户看见的文字。

可选的，显性文本包括部分控件文本以及以图像形式存在的文字图像。人机交互界面中的控件具有多种属性，其中Text属性是用户可见的，以文字形式显示在人机交互界面的文本。显性文本中的部分控件文本即为控件的Text属性的文本。如图4所示的人机交互界面401，其中直接以文本形式显示的为显性文本，其中包括部分控件的Text属性文本，例如，第一文本框控件405的Text属性“热门推荐”、第二文本框控件407的Text属性“热腾腾的家乡面”以及第三文本框控件409的Text属性“花朵在跳舞”等，此外，人机交互界面401中的显性文本还包括以图像形式存在的文字图像，例如，第一图片控件406对应图片中的“美食视频”。

由于显性文本中可能包含部分控件的Text属性文本以及图像形式存在的文字图像两种类型，因此终端在对人机交互界面中的显示元素进行显性文本识别时，至少需要根据以上两种不同显性文本中的一种进行文本识别，并基于不同的显性文本类型，选择不同的文本识别方式。

在显性文本为控件的Text属性文本的情况下，终端获取人机交互界面对应的控件树，该控件树由人机交互界面中界面显示元素对应的控件构成，控件用于承载界面显示元素；遍历控件树中的各个控件，从控件对应的控件信息中提取显性文本属性，得到显性文本识别结果。

在一种可能的实施方式中，终端可以通过***定义的Accessibility(可访问性)接口获取人机交互界面的控件树信息，终端获取到控件树后，通过遍历控件树中各个节点的控件，可以从控件对应控件信息中提取显性文本属性，这样对于每一个节点的控件都可以获取到他的Text文本属性即显性文本属性，由于控件之间的作用不同，因此，有些控件的Text文本属性中包含有文本文字，而有些控件的Text属性为空。图4中控件树402的结构即为人机交互界面401中控件的组成结构，控件树402展现了人机交互界面401中不同控件的层级关系，控件树信息中包含控件的坐标位置以及控件属性等信息。

在一种可能的实施方式中，终端在通获取到的控件树提取显性文本属性的同时，也会提取控件树中的控件的坐标位置以及控件属性等信息，用以支持终端对页面中其他显示元素进行文本识别。

在显性文本是以图像形式存在的文字图像的情况下，终端对人机交互界面中的界面显示元素进行光学字符识别，得到字符识别结果；将字符识别结果确定为显性文本识别结果。

终端对人机交互界面的界面显示元素进行光学字符识别是通过终端内置的OCR(Optical Character Recognition，光学字符识别)算法进行识别得到的，使用OCR算法能够将人机交互界面中以图像形式存在的文字图像识别为对应的文字。

通常情况下，人机交互界面中有大量的文字是以图像形式存在的文字图像，例如，视频类，新闻类控件的文字往往位于图像中，无法通过遍历控件树中各个节点的控件直接获取。因此，需要对这类以图像形式存在的文字图像进行光学字符识别从而得到该显性文本识别结果。

下面通过一个示例性实施例，对基于显性文本识别的语音交互的方法进行说明，本实施例中的显性文本是文字图像对应的文字文本。

图5示出了本申请另一示例性实施例提供的语音交互方法的流程图。该方法包括：

步骤501，获取人机交互界面对应的控件树，控件树由人机交互界面中的控件构成，控件用于承载界面显示元素。

可选的，终端通过***定义的Accessibility接口直接获取到人机交互界面对应的控件树。

步骤502，确定控件树中的第一控件，第一控件用于承载包含文本内容的界面显示元素。

其中，包含文本内容的界面元素可能是图像元素和视频元素等。相应的，控件树中可能承载包含文本内容的界面显示元素的控件可能包括视频控件和图片控件。

控件树是一种树形结构，包含承载人机交互界面中界面显示元素的所有控件，每一个控件具有其对应的控件信息，并且每个控件对应控件树中的一个节点。因此，终端获取到控件树后，可以遍历控件树的各个节点，通过检索控件信息，提取出用于承载包含文本显示内容的界面显示元素的控件，将其确定为第一控件。

例如，图4中的第一图片控件406对应的界面显示元素中包含显性文本“美食视频”，因此，终端获取到控件树后，可以确定用于承载“美食视频”所在图像的第一图片控件406为第一控件。

在一种可能的实施方式中，终端可以对人机交互界面进行截图，对整张人机交互界面截图进行光学字符识别，但是，通过这种方式进行光学字符识别的内容过多，会导致运算量较大。因此，可以采用本步骤缩小光学字符识别的范围，减小运算量。

步骤503，基于第一控件的第一控件坐标，对人机交互界面中第一控件承载的界面显示元素进行光学字符识别，得到字符识别结果。

终端在获取控件树时就能够同时得到控件树中每一节点对应控件的控件坐标，每一个控件都有一个与其一一对应的控件坐标。

终端确定第一控件后，即可获取第一控件对应的控件坐标。控件坐标中可能包含了该控件位于当前窗口中最左端和最顶端间的距离、相对容器的水平和垂直坐标以及滚动高度等方面的信息，因此，终端获取到第一坐标后就能够准确的在人机交互界面中定位到相应的界面显示元素，再对定位到的界面显示元素进行光学字符识别。

光学字符识别过程需要经过图像输入、图像预处理、字符切割、特征提取和后处理矫正等步骤，本申请实施例在此不做赘述。

步骤504，基于文本识别结果构建在线语料库。

本步骤的实施方式可以参考上述步骤302，本实施例在此不做赘述。

步骤505，在接收到语音指令的情况下，基于在线语料库以及语音识别模型对语音指令进行文本转换，得到语音识别文本。

本步骤的实施方式可以参考上述步骤303，本实施例在此不做赘述。

步骤506，基于语音识别文本进行人机交互。

本步骤的实施方式可以参考上述步骤304，本实施例在此不做赘述。

本申请实施例中，终端通过获取承载包含文本内容的界面显示元素第一控件，再通过获取第一控件的第一控件坐标的方式确定出其对应人机交互界面的界面元素进行光学字符识别，能够有针对性的对界面中以图像形式存显示的文字图像进行文本识别，并将识别结果加入在线语料库，能够使在线语料库内容更加全面，进而能够更加全面的识别用户语音指令。

二、对人机交互界面中的界面显示元素进行隐性文本识别，得到隐性文本识别结果，隐性文本在人机交互界面中不可见。

隐性文本识别是终端对人机交互界面中的隐性文本进行识别，得到隐性文本识别结果。

其中，隐性文本是指在当前人机交互界面不直接以文字的形式显示的，不能被用户看到的文字。

可选的，隐性文本包括部分控件的非可见文本属性、图标类控件表示的含义，以及图像的语义。例如，图4中所示的人机交互界面401中，其中，不直接以文字形式显示的文字为隐性文本，隐性文本包括：部分控件的非可见文本属性，如图4中的承载的界面显示元素中的应用图标的第二图标控件404所对应的隐藏文本属性为“短信”；图标类控件表示含义对应的文本，例如，图4中第一图标组件403承载的界面显示元素中放大镜图标所表示的含义对应文本往往是“搜索”等；图像语义对应的文本，例如，图4中视频控件408承载的界面显示元素中的视频的封面对应的语义的对应文本为“花朵”。

在隐性文本为非可见文本属性的情况下，终端获取人机交互界面对应的控件树，控件树由人机交互界面中的控件构成，控件用于承载界面显示元素；遍历控件树中的各个控件，从控件对应的控件信息中提取隐藏文本属性，得到隐性文本识别结果。

终端获取到人机交互界面的控件树信息后，通过遍历控件树中各个节点的控件，可以从控件对应的控件信息中提取隐藏的文本属性，即ContentDescription(内容描述)文本属性。

不同于Text文本属性，ContentDescription文本属性是开发者写在控件内部的属性，用于描述控件功能的文本，是在人机交互界面中不可见的，一方面，是开发者使界面美观而将部分文本隐藏到ContentDescription文本属性中，另一方面由于ContentDescription文本属性是由开发者写入的，其内容往往是口语化的功能描述，提取隐藏文本属性得到的文本识别结果更能贴近用户可能表达的语音指令，因此，提取隐性文本中的非可见文本属性加入在线语料库是必要的。

在隐性文本为图标语义的情况下，终端对人机交互界面中的图标进行图标语义识别，得到图标语义识别结果，图标语义识别结果用于表征图标的用途；将图标语义识别结果确定为隐性文本识别结果。

图标控件是一种特殊的图像控件，每一类图标都有其特定的含义，图标的形状以及其代表的含义通常是存在固定对应关系的，用户看到某一图标后往往能够理解其代表的含义，例如，删除按钮图标通常是一个垃圾桶、搜索按钮图标通常是一个放大镜，返回按钮通常是一个向左的箭头等等。如图4中第一图标组件403承载的界面显示元素放大镜图标，其代表的含义通常为“搜索”。

终端对图标语义识别的结果是用于表述图标用途的文本，例如，对于放大镜图标，其所表述的功能是搜索功能，因此，终端对放大镜图标进行语义识别的结果为“搜索”，并将“搜索”作为隐性文本识别结果。

在隐性文本为图像语义的情况下，终端对人机交互界面中的图像进行图像语义识别，得到图像语义识别结果，图像语义识别结果用于描述图像包含的图像内容；将图像语义识别结果确定为隐性文本识别结果。

图像语义是针对一类纯图像的语义，这类纯图像不同于图标类具有其特定含义，而是能够明确的被用户通过语言描述出来的图像，例如，图4中人机交互界面401中视频控件408承载的界面显示元素中的视频的封面图像，用户在发出语音指令时可能会对图像内容进行描述，如“点开那个花朵的视频”，人机交互界面401中是不包含“花朵”文字的。

终端对图像语义识别的结果是对图像控件显示内容的文字描述，终端识别图像语义得出对图像内容描述的文字，将得到的对图像内容描述的文字作为隐性文本识别结果。

下面将通过两个示例性实施例分别对隐性文本为图像语义和图标语义的情况下，进行隐性文本识别的过程进行说明。

图6示出了本申请一示例性实施例提供的隐性文本识别过程的流程图。该过程包括：

步骤601，获取人机交互界面对应的控件树，控件树由人机交互界面中的控件构成，控件用于承载界面显示元素。

本步骤的实施方式可以参考上述步骤501，本实施例在此不做赘述。

步骤602，从控件树中获取第二控件的第二控件坐标，第二控件用于承载图标。

在一种可能的实施方式中，终端可以对整个人机交互界面的界面显示元素进行图标语义识别，但是由于图标语义识别的运算量较大，因此率先采用本实施例的步骤缩小图标识别范围。

终端获取到控件树后，可以获取到控件树内位于各个节点的控件信息，终端能够从控件树中获取到用于承载图标的控件，将该控件确定为第二控件，并将该控件的位置坐标作为第二控件坐标。

步骤603，基于第二控件坐标，对人机交互界面中的图标进行图标语义识别，得到图标语义识别结果。

终端确定第二控件坐标后，能够确定第二控件承载的人机交互界面中的图标元素，进而能够对图标区域内的图形进行功能分类，再根据该图标所指示功能为该图标附上不同的文本。例如，界面中某一图标的形状为放大镜，终端可能将该放大镜图标分类为搜索类图标，进而为该图标附上“搜索”“查找”“搜一下”等文本。

在一种可能的实施方式中，对图标区域内的图形进行功能分类可以通过图标分类模型实现。预先训练图标分类模型，该模型用于计算输入图标的图标类型概率。终端将图标区域内的形状输入图标分类模型中，可得到输出结果，该输出结果用于表示图标类型的概率，将概率高于阈值的图标类型确定为最终的图标类型。其中图标类型包括搜索类图标、页面转换类图标、状态转换类图标等。该图标分类模型可以基于大量样本图标以及对应的图标类型训练得到。

终端在得到图标对应的图标类型后，终端根据预先设定的图标类型对应的文本内容，为图标附上相应的文本，并将该文本作为图标语义识别的结果。

需要说明的是，实际应用中，开发者在编辑界面时，可能会为部分图标增加ContentDescription文本属性，因此，终端在对带有ContentDescription文本属性的控件承载的界面图标进行语义识别时，可以不通过本实施例中的步骤获取图标语义，可以直接提取ContentDescription文本属性作为图标语义识别结果。

步骤604，将图标语义识别结果确定为隐性文本识别结果。

终端将对界面图标进行语义识别得到的语义识别结果作为隐性文本识别结果，加入在线语料库。

在本申请实施例中，终端通过控件树确定承载人机交互界面中图标的第二控件，再基于第二控件坐标对人机交互界面的图标进行语义识别，终端能够准确定位人机交互界面中的图标，再进行图标语义识别，能够准确的定位到图标元素，减少不必要的计算。同时，对界面中的图标进行语义识别并将识别结果加入在线语料库，使得语料库中的内容更加丰富，减小了终端无法识别用户语音内容的概率。

图7示出了本申请另一示例性实施例提供的隐性文本识别的过程的流程图。该过程包括：

步骤701，获取人机交互界面对应的控件树，控件树由人机交互界面中的控件构成，控件用于承载界面显示元素。

步骤702，从控件树中获取第三控件的第三控件坐标，第三控件用于承载包含图像的界面显示元素。

终端获取第三控件坐标的方式与上述步骤502中获取第二控件坐标的方式类似，终端获取到控件树后，可以获取到控件树内各个节点的控件信息，终端从控件树中获取用于承载界面图像的控件，将该控件确定为第三控件，并将该控件的位置坐标确定为第三控件坐标。

步骤703，基于第三控件坐标，对人机交互界面中的图像进行图像语义识别，得到图像语义识别结果。

终端确定第三控件坐标后能够确定第三控件承载的人机交互界面中的图像元素，进而能够对图像元素内容进行识别，得到对图像主要内容描述的文本，并将该文本作为图像语义识别结果。例如，人机交互界面中某一图像为直升飞机在飞行过程中的图像，则对该图像主要内容的描述文本可能为“天空中的直升飞机”或“正在飞行的直升飞机”等等。

在一种可能的实施方式中，终端可以通过图像描述模型获取描述界面图像的文本句子，将一只鸟在水面的上空飞翔的图像输入图像描述模型后，模型会输出“一只鸟在水面上飞”的文本。其中图像描述模型的内部算法可以有多种选择，其中一种可能的方式为通过CNN(Convolutional Neural Network，卷积神经网络)提取图像特征，然后经过LSTM(LongShort-Term Memory，长短期记忆)网络生成目标语言，其目标函数为最大化目标描述的最大似然估计。通过这种方式生成的目标语言为人机交互界面的图像内容的描述文本，即图像语义识别结果。

需要说明的是，进行图像语义识别的方式多种多样，本申请实施例中不对图像语义识别的方法进行限定。

步骤704，将图像语义识别结果确定为隐性文本识别结果。

终端将对界面图像进行语义识别得到的图像语义识别结果作为隐性文本识别结果，加入在线语料库。

在本申请实施例中，终端通过控件树确定承载人机交互界面中的图像的第三控件，再基于第三控件坐标对人机交互界面的图像进行语义识别，终端能够准确定位人机交互界面中的图标，再进行图像语义识别，能够准确定位到界面图像元素，避免终端进行不必要的计算。此外，对当前界面中的图像进行语义识别并将识别结果作为文本识别结果加入在线语料库中，解决了相关技术中用户对人机交互界面中图像进行描述时，终端识别错误或无法识别的情况，适用性更强。

需要说明的是，终端从控件树中提取文本的开销较小，但是***在进行光学字符识别、图标语义识别以及图像语义识别时，均需要占用一定的运算资源，也会使终端进行语音交互的时延性能下降。

通常情况下，终端所能采用的文本识别方式是开发人员预先配置的，在实际的应用中，会对进行文本识别的方式进行一定的取舍，选取部分文本识别方式作为目标文本识别方试，由于采取从控件树提取文本的方式所需运算量较少，所需开销较小，因此，控件树提取文本的使用优先级高于其他三种方式的使用优先级。

在一种可能的实施方式中，可以基于以下两种方式中的至少一种选择目标文本识别方式。

一、基于设备处理性能从候选文本识别方式中确定目标文本识别方式。

在该设备为手机、平板电脑或笔记本电脑等处理性能较好的电子设备的情况下，可以将上述三种文本识别方式均确定为目标文本识别方式；在该设备为车机、智能电视等处理性能较差的文本时，可以不选择或只选择部分文本识别方式作为目标文本识别方式。

在一种可能的实施方式中，终端配置有多种文本识别方式，但是在实际应用过程中的某段时间内，终端的运算资源可能被其他更为重要的程序所占用，可分配的运算资源较少，因此，可以在进行文本识别时采用较少种类或运算量较小的文本识别方式作为目标文本识别方式。例如，智能车机配置了控件树提取、光学字符识别、图标语义识别以及图像语义识别四种文本识别方式，但是在车机智能驾驶过程中大量运算资源被用于智能驾驶程序，因此可以在语音交互中只采用其中的一种或两种文字识别方式作为目标文本识别结果。

因此，目标文本识别方式的处理性能需求与设备处理性能呈现正相关关系。一方面，设备处理性能可能是终端的固定属性，在终端出厂进行配置，另一方面，设备处理性能与当前终端进行的程序有关，在终端进行其他更重要的程序时，对于语音交互的处理性能会有所降低。

二、基于人机交互场景从候选文本识别方式中确定目标文本识别方式。

在一些人机交互场景中，对于交互准确率需求很高，此时可以选择多种文本识别方式作为目标文本识别方式。例如，智能车机驾驶场景中，用户根据当前车载屏幕显示的地图进行发出导航指令：“中央公园”，由于语音识别结果会影响行驶路线，因此，对于交互准确率的要求较高，此时可以选择多种文本识别方式作为目标文本识别方式。

相反的，在一些人机交互场景中，对于交互准确率需求较低，因此可以选择较少种类的文本识别方式作为目标文本识别方式。例如，语音控制智能电视的应用场景中，用户想要选取某个视频进行观看，这一场景下，对用户语音识别结果的准确度需求相对较低，因此，可以只选取控件树提取文本的方式对界面显示元素进行文本识别。

可见，目标文本识别方式的种类数量与人机交互场景的交互准确率需求正相关关系。

在确定目标文本识别方式后，终端基于目标文本识别方式对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果。

需要说明的是，本申请实施例提供的语音交互方法中，在人机交互界面发生更新的情况下，终端重新对更新后人机交互界面中的界面显示元素进行文本识别，得到更新后的文本识别结果，再基于更新后文本识别结果更新在线语料库。

本申请实施例中，终端构建在线语料库后，基于在线语料库以及语音识别模型，将用户语音文本指令进行转换得到语音识别文本。其中，语音识别模型由声学子模型和语言子模型构成。

终端在接收到用户语音指令的情况下，先通过声学子模型对语音指令进行声学处理，得到声学表征序列，声学表征序列用于表征语音指令的声学特征。

其中声学特征是声音诸多要素声学表征的统称，其中包括语音的字调、语调以及语言节奏等，声学表征序列可以用于表征语音指令的字调、语调以及语言节奏等特征。在交互场景为中文的情况下，声学表征序列为拼音序列，在交互场景为外语的情况下，声学表征序列为音节序列。

其中，声学子模型的作用是将前端语音信号处理得到的数字语音信号进行分帧、特征提取以及状态分类后，再通过一系列声学算法将其转换为音素，并且，在中文语音交互场景下，将音素组成对应的拼音序列；在外语交互场景下，将音素组成对应的音节序列，本申请实施例中以中文语音交互场景为例进行说明。其中拼音序列和音节序列即为声学表征序列。

在一种可能的实施方式中，终端可以采用GMM-HMM(Gaussian Mixture model-Hidden Markov Model，混合高斯隐马尔可夫模型)的传统声学模型，或者采用CNN的深度学习方法对语音指令进行声学处理。

终端通过声学子模型对语音指令进行声学处理后，已经得到了声学特征序列，以语音交互环境是中文场景为例，一个拼音对应着多个汉字，同样的，由多个拼音组成的拼音序列对应的文本序列更是多种多样，因此需要通过语言子模型和基于界面显示元素构建的在线语料库将声学表征序列转换为最大概率的文字文本。

图8示出了本申请一示例性实施例提供的语音识别过程的示意图。如图8所示，终端将语音信号经过前端语音信号处理后得到的数字语音信号输入声学子模型后通过分帧、特征提取以及状态分类后，将数字语音信号转化为音素“D,IN,A,N,M,G,J,Y,I,I”，音素是最小声学单位。再将音素组合成对应的拼音序列“DIAN,JI”，将声学模型得到的拼音序列输入语音子模型中，可以得出与拼音系列相对应的文字序列为“请点击下载”。

由于一个声学表征序列可能对应多种文本序列，因此，语言子模型如何能够准确的得出用户语音指令对应的文字文本是一个十分重要的过程，下面将通过一个示意性实施例对终端基于在线语料库通过语言子模型获取声学表征序列对应文本序列的过程进行说明。

图9示出了本申请一示例性提供的文本转换的过程的流程图。本实施例的是在中文语音交互环境下进行的。如图9所示该过程包括：

步骤901，基于声学表征特征，通过语言子模型构建字符路径图，字符路径图由候选字符节点以及候选字符节点之间的路径构成，候选字符节点对应的候选声学表征特征与声学表征特征匹配，且候选字符节点之间的路径对应有初始字符连接概率，初始字符连接概率基于离线语料库确定得到，语言子模型基于离线语料库训练得到。

终端根据声学表征特征，根据声学表征特征在语言模型中搜索可能对应的字符，将所有可能对应的字符定义为候选字符，对于每一个声学表征特征对应的候选字符都将其设置为字符路径图中的一个节点，候选字符节点的声学特征与声学表征特征相匹配，将前后位置上声学表征特征对应的候选字符节点一一连接，构成字符路径图的多条路径。

每一个候选子字符节点之间的路径都对应有初始的字符连接概率，该初始字符连接概率是基于离线语料库得到的，在基于离线语料库训练得出语言子模型的同时能够确定出该初始字符连接概率。

通常情况下，语言模型使用N-gram(N Gram Language Model，N元语言模型)统计语言模型，下面对N-gram语言子模型进行说明。

N-gram语言模型中，当前拼音对应的汉字只与包含其本身的前N个拼音对应的汉字有关，在实际应用中，取N＝2即能够得到较为准确的文本识别结果。

假设文本长度为L，用户语音指令对应的文本序列为S，与当前位置k上的拼音对应的汉字为W_k，则当前语音被识别为S的概率P(S)＝P(W₁,W₂,...,W_K,...,W_L)，即为第k位置为W_k的联合概率。在使用N＝2的N-gram模型的情况下，根据全概率公式可以将公式简化为：P(S)＝P(W₁)·P(W₂|W₁)·P(W₃|W₂)·...·P(W_L|W_L-1)。

将拼音序列转换为对应的文字文本序列的过程就是确定P(S)取最大值时对应的文本序列S的过程，即S_resule＝argmax(P(S))。

由大数定律可知，当实验次数很大时所呈现的概率会向某个常数收敛，因此，在语言子模型中某个汉字在另一汉字后一位置的概率也是固定的。例如，P(击|点)表示当前位置拼音“JI”在上一个位置被识别为“点”的条件下，被识别为“击”的概率，根据大数定律，这个概率可以由语料库中出现“击”在“点”之后的次数除以“点”出现的总次数得到，推广到第k位置上为汉字W_k的概率为：P(W_k|W_k-1)＝cnt(W_k-1W_k)/cnt(W_k-1)。

由此可知语言子模型中任意两个汉字之间的条件概率，即为字符路径图中初始字符连接概率。

步骤902，基于在线语料库中的在线语料，更新字符路径图中路径对应的初始字符连接概率，其中，更新后字符路径图中在线语料所包含字符之间的路径对应的字符连接概率为最大值。

终端在接收到语音指令后，基于人机交互界面构建在线语料库。由于在线语料库是基于交互界面实时构建的，因此，在线语料库中的词汇为当前交互场景下用户最有可能表达的词汇。

终端基于在线语料库中的在线语料，将在线语料中的词汇在语言模型中进行注册，即更新字符路径图中路径对应的字符连接概率，将字符路径图中路径对应的字符连接概率设置为一个预先定义的高数值，这个高数值能够保证字符路径图中在线语料库所包含字符之间的连接概率最大。

步骤903，基于更新后的字符路径图确定语音识别文本。

终端基于更新后的字符路径图，对每一个位置的各个节点路径概率进行计算。假设P(S_k)表示路径长度为k的概率，当前位置有多个节点时同样具有多个P(S_k)，P(S_k)_max表示路径长度为k的最大概率，其对应的文本序列即为拼音序列在k位置结束时的文本识别结果，当前位于起点时，k＝0，P(S₀)＝1。

构建字符路径图后，可以得到当前所有路径的P(S_k)，将其中概率值过小的路径从候选路径中去除，并将该路径对应的概率值数据从终端临时存储器中删除，过小概率阈值时预先设置的，可以将其设置为0.0001。去除掉过小概率路径之后，计算其余路径长度为k+1时的所有可能节点概率，更新所有路径的S，以及k值，重复上述操作，直到达到拼音序列末位停止。

如图10所示，字符路径图的从起点开始到拼音序列的末位结束，图中字符节点由箭头连接，每个箭头表示一个字符连接概率。其中，实线箭头表示概率较大的连接关系，虚线箭头表示概率较小的连接关系，加粗的实线箭头表示在线语料库中存在的字符连接关系，图中加粗的圆弧表示最终识别的结果。从图10中可以看出，在线语料库相当于提供了一条概率最高的字符识别路径。从起点开始进行计算，语言子模型往往能够更直接的选择含有在线语料库词汇字符路径作为识别语音识别结果。例如，图10中“离人心上”这一词汇是在线语料库中存在的，因此这四个字符之间的连接概率被设定为高值，这一词汇所在路径的路径概率最大，因此将该词汇所在的路径的文字“点击离人心上”确定为语音识别文本。

综上，本申请实施例基于在线语料库调整基于语言子模型构建的字符路径图中的字符连接概率，改变了原始语言模型中识别结果具有普适性和发散性的问题。采用本实施例提供的语言子模型进行文字转换，能够使语音识别结果更加贴近当前的交互场景。并且采用在线语料库在很大程度上减小了语音识别的候选文字范围，减小了运算开销。

在一个示意性的例子中，语音交互***的主要组成部分如图11所示，主要文本识别组件1101、人机交互界面1102、前端语音信号处理组件1103、声学算法组件1104、语言算法组件1105构成。

图11中箭头方向表示信息流动方向，文本识别组件1101在语音交互***启动后，对人机交互界面1102的界面显示元素进行文本识别，得到文本识别结果，并根据文本识别结果构建在线语料库。终端接收到用户语音信号后，通过前端语音信号处理组件1103，将用户语音信号转换为数字信号，并通过相应算法进行降噪、波束成型以及回声消除的处理，得到数字语音信号，并将该数字语音信号传输至声学算法处理模型1104。声学算法处理模型1104对输入的数字语音信号通过声学子模型进行计算后，能够得到声学表征序列，再将声学表征序列输入语言算法处理组件1105中，基于在线语料库，以及基于离线语料库构建的语言子模型进行计算，得出声学表征序列对应的文本序列，最终得到语音识别结果，终端再根据该语音识别结果进行人机交互。

终端得到语音识别结果后，需要实现语音指令所指示的功能，在人机交互过程中，终端需要先确定出语音指令所指示的执行该指令的程序，再执行该程序实现相应功能。

图12示出了本申请另一示例性实施例提供的语音交互方法的流程图。该方法包括：

步骤1201，对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果后，文本识别结果与界面显示元素进行关联存储。

终端在通过提取控件树文本、图标语义识别、光学字符识别以及图像语义识别中的至少一种方式获取到界面显示元素对应的文本后，将界面显示元素与对应的文本识别结果关联起来，并将这种关联关系存储到终端内置存储器中，以备界面中再次出现该显示元素时直接调用。

步骤1202，基于文本识别结果构建在线语料库。

步骤1203，在接收到语音指令的情况下，基于在线语料库以及语音识别模型对语音指令进行文本转换，得到语音识别文本。

步骤1204，在语音识别文本中包含目标文本识别结果的情况下，基于目标文本识别结果确定目标界面显示元素。

其中，目标界面显示元素是指用户语音指令内容针对的对象，例如，用户语音指令为“播放音乐”，则该语音指令对应的目标界面显示元素为音乐播放按钮。目标文本识别结果是指目标界面显示元素对应的文本识别结果。

在终端对用户语音指令进行文本识别后得到的文本识别结果中包含界面中某个元素对应的文本识别结果的情况下，终端基于该文本识别结果直接可以确定出目标界面中的对应元素。例如，终端对当前人机交互界面进行文本识别的结果包含词汇“备忘录”、“音乐”、“视频”等词汇，终端得到的语音识别结果为“打开备忘录，记录购物清单”，其中，包含语音指令目标备忘录应用对应的目标文本识别结果“备忘录”，因此，终端可以确定出目标界面显示元素是备忘录图标。

步骤1205，基于语音识别文本所指示的交互方式，对目标界面显示元素进行人机交互。

终端获取到语音识别结果后，可以从中提取到用户所指示的交互方式，例如，用户语音指令对应的文本识别结果为“点击美食视频”，该语音识别文本对应的人机交互功能为点击视频控件。终端根据提取到的与交互方式实现相应的功能。

本申请实施例中，终端基于用户语音指令确定相应目标界面显示元素，再根据语音指令内容完成人机交互功能。使得终端能够根据语音指令内容控制设备准确完成相应的操作，使得语音交互的实用性更强。

需要说明的是，本申请实施例提供的语音交互方法不仅适用于中文交互环境，还能适用于外语交互环境，区别在于在不同语言环境下，执行本申请实施例时所用的各类数据库内容不同，本申请实施例对此不做赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图13示出了本申请一个实施例提供的语音交互装置的结构框图。该装置可以包括：

文本识别模块1301，用于对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果；

构建模块1302，还用于基于所述文本识别结果构建在线语料库；

文本转换模块1303，用于在接收到语音指令的情况下，基于所述在线语料库以及语音识别模型对所述语音指令进行文本转换，得到语音识别文本；

人机交互模块1304，用于基于所述语音识别文本进行人机交互。

可选的，所述文本识别模块1301，用于：

对所述人机交互界面中的所述界面显示元素进行显性文本识别，得到显性文本识别结果，所述显性文本识别结果在所述人机交互界面中可见；

对所述人机交互界面中的所述界面显示元素进行隐性文本识别，得到隐性文本识别结果，所述隐性文本识别结果在所述人机交互界面中不可见。

可选的，所述文本识别模块1301，用于：

获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的控件构成，所述控件用于承载所述界面显示元素；遍历所述控件树中的各个控件，从所述控件对应的控件信息中提取显性文本属性，得到所述显性文本识别结果；

对所述人机交互界面中的所述界面显示元素进行光学字符识别，得到字符识别结果；将所述字符识别结果确定为所述显性文本识别结果。

可选的，所述文本识别模块1301，用于：

获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的控件构成，所述控件用于承载所述界面显示元素；

确定所述控件树中的第一控件，所述第一控件用于承载包含文本内容的界面显示元素；

基于所述第一控件的第一控件坐标，对所述人机交互界面中所述第一控件承载的界面显示元素进行光学字符识别，得到所述字符识别结果。

可选的，所述文本识别模块1301，用于：

获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的控件构成，所述控件用于承载所述界面显示元素；遍历所述控件树中的各个控件，从所述控件对应的控件信息中提取隐藏文本属性，得到所述隐性文本识别结果；

对所述人机交互界面中的图标进行图标语义识别，得到图标语义识别结果，所述图标语义识别结果用于表征图标的用途；将所述图标语义识别结果确定为所述隐性文本识别结果；

对所述人机交互界面中的图像进行图像语义识别，得到图像语义识别结果，所述图像语义识别结果用于描述图像包含的图像内容；将所述图像语义识别结果确定为所述隐性文本识别结果。

可选的，所述文本识别模块1301，用于：

从所述控件树中获取第二控件的第二控件坐标，所述第二控件用于承载图标；

基于所述第二控件坐标，对所述人机交互界面中的图标进行图标语义识别，得到所述图标语义识别结果。

可选的，所述文本识别模块1301，用于：

从所述控件树中获取第三控件的第三控件坐标，所述第三控件用于承载包含图像的界面显示元素；

基于所述第三控件坐标，对所述人机交互界面中的图像进行图像语义识别，得到所述图像语义识别结果。

可选的，所述语音识别模型由声学子模型和语言子模型构成；

所述文本转换模块1303，用于：

在接收到所述语音指令的情况下，通过所述声学子模型对所述语音指令进行声学处理，得到声学表征序列，所述声学表征序列用于表征所述语音指令的声学特征；

基于所述在线语料库，通过所述语言子模型对所述声学表征特征进行文本转换，得到所述语音识别文本。

可选的，所述文本转换模块1303，用于：

基于所述声学表征特征，通过所述语言子模型构建字符路径图，所述字符路径图由候选字符节点以及所述候选字符节点之间的路径构成，所述候选字符节点对应的候选声学表征特征与所述声学表征特征匹配，且所述候选字符节点之间的路径对应有初始字符连接概率，所述初始字符连接概率基于离线语料库确定得到，所述语言子模型基于所述离线语料库训练得到；

基于所述在线语料库中的在线语料，更新所述字符路径图中路径对应的所述初始字符连接概率，其中，更新后所述字符路径图中所述在线语料所包含字符之间的路径对应的字符连接概率为最大值；

基于更新后的所述字符路径图确定所述语音识别文本。

可选的，所述装置还包括：

关联存储模块，用于对所述文本识别结果与所述界面显示元素进行关联存储；

所述人机交互模块1304，用于：

在所述语音识别文本中包含目标文本识别结果的情况下，基于所述目标文本识别结果确定目标界面显示元素；

基于所述语音识别文本所指示的交互方式，对所述目标界面显示元素进行人机交互。

可选的，所述目标文本识别方式的处理性能需求与所述设备处理性能呈现正相关关系；所述目标文本识别方式的种类数量与所述人机交互场景的交互准确率需求呈正相关关系。

图14示出了本申请一示例性实施例提供的终端的结构方框图。该终端1400可以实现成为上述各个实施例中的终端。终端1400可以包括一个或多个如下部件：处理器1410和存储器1420。

处理器1410可以包括一个或者多个处理核心。处理器1410利用各种接口和线路连接整个终端1400内的各个部分，通过运行或执行存储在存储器1420内的指令、程序、代码集或指令集，以及调用存储在存储器1420内的数据，执行终端1400的各种功能和处理数据。可选地，处理器1410可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器1410可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)、神经网络处理器(Neural-network Processing Unit，NPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；NPU用于实现人工智能(Artificial Intelligence，AI)功能；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1410中，单独通过一块芯片进行实现。

存储器1420可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器1420包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1420可用于存储指令、程序、代码、代码集或指令集。存储器1420可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等；存储数据区可存储根据终端1400的使用所创建的数据(比如音频数据、电话本)等。

除此之外，本领域技术人员可以理解，上述附图所示出的终端1400的结构并不构成对终端的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端1400中还包括显示屏、摄像组件、麦克风、扬声器、射频电路、输入单元、传感器(比如加速度传感器、角速度传感器、光线传感器等等)、音频电路、Wi-Fi模块、电源、蓝牙模块等部件，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如上各个实施例所述的语音交互方法。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的语音交互方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音交互方法，其特征在于，所述方法包括：

基于所述文本识别结果构建在线语料库；

基于所述语音识别文本进行人机交互。

2.根据权利要求1所述的方法，其特征在于，所述对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果，包括：

对所述人机交互界面中的所述界面显示元素进行显性文本识别，得到显性文本识别结果，显性文本在所述人机交互界面中可见；

对所述人机交互界面中的所述界面显示元素进行隐性文本识别，得到隐性文本识别结果，隐性文本在所述人机交互界面中不可见。

3.根据权利要求2所述的方法，其特征在于，所述对所述人机交互界面中的所述界面显示元素进行显性文本识别，得到显性文本识别结果，包括如下至少一种：

4.根据权利要求3所述的方法，其特征在于，所述对所述人机交互界面中的所述界面显示元素进行光学字符识别，得到字符识别结果，包括：

5.根据权利要求2所述的方法，其特征在于，所述对所述人机交互界面中的所述界面显示元素进行隐性文本识别，得到隐性文本识别结果，包括如下至少一种：

6.根据权利要求5所述的方法，其特征在于，所述对所述人机交互界面中的图标进行图标语义识别，得到图标语义识别结果，包括：

7.根据权利要求5所述的方法，其特征在于，所述对所述人机交互界面中的图像进行图像语义识别，得到图像语义识别结果，包括：

8.根据权利要求1所述的方法，其特征在于，所述语音识别模型由声学子模型和语言子模型构成；

所述在接收到语音指令的情况下，基于所述在线语料库以及语音识别模型对所述语音指令进行文本转换，得到语音识别文本，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述在线语料库，通过所述语言子模型对所述声学表征特征进行文本转换，得到所述语音识别文本，包括：

基于更新后的所述字符路径图确定所述语音识别文本。

10.根据权利要求1所述的方法，其特征在于，所述对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果之后，所述方法还包括：

对所述文本识别结果与所述界面显示元素进行关联存储；

所述基于所述语音识别文本进行人机交互，包括：

11.根据权利要求1所述的方法，其特征在于，所述对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果，包括：

基于设备处理性能从候选文本识别方式中确定目标文本识别方式，和/或，基于人机交互场景从候选文本识别方式中确定目标文本识别方式；

基于所述目标文本识别方式对所述人机交互界面中的所述界面显示元素进行文本识别，得到所述文本识别结果。

12.根据权利要求11所述的方法，其特征在于，

所述目标文本识别方式的处理性能需求与所述设备处理性能呈现正相关关系；

所述目标文本识别方式的种类数量与所述人机交互场景的交互准确率需求呈正相关关系。

13.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述人机交互界面发生更新的情况下，对更新后所述人机交互界面中的界面显示元素进行文本识别，得到更新后的文本识别结果；

基于更新后所述文本识别结果更新所述在线语料库。

14.一种语音交互装置，其特征在于，所述装置包括：

构建模块，用于基于所述文本识别结果构建在线语料库；

人机交互模块，用于基于所述语音识别文本进行人机交互。

15.根据权利要求14所述的装置，其特征在于，所述文本识别模块，包括：

显性文本识别单元，用于对所述人机交互界面中的所述界面显示元素进行显性文本识别，得到显性文本识别结果，所述显性文本识别结果在所述人机交互界面中可见；

隐性文本识别单元，用于对所述人机交互界面中的所述界面显示元素进行隐性文本识别，得到隐性文本识别结果，所述隐性文本识别结果在所述人机交互界面中不可见。

16.根据权利要求15所述的装置，其特征在于，所述显性文本识别单元，用于：

17.根据权利要求16所述的装置，其特征在于，所述显性文本识别单元，用于：

18.根据权利要求15所述的装置，其特征在于，所述隐性文本识别单元，用于：

19.根据权利要求18所述的装置，其特征在于，所述隐性文本识别单元，用于：

20.根据权利要求18所述的装置，其特征在于，所述隐性文本识别单元，用于：

21.根据权利要求14所述的装置，其特征在于，所述语音识别模型由声学子模型和语言子模型构成；

所述文本转换模块，用于：

22.根据权利要求21所述的装置，其特征在于，所述文本转换模块，用于：

基于更新后的所述字符路径图确定所述语音识别文本。

23.根据权利要求14所述的装置，其特征在于，所述装置还包括：

所述人机交互模块，用于：

24.根据权利要求14所述的装置，其特征在于，

25.一种终端，其特征在于，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至13任一所述的语音交互方法。

26.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至13任一所述的语音交互方法。

27.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如权利要求1至13任一所述的语音交互方法。