CN111611468B

CN111611468B - 页面交互方法、装置和电子设备

Info

Publication number: CN111611468B
Application number: CN202010356398.8A
Authority: CN
Inventors: 唐子杰; 张海杰; 麻雪云; 程磊生; 曹文强; 曹彬; 陈奇; 吴开放; 吕晟; 邵领; 张弛; 王珍
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2023-08-25
Anticipated expiration: 2040-04-29
Also published as: CN111611468A

Abstract

本申请公开了一种页面交互方法，涉及计算机技术领域的语音技术领域。具体实现方案为：通过获取页面的可执行交互内容；获取语音信息；对语音信息进行意图识别，以从可执行交互内容中，确定与语音信息的意图相匹配的目标交互；在页面执行目标交互。由此，通过在页面执行与用户输入的语音信息的意图相匹配的目标交互，实现了用户采用语音方式可以和网页进行交互，提高了用户与页面交互的效率。

Description

页面交互方法、装置和电子设备

技术领域

本申请涉及计算机技术领域的语音技术领域，尤其涉及一种页面交互方法、装置和电子设备。

背景技术

网页是互联网最大的信息载体，在个人电脑(Personal Computer，简称PC)的互联网时代，人们使用鼠标点击、滚动以及键盘输入的方式与网页进行交互；而在移动互联网时代，人们使用手指点击、滑动的方式与网页进行交互。

但是，无论使用鼠标点击、滚动、键盘输入的方式，还是使用手指触摸的方式与网页进行交互，均存在输入效率低，从而导致用户与网页交互时存在效率低的技术问题。

发明内容

本申请提供了一种页面交互方法、装置、电子设备以及存储介质。

本申请第一方面实施例提供了一种页面交互方法，包括：

获取页面的可执行交互内容；

获取语音信息；

对所述语音信息进行意图识别，以从所述可执行交互内容中，确定与所述语音信息的意图相匹配的目标交互；

在所述页面执行所述目标交互。

本申请第二方面实施例提供了另一种页面交互方法，包括：

获取页面前端识别页面得到的可执行交互内容；

获取语音信息；

向所述页面前端发送所述目标交互的交互指令；所述交互指令，用于在所述页面执行所述目标交互。

本申请第三方面实施例提供的了一种页面交互装置，包括：

第一获取模块，用于获取页面的可执行交互内容；

第二获取模块，用于获取语音信息；

意图识别模块，用于对所述语音信息进行意图识别，以从所述可执行交互内容中，确定与所述语音信息的意图相匹配的目标交互；

执行模块，用于在所述页面执行所述目标交互。

本申请第四方面实施例提供的了另一种页面交互装置，包括：

交互获取模块，用于获取页面前端识别页面得到的可执行交互内容；

语音获取模块，用于获取语音信息；

识别模块，用于对所述语音信息进行意图识别，以从所述可执行交互内容中，确定与所述语音信息的意图相匹配的目标交互；

发送模块，用于向所述页面前端发送所述目标交互的交互指令；所述交互指令，用于在所述页面执行所述目标交互。

本申请第五方面实施例提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面实施例的页面交互方法，或者，第二方面实施例的页面交互方法。

本申请第六方面实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行第一方面实施例的页面交互方法，或者，第二方面实施例的页面交互方法。

上述申请中的一个实施例具有如下优点或有益效果：通过获取页面的可执行交互内容；获取语音信息；对语音信息进行意图识别，以从可执行交互内容中，确定与语音信息的意图相匹配的目标交互；在页面执行目标交互。由此，通过在页面执行与用户输入的语音信息的意图相匹配的目标交互，实现了用户采用语音方式即可与网页进行交互，提高了用户与页面交互的效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例一提供的页面交互方法的流程示意图；

图2为本申请实施例二提供的页面交互方法的流程示意图；

图3为本申请实施例三提供的页面交互方法的流程示意图；

图4为本申请实施例四提供的页面交互方法的流程示意图；

图5为本申请实施例五提供的页面交互方法的流程示意图；

图6为本申请实施例六提供的页面交互过程的示例图；

图7为本申请实施例提供的用户与页面交互的示意图；

图8为本申请实施例七提供的页面交互装置的结构示意图；

图9为本申请实施例八提供的页面交互装置的结构示意图；

图10是用来实现本申请实施例的页面交互的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

相关技术中，用于只能使用鼠标点击、滚动、键盘输入、手指触摸的方式与网页进行交互，无法使用语音控制的方式与网页进行交互。

相比语音交互的方式，使用鼠标和手指触摸的方式与网页进行交互有如下劣势：从输入效率来说，用户用键盘打字效率远比语音输入效率低；从学习成本来说，使用电脑和手机需要一定知识学习作为基础，而语音则不需要；从操作距离来说，用户必须和设备近距离接触，有些场景下显得很不便利。

针对上述现有的用户与网页进行交互时存在的技术问题，本申请提出了一种网页交互方法，通过获取页面的可执行交互内容；获取语音信息；对语音信息进行意图识别，以从可执行交互内容中，确定与语音信息的意图相匹配的目标交互；在页面执行目标交互。由此，实现了通过语音交互的方式与网页进行交互，用户无需额外学习使用文字、无需接触设备，只需要说话就可以和网页进行交互，提高了交互的效率。

下面参考附图描述本申请实施例的页面交互方法、装置、电子设备和存储介质。

图1为本申请实施例一提供的页面交互方法的流程示意图。

本申请实施例以该页面交互方法被配置于页面交互装置中来举例说明，该页面交互装置可以应用于任一电子设备中，以使该电子设备可以执行页面交互功能。

其中，电子设备可以为PC、云端设备、移动设备等，移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作***的硬件设备。

作为一种示例，电子设备可以包括语音模块、页面前端和服务端模块。例如，语音模块获取用户说话的语音；页面前端识别页面，得到页面的可执行交互内容；服务端模块对从语音模块获取到的语音进行意图识别，以从可执行交互内容中，确定与语音信息的意图相匹配的目标交互；进而，页面前端在页面执行目标交互。由此，实现用户与网页页面进行语音交互的功能。

下面结合图1对上述电子设备执行页面交互功能的过程进行详细介绍。

如图1所示，该页面交互方法，可以包括以下步骤：

步骤101，获取页面的可执行交互内容。

其中，页面可以为超文本标记语言(Hyper Text Markup Language，简称HTML)页面。例如，百度浏览器展示的页面，谷歌浏览器展示的页面，等等。

本申请中，可以通过页面前端的HTML Parser模块解析HTML页面，以得到页面的可执行交互内容。其中，HTMLParser是计算机程序设计语言Python中自带的专门用来解析HTML的模块。利用HTMLParser模块，可以解析出HTML页面的可执行交互内容。

需要解释的是，页面的可执行交互内容，可以为页面操作类内容，例如滑动、刷新、前进、后退等操作；也可以为页面点击操作类内容，例如立即查询、切换标签等；也可以为填槽操作类内容，例如出发地、到达地、出发日期等；也可以为其他类型的交互内容，在此不再一一举例进行详细说明。

步骤102，获取语音信息。

其中，语音信息，为用户通过语音的方式输入的文本信息。

本申请实施例中，用户与页面进行语音交互时，用户说出一段话，电子设备的语音模块会对用户的说话内容进行录音，并将对录音内容进行识别得到的文本信息发送至电子设备的服务端模块，从而使得电子设备的服务端模块获取到语音信息。

作为一种示例，用户需要购买火车票时，可以说出“本周五北京到上海的火车票”，电子设备的语音模块对用户的说话内容进行录音，并将对录音内容进行识别得到的文本信息发送至服务端模块，从而使得服务端模块获取到语音信息。

需要解释的是，本实施例中对上述步骤101和步骤102的执行顺序不做限定，也可以先执行步骤102中获取语音信息的过程，再执行步骤101中获取页面的可执行交互内容的过程。

例如，在用户与页面进行语音交互时，可以是电子设备的页面前端获取到页面的可执行交互内容后，语音模块再获取用户输入的语音信息；也可以是电子设备的语音模块获取到用户输入的语音信息后，页面前端再获取页面的可执行交互内容，本实施例中不做限定。

步骤103，对语音信息进行意图识别，以从可执行交互内容中，确定与语音信息的意图相匹配的目标交互。

其中，目标交互，是指与用户输入的语音信息的意图相匹配的页面的可执行交互内容。

本申请中，电子设备的服务端模块获取到语音信息后，可以对语音信息进行意图识别，以从语音信息中确定用户与页面进行交互的意图。

作为一种可能的实现方式，可以将语音信息对应的文本内容输入经过训练的意图识别模型，以根据模型的输出得到语音信息的意图信息。其中，意图识别模型已经学习得到语音信息和对应的意图之间的映射关系，因此，可以准确识别出语音信息的意图。

作为另一种可能的实现方式，还可以采用规则模板分类的方法对语音信息进行意图识别。例如，将语音信息对应的文本信息与模板库中各模板进行匹配，以根据模板库中与语音信息对应的文本信息匹配的模板，确定语音信息的意图。

需要说明的是，上述对语音信息进行意图识别的方法仅作为示例性表述，其余对语音信息进行意图识别的方法也适用于本申请。

本申请实施例中，识别得到语音信息中用户与页面交互的意图后，可以从可执行交互内容中，确定与语音信息的意图相匹配的目标交互。

作为一种示例，假设获取的语音信息为“本周五北京到上海的火车票”，通过对语音信息进行意图识别，确定语音信息的意图为查询火车票，可以从上述可执行交互内容中，确定与语音信息的意图相匹配交互内容为填槽操作类内容，其中，出发地为北京、到达地为上海、出发日期为本周五。

步骤104，在页面执行目标交互。

本申请中，确定与用户输入的语音信息的意图相匹配的目标交互后，即可控制页面前端在页面执行目标交互。

作为一种示例，用户通过语音的方式输入“百白破疫苗201607050-2武汉生物”，电子设备的语音模块对用户输入的语音进行录音，并将识别得到的语音信息发送至服务端模块。服务端模块对接收到的语音信息进行意图识别，确定用户的意图是通过页面查询疫苗的详情，从页面的可执行交互内容中确定与语音信息意图相匹配的目标交互为“立即查询”，控制页面前端在页面执行立即查询的操作，即可得到查询结果。

本申请实施例的页面交互方法，通过获取页面的可执行交互内容；获取语音信息；对语音信息进行意图识别，以从可执行交互内容中，确定与语音信息的意图相匹配的目标交互；在页面执行目标交互。由此，通过在页面执行与用户输入的语音信息的意图相匹配的目标交互，实现了用户采用语音方式可以和网页进行交互，提高了用户与页面交互的效率。

在上述实施例的基础上，本申请实施例二提供了另一种页面交互方法，图2为本申请实施例二提供的页面交互方法的流程示意图。

如图2所示，该页面交互方法，可以包括以下步骤：

步骤201，解析页面，以得到各交互元素响应的操作。

例如，交互元素响应的操作，可以为点击操作、文本输入操作等。

本申请中，页面中各交互元素可以包括：内容交互元素、菜单交互元素和状态交互元素。

其中，内容交互元素中<details>和<summary>元素属于新增的内容交互元素，主要用于文档的标题、细节、内容的交互显示。<details>元素用于说明文档或某个细节信息的作用，常与<summary>元素配合使用。

由于页面中各交互元素的属性信息中定义了元素的样式和功能，例如，交互元素的属性信息中包括交互元素的响应操作和用于描述交互目的的文本描述。因此可以对页面进行解析，以得到各交互元素响应的操作。

步骤202，将各交互元素响应的操作，作为各交互元素可执行的交互操作。

本申请中，获取到页面中各交互元素响应的操作后，可以将各交互元素响应的操作，作为各交互元素可执行的交互操作。

作为一种示例，某一交互元素响应的操作为“click”，可以确定该交互元素可执行的交互操作为点击操作。也就是说，交互元素的属性信息中的“click”，是用于声明该交互元素可执行的交互操作是点击。

步骤203，根据各交互元素可执行的交互操作，生成可执行交互内容的列表。

本申请中，确定各交互元素可执行的交互操作后，可以对各交互元素可执行的交互操作进行分类，以得到可执行交互内容的列表。

也就是说，页面的可执行交互内容的列表中包括各交互元素和各交互元素对应的可执行的交互操作。进而，通过查询可执行交互内容的列表，可以确定各交互元素对应的功能，有利于提高用户与页面进行交互的效率。

具体地，在对页面进行解析，确定页面中多个交互元素后，可以获取解析页面得到的各交互元素的文本描述。例如，文本描述，可以为确认、刷新、前进、后退等。进而，将各交互元素的文本描述，作为各交互元素的交互目的。

作为一种示例，某一交互元素的文本描述为“前进”，可以确定该交互元素的交互目的为前进。

本申请实施例中，确定页面中各交互元素的交互操作和各交互元素的交互目的后，可以对各交互元素进行分类，以生成页面的可执行交互内容的列表。

步骤204，获取语音信息。

本申请实施例中，步骤204的实现过程，可以参见上述实施例中步骤102的实现过程，在此不再赘述。

需要说明的是，步骤204的执行过程也可以在步骤201之前，本申请中在此不做限定。

步骤205，对语音信息进行意图识别，以根据可执行交互内容，确定页面中目标元素可执行的交互操作。

本申请实施例中，对语音信息进行意图识别，确定语音信息的意图后，可以从页面的可执行交互内容中确定页面中多个交互元素的交互目的。进而，从多个交互元素中，确定交互目的与意图匹配的交互元素为目标元素。

进一步的，可以根据页面的可执行交互内容，确定页面中目标元素可执行的交互操作。

作为一种示例，服务端模块对语音信息进行意图识别，确定语音信息的意图为“购买火车票”，可以根据语音信息的意图，从可执行交互内容中，确定页面中目标元素可执行的交互操作为查询操作。

步骤206，从目标元素可执行的交互操作中，确定与意图匹配的目标操作。

本申请实施例中，对语音信息进行意图识别，确定语音信息的意图后，根据页面的可执行交互内容，确定页面中目标元素可执行的交互操作后，可以从目标元素可执行的交互操作中，确定与意图匹配的目标操作。

例如，识别出语音信息的意图为“购买本周五从北京到上海的火车票”，可以目标元素可执行的交互操作中，确定与意图匹配的目标操作为查询操作。

步骤207，根据目标元素和目标操作，生成目标交互的交互指令。

本申请中，识别得到语音信息的意图后，根据语音信息的意图，从页面中多个交互元素中确定目标元素，以及从目标元素可执行的交互操作中，确定与意图匹配的目标操作后，可以根据目标元素和目标操作，生成目标交互的交互指令。

继续以步骤206中的例子为例，确定用户与页面交互以购买本周五从北京到上海的火车票后，根据搜索框对应的元素以及需要执行的查询操作，可以生成目标交互的交互指令为查询指令。由此，通过语音信息的意图生成目标交互的交互指令后，可以在页面执行目标交互，实现了用户与页面之间的语音交互。

步骤208，在页面执行目标交互的交互指令。

本申请实施例中，服务端模块根据目标元素，以及对目标元素执行的目标操作，生成目标交互的交互指令后，将交互指令发送至页面前端，以使得页面前端根据交互指令，在页面执行目标交互，实现了用户与页面通过语音的方式进行交互的目的。

例如，上述生成目标交互的交互指令为查询指令，页面前端可以根据该交互指令，在页面执行查询火车票的目标交互。

本申请实施例的页面交互方法，通过解析页面，以得到各所述交互元素响应的操作，将各交互元素响应的操作，作为各交互元素可执行的交互操作，根据各交互元素可执行的交互操作，生成可执行交互内容的列表，获取语音信息；对语音信息进行意图识别，以根据可执行交互内容，确定页面中目标元素可执行的交互操作，从目标元素可执行的交互操作中，确定与意图匹配的目标操作，根据目标元素和目标操作，生成目标交互的交互指令。由此，通过从页面中各交互元素中确定符合语音信息的意图的目标元素，进而根据目标元素和目标元素执行的目标操作生成目标交互的交互指令，实现了用户与页面通过语音的方式进行交互，提高了用户与页面的交互效率。

在上述实施例的基础上，在步骤103和步骤205中对语音信息进行意图识别时，还可以通过判断模板库中是否存在与语音信息匹配的目标模板，以确定对语音信息进行意图识别的方式。下面结合图3对上述过程进行详细介绍。

图3为本申请实施例三提供的页面交互方法的流程示意图。

如图3所示，该页面交互方法，还可以包括以下步骤：

步骤301，获取模板库。

其中，模板库中存储有大量经过训练的模板。

本申请实施例中，在获取到语音信息，对语音信息识别时，可以获取预置的模板库，以将语音信息与模板库中的各模板进行匹配。

步骤302，将模板库中各模板，分别与语音信息匹配。

步骤303，判断模板库中是否存在句式与语音信息匹配的目标模板。

其中，目标模块为模块库中与语音信息匹配的模板。

本申请实施例中，将语音信息与模板库中的各模板进行匹配，以判断模板库中是否存在句式与语音信息匹配的目标模板，以采用相应的语音信息识别方式对语音信息进行意图识别。

步骤304，若模板库中存在句式与语音信息匹配的目标模板，则根据目标模板，对语音信息进行意图识别。

本申请实施例中，将语音信息与模板库中的各模板进行匹配后，确定模块库中存在句式与语音信息匹配的目标模板，这种情况下，可以根据目标模板对语音信息进行意图识别。

作为一种可能的实现方式，在根据与语音信息匹配的目标模板，对语音信息进行意图识别时，可以根据目标模板中设置的槽位，在语音信息中与槽位对应文本位置，提取得到槽位的填槽内容。进而，可以将槽位的填槽内容作为语音信息的意图。由此，通过槽位的填槽内容可以准确识别出语音信息的意图，从而有利于提高用户与页面进行交互的准确率。

作为一种示例，假设获取到的语音信息为“本周五从北京到上海的火车票”，模板库中有一条模板为“{时间}{城市名}到{城市名}的火车票”，正好与语音信息“本周五北京到上海的火车票”匹配。进一步的，根据该模板中设置的槽位，在语音信息中与槽位对应的文本位置，提取得到槽位的填槽内容，以根据槽位的填槽内容识别出语音信息的意图。例如，可以根据该模板对语音信息进行意图识别得出结果为：

意图1：输入出发日期；槽位1：本周五；

意图2：输入出发城市；槽位2：北京；

意图3：输入到达城市；槽位3：上海。

作为另一种可能的实现方式，在根据与语音信息匹配的目标模板，对语音信息进行意图识别时，可以将目标模板对应的意图，作为语音信息的意图。

作为一种示例，假设语音信息为“点一下按键”，将该语音信息与模板库中各模板进行匹配，确定存在与语音信息匹配的目标模板为“X一下”，则可以将该目标模板的意图，作为语音信息的意图。

步骤305，若模板库中不存在句式与语音信息匹配的目标模板，则采用语义模型对语音信息进行意图识别。

本申请实施例中，将语音信息与模板库中的各模板进行匹配后，确定模块库中不存在句式与语音信息匹配的目标模板，这种情况下，采用语义模型对语音信息进行意图识别。

作为一种示例，假设语音信息为“从上海走”，将该语音信息与模块库中各模板进行匹配后，确定模板库中不存在句式与该语音信息匹配的目标模型，这种情况下，不能使用目标模板对语音信息进行意图识别，则采用语义模型对语音信息进行意图识别。由此，实现了对不同的语音信息进行意图识别，提高了对语音信息意图识别的准确率。

作为一种可能的实现方式，首先对语音信息进行分词处理，以得到各分词的语义特征和词性特征，进而将各分词的语音特征和词性特征输入语义模型，以根据语义模型的输出确定语音信息的意图。

可以理解的是，自然语言处理就是让计算机能够理解人类的语言，也就是要让计算机像人一样能够阅读文字，理解文字背后的含义。而在人的阅读过程中，只有理解了词语的含义，才能把握整个句子的含义。因此，要让计算机懂得人类的文本，就必须要让计算机准确把握每一个词的含义。因而，在自然语言处理中，对语音信息进行处理时，对语音信息进行分词是十分必要的。

可选地，可以采用基于统计的方式对语音信息进行分词处理，而统计的样本内容来自于一些标准的语料库。还可以采用基于词典分词的方式对语音信息进行分词，以得到各分词的语义特征和词性特征。

本申请中的语义模型是采用大量的训练样本预先训练得到的模型，经过训练的语义模型可以准确识别出各分词特征的意图。

本申请实施例的网页交互方法，通过获取模板库，将模板库中各模板，分别与语音信息匹配，若模板库中存在句式与语音信息匹配的目标模板，则根据目标模板，对语音信息进行意图识别，若模板库中不存在句式与语音信息匹配的目标模板，则采用语义模型对语音信息进行意图识别。由此，通过采用不同的意图识别方式对不同类型的语音信息进行意图识别，提高了语音信息意图识别的准确率。

在上述实施例的基础上，本申请实施例四提供了另一种网页交互方法。

图4为本申请实施例四提供的网页交互方法的流程示意图。

如图4所示，该网页交互方法，由服务端模块执行，或者，由客户端执行，可以包括以下步骤：

步骤401，获取页面前端识别页面得到的可执行交互内容。

本申请中，页面前端对页面进行识别，可以得到页面的可执行交互内容，进而将页面的可执行交互内容发送至服务端模块，以使得服务端模块获取到页面前端识别页面得到的可执行交互内容。

作为一种示例，可以通过页面前端的HTML Parser模块解析HTML页面，以得到页面的可执行交互内容。

步骤402，获取语音信息。

需要解释的是，本实施例中对上述步骤401和步骤402的执行顺序不做限定，也可以先执行步骤402中获取语音信息的过程，再执行步骤401中获取页面前端识别页面得到的可执行交互内容的过程。

步骤403，对语音信息进行意图识别，以从可执行交互内容中，确定与语音信息的意图相匹配的目标交互。

本申请实施例中，步骤402和步骤403的实现过程，可以参见上述实施例一中步骤102和步骤103的实现过程，在此不再赘述。

步骤404，向页面前端发送目标交互的交互指令；交互指令，用于在页面执行目标交互。

本申请中，服务端模块对语音信息进行意图识别，从可执行交互内容中，确定与语音信息的意图相匹配的目标交互后，将目标交互对应的交互指令发送至页面前端，以使得页面前端根据交互指令，在页面执行目标交互。

例如，服务端模块对语音信息进行意图识别，从可执行交互内容中，确定与语音信息的意图相匹配的目标交互对应的交互指令为点击指令，则将该指令发送至页面前端，以使得页面前端在页面执行点击指令。

本申请实施例的页面交互方法，通过获取页面前端识别页面得到的可执行交互内容，获取语音信息，对语音信息进行意图识别，以从可执行交互内容中，确定与语音信息的意图相匹配的目标交互，向页面前端发送目标交互的交互指令；交互指令，用于在页面执行目标交互。由此，通过服务端模块确定与页面进行交互的交互指令并发送至页面前端，以实现在页面执行目标交互，实现了用户通过语音交互的方式与页面进行交互，提高了用户与页面交互的效率。

在上述实施例的基础上，本申请提出了一种网页交互方法。

图5为本申请实施例五提供的网页交互方法的流程示意图。

如图5所示，该网页交互方法，可以包括以下步骤：

步骤501，获取页面前端识别页面得到的可执行交互内容。

本申请实施例中，页面前端对页面进行解析，以得到各交互元素响应的操作后，将各交互元素响应的操作，作为各交互元素可执行的交互操作。

在对页面进行解析，确定页面中多个交互元素后，可以获取解析页面得到的各交互元素的文本描述。进而，将各交互元素的文本描述，作为各交互元素的交互目的。确定页面中各交互元素的交互操作和各交互元素的交互目的后，可以对各交互元素进行分类，以生成页面的可执行交互内容的列表。

页面前端对页面进行解析获取到页面的可执行交互内容后，将得到的可执行交互内容，发送至服务端模块，以使得服务端模块获取到页面前端识别页面得到的可执行交互内容。

步骤502，获取语音信息。

需要解释的是，本实施例中对上述步骤501和步骤502的执行顺序不做限定，也可以先执行步骤502中获取语音信息的过程，再执行步骤501中获取页面前端识别页面得到的可执行交互内容的过程。

步骤503，对语音信息进行意图识别，以根据可执行交互内容，确定页面中目标元素可执行的交互操作。

步骤504，从目标元素可执行的交互操作中，确定与意图匹配的目标操作。

步骤505，根据目标元素和目标操作，生成目标交互的交互指令。

本申请实施例中，步骤502至步骤505的实现过程，可以参见上述步骤204至步骤207的实现过程，在此不再赘述。

步骤506，向页面前端发送目标交互的交互指令；交互指令，用于在所述页面执行目标交互。

本申请实施例中，步骤506的实现过程，可以参见上述实施例中步骤404的实现过程，在此不再赘述。

由此，通过服务端模块确定与页面进行交互的交互指令并发送至页面前端，以实现在页面执行目标交互，实现了用户通过语音交互的方式与页面进行交互，提高了用户与页面交互的效率。

作为一种示例，参见图6，图6为本申请实施例六提供的页面交互过程的示例图。

如图6所示，该页面交互方法包括以下步骤：

步骤601，页面前端对页面进行解析，以得到页面的可执行交互内容。

步骤602，语音模块对用户输入的语音进行录音，并进行识别，得到语音信息后，将语音信息发送至服务端模块。

步骤603，服务端模块获取模块库中各模块分别与语音信息匹配。

步骤604，模板库中存在句式与语音信息匹配的目标模板，则根据目标模板，对语音信息进行意图识别。

步骤605，模板库中不存在句式与语音信息匹配的目标模板，则对语音信息进行特征提取。

步骤606，将提取的特征输入语义模型，以得到语音信息的意图。

本申请中，服务端模块确定语音信息的意图后，从可执行交互内容中，确定与语音信息的意图相匹配的目标交互。

步骤607，页面前端在页面执行目标交互。

由此，通过电子设备的语音模块获取用户输入的语音信息，服务端模块对语音信息进行意图识别，从页面的可执行交互内容中确定与语音信息的意图相匹配的目标交互，页面前端在页面执行目标交互，实现了用户与页面通过语音的方式进行交互，提高了用户与页面的交互效率。

作为一种示例，图7为本申请实施例提供的用户与页面的交互示意图。

由图7可知，用户向电子设备的页面输入语音，页面获取到用户输入的语音信息后，通过对语音信息进行意图识别，从可执行交互内容中，确定与语音信息的意图相匹配的目标交互，即可在页面执行目标交互。由此实现了用户通过语音的方式与页面进行交互的目的。

为了实现上述实施例，本申请提出了一种页面交互装置。

图8为本申请实施例六提供的页面交互装置的结构示意图。

如图8所示，该页面交互装置600，可以包括：第一获取模块610、第二获取模块620、意图识别模块630以及执行模块640。

其中，第一获取模块610，用于获取页面的可执行交互内容。

第二获取模块620，用于获取语音信息。

意图识别模块630，用于对语音信息进行意图识别，以从可执行交互内容中，确定与语音信息的意图相匹配的目标交互。

执行模块640，用于在页面执行目标交互。

作为一种可能的情况，意图识别模块630，还包括：

第一确定单元，用于根据可执行交互内容，确定页面中目标元素可执行的交互操作；

第二确定单元，用于从目标元素可执行的交互操作中，确定与意图匹配的目标操作；

第一生成单元，用于根据目标元素和目标操作，生成目标交互的交互指令。

作为另一种可能的情况，意图识别模块630，还包括：

第三确定单元，用据可执行交互内容，确定页面中多个交互元素的交互目的。

第四确定单元，用于从多个交互元素中，确定目标元素，其中，目标元素的交互目的与意图匹配。

作为另一种可能的情况，第一获取模块610，包括：

解析单元，用于解析页面，以得到各交互元素响应的操作。

第五确定单元，用于将各交互元素响应的操作，作为各交互元素可执行的交互操作。

第二生成单元，用于根据各交互元素可执行的交互操作，生成可执行交互内容的列表。

作为另一种可能的情况，第二生成单元，还用于：

获取解析页面得到的各交互元素的文本描述；

将各交互元素的文本描述，作为各交互元素的交互目的；

根据各交互元素的交互操作和各交互元素的交互目的，生成可执行交互内容的列表。

作为另一种可能的情况，意图识别模块630，还可以包括：

第二获取单元，用于获取模板库。

匹配单元，用于将模板库中各模板，分别与语音信息匹配。

意图识别单元，用于若模板库中存在句式与语音信息匹配的目标模板，则根据目标模板，对语音信息进行意图识别；若模板库中不存在句式与语音信息匹配的目标模板，则采用语义模型对语音信息进行意图识别。

作为另一种可能的情况，意图识别单元，还用于：

根据目标模板中设置的槽位，在语音信息中与槽位对应文本位置，提取得到槽位的填槽内容；将槽位的填槽内容作为语音信息的意图；

或者，将目标模板对应的意图，作为语音信息的意图。

作为另一种可能的情况，意图识别单元，还用于：

对语音信息分词，得到各分词的特征；特征包括语义特征和词性特征；

将各分词的特征输入语义模型，得到语音信息的意图。

需要说明的是，前述实施例一至实施例三中对页面交互方法实施例的解释说明也适用于该实施例的页面交互装置，此处不再赘述。

本申请实施例的网页交互装置，通过获取页面的可执行交互内容；获取语音信息；对语音信息进行意图识别，以从可执行交互内容中，确定与语音信息的意图相匹配的目标交互；在页面执行目标交互。由此，通过在页面执行与用户输入的语音信息的意图相匹配的目标交互，实现了用户通过语音方式和网页进行交互，提高了用户与页面交互的效率。

为了实现上述实施例，本申请提出了另一种页面交互装置。

图9为本申请实施例七提供的页面交互装置的结构示意图。

如图9所示，该页面交互装置700，可以包括：交互获取模块710、语音获取模块720、识别模块730以及发送模块740。

其中，交互获取模块710，用于获取页面前端识别页面得到的可执行交互内容；

语音获取模块720，用于获取语音信息；

识别模块730，用于对所述语音信息进行意图识别，以从所述可执行交互内容中，确定与所述语音信息的意图相匹配的目标交互；

发送模块740，用于向所述页面前端发送所述目标交互的交互指令；所述交互指令，用于在所述页面执行所述目标交互。

作为一种可能的情况，识别模块730，还可以用于：

根据可执行交互内容，确定页面中目标元素可执行的交互操作；

从目标元素可执行的交互操作中，确定与意图匹配的目标操作；

根据目标元素和目标操作，生成目标交互的交互指令。

作为另一种可能的情况，识别模块730，还可以用于：

根据可执行交互内容，确定页面中多个交互元素的交互目的；

从多个交互元素中，确定目标元素，其中，目标元素的交互目的与意图匹配。

作为另一种可能的情况，交互获取模块710，还可以用于：

解析页面，以得到各交互元素响应的操作；

将各交互元素响应的操作，作为各交互元素可执行的交互操作；

根据各交互元素可执行的交互操作，生成可执行交互内容的列表。

作为另一种可能的情况，交互获取模块710，还可以用于：

获取解析页面得到的各交互元素的文本描述；

将各交互元素的文本描述，作为各交互元素的交互目的；

作为一种可能的情况，识别模块730，还可以用于：

获取模板库；

将模板库中各模板，分别与语音信息匹配；

若模板库中存在句式与语音信息匹配的目标模板，则根据目标模板，对语音信息进行意图识别；

若模板库中不存在句式与语音信息匹配的目标模板，则采用语义模型对语音信息进行意图识别。

本申请实施例的页面交互装置，通过获取页面前端识别页面得到的可执行交互内容，获取语音信息，对语音信息进行意图识别，以从可执行交互内容中，确定与语音信息的意图相匹配的目标交互，向页面前端发送目标交互的交互指令；交互指令，用于在页面执行目标交互。由此，通过服务端模块确定与页面进行交互的交互指令并发送至页面前端，以实现在页面执行目标交互，实现了用户通过语音交互的方式与页面进行交互，提高了用户与页面交互的效率。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图10所示，是根据本申请实施例的页面交互的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图10中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的页面交互的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的页面交互的方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的页面交互的方法对应的程序指令/模块(例如，附图8所示的第一获取模块610、第二获取模块620、意图识别模块630以及执行模块640，以及图9中所示的交互获取模块710、语音获取模块720、识别模块730以及发送模块740)。处理器801通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的页面交互的方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据页面交互的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至页面交互的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

页面交互的方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与页面交互的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过获取页面的可执行交互内容；获取语音信息；对语音信息进行意图识别，以从可执行交互内容中，确定与语音信息的意图相匹配的目标交互；在页面执行目标交互。由此，通过在页面执行与用户输入的语音信息的意图相匹配的目标交互，实现了用户通过语音的方式和网页进行交互，提高了用户与页面交互的效率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种页面交互方法，其特征在于，所述方法包括：

获取页面的可执行交互内容，所述页面的可执行交互内容包括页面操作类内容、页面点击操作类内容和填槽操作类内容；

获取语音信息；

对所述语音信息进行意图识别，以从所述可执行交互内容中，确定与所述语音信息的意图相匹配的目标交互，其中，所述目标交互是指与用户输入的语音信息的意图相匹配的页面的可执行交互内容；

在所述页面执行所述目标交互；

所述从所述可执行交互内容中，确定与所述语音信息的意图相匹配的目标交互，包括：

根据所述可执行交互内容，确定所述页面中目标元素可执行的交互操作；

从所述目标元素可执行的交互操作中，确定与所述意图匹配的目标操作；

根据所述目标元素和所述目标操作，生成所述目标交互的交互指令；

所述确定所述页面中目标元素可执行的交互操作之前，还包括：

根据所述可执行交互内容，确定所述页面中多个交互元素的交互目的；

从多个所述交互元素中，确定所述目标元素，其中，所述目标元素的交互目的与所述意图匹配；

所述获取页面的可执行交互内容，包括：

解析所述页面，以得到各所述交互元素响应的操作；

将各所述交互元素响应的操作，作为各所述交互元素可执行的交互操作；

根据各所述交互元素可执行的交互操作，生成所述可执行交互内容的列表。

2.根据权利要求1所述的页面交互方法，其特征在于，所述根据各所述交互元素可执行的交互操作，生成所述可执行交互内容的列表，包括：

获取解析所述页面得到的各所述交互元素的文本描述；

将所述各交互元素的文本描述，作为各交互元素的所述交互目的；

根据各交互元素的所述交互操作和各交互元素的所述交互目的，生成所述可执行交互内容的列表。

3.根据权利要求1-2任一项所述的页面交互方法，其特征在于，所述对所述语音信息进行意图识别，包括：

获取模板库；

将所述模板库中各模板，分别与所述语音信息匹配；

若所述模板库中存在句式与所述语音信息匹配的目标模板，则根据所述目标模板，对所述语音信息进行意图识别；

若所述模板库中不存在句式与所述语音信息匹配的目标模板，则采用语义模型对所述语音信息进行意图识别。

4.根据权利要求3所述的页面交互方法，其特征在于，所述根据所述目标模板，对所述语音信息进行意图识别，包括：

根据所述目标模板中设置的槽位，在所述语音信息中与所述槽位对应文本位置，提取得到所述槽位的填槽内容；将所述槽位的填槽内容作为所述语音信息的意图；

或者，将所述目标模板对应的意图，作为所述语音信息的意图。

5.根据权利要求3所述的页面交互方法，其特征在于，所述采用语义模型对所述语音信息进行意图识别，包括：

对所述语音信息分词，得到各分词的特征；所述特征包括语义特征和词性特征；

将各分词的特征输入所述语义模型，得到所述语音信息的意图。

6.一种页面交互方法，其特征在于，所述方法包括：

获取页面前端识别页面得到的可执行交互内容，所述页面的可执行交互内容包括页面操作类内容、页面点击操作类内容和填槽操作类内容；

获取语音信息；

向所述页面前端发送所述目标交互的交互指令；所述交互指令，用于在所述页面执行所述目标交互；

所述获取页面前端识别页面得到的可执行交互内容，包括：

解析所述页面，以得到各所述交互元素响应的操作；

7.根据权利要求6所述的页面交互方法，其特征在于，所述根据各所述交互元素可执行的交互操作，生成所述可执行交互内容的列表，包括：

获取解析所述页面得到的各所述交互元素的文本描述；

8.根据权利要求6-7任一项所述的页面交互方法，其特征在于，所述对所述语音信息进行意图识别，包括：

获取模板库；

将所述模板库中各模板，分别与所述语音信息匹配；

9.一种页面交互装置，其特征在于，包括：

第一获取模块，用于获取页面的可执行交互内容，所述页面的可执行交互内容包括页面操作类内容、页面点击操作类内容和填槽操作类内容；

第二获取模块，用于获取语音信息；

意图识别模块，用于对所述语音信息进行意图识别，以从所述可执行交互内容中，确定与所述语音信息的意图相匹配的目标交互，其中，所述目标交互是指与用户输入的语音信息的意图相匹配的页面的可执行交互内容；

执行模块，用于在所述页面执行所述目标交互；

所述意图识别模块，还包括：

第一确定单元，用于根据所述可执行交互内容，确定所述页面中目标元素可执行的交互操作；

第二确定单元，用于从所述目标元素可执行的交互操作中，确定与所述意图匹配的目标操作；

第一生成单元，用于根据所述目标元素和所述目标操作，生成所述目标交互的交互指令；

所述意图识别模块，还包括：

第三确定单元，用于根据所述可执行交互内容，确定所述页面中多个交互元素的交互目的；

第四确定单元，用于从多个所述交互元素中，确定所述目标元素，其中，所述目标元素的交互目的与所述意图匹配；

所述第一获取模块，包括：

解析单元，用于解析所述页面，以得到各所述交互元素响应的操作；

第五确定单元，用于将各所述交互元素响应的操作，作为各所述交互元素可执行的交互操作；

第二生成单元，用于根据各所述交互元素可执行的交互操作，生成所述可执行交互内容的列表。

10.根据权利要求9所述的页面交互装置，其特征在于，第二生成单元，还用于：

获取解析所述页面得到的各所述交互元素的文本描述；

11.根据权利要求9-10任一项所述的页面交互装置，其特征在于，所述意图识别模块，还包括：

第一获取单元，用于获取模板库；

匹配单元，用于将所述模板库中各模板，分别与所述语音信息匹配；

意图识别单元，用于若所述模板库中存在句式与所述语音信息匹配的目标模板，则根据所述目标模板，对所述语音信息进行意图识别；若所述模板库中不存在句式与所述语音信息匹配的目标模板，则采用语义模型对所述语音信息进行意图识别。

12.根据权利要求11所述的页面交互装置，其特征在于，所述意图识别单元，还用于：

13.根据权利要求11所述的页面交互装置，其特征在于，所述意图识别单元，还用于：

14.一种页面交互装置，其特征在于，包括：

交互获取模块，用于获取页面前端识别页面得到的可执行交互内容，所述页面的可执行交互内容包括页面操作类内容、页面点击操作类内容和填槽操作类内容；

语音获取模块，用于获取语音信息；

识别模块，用于对所述语音信息进行意图识别，以从所述可执行交互内容中，确定与所述语音信息的意图相匹配的目标交互，其中，所述目标交互是指与用户输入的语音信息的意图相匹配的页面的可执行交互内容；

发送模块，用于向所述页面前端发送所述目标交互的交互指令；所述交互指令，用于在所述页面执行所述目标交互；

所述识别模块，还具体用于：根据所述可执行交互内容，确定所述页面中目标元素可执行的交互操作；

所述识别模块，还用于：

交互获取模块，还用于：

解析所述页面，以得到各所述交互元素响应的操作；

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-5中任一所述的页面交互方法，或者，实现如权利要求6-8中任一所述的页面交互方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如权利要求1-5中任一所述的页面交互方法，或者，实现如权利要求6-8任一所述的页面交互方法。