CN108874360A

CN108874360A - 全景内容定位方法和装置

Info

Publication number: CN108874360A
Application number: CN201810679316.6A
Authority: CN
Inventors: 杨茗名; 王群; 王宇亮; 张苗
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2018-11-23
Anticipated expiration: 2038-06-27
Also published as: CN108874360B

Abstract

本发明实施例提出一种全景内容定位方法和装置。该方法包括：对输入的控制语音进行语义分析，以确定用户需求，用户需求包括用户需要操作的操作页面、操作对象和操作类型中的至少一项；如果用户需求为对全景内容的当前页面进行操作，则对所述当前页面进行图像识别，以在当前页面中查找是否有与操作对象匹配的实体；如果在当前页面中有与操作对象匹配的实体，则在当前页面中根据交互行为规则和操作类型操作匹配的实体。本发明实施例为给提供用户一种更自然、智能的交互体验，弥补了语音在全景浏览这一块的空白，节省用户的使用步长，更精准地满足用户需求。

Description

全景内容定位方法和装置

技术领域

本发明涉及虚拟现实技术领域，尤其涉及一种全景内容定位方法和装置。

背景技术

随着VR(虚拟现实，Virtual Reality)技术的不断发展，全景内容能够在越来越多的设备上展现。其中，在网络(web)上展示VR全景，既丰富了web上原有二维页面内容，又使用户能够享受更加立体、沉浸式的用户体验，更贴近真实的生活场景。

在web上，用户浏览VR全景内容的方式及其局限性为：

a.手指滑动或点击的方式：用户用手指在全景内容上滑动，查看全景内容；或者点击其他全景素材入口链接，打开新的全景内容。

局限性：需要用户与设备直接接触，操作上不够便利、智能；浏览也是基于可见的内容展示，若想看的内容在当前可视区域没有展示，用户需要在页面上多次拖拽才能看见，不能够精确定位，增加了使用步长，影响了用户体验。

b.陀螺仪重力感应的方式：开启设备的重力感应功能，通过改变设备的位置，定位到特定的全景内容。

局限性：用户需要转动设备，适配不同的角度，才能看到比较全的全景内容。极端的情况是，如果用户想看到全景内容的后面部分，需要手持设备，转身到背面才能看到，极大的影响了用户体验。

发明内容

本发明实施例提供一种全景内容定位方法和装置，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种全景内容定位方法，包括：

对输入的控制语音进行语义分析，以确定用户需求，所述用户需求包括用户需要操作的操作页面、操作对象和操作类型中的至少一项；

如果所述用户需求为对全景内容的当前页面进行操作，则对所述当前页面进行图像识别，以在所述当前页面中查找是否有与所述操作对象匹配的实体；

如果在所述当前页面中有与所述操作对象匹配的实体，则在所述当前页面中根据交互行为规则和所述操作类型操作所述匹配的实体。

结合第一方面，本发明实施例在第一方面的第一种实现方式中，还包括：

如果所述用户需求为对当前页面之外的场景进行操作，则根据全景关系数据查找是否有匹配的场景；

如果查找到匹配的场景，则根据所述交互行为规则和所述操作类型操作所述匹配的场景。

结合第一方面或第一方面的第一种实现方式，本发明实施例在第一方面的第二种实现方式中，还包括：

根据预先设定的物体属性规则，通过机器学习不同实体的特征，得到图像识别模型；

其中，所述图像识别模型用于识别全景内容中包括的各实体并记录各实体在全景内容中的坐标。

结合第一方面的第二种实现方式，本发明实施例在第一方面的第三种实现方式中，在所述当前页面中查找是否有与所述操作对象匹配的实体，包括：

将三维的当前全景内容对应的二维图像输入所述图像识别模型；

通过所述图像识别模型查找所述当前页面的各实体的属性中是否存在所述操作对象的属性；

如果存在，则获取存在的属性对应的实体在所述当前页面的坐标。

结合第一方面的第三种实现方式，本发明实施例在第一方面的第四种实现方式中，通过所述图像识别模型查找所述当前页面的各实体的属性中是否存在所述操作对象的属性，包括：

采用基于网络的图形语言技术为所述二维图像重建三维环境；

通过所述图像识别模型在所述三维环境下查找所述当前页面的各实体的属性中是否存在所述操作对象的属性。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式，本发明实施例在第一方面的第五种实现方式中，所述交互行为规则中包括各种操作类型对应的JSON字符串。

第二方面，本发明实施例提供了一种全景内容定位装置，包括：

语音分析模块，用于对输入的控制语音进行语义分析，以确定用户需求，所述用户需求包括用户需要操作的操作页面、操作对象和操作类型中的至少一项；

图像识别模块，用于如果所述语音分析模块得到的所述用户需求为对全景内容的当前页面进行操作，则对所述当前页面进行图像识别，以在所述当前页面中查找是否有与所述操作对象匹配的实体；

页面交互模块，用于如果在所述当前页面中有与所述操作对象匹配的实体，则在所述当前页面中根据交互行为规则和所述操作类型操作所述匹配的实体。

结合第二方面，本发明实施例在第二方面的第一种实现方式中，还包括：

所述语音分析模块还用于如果所述用户需求为对当前页面之外的场景进行操作，则根据全景关系数据查找是否有匹配的场景；

所述页面交互模块还用于如果所述语音分析模块查找到匹配的场景，则根据所述交互行为规则和所述操作类型操作所述匹配的场景。

结合第二方面或第二方面的第一种实现方式，本发明实施例在第二方面的第二种实现方式中，还包括：

机器学习模块，用于根据预先设定的物体属性规则，通过机器学习不同实体的特征，得到图像识别模型；

结合第二方面的第二种实现方式，本发明实施例在第二方面的第三种实现方式中，所述图像识别模块还用于：

将三维的当前全景内容对应的二维图像输入所述图像识别模型；通过所述图像识别模型查找所述当前页面的各实体的属性中是否存在所述操作对象的属性；如果存在，则获取存在的属性对应的实体在所述当前页面的坐标。

结合第二方面的第三种实现方式，本发明实施例在第二方面的第四种实现方式中，通过所述图像识别模型查找所述当前页面的各实体的属性中是否存在所述操作对象的属性，包括：

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式，本发明实施例在第二方面的第五种实现方式中，所述交互行为规则中包括各种操作类型对应的JSON字符串。

第三方面，本发明实施例提供了一种全景内容定位装置，所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，全景内容定位装置的结构中包括处理器和存储器，所述存储器用于存储支持全景内容定位装置执行上述全景内容定位方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述全景内容定位装置还可以包括通信接口，用于全景内容定位装置与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储全景内容定位装置所用的计算机软件指令，其包括用于执行上述全景内容定位方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：提供给用户一种更自然、智能的交互体验，弥补了语音在全景浏览这一块的空白，节省用户的使用步长，更精准地满足用户需求。

上述技术方案中的另一个技术方案具有如下优点或有益效果：通过AI(Artificial Intelligence，人工智能)技术，训练语音和图像模型，能够批量化处理语音交互任务，不需要人工标注3d场景下的实体。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为根据本发明实施例的全景内容定位方法的流程图。

图2为根据本发明实施例的全景内容定位方法的流程图。

图3为根据本发明实施例的全景内容定位方法的流程图。

图4为根据本发明实施例的全景内容定位装置的方框图。

图5为根据本发明实施例的全景内容定位方法的示例图。

图6为根据本发明实施例的全景内容定位方法的示例图。

图7为根据本发明实施例的全景内容定位方法的示例图。

图8为根据本发明实施例的全景内容定位方法的流程图。

图9为根据本发明实施例的全景内容定位方法的流程图。

图10为根据本发明实施例的全景内容定位装置的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1为根据本发明实施例的全景内容定位方法的流程图。如图1所示，该方法包括：

步骤S110、对输入的控制语音进行语义分析，以确定用户需求，所述用户需求包括用户需要操作的操作页面、操作对象和操作类型中的至少一项；

步骤S120、如果所述用户需求为对全景内容的当前页面进行操作，则对所述当前页面进行图像识别，以在所述当前页面中查找是否有与所述操作对象匹配的实体；

步骤S130、如果在所述当前页面中有与所述操作对象匹配的实体，则在所述当前页面中根据交互行为规则和所述操作类型操作所述匹配的实体。

在本实施例中，将用户语音输入通过语义分析，可以确定用户需求。例如，如果当前的显示的全景内容为包括办公桌的办公室图像，用户输入的控制语音包括“放大前方的桌子”，可以判断用户需求为对全景内容的当前页面进行操作。再如，如果当前的显示的全景内容为XX大学的教学楼，用户输入的控制语音包括“切换到XX大学的校门”，可以判断用户需求为对当前页面之外的场景进行操作。当然，用户需求也可能包括诸如操作对象、操作类型等，可以根据实际应用的场景进行设定，在此不做限定。

如果用户需要对全景内容的当前页面进行操作，则对当前页面进行图像识别，识别出当前页面包括的各种实体的种类和位置等。并且，根据用户需求中包括的操作对象，在当前页面中查找是否有与该操作对象匹配的实体。操作对象可以包括页面中显示的各种实物例如动物、植物、用品、地点等。查找到操作对应后，可以根据用户需求中的操作类型和预设的交互行为规则，对该操作对象匹配到的实体进行操作。操作类型可以包括：放大、缩小、切换场景、查看内容中的物体等动作。

例如用户输入语音：“将桌子放大”，经图像识别得到，需要对全景内容的当前页面进行操作，操作对象为桌子，操作类型为放大。这样，就可以在当前页面中匹配是否有桌子这个实体，如果匹配到桌子，在根据放大对应的交互行为规则，将桌子放大。

在一种可能的实现方式中，如图2所示，还包括：

步骤S140、如果所述用户需求为对当前页面之外的场景进行操作，则根据全景关系数据查找是否有匹配的场景；

步骤S150、如果查找到匹配的场景，则根据所述交互行为规则和所述操作类型操作所述匹配的场景。

全景关系数据可以记录为文本形式，例如场景{XX学校的大门、XX学校、建筑}、{XX学校的教学楼、XX学校、建筑}、{XX学校的食堂、XX学校、建筑}等；交互行为规则中保存的是对全景关系数据的文本的描述；二者匹配，则发送操作指令给页面交互模块。

例如，如果当前的显示的全景内容为XX大学的教学楼，用户输入的控制语音包括“切换到XX大学的校门”，可以在全景关系数据中查找是否有与XX大学的校门匹配的场景，如果有，则将该场景对应的全景内容打开。

在一种可能的实现方式中，还包括：

例如，根据预先设定的物体属性规则，结合AI(Artificial Intelligence，人工智能)技术，通过机器学习不同实体的特征，可以识别3D(三维)场景下的实体，比如天空、地面、河流、植物、动物、房子等，并记录该实体在全景场景下的坐标。

在一种可能的实现方式中，如图3所示，步骤S120包括：

步骤S121、将三维的当前全景内容对应的二维图像输入所述图像识别模型；

步骤S122、通过所述图像识别模型查找所述当前页面的各实体的属性中是否存在所述操作对象的属性；

步骤S123、如果存在，则获取存在的属性对应的实体在所述当前页面的坐标。

在一种可能的实现方式中，通过所述图像识别模型查找所述当前页面的各实体的属性中是否存在所述操作对象的属性，包括：

在一种可能的实现方式中，所述交互行为规则中可以包括各种操作类型对应的JSON(JavaScript Object Notation，JavaScript对象表示法)字符串。

图4为根据本发明实施例的全景内容定位装置的方框图，该装置包括：

语音分析模块41，用于对输入的控制语音进行语义分析，以确定用户需求，所述用户需求包括用户需要操作的操作页面、操作对象和操作类型中的至少一项；

图像识别模块43，用于如果所述语音分析模块得到的所述用户需求为对全景内容的当前页面进行操作，则对所述当前页面进行图像识别，以在所述当前页面中查找是否有与所述操作对象匹配的实体；

页面交互模块45，用于如果在所述当前页面中有与所述操作对象匹配的实体，则在所述当前页面中根据交互行为规则和所述操作类型操作所述匹配的实体。

在一种可能的实现方式中，还包括：

在一种可能的实现方式中，所述图像识别模块还用于：

在一种可能的实现方式中，所述交互行为规则中包括各种操作类型对应的JSON字符串。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

在一种应用示例中，基于语音交互的web(网络)全景内容定位方法的应用场景包括：用户在浏览全景页面时，点击VR模式图标，提示用户开启设备语音权限，如图5所示。在用户开启语音权限后，展示语音提示，引导用户进行语音交互，如图6所示。用户语音输入过程中，页面同步展示用户语音输入的内容，如图7所示。输入完毕后，执行对应的操作，如示例中，跳转到下一个全景页面，或者查看全景内容的在页面上的不可见部分。

以上述应用场景为例，如图8和图9所示，通过多个模块实现本发明实施例的全景内容定位方法的原理包括：

1.输入全景二维图像数据到图像识别模块，输入全景关系数据和交互行为规则到语音分析模块。

2.图像识别模块使用webgl(Web-based Graphics Language，基于网络的图形语言)技术，重建3D环境。根据预先设定的物体属性规则，结合AI识图技术，通过机器学习不同实体的特征。图像识别模块可以识别3D场景下的实体，比如天空、地面、河流、植物、动物、房子等，并记录该实体在全景场景下的坐标。

3.语音分析模块解析用户的语音输入，并进行语义分析。根据预先设定的交互行为规则，明确用户的需求。主要分为两类：一是当前全景内容上的操作；二是当前全景内容外的操作。

若是第一类，通过图像识别模块在全景内容的当前页面进行匹配。如果匹配到用户需要操作的实体，可以向页面交互模块返回对该实体进行操作的操作指令。

若是第二类，可以通过语音分析模块在全景关系数据中查找用户需要操作的其他全景内容，如果命中，可以向页面交互模块对其他全景内容进行操作的操作指令。

4.页面交互模块根据语音分析模块返回的指令，依赖交互行为规则，操作当前页面。

通过上述流程模块，借助机器学习和AI的强大能力，可以批量化地处理语音交互行为，为用户提供一种更加智能、便捷、精确的全景内容定位方式。

在本发明实施例中，交互行为规则可以提前编辑，明确语音交互的范围，比如编辑放大、缩小、切换场景、查看等操作类型对应的JSON字符串。此外，通过AI技术不断训练语音和图像模型，识别用户需求和3D场景下的实体信息，提高准确率。

图10示出根据本发明一实施例的全景内容定位装置的结构框图。如图10所示，该装置包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的全景内容定位方法。所述存储器910和处理器920的数量可以为一个或多个。

该装置还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种全景内容定位方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1或2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，在所述当前页面中查找是否有与所述操作对象匹配的实体，包括：

5.根据权利要求4所述的方法，其特征在于，通过所述图像识别模型查找所述当前页面的各实体的属性中是否存在所述操作对象的属性，包括：

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述交互行为规则中包括各种操作类型对应的JSON字符串。

7.一种全景内容定位装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

9.根据权利要求7或8所述的装置，其特征在于，还包括：

10.根据权利要求9所述的装置，其特征在于，所述图像识别模块还用于：

11.根据权利要求10所述的装置，其特征在于，通过所述图像识别模型查找所述当前页面的各实体的属性中是否存在所述操作对象的属性，包括：

12.根据权利要求7至11中任一项所述的装置，其特征在于，所述交互行为规则中包括各种操作类型对应的JSON字符串。

13.一种全景内容定位装置，其特征在于，所述装置包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。

14.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述的方法。