CN111832360A - 提示信息的处理方法、装置、电子设备以及可读存储介质 - Google Patents

提示信息的处理方法、装置、电子设备以及可读存储介质 Download PDF

Info

Publication number
CN111832360A
CN111832360A CN201910320193.1A CN201910320193A CN111832360A CN 111832360 A CN111832360 A CN 111832360A CN 201910320193 A CN201910320193 A CN 201910320193A CN 111832360 A CN111832360 A CN 111832360A
Authority
CN
China
Prior art keywords
user
information
image
module
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910320193.1A
Other languages
English (en)
Inventor
任陶瑞
郭逸飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Samsung Telecom R&D Center
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Samsung Telecommunications Technology Research Co Ltd, Samsung Electronics Co Ltd filed Critical Beijing Samsung Telecommunications Technology Research Co Ltd
Priority to CN201910320193.1A priority Critical patent/CN111832360A/zh
Priority to US17/594,484 priority patent/US20220207872A1/en
Priority to KR1020217037924A priority patent/KR20210156283A/ko
Priority to PCT/KR2020/005217 priority patent/WO2020214006A1/en
Publication of CN111832360A publication Critical patent/CN111832360A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/109Time management, e.g. calendars, reminders, meetings or time accounting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)

Abstract

本申请实施例提供了一种提示信息的处理方法、装置、电子设备以及可读存储介质,该方法包括:获取提示信息;获取用户视野图像中的对象,以便基于对象输出提示信息。本申请实施例所提供的方案,能够根据通过对用户视野图像进行图像识别确定出的对象,将提示信息展示给用户,与现有的提示信息处理方法相比,实现了提示信息的多样化展示,提升了用户体验,更好的满足了用户需求。

Description

提示信息的处理方法、装置、电子设备以及可读存储介质
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种提示信息的处理方法、装置、电子设备以及可读存储介质。
背景技术
在目前信息大***的时代,日常工作生活中需要记录非常多的碎片信息,包括提醒内容、时间、地点、人物等。用户经常将这些碎片化的信息记录笔记本上,或者记录在手机平板上等电子设备上,在提醒时刻到达时,电子设备会对用户进行相应的提醒。
但是目前提醒事项的建立都需要用户主动完成的,用户需要给出清楚的提醒事项建立指令,电子设备则基于用户的该指令进行提醒事项的建立,另外,用户在通过发起语音指令进行提醒事项的建立时,还有可能会因为各种原因(如用户语音输入有限、用词不够标准等等)导致提醒事项建立不准确或者提醒事项建立失败等问题。因此,目前提醒事项的实现方式,用户体现较差,不能够很好的满足用户的实际应用需求。
发明内容
本申请实施例的目的旨在至少能够解决现有的技术缺陷之一。本申请实施例所提供的方案如下:
第一方面,本申请实施例提供了一种提示信息的处理方法,该方法包括:
获取提示信息;
获取用户视野图像中的对象,以便基于对象输出提示信息。
第二方面,本申请实施例提供了一种提示信息的处理装置,该装置包括:
提示信息获取模块,用于获取提示信息;
对象获取模块,用于获取用户视野图像中的对象,以便基于对象输出提示信息。
第二方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器;
存储器中存储有机器可读指令;
处理器,用于执行机器可读指令以实现本申请实施例所提供的方法。
可选的,电子设备包括AR(Augmented Reality,增强现实)设备或者VR(VirtualReality,虚拟现实)设备。
第四方面,本申请实施例提供了一种计算机可读存储介质,该可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现本申请实施例所提供的方法。
本申请提供的技术方案带来的有益效果是:本申请实施例所提供的提示信息的处理方法,能够根据通过对用户视野图像进行图像识别确定出的对象,将提示信息展示给用户,与现有的提示信息处理方法相比,实现了提示信息的多样化展示,提升了用户体验,更好的满足了用户需求。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为示出了本申请实施例提供的一种提示信息的处理方法的流程示意图;
图2示出了本申请实施例提供的一种提示信息的处理***的结构示意图;
图3示出了本申请实施例提供的一种图像识别模块的结构示意图;
图4示出了本申请实施例提供的一种通过图像识别模块进行图像识别的原理示意图;
图5示出了本申请实施例提供的一种自然语言识别与自然语言理解模块的结构示意图;
图6示出了本申请实施例提供的一种图像识别输出存储分析模块和语音理解输出存储分析的结构示意图;
图7a示出了本申请示例一中提供的一种用户视野图像的示意图;
图7b示出了示例一中图7a中的用户视野图像的对象识别结果示意图;
图7c示出了示例一中提示信息的展示示意图;
图7d示出了本申请示例二中图7a中的用户视野图像的对象识别结果示意图;
图7e示出了示例二中提示信息的展示示意图;
图8示出了本申请示例三中提供的一种根据用户喜好选择对象的方案的原理示意图;
图9示出了本申请示例四中提供的一种提示信息的处理***的结构示意图;
图10示出了本申请示例四中提供的一种提示信息的展示示意图;
图11a示出了本申请示例五中提供的一种应用场景的示意图;
图11b示出了示例五中的提示信息的展示示意图;
图12示出了本申请示例五中提供的一种提示信息的处理***的结构示意图;
图13a示出了本申请示例六中提供的一种应用场景的示意图;
图13b示出了示例六中的提示信息的展示示意图;
图14示出了本申请示例七中提供的一种提示信息的处理方法的原理示意图;
图15a示出了本申请示例八中的提示信息的一种展示示意图;
图15b示出了示例八中的物体被移动的场景示意图;
图15c示出了示例八中的提示信息的另一种展示示意图;
图16示出了本申请示例九中提供的一种图像识别模块的结构示意图;
图17示出了本申请示例九中提供的一种提示信息的处理***的结构示意图;
图18a示出了本申请示例十中提供的一种用户视野图像的示意图;
图18b示出了示例十中用户对图像进行编辑的示意图;
图18c中示出了示例十中提示信息的展示示意图;
图19示出了示例十中一种提示信息的处理方法的原理示意图;
图20a示出了本申请示例十一中的一种应用场景的示意图;
图20b示出了示例十一中用户对图像进行编辑的示意图;
图20c示出了示例十一中提示信息的展示示意图;
图21示出了本申请实施例提供的一种提示信息的处理装置的结构示意图;
图22示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为了更好的说明本申请实施例所提供的方案,下面首先对本申请所涉及的相关技术进行相应的描述。
随着人工智能的发展,在电子设备上进行信息记录的方式已经从原来的手动的信息输入发展到了语音控制信息输入,为我们的生活提供了很多的便利。目前大多数电子设备(如手机、平板电脑等)已经为用户预装了提醒事项的工具,提醒事项一般能够支持以下功能:
1.设置或编辑提醒内容;
2.设置特定提醒时间或者周期性的提醒时间;
3.设置提醒事项的优先级;
4.设置提醒事项的类别属性,并可以根据提醒事项的完成情况修改其归属的类别,例如:一个未完成的类别里面有几条提醒事项,之后用户可以将已完成的内容设置到已完成的类别中;
5.添加额外的备注;
6.设置提醒事项触发提醒的地点;
7.设置提醒事项关联的人物信息,例如手机号码,地理位置等;
8.删除某项已经建立的提醒事项。
通过语音助手建立提醒事项可以分为以下不同的情况:
1.一次说清楚建立提醒事项的目的以及内容,例如,用户对语音助手说“建立一个明天早上8点开会的提醒事项”,***则一次性为用户建立一个内容为“开会”的提醒事项,并设置时间为第二天上午的8:00。
2.分开说明建立提醒事项的目的和内容,例如,用户对语音助手说“建立一个提醒事项”,语音助手会询问并等待用户再次的命令“好的,请告诉需要提醒内容”,之后用户再次输入提醒内容“明天上午8点开会”,语音助手则会建立一个内容为“开会”时间为第二天上午8:00的提醒内容。
使用语音来添加提醒事项背后有多种技术作为支持,具体可以包括:
1.使用自动语音识别(ASR,Automatic Speech Recognition)将用户的语音信息转成文字信息;
2.通过自然语言理解工具(NLU,Natural Language Understanding)对文字进行分析,并根据用户的需求设置提醒事项操作;
3.语音助手使用文本语音转换工具(TTS,Text To Speech)播放确认信息。
另外,随着人工智能的发展,AR/VR设备也开始普及,使得人们可以在AR/VR场景中建立各种虚拟物体,且由于AR/VR设备能够提供更加丰富的、更加接近于真实世界的内容呈现给用户,因此,如果能够通过AR/VR设备来实现提醒事项的功能,将能够更加直观的给用户提供一些个性化的提醒服务。
需要说明的是,本申请实施例中所描述的AR/VR设备是一个泛指的概念,既可以是为AR/VR场景设计的专用设备,也可以是支持AR/VR功能的其他设备,例如,带有AR功能的手机平板等,本申请实施例中统称为AR/VR设备。
使用AR/VR等设备展示提示信息时,提示信息的虚拟提醒事项标签可以展示在的对象(即物体)可以包括但不限于:
1.便签、图画等静态的虚拟物体;
2.相册、书本等可以用来交互的虚拟物体;
3.电视、平板等可以呈现多媒体信息的虚拟物体;
4.动物、人物等有自主运动属性的虚拟物体。
从技术手段上,AR设备需要对真实的场景进行建模,而VR设备已经具有虚拟场景的模型,然后将虚拟提醒事项标签放入已经建立好的场景模型中即可。用户使用AR/VR设备在场景中与虚拟物体进行互动的情况可以包括但不限于:
1.通过设备的陀螺仪和摄像机等传感器计算AR/VR设备在场景中的位置,以及观察视角等等;
2.AR/VR设备在3D(3 Dimensions,三维)空间中生成虚拟物体,根据使用者的视角状态,渲染出虚拟物体在使用者两眼的投影图像,然后呈现给使用者;
3.通过遥控器操作、手势识别、语音识别等技术与虚拟物体进行实时交互。
在AR/VR场景中的虚拟提醒事项标签可以是赋予在一个物体上,也就是需要场景中的其他信息对虚拟提醒事项标签进行定位。例如,针对场景中的一个真实物体建立一个虚拟提醒事项标签,因为该标签的形态丰富,用户可能看见的是一个虚拟的便签、相册、视频播放器等等。
虽然现有的事项提醒功能能够满足用户大部分的工作生活需求,但是本申请的发明人发现现有的事项提醒功能仍然存在以下一个或多个需要改善的问题:
1.通过手机等电子设备设置的提醒事项,给用户呈现信息的方式有限,一般为通过屏幕直接呈现给用户文字信息或者通过语言助手播报信息;
2.跟实时场景相关的提醒,仅仅使用文字表达需要很多描述场景的语句,操作复杂,不够简洁直观;
3.图像识别算法独立于自动语音识别与自然语言理解模块的运行,为了得到更多的信息,需要同时调用很多算法模块计算场景中的物体属性,计算量大,资源消耗大;
4.自动语音识别与自然语言理解相对于图像识别模块也是独立运行的,语音识别和语言理解完全使用用户输入的语音信息,然后选出可能性最大的结果作为输出,***不能结合场景给出最符合用户意图的输出;
5.日常生活用户人群非常广泛,每个人都有自己的习惯,对于偏离标准的语音指令,如夹有各地方言特征的非标准普通话,或者一些用户自身或者因为地域原因对物体或事件采用了另一种称呼,虽然可以通过增加训练库的方式进行改善,但是无法很全面的顾及到每个用户的特殊习惯;
6.现有的***因为输入的信息有限,不能自动的判断用户的行为意图,所以***不能自动根据用户可能的需要为用户建立提醒事项;
7.现有的动作识别算法可以计算出用户的简单动作,但算法往往基于一些简单的规则,并不能与场景中的物体以及该物体的属性信息进行关联,输出简单,准确度低;
8.现有的动作识别算法只能对既定的动作进行识别,不能根据用户的个人的习惯进行定制化的处理;
9.现有的AR/VR***为了在场景中创建虚拟物体,需要根据场景中的物体对虚拟物体的位置进行定位,虚拟物体的位置会依赖于固定的场景,这不能满足用户在不同的场景对一类物体使用同一标签的需求;
10.现有AR/VR***中,当物体被搬移后,其附属的标签不能有效的跟踪记录;
11.现有AR/VR***中,需要对场景中的多个相似或者相同的物体中的其中一个添加标签时,在用户指令不是很明确的条件下,***不能根据用户的喜好选择其中的一个;
12.现有AR/VR***是通过语音或者遥控交互的,缺乏与其他手机平板等电子设备的交互。
为了能够解决现有技术中存在的至少一个技术问题,本申请实施例提供了一种提示信息的处理方法、装置、电子设备以及可读存储介质,下面对本申请实施例所提供的方案进行详细描述。
图1中示出了本申请实施例提供的一种提示信息的处理方法的流程示意图,如图1中所示,该方法可以包括以下步骤:
步骤S110:获取提示信息;
步骤S120:获取用户视野图像中的对象,以便基于对象输出提示信息;其中,对象是通过对用户视野图像进行图像识别确定出的。
可以理解的是,用户视野图像即位于用户视野范围内的图像,该图像可以获取到的用户视野范围内的一张图像,可以是获取到的用户当前视野范围的视频流中的一帧或多帧图像。另外,在用户看到的场景为真实场景时,该用户视野图像则为用户当前视野的真实图像,在用户看到的场景为虚拟场景时,该用户视野图像则为用户所看到的虚拟场景中的图像。
本申请的可选实施例中,对象可以是通过以下至少一种方式确定出的:
通过对用户视野图像进行图像识别确定出的;
根据用户视野图像中的对象数据确定出的。
其中,对于真实视野图像或虚拟的视野图像,都可以采用对视野图像进行识别的方式来获取到展示提示信息时所需要基于的对象。若用户视野所看到的场景为虚拟场景(即VR场景),由于此时场景中各物体的数据(包括在虚拟场景中的位置)在该场景下都是固定的,因此,对于VR场景下,还可以基于在构建该虚拟场景是对象的相关数据(包括位置信息),确定出用户视野的虚拟图像中的该该对象。
本申请实施例的所提供的该方法,能够基于用户视野图像中的对象进行提示信息的输出,从而能够通过AR/VR设备将该提示信息展示到用户视野中的对象上,基于该方案,为用户提供了更加多样了提示实现方式,能够为用户展现更加接近于真实世界的提醒内容,提升了用户感知,更好的满足了用户的实际应用需求。
本申请的可选实施例中,提示信息可以是通过以下至少一种方式得到的:
根据用户指令得到提示信息;
其他设备发送的提示信息;
根据用户意图自动生成的提示信息;
基于预设方式生成的提示信息。
其中,用户指令可以包括但不限于用户发出的指示生成提示信息的指令,还可以是其他设备发送的指令,也可以是用户对图像的编辑指令等。另外,用户指令的具体形式本申请实施例不做限定,可以包括但不限于语音指令、文本指令等,本申请实施例后续的描述中多以语音指令来代表用户指令。例如,用户发出了“帮我建立一个明天上午10点吃药的提醒”的语音指令,则可以基于该语音指令得到相应的提示信息,如提示信息可以是内容为吃药、提醒时间为明天上午10点的信息。
对于基于预设方式生成的提示信息,该预设方式可以包括但不限于文本方式、非文本方式等。具体的,在预设方式为文本方式时,生成的提醒信息的样式即可以是文本形式的信息,而此时提示信息的具体文本内容可以是基于用户指令得到、也可以是从其他设备接收到的提示信息、还可以是根据用户意图自动生成的;而非文本方式包括但不限于特定的非文本显示方式,例如,可以通过改变视野图像中对象的属性信息,还可以是改变视野图像中除对象之外的其他部分的属性信息,具体的,如可以是将视野图像中的对象高亮显示、还可以是改变视野图像中对象的颜色或者其他属性信息等。
本申请的可选实施例中,用户意图可以是通过以下方式获取到的:
获取用户的历史图像;
基于历史图像识别出用户意图。
具体的,可以通过对用户的历史图像进行识别分析,确定出用户可能的意图,从而能够基于分析出的用户意图自动生成相应的提示信息。
本申请实施例的该方案,能够基于用户历史图像,自动分析用户意图,以分析用户可能的需求,从而能够自动根据该需求为用户建立相应的提示信息。通过该方法,能够在不需要用户主动不参与的情况下,为用户建立相应的提醒事项,从而更好的满足了用户的需求。其中,在基于用户意图自动生成提示信息时,展示该提示信息时所基于的对象可以是与用户意图有关联的对象。
当然,在实际应用中,作为一可选方式,在基于用户意图生成相应的提示信息之后,可以向用户提示是否需要建立该提醒事项,在接收到用户确定建立该提醒事项的反馈后,再保存该提示信息即建立该提示信息的提醒事项,如果接收到用户不想要建立该提醒事项的反馈后,则可以不保存该提醒信息即取消该提醒事项的建立。
本申请的可选实施例中,上述对象根据以下至少一种信息确定:
用户指令中携带的对象指示信息;
用户在用户视野图像中的关注点;
用户的个性化信息;
用户针对对象的历史行为;
其他设备发送的能够用于确定对象的信息。
其中,用户指令中携带的对象指示信息可以是明确的指明了对象的信息,也可以是能够用于根据该对象指示信息确定出对象的信息,如可以包括对象的属性信息。例如,用户指令为“帮我在这个电脑上建立一个发邮件的提醒标签”,则该指令中的对象指示信息为“这个电脑”,该指示信息为明文的指示信息。再例如,用户指令为“帮我在这个红色物体上设置发邮件的提醒”,则该指令中的对象指示信息为“红色物体”,红色为对象的颜色属性,此时则可以通过对用户视野图像进行识别,识别出红色物体所指示的实际物体即对象。
需要说明的是,本申请实施例中,用户的关注点可以包括用户眼部的注视点和/或用户其他部位的指向点等,例如,关注点可以手指或其他部位的指向点等。
用户的个性化信息是指与一个用户本身有关的用户信息,可以包括但不限于与用户的兴趣、年龄、性别,职业、地理位置、社会关系、用户感兴趣的内容、用户行为、用户习惯、喜好等各方面有关的信息。在实际应用中,在基于用户指令或其他信息不是很明确的条件下,如果无法基于用户指令和/或其他信息确定出对象,或者基于用户指令和/或其他信息确定出的可选对象为多个时,则可以根据用户的个性化信息(如用户喜好)确定出一个对象。
对于用户针对对象的历史行为而言,此时的对象可以包括但不限于用户发生行为时,与该行为有关联的对象。作为一可选方式,可以是通过对用户图像进行分析识别出用户的行为,将该行为所关联的对象作为展示提示信息时所依据的对象,如可以获取用户的一张或多张历史图像,通过分析该图像确定出用户的历史行为,并基于该行为确定出对象。
另外,还可以根据其他设备发送能够用于确定对象的信息来确定对象,其中,能够用于确定对象的信息的具体形式本申请实施例不做限定,只要是能够用于确定出用户视野图像中该对象的信息即可。例如,能够用于确定对象的信息可以是对象的名称,也可以是对象指示信息,例如,对象指示信息可以是对象的特征,具体如对象在其他图像中的特征点,此时则可以通过特征点匹配的方式获取到用户视野图像中的对象。
本申请的可选实施例中,对象指示信息包括对象的属性信息,对象是通过以下方式得到的:
根据对象的属性信息和/或用户所在场景,确定图像识别算法;根据确定出的图像识别算法对用户视野图像进行识别,识别出对象。
为了提高图像识别的准确性,作为一可选方式,在对用户视野图像进行识别前,可以通过用户指令中所携带的对象的属性信息和/或用户所在场景的场景信息,来选择合适的图像识别算法,基于选择出的算法对用户视野图像进行识别,从而提升识别的精度,并能够减小运算资源的开销。当然,需要从图像中识别出的对象可以是基于前文中所描述的任一方式确定出的。
本申请的可选实施例中,在获取到提示信息和用户视野图像中的对象之后,该方法还可以包括:
基于对象,在用户视野图像中展示提示信息。
具体的,可以基于用户视野图像中对象的位置信息,通过AR/VR设备将提示信息展示在用户视野图像中的该对象上。
可以理解的是,在将提示信息展示到用户视野图像中时,该视野图像即为用户当前的视野图像。在需要将提示信息持续一段时间内展示给用户时,则该视野图像则可以是所采集的用户视野的视频流中的帧图像,则在将提示信息进行持续展示时,可以采用对象跟踪的方式,进行视频流中该对象的跟踪,基于不同帧图像中的该对象,将提示信息展示给用户,也就是说,可以基于用户历史视野图像中的该对象,确定出用户当前视野图像中的该对象。
作为一可选方式,在实际应用中,可以根据对象的属性信息和/或用户所在场景,确定图像识别算法;根据确定出的图像识别算法对用户的历史视野图像进行识别,识别出历史视野图像中的对象;再根据历史视野图像中的该对象,确定出当前视野图像中的该对象。
对于该方式,具体的,可以通过确定出的图像识别算法对历史视野图像进行识别,得到对象在历史视野图像中的对象标识信息,再基于该标识信息识别出当前视野图像中的该对象即可。也就是说可以基于历史视野图像中该对象的相关信息进行对象跟踪,确定出当前视野图像中的该对象。其中,该对象标识信息可以是历史视野图像中该对象所在图像区域的特征点,此时可以通过将历史视野图像与当前视野图像进行特征点匹配,确定出当前视野图像中的该对象。
作为另一种可选方式,还根据对象的属性信息和/或用户所在场景,确定图像识别算法;根据确定出的图像识别算法对用户的历史视野图像进行识别,识别出历史视野图像中的该对象;再根据对象在用户所在场景中的场景位置信息,确定出当前视野图像中的对象。
对于固定的用户所在的场景(可以是真实场景、也可以是虚拟场景),场景中各对象的场景位置信息一般都是固定的,该情形下,可以通过预先获取该场景的全景图像,基于该全景图像得到场景中各对象的场景位置信息,再通过对历史视野图像进行识别,确定出历史视野图像中的该对象之后,由于该对象的场景位置信息是固定的,因此,此时即可基于该对象的场景位置信息,确定出当前视野图像中的该对象。
基于上述任一方式,即可实现对对象的跟踪处理,从而能够基于各用户视野图像中该对象的位置信息,将提示信息展示给用户。
本申请的可选实施例中,该方法还包括:
当对象的位置信息发生变化时,根据对象变化后的位置信息,将提示信息展示在用户视野图像。
在实际应用中,在用户移动或者场景中的该对象被移动时,对象在用户视野图像中的位置也会发生变化,此时,可以通过对用户视野图像进行重新识别确定出对象,也可以采用对象跟踪的方式找到用户视野图像中的该对象。
本申请的可选实施例中,当对象未位于当前视野图像中时,还包括以下至少一个步骤:
生成对象的引导信息,以基于引导信息使对象位于当前视野图像中;
将提示信息展示在用户视野图像中;
将提示信息发送给其他设备,以通过其他设备将提示信息展示给用户。
为了避免在展示提示信息时,由于用户的当前视野发生变化或其他原因导致对象离开了用户的当前视野,可以通过上述任一方式来保证将提示信息展示给用户。
本申请所提供的可选实施例中,可以利用AR/VR的场景信息(包括图像)加入ASR技术以及NLU技术,给用户提供一个全新体验的基于AR/VR的提醒服务。
作为一可选方式,图2中示出了本申请实施例所适用的一种提示信息的处理***的结构示意图。如图2中所示,该***主要可以包括9个模块:视频输入模块1、数据库模块2、语音输入模块3、图像识别模块4、决策模块5、自动语音识别与自然语言理解模块6、图像识别输出存储分别模块7、语音理解输出存储分析模块8、以及虚拟现实/增强现实提醒设置模块9。
需要说明的是,在实际应用中,处理***中的各模块可以根据实际应用需求部署在一个或多个设备上,例如可以分别部署在终端设备、云端服务器、物理服务器等一个或多个设备上。
对于上述各模块,视频输入模块1、数据库模块2和语音输入模块3为***的输入部分,图像识别模块4、决策模块5和自动语音识别与自然语言理解模块6为***主要的信息处理部分,图像识别输出存储分别模块7、语音理解输出存储分析模块8、以及虚拟现实/增强现实提醒设置模块9为***的输出和存储部分。具体的:
1.视频输入模块1具体可以为AR设备的摄像头输入或者VR设备渲染的场景输入,还可以是通过其他图像采集设备采集到的用户图像和/或用户视野图像等,他们为整个***提供用户所视场景和/或用户所在场景的图像信息。
2.数据库模块2为***预设的数据信息和根据用户的使用的习惯以及历史记录数据分析提炼得到的关键信息,该关键信息可以包括用户的个性化信息、场景信息的相关信息、物体(即对象)的相关信息等,该关键信息的存储方式可以是存储在用户使用的设备上,也可以存储在通过网络连接的专用服务器上,并可以进行调整和更新。
3.语音输入模块3为***的语音采集部分,包括但是不限于设备的麦克风等,语音输入模块将用户的语音指令转化为数字电子信号,以便给***的其他模块提供可以分析的语音数据来源。
4.图像识别模块4不断接收来自视频输入模块1的图像信号,可以通过图像识别技术、场景理解技术,提取出场景中存在的物体以及他们的位置关系。
5.自动语音识别与自然语言理解模块6,可以通过自动语音识别技术将语音输入模块3输出的电子语音信号转为文字信息,通过自然语言理解技术对这些文字信息进行分析,理解用户的意图。
其中,自动语音识别与自然语言理解模块6输出的一部分信息可以作为图像识别模块4的输入,这部分信息是图像识别模块4的非必要的输入信息,但是作为一种可选方案,利用这一部分信息能够使得图像识别模块4选择合适的图像识别算法,提升识别的精度与减小运算资源开销。
6.决策模块5接收来自图像识别模块4和自动语音识别与自然语言理解模块6的输出,该模块可以通过对图像信息与语音信息的综合判断,给出高精度的图像识别结果和语音识别与自然语言理解的结果。
7.图像识别输出存储分析模块7接收来自决策模块5的输出信息,此信息与图像识别模块4的输出结果有关,不同的是图像识别模块4输出的信息为当前场景下图像识别的所有信息的总和,而图像识别输出存储分析模块7则将其中对用户有用信息进行存储,并且这里不仅保存着当前有用信息,还存储有历史的信息,此模块还负责对这些时序相关的信息做出分析,得出用户的使用意图。
8.语音理解输出存储分析模块8接收来自决策模块5的输出信息,此信息与自动语音识别与自然语言理解模块6的输出结果有关,不同的是模块6输出的信息为当前场景下语音理解的所有信息的总和,而模块8则将其中对用户有用信息进行存储,并且这里不仅保存着当前有用信息,还存储有历史的信息,此模块还负责对这些时序相关的信息做出分析,得出用户的使用意图。
其中,需要说明的是,上述在模块7和模块8中所描述的有用信息是指对场景状态、物体、用户动作行为意图、用户语言意图等识别有作用的信息。
9.虚拟现实/增强现实提醒设置模块9主要负责存储用户不同地点、不同场景、不同时间段的提醒信息,并负责将这些信息在合适的地点、场景、时间以虚拟提醒标签的方式通过AR/VR设备呈现给用户,或者在虚拟提醒标签不在AR/VR的视野范围内时,还可以将该标签对应的提示信息以语音播报或其他方式呈现给用户。
作为一可选方案,图3中示出了一种图像识别模块的结构示意图。如图中所示,该方案中的识别模块可以包括视频帧获取模块4_1、模块4_2图像分割模块以及物体识别模块4_3。
其中,视频帧获取模块4_1是将视频输入模块1中输出的视频流数据作为输入信息进行解码,其输出为视频帧数据,每一帧数据包含有完整的场景图片信息,模块4_1可以根据***的计算资源情况,通过抽帧的方式灵活地调整需要计算的视频帧的帧率。
图像分割模块4_2用于将获得的图片进行物体分割,并将不同的物体分割开来,为后面物体的识别提供分割好的物体图片,其中,图像分割模块所采用的图形分割算法可以包括但不限于R-CNN(Region-based Convolutional Neural Network,基于区域的卷积神经网络),Fast R-CNN(基于区域的快速卷积神经网络),Faster R-CNN(基于区域的更快速卷积神经网络)和Mask R-CNN(基于区域的掩码卷积神经网络)等,本申请实施例中此模块可能使用上述一种或多种方法,或者随着技术的进展还可以使用其他方法代替。
物体识别模块4_3的输入数据可以分为两部分,一部分来自于图像分割模块的输入即将分割之后的每一个对象输入此模块进行计算识别,另一部分非必要输入为自动语音识别与自然语言理解模块6的输出,也就是说,在此模块内部可以根据语音识别的结果选择不同的图像识别算法(一个或多个)进行识别,若没有模块6的输出信息,则此时选用的算法组合可以为根据场景的不同选用预定义的算法设置。
作为一个示例,图4中示出了本申请实施例提供的一种图像识别模块的工作原理示意图。如图中所示,在实际应用中,此模块中可以预存在N种不同的图像算法,具体如图中所示的备选算法库中的备选算法1、备选算法2、…、备选算法N,不同算法可以是针对同一问题的计算,也可以是针对不同问题的计算,例如,可以有两种算法都是对颜色进行计算,得出当前物体的颜色,但是一个算法排除了光照干扰,得到了接近物体本身的颜色,第二种情况没有排除光照干扰,尽量的接近用户的真实体验。其他算法可以包括但不限于针对形状进行描述的算法,也有对物体类别进行识别的算法等,这些算法的总和可以统称为备选算法库。本示例中,假设备选算法库中计算物体特性的算法总数为N,N的个数不是固定不变的,可以随着***的更新而增减。
图4中所示的算法选择器则是需要在算法备选库中选择需要运算的算法,选择的依据可以来自于自动语音识别与自然语言理解模块的输出,也可以是来自于针对场景的不同而进行的算法选择预设,假设总共选择出M个算法(图中所示的已选算法1、已选算法2、…、已选算法M)对图像进行计算分析。其中,M的取值根据不同的语音指令或者场景的变化可以进行自适应改变,例如,当指令说明需要对一个黄色的杯子进行标注的时候,可以同时启用即选择的算法至少应该包含颜色识别算法以及物体类别识别算法。图像识别的结果即物体识别模块的输出,可以为场景图像中的通过已选算法库中的算法得出的结果的集合。
对于自动语音识别与自然语言理解模块6,目前通常是先通过自动语音识别算法将语音转为文字,然后再将通过自然语言理解将文字进行成分分析,找到用户命令的实际目的。虽然现在的自动语音识别已经能够根据一句话的前后文来尽量的纠正错误,但是因为环境影响、用户的口音等而产生的识别错误会影响后续自然语言理解部分的正确分析,从而导致***错误的理解用户指令。在实际应用中,还是存在因为用户采用了代词表示实际物体,虽然自动语音识别模块正确的将用户的语音指令转成了文字,但是仍然存在自然语言理解部分不能正确分析出用户的实际意图的问题。
针对上述问题,作为一可选方案,图5中示出了本申请实施例提供的一种自动语音识别与自然语言理解模块的结构及工作原理示意图。如图5中所示,该模块具体可以包括自动语音识别模块6_1和自然语言理解模块6_2。其中,自动语音识别模块6_1在对语音输入进行识别时,可以针对不确定的词可以给出几个最有可能的选项(如图中所示的备选项1、备选项2、…、备选项P),之后自然语言理解模块6_2可以进一步根据词语间的约束关系排除一些不可能的选项,并进行成分分解,如分解出宾语、谓语和状语等,并针对不确定的部分给出多个可能的选项(如图中所示的谓语备选项、状语备选项、…、宾语备选项等),后续可以再由决策模块进一步确定。
决策模块5能够根据语言理解和图片的信息综合做出判断。具体的,决策模块可以接收来自模块6的分析结果,通过从数据库模块2获得的信息可知用户是否有将一件物体习惯性的用另一种称谓进行称呼,或者将一个动作指令使用另一种表达进行描述,若存在此类的习惯,则可以使用标准的称谓对分析结果中的相应表述进行替换操作,以消除歧义。然后,决策模块5可以根据实际场景中物体的属性信息进行判断,准确将用户指令与实际场景进行映射,最后准确的得到物体识别与语音识别的结果,同时可以将与指令无关的物体进行筛除,将有用的信息输出给模块7和模块8。
例如,作为一个示例,假设用户的场景有一个红色的茶壶,用户想要在茶壶上建立一个提醒明天上午开会的提醒,用户习惯将茶壶称呼为“罐罐”,当用户发出“在那个红色罐罐标记下明天上午开会的提醒”命令时候,图像识别模块4可以启动颜色识别算法、形状识别算法和物体识别算法,识别得到了桌子上有红色的苹果和红色的茶壶,然后自动语音识别与自然语言理解模块6经过分析,得到了动作为建立提醒,提醒内容为“明天上午开会”,状语为“在红色罐罐上”,然后经过与数据库模块中存储的数据比对分析,用户习惯将茶壶称呼为“罐罐”,因此,基于数据库模块中的数据可以得到用户实际表达的状语为“在红色茶壶上”,同时排除了在红色苹果上建立提醒的选项,最后经过分析图像输出为场景中的红色茶壶,自动语音识别与自然语言理解模块的输出为“在红色茶壶上建立明天上午开会的提醒”,从而将实景、用户指令、以及用户的个性化信息(该示例中的用户对物体的称呼习惯)进行了很好的关联,提高了图像识别以及语音识别的精度。
另外,由前文描述可知,本申请实施例所提供的图像识别输出存储分析模块7和语音理解输出存储分析模块8可以不仅仅存储了当前用户的动作以及指令,还存储了历史的识别信息,这些历史信息可以按照信息的重要程度、频次、时间的远近分配不同的存储空间,以便能够在节约存储空间的同时提供准确的信息,例如,包括但不限于使用简单的规则对最近出现频次高的识别结果保留完整的原始识别数据,对长时间的结果进行分类压缩,只保留结论信息。
作为一可选方案,图6中示出了本申请实施例中提供的一种图像识别输出存储分析模块7和语音理解输出存储分析模块8的结构示意图。如图中所示,模块7具体包含图像识别结果存储模块7_1与用户动作行为分析模块7_2,模块7_2可以负责获取模块7_1中存储的数据,并判断出用户的特定行为动作,然后产生的行为动作也可以作为当前时间的重要信息重新存储在模块7_1中。
在实际应用中,由于动作识别是模块7_1的一些数据产生的结果,在经过一个较长的时间之后,为了减少数据存储所需要的存储空间,可以只保留动作的结果而删除一些原始的判断数据,以起到数据压缩的功能。另外,由于当前的动作分析能够为将来的动作分析提供算法依据和数据支持,能够帮助完善模块7_2中所存储的数据,因此,模块7_2可以通过从模块7_1中获取的数据,来判断出用户的特定行为动作,以完善更新模块7_2中的数据。
同样的,模块8也包含两个模块,即图中所示的语言识别结果存储模块8_1和用户语言行为分析模块8_2。模块8的内部构成与模块7不同的是,他们针对不同的内容采用的是不同的算法,模块7使用的是针对图像内容的分析,分解结果为动作行为,模块8使用的是针对语言内容进行分析,分析结果为语言行为。模块9即虚拟现实/增强现实提醒设置模块,可以从模块7_1、模块7_2、模块8_1以及模块8_2中获取数据,综合判断出用户的行为动作以及需要自动帮助用户标注的内容。
为了更好的说明以及理解本申请实施例所提供的方案,下面结合一些示例对本申请实施例所提供的方案的相关内容进行进一步的说明。
示例一
图7a中示出了本示例中一种提示信息的处理方案的场景示意图,用户可以通过其携带的AR设备获取到图7a中所示的用户视野图像。用户需要建立提醒事项时,可以使用AR设备发出创建提醒的指令,如“在茶壶上放置一个便签条,标记上不要忘记专利提案”。对于该语音输入,可以通过自动语音识别模块分析生成该语音输入的文本信息,通过自然语言理解模块得到该文本信息中的所有语素,该示例中,语素具体可以包括:宾语:“一个便签条”,状语:“在茶壶上”,信息:“不要忘记专利提案”,行为:“放置”,对于图像识别模块,可以根据语音指令的内容选择了需要执行的图像识别算法,例如,本示例中图像识别算法可以包括形状识算法和物体识别算法,基于形状识别算法,可以找出类似茶壶形状大小的物体,通过物体识别算法,可以找出类别为茶壶的物体,通过选择出的图像识别算法,确认了在使用者观察的场景左下角有一个红色的茶壶,得到的用于展示提示信息的对象,本示例中该对象具体为图7b中所示的虚线矩形框中的茶壶。决策网络(即决策模块)通过对图像和语音的输入信息进行汇总,将图像识别结果与语言理解结果进行保存。最后AR***(本示例中的处理***)的提醒设置模块获得了准确的指令,准确的设置了提醒事项(即提醒信息),具体如图7c中所示,可以基于识别出的茶壶,将基于用户语音指令得到的提示信息(图中所示的不要忘记专利提案2018.03.13)以便签的形式展示在用户的当前视野图像中,其中,图中提醒信息中的时间(2018.03.13)可以是接收到用户语音指令的日期。当然,在实际应用中,如果用户给出了提醒的时间,则该提示标签中显示的时间也可以是实际需要对用户进行提醒的时间,如用户指令为“帮我在茶壶上放置一个明天不要忘记专利提案的便签条”,则图7c中的提示信息可以为“2018.03.14不要忘记专利提案”。
可以理解的是,在本示例中,图7a中所示的用户视野图像与图7c中所示的用户视野图像可能是同一张图像,也可能不是同一张图像。这是因为,在实际应用中,即使用户在整个过程中未发生过移动,图7c中所示的用户视野图像的采集时间与图7a中所示的用户视野图像在时序上可能是同一张,也可能不是同一张,另外,如果在获取到图7a中所示的图像后,用户有所移动,则在展示提示信息时,图7c中所示的用户视野图像与图7a中所示的用户视野图像则很可能不是同一张图像。如果是同一张图像或者用户未移动过,则可以基于图7a中茶壶的位置展示提示信息,如果用户移动过,在图像发生变化时,则可以基于图像识别时所识别出的图7b中所示的茶壶所在图像区域的特征点信息,将图7b视野图像和当前视野图像进行特征点匹配,基于图7b中茶壶的特征点信息,确定出图7c中茶壶的当前位置信息,并基于该位置信息将提示标签展示在图7c中所示的用户视野图像中。
示例二
仍以图7a中所示的场景为例。在该场景中,当在用户的指令有多种可以选择的选项时,***可以询问用户并给出建议,并在用户决定之后记录用户的选择偏好以便为用户提供更好的服务。
具体的,假设用户指令为“在墙上设置一个别忘记专利提案的提醒”,图像识别模块通过对图7a中所示的用户视野图像进行识别,识别出场景图像中墙的位置,通过识别用户指令,将用户指令中的信息与场景中的物体(即对象)相对应,可以发现此时有多个可选的对象,如图7d中虚线框所示的多个墙的区域,由于用户的模糊指代有多种选择,此时,***可以提问用户并根据用户的习惯给出建议,例如,可以基于用户指令进行相应的反馈,如“好的,你想放置在哪里,右下角吗”,如果基于该反馈接收到用户的响应,如“右下角,好的”,则此时可以基于用户的反馈将提示信息(图中所示的Do not forget patentproposal)展示在用户当前视野图像中的墙的右下角区域,如图7e所示。此外,***还可以记住用户的选择,基于用户的该选择将用户的相关信息存入到数据库模块的用户数据库中,更新用户的个性化信息。
示例三
在示例二中所给出的应用场景中,给出了在对应的实际场景的位置有多个时如何进行处理的方案。在本示例的应用场景中,当用户对建立提醒的方式即建立的虚拟提醒的展示形式没有明确说明时,***也能根据用户的喜好给出建议。
如图8中所示,对于AR场景,***得到多个可选择的用于展示提示信息的实际物体选项即有多个可选的对象时,或者对于VR场景,***得到多个可选择的用于展示提示信息的虚拟物体选项时,***可以通过喜好选择器来根据用户的喜好对各个可选择的物体建立权重,如图中所示,假设可选择的实际物体为M个,图中所示的W2_1表示第一个可选的实际物体的权重、W2_M表示第M个可选的实际物体的权重,同样的,W1_1表示第一个可选的虚拟物体的权重,W1_N表示第n个可选的实际物体的权重,其中,喜好选择器可以基于对用户行为习惯分析的分析结果,来设置上述各权重,即根据用户习惯设置权重,用户行为习惯信息的获取可以通过从数据库模块(图中所示的用户数据)中所存储的用户相关信息中获取。之后,***在遇到模糊的指代时,***可以根据用户的历史权重进行推荐,并在用户最终做出选择后更新这些权重存入数据库。权重的初始值可以通过统计大多数用户的行为习惯给予一个初始值。
示例四
该示例中仍以图7a中示出的场景为例。该示例中,用户需要使用AR***(本示例中的提示信息的处理***)在茶壶上建立一个提醒。
对于语音部分,AR***(如通过AR设备)采集到了用户的语音指令,然后通过自动语音识别模块识别出用户语音指令的文本信息为:“在那个红色壶壶上建立别忘记明天发邮件的提醒便签”,然后通过自然语言理解模块将语句进行拆分,得到动作以及宾语为“建立提醒便签”,便签内容为“别忘记明天发邮件”,状语为“在那个红色壶壶上”,自然语言理解模块得到的其中的一部分信息可以提供给图像识别模块,所有的分析结果提供给决策网络即决策模块。
对于图像部分,AR设备的摄像机可以采集到了场景的视频,其中的至少一帧图像被送入图像识别模块。图像识别模块通过图像识别算法首先可以区分场景中的不同物体,例如,可以采用训练好的卷积与反卷积网络对场景中不同物体进行分割,由于根据用户的需求是在“红色茶壶”上建立标签,因此,对于图像识别模块,其算法选择器可以选择使用了颜色识别算法与物体检测算法,通过选择出的算法对分割后的图像进行识别,识别出的红色物体为茶壶。
决策网络基于图像识别模块和自然语言理解模块的输出结果,经过比对分析,确定出场景中红色的物体为“茶壶”,再根据用户数据库综合判断用户表达的“那个红色的壶壶”即指的场景中的“红色茶壶”,经过综合判断,场景中有用的物体即红色茶壶作为图像识别的输出结果,用户的指令修正之后为“在红色茶壶上建立‘别忘记明天发邮件’的提醒便签”,最后交由***的提醒设置模块完成提醒标签的设置,并基于红色茶壶,将提示标签展示在用户视野图像中,如图10中所示,图中的提醒信息中的时间可以为“明天”所对应的实际时间,当然,提示信息的具体内容还可以是“别忘记明天发邮件2018.0.3.13”,此时该信息中的时间则可以为用户发出指令的时间。
图9中示出了本示例中所提供的一种用于实现本示例中上述提示信息的处理方法的处理***的结构示意图。如图9中所示,图像识别模块可以包括图像分割网络(图中第一层所示的CNN layers(卷积神经网络)+DCNN layers(反卷积神经网络))和图像识别网络(图中第二层所示的CNN layers+FC layers(全连接层)),其中,图像识别网络中包括算法选择器(图中所示的模块S)。
对于获取到的图像即视频输入(该示例中图7a中所示的图像),通过图像分割网络处理后得到图像分割结果(图中所示物体分割部分的图像),基于图像分割结果得到带分割标记(图中图像A中所示的矩形框)的图像A,基于用户的语音输入得到的信息(红色壶壶)可以作为算法选择器的输入,基于该输入可以确定出算法为物体识别算法和颜色识别算法,图像识别网络基于所确定出的算法对图像A进行识别,得到图像的初步识别结果(图中所示的FC layers的输出、也就是是决策网络的部分输入)。
对于用户的语音输入,通过ASR模块和NLU模块可以分析得到语音输入信息中的动作行为是“建立”,宾语是“提醒便签”,便签内容为“别忘记明天发邮件”(图像未示出),状语为“在那个红色壶壶上”。
用户语音指令的识别结果(图中所示的语音识别的初步结果)、图像的初步识别结果(图中所示的图像识别的初步结果)、以及数据库模块(图中所示的用户相关数据库)中的存储的信息(如用户个性化信息)均可以作为决策网络的输入,由决策网络基于语音识别结果、图像识别结果和用户的相关信息经过综合判断,输出的场景中有用的物体即用于展示提示信息的对象即为物体1(即红色茶壶),该物体即是提示信息所附着在的物体,提示信息的具体内容(图中所示的文本)可以为图10中所示的“别忘记发邮件2018.03.14”,输出的“在…上”这个状语以及动作信息“放置”则用于表明提示标签相对应茶壶的位置。
示例五
本示例中给出了一种基于用户行为自动生成提示信息的方案。
图11a和图11b中示出了该示例中的场景的示意图。该示例中,以基于用户图像生成提示信息的设备以及提示信息的展示设备均是AR眼镜为例进行说明。具体的,用户佩戴AR眼镜时,将阿司匹林药瓶放入到了图11a中所示的柜子的左下角抽屉中,图像采集模块采集到了用户将药瓶放入到了抽屉中的视频流,该视频流作为视觉输入输入到了图像识别模块,图像识别模块得到了用户手中的药品信息,检测到了用户的柜子,识别出用户拉出左下角的柜子并放入药品,之后***(本示例中的AR***)可以根据此动作帮助用户自动记录一条标记有当前时间信息、位置信息、和药品信息的提醒,如图11b中所示,当用户需要再次寻找药品的时候,该提醒能够快速的帮助用户找到他放置的东西。这里需要说明的是,当动作行为发生的时候有相关的语言行为可以同时发生,则记录的时候也会将语言行为记录在提醒中,若语言行为是无关的行为,则不会一起记录在同一个提醒中。
图12中示出了一种用于实现该示例中的提示信息的处理方法的***结构的示意图。如图11a和图11b所示,该示例中展示的是一个用户放置药品的场景下,下面对***各部分算法模块是如何具体协调工作的流程进行描述:
如图12中所示,本示例中,图像识别中物体的识别功能可以由卷积神经网络(图中所示的卷积层)与全连接层组成,具体为图中所示的上半部分的两条分支,通过该网络结构可以识别出该场景中两个关联的物体:药瓶即图中的物体1以及抽屉即图中的物体2。对于药瓶来说,其具有的属性包括:1.存放的药品种类2.药品不容易找到且需要定时使用,则其需要被自动标记上标签3.药品存放的阿司匹林具有镇痛,退热,减少血栓的作用。对于抽屉来说,其具有的属性包括:1.收纳小体积的药品2.存放鞋子3.存放工具等等。其中,物体的属性信息可以是通过预先知道的或者通过网上查询或预配置的对象信息数据库中查询得知的。
本示例中的动作识别网络(图中的由上至下的第三层分支)具体可以通过卷积神经网络与循环神经网络(图中所示的RNN layers)对输入的图片序列(图中所示的图像帧序列,即用户视频流)进行处理,识别出用户将药品放置在抽屉这一动作。
需要说明的是,在实际应用中,用户行为分析的结果是用户可能做的动作,因为网络不会100%确定用户动作,而是会给出最有可能的若干个选项排名,如图中所示的基于用户视频流进行用户行为分析,可以得到用户可能做的三个动作:可能动作_1、可能动作_2、可能动作3。之后可以由决策网络根据图像识别的结果和动作识别的结果综合判断用户到底做了什么,意图是什么。
在实际应用中,如果用户在完成放置药品的时候,给出了“提醒我明天这个时候吃药”的语音命令,此命令被自然语言理解模块分析后的数据与上述图像识别的数据、物体属性的数据、用户数据库中的数据等信息可以作为行为分析模块的输入,被行为分析模块综合判断得出关联动作识别结果:用户存放了阿司匹林药品在左下角的抽屉中,***需要建立一个提醒帮助其顺利找到药品,并且在明日的这个时候提醒其服用药物。
最后,决策网络可以基于图像识别结果(可以包括识别出的关联物体,还可以包括物体属性信息)以及用户动作识别结果,综合分析得到用户的行为标签,该标签中具体可以包括物体(即上述关联物体)、时间(即动作发生的时间)、地点(也就是动作发生时候的位置,例如在卧室还是客厅,是在床边还是在柜子边),以及关系(用户发生的动作本身与物体间的关系,例如,用户吃药的动作就和药瓶以及存储药瓶的柜子之间有关联关系),从而可以基于该标签分析得出用户可能的需要,从而生成相应的提示信息,并可以将该提示信息展示到对象上,如本示例中可以根据用户的动作自动为用户设置药品放置的相关提示,具体如图11b中所示,可以将提示信息“阿司匹林在这2018.4.10”与柜子进行关联展示,以提醒用户其在2018.4.10将阿司匹林放入了这个柜子中。
另外,在该示例中的应用场景中,还可以依据用户数据库中的数据,从用户的历史动作中发现用户自己的习惯,或者对于周期性的动作进行记录。例如:用户可以为某项指令自定义一个动作,或者用户每天中午晚上会吃药等等。
在大多数现在AR/VR场景中,人们需要针对具体的场景中的物体绑定一个标签信息。实际上,我们会遇到非特定指代的问题,基于本申请实施例所提供的方案,能够针对这样的场景实现基于非特定物体指代的AR/VR提醒功能。例如,在根据模块8的输出确定了用户的意图后,需要在物体A中做出一个标记,这里物体A并非一个特指而是一类物体的泛指(也可以理解为一列对象的指示信息),然后可以在模块7的输出中判断是否存在物体A的特例物体,若存在,则可以触发相应的提醒动作。通过本申请实施例的方案,除了用户自身对提醒功能的需求之外,用户还能通过网络接收其他拥有权限的设备发出的指令。也就是说,用户指令可以是当前AR/VR设备的使用者所发出的指令,也可以是当前AR/VR设备接收到的其他设备发送来的指令。下面结合示例对该类场景中的提示信息的处理方式进行进一步描述。
示例六
图13a和图13b中示出了本示例中的一种应用场景的示意图。该示例中,一个男生佩戴着AR眼镜走在如图13a所示的大街上,该男生的女朋友需要一杯咖啡,她通过自己的手机给男生使用的AR眼镜发送了帮自己带杯咖啡的请求,该场景中,该请求即为本示例中的用户指令,指令中的“咖啡”即为用户指令中所携带的对象的指示信息,根据该指示信息可以得知所需要获取的对象为咖啡店,AR***(可以是AR眼镜,也可以是与AR眼镜通信的服务器等)经过分析该请求,分析出需要在咖啡店门口设置一个提醒功能,因为咖啡店是非特定目标,则当男孩移动的过程中,AR眼镜可以实时获取到男孩的视野图像,AR***可以通过对视野图像进行识别,在男孩经过或者视野中出现任意一家咖啡店的时候,AR***就可以通过物体识别到了咖啡店的标志,则可以创建提醒帮助自己的女友带一杯咖啡的提示信息,并可以将该提示信息与识别出的咖啡店关联显示在男孩的视野图像中。此外,在实际应用中,AR***还可以通过获取女友的个性化信息来获知女友的喜好,在提示信息中可以同时包括女友的喜好信息,以更好的满足实际应用需求。具体如图13b中所示,该示例中,基于用户指令所对应的用户(即女友)的个性化信息,得知女友所喜欢的咖啡为卡布奇诺,则***生成的提示信息可以为“女友需要一杯咖啡,按照她的习惯,她需要卡布奇诺”,并将该提示信息呈现在视野图像中的咖啡店上。
示例七
本示例中的应用场景为:当一位母亲说:“我需要家人给我带一些感冒药”时,提示信息的处理***可以自动通知她的丈夫和儿子,并设置一个未固定(未指明特定问题)的标签(即提示标签),以便药店发出警报,并显示购买感冒药的信息。当她的家人走过任何一家药店时就会被提示,当亲人之一完成该行动后,***数据库会将购买药品的需求设置为已经完成,其余亲人会收到取消请求的提醒。
示例六和示例七中的应用场景都是需要多用户的设备之间进行互动,这个需要设备联网以及多用户的数据库做支持。作为一可选方案,图14中示出了一种实现上述非特定物体指代的AR/VR提醒功能的***(本示例中的提示信息的处理***)的工作原理示意图。
如图14中所示,该***中可以包括发出指令的用户(简称为第一用户)的设备(简称为第一设备)和用于展示提示标签即提示信息的用户(简称为第二用户)的设备(简称为第二设备),第一设备和第二设备通信连接。对应于图14中,第一用户即为图中所示的关联人(如示例六中的女友),第一设备即为关联人的设备,具体可以是该用户的AR/VR设备或者手机平板等其他终端设备;第二用户即为图中所示的使用人(如示例六中的男生),第二设备即为使用人的设备,具体可以是该用户的AR/VR设备或者手机平板等其他具有AR/VR功能的终端设备。基于该***实现提醒功能的流程具体可以包括:
第一设备接收到第一用户发出的语音命令之后,该语音命令经过ASR模块和NLU模块解析后,得到语音识别结果,***的决策模块根据该语音识别结果可以生成一个基于非特定物体(如示例六中的咖啡店)的标签(即提醒标签,如示例六中带咖啡的提示信息),另外,***还可以通过关联用户的数据库,得到与该标签有关联的用户的个人信息(如图示例中女友喜欢卡布奇诺的信息)。第二设备采集第二用户的视频流,该视频流中的图像经过图像识别模块(该示例中图中所示的卷积神经网络和全连接层)识别后,得到图像识别结果。将上述标签、用户个人信息、以及图像识别结果均作输入到***的决策模块(图中所示的决策树)中,由决策网络基于这些信息进行综合分析判断,当图像中出现与上述非特定物体符合条件的物体(如示例六中的任意咖啡店)时,如图中所示的物体4即为符合条件的物体,此时,决策网络即可基于该物体,将提醒标签展示到第二用户的视野图像中。
需要说明的是,在实际应用中,图中所示的***的各功能部分(ASR模块、NLU模块、图像识别模块、决策网络等)可以是部署在第一设备、
第二设备、以及服务器等设备中的一个或多个设备上。
示例八
基于本申请实施例所提供的方案,本示例实现了一种绑定特定物体并随物***置变化而进行更新的AR/VR提醒功能,以解决在物体被移动之后对提示标签如何进行更新的问题,本示例中的该方案,利用本申请实施例的处理***的物体识别与动作识别功能来进行标签与物体的绑定,以使标签随着物体的位置进行更新。
图15a中示出了本示例中的一种应用场景的示意图,如图中所示,用户发出了“提醒我下周给植物浇水”的指令,***在获取到该用户指令后,通过分析用户的视野图像,对用户所在的环境进行分析,识别出场景中的对象即“植物”,***基于用户指令的识别结果和用户视野图像的识别结果,得到图中所示的提示信息:“提醒4.20需要浇水2018.4.13”,该提示信息中时间“2018.4.13”为***接收到用户指令的时间,时间“4.20”为用户想要执行浇水动作的时间,可以通过用户的AR/VR设备(采用VR设备时,VR场景可以是基于用户所在的实际场景进行建模后的场景)将该提示信息和用户当前视野图像中的植物进行关联展示。
在一种情况下,当用户在使用AR/VR设备的时候搬动了物体时,***首先可以使用图像识别模块识别该物体是否是具有提醒标签的物体,如果识别出物体是具有提醒标签的物体,则***可以通过对用户视野图像进行识别,识别出用户搬动的动作。如图15b中所示,假设用户沿着图中所示的路径S1,将植物由路径的起点位置搬动到了路径的终端位置,在用户动作完成之后,***可以通过用户的AR/VR设备获取到用户的当前视野图像,假设用户沿路径S1将植物从图15a中所示的客厅搬移到了图15c中所示的卧室中,此时,***对根据图15c中所示的当前视野图像进行识别,具体的,作为一种可选方式,***可以提取图15a所示的图像中的植物所在区域的局部特征(如角点特征),并基于这些局部特征找到图15c所示的图像中的植物,也就是基于这些局部特征在图15a和图15c两幅图像中进行对象(该示例中的植物)跟踪。在识别出图15c中的植物后,***更新绑定该物体的提醒标签的地点属性,将提醒标签与图15c中的植物关联展示,如图15c中所示。
另外,在完成提醒标签的设置之后,如果用户的位置发生了移动(如用户出门),用户此时的当前视野图像就很可能不存在该植物,则此时可以不进行虚拟提醒标签的渲染。另外,如果用户回家之后,如图15b中所示,假设用户回家之后沿图中所示的路径S2进行了移动,植物再次出现在了用户视野内,此时可以通过重新识别用户的当前视野图像来找到该植物,或者基于获取到的历史图像中该对象的标识信息(如上述局部特征),在当时视野图像识别出该植物,基于该植物,将提示信息展示到用户的当前视野图像中。
此外,在提醒标签所对应的用户事项的执行时间到达时,如该示例中在当前日期为4.20时,如果用户视野图像中不存在该植物,此时,则可以基于历史记录的用户家里的各物体之间的相对位置关系,以及用户当前视野中的物体,为用户生成引导信息,以使用户能够基于该引导信息进行移动,使植物出现在用户视野中,还可以是将提示信息发送至用户的其他终端设备。
也就是说,当用户需要寻找某件物体时,***可以根据该物体记录的位置信息自动规划一条寻找路径,引导用户找到需要寻找的物体。
在另外一种情况下:当用户在没有使用AR/VR设备时,如果用户搬动了物体(该示例中的植物),或者其他人对物体进行了移动时候,***是无法感知搬运的动作的,这种情况下,在用户重新使用AR/VR设备的时候,***通过图像识别的结果获知在新的环境下检测到有相似特征的物体以前被标记过提醒事项,因为不能排除有两个外形相似的物体存在,所以遇到此情况的时候***可以询问用户是新的物体,还是以前的物体进行了搬移,若是用户告知是对以前的物***置进行了搬移,则可以更新原来提醒标签的位置属性,若是另一个外形相似或者相同的物体,***则可以在此处做出标记,以免重复提问。
示例九
对于上述与提醒标签关联的对象即物体的位置发生的情况,图16中给出了本申请实施例提供的一种提示信息的处理***的工作流程示意图。
如图16中所示,该示例中,***的图像识别模块可以包括物体识别网络、场景识别网络以及图像特征提取器。对于场景1(如图15a中所示的场景),可以通过用户的AR/VR设备或手机平板等获取到用户当前场景下的视野图像(图中所示的场景1的图像输入),该图像分别输入至物体识别网络和场景识别网络,由物体识别网络识别出场景中的物体,如图中所示的物体1_1和物体2,本示例中物体1为与提示信息关联的物体(即展示提醒标签的对象,如示例八中的植物),物体2可以保存到物体数据库(数据库模块中的一部分)中,由场景识别网络识别出当前场景为场景1,可以将场景1的相关信息存储到场景数据库(数据库模块中的用于存储场景信息的数据库)中。在用户视野发生变化时,假设发生变化后的场景为场景2(如图15c中所示的场景),将场景2中的用户视野图像(图中所示的场景2的图像输入)分别输入至物体识别网络和场景识别网络,由物体识别网络识别出场景中的物体,如图中所示的物体1_2和物体3,由场景识别网络识别出当前场景为场景2,可以将场景2的相关信息也存储到场景数据库中。
本示例中,图像特征提取器用于对识别的物体的特征进行提取,以便能够根据这些特征确认那些物体是相似的或者是同一个物体。特征提取器提取的特征可以包括但不限于物体的大小、形状、颜色、图案样式、位置信息等等,算法能够通过这些信息的比对进行物体的重新识别。例如,对于场景1中所识别到的物体1_1和物体2,图像特征提取器可以分别对这两个物体的特征进行提取并记录下来,对于在场景2中识别到的物体1_2和物体3,同样的算法可以对这两个物体进行特征提取并做物体识别。之后在特征比对的过程中,算法发现场景1中的物体1_1与场景2中的物体1_2在形状、大小、颜色、图案样式上等特征上保持一致,但是标记的位置信息不一致,算法最终判断确认物体1_1与物体1_2为同一个物体,所以在图中1_1与物体1_2都统一标识为物体1,从而得出了物体1从场景1被搬移到了场景2的结论。所有识别的物体的特征都统一按照格式化信息保存在物体特征数据库中,用户个人关联数据库里存放着物体与用户的关联信息,这些信息与物体特征数据库相互关联,可以共同为物体识别以及用户的行为习惯分析服务。
本申请实施例提供了一种基于AR/VR的提醒***,实现了基于AR/VR的提醒功能。基于本申请实施例的方案,不仅仅能方便用户自身建立提醒,还能通过网络与其他的手机平板等终端进行互动,手机平板终端可以获取用户AR/VR场景中的一帧图片,并在图片上做标注,这些标注信息或实时的传输或者编辑完成之后一次性传输给AR/VR的使用者,实现信息的共享。此时,用户在图片上的标注信息和/或编辑信息等即可作为提示信息。
图17中示出了本示例中提供的一种提示信息的处理***(可以简称为AR/VR提醒***)的结构示意图,图中所示的各部分的具体描述如下:
1.AR/VR设备视频输入模块用于实时的获取AR/VR设备的视频信息(也就是图像);
2.特定场景获取与上传模块,即通过手动或者语音触发或者自动的方式截取场景中的一帧图像并上传给手机平板等终端模块;
3.手机平板等终端设备接收到场景图片,可以使用智能语音助手或者手写或者其他工具直接在图片建立虚拟提醒标签;
4.对于场景分析模块,该模块为图像识别模块的一部分,在AR/VR设备与手机平板等终端设备上都存在,主要是分析场景中的物体信息,将场景中的物体进行图像分割,这将更方便提醒标签添加模块在图像中准确的位置添加提醒标签,同时场景分析模块也会采集场景中的局部角点特征(也就是图像特征),常见的局部角点特征有SIFT(Scale-invariantfeature transform,尺度不变特征变换)特征,SURF(Speeded Up Robust Features,加速稳健特征)特征,FAST角点特征,BRISK(binary robust invariant scalable keypoints,二元鲁棒不变可伸缩关键点)特征等,这些角点特征能够帮助将手机平板等终端接收到的图片与实际的AR/VR场景进行映射,是不可缺少的一部分;
5.信息下传模块将场景分析模块的结果以及添加的标签信息传回给AR/VR设备;
6.提醒标签场景重建模块是将从手机平板等终端设备传回的信息与AR/VR实际的场景视频进行匹配分析,并将提醒标签重建在AR/VR场景中。
下面结合两个具体的示例对信息共享场景下的提示信息的处理方法进行进一步说明。
示例十
本示例中以一位妈妈在使用微波炉的时候寻求他儿子帮助的场景为例进行说明。
图18a中示出了本示例中妈妈的视野图像,妈妈不知道如何使用微波炉,其拍摄了图18a中所示的一张微波炉的照片传给她的儿子寻求帮助,她儿子的手机在收到这张照片后,可以对手机中显示的该张照片进行编辑,写上信息,如图18b中所示,她儿子可以在照片上进行文字编辑,还可以作出标记(如图中所示的箭头),通过本申请实施例的方案,妈妈可以通过AR设备看到她儿子标记的微波炉使用教程,即上述文字和标记,如图18c中所示。
图19中示出了一种实现上述信息共享方案的***的工作原理示意图。如图中所示,图中左侧上方的手机为儿子的手机,左侧下方的手机和AR眼镜(当然这两个设备也可以是一个具有AR和拍摄功能的设备)为妈妈的终端设备。对于儿子一侧而言,其手机在接收到图18a中所示的照片后,可以通过手写或语音或其他方式在照片上进行编辑(如图中右上角所示的支持多媒体信息部分),对于编辑后的图像,场景分析模块的物体识别网络对编辑后的图像进行识别,识别出图像中的对象即微波炉,场景分析模块的场景特征提取网络提取出编辑后的图像中的局部角点特征。之后,***可以获取妈妈此时的视野图像,通过物体识别网络对视野图像进行识别,识别出当前视野中的物体,通过场景特征提取网络提取视野图像中的局部角点特征,通过将从上述编辑后的图像中提取的局部角点特征和从视野图像中提取的局部角点特征进行特征匹配,确定出编辑信息(图中所示的标记信息)在编辑后的图像中的位置信息与当前视野图像中对应位置的映射,即实现编辑后的图像与视野图像的映射(图中所示的图片与场景之间映射),基于映射关系,将编辑信息可以同步到妈妈当前的视野图像中,也就是可以将儿子的编辑信息同步展示到妈妈的当前视野图像中(图中所示的AR场景下提醒输出),从而实现AR场景下与物体(本示例中的微波炉)关联的提示信息的展示,本示例中的编辑信息即为提醒信息。
在该类应用场景中,因为人带着眼镜很可能会移动,用户视野在变化,所以需要通过图像匹配的方式来确定不同图像中的同一对象。另外,在实际应用中,在完成上述匹配之后,可以基于对象跟踪算法实现对象的跟踪,这样资源消耗比较少。这时候还需要定时的做匹配的校准误差。另外,图中所示的场景数据库,其中保存着当前场景的数据,也可以保存着以前场景的数据,这样在对用户提醒过一遍的内容,之后如果用户视野再次进入该场景时,可以在下次看见的时候再次提醒。
示例十一
该示例中示出了一种多人会议共享笔记的应用场景。如图20a中所示,为一间会议室的场景示意图,当多个会议参与者拍摄同一场景的图像时,基于本申请实施例提供的***能够实现多人会议笔记的共享。
具体的,会议参与者首先可以分别拍摄会议室白色墙幕(当然也可以是其它区域)的照片,在会议过程中,当一个会议参与者在其所拍摄的照片上写上会议纪要或者其他笔记时,如图20b中所示,这些会议纪要或笔记则可以作为提示信息(也就是需要共享的信息),基于本申请实施例提供的信息共享功能,可以将这些会议纪要或笔记展示到其他会议参与者拍摄的照片上,经过授权的其他会议参与者可以在同一场景下得到其他用户标记的内容,如图20c所示。当然,其他后来的参会者也可以通过拍摄同一场景获取到共享信息。该示例中实现多人信息共享的具体实现方式,可参见上述示例十中的描述。
本申请针对用户使用AR/VR的场景,提出了一个将AI领域的图像识别技术和自动语音识别与自然语言理解技术结合应用的***,从而为用户提供一个基于AR/VR智能地创建和使用提醒事项的服务。本申请实施例所提供的方案实现了:
1.针对现有提醒事项的呈现方式有限的问题,本申请实施例提出了使用多媒体信息生成提醒事项,并能够通过多媒体信息呈现提示事项的方案,其中,多媒体信息包括文本、图片、声音、视频、超链接、超文本等等;
2.利用AR/VR设备在实时场景/虚拟场景中创建提醒事项,除了更加直观方便外,通过合理的控制这些提醒事项出现的时间.、出现的地理位置、展现的形式等,解决现在手机上使用文字记录提醒事项操作复杂,不够简洁直观的缺点;
3.图像识别模块根据自动语音识别与自然语言理解模块的结果,在识别阶段,语音的指令的不同能够使得图像识别模块动态调整识别的任务,从而在准确识别物体的同时减少资源消耗;
4.图像识别模块的识别结果与自动语音识别与自然语言理解模块识别的结果相想结合,更加准确地判断出用户的意图;
5.***能够根据场景以及用户的使用情况分析用户非标准的语音指令或者用户对物体或事件采用的另一种称呼,记录在与用户关联的数据库中,在实际的使用中,***会根据数据库中的信息来纠正识别的结果,从而帮助***能够准确的理解用户的意图并做出正确的反馈;
6.采用视觉和音频多模态的信息输入,提供根据当前场景提供更加丰富的信息,能够在一些场景下自动的判断用户潜在的需求并自动的建立提醒事项;
7.可以针对一些物体的特殊属性做出识别,对用户的动作判断中会加入这些属性,目的是能够更加准确的判断用户动作并自动生成提醒事项,例如,图像识别模块识别出用户拿了一个药瓶,则很容易判断出他给自己或者身边的人定时吃药,根据这些信息可以生成定时吃药的提醒和药品放置位置的提醒;
8.可以对用户使用过程中历史的图像识别结果与语音理解结果进行保存,从中挖掘出符合用户自身行为的动作,从而***则能够针对不同的用户习惯设定不同的动作识别***;
9.利用图像识别技术与自然语言理解技术,能够实现虚拟的提醒事项标签和实际的场景中的物体实现一对多的绑定关系;
10.得益于对用户动作的识别和物体的识别的两部分信息的结合,很容易判断出用户对同一个物体从一个场景迁移到另一个场景,这样标签的信息就可以跟着物体的迁移而更新位置信息了;
11.除了图像识别技术,***将记录用户的位置、偏好等信息,以确认用户对标注对象的真实需求,并在计算机无法判断时进行提问,例如,当用户对着墙上的多个照片给出一个“明天晚上聚餐”的提醒事项,用户会根据用户的习惯选择右边居中的照片的右侧添加上可视化的标签。
12.可以在手机平板上打开使用者场景的图片,并在图片上利用手写笔,语音或者键盘输入的方式建立一个电子标签,并将此电子标签或实时传输或者完成之后一次传输给另一个AR/VR设备;(这样的功能能够很好远程指导家人完成一些家用电器的操作,还能给家人进行留言等功能)。
基于与图1中所示的方法相同的原理,本申请实施例还体用了一种提示信息的处理装置,如图21中所示,该提示信息的处理装置100可以包括提示信息获取模块110和对象获取模块120。
提示信息获取模块110,用于获取提示信息;
对象获取模块120,用于获取用户视野图像中的对象,以便基于对象输出提示信息。
可选的,对象可以是通过以下至少一种方式确定出的:
通过对用户视野图像进行图像识别确定出的;
根据用户视野图像中的对象数据确定出的。
可选的,提示信息是通过以下至少一种方式得到的:
根据用户指令得到提示信息;
其他设备发送的提示信息;
根据用户意图自动生成的提示信息;
基于预设方式生成的提示信息。
可选的,对象根据以下至少一种信息确定:
用户指令中携带的对象指示信息;
用户在用户视野图像中的关注点;
用户的个性化信息;
用户针对对象的历史行为;
其他设备发送的能够用于确定对象的信息。
可选的,对象指示信息包括对象的属性信息,对象是通过以下方式得到的:
根据对象的属性信息和/或用户所在场景,确定图像识别算法;根据确定出的图像识别算法对用户视野图像进行识别,识别出对象。
可选的,该装置还可以包括信息展示模块,该模块用于:
基于对象,在用户视野图像中展示提示信息。
可选的,信息展示模块还用于:
当对象的位置信息发生变化时,根据对象变化后的位置信息,将提示信息展示在用户视野图像。
可选的,该装置还包括提示信息再处理模块,该模块用于执行以下至少一个步骤:
生成对象的引导信息,以基于引导信息使对象位于用户视野图像中;
将提示信息展示在用户视野图像中;
将提示信息发送其他设备,以通过其他设备将提示信息展示给用户。
本申请实施例还提供了一种电子设备,该电子设备包括处理器和存储器;其中,存储器中存储有机器可读指令;处理器,用于执行机器可读指令以实现本申请任一实施例中所提供的方法。
可选的,该电子设备可以包括AR设备或VR设备。
本申请实施例还提供了一种计算机可读存储介质,该可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现本申请任一实施例中所提供的方法。
作为一个示例,图22中示出了本申请实施例的方案所适用的一种电子设备4000的结构示意图,如图22中所示,该电子设备4000可以包括处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图22中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述任一方法实施例所示的方案。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种提示信息的处理方法,其特征在于,包括:
获取提示信息;
获取用户视野图像中的对象,以便基于所述对象输出所述提示信息。
2.根据权利要求1所述的方法,其特征在于,所述对象是通过以下至少一种方式确定出的:
通过对用户视野图像进行图像识别确定出的;
根据用户视野图像中的对象数据确定出的。
3.根据权利要求1或2所述的方法,其特征在于,所述提示信息是通过以下至少一种方式得到的:
根据用户指令得到提示信息;
其他设备发送的提示信息;
根据用户意图自动生成的提示信息;
基于预设方式生成的提示信息。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述对象根据以下至少一种信息确定:
用户指令中携带的对象指示信息;
用户在用户视野图像中的关注点;
用户的个性化信息;
用户针对所述对象的历史行为;
其他设备发送的能够用于确定所述对象的信息。
5.根据权利要求4所述的方法,其特征在于,所述对象指示信息包括所述对象的属性信息,所述对象是通过以下方式得到的:
根据所述对象的属性信息和/或用户所在场景,确定图像识别算法;根据确定出的图像识别算法对用户视野图像进行识别,识别出所述对象。
6.根据权利要求1至5中任一项所述的方法,其特征在于,还包括:
基于所述对象,在用户视野图像中展示所述提示信息。
7.根据权利要求6所述的方法,其特征在于,还包括:
当所述对象的位置信息发生变化时,根据所述对象变化后的位置信息,将所述提示信息展示在用户视野图像。
8.根据权利要求5至7中任一项所述的方法,其特征在于,当所述对象未位于用户视野图像中时,还包括以下至少一个步骤:
生成所述对象的引导信息,以基于所述引导信息使所述对象位于用户视野图像中;
将所述提示信息展示在用户视野图像中;
将所述提示信息发送其他设备,以通过所述其他设备将所述提示信息展示给用户。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;
所述存储器中存储有机器可读指令;
所述处理器,用于执行所述机器可读指令以实现权利要求1至8任一项所述的方法。
10.根据权利要求9所述的电子设备,其特征在于,所述电子设备包括增强现实AR设备或虚拟现实VR设备。
11.一种提示信息的处理装置,其特征在于,包括:
提示信息获取模块,用于获取提示信息;
对象获取模块,用于获取用户视野图像中的对象,以便基于所述对象输出所述提示信息。
12.一种计算机可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。
CN201910320193.1A 2019-04-19 2019-04-19 提示信息的处理方法、装置、电子设备以及可读存储介质 Pending CN111832360A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910320193.1A CN111832360A (zh) 2019-04-19 2019-04-19 提示信息的处理方法、装置、电子设备以及可读存储介质
US17/594,484 US20220207872A1 (en) 2019-04-19 2020-04-20 Apparatus and method for processing prompt information
KR1020217037924A KR20210156283A (ko) 2019-04-19 2020-04-20 프롬프트 정보 처리 장치 및 방법
PCT/KR2020/005217 WO2020214006A1 (en) 2019-04-19 2020-04-20 Apparatus and method for processing prompt information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910320193.1A CN111832360A (zh) 2019-04-19 2019-04-19 提示信息的处理方法、装置、电子设备以及可读存储介质

Publications (1)

Publication Number Publication Date
CN111832360A true CN111832360A (zh) 2020-10-27

Family

ID=72838219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910320193.1A Pending CN111832360A (zh) 2019-04-19 2019-04-19 提示信息的处理方法、装置、电子设备以及可读存储介质

Country Status (4)

Country Link
US (1) US20220207872A1 (zh)
KR (1) KR20210156283A (zh)
CN (1) CN111832360A (zh)
WO (1) WO2020214006A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539485A (zh) * 2021-09-02 2021-10-22 河南省尚德尚行网络技术有限公司 医疗数据处理方法及装置
WO2022143314A1 (zh) * 2020-12-29 2022-07-07 华为技术有限公司 一种对象注册方法及装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200257862A1 (en) * 2019-01-22 2020-08-13 Fyusion, Inc. Natural language understanding for visual tagging
US10887582B2 (en) 2019-01-22 2021-01-05 Fyusion, Inc. Object damage aggregation
US11605151B2 (en) 2021-03-02 2023-03-14 Fyusion, Inc. Vehicle undercarriage imaging
KR20230070573A (ko) 2021-11-15 2023-05-23 주식회사 에이탑 세차용 걸레, 세차용 걸레 밀대 및 세차용 걸레의 제조 방법
WO2023158566A1 (en) * 2022-02-18 2023-08-24 Apple Inc. Contextual reminders
KR102506404B1 (ko) * 2022-06-10 2023-03-07 큐에라소프트(주) 훈련된 언어 모델을 이용한 의사결정 시뮬레이션 장치 및 방법
CN116700543B (zh) * 2023-07-13 2023-11-10 深圳润方创新技术有限公司 基于人工智能辅助的电子画板控制方法及儿童电子画板
KR102672166B1 (ko) * 2023-10-12 2024-06-07 (주)아스트론시큐리티 생성형 ai에 대한 프롬프트 정보 최적화 방법

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8380804B2 (en) * 2010-01-22 2013-02-19 Research In Motion Limited Identifying and presenting reminders based on opportunity for interaction
US20140160157A1 (en) * 2012-12-11 2014-06-12 Adam G. Poulos People-triggered holographic reminders
US9554050B2 (en) * 2013-03-04 2017-01-24 Apple Inc. Mobile device using images and location for reminders
JP6032083B2 (ja) * 2013-03-25 2016-11-24 株式会社ナカヨ リマインダ機能を備える情報管理装置
US9672725B2 (en) * 2015-03-25 2017-06-06 Microsoft Technology Licensing, Llc Proximity-based reminders
US10366291B2 (en) * 2017-09-09 2019-07-30 Google Llc Systems, methods, and apparatus for providing image shortcuts for an assistant application
US10930275B2 (en) * 2018-12-18 2021-02-23 Microsoft Technology Licensing, Llc Natural language input disambiguation for spatialized regions
US10789952B2 (en) * 2018-12-20 2020-09-29 Microsoft Technology Licensing, Llc Voice command execution from auxiliary input

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022143314A1 (zh) * 2020-12-29 2022-07-07 华为技术有限公司 一种对象注册方法及装置
CN113539485A (zh) * 2021-09-02 2021-10-22 河南省尚德尚行网络技术有限公司 医疗数据处理方法及装置
CN113539485B (zh) * 2021-09-02 2024-03-26 河南省尚德尚行网络技术有限公司 医疗数据处理方法及装置

Also Published As

Publication number Publication date
US20220207872A1 (en) 2022-06-30
WO2020214006A1 (en) 2020-10-22
KR20210156283A (ko) 2021-12-24

Similar Documents

Publication Publication Date Title
US20220207872A1 (en) Apparatus and method for processing prompt information
CN112416484B (zh) 加速任务执行
US12026812B2 (en) Schemes for retrieving and associating content items with real-world objects using augmented reality and object recognition
US20230388409A1 (en) Accelerated task performance
US9870633B2 (en) Automated highlighting of identified text
CN107273106B (zh) 物体信息翻译、以及衍生信息获取方法和装置
CN111260545B (zh) 生成图像的方法和装置
CN110780707B (zh) 信息处理设备、信息处理方法与计算机可读介质
CN108885608A (zh) 家庭环境中的智能自动化助理
CN107615276A (zh) 用于媒体回放的虚拟助理
CN107490971B (zh) 家庭环境中的智能自动化助理
US20150128049A1 (en) Advanced user interface
EP2733629A1 (en) System for associating tag information with images supporting image feature search
CN113867516B (zh) 加速的任务执行
CN115867905A (zh) 旅行情况下基于增强现实的语音翻译
US20240223861A1 (en) Smart content search from audio/video captures while watching tv content itself
JP2016009262A (ja) 動画処理装置、動画処理プログラム及び動画処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination