CN116186310B

CN116186310B - 一种融合ai通用助手的ar空间标注及展示方法

Info

Publication number: CN116186310B
Application number: CN202310484946.9A
Authority: CN
Inventors: 李波; 陈非; 田慧云; 刘大圣
Original assignee: Suxin Iot Solutions Nanjing Co ltd
Current assignee: Suxin Iot Solutions Nanjing Co ltd
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-06-30
Anticipated expiration: 2043-05-04
Also published as: CN116186310A

Abstract

本发明公开了一种融合AI通用助手的AR空间标注及展示方法，首先智能终端通过AR引擎识别场景中各目标物体；基于目标检测算法分别对各目标物体进行识别，获取目标物体的特征信息；将特征信息输入至AI通用助手，获取输出结果；将输出结果与预设的用户需求进行匹配，识别场景中与用户需求相关的物体，并将对应的反馈信息进行特征词句提取，并在AR空间内进行标注展示，进而实现为用户个性化推荐相关内容的效果；本发明将AR空间标注技术与AI通用助手结合，既能满足直观、丰富、生动的用户交互体验，又能通过AI通用助手为用户提供更加个性化的推荐内容，从形式到内容均进行了改进。

Description

一种融合AI通用助手的AR空间标注及展示方法

技术领域

本发明属于增强现实及自然语言交互技术领域，特别涉及一种融合AI通用助手的AR空间标注及展示方法。

背景技术

随着增强现实（AR）技术不断发展，对特定场景进行AR空间建模、再现已经得到长足的发展。AR技术的优势在于可以将虚拟元素叠加在真实世界中，使用户能够更加直观地了解和交互物品或场景。在AR空间内，用户可以更加直观立体地感受目标物体，基于标注信息，可以得到真实世界中无法即时得到的产品信息等。

AI通用助手，如GPT模型等产品，作为最先进的语言模型，通过其强大的语言处理能力及文本生成能力，可以为用户提供更精准、生动、个性化的内容推荐。

将AR空间标注技术与AI通用助手结合，既可以在内容展示形式上更加生动形象，又可以借助AI通用助手强大的语言文字处理能力为用户推荐个性化内容。

发明内容

发明目的：针对上述背景技术中提出的思路，本发明提供了一种融合AI通用助手的AR空间标注及展示方法，将AR空间标注技术与AI通用助手结合，既能满足直观、丰富、生动的用户交互体验，又能通过AI通用助手为用户提供更加个性化的推荐内容，从形式到内容均进行了革新。

技术方案：一种融合AI通用助手的AR空间标注及展示方法，包括以下步骤：

步骤S1、用户启动智能终端，基于AR引擎进行场景目标识别定位，加载目标物体对应的三维模型，进行空间建模；

步骤S2、检测当前场景中的目标物体，并基于目标检测算法提取对应特征信息，作为AI通用助手的输入；

步骤S3、AI通用助手接收特征信息并进行处理，给出目标物体对应反馈信息；将反馈信息与预设的用户需求进行逻辑比较，判断出当前场景中与用户需求存在逻辑关系的目标物体，作为待标记物体；

步骤S4、根据步骤S3判断结果，将待标记物体对应的反馈信息进行特征词句提取，并将其反馈至智能终端，展示于AR空间内；所述AR空间内建立基准平面，将特征词句通过AR定位的方式显示与AR空间内物体上方的特定位置，并且空间标注不会随智能终端位置的变化发生改变。

进一步地，所述步骤S2中基于YOLOv5模型对当前场景进行检测，捕捉场景中各目标物体的特征信息；所述特征信息作为后续AI通用助手的输入。

进一步地，所述步骤S3中通过基于预训练bert模型的文本匹配方法，对AI通用助手的反馈信息和预设的用户需求进行匹配，判断对应目标物体是否与用户需求存在逻辑关系；具体地，

步骤S31、将代表用户需求的自然语句A与代表通用AI助手反馈结果的自然语句B进行拼接；获得拼接语句的input_ids和attention_mask；其中input_ids代表语句经过tokenizer分词后的子词subword对应的下标列表，attention_mask代表subword所在句子中与其他填充padding的区别，其中subword部分标记为1，填充padding部分标记为0；将input_ids和attention_mask输入至预训练的bert模型中，取bert层结果数据CLS Token的Embedding作为后续匹配模型的输入；

步骤S32、基于TCN网络结构搭建匹配模型，用于判断A和B间是否存在逻辑关系；主干部分包括4级依次级联的TCN网络块，记为TCNBlock1-TCNBlock4；将步骤S31中bert层结果数据CLS Token的Embedding输入TCNBlock1，依次获得TCNBlock1的输出X1、TCNBlock2的输出X2、TCNBlock2的输出X3；将X2输入至通道注意力模块SE，获取X2的对应权重a2；将x2与a2相乘，并与X3进行concat拼接，作为TCNBlock4的输入，将输出记为X4；将X1输入至SE模块，获取X1的对应权重a1，并将X1与a1相乘，并与X4进行concat拼接，获得输出结果X；将输出结果输入至全连接模块，最终输出判断结果；

训练上述模型，训练好的模型用于判断当前目标物体对应的AI通用助手反馈结果是否与用户的预设需求存在逻辑关系，进而区分复杂场景中的目标物体是否与用户相关；

步骤S33、根据步骤S32的匹配结果，在AR空间内将当前场景中与用户需求存在逻辑关系的目标物体筛选出来，用于后续内容标注。

进一步地，所述TCN网络块具体结构包括依次连接的一维膨胀卷积网络层、BN层、激活函数层、一维膨胀卷积网络层、BN层、激活函数层；其中输入和输出之间通过1*1的卷积网络层跳跃连接。

进一步地，所述通道注意力模块SE包括依次连接的第一一维卷积神经网络层、激活函数层、第二一维卷积神经网络层和激活函数层；其中第一一维卷积神经网络层和第二一维卷积神经网络层输出维度不同。

进一步地，所述全连接模块包括依次连接的Flatten层、第一全连接层和第二全连接层；其中第二全连接层包括n个神经元，n代表输出类别。本实施例中设定n=2，即A和B之间存在逻辑关系为1，无逻辑关系为0。

本发明采用的技术方案与现有技术方案相比，具有以下有益效果：

（1）本发明提供的基于AI通用助手的AR空间标注及展示方法，基于目标场景识别，获取各目标物体的特征信息，并输入至AI通用助手，由AI通用助手进行处理搜索并给出反馈，再基于本发明提供匹配方法，判断场景中各物体的反馈信息与用户需求间的关系，挑选出与用户需求强相关的目标物体，对其进行AR空间标注。针对AI通用助手反馈的自然语言较为冗长的问题，本发明还进一步提取了特征词句，压缩了标注内容。

（2）本发明采用AI通用助手对检测到的目标进行处理搜索，可以实现更加准确、自然、智能、实时的自然语言交互功能，当用户设置好需求语句时，***可以自动匹配比较，并挑选出与用户需求有关的目标物体及对应反馈自然语言，进而实现个性化的内容推荐功能。

（3）本发明基于预训练bert模型，设计了文本匹配模型，用于判断预设的用户需求自然语句与AI通用助手反馈的自然语句间是否存在关系，以此作为选择待标注目标物体的依据，可以有效解决同一场景内目标物体过多，大量标记无意义文本造成展示效果较差的问题。

附图说明

图1为本发明提供的融合AI通用助手的AR空间标注及展示方法流程图；

图2为本发明提供的匹配模型结构示意图；

图3为本发明提供的TCN网络块结构示意图。

实施方式

下面结合附图对本发明做更进一步的解释。

本发明提供了一种融合AI通用助手的AR空间标注及展示方法，首先智能终端通过AR引擎识别场景中各目标物体。基于目标检测算法分别对各目标物体进行识别，获取目标物体的特征信息。将特征信息输入至AI通用助手，获取输出结果。将输出结果与预设的用户需求进行匹配，识别场景中与用户需求相关的物体，并将对应的反馈信息进行特征词句提取，并在AR空间内进行标注展示，进而实现为用户个性化推荐相关内容的效果。下面提供一份具体实施例，对本发明的核心技术进行阐述，具体如图1所示：

步骤S1、用户启动智能终端，通过AR引擎进行场景目标识别。

智能终端基于AR空间定位功能对周围环境进行扫描，对当前场景中的各目标物体进行识别定位，并建立基准平面，用于后续对目标物体进行AR空间标注。同时，智能终端加载目标物体对应的三维模型，进行空间建模。

步骤S2、通过目标检测算法，对场景中各目标物体进行特征提取。

通过YOLOv5模型对场景进行检测，捕捉场景中各目标物体的特征信息。所述特征信息作为后续AI通用助手的输入。

步骤S3、将特征信息输入至AI通用助手，由AI通用助手进行特征信息收集处理，并显示属于该特征信息的相关搜索结果。将AI通用助手的输出结果与预设的用户需求进行逻辑比较，选取场景中与用户需求存在逻辑关系的目标物体，进行后续AR标注。

基于人工智能算法，可以对AI通用助手得出的自然语言进行处理和反馈。利用目前市面上较为成熟的AI通用助手，如chatgpt等产品，对于目标检测***捕捉的特征信息处理结果，可以快速、高效获取当前物体的相关内容信息。但由于AR空间标记有限，大量内容信息无法同时显示与AR空间标记中。同时当场景中同时存在大量物体时，不可避免的存在于用户需求毫无关联的冗余物体，因此需要解决以下两个问题：（1）场景中目标物体过多，需要筛选与用户需求关联的物体。（2）AI通用助手反馈内容过多，全部标记于AR空间内会造成用户读取费时，并且长篇的反馈内容会遮挡相关AR建模，造成展示不便。

针对上述问题（1），本发明给出一种基于预训练bert模型的文本匹配方法，目的在于对AI通用助手反馈的自然语言进行处理，并判断AI通用助手的反馈语句与预设的用户需求间的逻辑关系，对场景中的不同物体进行区分，进而选取与用户需求存在逻辑关系的物体。具体地，

步骤S31、将代表用户需求的自然语句A与代表通用AI助手反馈结果的自然语句B进行拼接；获得拼接语句的input_ids和attention_mask。其中input_ids代表语句经过tokenizer分词后的子词subword对应的下标列表，attention_mask代表subword所在句子中与其他填充padding的区别，其中subword部分标记为1，填充padding部分标记为0。将input_ids和attention_mask输入至预训练的bert模型中，取bert层结果数据CLS Token的Embedding作为后续匹配模型的输入。

步骤S32、基于TCN网络结构搭建匹配模型，用于判断A和B间是否存在逻辑关系。具体模型结构如图2所示。

主干部分包括4级依次级联的TCN网络块，记为TCNBlock1-TCNBlock4。将步骤S31中bert层结果数据CLS Token的Embedding输入TCNBlock1，依次获得TCNBlock1的输出X1、TCNBlock2的输出X2、TCNBlock2的输出X3。将X2输入至通道注意力模块SE，获取X2的对应权重a2；将x2与a2相乘，并与X3进行concat拼接，作为TCNBlock4的输入，将输出记为X4。将X1输入至SE模块，获取X1的对应权重a1，并将X1与a1相乘，并与X4进行concat拼接，获得输出结果X。将输出结果输入至全连接模块，最终输出判断结果。

上述TCN网络块具体结构如图3所示，包括依次连接的一维膨胀卷积网络层、BN层、激活函数层、一维膨胀卷积网络层、BN层、激活函数层；其中输入和输出之间通过1*1的卷积网络层跳跃连接。

上述通道注意力模块SE包括依次连接的第一一维卷积神经网络层、激活函数层、第二一维卷积神经网络层和激活函数层。其中第一一维卷积神经网络层和第二一维卷积神经网络层输出维度不同。

上述全连接模块包括依次连接的Flatten层、第一全连接层和第二全连接层。其中第二全连接层包括n个神经元，n代表输出类别。本实施例中设定n=2，即A和B之间存在逻辑关系为1，无逻辑关系为0。

训练上述模型，训练好的模型用于判断当前目标物体对应的AI通用助手反馈结果是否与用户的预设需求存在逻辑关系，进而区分复杂场景中的目标物体是否与用户相关。

步骤S4、基于筛选出的目标物体，将对应的AI通用助手反馈内容进行特征词提取，并在AR空间内进行内容标注。

针对上述问题（2），本实施例中采用方法进行特征词提取，目的在于将冗长的反馈内容中最符合用户需求的特征词句展示于AR空间内，避免过长的标注内容影响用户阅读时间及标注效果。将特征词句通过AR定位的方式显示在AR空间内物体上方特定位置，此时无论用户移动或旋转设备，标注内容始终显示在同一位置。

通过上述方法，本发明可以应用于以下场景：用户预先提供需求描述相关语句至***，通过智能用户终端扫描并识别当前场景，***自动识别当前场景中各目标物体，并将目标物体的特征信息传入AI通用助手，由AI通用助手进行处理并反馈相关自然语言结果。将反馈结果输入至匹配模型，得出上述场景中与用户需求存在关系的若干目标物体，并对其对应的AI通用助手反馈结果进行特征词提取，最终将提取的特征词句输入至AR空间内，通过AR定位的方式，将词句显示于AR空间内对应目标物体上方特定位置，为用户进行展示。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种融合AI通用助手的AR空间标注及展示方法，其特征在于，包括以下步骤：

步骤S3、AI通用助手接收特征信息并进行处理，给出目标物体对应反馈信息；将反馈信息与预设的用户需求进行逻辑比较，判断出当前场景中与用户需求存在逻辑关系的目标物体，作为待标记物体；通过基于预训练bert模型的文本匹配方法，对AI通用助手的反馈信息和预设的用户需求进行匹配，判断对应目标物体是否与用户需求存在逻辑关系；具体地，

步骤S3.1、将代表用户需求的自然语句A与代表AI通用助手反馈结果的自然语句B进行拼接；获得拼接语句的input_ids和attention_mask；其中input_ids代表语句经过tokenizer分词后的子词subword对应的下标列表，attention_mask代表subword所在句子中与其他填充padding的区别，其中subword部分标记为1，填充padding部分标记为0；将input_ids和attention_mask输入至预训练的bert模型中，取bert层结果数据CLS Token的Embedding作为后续匹配模型的输入；

步骤S3.2、基于TCN网络结构搭建匹配模型，用于判断A和B间是否存在逻辑关系；主干部分包括4级依次级联的TCN网络块，记为TCNBlock1-TCNBlock4；将步骤S3.1中bert层结果数据CLS Token的Embedding输入TCNBlock1，依次获得TCNBlock1的输出X1、TCNBlock2的输出X2、TCNBlock3的输出X3；将X2输入至通道注意力模块SE，获取X2的对应权重a2；将X2与a2相乘，并与X3进行concat拼接，作为TCNBlock4的输入，将输出记为X4；将X1输入至SE模块，获取X1的对应权重a1，并将X1与a1相乘，并与X4进行concat拼接，获得输出结果X；将输出结果输入至全连接模块，最终输出判断结果；

步骤S3.3、根据步骤S3.2的匹配结果，在AR空间内将当前场景中与用户需求存在逻辑关系的目标物体筛选出来，用于后续内容标注；

2.根据权利要求1所述的一种融合AI通用助手的AR空间标注及展示方法，其特征在于，所述步骤S2中基于YOLOv5模型对当前场景进行检测，捕捉场景中各目标物体的特征信息；所述特征信息作为后续AI通用助手的输入。

3.根据权利要求1所述的一种融合AI通用助手的AR空间标注及展示方法，其特征在于，所述TCN网络块具体结构包括依次连接的第一一维膨胀卷积网络层、第一BN层、第一激活函数层、第二一维膨胀卷积网络层、第二BN层、第二激活函数层；其中输入和输出之间通过1*1的卷积网络层跳跃连接。

4.根据权利要求1所述的一种融合AI通用助手的AR空间标注及展示方法，其特征在于，所述通道注意力模块SE包括依次连接的第一一维卷积神经网络层、激活函数层、第二一维卷积神经网络层和激活函数层；其中第一一维卷积神经网络层和第二一维卷积神经网络层输出维度不同。

5.根据权利要求1所述的一种融合AI通用助手的AR空间标注及展示方法，其特征在于，所述全连接模块包括依次连接的Flatten层、第一全连接层和第二全连接层；其中第二全连接层包括n个神经元，n代表输出类别。