CN116186310B - 一种融合ai通用助手的ar空间标注及展示方法 - Google Patents
一种融合ai通用助手的ar空间标注及展示方法 Download PDFInfo
- Publication number
- CN116186310B CN116186310B CN202310484946.9A CN202310484946A CN116186310B CN 116186310 B CN116186310 B CN 116186310B CN 202310484946 A CN202310484946 A CN 202310484946A CN 116186310 B CN116186310 B CN 116186310B
- Authority
- CN
- China
- Prior art keywords
- assistant
- layer
- space
- target object
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/535—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- User Interface Of Digital Computer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种融合AI通用助手的AR空间标注及展示方法,首先智能终端通过AR引擎识别场景中各目标物体;基于目标检测算法分别对各目标物体进行识别,获取目标物体的特征信息;将特征信息输入至AI通用助手,获取输出结果;将输出结果与预设的用户需求进行匹配,识别场景中与用户需求相关的物体,并将对应的反馈信息进行特征词句提取,并在AR空间内进行标注展示,进而实现为用户个性化推荐相关内容的效果;本发明将AR空间标注技术与AI通用助手结合,既能满足直观、丰富、生动的用户交互体验,又能通过AI通用助手为用户提供更加个性化的推荐内容,从形式到内容均进行了改进。
Description
技术领域
本发明属于增强现实及自然语言交互技术领域,特别涉及一种融合AI通用助手的AR空间标注及展示方法。
背景技术
随着增强现实(AR)技术不断发展,对特定场景进行AR空间建模、再现已经得到长足的发展。AR技术的优势在于可以将虚拟元素叠加在真实世界中,使用户能够更加直观地了解和交互物品或场景。在AR空间内,用户可以更加直观立体地感受目标物体,基于标注信息,可以得到真实世界中无法即时得到的产品信息等。
AI通用助手,如GPT模型等产品,作为最先进的语言模型,通过其强大的语言处理能力及文本生成能力,可以为用户提供更精准、生动、个性化的内容推荐。
将AR空间标注技术与AI通用助手结合,既可以在内容展示形式上更加生动形象,又可以借助AI通用助手强大的语言文字处理能力为用户推荐个性化内容。
发明内容
发明目的:针对上述背景技术中提出的思路,本发明提供了一种融合AI通用助手的AR空间标注及展示方法,将AR空间标注技术与AI通用助手结合,既能满足直观、丰富、生动的用户交互体验,又能通过AI通用助手为用户提供更加个性化的推荐内容,从形式到内容均进行了革新。
技术方案:一种融合AI通用助手的AR空间标注及展示方法,包括以下步骤:
步骤S1、用户启动智能终端,基于AR引擎进行场景目标识别定位,加载目标物体对应的三维模型,进行空间建模;
步骤S2、检测当前场景中的目标物体,并基于目标检测算法提取对应特征信息,作为AI通用助手的输入;
步骤S3、AI通用助手接收特征信息并进行处理,给出目标物体对应反馈信息;将反馈信息与预设的用户需求进行逻辑比较,判断出当前场景中与用户需求存在逻辑关系的目标物体,作为待标记物体;
步骤S4、根据步骤S3判断结果,将待标记物体对应的反馈信息进行特征词句提取,并将其反馈至智能终端,展示于AR空间内;所述AR空间内建立基准平面,将特征词句通过AR定位的方式显示与AR空间内物体上方的特定位置,并且空间标注不会随智能终端位置的变化发生改变。
进一步地,所述步骤S2中基于YOLOv5模型对当前场景进行检测,捕捉场景中各目标物体的特征信息;所述特征信息作为后续AI通用助手的输入。
进一步地,所述步骤S3中通过基于预训练bert模型的文本匹配方法,对AI通用助手的反馈信息和预设的用户需求进行匹配,判断对应目标物体是否与用户需求存在逻辑关系;具体地,
步骤S31、将代表用户需求的自然语句A与代表通用AI助手反馈结果的自然语句B进行拼接;获得拼接语句的input_ids和attention_mask;其中input_ids代表语句经过tokenizer分词后的子词subword对应的下标列表,attention_mask代表subword所在句子中与其他填充padding的区别,其中subword部分标记为1,填充padding部分标记为0;将input_ids和attention_mask输入至预训练的bert模型中,取bert层结果数据CLS Token的Embedding作为后续匹配模型的输入;
步骤S32、基于TCN网络结构搭建匹配模型,用于判断A和B间是否存在逻辑关系;主干部分包括4级依次级联的TCN网络块,记为TCNBlock1-TCNBlock4;将步骤S31中bert层结果数据CLS Token的Embedding输入TCNBlock1,依次获得TCNBlock1的输出X1、TCNBlock2的输出X2、TCNBlock2的输出X3;将X2输入至通道注意力模块SE,获取X2的对应权重a2;将x2与a2相乘,并与X3进行concat拼接,作为TCNBlock4的输入,将输出记为X4;将X1输入至SE模块,获取X1的对应权重a1,并将X1与a1相乘,并与X4进行concat拼接,获得输出结果X;将输出结果输入至全连接模块,最终输出判断结果;
训练上述模型,训练好的模型用于判断当前目标物体对应的AI通用助手反馈结果是否与用户的预设需求存在逻辑关系,进而区分复杂场景中的目标物体是否与用户相关;
步骤S33、根据步骤S32的匹配结果,在AR空间内将当前场景中与用户需求存在逻辑关系的目标物体筛选出来,用于后续内容标注。
进一步地,所述TCN网络块具体结构包括依次连接的一维膨胀卷积网络层、BN层、激活函数层、一维膨胀卷积网络层、BN层、激活函数层;其中输入和输出之间通过1*1的卷积网络层跳跃连接。
进一步地,所述通道注意力模块SE包括依次连接的第一一维卷积神经网络层、激活函数层、第二一维卷积神经网络层和激活函数层;其中第一一维卷积神经网络层和第二一维卷积神经网络层输出维度不同。
进一步地,所述全连接模块包括依次连接的Flatten层、第一全连接层和第二全连接层;其中第二全连接层包括n个神经元,n代表输出类别。本实施例中设定n=2,即A和B之间存在逻辑关系为1,无逻辑关系为0。
本发明采用的技术方案与现有技术方案相比,具有以下有益效果:
(1)本发明提供的基于AI通用助手的AR空间标注及展示方法,基于目标场景识别,获取各目标物体的特征信息,并输入至AI通用助手,由AI通用助手进行处理搜索并给出反馈,再基于本发明提供匹配方法,判断场景中各物体的反馈信息与用户需求间的关系,挑选出与用户需求强相关的目标物体,对其进行AR空间标注。针对AI通用助手反馈的自然语言较为冗长的问题,本发明还进一步提取了特征词句,压缩了标注内容。
(2)本发明采用AI通用助手对检测到的目标进行处理搜索,可以实现更加准确、自然、智能、实时的自然语言交互功能,当用户设置好需求语句时,***可以自动匹配比较,并挑选出与用户需求有关的目标物体及对应反馈自然语言,进而实现个性化的内容推荐功能。
(3)本发明基于预训练bert模型,设计了文本匹配模型,用于判断预设的用户需求自然语句与AI通用助手反馈的自然语句间是否存在关系,以此作为选择待标注目标物体的依据,可以有效解决同一场景内目标物体过多,大量标记无意义文本造成展示效果较差的问题。
附图说明
图1为本发明提供的融合AI通用助手的AR空间标注及展示方法流程图;
图2为本发明提供的匹配模型结构示意图;
图3为本发明提供的TCN网络块结构示意图。
实施方式
下面结合附图对本发明做更进一步的解释。
本发明提供了一种融合AI通用助手的AR空间标注及展示方法,首先智能终端通过AR引擎识别场景中各目标物体。基于目标检测算法分别对各目标物体进行识别,获取目标物体的特征信息。将特征信息输入至AI通用助手,获取输出结果。将输出结果与预设的用户需求进行匹配,识别场景中与用户需求相关的物体,并将对应的反馈信息进行特征词句提取,并在AR空间内进行标注展示,进而实现为用户个性化推荐相关内容的效果。下面提供一份具体实施例,对本发明的核心技术进行阐述,具体如图1所示:
步骤S1、用户启动智能终端,通过AR引擎进行场景目标识别。
智能终端基于AR空间定位功能对周围环境进行扫描,对当前场景中的各目标物体进行识别定位,并建立基准平面,用于后续对目标物体进行AR空间标注。同时,智能终端加载目标物体对应的三维模型,进行空间建模。
步骤S2、通过目标检测算法,对场景中各目标物体进行特征提取。
通过YOLOv5模型对场景进行检测,捕捉场景中各目标物体的特征信息。所述特征信息作为后续AI通用助手的输入。
步骤S3、将特征信息输入至AI通用助手,由AI通用助手进行特征信息收集处理,并显示属于该特征信息的相关搜索结果。将AI通用助手的输出结果与预设的用户需求进行逻辑比较,选取场景中与用户需求存在逻辑关系的目标物体,进行后续AR标注。
基于人工智能算法,可以对AI通用助手得出的自然语言进行处理和反馈。利用目前市面上较为成熟的AI通用助手,如chatgpt等产品,对于目标检测***捕捉的特征信息处理结果,可以快速、高效获取当前物体的相关内容信息。但由于AR空间标记有限,大量内容信息无法同时显示与AR空间标记中。同时当场景中同时存在大量物体时,不可避免的存在于用户需求毫无关联的冗余物体,因此需要解决以下两个问题:(1)场景中目标物体过多,需要筛选与用户需求关联的物体。(2)AI通用助手反馈内容过多,全部标记于AR空间内会造成用户读取费时,并且长篇的反馈内容会遮挡相关AR建模,造成展示不便。
针对上述问题(1),本发明给出一种基于预训练bert模型的文本匹配方法,目的在于对AI通用助手反馈的自然语言进行处理,并判断AI通用助手的反馈语句与预设的用户需求间的逻辑关系,对场景中的不同物体进行区分,进而选取与用户需求存在逻辑关系的物体。具体地,
步骤S31、将代表用户需求的自然语句A与代表通用AI助手反馈结果的自然语句B进行拼接;获得拼接语句的input_ids和attention_mask。其中input_ids代表语句经过tokenizer分词后的子词subword对应的下标列表,attention_mask代表subword所在句子中与其他填充padding的区别,其中subword部分标记为1,填充padding部分标记为0。将input_ids和attention_mask输入至预训练的bert模型中,取bert层结果数据CLS Token的Embedding作为后续匹配模型的输入。
步骤S32、基于TCN网络结构搭建匹配模型,用于判断A和B间是否存在逻辑关系。具体模型结构如图2所示。
主干部分包括4级依次级联的TCN网络块,记为TCNBlock1-TCNBlock4。将步骤S31中bert层结果数据CLS Token的Embedding输入TCNBlock1,依次获得TCNBlock1的输出X1、TCNBlock2的输出X2、TCNBlock2的输出X3。将X2输入至通道注意力模块SE,获取X2的对应权重a2;将x2与a2相乘,并与X3进行concat拼接,作为TCNBlock4的输入,将输出记为X4。将X1输入至SE模块,获取X1的对应权重a1,并将X1与a1相乘,并与X4进行concat拼接,获得输出结果X。将输出结果输入至全连接模块,最终输出判断结果。
上述TCN网络块具体结构如图3所示,包括依次连接的一维膨胀卷积网络层、BN层、激活函数层、一维膨胀卷积网络层、BN层、激活函数层;其中输入和输出之间通过1*1的卷积网络层跳跃连接。
上述通道注意力模块SE包括依次连接的第一一维卷积神经网络层、激活函数层、第二一维卷积神经网络层和激活函数层。其中第一一维卷积神经网络层和第二一维卷积神经网络层输出维度不同。
上述全连接模块包括依次连接的Flatten层、第一全连接层和第二全连接层。其中第二全连接层包括n个神经元,n代表输出类别。本实施例中设定n=2,即A和B之间存在逻辑关系为1,无逻辑关系为0。
训练上述模型,训练好的模型用于判断当前目标物体对应的AI通用助手反馈结果是否与用户的预设需求存在逻辑关系,进而区分复杂场景中的目标物体是否与用户相关。
步骤S33、根据步骤S32的匹配结果,在AR空间内将当前场景中与用户需求存在逻辑关系的目标物体筛选出来,用于后续内容标注。
步骤S4、基于筛选出的目标物体,将对应的AI通用助手反馈内容进行特征词提取,并在AR空间内进行内容标注。
针对上述问题(2),本实施例中采用方法进行特征词提取,目的在于将冗长的反馈内容中最符合用户需求的特征词句展示于AR空间内,避免过长的标注内容影响用户阅读时间及标注效果。将特征词句通过AR定位的方式显示在AR空间内物体上方特定位置,此时无论用户移动或旋转设备,标注内容始终显示在同一位置。
通过上述方法,本发明可以应用于以下场景:用户预先提供需求描述相关语句至***,通过智能用户终端扫描并识别当前场景,***自动识别当前场景中各目标物体,并将目标物体的特征信息传入AI通用助手,由AI通用助手进行处理并反馈相关自然语言结果。将反馈结果输入至匹配模型,得出上述场景中与用户需求存在关系的若干目标物体,并对其对应的AI通用助手反馈结果进行特征词提取,最终将提取的特征词句输入至AR空间内,通过AR定位的方式,将词句显示于AR空间内对应目标物体上方特定位置,为用户进行展示。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种融合AI通用助手的AR空间标注及展示方法,其特征在于,包括以下步骤:
步骤S1、用户启动智能终端,基于AR引擎进行场景目标识别定位,加载目标物体对应的三维模型,进行空间建模;
步骤S2、检测当前场景中的目标物体,并基于目标检测算法提取对应特征信息,作为AI通用助手的输入;
步骤S3、AI通用助手接收特征信息并进行处理,给出目标物体对应反馈信息;将反馈信息与预设的用户需求进行逻辑比较,判断出当前场景中与用户需求存在逻辑关系的目标物体,作为待标记物体;通过基于预训练bert模型的文本匹配方法,对AI通用助手的反馈信息和预设的用户需求进行匹配,判断对应目标物体是否与用户需求存在逻辑关系;具体地,
步骤S3.1、将代表用户需求的自然语句A与代表AI通用助手反馈结果的自然语句B进行拼接;获得拼接语句的input_ids和attention_mask;其中input_ids代表语句经过tokenizer分词后的子词subword对应的下标列表,attention_mask代表subword所在句子中与其他填充padding的区别,其中subword部分标记为1,填充padding部分标记为0;将input_ids和attention_mask输入至预训练的bert模型中,取bert层结果数据CLS Token的Embedding作为后续匹配模型的输入;
步骤S3.2、基于TCN网络结构搭建匹配模型,用于判断A和B间是否存在逻辑关系;主干部分包括4级依次级联的TCN网络块,记为TCNBlock1-TCNBlock4;将步骤S3.1中bert层结果数据CLS Token的Embedding输入TCNBlock1,依次获得TCNBlock1的输出X1、TCNBlock2的输出X2、TCNBlock3的输出X3;将X2输入至通道注意力模块SE,获取X2的对应权重a2;将X2与a2相乘,并与X3进行concat拼接,作为TCNBlock4的输入,将输出记为X4;将X1输入至SE模块,获取X1的对应权重a1,并将X1与a1相乘,并与X4进行concat拼接,获得输出结果X;将输出结果输入至全连接模块,最终输出判断结果;
训练上述模型,训练好的模型用于判断当前目标物体对应的AI通用助手反馈结果是否与用户的预设需求存在逻辑关系,进而区分复杂场景中的目标物体是否与用户相关;
步骤S3.3、根据步骤S3.2的匹配结果,在AR空间内将当前场景中与用户需求存在逻辑关系的目标物体筛选出来,用于后续内容标注;
步骤S4、根据步骤S3判断结果,将待标记物体对应的反馈信息进行特征词句提取,并将其反馈至智能终端,展示于AR空间内;所述AR空间内建立基准平面,将特征词句通过AR定位的方式显示与AR空间内物体上方的特定位置,并且空间标注不会随智能终端位置的变化发生改变。
2.根据权利要求1所述的一种融合AI通用助手的AR空间标注及展示方法,其特征在于,所述步骤S2中基于YOLOv5模型对当前场景进行检测,捕捉场景中各目标物体的特征信息;所述特征信息作为后续AI通用助手的输入。
3.根据权利要求1所述的一种融合AI通用助手的AR空间标注及展示方法,其特征在于,所述TCN网络块具体结构包括依次连接的第一一维膨胀卷积网络层、第一BN层、第一激活函数层、第二一维膨胀卷积网络层、第二BN层、第二激活函数层;其中输入和输出之间通过1*1的卷积网络层跳跃连接。
4.根据权利要求1所述的一种融合AI通用助手的AR空间标注及展示方法,其特征在于,所述通道注意力模块SE包括依次连接的第一一维卷积神经网络层、激活函数层、第二一维卷积神经网络层和激活函数层;其中第一一维卷积神经网络层和第二一维卷积神经网络层输出维度不同。
5.根据权利要求1所述的一种融合AI通用助手的AR空间标注及展示方法,其特征在于,所述全连接模块包括依次连接的Flatten层、第一全连接层和第二全连接层;其中第二全连接层包括n个神经元,n代表输出类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310484946.9A CN116186310B (zh) | 2023-05-04 | 2023-05-04 | 一种融合ai通用助手的ar空间标注及展示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310484946.9A CN116186310B (zh) | 2023-05-04 | 2023-05-04 | 一种融合ai通用助手的ar空间标注及展示方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116186310A CN116186310A (zh) | 2023-05-30 |
CN116186310B true CN116186310B (zh) | 2023-06-30 |
Family
ID=86447498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310484946.9A Active CN116186310B (zh) | 2023-05-04 | 2023-05-04 | 一种融合ai通用助手的ar空间标注及展示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116186310B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079651B (zh) * | 2023-10-08 | 2024-02-23 | 中国科学技术大学 | 一种基于大规模语言模型的语音交叉实时增强现实方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256854A (zh) * | 2020-11-05 | 2021-01-22 | 云南电网有限责任公司 | 一种基于ai自然语言理解的智能ai会话方法及装置 |
CN113657400A (zh) * | 2021-08-19 | 2021-11-16 | 大连理工大学 | 基于跨模态文本检索注意力机制的文本指导图像分割方法 |
CN114926837B (zh) * | 2022-05-26 | 2023-08-04 | 东南大学 | 一种基于人-物时空交互行为的情感识别方法 |
CN115019302A (zh) * | 2022-06-13 | 2022-09-06 | 江苏大学 | 一种改进型yolox目标检测模型构建方法及其应用 |
CN115543523B (zh) * | 2022-11-23 | 2023-04-07 | 苏芯物联技术(南京)有限公司 | 一种基于增强现实和人工智能的产品说明***及方法 |
CN115880536B (zh) * | 2023-02-15 | 2023-09-01 | 北京百度网讯科技有限公司 | 数据处理方法、训练方法、目标对象检测方法及装置 |
-
2023
- 2023-05-04 CN CN202310484946.9A patent/CN116186310B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN116186310A (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
CN112132197B (zh) | 模型训练、图像处理方法、装置、计算机设备和存储介质 | |
CN110781347A (zh) | 一种视频处理方法、装置、设备以及可读存储介质 | |
CN109712108B (zh) | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 | |
CN116049397B (zh) | 基于多模态融合的敏感信息发现并自动分类分级方法 | |
CN106227719B (zh) | 中文分词歧义消除方法和*** | |
CN112818951A (zh) | 一种票证识别的方法 | |
CN113761105A (zh) | 文本数据处理方法、装置、设备以及介质 | |
CN107992937B (zh) | 基于深度学习的非结构化数据判决方法和装置 | |
CN114419387A (zh) | 基于预训练模型和召回排序的跨模态检索***及方法 | |
CN116186310B (zh) | 一种融合ai通用助手的ar空间标注及展示方法 | |
CN117149944B (zh) | 一种基于宽时间范畴的多模态情境情感识别方法及*** | |
CN109766918A (zh) | 基于多层次上下文信息融合的显著性物体检测方法 | |
CN114997181A (zh) | 一种基于用户反馈修正的智能问答方法及*** | |
CN111125396B (zh) | 一种单模型多分支结构的图像检索方法 | |
Pranesh et al. | Memesem: a multi-modal framework for sentimental analysis of meme via transfer learning | |
CN117746078B (zh) | 一种基于用户自定义类别的物体检测方法及*** | |
CN114743217A (zh) | 一种基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法 | |
CN114548274A (zh) | 一种基于多模态交互的谣言检测方法及*** | |
CN112101154B (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及*** | |
Toshevska et al. | Exploration into deep learning text generation architectures for dense image captioning | |
CN111223014B (zh) | 一种从大量细分教学内容在线生成细分场景教学课程的方法和*** | |
Nithya et al. | A review on automatic image captioning techniques | |
CN111159456A (zh) | 基于深度学习与传统特征的多尺度服装检索方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |