CN117008778A

CN117008778A - 页面信息处理方法、装置、设备及存储介质

Info

Publication number: CN117008778A
Application number: CN202310915232.9A
Authority: CN
Inventors: 吴婵明; 王第; 赵蒙蒙; 陈盛锡; 古少亭; 王冬; 黄天立; 林洪波
Original assignee: Zhejiang Tmall Technology Co Ltd
Current assignee: Zhejiang Tmall Technology Co Ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-11-07

Abstract

本申请实施例提供一种页面信息处理方法、装置、设备及存储介质。在本申请实施例中，在应用中融合能够与用户进行交互且支持多模态数据的AI语言模型，并在应用页面上展示与AI语言模型关联的第一图标，方便用户与AI语言模型进行交互。用户可以移动第一图标到感兴趣的目标位置上，应用基于目标位置识别表征用户交互意图的至少一种模态的数据，并利用AI语言模型产生符合用户交互意图的会话内容；展示会话内容，以与用户进行会话交互。基于AI语言模型能够通过多模态交互的方式与用户进行互动，增加交互的便捷性和趣味性，提升用户的交互兴趣；同时，借助AI语言模型产生的会话内容包含更丰富的信息，能够帮助用户了解更多更全面的信息。

Description

页面信息处理方法、装置、设备及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种页面信息处理方法、装置、设备及存储介质。

背景技术

在电商领域中，用户通过购物App(Application,应用程序),进入首页面，并从首页面进入任意商品详情页以浏览商品的商品信息，并可以将感兴趣的商品加入购物车。用户还可以从首页面进入购物车页面以浏览已加购商品的商品信息。

实际应用中，用户在诸如商品详情页或购物车页面中浏览商品的商品信息，可能需要通过交互获取更多商品信息，但目前的交互方式比较繁琐，且所获取的相关信息相对有限。因此，亟需一种操作简单且能够获取更多信息的交互方案。

发明内容

本申请的多个方面提供一种页面信息处理方法、装置、设备及存储介质，用以提供一种操作简单且能够获取更多信息的交互方案。

本申请实施例提供一种页面信息处理方法，包括：展示目标页面，目标页面上包括服务信息和第一图标，第一图标关联支持多模态数据的AI语言模型；响应对第一图标的第一移动操作，根据第一图标被移动到的目标位置，确定目标页面中的目标页面区域；根据目标页面区域中包含的表征用户交互意图的至少一种模态的数据，利用AI语言模型产生符合用户交互意图的会话内容；在目标页面上展示会话界面，并在会话界面上展示会话内容，以与用户进行会话交互。

本申请实施例还提供一种页面信息处理装置，包括：展示模块，用于展示目标页面，目标页面上包括服务信息和第一图标，第一图标关联支持多模态数据的AI语言模型；确定模块，用于响应对第一图标的第一移动操作，根据第一图标被移动到的目标位置，确定目标页面中的目标页面区域；

生成模块，用于根据目标页面区域中包含的表征用户交互意图的至少一种模态的数据，利用AI语言模型产生符合用户交互意图的会话内容；展示模块还用于：在目标页面上展示会话界面，并在会话界面上展示会话内容，以与用户进行会话交互。

本申请实施例还提供一种电子设备，包括：存储器和处理器；存储器，用于存储计算机程序；处理器耦合至存储器，用于执行计算机程序以用于执行页面信息处理方法中的步骤。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器能够实现页面信息处理方法中的步骤。

在本申请实施例中，在应用中融合能够与用户进行交互且支持多模态数据的AI语言模型，并在应用的页面上展示与AI语言模型关联的第一图标，方便用户与AI语言模型进行交互。对用户来说，可以通过移动应用页面上与AI语言模型关联的第一图标到感兴趣的页面位置上，对应用来说，可基于第一图标被移动到的目标位置，确定页面中用户感兴趣的目标页面区域；根据目标页面区域中包含的能够表征用户交互意图的至少一种模态的数据，利用AI语言模型产生符合用户交互意图的会话内容；在应用页面上展示会话界面，并在会话界面上展示会话内容，以与用户进行会话交互。在本申请实施例中，基于AI语言模型能够通过多模态交互的方式与用户进行互动，增加交互的便捷性和趣味性，提升用户的交互兴趣；同时，借助AI语言模型产生符合用户交互意图的会话内容，会话内容包括更加丰富的消息，实现包括文字或图片等多模态数据的输出，能够帮助用户了解更多更全面的信息。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1、图2和图3分别为本申请实施例提供的示例性的页面；

图4为本申请实施例提供的一种页面信息处理方法的流程图；

图5为本申请实施例提供的一种模态交互过程的过程图；

图6为本申请实施例提供的一种页面信息处理装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的访问关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。在本申请的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。此外，在本申请实施例中，“第一”、“第二”、“第三”、等只是为了区分不同对象的内容而已，并无其它特殊含义。

在电商领域中，用户通过购物App(Application,应用程序)可以进入该App提供的任何页面，并对该页面上的信息进行浏览。例如，用户通过购物App可以进入首页面，浏览首页面上的商品信息或页面导航信息等；还可以从首页面进入任意商品详情页以浏览商品的商品信息，进一步还可以将感兴趣的商品加入购物车；当然，用户还可以从任意页面进入购物车页面以浏览已加购商品的商品信息。

实际应用中，用户在诸如商品详情页或购物车页面中浏览商品信息，有可能希望通过交互获取更多商品信息，例如，以个人电脑(PC)式的键盘输入，或者点触式交互方式通过跳转到用户生成内容(User Generated Content，UGC)类App或外部搜索引擎等搜索相关信息，来辅助完成决策。但目前的交互方式比较繁琐，且所获取的相关信息相对有限。

为此，本申请实施例提供一种页面信息处理方法、装置、设备及存储介质，在本申请实施例中，在应用中融合能够与用户进行交互且支持多模态数据的AI语言模型，并在应用的页面上展示与AI语言模型关联的第一图标，方便用户与AI语言模型进行交互。对用户来说，可以通过移动应用页面上与AI语言模型关联的第一图标到感兴趣的位置上，对应用来说，可基于第一图标被移动到的目标位置，确定页面中用户感兴趣的目标页面区域；根据目标页面区域中包含的表征用户交互意图的至少一种模态的数据，利用AI语言模型产生符合用户交互意图的会话内容；在页面上展示会话界面，并在会话界面上展示会话内容，以与用户进行会话交互。在本申请实施例中，基于AI语言模型能够通过多模态交互的方式与用户进行互动，增加交互的便捷性和趣味性，提升用户的交互兴趣；同时，借助AI语言模型产生符合用户交互意图的会话内容，会话内容包括更加丰富的消息，实现包括文字或图片等多模态数据的输出，能够帮助用户了解更加全面的信息。

首先，对本申请实施例涉及的一些词语进行介绍：

AI(Artificial Intelligence，人工智能)语言模型：是指基于机器学习技术和自然语言处理(Natural Language Processing，NLP)技术的人工智能模型，其主要用于处理和生成与自然语言相关的任务，例如为文本生成、机器翻译、语言识别和对话问答。AI语言模型例如包括但不限于：LLM(Large Language Model，大语言模型)。LLM是指一类大型的自然语言处理模型，这些模型具有大量的参数，以实现更好的性能和泛化能力。这些模型通常使用Transformer架构，并通过在大规模文本数据上进行预训练来学习自然语言的特征和结构。这使得它们能够在各种NLP任务中表现出色，例如文本生成、情感分析、问答***、翻译等。Transformer架构是一个基于多头注意力机制的模型。

内容区域：是指按照页面内容对页面进行划分的页面区域。例如，参见图1，商品详情页面自上而下依次包括：承载商品主图的内容区域、承载SKU(Stock Keeping Unit，库存量单位)信息的内容区域、承载促销信息的内容区域、承载商品标题信息的内容区域和承载导航栏的内容区域。其中，SKU信息在服装、鞋类商品中使用最多最普遍，一个SKU通常表示：规格、颜色和款式。

多模态数据：是指AI语言模型支持至少两种模态的数据，例如，包括但不限于：图片、文字、语音数据、音频数据中至少两种模态的数据。需要说明的是，在每次与AI预演模型交互过程中，AI语言模型的输入数据可以是一种模态的数据，也可以同时包含两种或两种以上模态的数据。

下面结合图1至图3所示的页面对电商场景借助AI语言模型及其图标获取更多商品信息的过程进行介绍。参见图1，在电商场景中，用户打开终端设备(如手机)中的购物App，进入首页面，并从首页面进入任意商品详情页面以浏览商品的商品信息，并可以将感兴趣的商品加入购物车。用户还可以从首页面进入购物车页面以浏览已加购商品的商品信息。在本实施例中，以用户当前浏览的页面为商品详情页面为例进行介绍。当用户进入商品详情页面后，可在商品详情页面上展示AI语言模型图标，以直观告知用户可以与AI语言模型进行交互并借助AI语言模型获取更多商品信息。进一步的，在商品详情页面上还显示有与AI语言模型关联的第一图标，第一图标可以是动态图标，也可以是静态图标，对此不做限定。第一图标可被移动，以供用户通过移动第一图标至感兴趣的页面位置，在本实施例中，用户感兴趣的页面位置具有一定的信息，这些信息一定程度上反映了用户的交互意图，也就是用户希望AI语言模型为其提供哪些信息的意思表达。

用户操作与AI语言模型关联的第一图标，第一图标主要用于从商品详情页面的任意页面区域中获取表征用户交互意图的至少一种模态的数据，第一图标的外形不作限制，例如，第一图标的外形为水滴状、圆环状、三角形、不规则多边形等，以增加交互的趣味性。实际应用中，第一图标可以位于商品详情页面上的任意位置，当用户出现获取更多商品信息的需求时，用户可以通过诸如拖拽操作或滑动操作等移动操作控制第一图标在商品详情页面上移动，直至第一图标与AI语言模型图标之间的距离达到设定的唤醒距离，以唤醒AI语言模型。例如，图1中，第一图标移动至与AI语言模型图标重合时，可以唤醒AI语言模型。进一步可选的，为了减少AI语言模型的误唤醒，还可以在第一图标与AI语言模型图标之间的距离达到设定的唤醒距离后，显示提示信息，以提示用户是否需要唤醒AI语言模型；用户通过对第一图标执行单击操作、双击操作、滑动操作或长按操作等触发操作，以触发唤醒AI语言模型。

当然，进入唤醒状态的AI语言模型在满足一定条件后，可以重新从唤醒状态进入休眠状态。例如，用户关闭商品详情页面时使AI语言模型重新从唤醒状态进入休眠状态；又例如，AI语言模型唤醒一定时长后，仍然未有数据输入至AI语言模型，AI语言模型重新从唤醒状态进入休眠状态。又例如，用户对AI语言模型图标进行单击、双击等以触发AI语言模型重新从唤醒状态进入休眠状态。在本实施例中，AI语言模型可以部署在终端设备本地，也可以部署在云端服务器，对此不做限定。如果AI语言模型部署在云端服务器，可以通过网络通信的方式向AI语言模型传输其所需的输入信息，并通过网络通信获取AI语言模型根据输入信息产生的输出信息。

在AI语言模型唤醒后，用户可以将第一图标移动至商品详情页面中感兴趣的位置上，然后长按第一图标控制第一图标的外形尺寸向外不断扩大，直至释放长按操作或者达到感兴趣的位置所在商品详情页面中内容区域的边界。当用户释放长按操作也即用户松手后，将第一图标的外轮廓线所围住的页面区域作为目标页面区域并对该目标页面区域进行截图，得到截图图像。基于第一图标被移动到感兴趣的页面位置，可以识别用户交互意图。参见图1，若用户将第一图标移动至衣服图片上，用户交互意图是衣服图片。若用户将第一图标移动至衣服图片上的“女士服饰”，用户交互意图是想要了解“女士服饰”的试穿效果。若用户将第一图标移动至sku信息中的“款式1”上，用户交互意图是想要了解“款式1”的信息或者想要了解与该服饰相关的各种款式信息。若用户将第一图标移动至促销信息中的“每300减50”上，用户交互意图是想要了解该服饰的促销信息。在此说明，上述通过长按第一图标来确定目标页面区域的方式仅为示例，并不限于此。凡是能够通过第一图标确定目标页面区域的方式均适用于本申请实施例。

在获取截图图像和用户交互意图之后，对截图图像进行光学字符识别(OCR，Optical Character Recognition)，得到截图图像中的文本内容。对截图图像进行图像分割处理，得到一个或多个分割图像；根据用户交互意图，从文本内容和/或分割图像中提取表征用户交互意图的至少一种模态的数据。其中，分割图像是整个截图图像中包含的具体对象的图像，以电商领域为例，截图图像中包含的对象可以是各种商品对象，例如衣服、手机、电视机、柜子、鞋子等。例如，用户交互意图是想要了解该衣服的试穿效果，可以选择衣服图片作为表征用户交互意图的数据；用户交互意图是想要了解衣服的满减活动信息，可以选择从截图图像中识别出的文本内容“每300减50”作为表征用户交互意图的数据。在完成截图图像处理后，可以得到至少一种模态的数据。在一些应用场景中，至少一种模态的数据包括从截图图像中识别出的文本内容；在另一些应用场景中，至少一种模态的数据包括从截图图像中分割出的一个或多个分割图像；在又一些应用场景中，至少一种模态的数据同时包括从截图图像中识别出的文本内容和从截图图像中分割出的分割图片。

在得到表征用户交互意图的至少一种模态的数据后，可根据至少一种模态的数据和/或第一图标被拖动到的页面位置信息进行场景决策，也即基于预先定义的已有交互场景的描述信息从已有交互场景选择与表征用户交互意图的至少一种模态的数据匹配的交互场景，也即与用户交互意图匹配的交互场景。可选地，已有交互场景例如包括但不限于：试穿衣服场景、商品问答场景、SKU选择场景等等。其中，试穿衣服场景会对应包含衣服的图像；商品问答场景对应一些问答类信息，例如满减活动信息；SKU选择场景对应一些款式信息。如果至少一种模态的数据中包含衣服的图像，则可以确定与用户交互意图匹配的交互场景为试穿衣服场景；如果至少一种模态的数据中包含满减活动信息，例如每300减50，可以确定与用户交互意图匹配的交互场景为商品问答场景；如果至少一种模态的数据中包含款式信息，例如款式1，可以确定与用户交互意图匹配的交互场景为SKU选择场景。

接着，利用与用户交互意图匹配的交互场景的提示词格式对至少一种模态的数据进行组装，得到本次待向AI语言模型提问的提示词，将提示词输入AI语言模型中，便可以得到AI语言模型产生的相应交互场景下的会话内容。其中，根据交互场景的不同，提示词会有所不同，相应地，AI语言模型给出的会话内容也会有所不同。参见图2，商品详情页面上弹出一个承载会话内容的会话界面，该会话界面包括一些问题信息和答案信息。用户可以点击任一个问题信息，会话界面显示该问题信息的答案信息。答案信息可以模拟打字机输出方式在会话界面中逐字输出，提升交互趣味性。值得注意，模拟成打字机输出的流式处理，将用户关心的问题反馈给用户，模拟人和人之间的交互，和用户之间进行会话交互，使得用户的体验效果更好。

进一步，会话界面上还可以提供一些交互组件，以满足用户随时出现的对话需求。例如，交互组件包括文本输入框和/或语音输入控件，则用户可以通过文本输入框输入文字或通过语音交互入口输入语音信息，AI语言模型对输入的文字或语音信息进行处理，并将处理结果显示在会话界面中，以供用户查看。

进一步的，为了直观地使得用户感知表征用户交互意图的至少一种模态的数据，增加交互的趣味性和提升用户的交互兴趣，还可以为所述至少一种模态的数据添加动画效果。例如，为所述至少一种模态的数据中对象图片添加描边特效，以使所述至少一种模态的数据中文本内容进行诸如高亮显示、字体加粗或改变颜色等突出显示。为所述至少一种模态的数据添加动画效果的时间可以在商品详情页面显示会话界面之前、过程中或之后，对此不做限制。

进一步的，为了减少对商品详情页面的干扰和增加交互趣味性，在得到本次交互的截图图像之后，还可以控制第一图标以诸如***特效、淡出动画效果、渐变动画效果等退出动画效果从商品详情页面上退出显示。

进一步可选的，AI语言模型图标还可以支持用户随意调整到商品详情页面上任意内容区域中，参见图3，用户拖拽与AI语言模型图标重合的第一图标，将AI语言模型图标和第一图标从承载商品主图的内容区域拖拽至承载SKU信息的内容区域，或者，从承载SKU信息的内容区域拖拽至承载商品标题信息的内容区域。在这种场景下，用户操作第一图标对AI语言模型图标所处于的内容区域中的页面区域进行截图，这样，能够较好地获取满足用户交互意图的截图图像。可选的，当AI语言模型图标移动到一些特定内容区域时，特定内容区域例如为承载导航栏的内容区域，此时，AI语言模型返回的会话内容是默认的会话内容。默认的会话内容例如为对商品详情页面中商品对象进行介绍的介绍信息。

通过上述内容可知，在电商场景中，用户在购物应用的商品详情页面上移动与AI语言模型关联的第一图标到感兴趣的位置上，并在第一图标停止移动后可以扩大第一图标的外形尺寸，以及对扩大后的第一图标的轮廓线围住的页面区域进行截图，得到截图图像；结合第一图标停止移动所在的位置识别用户交互意图，并结合用户交互意图从截图图像识别所述至少一种模态的数据；对所述至少一种模态的数据进行场景决策，确定与所述至少一种模态的数据匹配的交互场景，并利用匹配的交互场景的提示词格式对所述至少一种模态的数据进行组装得到提示词，利用AI语言模型处理提示词得到符合用户交互意图的会话内容，并在商品详情页面展示会话内容以与用户进行会话交互。由此，实现在电商场景中，基于AI语言模型能够通过多模态交互的方式与用户进行互动，增加交互的便捷性和趣味性，提升用户的交互兴趣，同时在交互的过程中挖掘用户的关心点，帮助用户完成决策。另外，AI语言模型输出的会话内容包括更加丰富的消息，实现包括文字或图片等多模态数据的输出，能够帮助用户了解更加全面的信息。当然，还可以对AI语言模型输出的多模态数据添加不同的动画效果，增加交互的便捷性和趣味性，提升用户的交互兴趣。

需要说明的是，上述应用场景仅仅为一种示例性的应用场景，本申请实施例并不限制应用场景。例如，可以在提供购物服务的购物应用的商品详情页面、购物车页面、客户页面或店铺页面中实施上述多模态交互方式。又例如，可以在提供打车服务的打车应用、提供购票服务的购票应用、提供点餐服务的点餐应用等各种提供网络服务的应用中的页面中实施上述多模态交互方式，对此不做限制。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图4为本申请实施例提供的一种页面信息处理方法的流程图。参见图4，该方法可以包括以下步骤：

401、展示目标页面，目标页面上包括服务信息和第一图标，第一图标关联支持多模态数据的AI语言模型。

402、响应对第一图标的第一移动操作，根据第一图标被移动到的目标位置，确定目标页面中的目标页面区域。

403、根据目标页面区域中包含的表征用户交互意图的至少一种模态的数据，利用AI语言模型产生符合用户交互意图的会话内容。

404、在目标页面上展示会话界面，并在会话界面上展示会话内容，以与用户进行会话交互。

具体而言，可以在用户的诸如手机、平板电脑、可穿戴设备或车载设备等显示屏幕中展示目标页面，目标页面可以是提供各种网络服务的应用程序中的任意页面，或者是提供各种网络服务的浏览器中的任意页面，网络服务例如包括但不限于：网购服务、购票服务或打车服务，但并不限于上述举例。

在目标页面上包括服务信息和第一图标，第一图标是指与AI语言模型关联的图标，AI语言模型支持多模态数据的输入，可以为用户提供与服务信息相关的会话内容或会话服务。第一图标主要用于从目标页面的任意页面区域中获取表征用户交互意图的至少一种模态的数据。用户的交互意图通常是与目标页面上呈现的服务信息相关的交互意图。以购物App为例，目标页面上呈现的服务信息可以是商品信息，例如商品图片、商品的标题、商品价格等。当用户需要了解更多与该商品相关的信息(例如商品的比较信息、成交量信息、相似商品信息等)时，可以通过与AI语言模型进行会话交互，从AI语言模型获取更多商品信息。第一图标的外形不作限制，例如，第一图标的外形为水滴状、云形状或笑脸形状，以增加交互的趣味性。

实际应用中，第一图标可以位于目标页面上的任意位置，当用户出现获取更多商品信息的需求时，用户通过移动第一图标从目标页面中确定感兴趣的页面区域。具体的，响应对第一图标的第一移动操作，根据第一图标被移动到的目标位置，确定目标页面中的目标页面区域。其中，第一移动操作例如包括但不限于：拖拽操作或滑动操作等各种移动操作。当用户对第一图标发起第一移动操作时，第一图标在目标页面中移动，当第一移动操作终止，第一图标当前所在位置即为第一图标被移动到的目标位置，将包括目标位置在内的页面区域确定为目标页面中的目标页面区域。例如，以包括目标位置在内的矩形、圆形或六角形的页面区域确定为目标页面中的目标页面区域，目标页面区域的面积按需灵活设置。

进一步可选的，为了更好地满足用户需求，提高交互的可靠性，响应对第一图标的第一移动操作，根据第一图标被移动到的目标位置，确定目标页面中的目标页面区域的一种可选实现方式为：响应对第一图标的第一移动操作，在目标页面上移动第一图标至第一移动操作终止时的目标位置；在目标位置处，控制第一图标的可视化属性进行变化，可视化属性的变化程度代表自目标位置沿设定方向向外覆盖的页面区域的大小；响应于第一移动操作的释放操作，根据可视化属性的最终变化程度，获取自目标位置沿设定方向向外覆盖的页面区域作为目标页面区域。

具体而言，在第一图标移动至目标页面中的目标位置之后，控制第一图标的可视化属性进行变化，根据可视化属性的变化结果从目标页面中确定目标页面区域。可视化属性例如包括但不限于：外观颜色和外形尺寸。例如，第一图标的外观颜色可变，外观颜色越深，目标页面区域的面积越大；外观颜色越浅，目标页面区域的面积越小。又例如，第一图标的外形尺寸可变，外形尺寸越大，目标页面区域的面积越大；外形尺寸越小，目标页面区域的面积越小。

作为一种示例，在目标位置处，控制第一图标的可视化属性进行变化的实现方式为：在目标位置处，控制第一图标的外观颜色进行变化。考虑到第一图标所在目标位置属于某个内容区域，优选地，通过第一图标的外观颜色的变化在确定目标页面区域时，可以限定在目标位置所在的内容区域内。基于此，当外观颜色的变化所限定的目标页面区域达到目标位置所属内容区域的边界时，该外观颜色不再变化，目标页面区域的大小也就确定了。另外，当第一移动操作被释放时，该外观颜色也不再变化，目标页面区域的大小也随之确定。外观颜色变化程度与目标页面区域大小之间的变化关系可以通过函数关系来表示，例如可以是线性函数关系、指数函数关系等，对此不做限定。

作为另一种示例，目标位置处，控制第一图标的可视化属性进行变化的实现方式为：在目标位置处，控制第一图标的外形尺寸不断进行扩大，直至第一移动操作被释放或者达到目标位置所属内容区域的边界。可以理解，目标页面按照内容的不同可以划分为多个内容区域，每个内容区域具有自己的边界，优先地，第一图标的外形尺寸至多可以扩大到目标位置所属内容区域的边界。同理，第一图标的外形尺寸的大小与目标页面区域大小之间的变化关系可以通过函数关系来表示，例如可以是线性函数关系、指数函数关系等，对此不做限定。在一种可选实现方式中，第一图标的外形尺寸所覆盖的页面区域即为目标页面区域，但并不限于此。

在本实施例中，可视化属性的变化程度代表自目标位置沿设定方向向外覆盖的页面区域的大小。其中，设定方向按需灵活设置，例如为360°的方向、水平向左50°方向或水平向右10度方向等等。该设定方向可以根据应用需求灵活设定，该设定方向可以根据页面上信息的呈现方式而定。

在本实施例中，用户可以随时释放第一移动操作，当用户释放第一移动操作后，将第一图标的可视化属性当前的变化程度作为第一图标的可视化属性的最终变化程度，基于可视化属性的最终变化程度便可确定目标页面区域。

进一步可选的，为了减少对目标页面的干扰和增加交互趣味性，在第一移动操作被释放情况下，控制第一图标以设定的动画效果退出显示。设定的动画效果例如包括但不限于：***特效、淡出动画效果、渐变动画效果。

可以理解的是，在第一图标从目标页面上退出显示后，用户还可以通过点击、双击、长按、滑动等作用于目标页面上的触发操作，将第一图标重新显示在目标页面上，或者，第一图标在退出显示一定时长后，可以重新显示在目标页面上，对此不做限制。重新显示第一图标，可以满足后续产生的获取更多信息的需求。

实际应用中，当目标页面被展示后，可以自动在目标页面上唤醒AI语言模型，以通过唤醒后的AI语言模型获取更多、更全面信息的需求。进一步可选的，AI语言模型还支持按需唤醒，这样可以降低唤醒AI语言模型带来的功耗，提高交互的智能性。基于此，目标页面上还包括标识AI语言模型的第二图标；在响应对第一图标的第一移动操作之前，还响应于对第一图标的第二移动操作，控制第一图标向第二图标移动；当第一图标与第二图标之间的距离达到设定的唤醒距离时，唤醒AI语言模型。

具体而言，第二图标是标识AI语言模型的图标，第二移动操作例如包括但不限于：拖拽操作或滑动操作等各种移动操作。

实际应用中，第一图标可以位于目标页面上的任意位置，当用户出现获取更多商品信息的需求时，用户可以通过诸如拖拽操作或滑动操作等移动操作控制第一图标在目标页面上移动，直至第一图标与第二图标之间的距离达到设定的唤醒距离，以唤醒AI语言模型，其中，设定的唤醒距离按需灵活设置。例如，图1中，第一图标移动至与第二图标重合时，可以唤醒AI语言模型。在确定第一图标与第二图标之间的距离时，可以基于第一图标与第二图标各自的中心点位置、左顶点位置或右顶点位置等确定，对此不做限制。

进一步可选的，为了减少AI语言模型的误唤醒，还可以在第一图标与第二图标之间的距离达到设定的唤醒距离后，用户对第一图标执行单击操作、双击操作、滑动操作或长按操作等触发操作，以触发唤醒AI语言模型。

当然，进入唤醒状态的AI语言模型在满足一定条件后，可以重新从唤醒状态进入休眠状态。例如，用户关闭目标页面时使AI语言模型重新从唤醒状态进入休眠状态；又例如，AI语言模型唤醒一定时长后，仍然未有数据输入至AI语言模型，AI语言模型重新从唤醒状态进入休眠状态。又例如，用户对第二图标进行单击、双击等以触发AI语言模型重新从唤醒状态进入休眠状态。

进一步可选的，第二图标还可以支持用户随意调整到目标页面上任意内容区域中。在这种场景下，用户操作第一图标确定第二图标所处于的内容区域中的页面区域，这样，能够较好地确定满足用户交互意图的页面区域。

在本实施例中，在确定目标页面中的目标页面区域后，获取目标页面区域中包含的表征用户交互意图的至少一种模态的数据。例如，根据目标页面区域的位置信息和目标页面的布局信息确定表征用户交互意图的至少一种模态的数据。其中，布局信息表征目标页面中诸如图片或文字等各个页面元素的位置信息。

进一步可选的，为了准确获取表征用户交互意图的至少一种模态的数据，在确定目标页面中的目标页面区域后，对目标页面区域进行截图，以得到目标截图；根据目标位置，对目标截图进行多模态数据识别，以得到表征用户交互意图的至少一种模态的数据。

示例性的，为了获取更加全面、丰富的能够表征用户交互意图的数据，可以对目标截图进行文本识别，得到目标截图中的文本内容；对目标截图进行图像分割处理，得到至少一个分割图像；根据目标位置对应的页面信息，确定用户交互意图；根据用户交互意图，选择文本内容和/或至少一个分割图像，作为表征用户交互意图的至少一种模态的数据。

具体而言，第一图标被移动到的目标位置对应的页面信息可以根据目标页面的布局信息和目标位置来确定，布局信息表征目标页面中诸如图片或文字等各个页面元素在目标页面中的位置信息。其中，目标位置对应的页面信息包括但不限于：目标位置所属的内容区域，该内容区域对应的页面内容的类型，该内容区域中包含的页面元素，例如文本内容和/或对象图片等等。参见图1，若用户将第一图标移动至衣服图片上，目标位置对应的页面信息包括商品主图区域以及该区域中的衣服图片，对应的用户交互意图可能是想要了解该款衣服的试穿效果。若用户将第一图标移动至SKU信息区域中的“款式1”上，目标位置对应的页面信息包含SUK信息区域以及该区域中表示款式信息的一些文本内容，对应的用户交互意图可能是想要了解该款衣服的各种款式信息。若用户将第一图标移动至促销信息中的“每300减50”上，目标位置对应的页面信息包含促销或促销信息相关的一些文本内容，对应的用户交互意图可能是想要了解该款衣服的优惠活动或促销活动信息。

基于上述，在得到目标截图之后，一方面可以对目标截图进行文本识别，得到目标截图中的文本内容；一方面可以对目标截图进行图像分割处理，得到一个或多个分割图像，分割图像是指目标截图中包含具体对象(例如各种商品)的图像区域；根据用户交互意图，从文本内容和/或一个或多个分割图像中提取表征用户交互意图的至少一种模态的数据。在此说明，在每一次交互过程中，至少一种模态的数据可以包含一种模态的数据，例如可以仅包含文本内容或分割图像，也可以同时包含文本内容和分割图像这两种模态的数据。从整个AI语言模型的角度来看，既支持文本内容，也支持分割图像，还可以支持语音、视频等其它模态的数据，是一种支持多模态的交互模型。

在本实施例中，在获取目标页面区域中包含的表征用户交互意图的至少一种模态的数据后，根据目标页面区域中包含的表征用户交互意图的至少一种模态的数据，利用AI语言模型产生符合用户交互意图的会话内容。其中，AI语言模型可以从本地数据库或外部搜索引擎、第三方平台等获取符合用户交互意图的会话内容，对此不做限定；其中，AI语言模型从外部搜索引擎或第三方平台等外部***获取会话内容的过程对用户来说是无感知的，即不需要从当前页面跳转至外部***的相关页面，可以简化用户获取更多相关信息的操作。

进一步可选的，为了获取更加符合用户交互意图的会话内容，根据目标页面区域中包含的表征用户交互意图的至少一种模态的数据，利用AI语言模型产生符合用户交互意图的会话内容的可选实现方式为：根据至少一种模态的数据和已有交互场景的描述信息，从已有交互场景中确定与用户交互意图适配的目标交互场景；根据至少一种模态的数据和目标交互场景，利用AI语言模型产生目标交互场景下的会话内容。

具体而言，已有交互场景的描述信息可以刻画已有交互场景具有的数据特点，已有交互场景例如包括但不限于：试穿衣服场景、商品问答场景、SKU选择场景等等。将至少一种模态的数据和已有交互场景的描述信息进行匹配，选择与至少一种模态的数据的匹配度大于预设匹配度阈值的已有交互场景或匹配度最高的已有交互场景作为与用户交互意图适配的目标交互场景，进而完成场景决策。

示例性的，为了较好地进行对话交互，根据至少一种模态的数据和目标交互场景，利用AI语言模型产生目标交互场景下的会话内容的可选实现方式为：根据目标交互场景的提示词格式，对至少一种模态的数据进行组装，以得到提示词；将提示词输入AI语言模型，以利用AI语言模型产生目标交互场景下的会话内容。其中，各个交互场景具有自己的提示词格式，不同交互场景对应的提示词格式可以不同，并且各个交互场景对应的提示词格式可配置。其中，根据目标交互场景的提示词格式，对至少一种模态的数据进行组装以得到提示词的过程包括：根据目标交互场景的提示词格式，确定提示词格式中定义的提示词数量、提示词属性以及提示词之间的顺序；根据提示词格式中定义的提示词属性，按照提示词格式中定义的提示词数量从至少一种模态的数据中提取相应属性的词语，按照提示词之间的顺序对这些词语进行组装，以得到AI语言模型在目标交互场景下所需的提示词。

在本实施例中，在得到符合用户交互意图的会话内容之后，可以将该会话内容通过会话界面展示给用户。根据会话内容的模态的不同，展示方式也会有所不同。例如，如果会话内容包括音视频数据，则可以音视频方式在会话界面上播放会话内容；如果会话内容包括图像，则可以在会话界面上展示图像或动态播放图像；如果会话内容包括文本信息，则可以以文本信息输出方式在会话界面上输出会话内容。本申请实施例对在会话界面上以文本信息输出方式输出会话内容的方式不做限制。可选的，可以模拟打字机在会话界面中逐字输出会话内容。模拟成打字机输出的流式处理，将用户关心的内容反馈给用户，模拟人和人之间的交互，和用户之间进行会话交互，使得用户的体验效果更好。当然，如果会话内容还包括一些链接、按钮等界面元素，也可以展示在会话界面上，以供用户通过链接或按钮等参与会话交互。

参见图2，商品详情页面上弹出一个承载会话内容的会话界面，该会话界面包括一些问题信息和答案信息。用户可以点击任一个问题信息，会话界面显示该问题信息的答案信息。答案信息可以模拟打字机输出方式在会话界面中逐字输出，提升交互趣味性。

进一步可选的，会话界面还可以提供一些交互组件，以满足用户随时出现的对话需求。基于此，在会话界面上展示会话内容之后，响应用户通过会话界面中的交互组件输入的会话交互信息，利用AI语言模型产生对应的会话响应信息，并将会话响应信息展示在会话界面中。例如，用户可以通过文本输入框输入文字(也即会话交互信息)或通过语音交互入口输入语音信息(也即会话交互信息)，AI语言模型对输入的文字或语音信息进行处理，并将处理结果(也即会话响应信息)显示在会话界面中，以供用户查看。

在一些可选的实施例中，在得到表征用户交互意图的至少一种模态的数据后，还可以：确定至少一种模态的数据对应的动画效果描述数据；根据动画效果描述数据，为至少一种模态的数据添加对应的动画效果。

具体而言，动画效果描述数据包括动画效果中图形元素或文字的颜色、大小、明暗、速度曲线、显示时长、播放次数等等，动画效果描述数据是定义动画效果的数据。为至少一种模态的数据添加动画效果，可以直观地使得用户感知表征用户交互意图的至少一种模态的数据，增加交互的趣味性和提升用户的交互兴趣。例如，为至少一种模态的数据中对象图片添加描边特效，使至少一种模态的数据中文本内容进行诸如高亮显示、字体加粗或改变颜色等突出显示。为至少一种模态的数据添加动画效果的时间可以在目标页面显示会话界面之前、过程中或之后，对此不做限制。

在一些可选的实施例中，还可以结合第一图标被移动到的目标位置和/或至少一种模态的数据的类型确定至少一种模态的数据对应的动画效果描述数据。例如，若目标位置所在内容区域预先定义好了对应的动画效果描述数据，或者，预先定义好一些类型的动画效果描述数据，这样，可以获取预先定义好的动画效果描述数据。当然，对于一些特殊位置或特殊模态的数据，也可以不用为这些数据添加动画效果。例如，若目标位置位于商品详情页面的导航栏，和/或，至少一种模态的数据包括导航栏中功能控件的图片，则可以不用为这些数据添加动画效果。

本申请实施例提供的技术方案，用户移动页面上与AI语言模型关联的第一图标到感兴趣的位置上，基于第一图标被移动到的目标位置，确定页面中的目标页面区域；根据目标页面区域中包含的表征用户交互意图的至少一种模态的数据，利用AI语言模型产生符合用户交互意图的会话内容；在页面上展示会话界面，并在会话界面上展示会话内容，以与用户进行会话交互。由此，基于AI语言模型能够通过多模态交互的方式与用户进行互动，增加交互的便捷性和趣味性，提升用户的交互兴趣；同时，借助AI语言模型产生符合用户交互意图的会话内容，会话内容包括更加丰富的消息，实现包括文字或图片等多模态数据的输出，能够帮助用户了解更多更全面的信息。

下面结合图5介绍一具体的多模态交互过程。参见图5，整个多模态交互过程依次包括：多模态数据识别步骤、场景和动画效果决策步骤、会话交互步骤和多模态数据输出步骤。

首先，用户打开手机中的购物App并进入商品详情页面后，触发显示关联于大语言模型的关联图标，该关联图标的外形为水滴状。参见图1，用户在商品详情页面上拖拽关联图标以使关联图标和大语言模型图标重合，用户点击关联图标以唤醒大语言模型，接着，用户将关联图标拖拽到商品详情页面中感兴趣区域，例如拖拽到商品主图上，在拖拽结束后，用户长按关联图标以使关联图标的外形尺寸扩大。在关联图标当前的外形尺寸满足用户需求后，用户抬手也即释放拖拽操作；在用户抬手后，对关联图标当前覆盖的页面区域进行截图，得到截图图像，将截图图像和关联图标在页面上停止移动(也即拖拽结束时)所处的位置作为数据流。

接着，基于数据流进行多模态数据识别。具体的，基于关联图标在页面上停止移动(也即拖拽结束时)所处的位置识别用户交互意图；对数据流中的截图图像进行文本识别得到文本内容；对数据流中的截图图像进行图像分割，得到一个或多个分割图像；根据用户交互意图，从文本内容和/或分割图像中提取作为表征用户交互意图的多模态数据。在图5所示实施例中，以表征用户交互意图的数据同时包含文本数据和图像数据为例，但并不限于此。

接着，对表征用户交互意图的多模态数据进行场景和动画效果决策。确定表征用户交互意图的多模态数据的交互场景和多模态数据的动画效果描述数据。

接着，进入会话交互步骤。利用支持多模态数据的交互场景的提示词格式对表征用户交互意图的多模态数据进行组装，得到提示词。提示词被输入AI语言模型进行处理，得到会话内容，并模式打字机的流式方式输出会话内容。

接着，进入多模态数据输出步骤，根据动作效果描述数据确定多模态数据的动画效果，展示描边特效的图片动画、高亮显示或放大字体的文字动画。展示的会话内容可以包括诸如试衣合成等图片或例如商品知识等文字。

在本申请各实施例中对AI语言模型的网络结构不做限制，优选的，AI语言模型的网络结构为Transformer的网络架构。Transformer的网络架构是基于自注意力机制的神经网络架构，使用了位置嵌入(Positional Encoding)来理解语言的顺序，使用自注意力机制(Self Attention Mechanism)和全连接层进行计算。Transformer模型主要分为两大部分，分别是Encoder(编码器)和Decoder(解码器)。Encoder负责把输入(语言序列)隐射成隐藏层，即把自然语言序列映射为隐藏层的数学表达的过程。Decoder再把隐藏层映射为自然语言序列。

本申请实施例对AI语言模型的训练方式不做限制，优选的，AI语言模型采用预训练(pre-training/trained)和微调(fine-tuning)进行训练。在大规模数据集上进行训练得到预训练AI语言模型，预训练AI语言模型具有较好的泛化性能；利用新且小的数据集对预训练AI语言模型进行少量的训练，得到更好性能的AI语言模型。在本实施例中，在对预训练AI语言模型进行微调训练时，准备各个交互场景的训练数据，每个交互场景的训练数据包括该交互场景下的问题文本和标注的答复文本；将该交互场景下的问题文本按照该交互场景下的提示词格式进行组装，得到对应的提示词；将提示词输入预训练AI语言模型，获取预测答复文本；根据预测答复文本和标注的答复文本之间的差异调整预训练AI语言模型的模型参数；迭代执行模型训练过程，直至满足预设的条件(如训练次数达到预设次数或模型参数基本不变等)，至此，完成AI语言模型的训练。可以理解的是，按照交互场景准备训练数据，能够使得AI语言模型能够较好地进行交互场景下的对话交互。

在本实施例中，在推理阶段，AI语言模型确定输入的提示词的字嵌入表示和位置嵌入表示；将提示词的字嵌入表示和位置嵌入表示输入编码器进行编码处理，得到编码结果；利用解码器对编码结果进行解码处理，得到解码结果，解码结果即为对提示词进行回复的会话内容。

图6为本申请实施例提供的一种页面信息处理装置的结构示意图。如图6所示，该装置可以包括：

展示模块61，用于展示目标页面，目标页面上包括服务信息和第一图标，第一图标关联支持多模态数据的AI语言模型；

确定模块62，用于响应对第一图标的第一移动操作，根据第一图标被移动到的目标位置，确定目标页面中的目标页面区域；

生成模块63，用于根据目标页面区域中包含的表征用户交互意图的至少一种模态的数据，利用AI语言模型产生符合用户交互意图的会话内容；

展示模块61，还用于在目标页面上展示会话界面，并在会话界面上展示会话内容，以与用户进行会话交互。其中，会话内容与目标页面上的服务信息相关。

进一步可选的，确定模块62确定目标页面中的目标页面区域时，具体用于：响应对第一图标的第一移动操作，在目标页面上移动第一图标至第一移动操作终止时的目标位置；在目标位置处，控制第一图标的可视化属性进行变化，可视化属性的变化程度代表自目标位置沿设定方向向外覆盖的页面区域的大小；响应于第一移动操作的释放操作，根据可视化属性的最终变化程度，获取自目标位置沿设定方向向外覆盖的页面区域作为目标页面区域。

进一步可选的，确定模块62在目标位置处，控制第一图标的可视化属性进行变化时，具体用于：在目标位置处，控制第一图标的外形尺寸不断进行扩大，直至第一移动操作被释放或者达到目标位置所属内容区域的边界。

进一步可选的，确定模块62还用于：在第一移动操作被释放情况下，控制第一图标以设定的动画效果退出显示。

进一步可选的，确定模块62还用于：在确定目标页面中的目标页面区域后，对目标页面区域进行截图，以得到目标截图；根据目标位置，对目标截图进行多模态数据识别，以得到表征用户交互意图的至少一种模态的数据。

进一步可选的，确定模块62得到表征用户交互意图的至少一种模态的数据时，具体用于：对目标截图进行文本识别，得到目标截图中的文本内容；对目标截图进行图像分割处理，得到至少一个分割图像；根据目标位置对应的页面信息，确定用户交互意图；根据用户交互意图，从文本内容和/或分割图像中提取表征用户交互意图的至少一种模态的数据。

进一步可选的，生成模块62产生符合用户交互意图的会话内容时，具体用于：根据至少一种模态的数据和已有交互场景的描述信息，从已有交互场景中确定与用户交互意图适配的目标交互场景；根据至少一种模态的数据和目标交互场景，利用AI语言模型产生目标交互场景下的会话内容。

进一步可选的，生成模块62根据至少一种模态的数据和目标交互场景，利用AI语言模型产生目标交互场景下的会话内容时，具体用于：根据目标交互场景的提示词格式，对至少一种模态的数据进行组装，以得到提示词；将提示词输入AI语言模型，以利用AI语言模型产生目标交互场景下的会话内容。

进一步可选的，展示模块61还用于：响应用户通过会话界面中的交互组件输入的会话交互信息，利用AI语言模型产生对应的会话响应信息，并将会话响应信息展示在会话界面中。

进一步可选的，确定模块62还用于：在得到表征用户交互意图的至少一种模态的数据后，确定至少一种模态的数据对应的动画效果描述数据；根据动画效果描述数据，为至少一种模态的数据添加对应的动画效果。

进一步可选的，目标页面上还包括：标识AI语言模型的第二图标；确定模块62还用于：在响应对第一图标的第一移动操作之前，响应于对第一图标的第二移动操作，控制第一图标向第二图标移动；当第一图标与第二图标之间的距离达到设定的唤醒距离时，唤醒AI语言模型。

图6所示的装置可以执行图4所示实施例的方法，其实现原理和技术效果不再赘述。对于上述实施例中的图6装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤401至步骤403的执行主体可以为设备A；又比如，步骤401和402的执行主体可以为设备A，步骤403的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如401、402等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

图7为本申请实施例提供的一种电子设备的结构示意图。如图7所示，该电子设备包括：存储器71和处理器72；

存储器71，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器71可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random-AccessMemory，SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable read only memory，EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)，可编程只读存储器(Programmable read-only memory，PROM)，只读存储器(Read-Only Memory，ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器72，与存储器71耦合，用于执行存储器71中的计算机程序，以用于：执行页面信息处理方法中的步骤。

进一步，如图7所示，该电子设备还包括：通信组件73、显示器74、电源组件75、音频组件76等其它组件。图7中仅示意性给出部分组件，并不意味着电子设备只包括图7所示组件。另外，图7中虚线框内的组件为可选组件，而非必选组件，具体可视电子设备的产品形态而定。本实施例的电子设备可以实现为台式电脑、笔记本电脑、智能手机或IOT(物联网，Internet of things)设备等终端设备，也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的电子设备实现为台式电脑、笔记本电脑、智能手机等终端设备，可以包含图7中虚线框内的组件；若本实施例的电子设备实现为常规服务器、云服务器或服务器阵列等服务端设备，则可以不包含图7中虚线框内的组件。

关于处理器执行各动作的详细实施过程可参见前述方法实施例或设备实施例中的相关描述，在此不再赘述。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器能够实现上述方法实施例中可由电子设备执行的各步骤。

上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi(WirelessFidelity，无线保真)、2G(2Generation，2代)、3G(3Generation，3代)、4G(4Generation，4代)/LTE(long Term Evolution，长期演进)、5G(5Generation，5代)等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(Near FieldCommunication，NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RadioFrequency Identification，RFID)技术，红外数据协会(The Infrared DataAssociation，IrDA)技术，超宽带(Ultra Wide Band，UWB)技术，蓝牙(Bluetooth，BT)技术和其他技术来实现。

上述显示器包括屏幕，其屏幕可以包括液晶显示器(Liquid Crystal Display，LCD)和触摸面板(Touch Panel，TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理***，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(microphone，MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(Central ProcessingUnit，CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(Random Access Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变化内存(Phase Change RAM，PRAM)、静态随机存取存储器(Static Random-Access Memory，SRAM)、动态随机存取存储器(DynamicRandom Access Memory，DRAM)、其他类型的随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(Digital versatiledisc，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种页面信息处理方法，其特征在于，包括：

展示目标页面，所述目标页面上包括服务信息和第一图标，所述第一图标关联支持多模态数据的AI语言模型；

响应对所述第一图标的第一移动操作，根据所述第一图标被移动到的目标位置，确定所述目标页面中的目标页面区域；

根据所述目标页面区域中包含的表征用户交互意图的至少一种模态的数据，利用所述AI语言模型产生符合所述用户交互意图的会话内容；

在所述目标页面上展示会话界面，并在所述会话界面上展示所述会话内容，以与用户进行会话交互。

2.根据权利要求1所述的方法，其特征在于，响应对所述第一图标的第一移动操作，根据所述第一图标被移动到的目标位置，确定所述目标页面中的目标页面区域，包括：

响应对所述第一图标的第一移动操作，在所述目标页面上移动所述第一图标至所述第一移动操作终止时的目标位置；

在所述目标位置处，控制所述第一图标的可视化属性进行变化，所述可视化属性的变化程度代表自所述目标位置沿设定方向向外覆盖的页面区域的大小；

响应于所述第一移动操作的释放操作，根据所述可视化属性的最终变化程度，获取自所述目标位置沿设定方向向外覆盖的页面区域作为所述目标页面区域。

3.根据权利要求2所述的方法，其特征在于，在所述目标位置处，控制所述第一图标的可视化属性进行变化，包括：

在所述目标位置处，控制所述第一图标的外形尺寸不断进行扩大，直至所述第一移动操作被释放或者达到所述目标位置所属内容区域的边界。

4.根据权利要求2所述的方法，其特征在于，还包括：

在所述第一移动操作被释放情况下，控制所述第一图标以设定的动画效果退出显示。

5.根据权利要求1-4任一项所述的方法，其特征在于，在确定所述目标页面中的目标页面区域后，还包括：

对所述目标页面区域进行截图，以得到目标截图；

根据所述目标位置，对所述目标截图进行多模态数据识别，以得到表征所述用户交互意图的至少一种模态的数据。

6.根据权利要求5所述的方法，其特征在于，根据所述目标位置，对所述目标截图进行多模态数据识别，以得到表征用户交互意图的至少一种模态的数据，包括：

对所述目标截图进行文本识别，得到所述目标截图中的文本内容；

对所述目标截图进行图像分割处理，得到至少一个分割图像；

根据所述目标位置对应的页面信息，确定所述用户交互意图；

根据所述用户交互意图，从所述文本内容和/或所述至少一个分割图像中提取所述至少一种模态的数据。

7.根据权利要求1-4任一项所述的方法，其特征在于，根据所述目标页面区域中包含的表征用户交互意图的至少一种模态的数据，利用所述AI语言模型产生符合所述用户交互意图的会话内容，包括：

根据所述至少一种模态的数据和已有交互场景的描述信息，从所述已有交互场景中确定与所述用户交互意图适配的目标交互场景；

根据所述至少一种模态的数据和目标交互场景，利用所述AI语言模型产生所述目标交互场景下的会话内容。

8.根据权利要求7所述的方法，其特征在于，根据所述至少一种模态的数据和目标交互场景，利用所述AI语言模型产生所述目标交互场景下的会话内容，包括：

根据所述目标交互场景的提示词格式，对所述至少一种模态的数据进行组装，以得到提示词；

将所述提示词输入所述AI语言模型，以利用所述AI语言模型产生所述目标交互场景下的会话内容。

9.根据权利要求1-4任一项所述的方法，其特征在于，在所述会话界面上展示所述会话内容之后，还包括：

响应用户通过所述会话界面中的交互组件输入的会话交互信息，利用所述AI语言模型产生对应的会话响应信息，并将所述会话响应信息展示在所述会话界面中。

10.根据权利要求5所述的方法，其特征在于，在得到表征用户交互意图的至少一种模态的数据后，还包括：

确定所述至少一种模态的数据对应的动画效果描述数据；

根据所述动画效果描述数据，为所述至少一种模态的数据添加对应的动画效果。

11.根据权利要求1-4任一项所述的方法，其特征在于，所述目标页面上还包括：标识所述AI语言模型的第二图标；在响应对所述第一图标的第一移动操作之前，还包括：

响应于对所述第一图标的第二移动操作，控制所述第一图标向所述第二图标移动；

当所述第一图标与所述第二图标之间的距离达到设定的唤醒距离时，唤醒所述AI语言模型。

12.一种页面信息处理装置，其特征在于，包括：

展示模块，用于展示目标页面，所述目标页面上包括服务信息和第一图标，所述第一图标关联支持多模态数据的AI语言模型；

确定模块，用于响应对所述第一图标的第一移动操作，根据所述第一图标被移动到的目标位置，确定所述目标页面中的目标页面区域；

生成模块，用于根据所述目标页面区域中包含的表征用户交互意图的至少一种模态的数据，利用所述AI语言模型产生符合所述用户交互意图的会话内容；

所述展示模块还用于：在所述目标页面上展示会话界面，并在所述会话界面上展示所述会话内容，以与用户进行会话交互。

13.一种电子设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器耦合至所述存储器，用于执行所述计算机程序以用于执行权利要求1-11任一项所述方法中的步骤。

14.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器能够实现权利要求1-11任一项所述方法中的步骤。