CN112115325B - 场景类别的确定方法和场景分析模型的训练方法、装置 - Google Patents
场景类别的确定方法和场景分析模型的训练方法、装置 Download PDFInfo
- Publication number
- CN112115325B CN112115325B CN201910537822.6A CN201910537822A CN112115325B CN 112115325 B CN112115325 B CN 112115325B CN 201910537822 A CN201910537822 A CN 201910537822A CN 112115325 B CN112115325 B CN 112115325B
- Authority
- CN
- China
- Prior art keywords
- scene
- user
- sample
- data
- analysis model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000012549 training Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 10
- 230000003993 interaction Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 15
- 238000002360 preparation method Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例公开了一种场景类别的确定方法和场景分析模型的训练方法、装置,其中,场景类别的确定方法包括:在预设时间段内,获取用户对应的用户画像和所述用户所处场景的相关数据信息;基于所述用户画像和所述相关数据信息,获得场景数据序列;基于所述场景分析模型对所述场景数据序列进行处理,获得在所述预设时间段内所述用户所处场景的场景类别;本公开实施例在确定场景类别的过程中,除了应用到相关数据信息还应用了用户画像,由于用户画像体现了的年龄、性别、地域、用户偏好等信息,有助于更准确的识别用户意图,将用户画像作为先验知识运用于多模交互场景,增加了有益于分类的特征,提高了场景分类的准确率。
Description
技术领域
本公开涉及场景分类技术,尤其是一种场景类别的确定方法和场景分析模型的训练方法、装置。
背景技术
传统的车载交互***,基于命令和选择的交互方式,多模交互***是基于场景,基于场景的交互***可以理解当前处于什么场景,当前用户是谁,用户处于什么样的状态。
目前车载多模态场景分类技术,基本都是使用了实时的传入车载交互***的多模态信息,没有利用一些客观事实,历史信息等。
发明内容
为了解决上述没有利用客观事实及历史信息的技术问题,提出了本公开。本公开的实施例提供了一种场景类别的确定方法和场景分析模型的训练方法、装置。
根据本公开实施例的一个方面,提供了一种场景类别的确定方法,包括:
在预设时间段内,获取用户对应的用户画像和所述用户所处场景的相关数据信息;
基于所述用户画像和所述相关数据信息,获得场景数据序列;
基于所述场景分析模型对所述场景数据序列进行处理,获得在所述预设时间段内所述用户所处场景的场景类别。
根据本公开实施例的另一方面,提供了一种场景分析模型的训练方法,包括:
基于多个样本用户画像和多个样本数据帧确定多个样本场景数据序列;
将所述多个样本场景数据序列输入场景分析模型,获得场景预测类别;
基于所述场景预测类别和所述样本场景数据序列对应的标注场景类别训练所述场景分析模型。
根据本公开实施例的又一方面,提供了一种场景分析装置,包括:
信息获取模块,用于在预设时间段内,获取用户对应的用户画像和所述用户所处场景的相关数据信息;
信息合并模块,用于基于所述信息获取模块获取的所述用户画像和所述相关数据信息,获得场景数据序列;
场景分类模块,用于基于所述场景分析模型对所述信息合并模块获得的场景数据序列进行处理,获得在所述预设时间段内所述用户所处场景的场景类别。
根据本公开实施例的还一方面,提供了一种场景分析模型的训练装置,包括:
样本确定模块,用于基于多个样本用户画像和多个样本数据帧确定多个样本场景数据序列;
场景预测模块,用于将所述样本确定模块确定的多个样本场景数据序列输入场景分析模型,获得场景预测类别;
模型训练模块,用于基于所述场景预测模块获得的场景预测类别和所述样本场景数据序列对应的标注场景类别训练所述场景分析模型。
根据本公开实施例的再一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述实施例提供的场景类别的确定方法,或者用于执行上述实施例提供的场景分析模型的训练方法。
根据本公开实施例的再一方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行上述实施例提供的场景类别的确定方法,或者执行上述实施例提供的场景分析模型的训练方法。
基于本公开上述实施例提供的一种场景类别的确定方法和场景分析模型的训练方法、装置,在预设时间段内,获取用户对应的用户画像和所述用户所处场景的相关数据信息;基于所述用户画像和所述相关数据信息,获得场景数据序列;基于所述场景分析模型对所述场景数据序列进行处理,获得在所述预设时间段内所述用户所处场景的场景类别;本公开实施例在确定场景类别的过程中,除了应用到相关数据信息还应用了用户画像,由于用户画像体现了的年龄、性别、地域、用户偏好等信息,有助于更准确的识别用户意图,将用户画像作为先验知识运用于多模交互场景,增加了有益于分类的特征,提高了场景分类的准确率。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为本公开涉及到的场景分析模型的一个结构示意图。
图2是本公开实施例涉及到的数据准备方法的流程示意图。
图3为本公开经过图2的数据准备方法获得的训练集结构示意图。
图4是本公开一些实施例中应用场景分析模型进行预测场景类别的流程示意图。
图5是本公开一示例性实施例提供的场景类别的确定方法的流程示意图。
图6是本公开图5所示的实施例中步骤502的一个流程示意图。
图7是本公开图5所示的实施例中步骤503的一个流程示意图。
图8是本公开一示例性实施例提供的场景分析模型的训练方法的流程示意图。
图9是本公开另一示例性实施例提供的场景分析模型的训练方法的流程示意图。
图10是本公开图9所示的实施例中步骤902的一个流程示意图。
图11是本公开一示例性实施例提供的场景类别的确定装置的结构示意图。
图12是本公开另一示例性实施例提供的场景类别的确定装置的结构示意图。
图13是本公开一示例性实施例提供的场景分析模型的训练装置的结构示意图。
图14是本公开另一示例性实施例提供的场景分析模型的训练装置的结构示意图。
图15是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机***、服务器等电子设备,其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/ 或配置的例子包括但不限于:个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境,等等。
终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算***存储介质上。
申请概述
在实现本公开的过程中,发明人发现,现有技术中提供的多模态场景分类技术,仅应用了实时的传入交互***(例如,车载传入交互***等)的多模态信息实现对场景的分类,该多模态场景分类方法至少存在一个问题:没有利用一些客观事实,历史信息,无法识别用户意图。
示例性***
本公开提供的***包括两个部分:场景分析模型的训练过程和场景分析模型的预测过程。
图1为本公开涉及到的场景分析模型的一个结构示意图。如图1所示,在该实施例中场景分析模型为长短期记忆网络(Long Short-Term Memory,LSTM), LSTM属于循环神经网络的一种,该实施例提供的场景分析模型中包括多个 LSTM单元,每个LSTM单元接收序列中的一个数据,通过最后一个LSTM单元输出场景分类标签(label)。
在对场景分析模型进行训练之前,还包括:数据准备过程,图2是本公开实施例涉及到的数据准备过程的流程示意图。如图2所示,数据准备过程包括:步骤201,通过收集用户历史行为数据和一些个人信息特征数据,以及车载多模态信息建立数据仓储;步骤202,从数据仓储中抽取出用户对应的标签化的用户画;步骤203,对标签化的用户画像进行向量化,如,通过对类别特征(如:性别,学历等)进行编码实现向量化,如类别特征有8种取值,那么可以使用长度为 log28=3的二进制向量表示学历,以对性别进行编码为例:其中,性别包括男、女两种,可以利用一位二进制向量进行编码表示,例如,用向量[0]表示性别男、向量[1]表示性别女,其他类别特征的向量化类似;步骤204,从数据仓储中抽取出用户对应的车载多模态信息;步骤205,将向量化的用户画像和多模态信息连接起来作为LSTM一个时间步的输入帧,以下简称帧,具体通过将具有相同的用户标识(userid)用户画像和多模态信息进行合并,实现获得一个帧,合并的方法,例如:将用户画像追加在多模态信息后,以连续多帧作为一个输入序列,将合并获得的所有序列坐标训练集中的特征;步骤206,作为有监督的分类方法,需要根据产品的定义对场景类别进行标注,标注输入序列对应的场景的类别,作为训练集数据中的标签(labels),具体标注方法,可以根据产品定义对数据仓库中用户多模数据标注场景,例如,场景类别包括:“迎宾场景”、“疲劳驾驶场景”、“打电话场景”等;步骤207,合并特征及其对应的标签作为训练集。获得的训练集如图3所示,图3为本公开经过图2的数据准备方法获得的训练集结构示意图。其中第一行为训练集中的第一个序列(包括T0_input、T1_input、 T2_input……TN_input)及其对应的场景标签(label0),T0_input表示T0时刻输入多模态数据和用户画像合并的特征,TN_input表示第一序列的最后一个时间步输入的特征,第二行为训练集中的第二个序列(包括T1_input、T2_input、 T3_input……TN+1_input)及其对应的场景标签(label1),依次类推,训练集中包括多个序列,每个序列中包括N个帧,并且,每个序列对应一个作为监督信息的场景标签。
场景分析模型的训练过程包括:将获得的训练集中每个序列输入到场景分析模型中,通过场景分析模型得到分别对应每个序列的预测场景标签,基于预测场景标签和每个序列对应的监督信息的场景标签获得场景分析模型的损失,以该损失对场景分析模型进行训练。
以在车机端上运行为例,图4是本公开一些实施例中应用场景分析模型进行预测场景类别的流程示意图。如图4所示,该预测场景类别的过程包括:步骤401,车载摄像头获取用户的人脸图像,通过云端或车机端存储的人脸标识(face id) 识别出用户的人脸标识;步骤402,通过人脸标识从云端获得该用户的向量化的用户画像,对于新用户可以通过人脸识别出性别、年龄等信息作为用户画像的一部分最终上传到云端;步骤403,通过车载感知器获取多模态信息(例如,包括图像、语音、车体、第三方应用等的状态信息);步骤404,对多模态信息合并规整后得到多模的数据帧;步骤405,通过用户画像和当前车载多模态信息构造输入,例如,将数据帧和用户画像合并作为一个时间步的输入,将N时间步作为一个输入序列;步骤406,将输入序列输入到场景分析模型中;步骤407,通过场景分析模型预测当前处于的场景,输出场景类别;本实施例中,还可以,基于输出的场景类别给出安全舒适的反馈,例如,行动列表(action list),通过执行行动列表中的行为以实现提供安全舒适的反馈。
示例性方法
图5是本公开一示例性实施例提供的场景类别的确定方法的流程示意图。本实施例可应用在电子设备或车载设备上,如图5所示,包括如下步骤:
步骤501,在预设时间段内,获取用户对应的用户画像和用户所处场景的相关数据信息。
其中,用户画像包括用户的性别、学历等特征。其中,用户所处场景的相关数据信息可通过车载感知器获取,例如,包括图像、语音、车体、第三方应用等的状态信息。
步骤502,基于用户画像和相关数据信息,获得场景数据序列。
在一实施例中,场景数据序列包括多个数据帧,可选地,通过合并用户画像和相关数据信息得到场景数据序列,或者对用户画像和相关数据信息进行微调之后,得到的场景数据序列。
步骤503,基于场景分析模型对场景数据序列进行处理,获得在预设时间段内用户所处场景的场景类别。
例如,用户所处场景的场景类别可以包括但不限于:“迎宾场景”,“疲劳驾驶场景”,“打电话场景”等等。
基于本公开上述实施例提供的一种场景类别的确定方法,在预设时间段内,获取用户对应的用户画像和所述用户所处场景的相关数据信息;基于所述用户画像和所述相关数据信息,获得场景数据序列;基于所述场景分析模型对所述场景数据序列进行处理,获得在所述预设时间段内所述用户所处场景的场景类别;本公开实施例在确定场景类别的过程中,除了应用到相关数据信息还应用了用户画像,由于用户画像体现了的年龄、性别、地域、用户偏好等信息,有助于更准确的识别用户意图,将用户画像作为先验知识运用于多模交互场景,增加了有益于分类的特征,提高了场景分类的准确率。
在一些可选的实施例中,在上述步骤502之前,还包括:
对用户所处场景的相关数据信息进行时钟对齐;
基于预设时间段内包括的多个时刻中每个时刻对齐后的相关数据信息确定一个数据帧,获得多个时刻对应的多个数据帧。
本实施例中,为了去除由于信息采集过程中的延时产生的误差,本实施例在获取到图像、语音、车体、第三方应用等的状态信息之后,需要进行同步,具体地,本实施例通过时钟对齐使相同时刻对应的多种相关信息构成一个数据帧,去除了采集的多种用户所处场景的相关数据信息之间由于延时产生的误差。
如图6所示,在上述图5所示实施例的基础上,在该实施例中用户画像包括向量化表示的多个用户标签,步骤502可包括如下步骤:
步骤5021,将向量化表示的多个用户标签分别与预设时间段内包括的多个时刻对应的多个数据帧进行合并。
其中,向量化表示的用户标签可以通过如图2中步骤203所示的向量化获得,如,通过对类别特征(如:性别,学历等)进行编码实现向量化,例如,编码为二进制向量。
步骤5022,基于对应多个时刻的多个场景数据,确定场景数据序列。
本实施例通过将将多个时刻中每个时刻对应的向量化表示的用户标签与数据帧进行合并,获得多个场景数据,该场景数据可对应上述图4中对应的步骤405 中的时间步,将多个(如,图4实施例中的N个)时间步作为一个输入序列,即,本实施例中的场景数据序列。本实施例获得的场景数据序列的结构满足循环神经网络的输入需求,通过将本实施例获得的场景数据序列输入到场景分析模型,即可获得对应多个时刻构成的时间段中用户所处的场景类别。
如图7所示,在上述图5所示实施例的基础上,步骤503可包括如下步骤:
步骤5031,将场景数据序列输入场景分析模型中。
步骤5032,基于场景分析模型对用户在预设时间段内所处的场景进行分类,获得场景类别。
可选地,获得的场景类别可以包括例如“迎宾场景”,“疲劳驾驶场景”,“打电话场景”等包括用户参与的场景,本申请实施例通过场景分析模型实现基于深度学习的方法,结合用户画像作为先验知识,使应用场景分析模型获得的分类结果更准确,有利于更准确的识别用户意图,还可以针对获得的场景类别执行相应的操作,以提高用户体验。
可选地,场景分析模型为循环神经网络。
本实施例中,场景分析模型的结构可以选择如图1所示的结构,图1所示的长短期记忆网络为循环神经网络的一种,其输入为一个序列,并通过最后一个 LSTM单元输出场景分类标签(label),由于用户的一些行为,通过单个时间点无法判断,例如,打瞌睡场景,不能基于单个时间点的闭眼睛来判断,因为单个时间点的闭眼睛有可能是正常的眨眼;因此,本实施例利用循环神经网络的输入可以为多个时间步,实现对设定时间段内用户对应的场景类别的进行预测,提高了场景类别确定的准确率。
图8是本公开一示例性实施例提供的场景分析模型的训练方法的流程示意图。本实施例可应用在电子设备上,如图8所示,包括如下步骤:
步骤801,基于多个样本用户画像和多个样本数据帧确定多个样本场景数据序列。
可选地,可应用上述图2提供的实施例来实现获取多个样本场景数据序列,可选地,该实施例中的多个样本场景数据序列可以为图3中所示的训练集中的部分或全部序列。
步骤802,将多个样本场景数据序列输入场景分析模型,获得场景预测类别。
可选地,可以将多个样本场景数据序列同时或按序输入场景分析模型,通过场景分析模型输出分别对应多个样本场景数据序列的多个场景预测类别。
步骤803,基于场景预测类别和样本场景数据序列对应的标注场景类别训练场景分析模型。
本实施例通过样本场景数据序列对应的标注场景类别作为监督信息,该标注场景类别可以如图3所示的训练集中每个序列中对应的场景标签,通过场景预测类别和样本场景数据序列对应的标注场景类别之间的差异平均场景分析模型的性能,并可利用该差异对场景分析模型进行训练,使训练后的模型对场景类别的分类预测更准确。
可选地,样本用户画像包括向量化表示的多个用户标签。
在一些可选实施例中,步骤801可包括:针对每个样本用户画像,将向量化表示的多个用户标签和多个样本数据帧进行合并,获得多个样本场景数据;基于多个样本场景数据确定多个样本场景数据序列。
可选地,可如图2所示的实施例中的步骤204,从数据仓储中抽取连续的多模态数据帧。将相同的用户标识的用户画像追加在多模数据帧之后,合并作为训练集的特征。获得的训练集可如图3所示。T0_input表示T0时刻输入多模态数据和用户画像合并的特征,TN_input表示第一序列的最后一个时间步输入的特征, label0表示这个序列对应的场景标签。下一个序列从T1_input开始到TN+1_input 表示一个新的序列,label1表示这个序列的场景标签。
如图9所示,在上述图8所示实施例的基础上,还包括:
步骤901,从数据库中获取连续时间内包括的多个时刻对应的场景的多种相关数据信息,以及场景中包括的用户对应的多个用户标签。
步骤902,对多个用户标签进行向量化处理获得多个样本用户画像。
可选地,可通过上述图2所示实施例中提供的步骤203中的方法实现对用户标签进行向量化,将同一用户的多个向量化的标签连接,即可作为该用户的样本用户画像。
步骤903,基于场景的多种相关数据信息获得多个样本数据帧。
可选地,可基于卷积神经网络对获取的图像提取特征,获得图像特征向量;对采集的语音信号分析为文字内容,文字内容用句子向量来表示,句子向量为句子中每个词的词向量相加取平均值,其中,每个词的词向量是由词向量模型训练后得到的,常用的词向量模型包括word2vec、BERT等,本实施例不限制具体获得词向量的词向量模型。
本实施例通过收集用户历史行为数据和一些个人信息特征数据,得到该用户标签化的样本用户画像,还基于场景的多种相关数据信息获得多个样本数据帧,实现了样本数据的准备工作,可对应图2提供的数据准备的实施例中的步骤202 到步骤204,为后续获得用于训练的多个样本场景数据序列提供了数据基础,解决了样本数据来源问题。
如图10所示,在上述图9所示实施例的基础上,步骤902可包括如下步骤:
步骤9021,分别对多个用户标签中每个用户标签包括的类别数量进行二进制编码,获得每个用户标签对应的标签向量。
可选地,针对每个用户标签,其对应多个类别,例如,性别标签包括男、女两种类别,可利用上述图2所示的步骤203提供的二进制向量编码方式分别对每个用户标签进行编码,获得多个标签向量。
步骤9022,连接用户对应的多个用户标签对应的标签向量,获得样本用户画像。
本实施例中,通过连接用户对应的多个用户标签对应的标签向量,实现了通过向量对用户的历史信息和意图通过向量进行表示,获得的样本用户向量实现了对每个用户有针对性的描述,因此,通过结合该样本用户画像训练的场景分析模型对的场景类别的确定结合了对用户意图的识别,该场景分析模型的分类准确率更高。
可选地,场景分析模型为循环神经网络。
本实施例中,场景分析模型的结构可以选择如图1所示的结构,图1所示的长短期记忆网络为循环神经网络的一种,其输入为一个序列,并通过最后一个 LSTM单元输出场景分类标签(label),由于用户的一些行为,通过单个时间点无法判断,例如,打瞌睡场景,不能基于单个时间点的闭眼睛来判断,因为单个时间点的闭眼睛有可能是正常的眨眼;因此,本实施例利用循环神经网络的输入可以为多个时间步,实现对设定时间段内用户对应的场景类别的进行预测,提高了场景类别确定的准确率。
本公开实施例提供的任一种场景类别的确定方法或场景分析模型的训练方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种场景类别的确定方法或场景分析模型的训练方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种场景类别的确定方法或场景分析模型的训练方法。下文不再赘述。
示例性装置
图11是本公开一示例性实施例提供的场景类别的确定装置的结构示意图。本实施例提供的装置包括:
信息获取模块111,用于在预设时间段内,获取用户对应的用户画像和所述用户所处场景的相关数据信息。
信息合并模块112,用于基于信息获取模块111获取的用户画像和相关数据信息,获得场景数据序列。
场景分类模块113,用于基于场景分析模型对信息合并模块112获得的场景数据序列进行处理,获得在预设时间段内用户所处场景的场景类别。
基于本公开上述实施例提供的一种场景类别的确定装置,在预设时间段内,获取用户对应的用户画像和所述用户所处场景的相关数据信息;基于所述用户画像和所述相关数据信息,获得场景数据序列;基于所述场景分析模型对所述场景数据序列进行处理,获得在所述预设时间段内所述用户所处场景的场景类别;本公开实施例在确定场景类别的过程中,除了应用到相关数据信息还应用了用户画像,由于用户画像体现了的年龄、性别、地域、用户偏好等信息,有助于更准确的识别用户意图,将用户画像作为先验知识运用于多模交互场景,增加了有益于分类的特征,提高了场景分类的准确率。
图12是本公开另一示例性实施例提供的场景类别的确定装置的结构示意图。本实施例提供的装置还包括:
时钟对齐模块121,用于对用户所处场景的相关数据信息进行时钟对齐。
数据帧获得模块122,用于基于预设时间段内包括的多个时刻中每个时刻对齐后的相关数据信息确定一个数据帧,获得多个时刻对应的多个数据帧。
在本实施例中,用户画像包括向量化表示的多个用户标签,对应的,信息合并模块112,包括:
信息合并单元1121,用于将向量化表示的多个用户标签分别与预设时间段内包括的多个时刻对应的多个数据帧进行合并。
序列确定单元1122,用于基于对应多个时刻的多个场景数据,确定场景数据序列。
在本实施例中,场景分类模块113,具体用于将场景数据序列输入场景分析模型中;基于场景分析模型对用户在预设时间段内所处的场景进行分类,获得场景类别。
可选地,本实施例中场景分析模型为循环神经网络。
图13是本公开一示例性实施例提供的场景分析模型的训练装置的结构示意图。本实施例提供的装置包括:
样本确定模块131,用于基于多个样本用户画像和多个样本数据帧确定多个样本场景数据序列。
场景预测模块132,用于将样本确定模块确定的多个样本场景数据序列输入场景分析模型,获得场景预测类别。
模型训练模块133,用于基于场景预测模块获得的场景预测类别和样本场景数据序列对应的标注场景类别训练场景分析模型。
本实施例通过样本场景数据序列对应的标注场景类别作为监督信息,该标注场景类别可以如图3所示的训练集中每个序列中对应的场景标签,通过场景预测类别和样本场景数据序列对应的标注场景类别之间的差异平均场景分析模型的性能,并可利用该差异对场景分析模型进行训练,使训练后的模型对场景类别的分类预测更准确。
图14是本公开另一示例性实施例提供的场景分析模型的训练装置的结构示意图。在本实施例中,样本用户画像包括向量化表示的多个用户标签;对应的,样本确定模块131,包括:
数据合并单元1311,用于针对每个样本用户画像,将向量化表示的多个用户标签和多个样本数据帧进行合并,获得多个样本场景数据。
样本序列确定单元1312,用于基于多个样本场景数据确定多个样本场景数据序列。
本实施例提供的装置,在样本确定模块131之前,还包括:
信息获取模块141,用于从数据库中获取连续时间内包括的多个时刻对应的场景的多种相关数据信息,以及场景中包括的用户对应的多个用户标签。
向量化模块142,用于对多个用户标签进行向量化处理获得多个样本用户画像。
样本数据帧获取模块143,用于基于场景的多种相关数据信息获得多个样本数据帧。
可选地,向量化单元142,具体用于分别对多个用户标签中每个用户标签包括的类别数量进行二进制编码,获得每个用户标签对应的标签向量;连接用户对应的多个用户标签对应的标签向量,获得样本用户画像。
可选地,本实施例中场景分析模型为循环神经网络。
示例性电子设备
下面,参考图15来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图15图示了根据本公开实施例的电子设备的框图。
如图15所示,电子设备150包括一个或多个处理器151和存储器152。
处理器151可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备150中的其他组件以执行期望的功能。
存储器152可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器 (cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器151可以运行所述程序指令,以实现上文所述的本公开的各个实施例的场景类别的确定方法或场景分析模型的训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备150还可以包括:输入装置153和输出装置154,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置153可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置153可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
此外,该输入设备153还可以包括例如键盘、鼠标等等。
该输出装置154可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备154可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图15中仅示出了该电子设备150中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备150还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的场景类别的确定方法或场景分析模型的训练方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的场景类别的确定方法或场景分析模型的训练方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (13)
1.一种场景类别的确定方法,包括:
在预设时间段内,获取用户对应的用户画像和所述用户所处场景的相关数据信息;所述用户画像包括向量化表示的多个用户标签;
基于所述用户画像和所述相关数据信息,获得场景数据序列;通过合并所述用户画像和所述相关数据信息得到场景数据序列;
基于场景分析模型对所述场景数据序列进行处理,获得在所述预设时间段内所述用户所处场景的场景类别。
2.根据权利要求1所述的方法,其中,在基于所述用户画像和所述相关数据信息,获得场景数据序列之前,还包括:
对所述用户所处场景的相关数据信息进行时钟对齐;
基于所述预设时间段内包括的多个时刻中每个时刻对齐后的相关数据信息确定一个数据帧,获得所述多个时刻对应的多个数据帧。
3.根据权利要求2所述的方法,其中,所述基于所述用户画像和所述相关数据信息,获得场景数据序列,包括:
将所述向量化表示的多个用户标签分别与所述预设时间段内包括的多个时刻对应的多个数据帧进行合并;
基于对应所述多个时刻的多个场景数据,确定场景数据序列。
4.根据权利要求3所述的方法,其中,所述基于所述场景分析模型对所述场景数据序列进行处理,获得在所述预设时间段内所述用户所处场景的场景类别,包括:
将所述场景数据序列输入所述场景分析模型中;
基于所述场景分析模型对所述用户在所述预设时间段内所处的场景进行分类,获得所述场景类别。
5.根据权利要求1-4任一所述的方法,其中,所述场景分析模型为循环神经网络。
6.一种场景分析模型的训练方法,包括:
基于多个样本用户画像和多个样本数据帧确定多个样本场景数据序列;所述样本用户画像包括向量化表示的多个用户标签;
将所述多个样本场景数据序列输入场景分析模型,获得场景预测类别;
基于所述场景预测类别和所述样本场景数据序列对应的标注场景类别训练所述场景分析模型;
所述基于多个样本用户画像和多个样本数据帧确定多个样本场景数据序列,包括:
针对每个所述样本用户画像,将所述向量化表示的多个用户标签和多个样本数据帧进行合并,获得多个样本场景数据;
基于所述多个样本场景数据确定多个样本场景数据序列。
7.根据权利要求6所述的方法,在基于多个样本用户画像和多个样本数据帧确定多个样本场景数据序列之前,还包括:
从数据库中获取连续时间内包括的多个时刻对应的场景的多种相关数据信息,以及所述场景中包括的用户对应的多个用户标签;
对所述多个用户标签进行向量化处理获得多个样本用户画像;
基于所述场景的多种相关数据信息获得多个样本数据帧。
8.根据权利要求7所述的方法,其中,所述对所述多个用户标签进行向量化处理获得多个样本用户画像,包括:
分别对所述多个用户标签中每个用户标签包括的类别数量进行二进制编码,获得所述每个用户标签对应的标签向量;
连接所述用户对应的多个用户标签对应的标签向量,获得所述样本用户画像。
9.根据权利要求6-8任一所述的方法,其中,所述场景分析模型为循环神经网络。
10.一种场景类别的确定装置,包括:
信息获取模块,用于在预设时间段内,获取用户对应的用户画像和所述用户所处场景的相关数据信息;所述用户画像包括向量化表示的多个用户标签;
信息合并模块,用于基于所述信息获取模块获取的所述用户画像和所述相关数据信息,获得场景数据序列;所述信息合并模块,具体用于通过合并所述用户画像和所述相关数据信息得到场景数据序列;
场景分类模块,用于基于场景分析模型对所述信息合并模块获得的场景数据序列进行处理,获得在所述预设时间段内所述用户所处场景的场景类别。
11.一种场景分析模型的训练装置,包括:
样本确定模块,用于基于多个样本用户画像和多个样本数据帧确定多个样本场景数据序列;所述样本用户画像包括向量化表示的多个用户标签;
场景预测模块,用于将所述样本确定模块确定的多个样本场景数据序列输入场景分析模型,获得场景预测类别;
模型训练模块,用于基于所述场景预测模块获得的场景预测类别和所述样本场景数据序列对应的标注场景类别训练所述场景分析模型;
所述样本确定模块包括:数据合并单元,用于针对每个所述样本用户画像,将所述向量化表示的多个用户标签和多个样本数据帧进行合并,获得多个样本场景数据;
样本序列确定单元,用于基于所述多个样本场景数据确定多个样本场景数据序列。
12.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-5任一所述的场景类别的确定方法,或者用于执行上述权利要求6-9任一所述的场景分析模型的训练方法。
13.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行上述权利要求1-5任一所述的场景类别的确定方法,或者执行上述权利要求6-9任一所述的场景分析模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910537822.6A CN112115325B (zh) | 2019-06-20 | 2019-06-20 | 场景类别的确定方法和场景分析模型的训练方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910537822.6A CN112115325B (zh) | 2019-06-20 | 2019-06-20 | 场景类别的确定方法和场景分析模型的训练方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115325A CN112115325A (zh) | 2020-12-22 |
CN112115325B true CN112115325B (zh) | 2024-05-10 |
Family
ID=73795970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910537822.6A Active CN112115325B (zh) | 2019-06-20 | 2019-06-20 | 场景类别的确定方法和场景分析模型的训练方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115325B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116933419B (zh) * | 2023-07-18 | 2024-02-20 | 常州润来科技有限公司 | 基于工艺分析的精密铜管性能评估方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710847A (zh) * | 2018-05-15 | 2018-10-26 | 北京旷视科技有限公司 | 场景识别方法、装置及电子设备 |
CN108898174A (zh) * | 2018-06-25 | 2018-11-27 | Oppo(重庆)智能科技有限公司 | 一种场景数据采集方法、场景数据采集装置及电子设备 |
CN108921096A (zh) * | 2018-06-29 | 2018-11-30 | 北京百度网讯科技有限公司 | 时间跟踪方法、装置、设备及计算机可读介质 |
CN109101931A (zh) * | 2018-08-20 | 2018-12-28 | Oppo广东移动通信有限公司 | 一种场景识别方法、场景识别装置及终端设备 |
CN109658928A (zh) * | 2018-12-06 | 2019-04-19 | 山东大学 | 一种家庭服务机器人云端多模态对话方法、装置及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10515275B2 (en) * | 2017-11-17 | 2019-12-24 | Adobe Inc. | Intelligent digital image scene detection |
-
2019
- 2019-06-20 CN CN201910537822.6A patent/CN112115325B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710847A (zh) * | 2018-05-15 | 2018-10-26 | 北京旷视科技有限公司 | 场景识别方法、装置及电子设备 |
CN108898174A (zh) * | 2018-06-25 | 2018-11-27 | Oppo(重庆)智能科技有限公司 | 一种场景数据采集方法、场景数据采集装置及电子设备 |
CN108921096A (zh) * | 2018-06-29 | 2018-11-30 | 北京百度网讯科技有限公司 | 时间跟踪方法、装置、设备及计算机可读介质 |
CN109101931A (zh) * | 2018-08-20 | 2018-12-28 | Oppo广东移动通信有限公司 | 一种场景识别方法、场景识别装置及终端设备 |
CN109658928A (zh) * | 2018-12-06 | 2019-04-19 | 山东大学 | 一种家庭服务机器人云端多模态对话方法、装置及*** |
Also Published As
Publication number | Publication date |
---|---|
CN112115325A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112164391B (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN110516737B (zh) | 用于生成图像识别模型的方法和装置 | |
CN111966800B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN111916061B (zh) | 语音端点检测方法、装置、可读存储介质及电子设备 | |
CN113705315B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN108628868B (zh) | 文本分类方法和装置 | |
CN114038457B (zh) | 用于语音唤醒的方法、电子设备、存储介质和程序 | |
CN110929505B (zh) | 房源标题的生成方法和装置、存储介质、电子设备 | |
CN114298121A (zh) | 基于多模态的文本生成方法、模型训练方法和装置 | |
CN117079299B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN116564338B (zh) | 语音动画生成方法、装置、电子设备和介质 | |
CN115713797A (zh) | 训练感情识别模型的方法、感情识别方法及装置 | |
CN116127060A (zh) | 一种基于提示词的文本分类方法及*** | |
CN112115325B (zh) | 场景类别的确定方法和场景分析模型的训练方法、装置 | |
CN116543798A (zh) | 基于多分类器的情感识别方法和装置、电子设备、介质 | |
Saleem et al. | DeepCNN: spectro‐temporal feature representation for speech emotion recognition | |
CN113360630B (zh) | 交互信息提示方法 | |
CN115527520A (zh) | 异常检测方法、装置、电子设备和计算机可读存储介质 | |
CN114201595A (zh) | 对话中的句子推荐方法和装置、存储介质、电子设备 | |
CN112214626B (zh) | 图像识别方法、装置、可读存储介质及电子设备 | |
CN113722496B (zh) | 一种三元组抽取方法、装置、可读存储介质及电子设备 | |
CN111966721B (zh) | 数据处理方法、装置、计算机可读存储介质及电子设备 | |
CN111626191B (zh) | 模型生成方法、装置、计算机可读存储介质及电子设备 | |
CN116092485A (zh) | 语音识别模型的训练方法及装置、语音识别方法及装置 | |
CN115906798A (zh) | 文本匹配、文本匹配模型训练、文本预测方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |