CN114863093B

CN114863093B - 基于眼动技术的神经网络训练方法及建筑设计方法和***

Info

Publication number: CN114863093B
Application number: CN202210603543.7A
Authority: CN
Inventors: 邱鲤鲤; 刘佳桐; 王珍珍; 陈兆其; 李梅; 李君楠
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2024-05-31
Anticipated expiration: 2042-05-30
Also published as: CN114863093A

Abstract

本发明公开了基于眼动技术的神经网络训练方法及建筑设计方法和***，本方案通过将建筑立面图和对应不同人口学信息下的眼动数据作为训练数据，经训练所得的第一神经网络可用于预测不同人口学信息下的人员对建筑立面图的注意热点、视觉焦点和眼动轨迹，这些数据可用于建筑设计辅助，起到关注重心辅助定位的效果，以使得建筑设计人员能够对人们着重关注的区域进行更为精细化地设计，本方案还通过第二训练数据包训练第二神经网络，第二神经网络可深入应用到具有留白区域的建筑立面图设计中，为建筑设计提供人性化、灵活化的辅助，本方案不仅实施可靠、且神经网络训练的数据来源广泛，经训练至收敛后的模型，在建筑设计辅助中具有较好的应用推广前景。

Description

基于眼动技术的神经网络训练方法及建筑设计方法和***

技术领域

本发明涉及视觉技术、建筑设计及神经网络辅助设计领域，尤其涉及基于眼动技术的神经网络训练方法及建筑设计方法和***。

背景技术

随着神经网络(AI)技术的广泛应用，在建筑设计领域中，已经有一些辅助设计软件引入了AI算法为设计者提供参考建议服务，其主要是基于AI自动生成建筑排布方案。由于建筑师在进行建筑排布时，往往需要遵循行业知识来设计；而这种设计背后有一套逻辑规则支撑，因此引入AI技术，学习这套逻辑规则，在模型训练至收敛后，可以用于提供自动生成建筑排布方案建议；具体来说，时下大部分AI神经网络的算法训练就是将来自现实世界的信息映射到量化数据中，找到它们之间的联系，总结并应用规则，从而基于训练数据形成针对不同场景的神经网络。

目前，在人工智能和大数据的时代下，计算机通过构建机器学习模型来拟合设计规则，然后将经过训练的模型应用于新设计的生成的文献报道日益增加。虽然计算机能够通过对大量建筑图纸进行学习以及分析，并且也考虑了经济、科学、舒适等指标，但始终缺乏对建筑设计的感性理解，主要是少了一层对于人的感知的理解。随着建筑设计实践走向人本化和精细化，建筑师和规划师迫切地需要更多手段和方法，深入了解人是如何感知环境，环境又是如何影响人，从而指导建筑师的设计。由于人的感知主要反应在人的视觉行为当中。因此，进行眼动实验可以精确地记录人类微妙的眼动行为。结合眼动技术对人类视觉行为的研究，表征人对场所的感知程度，再通过跟数据分析领域的新算法相结合，可以对建成环境当中的环境要素的相互关系取得更加深入的解析，从而为城市设计在设计开展、方案评估等方面带来新的可能。

若是能够将眼动技术引入到建筑辅助设计的神经网络训练中，通过对不同人口学信息所对有的数据进行整合，来实现神经网络的准确率和可靠性，那么对其应用于建筑设计辅助的助力将是显而易见的，同时也对AI介入建筑设计提供了积极的现实意义。

发明内容

有鉴于此，本发明的目的在于提出一种实施可靠、操作灵活且响应效率高和人性化的基于眼动技术的神经网络训练方法及建筑设计方法和***。

为了实现上述的技术目的，本发明所采用的技术方案为：

一种基于眼动技术的神经网络训练方法，其包括：

S01、输入建筑立面图，将其设为第一训练数据；

S02、将第一训练数据展示在测试者的视线中，记录测试者观看第一训练数据时的眼动情况，生成眼动数据；

S03、获取眼动数据，并根据眼动数据生成注意热点数据、视觉焦点数据和眼动轨迹数据，且将注意热点数据、视觉焦点数据和眼动轨迹数据关联设定为分析数据；

S04、获取分析数据对应测试者的人口学信息，将分析数据、第一训练数据和测试者的人口学信息进行关联，生成第一训练数据包；

S05、获取第一训练数据包，将其输入到神经网络中训练，获得经训练的神经网络；

S06、将测试数据输入到经训练的神经网络中，获得输出结果，当输出结果符合预设条件时，模型收敛，完成神经网络的训练，获得第一神经网络。

作为一种可能的实施方式，进一步，本方案S03中，通过BeGaze分析软件对眼动数据进行分析，生成注意热点数据、视觉焦点数据和眼动轨迹数据。

作为一种可能的实施方式，进一步，本方案S04中，所述人口学信息包括测试者的年龄、教育背景、职业、民族中的一项以上。

作为一种可能的实施方式，进一步，本方案S06中，所述测试数据为从多个第一训练数据包中提取或单独建立的测试数据包，所述测试数据包中具有建筑立面图、人口学信息数据和与人口信息学数据一一对应的分析数据，该测试数据以建筑立面图、人口学信息数据作为输入项，分析数据作为参考输出项；

输入项在输入到经训练的神经网络后，获得输出结果，该输出结果与参考输出项进行匹配，

当匹配值符合预设值时，模型收敛，完成神经网络训练，获得第一神经网络；

当匹配值不符合预设值时，返回S05。

对于眼动数据的采集方面，本方案借助了现有技术的眼动数据采集设备，其大致工作原理、操作流程和功能介绍简要如下：

眼动实验，采用德国SMI眼动仪进行眼动数据采集。数据采集共分为八个步骤：1.眼动仪与记录器连接2.记录器开机3.新建实验任务4.设置常规参数5.输入人口学信息6.正确佩戴设备7.三点定标8.数据采集。经过以上八个步骤后，就采集了一位被试者的眼动信息。因为被试者的年龄、教育背景等等都是不同的，所以在实验当中，我们需要对不同被试者进行采集。

采集到眼动数据后，需要利用Begaze分析软件进行眼动数据分析。由此，我们可以得到一系列分析图，例如：视觉焦点图、注意力热点图、眼动轨迹图等。在眼动应用研究中，有几个常用的指标：1.直观性指标，即上述分析图2.统计分析指标，包括基本指标(注视、眼跳等)、合成指标。

①视觉注意的原理与机制：人类大脑与视觉神经***对场景或图像信息进行视觉处理时，并不是对所有信息同等得看待，而是习惯于对某些区域或目标分配更多的视觉注意。视觉注意力机制是为了模仿人类观察的方式。通常来说，人们在看一张图片的时候，除了从整体把握一幅图片之外，也会更加关注图片的某个局部信息。将有限的视觉处理能力关注到感兴趣的区域，提高观察效率。

从生理角度来说，人处理信息的能力是有限的。在视野范围内，人眼水平方向覆盖范围约120度。但是只有2度，属于清晰的中央凹视野，中央凹区域外的图像会变得模糊。也就是说，我们的视线往往选择一些对象而忽略其他对象，这就是视觉注意。

但视觉注意不仅是一个生理意义上的概念，人的视觉通常与内心所关注的所思考的事物有关。将视觉直接定向到场景中特定的个体或位置而忽略之外的个体或位置，这种视觉加工过程称之为视觉注意机制。人类的视觉注意机制包含两种基本机制，自底向上和自顶向下两种。自底向上的注意力机制是由外界刺激和特征所驱动的，负责快速、自动且不由自主的注意力和凝视的快速转变。自顶向下的机制是任务驱动，基于经验记忆，每个人都不一样，因人而异。因此，人类的视觉***的信息选择策略，利用视觉注意机制引导人们在海量的数据中注意到显著的区域并分配资源对重要的信息进行处理。

这时候，通过眼动实验，最终使用精确科学的方法计算出人们的视觉注意，可以了解到人们是如何发现感兴趣区域，又是什么决定了他们的注意力，解释人们是如何感知外在环境。这些有助于我们进一步阐明视觉质量提升与空间分布之间的关系。

②眼动仪的原理：人类的眼动行为它是非常微妙的，我们需要借助一定的科学仪器，也就是眼动仪来采集眼动数据。眼动仪有三个部件，第一个是场景摄像机，它位于两个镜框的中间，基于被试者的视角来记录实验场景。第二个是近红外光源，它发出光源同时在我们眼睛产生反射。第三个是眼动传感器，它记录视网膜和角膜的反射，计算注视的位置，然后叠加到场景摄像机拍摄的视频当中。通过这三个部件，红外线发射器发射红外线到我们的眼睛里面，这时候我们角膜反射的光线是不变的，但是我们瞳孔反射的光线是变化的，所以通过角膜反射的光线和瞳孔反射的光线之间的角度的变化来记录我们的被试者的注视位置。

具体来说，瞳孔-角膜反射法是利用眼摄像机拍摄眼睛图像，接着通过图像处理得到瞳孔中心位置。然后把角膜反射点(黄色斑点)如图2作为眼摄像机和眼球相对位置的基点，根据图像处理得到的瞳孔中心即可以得到视线向量坐标，从而确定人眼注视点。在此基础上，通过一些校准程序，找出瞳孔与角膜反射点间组成的向量与屏幕注视点之间的映射函数，然后通过检测瞳孔-角膜向量的变化量，实时跟踪处人在屏幕中所凝视的兴趣点，从而得到眼动轨迹和兴趣结果。

③数据采集中三点定标：以SMIETG眼动仪为例，3点定标是一个将ETG采集的注视点与被试者实际注视点相匹配的过程。3点定标需要3个定标点，这3个定标点必须要组成三角形的形状，且不能处于同一条直线上。同时，告诉被试者3个定标点的准确位置。接下来，让被试者注视第一个定标点，点击屏幕，将屏幕上的十字标志(眼动仪采集的注视点)，移动到定标点(被试者实际注视的位置)，最后，依次地完成3点定标。

④两个深度学习技术：

1.基于注意力模型进行图像研究

视觉注意力机制指的是面对一个场景时，人类自动地对感兴趣区域进行处理而选择性地忽略不感兴趣区域，这些人们感兴趣区域被称之为显著性区域。在计算机视觉领域，按照目的进行区分，和“注意”有关的研究大致分为两个方向——以“纯粹为了找显著”为目的的显著性检测和以“干别的事用到注意力机制”为思路的视觉注意力模型(也称之为为聚焦模型)，这两个均是以对人眼注意力的模拟作为核心研究内容，均是为了让模型实现有针对性的“聚焦”，都要对输入场景中的不同位置投以不同的注意力。其中，视觉注意力模型是将注意力机制作为模型的一个核心模块，该模块用来定位能够表征不同对象之间的显著差异区域。比如给一张测试图(见图1)其左图为原图，通过基于注意力模型的图像研究，可以预测右图所示的注意力集中区域。

基于上述方案，本发明还提供一种建筑设计方法，其包括上述所述的基于眼动技术的神经网络训练方法，其包括：

A01、获取待处理建筑立面图和人口学信息，生成待处理数据；

A02、将待处理数据输入到第一神经网络中进行眼动数据预测，获得预测结果；

A03、根据预测结果，获得待处理建筑立面图在对应人口学信息下的注意热点数据、视觉焦点数据和眼动轨迹数据；

A04、根据注意热点数据、视觉焦点数据和眼动轨迹数据，输出建筑设计辅助信息。

作为一种可能的实施方式，进一步，本方案还包括：

B01、构建建筑设计数据库、设计学习数据库和人口学信息数据库，该建筑设计数据库内存储有不同风格和规格的建筑设计图，所述设计学习数据库内存储有若干具有多种建筑排布形成的建筑立面图，所述人口学信息数据库内存储有多条人口学信息；

B02、将设计学习数据库内的建筑立面图和预设的人口学信息导入到第一神经网络中进行眼动数据预测，获得预测结果，该预测结果包括注意热点数据、视觉焦点数据和眼动轨迹数据；然后根据注意热点数据、视觉焦点数据和眼动轨迹数据，对建筑立面图中相应的区域进行定位并提取预设区域范围的图像特征；

B03、将所提取的图像特征导入到检测神经网络中进行识别图像中的建筑及建筑风格，获得建筑检测结果，然后将建筑检测结果与视觉焦点数据进行匹配，获得焦点建筑和衬托建筑，并将二者关联；

B04、获取焦点建筑和衬托建筑的规格，且分别将其关联生成焦点建筑数据和衬托建筑数据，然后将焦点建筑数据、衬托建筑数据和对应的人口学信息关联，生成第二训练数据包；

B05、获取第二训练数据包，将其输入到神经网络中训练，获得经训练的神经网络；

B06、将测试数据输入到经训练的神经网络中，获得输出结果，当输出结果符合预设条件时，模型收敛，完成神经网络的训练，获得第二神经网络，所述第二神经网络用于根据衬托建筑输出焦点建筑建议信息或根据焦点建筑输出衬托建筑建议信息。

作为一种可能的实施方式，进一步，本方案还包括：

B07、导入具有留白区域的建筑设计立面图且对其进行区域标注，生成待处理建筑设计立面图及位于待处理建筑设计立面图上的待处理区域；

B08、对待处理建筑设计立面图上的待处理区域预设相邻范围内的区域进行提取，然后将提取结果导入检测神经网络中，由检测神经网络输出建筑信息；

B09、将建筑信息及预设人口学信息导入至第二神经网络中，获取第二神经网络输出的数据，将其设为待处理区域的建议建筑信息。

作为一种可能的实施方式，进一步，本方案B09中所述的建议建筑信息为焦点建筑建议信息或衬托建筑建议信息；

另外，所述建筑设计数据库中存储有焦点建筑建议信息或衬托建筑建议信息中指向的建筑信息。

本发明方案上述提出了基于眼动技术和AI结合的建筑立面自动设计方法，通过眼动技术，识别建筑立面环境使用者的视觉注意热点，分析不同使用者的注意热点图，利用深度学习模型提取特征，总结规则。结合现有的AI技术，使得最终的建筑立面自动设计***更加有效，也更加符合实际建筑设计的需求。

基于上述方案，本发明还提供一种建筑设计***，其包括：

数据库单元，其用于构建建筑设计数据库、设计学习数据库和人口学信息数据库，该建筑设计数据库内存储有不同风格和规格的建筑设计图，所述设计学习数据库内存储有若干具有多种建筑排布形成的建筑立面图，所述人口学信息数据库内存储有多条人口学信息；

第一神经网络单元，其用于对所导入的设计学习数据库内的建筑立面图和预设的人口学信息进行眼动数据预测，获得预测结果，该预测结果包括注意热点数据、视觉焦点数据和眼动轨迹数据；

特征提取单元，其用于根据第一神经网络单元输出的注意热点数据、视觉焦点数据和眼动轨迹数据，对建筑立面图中相应的区域进行定位并提取预设区域范围的图像特征，其还用于对待处理建筑设计立面图上的待处理区域预设相邻范围内的区域进行提取；

数据调度单元，其用于将设计学习数据库内的建筑立面图和预设的人口学信息导入到第一神经网络中，还用于将特征提取单元所提取的图像特征导入到检测神经网络中进行识别图像中的建筑及建筑风格；

检测神经网络单元，用于对特征提取单元所提取的图像特征进行识别图像中的建筑及建筑风格，获得建筑检测结果，还用于对待处理建筑设计立面图上的待处理区域预设相邻范围内的区域进行检测，输出建筑信息；

数据关联单元，用于根据检测神经网络单元输出的建筑检测结果与视觉焦点数据进行匹配，获得焦点建筑和衬托建筑，并将二者关联；还用于获取焦点建筑和衬托建筑的规格，且分别将其关联生成焦点建筑数据和衬托建筑数据，然后将焦点建筑数据、衬托建筑数据和对应的人口学信息关联，生成第二训练数据包；

第二神经网络单元，其用于由第二训练数据包进行训练获得，且用于根据建筑信息及预设人口学信息，输出待处理建筑设计立面图上的待处理区域的建议建筑信息。

基于上述方案，本发明还提供一种计算机可读的存储介质，所述的存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述的至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行实现上述所述的建筑设计方法。

采用上述的技术方案，本发明与现有技术相比，其具有的有益效果为：本方案巧妙性通过将建筑立面图和对应不同人口学信息下的眼动数据作为训练数据，通过将其导入到神经网络中训练，获得第一神经网络，该第一神经网络可以用于预测不同人口学信息下的人员对建筑立面图的注意热点数据、视觉焦点数据和眼动轨迹数据，以此可以将其应用于建筑设计辅助，从而能够有助于建筑设计者来设计针对不同人口学信息人员或风格的建筑时，起到关注重心辅助定位的效果，以使得建筑设计人员能够对人们着重关注的区域进行更为精细化地设计，而借助第一神经网络还可以实现对第二训练数据包中的部分数据进行辅助定位，结合特征提取、特征检测后，可以获得第二训练数据包，通过第二训练数据包训练所得的第二神经网络可用于对建筑设计辅助，为设计者在建筑立面图留白区域进行焦点建筑或衬托建筑的建议推送，除此之外，其还存在进一步深入应用到具有留白区域的建筑立面图的自动设计中，为建筑设计提供了人性化、灵活化的辅助，本方案不仅实施可靠、且神经网络训练的数据来源广泛，经训练至收敛后的模型，在建筑设计辅助中具有较好的应用推广前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本方案所提及眼动技术提取注意热点数据的简要示意图；

图2是本发明方案基于眼动技术的神经网络训练方法的简要实施流程示意图；

图3是本发明实施例方案通过眼动技术来采集测试者眼动数据及将其导入到神经网络训练的操作流程示意图；

图4是本发明实施例方案建筑设计方法通过第一神经网络来输出建筑设计辅助信息的简要实施流程示意图；

图5是本发明实施例方案建筑设计设计方法将第一神经网络、第二神经网络联用后，指导建筑设计立面图留白部分的简要实施流程示意图；

图6是本发明实施例方案建筑设计***的简要单元连接示意图。

具体实施方式

下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图2所示，本实施例方案一种基于眼动技术的神经网络训练方法，其包括：

S01、输入建筑立面图，将其设为第一训练数据；

通过训练获得的第一神经网络能够用于对建筑立面图进行视觉关注预测，即，预测不同人口学信息的人员对建筑立面图的可能关注焦点、眼动轨迹和注意热点数据，通过该方式，能够有助于建筑设计者来设计针对不同人口学信息人员或风格的建筑时，起到关注重心辅助定位的效果，以使得建筑设计人员能够对人们着重关注的区域进行更为精细化地设计。

结合图3所示，在眼动数据的采集方面，本方案S03中，通过BeGaze分析软件对眼动数据进行分析，生成注意热点数据、视觉焦点数据和眼动轨迹数据。

对于本方案所提及的人口学信息而言，本方案S04中，所述人口学信息包括测试者的年龄、教育背景、职业、民族中的一项以上。

由于测试数据的可靠性决定了经训练神经网络模型的验证可靠性，为了方便进行数据提取，本方案S06中，所述测试数据为从多个第一训练数据包中提取，所述测试数据包中具有建筑立面图、人口学信息数据和与人口信息学数据一一对应的分析数据，该测试数据以建筑立面图、人口学信息数据作为输入项，分析数据作为参考输出项；

当匹配值不符合预设值时，返回S05。

本方案的测试数据不局限于从第一训练数据包中提取，其也可以为单独建立的测试数据包。

进一步结合图4所示，基于上述方案，本实施例还提供一种建筑设计方法，其包括上述所述的基于眼动技术的神经网络训练方法，其包括：

通过该方案输出的建筑设计辅助信息，有助于让设计者针对不同人口学信息人员或风格进行建筑设计时，起到关注重心辅助定位的效果，以使得建筑设计人员能够对人们着重关注的区域进行更为精细化地设计。

除了上述应用之外，结合图5所示，本实施例方案还包括：

B06、将测试数据输入到经训练的神经网络中，获得输出结果，当输出结果符合预设条件时，模型收敛，完成神经网络的训练，获得第二神经网络，所述第二神经网络用于根据衬托建筑输出焦点建筑建议信息或根据焦点建筑输出衬托建筑建议信息；

本实施例中，可以将建议建筑信息、焦点建筑信息及衬托建筑信息等建筑信息数据预先存储与数据库中，然后对其进行编码，以便于提取。

本方案B09中所述的建议建筑信息为焦点建筑建议信息或衬托建筑建议信息；另外，所述建筑设计数据库中存储有焦点建筑建议信息或衬托建筑建议信息中指向的建筑信息。

如图6所示，基于上述方案，本实施例方案还提供一种建筑设计***，其包括：

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的部分实施例，并非因此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于眼动技术的神经网络训练方法，其特征在于，其包括：

S01、输入建筑立面图，将其设为第一训练数据；

S06、将测试数据输入到经训练的神经网络中，获得输出结果，当输出结果符合预设条件时，模型收敛，完成神经网络的训练，获得第一神经网络；

其中，S06中，所述测试数据为从多个第一训练数据包中提取或单独建立的测试数据包，所述测试数据包中具有建筑立面图、人口学信息数据和与人口信息学数据一一对应的分析数据，该测试数据以建筑立面图、人口学信息数据作为输入项，分析数据作为参考输出项；

当匹配值不符合预设值时，返回S05。

2.如权利要求1所述的基于眼动技术的神经网络训练方法，其特征在于，S03中，通过BeGaze分析软件对眼动数据进行分析，生成注意热点数据、视觉焦点数据和眼动轨迹数据。

3.如权利要求1所述的基于眼动技术的神经网络训练方法，其特征在于，S04中，所述人口学信息包括测试者的年龄、教育背景、职业、民族中的一项以上。

4.一种建筑设计方法，其包括权利要求1至3之一所述的基于眼动技术的神经网络训练方法，其特征在于，包括：

5.如权利要求4所述的一种建筑设计方法，其特征在于，其还包括：

6.如权利要求5所述的一种建筑设计方法，其特征在于，其还包括：

7.如权利要求6所述的一种建筑设计方法，其特征在于，B09中所述的建议建筑信息为焦点建筑建议信息或衬托建筑建议信息；

8.一种建筑设计***，其特征在于，其加载有权利要求4至7之一所述的建筑设计方法，所述***包括：

9.一种计算机可读的存储介质，其特征在于：所述的存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述的至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行实现如权利要求4至7之一所述的建筑设计方法。