CN112508413A - 基于多模态学习和lstm风险研判方法 - Google Patents

基于多模态学习和lstm风险研判方法 Download PDF

Info

Publication number
CN112508413A
CN112508413A CN202011441229.0A CN202011441229A CN112508413A CN 112508413 A CN112508413 A CN 112508413A CN 202011441229 A CN202011441229 A CN 202011441229A CN 112508413 A CN112508413 A CN 112508413A
Authority
CN
China
Prior art keywords
data
time
model
sequence
crime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011441229.0A
Other languages
English (en)
Inventor
闫栋
刘雪莉
王文俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011441229.0A priority Critical patent/CN112508413A/zh
Publication of CN112508413A publication Critical patent/CN112508413A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Molecular Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)

Abstract

本发明公开基于多模态学习和LSTM风险研判方法,包括如下步骤:获取相关的数据,数据中要求有时空信息特征并有其他的多源数据信息;对数据进行预处理,多模态信息融合;依据提出的数据流进行数据处理,生成中间结果数据;基于改进的LSTM进行风险研判;得到风险研判结果并依据验证集数据计算准确率。本发明通过多模态信息融合的技术,对多源数据进行技术融合,生成具有特定长度大小的向量。在目前比较优秀对LSTM模型上做了一定程度改造创新,优化了已有对依靠人工或者简单数据统计的方法对特殊人员进行风险研判的方法,提出了数据背景下一种公共安全领域特殊人员风险研判方法。

Description

基于多模态学习和LSTM风险研判方法
技术领域
随着经济和数字化社会的发展,对特殊人员进行风险研判一直是公共安全领域的重要研究课题,对维护社会和谐稳定具有重要作用。智慧城市特殊人员画像及风险研判在公共安全领域扮演着重要的角色。本发明正是在这样的背景下,提出了基于多模态学习和LSTM风险研判方法。
背景技术
很多数据都是图结构,例如社交网络、经济网络、生物网络、信息网络(互联网网站、学术引用)、互联网、神经网络。而网络是它们的通用语言,因此具备极大的研究价值。可以做一下潜在的机器学习任务。
表示学习嵌入向量的最新进展导致学习图的连续空间表示的方法激增。这些方法处理图形并将每个节点编码为向量,可以与现有的机器学习算法集成。此类嵌入方法学习了保留图结构的向量。传统特征方法的表示学习可以最大程度地减小连接节点的欧几里得距离,这可以通过对称图拉普拉斯算子的特征分解来解决。一般而言,随机游走方法在生成保留图形结构的矢量表示方面要胜于“本征”方法。
模态是指人接受信息的特定方式。由于多媒体数据往往是多种信息的传递媒介(例如一段视频中往往会同时使得文字信息、视觉信息和听觉信息得到传播),多模态学习(Multimodal Deep Learning)已逐渐发展为多媒体内容分析与理解的主要手段。
Long Short Term Memory,即我们所称呼的LSTM,是为了解决长期以来问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。
发明内容
本发明的目的是为解决背景技术中的问题,提出一种基于多模态学习和LSTM风险研判方法。
本发明的技术方案是基于多模态学习和LSTM风险研判方法,包括如下步骤:
第一步:获取相关的数据,数据中要求有时空信息特征并有其他的多源数据信息;
第二步:对数据进行预处理,多模态信息融合;
第三步:依据提出的数据流进行数据处理,生成中间结果数据;
第四步:基于改进的LSTM进行风险研判;
第五步:得到风险研判结果并依据验证集数据计算准确率。
数据的预处理与模型的损失函数:
1)数据标准化:数据的标准归一化可以将数据集映射到另外一个统一尺度的纬度中,通过对数据集中样本的统计,对每个特征分别进行定心和定标,使“变换”方法将均值和标准差存储起来,使得数据集所有特征的趋势对样本由距离产生的影响归至同一级别;
模型的输入犯罪时空序列属于包含了多区域信息比较复杂的数据结构;
犯罪时空数据标准归一化后的犯罪时空序列Z(t)计算方法如下:
Z(t)=(x-u)/σ
上式中,u表述输入到序列x的数学期望值;符号σ表示输入序列x的标准偏差;
2)模型的损失函数:
使用均方误差(Mse)函数作为损失函数,犯罪时空序列的预测就是回归问题,预测值和目标值之间的损失函数
Figure BDA0002822316310000021
的计算公式如下:
Figure BDA0002822316310000022
上式中,yi表示数据的实际值,
Figure BDA0002822316310000023
表示BP神经网络的预测值,n表示每轮训练数据的样本数目;
3)模型的先验知识:
当模型的输入为单社区区域的犯罪时间序列时,如果在时刻t1至tn的犯罪序列与时刻t1+m至tn+m的犯罪序列趋势相同,那最终输出的预测值也相同,但时刻t1和t1+m并不相同;不同时刻的模型输入应具有不同的特性,当神经网络模型中加入先验知识(相对时间信息)有助改进模型对犯罪时空序列的预测效果,相对时间的构建方法如下公式:
t0=1,t1=1+1/2,...,tj=1+j/T(j=1,2,...,T)
上式中,T表示时空序列总的时间段数,tj表示时刻j的相对时间。
有益效果
本发明通过多模态信息融合的技术,对多源数据进行技术融合,生成具有特定长度大小的向量。在目前比较优秀对LSTM模型上做了一定程度改造创新,优化了已有对依靠人工或者简单数据统计的方法对特殊人员(犯罪人员)进行风险研判的方法,提出了数据背景下一种公共安全领域特殊人员风险研判方法。
本发明具有较大的实用意义。
附图说明
图1数据处理流及分析过程;
图2根据研究实际情况,课题组整理并提出了服刑人员“地-事-人-行为”网络的数据结构,网络的组织基本关系如图所示;
图3模型通过融入犯罪人员的心理、矫正、行为数据,将其作为时间序列数据输入,模型结合犯罪人员的社交关系网络结构,最终预测犯罪人员的暴力、***等倾向。
具体实施方式
本发明属于机器学习领域,是一种基于多模态学习和LSTM风险研判方法。
第一步:获取特殊人员(犯罪人员)相关的数据,数据中要求有时空信息特征并有其他的多源数据信息。
第二步:对数据进行预处理,多模态信息融合。
第三步:依据提出的数据流进行数据处理,生成中间结果数据。
第四步:基于改进的LSTM进行风险研判。
第五步:得到风险研判结果并依据验证集数据计算准确率。现有的对犯罪人员的风险研判,主要还是集中在数据处理、聚类、数理统计等方面,有一定的经验主义在里面,很大程度上依靠的是相关工作人员对经验在里面。
在大数据背景下,我们提出了一种通过图神经网络的方法,在已有的数据中,通过建模和神经网络来预测我们的目标值,对特定人员、犯罪人员再犯风险进行科学研判,这种新技术将在一定程度上缓解办案人员的工作量,使工作人员能专注于工作案件本身而不是数据分析一类的工作上。另一方面,经过长期科学验证的科学方法可以很大程度上提高我们分析研判的结果的准确率。
构建基于“地-事-人-行为”的多层异质复杂网络。网络通过内部结点相互链接。
“地”这一层的网络是区域的网络,区域网络的结点属性包括是否是禁入区域和公共区域、是否是牢房等,而各个结点的物理距离的倒数是“地”网络天然的空间关系。
“事”网络记录的是各类监狱发生事件的网络,事件的基本属性事是否为暴力事件,同时,结点的属性还包括时间,而其中的地点和人物是该网络与“地”和“人”网络相互交融链接的物理背景。监狱中如同社会中的事件一样,发生的事件是有明显的时间关联性,因此,事件发生的前后、事件发生前因后果是该层网络结点的关系,这种关系需要在我们后期模型中,通过文本挖掘算法来智能提取。
“人”网络是典型的社交网络***,人和人关系是结点最复杂且本质的关系,人和组织的属性包括:性别、年龄、犯罪类型等基本的属性,而人和人的关系极为复杂,我们通过聚类算法和协同算法计算人结点的向量嵌入,这种嵌入富含语义信息,通过衡量富含语义信息的数学嵌入距离来智能获取人与人的关系。
“行为层”网络描述的是监狱中各种合法和非法的行为,行为之间链接是行为的相似性来构建,因为行为是人的行为,因此,本层和“人”层的关系丰富。
技术方法:将“地-事-人-行为”数据以事-人形式组织成事件数据输入到动态规划模型中,形成动态特征时间维度的动态特征子集。形成参与事件人的富含语义信息的嵌入编码,通过卷积神经网络和递归神经、网络LSTM感知时间,最终模型输出罪犯参与该事件的概率,模型损失是softmax损失。
模型是基于复杂网络和强化学习的深度时序神经网络模型,具有如下的特点:模型通过融入犯罪人员的心理、矫正、行为数据,将其作为时间序列数据输入。模型结合犯罪人员的社交关系网络结构。最终预测犯罪人员的暴力、***等倾向。
1、模型解决的技术问题:通过监狱事件的时空关系数据来预测未来事件的时空数据,在此过程中预测整个监狱事件发生参与的人的隐含风险关系。
2、建模方法:监狱中重大事件的发生具有明显的时间维度和空间维度,其中空间维度在此模型中是人和人的隐藏的关系,因此,可以用时空网络建模。
3、技术特点:犯罪时序数据用时间、空间同时建立模型,时间用GRU(门控递归神经网络)建模,空间用GCN(图卷积)建模;建立时间周期状态(TS),感知时间空间状态(SS)加入对抗损失,使得输出分布和真实分布相互切合。
数据的预处理与模型的损失函数:
1.数据标准化:
数据的标准归一化可以将数据集映射到另外一个统一尺度的纬度中,通过对数据集中样本的统计,对每个特征分别进行定心和定标,使“变换”方法将均值和标准差存储起来,使得数据集所有特征的趋势对样本由距离产生的影响归至同一级别。模型的输入犯罪时空序列属于包含了多区域信息比较复杂的数据结构。犯罪时空数据标准归一化后的犯罪时空序列Z(t)计算方法如下:
Z(t)=(x-u)/σ
上式中,u表述输入到序列x的数学期望值;符号σ表示输入序列x的标准偏差。
2.模型的损失函数:
损失函数可以衡量神经网络预测值与实际值的损失。选择合适的损失函数可以有效的促进神经网络模型的拟合面通常回归问题是对具体数值的预测,较为常见的方法是使用均方误差(Mse)函数作为损失函数,犯罪时空序列的预测就是回归问题,预测值和目标值之间的损失函数
Figure BDA0002822316310000051
的计算公式如下:
Figure BDA0002822316310000052
上式中,yi表示数据的实际值,
Figure BDA0002822316310000053
表示BP神经网络的预测值,n表示每轮训练数据的样本数目。
3.模型的先验知识:
当模型的输入为单社区区域的犯罪时间序列时,如果在时刻t1至tn的犯罪序列与时刻t1+m至tn+m的犯罪序列趋势相同,那最终输出的预测值也相同,但时刻t1和t1+m并不相同。不同时刻的模型输入应具有不同的特性,当神经网络模型中加入先验知识(相对时间信息)有助改进模型对犯罪时空序列的预测效果,相对时间的构建方法如下公式:
t0=1,t1=1+1/2,...,tj=1+j/T(j=1,2,...,T)
上式中,T表示时空序列总的时间段数,tj表示时刻j的相对时间。
模型通过融入犯罪人员的心理、矫正、行为数据,将其作为时间序列数据输入,模型结合犯罪人员的社交关系网络结构,最终预测犯罪人员的暴力、***等倾向。

Claims (2)

1.基于多模态学习和LSTM风险研判方法,其特征在于,包括如下步骤:
第一步:获取相关的数据,数据中要求有时空信息特征并有其他的多源数据信息;
第二步:对数据进行预处理,多模态信息融合;
第三步:依据提出的数据流进行数据处理,生成中间结果数据;
第四步:基于改进的LSTM进行风险研判;
第五步:得到风险研判结果并依据验证集数据计算准确率。
2.根据权利要求1所述的基于多模态学习和LSTM风险研判方法,其特征在于,数据的预处理与模型的损失函数:
1)数据标准化:数据的标准归一化可以将数据集映射到另外一个统一尺度的纬度中,通过对数据集中样本的统计,对每个特征分别进行定心和定标,使“变换”方法将均值和标准差存储起来,使得数据集所有特征的趋势对样本由距离产生的影响归至同一级别;
模型的输入犯罪时空序列属于包含了多区域信息比较复杂的数据结构;
犯罪时空数据标准归一化后的犯罪时空序列Z(t)计算方法如下:
Z(t)=(x-u)/σ
上式中,u表述输入到序列x的数学期望值;符号σ表示输入序列x的标准偏差;
2)模型的损失函数:
使用均方误差(Mse)函数作为损失函数,犯罪时空序列的预测就是回归问题,预测值和目标值之间的损失函数
Figure FDA0002822316300000013
的计算公式如下:
Figure FDA0002822316300000011
上式中,yi表示数据的实际值,
Figure FDA0002822316300000012
表示BP神经网络的预测值,n表示每轮训练数据的样本数目;
3)模型的先验知识:
当模型的输入为单社区区域的犯罪时间序列时,如果在时刻t1至tn的犯罪序列与时刻t1+m至tn+m的犯罪序列趋势相同,那最终输出的预测值也相同,但时刻t1和t1+m并不相同;不同时刻的模型输入应具有不同的特性,当神经网络模型中加入先验知识有助改进模型对犯罪时空序列的预测效果,相对时间的构建方法如下公式:
t0=1,t1=1+1/2,...,tj=1+j/T(j=1,2,...,T)
上式中,T表示时空序列总的时间段数,tj表示时刻j的相对时间。
CN202011441229.0A 2020-12-08 2020-12-08 基于多模态学习和lstm风险研判方法 Pending CN112508413A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011441229.0A CN112508413A (zh) 2020-12-08 2020-12-08 基于多模态学习和lstm风险研判方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011441229.0A CN112508413A (zh) 2020-12-08 2020-12-08 基于多模态学习和lstm风险研判方法

Publications (1)

Publication Number Publication Date
CN112508413A true CN112508413A (zh) 2021-03-16

Family

ID=74970865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011441229.0A Pending CN112508413A (zh) 2020-12-08 2020-12-08 基于多模态学习和lstm风险研判方法

Country Status (1)

Country Link
CN (1) CN112508413A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562514A (zh) * 2023-07-12 2023-08-08 苏州简诺科技有限公司 基于神经网络的企业生产状况即时分析方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805142A (zh) * 2018-05-31 2018-11-13 中国华戎科技集团有限公司 一种犯罪高危人员研判方法及***
CN110751208A (zh) * 2018-10-29 2020-02-04 山东大学 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
CN111598059A (zh) * 2020-06-28 2020-08-28 中国人民公安大学 犯罪预测模型的训练方法、装置及电子设备
CN111768027A (zh) * 2020-05-27 2020-10-13 华南农业大学 基于强化学习的再犯罪风险预测方法、介质和计算设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805142A (zh) * 2018-05-31 2018-11-13 中国华戎科技集团有限公司 一种犯罪高危人员研判方法及***
CN110751208A (zh) * 2018-10-29 2020-02-04 山东大学 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
CN111768027A (zh) * 2020-05-27 2020-10-13 华南农业大学 基于强化学习的再犯罪风险预测方法、介质和计算设备
CN111598059A (zh) * 2020-06-28 2020-08-28 中国人民公安大学 犯罪预测模型的训练方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562514A (zh) * 2023-07-12 2023-08-08 苏州简诺科技有限公司 基于神经网络的企业生产状况即时分析方法及***
CN116562514B (zh) * 2023-07-12 2023-09-15 苏州简诺科技有限公司 基于神经网络的企业生产状况即时分析方法及***

Similar Documents

Publication Publication Date Title
CN111737495B (zh) 基于领域自分类的中高端人才智能推荐***及其方法
Jenkins et al. Unsupervised representation learning of spatial data via multimodal embedding
CN110674840B (zh) 一种多方证据关联模型构建方法和证据链提取方法及装置
CN109062962B (zh) 一种融合天气信息的门控循环神经网络兴趣点推荐方法
CN113254648A (zh) 一种基于多层次图池化的文本情感分析方法
CN110110318B (zh) 基于循环神经网络的文本隐写检测方法及***
CN111241425B (zh) 一种基于层次注意力机制的poi推荐方法
CN113297936B (zh) 一种基于局部图卷积网络的排球群体行为识别方法
CN110108914A (zh) 一种反窃电智能化决策方法、***、设备及介质
Esquivel et al. Spatio-temporal prediction of Baltimore crime events using CLSTM neural networks
CN112015901A (zh) 文本分类方法及装置、警情分析***
CN109376613A (zh) 基于大数据和深度学习技术的视频智能监控***
CN112508269A (zh) 法律判决预测方法及***
CN114819967A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN117314006A (zh) 一种智能化数据分析方法及***
Morshed et al. Viscrimepredict: a system for crime trajectory prediction and visualisation from heterogeneous data sources
CN109669017A (zh) 基于深度学习的炼厂蒸馏塔顶切水离子浓度预测方法
CN112508413A (zh) 基于多模态学习和lstm风险研判方法
CN114330482A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN115600642B (zh) 一种面向流媒体基于邻居信任聚合的去中心化联邦学习方法
ABBAS A survey of research into artificial neural networks for crime prediction
CN115689758A (zh) 一种股票预测模型构建方法、***及其应用
CN112667919A (zh) 一种基于文本数据的个性化社区矫正方案推荐***及其工作方法
CN114401135A (zh) 基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法
Xia et al. Analysis and prediction of telecom customer churn based on machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210316