CN111666313B - 基于多源异构遥感数据关联构建及多用户数据匹配方法 - Google Patents
基于多源异构遥感数据关联构建及多用户数据匹配方法 Download PDFInfo
- Publication number
- CN111666313B CN111666313B CN202010447854.XA CN202010447854A CN111666313B CN 111666313 B CN111666313 B CN 111666313B CN 202010447854 A CN202010447854 A CN 202010447854A CN 111666313 B CN111666313 B CN 111666313B
- Authority
- CN
- China
- Prior art keywords
- data
- user
- remote sensing
- similarity
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Remote Sensing (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多源异构遥感数据关联构建及多用户数据匹配方法,包括如下步骤:步骤一:输入遥感业务数据集和遥感产品数据集;步骤二:进行数据清洗和预处理;步骤三:进行数据分类建模;步骤四:知识抽取,包括遥感业务数据的属性抽取和遥感产品数据的特征提取;步骤五:进行多源异构知识融合,将多个知识构建链接关系,根据对遥感数据抽取出的元数据信息,融合不同本体数据的属性相似度来构建多个知识体系的链接关系;步骤六:关联关系模型构建;步骤七:对已采集的大量用户身份和行为数据进行挖掘分析,构建用户画像标签;步骤八:用户的身份和行为进行相似度计算;步骤九:进行个性化用户画像模型构建,与关联关系构建模型中的结果进行匹配。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基于多源异构遥感数据关联构建及多用户数据匹配方法。
背景技术
近年来,我国遥感对地观测技术的飞速发展,某些领域已跻身国际前列,遥感数据被广泛应用于国民经济和社会发展各个领域。为满足不断深化的应用需求,卫星数量不断增多,遥感影像分辨率/幅宽不断提升、可见光、高光谱、SAR等各种遥感数据大量获取,每日达10TB以上,对不同领域的用户,如何准确、智能地识别用户需求,并及时进行遥感数据产品的精准推荐,满足不同用户的业务需求,是遥感数据应用推广、实现商业价值面临的极大挑战。
在遥感数据推广服务相关领域,现有***都是用户通过与计算机可视化终端交互的方式,从庞大的数据库筛选出数据的方式进行遥感数据的浏览、下载以及制作;在遥感数据用户画像构建领域,现有***对用户划分的力度较大,一般都是从行业或者业务模式进行粗粒度划分,如部队、科研所、政府部门、高等院校,不能具体到应用需求层面进行用户画像的构建。
遥感大数据时代来源多样、数据量庞大、关联关系复杂。在用户面临日以TB级量级的数据增长率,单景遥感数据量大小也是GB级,现有***大多是通过人机交互调用遥感数据的一方面不能及时的发现可用的数据,另一方面借助人工判读的方式来判断提取数据的有用信息,存在效率低下,并且没有统一衡量标准;另外对用户的精准定位方面,考虑到遥感数据用户种类多样化,现有***缺乏对用户的多维度了解,不能结合用户信息进行数据使用意图的推测和建模分析,难以提供以用户需求为导向的精准推荐服务。
发明内容
本发明的目的是解决由抽象的遥感数据到具体的信息知识的转换,通过数据特征融合等手段建立多源异构数据之间的关联关系,为数据智能推荐提供数据基础;再者深度挖掘用户信息,对用户进行挖掘建模,为用户提供以需求为导向的精准推荐服务。
本发明将挖掘和知识图谱技术运用到遥感技术领域,运用数据挖掘技术进行特征提取,构建面向多源异构遥感数据的特征融合与知识推理框架,实现多源数据的组织关联,为后续数据应用提供支撑;同时通过挖掘分析技术,全面***地搜集用户信息资源,对用户背景信息、行为习惯等主要特征进行挖掘分析,建立个性化用户画像模型,结合数据关联建模,进行数据匹配。该方法最大化的挖掘数据的可用信息,并及时的进行多源异构数据的共享,使得用户全面、概括的掌握感兴趣数据的所有信息,最大化的实现了遥感数据使用价值。
本发明的提出一种基于多源异构遥感数据关联构建及多用户数据匹配方法,包括如下步骤:
步骤一:输入遥感业务数据集和遥感产品数据集,所述遥感业务数据集包括目标、轨迹、文本、图片数据;遥感产品数据包括Sar影像、全色影像、多光谱影像数据、可见光数据遥感影像数据;
步骤二:进行数据清洗和预处理,所述数据清洗包括:对于遥感业务数据进行语法检查、拼写检查、缺失值处理、去重处理、去除无效字符和噪声处理;所述预处理包括对于遥感产品数据,借助人工判读进行影像质量检查,对于变形、云雾干扰的影像首先进行影像预处理;包括剔除不必要的厚云区域,进行云雾去除;进行形变校正,针对SAR成像存在几何形变导致机场、道路发生弯曲,运用图像非均匀采样的方法进行形变校正,采用双线性插值、或立方插值方法进行像元位置或像元间距重新采样;
步骤三:进行数据分类建模,数据分类建模输入为步骤二进行清洗后的数据集,分类器采用数据挖掘中关联规则挖掘的方法,基于关联规则的分类,首先用关联规则挖掘算法从训练数据本体样本集中挖掘出所有指定置信度的类关联规则;然后从挖掘出的类关联规则中迭代出最优规则用于分类,最后运用最优规则将表征同一事物的本体聚集到一起,将多个异构本体合并为全局统一本体;
步骤四:知识抽取,包括遥感业务数据的属性抽取和遥感产品数据的特征提取;所述遥感业务数据的属性抽取包括名称、时间、空间、上传者、所属国家、数据格式、关键词、元数据信息的抽取;所述元数据信息包括数据类别、数据名称、分辨率、所属卫星、传感器、包含目标、景号、位置、范围、产品级别、拇指图;所述特征提取首先根据遥感影像的相谱显著性图,提取感兴趣区域;在感兴趣区域内进行同质滤波,结合相谱显著性图,确认待检测目标区域;在目标区域内,计算各目标的主轴方向,提取目标的S-HOG特征描述子;根据目标的形状知识,对目标的S-HOG特征描述子进行判别,进行目标判断识别和提取;
步骤五:进行多源异构知识融合,将多个知识构建链接关系,根据对遥感数据抽取出的元数据信息,通过融合不同本体数据的属性相似度来构建多个知识体系的链接关系;
步骤六:关联关系模型构建,通过对本体知识的抽取和融合,在数据库建立索引,运用图数据库构建知识图谱拓扑关系,得到关联关系构建模型;
步骤七:对已采集的大量用户身份和行为数据进行挖掘分析,构建用户画像标签,在对原始数据进行整合和筛选后,根据数据的属性和重要性,将数据划分为两类标签数据,分别是静态标签数据和动态标签数据;
步骤八:针对不同类用户的身份和行为进行相似度计算,通过静态标签数据和动态标签数据进行挖掘分析,进行相似度计算,对庞大的用户群体进行归类;
步骤九:进行个性化用户画像模型构建,步骤八相似度计算的输出为一类用户的行为习惯,将之与关联关系构建模型中的结果进行匹配。
进一步的,所述步骤一中的目标为能够从遥感影像上提取到的物体,包括舰船、港口飞机、机场、标志性地标建筑物,所述轨迹为物体运动轨迹,包括:舰船轨迹,无人机航迹线,所述图片为与影像相关的缩略图、与目标相关的公开图片。
进一步的,所述步骤五中,通过融合不同本体数据的属性相似度来构建多个知识体系的链接关系,所述数据的属性是指元数据信息的属性,对于遥感影像产品,通过特征提取、语义分析的方式提取出舰船目标,舰船目标作为元数据信息,包括位置、型号、大小多个属性值,通过属性值集的比对,判断本体数据是否有关联性。
进一步的,所述步骤七,将数据划分为两类标签数据,分别是静态标签数据和动态标签数据,具体包括:
静态标签数据抽取,静态标签数据的内容稳定无变动,存储格式为结构化形式;
动态标签数据抽取,动态标签数据是用户与业务***交互过程中不断变化的行为信息,动态标签数据主要包括浏览行为信息、下载行为信息、评价行为信息。
进一步的,所述步骤八中,用户偏好相似度计算包括:
以用户的行为习惯作为用户偏好考量依据,选择代表用户行为深度的3个标签,分别是浏览、下载及评价,并为这3个标签设置权重,分别用v、d、e表示,权重值分别为1/6、1/2、1/3;若对当前产品有相应行为则在相应行为值上加上对应权值,否则加0,用pref表示用户对一个产品的偏好程度,即偏好值,则:
pref=v+d+e (1)
对每一个用户重复上述步骤,得到用户偏好集。
进一步的,其特征在于,所述步骤八中,用户身份相似度计算包括:
从构建好的用户画像标签中选择较能代表用户社会身份的5个标签,分别是机构、组织、类型、行业、国籍,并为这5个标签设置权重,分别用s1、s2、s3、s4、s5表示,权重值分别设置为2/9、2/9、2/9、2/9、1/9;通过对比两两用户之间的5个身份标签来计算用户身份相似度,假设对应标签相同,则加上对应权重,否则为0,用simI(u,v)表示用户u与用户v的身份相似度,则:
simI(u,v)=s1+s2+s3+s4+s5 (2)
进一步的,所述步骤九中用户画像模型构建包括:
用户-数据模型构建包括,构建包括用户-数据矩阵,代表用户对产品的偏好值;
结合用户身份相似度和用户行为相似度计算用户相似度,得到用户对产品的测偏好值集合;
最后进行关联数据的用户匹配,根据获取到的用户预测偏好值集合,匹配到用户感兴趣数据列表集,通过关联关系构建层,得到和用户感兴趣数据相关的所有关联数据拓扑集。
进一步的,用户-数据模型构建包括:构建用户-数据矩阵,R(n,m)=pref,pref表示用户对数据的偏好值,即第n个用户对第m个产品的偏好值;
在用户-数据矩阵的基础上以余弦相似性度量用户偏好相似性,余弦相似性通过计算向量之间的余弦夹角来度量用户相似性;设用户u和用户v之间的相似度为simcoll(u,v),用户u的偏好值表示为向量u,用户v的偏好值表示为向量v,则simcoll(u,v)计算如下:
进一步的,所述用户相似度计算,用户相似度结合了用户身份相似度simI和用户行为相似度simcoll(u,v),λ用于调节参数,其中0≤λ≤1,具体计算如公式所示:
sim(u,v)=λ×simI(u,v)+(1-λ)×simcoll(u,v) (4)
在得到用户相似度之后,取目标用户相似度值最高的k个用户作为目标用户的最近邻用户,然后根据最近邻用户对产品的偏好值预测目标用户的偏好;计算公式如下:
有益效果:
本发明的方法相对于现有技术的优点时:本发明盘活了遥感海量存档数据,一是解决遥感数据到具体的知识的转换,通过数据属性抽取、特征提取、数据融合等手段建立多源异构数据之间的关联关系;同时对用户属性、行为、习惯等信息进行挖掘建模,旨在为用户及时的提供以需求为导向的精准推荐服务。本发明经过试验证明可行,对大数据量处理速度快,实现遥感数据资源的精准推荐。与现有技术相比解决了不同用户获取多源异构遥感数据量太大难以精准定位的问题。
附图说明
图1本发明的关联关系构建流程图;
图2本发明关联关系拓扑关系图例;
图3本发明一种基于多源异构遥感数据关联构建及多用户数据匹配方法总体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
根据本发明的一个实施例,提出一种基于多源异构遥感数据关联构建及多用户数据匹配方法,进行关联关系构建,运用数据挖掘、文本分析、语义识别等方法对遥感各类本体数据进行特征抽取、模型抽象和规范化描述,运用知识图谱技术构建本体数据的关联关系,数据建模层是实现智能推荐的基础支撑。主要过程包括:
1、原始数据输入。数据输入是整个关联关系建模的基础,本项目主要研究SAR、可见光、多光谱、三维模型、重点目标、文本、轨迹等遥感产品数据和遥感业务数据构成的多源数据,数据共有特征有位置、目标、属性、时间等信息。
2、数据聚合分类。为了构建全局统一的关联关系,各个业务领域构建完成自己的图谱关系模型后,通过异构本体关联挖掘,将表征同一事物的本体聚集到一起,通过跨域本体集成将多个异构本体合并为全局统一本体。
3、知识抽取。知识抽取层是从本体数据中提取出实体、属性以及实体间关系3类知识元素。实体代表客观存在的事物,实体抽取是从原始本体数据中提取出实体,首先需要发现实体,然后不断对实体数据进行属性填充,包括实体描述、图片、同义实体名等;关系抽取是在不同概念的实体间建立关系,包括实体、属性以及实体间关系3类知识元素,解决实体间语义链接的问题。
4、知识融合。将不同来源的实体通过跨域知识表示学习模型和文本语义识别,建立实体关系表示模型,实现多个知识图谱的跨域语义融合。
5、关联关系构建。在现有知识融合后的数据表(目标特性库、测试样本库、目标知识库)上抽象出关系模型,创建主要实体,属性,关联边,将多领域、多来源、多种类的信息,实现多源数据的组织关联。
具体的,根据本发明的一个实施例,结合图1所示的流程图,如下:
步骤一:输入遥感业务数据集和遥感产品数据集。遥感业务数据集包括目标、轨迹、文本、图片等数据;遥感产品数据包括Sar影像、全色影像、多光谱影像数据、可见光数据等遥感影像数据。
步骤二:数据清洗和预处理,对于遥感业务数据进行语法检查、拼写检查、缺失值处理、去重处理、去除无效字符和噪声处理;对于遥感产品数据进行粗检查,借助人工判读进行影像质量检查,对于变形、云雾干扰的影像首先进行影像预处理;
薄云雾去除:剔除不必要的厚云区域,运用现用云判工具进行云雾去除,提升图像质量。
形变校正:针对SAR成像存在几何形变导致机场、道路发生弯曲,影响后续影像提取精度的问题,针对Sar影像,运用图像非均匀采样的方法进行形变校正,图像重采样可以采用双线性插值、立方插值等精度较高的方法。
步骤三:数据分类建模
分类器运用的是数据挖掘中关联规则挖掘的方法,基于关联规则的分类,首先用关联规则挖掘算法从训练数据本体样本集中挖掘出所有指定置信度的关联规则;然后从挖掘出的类关联规则中迭代出最优规则用于分类。最后运用最优规则将表征同一事物的本体聚集到一起,将多个异构本体合并为全局统一本体。
步骤四:知识抽取。
知识抽取包括遥感业务数据的属性抽取和遥感产品数据的特征提取。
遥感业务数据的知识抽取主要包括名称、时间、空间、上传者、所属国家、数据格式、关键词等元数据信息的抽取。
遥感产品数据的知识抽取包括属性抽取和特征提取两部份。属性抽取主要包括数据类别、数据名称、分辨率、所属卫星、传感器、包含目标、景号、位置、范围、产品级别、拇指图等元数据信息。特征提取首先根据遥感影像的相谱显著性图,提取感兴趣区域;在感兴趣区域内进行同质滤波,结合相谱显著性图,确认待检测目标区域;在目标区域内,计算各目标的主轴方向,提取目标的S-HOG特征描述子;根据目标的形状知识,对目标的S-HOG特征描述子进行判别,进行目标判断识别和提取。
步骤五:知识融合。知识融合即是将两个或多个知识构建链接关系。根据对遥感数据抽取出的元数据信息,通过融合不同本体数据的属性(元数据信息的属性)相似度来构建多个知识体系的链接关系。如对于遥感影像产品,通过特征提取、语义分析等的方式提取出舰船目标,舰船目标作为元数据信息,可以有位置、型号、大小等多个属性值,通过属性值集的比对,判断本体数据是否有关联性。
步骤六:关联关系构建。通过对本体知识的抽取和融合,在数据库建立索引,运用图数据库构建知识图谱拓扑关系。表现形式如图2所示。根据提取出的实体和实体关系,将***中用到的数据进行入库,本发明使用的是图形数据库用于知识图谱的存储,可以直接进行直观的拓扑展示,图2中展示是在***目录选择一景影像后构建的拓扑关系图示例。
完成关联关系构建后,本发明进一步进行用户画像构建层,通过挖掘分析技术,全面***地搜集用户信息资源,对用户背景信息、行为习惯等主要特征进行挖掘分析,建立个性化用户画像模型。参见图3,主要过程包括如下步骤:
步骤七:构建用户画像标签。对已采集的大量用户身份和行为数据进行挖掘分析。在对原始数据进行整合和筛选后,根据数据的属性和重要性,将数据划分为两类标签数据,分别是静态标签数据和动态标签数据。
1.1静态标签数据抽取。静态标签数据的内容稳定无变动,存储格式为结构化形式。
1.2动态标签数据抽取。动态标签数据是用户与业务***交互过程中不断变化的行为信息。动态标签数据主要包括浏览行为信息、下载行为信息、评价行为信息。
步骤八:相似度计算。相似度计算针对不同类用户的身份和行为,通过静态标签数据和动态标签数据进行挖掘分析,进行相似度统计,目的是为庞大的用户群体进行归类,提高智能推荐的效率。本发明提出身份相似度计算和用户偏好相似度计算两种策略。
步骤九:个性化用户画像模型构建。相似度计算的输出为一类用户的行为习惯,与关联关系构建模型中的结果进行匹配。具体流程图如图3所示。
所述步骤七具体包括:属性抽取,在对原始数据进行整合和筛选后,根据数据的属性,划分为静态数据标签和动态数据标签;
静态数据标签的抽取,主要是用户属性信息,主要包括用户名、用户ID、密码、邮箱、联系方式、机构、组织、类型、行业、国籍等;
动态标签数据抽取,主要包括浏览行为信息、下载行为信息、评价行为信息。访问行为信息主要包含:用户所在单位、用户访问时间、用户访问次数、用户访问的IP、用户访问模块;下载行为信息主要包括下载单位、下载数据类型、下载数据次数、下载数据大小、下载数据卫星载荷、下载数据类型、下载数据分辨率;评价行为信息主要包括评价分级、评价内容、评价用户。
所述步骤八中,用户身份相似度计算和用户偏好相似度计算两种策略。
用户身份相似度计算包括:从构建好的用户画像标签中选择较能代表用户社会身份的5个标签,分别是机构、组织、类型、行业、国籍,并为这5个标签设置权重,分别用s1、s2、s3、s4、s5表示,权重值分别设置为2/9、2/9、2/9、2/9、1/9。通过对比两两用户之间的5个身份标签来计算用户身份相似度,假设对应标签相同,则加上对应权重,否则为0,用simI(u,v)表示用户u与用户v的身份相似度,则:
simI(u,v)=s1+s2+s3+s4+s5 (1)
其中,用户偏好相似度计算包括:以用户的行为习惯作为用户偏好考量依据,选择较能代表用户行为深度的3个标签,分别是浏览、下载及评价,并为这3个标签设置权重,分别用v、d、e表示,权重值分别为1/6、1/2、1/3。若对当前产品有相应行为则在相应行为值上加上对应权值,否则加0,用pref表示用户对一个产品的偏好程度,即偏好值,则:
pref=v+d+e (2)
对每一个用户重复上述步骤,得到用户偏好集;
所述步骤九中用户画像模型构建,具体包括用户-数据模型构建、用户相似度计算和关联数据的用户匹配。
1.用户-数据模型构建。构建用户-数据矩阵,如下表1所示,其中R(n,m)=pref,表示用户对数据的偏好值,即用户n对产品m的偏好值。
表1用户-数据矩阵
p<sub>1</sub> | p<sub>2</sub> | …… | p<sub>m</sub> | |
u<sub>1</sub> | R(1,1) | R(1,2) | …… | R(1,m) |
u<sub>2</sub> | R(2,1) | R(2,2) | …… | R(2,m) |
…… | … | …… | …… | …… |
u<sub>n</sub> | R(n,1) | R(n,2) | …… | R(n,m) |
pm代表第m个产品;un代表第n个用户。
最后在用户-数据矩阵的基础上以余弦相似性度量用户偏好相似性,余弦相似性通过计算向量之间的余弦夹角来度量用户相似性。设用户u和用户v之间的相似度为simcoll(u,v),用户u的偏好值表示为向量u,用户v的偏好值表示为向量v,则simcoll(u,v)计算如下:
2.用户相似度计算,用户相似度结合了用户身份相似度simI和用户行为相似度simcoll(u,v),λ用于调节参数,其中0≤λ≤1,具体计算如公式所示:
sim(u,v)=λ×simI(u,v)+(1-λ)×simcoll(u,v)(4)
在得到用户相似度之后,取目标用户相似度值最高的k个用户作为目标用户的最近邻用户,然后就可以根据最近邻用户对产品的偏好值预测目标用户的偏好;计算公式如下:
3.关联数据的用户匹配。根据获取到的用户预测偏好值集合,可以匹配到用户感兴趣数据列表集,通过关联关系构建层,可以得到和用户感兴趣数据相关的所有关联数据拓扑集,该集合以拓扑或数据集的方式自动推送到用户端,供用户查看。
该方法最大化的挖掘数据的可用信息,并及时的进行多源异构数据的共享,使得用户全面、概括的掌握感兴趣数据的所有信息,最大化的实现了遥感数据使用价值。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (9)
1.一种基于多源异构遥感数据关联构建及多用户数据匹配方法,其特征在于,包括如下步骤:
步骤一:输入遥感业务数据集和遥感产品数据集,所述遥感业务数据集包括目标、轨迹、文本、图片数据;遥感产品数据包括Sar影像、全色影像、多光谱影像数据、可见光数据遥感影像数据;
步骤二:进行数据清洗和预处理,所述数据清洗包括:对于遥感业务数据进行语法检查、拼写检查、缺失值处理、去重处理、去除无效字符和噪声处理;所述预处理包括对于遥感产品数据,借助人工判读进行影像质量检查,对于变形、云雾干扰的影像首先进行影像预处理;包括剔除不必要的厚云区域,进行云雾去除;进行形变校正,针对SAR成像存在几何形变导致机场、道路发生弯曲,运用图像非均匀采样的方法进行形变校正,采用双线性插值、或立方插值方法进行像元位置或像元间距重新采样;
步骤三:进行数据分类建模,数据分类建模输入为步骤二进行清洗后的数据集,分类器采用数据挖掘中关联规则挖掘的方法,基于关联规则的分类,首先用关联规则挖掘算法从训练数据本体样本集中挖掘出所有指定置信度的类关联规则;然后从挖掘出的类关联规则中迭代出最优规则用于分类,最后运用最优规则将表征同一事物的本体聚集到一起,将多个异构本体合并为全局统一本体;
步骤四:知识抽取,包括遥感业务数据的属性抽取和遥感产品数据的特征提取;所述遥感业务数据的属性抽取包括名称、时间、空间、上传者、所属国家、数据格式、关键词、元数据信息的抽取;所述元数据信息包括数据类别、数据名称、分辨率、所属卫星、传感器、包含目标、景号、位置、范围、产品级别、拇指图;所述特征提取首先根据遥感影像的相谱显著性图,提取感兴趣区域;在感兴趣区域内进行同质滤波,结合相谱显著性图,确认待检测目标区域;在目标区域内,计算各目标的主轴方向,提取目标的S-HOG特征描述子;根据目标的形状知识,对目标的S-HOG特征描述子进行判别,进行目标判断识别和提取;
步骤五:进行多源异构知识融合,将多个知识构建链接关系,根据对遥感数据抽取出的元数据信息,通过融合不同本体数据的属性相似度来构建多个知识体系的链接关系;
步骤六:关联关系模型构建,通过对本体知识的抽取和融合,在数据库建立索引,运用图数据库构建知识图谱拓扑关系,得到关联关系构建模型;
步骤七:对已采集的大量用户身份和行为数据进行挖掘分析,构建用户画像标签,在对原始数据进行整合和筛选后,根据数据的属性和重要性,将数据划分为两类标签数据,分别是静态标签数据和动态标签数据;
步骤八:针对不同类用户的身份和行为进行相似度计算,通过静态标签数据和动态标签数据进行挖掘分析,进行相似度计算,对庞大的用户群体进行归类;
步骤九:进行个性化用户画像模型构建,步骤八相似度计算的输出为一类用户的行为习惯,将之与关联关系构建模型中的结果进行匹配。
2.根据权利要求1所述的一种基于多源异构遥感数据关联构建及多用户数据匹配方法,其特征在于:
所述步骤一中的目标为能够从遥感影像上提取到的物体,包括舰船、港口飞机、机场、标志性地标建筑物,所述轨迹为物体运动轨迹,包括:舰船轨迹,无人机航迹线,所述图片为与影像相关的缩略图、与目标相关的公开图片。
3.根据权利要求1所述的一种基于多源异构遥感数据关联构建及多用户数据匹配方法,其特征在于:
所述步骤五中,通过融合不同本体数据的属性相似度来构建多个知识体系的链接关系,所述数据的属性是指元数据信息的属性,对于遥感影像产品,通过特征提取、语义分析的方式提取出舰船目标,舰船目标作为元数据信息,包括位置、型号、大小多个属性值,通过属性值集的比对,判断本体数据是否有关联性。
4.根据权利要求1所述的一种基于多源异构遥感数据关联构建及多用户数据匹配方法,其特征在于:
所述步骤七,将数据划分为两类标签数据,分别是静态标签数据和动态标签数据,具体包括:
静态标签数据抽取,静态标签数据的内容稳定无变动,存储格式为结构化形式;
动态标签数据抽取,动态标签数据是用户与业务***交互过程中不断变化的行为信息,动态标签数据主要包括浏览行为信息、下载行为信息、评价行为信息。
5.根据权利要求1所述的一种基于多源异构遥感数据关联构建及多用户数据匹配方法,其特征在于:所述步骤八中,用户偏好相似度计算包括:
以用户的行为习惯作为用户偏好考量依据,选择代表用户行为深度的3个标签,分别是浏览、下载及评价,并为这3个标签设置权重,分别用v、d、e表示,权重值分别为1/6、1/2、1/3;若对当前产品有相应行为则在相应行为值上加上对应权值,否则加0,用pref表示用户对一个产品的偏好程度,即偏好值,则:
pref=v+d+e (1)
对每一个用户重复上述步骤,得到用户偏好集。
6.根据权利要求1所述的一种基于多源异构遥感数据关联构建及多用户数据匹配方法,其特征在于,所述步骤八中,用户身份相似度计算包括:
从构建好的用户画像标签中选择较能代表用户社会身份的5个标签,分别是机构、组织、类型、行业、国籍,并为这5个标签设置权重,分别用s1、s2、s3、s4、s5表示,权重值分别设置为2/9、2/9、2/9、2/9、1/9;通过对比两两用户之间的5个身份标签来计算用户身份相似度,假设对应标签相同,则加上对应权重,否则为0,用simI(u,v)表示用户u与用户v的身份相似度,则:
simI(u,v)=s1+s2+s3+s4+s5 (2)。
7.根据权利要求1所述的一种基于多源异构遥感数据关联构建及多用户数据匹配方法,其特征在于,所述步骤九中用户画像模型构建包括:
用户-数据模型构建包括,构建包括用户-数据矩阵,代表用户对产品的偏好值;
结合用户身份相似度和用户行为相似度计算用户相似度,得到用户对产品的测偏好值集合;
最后进行关联数据的用户匹配,根据获取到的用户预测偏好值集合,匹配到用户感兴趣数据列表集,通过关联关系构建层,得到和用户感兴趣数据相关的所有关联数据拓扑集。
9.根据权利要求7所述的一种基于多源异构遥感数据关联构建及多用户数据匹配方法,其特征在于,所述用户相似度计算,用户相似度结合了用户身份相似度simI和用户行为相似度simcoll(u,v),λ用于调节参数,其中0≤λ≤1,具体计算如公式所示:
sim(u,v)=λ×simI(u,v)+(1-λ)×simcoll(u,v) (4)
在得到用户相似度之后,取目标用户相似度值最高的k个用户作为目标用户的最近邻用户,然后根据最近邻用户对产品的偏好值预测目标用户的偏好;计算公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010447854.XA CN111666313B (zh) | 2020-05-25 | 2020-05-25 | 基于多源异构遥感数据关联构建及多用户数据匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010447854.XA CN111666313B (zh) | 2020-05-25 | 2020-05-25 | 基于多源异构遥感数据关联构建及多用户数据匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666313A CN111666313A (zh) | 2020-09-15 |
CN111666313B true CN111666313B (zh) | 2023-02-07 |
Family
ID=72384489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010447854.XA Active CN111666313B (zh) | 2020-05-25 | 2020-05-25 | 基于多源异构遥感数据关联构建及多用户数据匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666313B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131275B (zh) * | 2020-09-23 | 2023-07-25 | 长三角信息智能创新研究院 | 全息城市大数据模型和知识图谱的企业画像构建方法 |
CN112182131B (zh) * | 2020-09-28 | 2021-11-09 | 中国电子科技集团公司第五十四研究所 | 一种基于多属性融合的遥感影像推荐方法 |
CN112507185B (zh) * | 2020-10-22 | 2022-08-19 | 复旦大学 | 用户肖像的确定方法和装置 |
CN112256938B (zh) * | 2020-12-23 | 2021-03-19 | 畅捷通信息技术股份有限公司 | 一种消息元数据的处理方法、装置、介质 |
CN113220894B (zh) * | 2021-02-07 | 2023-08-18 | 国家卫星气象中心(国家空间天气监测预警中心) | 一种基于感知计算的卫星遥感数据智能获取方法 |
CN112989063B (zh) * | 2021-03-10 | 2023-02-10 | 青岛弯弓信息技术有限公司 | 一种基于知识图谱的3d建模方法及*** |
CN112966027B (zh) * | 2021-03-22 | 2022-10-21 | 青岛科技大学 | 一种基于动态探针的实体关联挖掘方法 |
CN113076476B (zh) * | 2021-04-01 | 2021-11-30 | 重庆邮电大学 | 一种微博异构信息的用户画像构建方法 |
CN113157678B (zh) * | 2021-04-19 | 2022-03-15 | 中国人民解放军91977部队 | 一种多源异构数据关联方法 |
CN113392320A (zh) * | 2021-05-14 | 2021-09-14 | 国家卫星气象中心(国家空间天气监测预警中心) | 一种基于知识服务的卫星遥感服务提供方法 |
CN113297395B (zh) * | 2021-07-08 | 2021-09-24 | 中国人民解放军国防科技大学 | 时空多模态混合数据处理方法、关联方法与索引方法 |
CN114003956B (zh) * | 2021-11-03 | 2022-10-25 | 江苏天汇空间信息研究院有限公司 | 应用大数据分析的空间数据分析调度***及方法 |
CN113987131B (zh) * | 2021-11-11 | 2022-08-23 | 江苏天汇空间信息研究院有限公司 | 异构多源数据关联分析***和方法 |
CN114491108B (zh) * | 2021-12-30 | 2023-03-24 | 中科星通(廊坊)信息技术有限公司 | 一种基于多源遥感应用数据的在线分类***及方法 |
CN114384015A (zh) * | 2022-01-12 | 2022-04-22 | 中国环境科学研究院 | 一种基于多源遥感和机器学习的水环境监测方法 |
CN114565046A (zh) * | 2022-03-01 | 2022-05-31 | 中科海慧(北京)科技有限公司 | 一种基于遥感高光谱的矿产资源探测***及探测方法 |
CN116756229B (zh) * | 2023-06-01 | 2023-11-28 | 广州盛成妈妈网络科技股份有限公司 | 一种数据挖掘与可视化的方法 |
CN116956130B (zh) * | 2023-07-25 | 2024-06-14 | 北京安联通科技有限公司 | 一种基于关联特征梳理模型的智能化数据处理方法及*** |
CN117351257B (zh) * | 2023-08-24 | 2024-04-02 | 长江水上交通监测与应急处置中心 | 一种基于多模态信息的航运数据抽取方法及*** |
CN117575011B (zh) * | 2023-12-06 | 2024-06-25 | 深圳市万恒科技有限公司 | 一种基于大数据的客户数据管理方法及*** |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063555A (zh) * | 2014-07-07 | 2014-09-24 | 成都理工大学 | 面向遥感信息智能分发的用户模型建模方法 |
CN104063421A (zh) * | 2014-05-14 | 2014-09-24 | 中交宇科(北京)空间信息技术有限公司 | 海量交通遥感数据检索方法和装置 |
CN105095436A (zh) * | 2015-07-23 | 2015-11-25 | 苏州国云数据科技有限公司 | 数据源数据自动建模方法 |
CN105654137A (zh) * | 2015-12-31 | 2016-06-08 | 中国科学院电子学研究所 | 一种海量遥感数据分类组织方法 |
CN106096663A (zh) * | 2016-06-24 | 2016-11-09 | 长春工程学院 | 一种基于稀疏异构分组的高光谱遥感影像的分类器构建方法 |
CN106651424A (zh) * | 2016-09-28 | 2017-05-10 | 国网山东省电力公司电力科学研究院 | 基于大数据技术的电力用户画像建立与分析方法 |
CN106951433A (zh) * | 2017-02-04 | 2017-07-14 | 百度在线网络技术(北京)有限公司 | 一种检索方法及装置 |
CN107633075A (zh) * | 2017-09-22 | 2018-01-26 | 吉林大学 | 一种多源异构数据融合平台及融合方法 |
WO2018098738A1 (zh) * | 2016-11-30 | 2018-06-07 | 深圳益强信息科技有限公司 | 一种基于航空航天多源遥感数据的监测方法及装置 |
CN109767300A (zh) * | 2019-01-14 | 2019-05-17 | 博拉网络股份有限公司 | 基于用户习惯的大数据画像及模型构建方法 |
CN109784351A (zh) * | 2017-11-10 | 2019-05-21 | 财付通支付科技有限公司 | 数据分类方法、分类模型训练方法及装置 |
CN109800671A (zh) * | 2018-12-28 | 2019-05-24 | 北京市遥感信息研究所 | 面向目标解译的多源遥感信息知识图谱构建方法和*** |
CN109993220A (zh) * | 2019-03-23 | 2019-07-09 | 西安电子科技大学 | 基于双路注意力融合神经网络的多源遥感图像分类方法 |
CN110245874A (zh) * | 2019-03-27 | 2019-09-17 | 中国海洋大学 | 一种基于机器学习和知识推理的决策融合方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7627620B2 (en) * | 2004-12-16 | 2009-12-01 | Oracle International Corporation | Data-centric automatic data mining |
US20130262483A1 (en) * | 2012-03-30 | 2013-10-03 | Nokia Corporation | Method and apparatus for providing intelligent processing of contextual information |
US20170124497A1 (en) * | 2015-10-28 | 2017-05-04 | Fractal Industries, Inc. | System for automated capture and analysis of business information for reliable business venture outcome prediction |
GB2555573B (en) * | 2016-10-21 | 2020-03-25 | Centrica Hive Ltd | HVAC performance monitoring system |
-
2020
- 2020-05-25 CN CN202010447854.XA patent/CN111666313B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063421A (zh) * | 2014-05-14 | 2014-09-24 | 中交宇科(北京)空间信息技术有限公司 | 海量交通遥感数据检索方法和装置 |
CN104063555A (zh) * | 2014-07-07 | 2014-09-24 | 成都理工大学 | 面向遥感信息智能分发的用户模型建模方法 |
CN105095436A (zh) * | 2015-07-23 | 2015-11-25 | 苏州国云数据科技有限公司 | 数据源数据自动建模方法 |
CN105654137A (zh) * | 2015-12-31 | 2016-06-08 | 中国科学院电子学研究所 | 一种海量遥感数据分类组织方法 |
CN106096663A (zh) * | 2016-06-24 | 2016-11-09 | 长春工程学院 | 一种基于稀疏异构分组的高光谱遥感影像的分类器构建方法 |
CN106651424A (zh) * | 2016-09-28 | 2017-05-10 | 国网山东省电力公司电力科学研究院 | 基于大数据技术的电力用户画像建立与分析方法 |
WO2018098738A1 (zh) * | 2016-11-30 | 2018-06-07 | 深圳益强信息科技有限公司 | 一种基于航空航天多源遥感数据的监测方法及装置 |
CN106951433A (zh) * | 2017-02-04 | 2017-07-14 | 百度在线网络技术(北京)有限公司 | 一种检索方法及装置 |
CN107633075A (zh) * | 2017-09-22 | 2018-01-26 | 吉林大学 | 一种多源异构数据融合平台及融合方法 |
CN109784351A (zh) * | 2017-11-10 | 2019-05-21 | 财付通支付科技有限公司 | 数据分类方法、分类模型训练方法及装置 |
CN109800671A (zh) * | 2018-12-28 | 2019-05-24 | 北京市遥感信息研究所 | 面向目标解译的多源遥感信息知识图谱构建方法和*** |
CN109767300A (zh) * | 2019-01-14 | 2019-05-17 | 博拉网络股份有限公司 | 基于用户习惯的大数据画像及模型构建方法 |
CN109993220A (zh) * | 2019-03-23 | 2019-07-09 | 西安电子科技大学 | 基于双路注意力融合神经网络的多源遥感图像分类方法 |
CN110245874A (zh) * | 2019-03-27 | 2019-09-17 | 中国海洋大学 | 一种基于机器学习和知识推理的决策融合方法 |
Non-Patent Citations (2)
Title |
---|
地理时空数据关联与聚合服务方法综述;仇林遥 等;《中国电子科学研究院学报》;20190920;全文 * |
多传感器影像建模的海洋遥感数据管理应用;王婷等;《测绘科学》(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111666313A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111666313B (zh) | 基于多源异构遥感数据关联构建及多用户数据匹配方法 | |
Liu et al. | Classifying urban land use by integrating remote sensing and social media data | |
Yao et al. | Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model | |
Jiang | A survey on spatial prediction methods | |
KR101856120B1 (ko) | 이미지로부터 상가 발견 | |
Andrade et al. | POI mining for land use classification: A case study | |
Feick et al. | A multi-scale approach to exploring urban places in geotagged photographs | |
Xu et al. | A new remote sensing images and point-of-interest fused (RPF) model for sensing urban functional regions | |
Best et al. | Geospatial web services within a scientific workflow: Predicting marine mammal habitats in a dynamic environment | |
McArdle et al. | Classifying pedestrian movement behaviour from GPS trajectories using visualization and clustering | |
CN115934990B (zh) | 基于内容理解的遥感影像推荐方法 | |
Yang et al. | Detecting interchanges in road networks using a graph convolutional network approach | |
Zhang et al. | City2vec: Urban knowledge discovery based on population mobile network | |
Fang et al. | Synthesizing location semantics from street view images to improve urban land-use classification | |
Lin et al. | Extracting urban landmarks from geographical datasets using a random forests classifier | |
Qiao et al. | Urban land-use analysis using proximate sensing imagery: a survey | |
WO2022238873A1 (en) | Knowledge space analytics | |
CN113408663B (zh) | 融合模型构建方法、融合模型使用方法、装置和电子设备 | |
Li et al. | Urban infrastructure audit: an effective protocol to digitize signalized intersections by mining street view images | |
Guo et al. | Object discovery in high-resolution remote sensing images: a semantic perspective | |
CN112015937B (zh) | 一种图片地理定位方法及*** | |
Xu et al. | [Retracted] Tourist Attraction Recommendation Method and Data Management Based on Big Data Analysis | |
CN113032504A (zh) | 村镇社区公共服务时空数据汇聚方法及装置 | |
Li et al. | Spatial Data Science | |
Jiang et al. | Spatial Big Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230913 Address after: 101399 No. 2 East Airport Road, Shunyi Airport Economic Core Area, Beijing (1st, 5th and 7th floors of Industrial Park 1A-4) Patentee after: Zhongke Star Map Co.,Ltd. Patentee after: Zhongke Xingtu Intelligent Technology Co.,Ltd. Address before: 101399 No. 2 Airport East Road, Shunyi Airport Economic Core Area, Beijing Patentee before: Zhongke Star Map Co.,Ltd. |