CN110990450A - 潜在入侵畜禽疫病疫情数据处理方法及装置 - Google Patents
潜在入侵畜禽疫病疫情数据处理方法及装置 Download PDFInfo
- Publication number
- CN110990450A CN110990450A CN201911090230.0A CN201911090230A CN110990450A CN 110990450 A CN110990450 A CN 110990450A CN 201911090230 A CN201911090230 A CN 201911090230A CN 110990450 A CN110990450 A CN 110990450A
- Authority
- CN
- China
- Prior art keywords
- data
- epidemic
- analysis
- analysis data
- standardized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 244000144972 livestock Species 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 39
- 244000144977 poultry Species 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 title claims abstract description 32
- 238000004458 analytical method Methods 0.000 claims abstract description 120
- 241001465754 Metazoa Species 0.000 claims abstract description 78
- 201000010099 disease Diseases 0.000 claims abstract description 69
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 69
- 230000009545 invasion Effects 0.000 claims abstract description 6
- 230000034994 death Effects 0.000 claims description 18
- 231100000517 death Toxicity 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 10
- 238000007405 data analysis Methods 0.000 claims description 4
- 244000025254 Cannabis sativa Species 0.000 claims description 3
- 230000000967 entomopathogenic effect Effects 0.000 abstract description 12
- 230000005540 biological transmission Effects 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013479 data entry Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000005541 medical transmission Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 208000031295 Animal disease Diseases 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 208000009305 pseudorabies Diseases 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 201000008827 tuberculosis Diseases 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/70—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in livestock or poultry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Biomedical Technology (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
Abstract
本公开涉及一种潜在入侵畜禽疫病疫情数据处理方法及装置。本公开提供的技术方案,其多个原始数据表来源于进境动物和动物产品检疫信息数据库及动物疫情信息网站的数据,数据较全且与畜禽疫病疫情相关。并且,对获取的多个原始数据表进行删除、去重和拼接以整合为一总表,便于数据处理分析。而且,其根据总表形成的总分析数据表是结合了天气信息的,在进行虫媒介传播类的疫病疫情潜在入侵分析时,就需要分析动物是否接触相关虫媒介及是否遇到虫媒介高发天气。因而,本公开提供的技术方案通过提供与疫病传播直接关联的数据较多的总分析数据表,能有效分析潜在入侵畜禽疫病疫情发生的问题。
Description
技术领域
本公开涉及畜禽疫病技术领域,具体地,涉及一种潜在入侵畜禽疫病疫情数据处理方法及装置。
背景技术
随着信息技术及大数据技术的发展,畜牧行业也日益重视畜禽在养殖、运输、检疫等过程中的数据采集和数据积累。但是,因为现有的数据录入***不够规范完善、数据采集及录入人员为非数据专业的畜牧兽医工作者等原因,使得这些积累的数据与疫病传播直接关联的数据较少,导致难以有效分析潜在入侵畜禽疫病疫情发生的问题。
发明内容
本公开的目的是提供一种潜在入侵畜禽疫病疫情数据处理方法及装置,以解决与疫病传播直接关联的数据较少,导致难以有效分析潜在入侵畜禽疫病疫情发生的问题。
为了实现上述目的,本公开实施例提供一种潜在入侵畜禽疫病疫情数据处理方法,所述方法包括:
获取进境动物和动物产品检疫信息数据库及动物疫情信息网站的数据,形成多个原始数据表;
删除所述多个原始数据表中到港后数据表和无法关联到具体动物的动物疫情信息数据表,得到多个第一分析数据表;
对所述多个第一分析数据表中业务表ID相同的第一分析数据表去重,得到多个第二分析数据表;
将所述多个第二分析数据表根据用户输入的主键拼接为一总表,所述总表的每行代表一条数据、每列代表一记录项;
根据所述总表中每行数据的经纬度信息,从气象数据网站获取对应的天气信息并拼接到每行数据中,得到总分析数据表。
可选地,所述方法还包括:
针对所述总分析数据表中的每行数据,在该行数据中状态为发病且疫病名称为缺省值的情况下,删除该行数据;
针对所述总分析数据表中的每列数据,在该列数据中缺省数大于总数95%的情况下,或在该列数据为单一值的情况下,删除该列数据。
可选地,所述方法还包括:
根据所述标准化疫病名称与疫病名称的对应关系,将所述总分析数据表中的所有疫病名称转化为标准化疫病名称,其中,每一标准化疫病名称与一种疫病对应且与该种疫病的所有疫病名称对应;
对所述总分析数据表中的字段和标准化字段表中的标准化字段进行语义分析,将所述总分析数据表中的字段替换为与所述字段语义相同的标准化字段。
可选地,所述方法还包括:
将所述总分析数据表中死亡数量的缺省值填充为0;
将所述总分析数据表中拒绝入境动物数量的缺省值填充为死亡数量。
可选地,所述方法还包括:
将所述总分析数据表中预设离散型变量做独热编码处理,所述预设离散型变量包括:疫病名称、垫草信息、畜禽品种、出发地和运输工具名称;
将所述总分析数据表中预设连续型变量做标准化处理成0-1之间的值,所述预设连续型变量包括:死亡数量、拒绝入境动物数量和装运数量。
本公开实施例还一种潜在入侵畜禽疫病疫情数据处理装置,所述装置包括:
原始数据表获取模块,用于获取进境动物和动物产品检疫信息数据库及动物疫情信息网站的数据,形成多个原始数据表;
第一分析模块,用于删除所述多个原始数据表中到港后数据表和无法关联到具体动物的动物疫情信息数据表,得到多个第一分析数据表;
第二分析模块,用于对所述多个第一分析数据表中业务表ID相同的第一分析数据表去重,得到多个第二分析数据表;
总表拼接模块,用于将所述多个第二分析数据表根据用户输入的主键拼接为一总表,所述总表的每行代表一条数据、每列代表一记录项;
天气拼接模块,用于根据所述总表中每行数据的经纬度信息,从气象数据网站获取对应的天气信息并拼接到每行数据中,得到总分析数据表。
可选地,所述装置还包括:
行删除模块,用于针对所述总分析数据表中的每行数据,在该行数据中状态为发病且疫病名称为缺省值的情况下,删除该行数据;
列删除模块,用于针对所述总分析数据表中的每列数据,在该列数据中缺省数大于总数95%的情况下,或在该列数据为单一值的情况下,删除该列数据。
可选地,所述装置还包括:
疫病名称标准化模块,用于根据所述标准化疫病名称与疫病名称的对应关系,将所述总分析数据表中的所有疫病名称转化为标准化疫病名称,其中,每一标准化疫病名称与一种疫病对应且与该种疫病的所有疫病名称对应;
字段标准化模块,用于对所述总分析数据表中的字段和标准化字段表中的标准化字段进行语义分析,将所述总分析数据表中的字段替换为与所述字段语义相同的标准化字段。
本公开实施例还一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本公开实施例还提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述方法的步骤。
本公开提供的技术方案,其多个原始数据表来源于进境动物和动物产品检疫信息数据库及动物疫情信息网站的数据,数据较全且与畜禽疫病疫情相关。并且,对获取的多个原始数据表进行删除、去重和拼接以整合为一总表,便于数据处理分析。而且,其根据总表形成的总分析数据表是结合了天气信息的,在进行虫媒介传播类的疫病疫情潜在入侵分析时,就需要分析动物是否接触相关虫媒介及是否遇到虫媒介高发天气。因而,本公开提供的技术方案通过提供与疫病传播直接关联的数据较多的总分析数据表,能有效分析潜在入侵畜禽疫病疫情发生的问题。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开实施例提供的一种潜在入侵畜禽疫病疫情数据处理方法的流程图。
图2是本公开实施例提供的一种潜在入侵畜禽疫病疫情数据处理装置的框图。
图3是本公开实施例提供的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
本公开实施例提供一种潜在入侵畜禽疫病疫情数据处理方法。图1是根据本公开一实施例示出的一种潜在入侵畜禽疫病疫情数据处理方法的流程图。如图1所示,该方法包括以下步骤:
步骤S11,获取进境动物和动物产品检疫信息数据库及动物疫情信息网站的数据,形成多个原始数据表。
可选地,所述进境动物和动物产品检疫信息数据库包括出口国动物信息数据、境外农场检疫信息数据、境外隔离检疫信息数据和境内隔离检疫信息数据中的至少一个,所述动物疫情信息网站的数据包括世界动物卫生组织OIE、全球动物疾病信息***、***粮农组织FAO、世界卫生组织WHO、国际传染病信息中的至少一个。
步骤S12,删除所述多个原始数据表中到港后数据表和无法关联到具体动物的动物疫情信息数据表,得到多个第一分析数据表。
由于本申请提供的技术方案的目的是为预测进境动物到港前的疫情发病情况服务,而到港后数据表与动物入境前的疫病发病情况无关。因此,需要将所述多个原始数据表中到港后数据表删除。无法关联到具体动物的数据表,由于无法定位该数据表与哪一只或那一批动物关联,因此无法有效利用,需要删除。
步骤S13,对所述多个第一分析数据表中业务表ID相同的第一分析数据表去重,得到多个第二分析数据表。
由于***录入的原因,原始数据中存在大量重复数据,即一只/批动物的单条数据可能存在多次重复录入的情况。在畜禽疫病技术领域,业务表ID作为识别每只或每批动物的唯一标识,因而可以通过判断业务表ID是否相同来判断是否是同一只或一批动物。
步骤S14,将所述多个第二分析数据表根据用户输入的主键拼接为一总表,所述总表的每行代表一条数据、每列代表一记录项。
在获取原始数据表后,可以将获取到的原始数据表存入数据库中,在存入数据库时可以根据用户输入生成每个原始数据表的主键。其中,一条数据可以为一个或一批同种类的动物的所有数据,包括进境动物和动物产品检疫信息数据库及动物疫情信息网站的数据,例如包括(农场检疫数据、隔离场检疫数据、运输工具检疫数据、运输在途等数据。每列为一记录项,例如该总表包括多列,该多列分别为发病状态、疫病名称、垫草信息、粪便、检测项目、检测方法、国外检测实验室、预防治疗-疫病名称、预防治疗-药品名称、免疫接种-疫苗种类、免疫接种-疫病名称、畜禽品种、出发地、运输工具名称、死亡数量、拒绝入境动物数量和装运数量等。
步骤S15,根据所述总表中每行数据的经纬度信息,从气象数据网站获取对应的天气信息并拼接到每行数据中,得到总分析数据表。
本公开提供的技术方案,其多个原始数据表来源于进境动物和动物产品检疫信息数据库及动物疫情信息网站的数据,数据较全且与畜禽疫病疫情相关。并且,对获取的多个原始数据表进行删除、去重和拼接以整合为一总表,便于数据处理分析。而且,其根据总表形成的总分析数据表是结合了天气信息的,在进行虫媒介传播类的疫病疫情潜在入侵分析时,就需要分析动物是否接触相关虫媒介及是否遇到虫媒介高发天气。因而,本公开提供的技术方案通过提供与疫病传播直接关联的数据较多的总分析数据表,能有效分析潜在入侵畜禽疫病疫情发生的问题。
可选地,所述方法还包括:
针对所述总分析数据表中的每行数据,在该行数据中状态为发病且疫病名称为空值的情况下,删除该行数据。
由于本申请的目标为预测某种疫病的发病概率,相关字段为疫病名称与状态,所以将状态为发病同时疫病名称为缺省值的行删除,即本申请不考虑未知病因的发病。
针对所述总分析数据表中的每列数据,在该列数据中缺省数大于总数95%的情况下,或在该列数据为单一值的情况下,删除该列数据。
针对所述总分析数据表中的每列数据,在该列数据中缺省数大于总数95%的情况下,表明这列的值存在大量缺省,因而这列对最终结果意义很小,将此列删除。针对所述总分析数据表中的每列数据,在该列数据为单一值的情况下,例如列名称为饲料是否合格、垫草是否合格、是否消毒等,对应的该列各行的值均为是,由于其对于发病或不发病结果均为是,因而其对发病或不发病没有影响,分析没有意义,将此列删除。
通过上述技术方案,删除无意义或对结果没有影响的行和列,可以减少数据量,便于后期计算、分析及建模。
可选地,所述方法还包括:
根据所述标准化疫病名称与疫病名称的对应关系,将所述总分析数据表中的所有疫病名称转化为标准化疫病名称。
其中,每一标准化疫病名称与一种疫病对应且与该种疫病的所有疫病名称对应。由于对于一种疫病其可能包括多个疫病名称,因此需要对疫病名称进行标准化以减少疫病名称数,便于计算、分析。对于一种包括多个疫病名称的疫病,其标准化过程如下:将该多个疫病名称中的一个疫病名称作为该种疫病的标准化疫病名称,并令该多个疫病名称均与该标准化疫病名称相对应,对于所述总分析数据表中的一疫病名称,若该疫病名称为所述多个疫病名称中的任何一个时,将该疫病名称转化为标准化疫病名称。
对所述总分析数据表中的字段和标准化字段表中的标准化字段进行语义分析,将所述总分析数据表中的字段替换为与所述字段语义相同的标准化字段。
同理,由于所述总分析数据表为多个来源不同的数据表拼接而成,其由于录入人不同等原因,非结构化程度较高,因而需要对一些语义相同但表述不同的字段进行标准化。例如,将所述总分析数据表中的出发地为Australia、澳洲等替换成澳大利亚。
通过上述技术方案,将疫病种类相同及语义相同的字段进行标准化,以减少分类结果,便于后期计算、分析及建模。
可选地,所述方法还包括:
将所述总分析数据表中死亡数量的缺省值填充为0。
考虑在实际数据录入时,当死亡数量为缺省时,其可能情况为没有死亡。因而本申请中,将所述总分析数据表中死亡数量的缺省值填充为0。
将所述总分析数据表中拒绝入境动物数量的缺省值填充为死亡数量。
本申请将所述总分析数据表中拒绝入境动物数量的缺省值填充为死亡数量含义为:拒绝入境动物数量最小值为死亡数量,以此作为缺省值进行填充更合理。
通过上述技术方案,对缺省值进行填充,使得数据更加完整,增加数据可利用率。
可选地,所述方法还包括:
将所述总分析数据表中预设离散型变量做独热编码处理。
独热编码,即One-hot Encoding,又称为一位有效编码,用N位状态寄存器来对N个状态进行编码,每个状态都由独立的寄存器表示,其中只有一位有效。所述预设离散型变量包括,但不限于:疫病名称、垫草信息、畜禽品种、出发地和运输工具名称。例如,对疫病名称进行独热编码处理的过程如下:为了便于说明,假设所述总分析数据表中的所有疫病名称有三个,分别为赤羽病、伪狂犬病和结核病,经过独热编码后为001,010,100。通过对预设离散型变量做独热编码处理,可以将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。这会让特征之间的距离计算更加合理。映射到欧式空间的原因是:在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。
将所述总分析数据表中预设连续型变量做标准化处理成0-1之间的值。
其中,所述预设连续型变量包括,但不限于:死亡数量、拒绝入境动物数量和装运数量。对于所述预设连续型变量,其数字大小代表了实际的量的多少,因而将预设连续型变量做标准化处理成0-1之间的值可以减少由单位造成的影响。处理公式为:
式中,x表示一预设连续型变量中的一个值,xmax表示该预设连续型变量中的最大值,xmin表示该预设连续型变量中的最小值,x*表示x标准化后的值。
基于上述发明构思,本公开实施例还提供一种潜在入侵畜禽疫病疫情数据处理装置。如图2所示,所述潜在入侵畜禽疫病疫情数据处理装置包括:原始数据表获取模块11、第一分析模块12、第二分析模块13、总表拼接模块14和天气拼接模块15。
原始数据表获取模块11,用于获取进境动物和动物产品检疫信息数据库及动物疫情信息网站的数据,形成多个原始数据表。
第一分析模块12,用于删除所述多个原始数据表中到港后数据表和无法关联到具体动物的动物疫情信息数据表,得到多个第一分析数据表。
第二分析模块13,用于对所述多个第一分析数据表中业务表ID相同的第一分析数据表去重,得到多个第二分析数据表。
总表拼接模块14,用于将所述多个第二分析数据表根据用户输入的主键拼接为一总表,所述总表的每行代表一条数据、每列代表一记录项。
天气拼接模块15,用于根据所述总表中每行数据的经纬度信息,从气象数据网站获取对应的天气信息并拼接到每行数据中,得到总分析数据表。
本公开提供的技术方案,其多个原始数据表来源于进境动物和动物产品检疫信息数据库及动物疫情信息网站的数据,数据较全且与畜禽疫病疫情相关。并且,对获取的多个原始数据表进行删除、去重和拼接以整合为一总表,便于数据处理分析。而且,其根据总表形成的总分析数据表是结合了天气信息的,在进行虫媒介传播类的疫病疫情潜在入侵分析时,就需要分析动物是否接触相关虫媒介及是否遇到虫媒介高发天气。因而,本公开提供的技术方案通过提供与疫病传播直接关联的数据较多的总分析数据表,能有效分析潜在入侵畜禽疫病疫情发生的问题。
可选地,所述装置还包括:
行删除模块,用于针对所述总分析数据表中的每行数据,在该行数据中状态为发病且疫病名称为缺省值的情况下,删除该行数据。
列删除模块,用于针对所述总分析数据表中的每列数据,在该列数据中缺省数大于总数95%的情况下,或在该列数据为单一值的情况下,删除该列数据。
通过上述技术方案,删除无意义或对结果没有影响的行和列,可以减少数据量,便于后期计算、分析及建模。
可选地,所述装置还包括:
疫病名称标准化模块,用于根据所述标准化疫病名称与疫病名称的对应关系,将所述总分析数据表中的所有疫病名称转化为标准化疫病名称,其中,每一标准化疫病名称与一种疫病对应且与该种疫病的所有疫病名称对应。
字段标准化模块,用于对所述总分析数据表中的字段和标准化字段表中的标准化字段进行语义分析,将所述总分析数据表中的字段替换为与所述字段语义相同的标准化字段。
通过上述技术方案,将疫病种类相同及语义相同的字段进行标准化,以减少分类结果,便于后期计算、分析及建模。
可选地,所述装置还包括:
死亡数量填充模块,用于将所述总分析数据表中死亡数量的缺省值填充为0。
拒绝入境数量填充模块,用于将所述总分析数据表中拒绝入境动物数量的缺省值填充为死亡数量。
通过上述技术方案,对缺省值进行填充,使得数据更加完整,增加数据可利用率。
可选地,所述装置还包括:
独热编码模块,用于将所述总分析数据表中预设离散型变量做独热编码处理。
连续变量标准化模块,用于将所述总分析数据表中预设连续型变量做标准化处理成0-1之间的值。
通过上述技术方案,对预设离散型变量做独热编码处理,可以将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。这会让特征之间的距离计算更加合理。映射到欧式空间的原因是:在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。对于所述预设连续型变量,其数字大小代表了实际的量的多少,因而将预设连续型变量做标准化处理成0-1之间的值可以减少由单位造成的影响。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于上述发明构思,本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现潜在入侵畜禽疫病疫情数据处理方法的步骤。
基于上述发明构思,本公开实施例还提供一种电子设备。图3是根据一示例性实施例示出的一种电子设备700的框图。如图3所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的潜在入侵畜禽疫病疫情数据处理方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的潜在入侵畜禽疫病疫情数据处理方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的潜在入侵畜禽疫病疫情数据处理方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的潜在入侵畜禽疫病疫情数据处理方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的潜在入侵畜禽疫病疫情数据处理方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种潜在入侵畜禽疫病疫情数据处理方法,其特征在于,所述方法包括:
获取进境动物和动物产品检疫信息数据库及动物疫情信息网站的数据,形成多个原始数据表;
删除所述多个原始数据表中到港后数据表和无法关联到具体动物的动物疫情信息数据表,得到多个第一分析数据表;
对所述多个第一分析数据表中业务表ID相同的第一分析数据表去重,得到多个第二分析数据表;
将所述多个第二分析数据表根据用户输入的主键拼接为一总表,所述总表的每行代表一条数据、每列代表一记录项;
根据所述总表中每行数据的经纬度信息,从气象数据网站获取对应的天气信息并拼接到每行数据中,得到总分析数据表。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述总分析数据表中的每行数据,在该行数据中状态为发病且疫病名称为缺省值的情况下,删除该行数据;
针对所述总分析数据表中的每列数据,在该列数据中缺省数大于总数95%的情况下,或在该列数据为单一值的情况下,删除该列数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述标准化疫病名称与疫病名称的对应关系,将所述总分析数据表中的所有疫病名称转化为标准化疫病名称,其中,每一标准化疫病名称与一种疫病对应且与该种疫病的所有疫病名称对应;
对所述总分析数据表中的字段和标准化字段表中的标准化字段进行语义分析,将所述总分析数据表中的字段替换为与所述字段语义相同的标准化字段。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述总分析数据表中死亡数量的缺省值填充为0;
将所述总分析数据表中拒绝入境动物数量的缺省值填充为死亡数量。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
将所述总分析数据表中预设离散型变量做独热编码处理,所述预设离散型变量包括:疫病名称、垫草信息、畜禽品种、出发地和运输工具名称;
将所述总分析数据表中预设连续型变量做标准化处理成0-1之间的值,所述预设连续型变量包括:死亡数量、拒绝入境动物数量和装运数量。
6.一种潜在入侵畜禽疫病疫情数据处理装置,其特征在于,所述装置包括:
原始数据表获取模块,用于获取进境动物和动物产品检疫信息数据库及动物疫情信息网站的数据,形成多个原始数据表;
第一分析模块,用于删除所述多个原始数据表中到港后数据表和无法关联到具体动物的动物疫情信息数据表,得到多个第一分析数据表;
第二分析模块,用于对所述多个第一分析数据表中业务表ID相同的第一分析数据表去重,得到多个第二分析数据表;
总表拼接模块,用于将所述多个第二分析数据表根据用户输入的主键拼接为一总表,所述总表的每行代表一条数据、每列代表一记录项;
天气拼接模块,用于根据所述总表中每行数据的经纬度信息,从气象数据网站获取对应的天气信息并拼接到每行数据中,得到总分析数据表。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
行删除模块,用于针对所述总分析数据表中的每行数据,在该行数据中状态为发病且疫病名称为缺省值的情况下,删除该行数据;
列删除模块,用于针对所述总分析数据表中的每列数据,在该列数据中缺省数大于总数95%的情况下,或在该列数据为单一值的情况下,删除该列数据。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
疫病名称标准化模块,用于根据所述标准化疫病名称与疫病名称的对应关系,将所述总分析数据表中的所有疫病名称转化为标准化疫病名称,其中,每一标准化疫病名称与一种疫病对应且与该种疫病的所有疫病名称对应;
字段标准化模块,用于对所述总分析数据表中的字段和标准化字段表中的标准化字段进行语义分析,将所述总分析数据表中的字段替换为与所述字段语义相同的标准化字段。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911090230.0A CN110990450A (zh) | 2019-11-08 | 2019-11-08 | 潜在入侵畜禽疫病疫情数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911090230.0A CN110990450A (zh) | 2019-11-08 | 2019-11-08 | 潜在入侵畜禽疫病疫情数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110990450A true CN110990450A (zh) | 2020-04-10 |
Family
ID=70083878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911090230.0A Pending CN110990450A (zh) | 2019-11-08 | 2019-11-08 | 潜在入侵畜禽疫病疫情数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990450A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106960124A (zh) * | 2017-03-17 | 2017-07-18 | 北京农信互联科技有限公司 | 牲畜疫情警报方法及装置 |
CN109509558A (zh) * | 2018-11-20 | 2019-03-22 | 河南省疾病预防控制中心 | 基于b/s架构的发热疫情快速反应智能公卫服务*** |
CN109918376A (zh) * | 2019-02-26 | 2019-06-21 | 北京致远互联软件股份有限公司 | 数据表处理方法、装置以及电子设备 |
CN110119413A (zh) * | 2019-04-30 | 2019-08-13 | 京东城市(南京)科技有限公司 | 数据融合的方法和装置 |
-
2019
- 2019-11-08 CN CN201911090230.0A patent/CN110990450A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106960124A (zh) * | 2017-03-17 | 2017-07-18 | 北京农信互联科技有限公司 | 牲畜疫情警报方法及装置 |
CN109509558A (zh) * | 2018-11-20 | 2019-03-22 | 河南省疾病预防控制中心 | 基于b/s架构的发热疫情快速反应智能公卫服务*** |
CN109918376A (zh) * | 2019-02-26 | 2019-06-21 | 北京致远互联软件股份有限公司 | 数据表处理方法、装置以及电子设备 |
CN110119413A (zh) * | 2019-04-30 | 2019-08-13 | 京东城市(南京)科技有限公司 | 数据融合的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Podgórski et al. | Contact rates in wild boar populations: Implications for disease transmission | |
Mur et al. | Understanding African swine fever infection dynamics in Sardinia using a spatially explicit transmission model in domestic pig farms | |
Young et al. | Software to facilitate and streamline camera trap data management: A review | |
Abarenkov et al. | Protax‐fungi: a web‐based tool for probabilistic taxonomic placement of fungal internal transcribed spacer sequences | |
Dórea et al. | Animal health syndromic surveillance: a systematic literature review of the progress in the last 5 years (2011–2016) | |
Triguero-Ocana et al. | Spatio-temporal trends in the frequency of interspecific interactions between domestic and wild ungulates from Mediterranean Spain | |
Carvalho et al. | Drivers of beta diversity in Macaronesian spiders in relation to dispersal ability | |
Fountain‐Jones et al. | How to make more from exposure data? An integrated machine learning pipeline to predict pathogen exposure | |
CN109271356B (zh) | 日志文件格式处理方法、装置、计算机设备和存储介质 | |
Ly et al. | Exploring the relationship between human social deprivation and animal surrender to shelters in British Columbia, Canada | |
Ferreira et al. | How to make methodological decisions when inferring social networks | |
CN111048214A (zh) | 外来畜禽疫病传播态势的预警方法及装置 | |
Dias et al. | Species richness and patterns of overdispersion, clustering and randomness shape phylogenetic and functional diversity–area relationships in habitat islands | |
Gebreyesus et al. | Supervised learning techniques for dairy cattle body weight prediction from 3D digital images | |
WO2021258968A1 (zh) | 小程序分类方法、装置、设备及计算机可读存储介质 | |
CN108021713B (zh) | 一种文档聚类的方法和装置 | |
Lyon et al. | Using internet intelligence to manage biosecurity risks: a case study for aquatic animal health | |
Lawrence et al. | Cluster analysis of the clinical histories of cattle affected with bovine anaemia associated with Theileria orientalis Ikeda type infection | |
US11087882B1 (en) | Signal processing for making predictive determinations | |
CN112947959A (zh) | 一种ai服务平台的更新方法、装置、服务器及存储介质 | |
CN110990450A (zh) | 潜在入侵畜禽疫病疫情数据处理方法及装置 | |
US20200372982A1 (en) | Imputing an outcome attribute to a pers record missing an outcome attribute using a structured situation string or unstructured case note text associated with the record | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
Christian et al. | Robustly estimating the demographic contribution of immigration: Simulation, sensitivity analysis and seals | |
CN114398980A (zh) | 跨模态哈希模型的训练方法、编码方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200410 |