JP2024046580A - 汚染場所の同一媒体のバッチデータに基づく統合統計システムおよび方法 - Google Patents

汚染場所の同一媒体のバッチデータに基づく統合統計システムおよび方法 Download PDF

Info

Publication number
JP2024046580A
JP2024046580A JP2023052527A JP2023052527A JP2024046580A JP 2024046580 A JP2024046580 A JP 2024046580A JP 2023052527 A JP2023052527 A JP 2023052527A JP 2023052527 A JP2023052527 A JP 2023052527A JP 2024046580 A JP2024046580 A JP 2024046580A
Authority
JP
Japan
Prior art keywords
data
feature
list
index
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023052527A
Other languages
English (en)
Other versions
JP7360000B1 (ja
Inventor
李旭偉
Xuwei Li
▲とう▼紹坡
Shaopo Deng
孔令雅
Lingya Kong
謝文逸
Wenyi Xie
豆葉枝
Yezhi Dou
劉国強
Guoqiang
王夢傑
Mengjie Wang
李勗之
Xuzhi Li
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Environmental Sciences MEE
Original Assignee
Nanjing Institute of Environmental Sciences MEE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Environmental Sciences MEE filed Critical Nanjing Institute of Environmental Sciences MEE
Application granted granted Critical
Publication of JP7360000B1 publication Critical patent/JP7360000B1/ja
Publication of JP2024046580A publication Critical patent/JP2024046580A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Stored Programmes (AREA)

Abstract

【課題】汚染場所の同一媒体のバッチデータに基づく統合統計システムおよび方法を提供する。【解決手段】統合統計方法は、汚染場所データを取得するステップS1と、特徴指標を識別および更新するステップS2と、データの集約統合およびデータ統計分析を行うステップS3と、統合統計後の汚染場所データを出力するステップS4と、を含む。【選択図】図2

Description

本発明は、汚染場所データ処理の技術分野に関し、具体的には汚染場所の同一媒体のバッ
チデータに基づく統合統計システムおよび方法に関する。
空間情報技術の発展に伴い、トレンド分析理論は汚染場所の分野に広く応用され、それに
対応して、汚染場所のマスデータに対する掘削分析需要も大幅に増加し、伝統的な場所環
境データの取得、統合、洗浄、掘削方法はバッチデータの処理要求を満たすことが困難で
ある。
本発明は中国の伝統的な汚染場所情報の統計分析モデルを改善し、汚染場所情報の取得コ
ストを大幅に節約し、情報の全面性を保障するとともに、汚染場所に関するデータの統合
効率と負担単位の分析能力を向上させ、時間と経済コストを節約する。
本発明が解決しようとする技術的問題は、従来の場所環境データの取得、統合、洗浄およ
び掘削方法はバッチデータの処理要求を満たすことが困難であることである。
本発明の一側面として、本発明は汚染場所の同一媒体のバッチデータに基づく統合統計シ
ステムを提供し、それは以下を含み:
テンプレートダウンロードモジュール、テンプレートダウンロードモジュールは汚染場所
データの導入テンプレートを提供するために使用され、テンプレートダウンロードモジュ
ールが提供する導入テンプレートのフォーマットは複数のワークシートを含むフォームフ
ァイルであり、
導入モジュール、導入モジュールは導入テンプレートを介して汚染場所データを導入して
一時保存データを得るために使用され、一時保存データは、特徴指標、特徴指標に対応す
る特徴データを含み、一時保存データのフォーマットは複数のワークシートを含むフォー
ムファイルであり、
データ記憶モジュール、データ記憶モジュールは一時保存データを記憶するために使用さ
れ、一時保存データの記憶方式は、特徴指標と特徴データを対応して記憶し、データ記憶
モジュールは3つのリストを介して一時保存データを記憶し、3つのリストはそれぞれリ
スト1、リスト2、リスト3であり、リスト1は一時保存データ中の特徴指標を記憶する
ために使用され、リスト2は特徴指標に対応する特徴データを記憶するために使用され、
リスト3は一時保存データ中のワークシートの名称およびワークシート中の特徴指標を記
憶するために使用され、
特徴指標管理モジュール、特徴指標管理モジュールは標準化特徴指標を決定して与えるた
めに使用され、特徴指標管理モジュールはリスト4と命名されたリストを有し、リスト4
は標準化特徴指標を記憶し、
特徴指標調整モジュール、特徴指標調整モジュールはlist1に記憶された特徴指標に
対して重複・スペース削除操作を行い、重複・スペース削除特徴指標を得て、次に距離類
似度アルゴリズムを編集して、重複・スペース削除特徴指標と標準化特徴指標の2つを類
似度指数計算し、計算した類似度指数に基づいて重複・スペース削除特徴指標を更新、保
持または削除し、
データ選択モジュール、データ選択モジュールは検索欄を提供し、検索欄を通じて検索項
を選択するために使用され、検索欄は、未検出指標濾過、データ統計分析という2つの検
索項を含み、
データ計算モジュール、データ計算モジュールはデータ選択モジュールが選択した検索項
およびテンプレートのヘッダに導入された特徴指標の順序を統合して位置決め条件を得て
、位置決め条件を通じて以下のように汚染場所データの集約統合、一括統計分析を完成し

位置決め条件中の検索項が未検出指標濾過である場合、まず特徴指標調整モジュールで処
理されたリスト2中の内容が空の特徴データを削除し、次にリスト1、リスト2、リスト
3中のデータを導入テンプレートに書き込み、統合統計後の汚染場所データとし、
位置決め条件中の検索項がデータ統計分析である場合、まず特徴指標調整モジュールで処
理されたリスト2中の内容が空の特徴データを削除し、リスト1、リスト2、リスト3中
のデータを導入テンプレートに書き込み、統合統計後の汚染場所データとし、次にリスト
1中の特徴データを一括統計分析して、一括統計データを得て、最後に一括統計データを
統合統計後の汚染場所データに統合して、統合統計後の汚染場所データを得て、
そのうちに、一括統計分析は、平均値、最大値と最小値、分散と標準差を求めることを含
み、
導出モジュール、導出モジュールは統合統計後の汚染場所データを導出するために使用さ
れ、導出モジュールのデータ出力フォーマットは複数のワークシートを含むフォームファ
イルである。
本発明の別の側面として、本発明は、上記の汚染場所の同一媒体のバッチデータに基づく
統合統計システムに基づく汚染場所の同一媒体のバッチデータに基づく統合統計方法をさ
らに提供し、この方法は以下のステップを含み:
S1、汚染場所データを統合統計システムに導入し、導入後の汚染場所データを前処理し
て対応するデータ構造に記憶し、汚染場所データは特徴指標および特徴指標に対応する特
徴データを含み、特徴指標は汚染物の検出指標、検出限界、単位を含み、
S2、特徴指標の識別および更新:
情報処理装置では、特徴指標管理モジュールによって標準化特徴指標を決定して特定し、
特徴指標調整モジュールはまずステップS1で記憶された特徴指標に対して重複・スペー
ス削除操作を行って、重複・スペース削除特徴指標を得て、特徴指標調整モジュールは次
に距離類似度アルゴリズムを編集して重複・スペース削除特徴指標と標準化特徴指標の2
つの類似度指数を計算し、計算した類似度指数に基づいて重複・スペース削除特徴指標を
更新、保持または削除し、
S3、汚染場所データの集約統合と一括統計分析:
情報処理装置では、データ選択モジュールの検索欄を介して検索項を選択し、データ選択
モジュールは検索項をデータ計算モジュールに返信し、
位置決め条件中の検索項が未検出指標濾過である場合、まず特徴指標調整モジュールで処
理したリスト2中の内容が空の特徴データを削除し、次にリスト1、リスト2、リスト3
中のデータを導入テンプレートに書き込み、統合統計後の汚染場所データとし、
位置決め条件中の検索項がデータ統計分析である場合、まず特徴指標調整モジュールで処
理したリスト2中の内容が空の特徴データを削除し、リスト1、リスト2、リスト3中の
データを導入テンプレートに書き込み、統合統計後の汚染場所データとし、次にリスト1
中の特徴データを一括統計分析して一括統計データを得て、最後に一括統計データを統合
統計後の汚染場所データに統合して統合統計後の汚染場所データを得て、
一括統計分析は平均値、最大値と最小値、分散と標準差を求めることを含み、
S4、統合統計後の汚染場所データの出力:
情報処理装置では、導出モジュールによって統合統計後の汚染場所データを出力し、統合
統計後の汚染場所データのフォーマットはフォームファイルである。
本発明の別の側面として、計算して得られた類似度指数に基づいて重複・スペース削除特
徴指標を更新、保持または削除することは、以下の内容を含み:
両者の類似度指数が90%を超え文字表現が一致している場合、重複・スペース削除特徴
指標を保持して決定後の特徴指標としてマークし、
両者の類似度指数が90%を超え文字表現が一致していない場合、重複・スペース削除特
徴指標を標準化特徴指標に更新して決定後の特徴指標としてマークし、
両者の類似度指数が90%未満である場合、ステップS1で記憶した特徴指標も保持し、
類似度指数計算が終了した後、マークしていない特徴指標および特徴指標に対応する特徴
データを削除する。
本発明の別の側面として、ステップS1は以下のステップを含み:
S1-1、汚染場所データを統合統計システムに導入し、
情報処理装置では、テンプレートダウンロードモジュールを通じて汚染場所データの導入
テンプレートをダウンロードし、次に汚染場所データを汚染場所データ導入テンプレート
に記入して、導入可能な汚染場所データを得て、導入モジュールはファイル出力ストリー
ムを通じて導入可能な汚染場所データを読み取り、導入可能な汚染場所データを再分布し
て一時保存データを得て、データ記憶モジュールのさらなる処理を待ち、
汚染場所データ導入テンプレートおよび一時保存データはいずれも複数のワークシートを
含むフォームファイルであり、各ワークシートのヘッダは汚染場所データの特徴指標であ
り、各ヘッダのある列は特徴指標に対応する特徴データである。
本発明の別の側面として、再分布は行列変換、行統合、列統合である。
本発明の別の側面として、ステップS1は以下のステップをさらに含み:
S1-2、前処理後の汚染場所データを記憶し:
情報処理装置では、データ記憶モジュールはまずリスト1、リスト2、リスト3という3
つのリストを作成し、さらに一時保存データ中のワークシートの順序に従って、各ワーク
シートの各行データを読み取り、各ワークシート中の特徴指標に対してスペース・重複削
除操作を行ってリスト1に格納し、各ワークシート中の特徴指標に対応する特徴データを
リスト2に格納し、各ワークシートの名称およびワークシート中の特徴指標をリスト3に
格納する。
本発明は以下の有益な効果を有する。
(1)本発明が提供する統合統計方法は単回処理のマスデータは百万レベルであり、単回
のマスデータの処理時間は5秒以内であり、本分野の汚染場所データの手動リスト処理に
2~3日かかる時間と人件費と比較すると、処理速度を大幅に向上させ、汚染場所データ
の整理よび処理プロジェクト全体のために大量の人力、財力と時間を節約することができ
る。
(2)本発明は構造化データの理念を通じて、手動処理量の百倍、さらに千万倍のデータ
量を超える収集データを結合して全体化、統一化とバッチ化の転換モードを行う。分散し
たデータをフォーマットの需要に基づいて統合することで、前期データ処理の時間コスト
を大幅に削減でき、次の汚染特性と傾向をグラフにして分析するための基礎構造を形成し
、汚染物の空間と時間分布傾向を把握し、場所中の汚染物の全体的な変化傾向と汚染原因
分析を判別および掲示する。
実施例1の汚染場所の同一媒体のバッチデータに基づく統合統計システムの構造図である。 実施例2の汚染場所の同一媒体のバッチデータに基づく統合統計方法のフローチャートである。 実施例3中のwindowオブジェクトの概略図である。
[符号の説明]
101 テンプレートダウンロードモジュール
102 導入モジュール
103 データ記憶モジュール
104 特徴指標管理モジュール
105 特徴指標調整モジュール
106 データ選択モジュール
107 データ計算モジュール
108 導出モジュール
用語解釈
距離類似度編集アルゴリズム:距離類似度編集アルゴリズムはLevenshtein距
離類似度編集アルゴリズムとも呼ばれ、Levenshteinは距離を指し、編集距離
とも呼ばれ、2つの文字列間で、1つからもう1つに変換するのに必要な最小編集操作回
数を指す。許可された編集操作は、1つの文字をもう1つの文字に置換し、1つの文字を
挿入し、1つの文字を削除することを含む。Levenshtein距離類似度編集アル
ゴリズムは1965年にロシアの科学者Vladimir levenshteinによ
って最初に発明された。
HSSFWorkbook:HSSFWorkbookはプログラミング言語Javaが
excelファイルを導入するツールクラスであり、HSSFWorkbookの対応す
るツールクラスはorg.apache.poi.hssf.usermodel.HS
SFWorkbookであり、HSSFWorkbook:Exce12003以前(2
003を含む)のバージョンであり、拡張子は.x1sである。
list:listは集合であり、集合はJava APIが提供する一連のクラスであ
り、複数のオブジェクトを動的に保存するために使用できる。アレイと異なり、集合はサ
イズ可変のシーケンスであり、参照タイプであれば要素タイプは限定されない。集合に基
本データタイプを置くことができないが、基本データタイプのパッケージ類を置くことが
できる。集合類はすべて汎型をサポートし、データセキュリティの使用法である。Jav
aリストは集合の一種であり、リスト中の要素は順序付けられており、繰り返しが許可さ
れている。JavaリストはJava listとも呼ばれる。
math関数:math関数はコンピュータープログラミング言語の関数であり、主にデ
ータ演算に応用される。math関数はコンピュータープログラムの一部の問題を解決す
るために適用され得る。
実施例1
本実施例は、汚染場所の同一媒体のバッチデータに基づく統合統計システムであり、図1
に示すように、以下を含み:
テンプレートダウンロードモジュール101と、テンプレートダウンロードモジュール1
01は汚染場所データの導入テンプレートを提供するために使用され、テンプレートダウ
ンロードモジュール101が提供する導入テンプレートのフォーマットは複数のワークシ
ート(例えばマイクロソフト社のexcel、以下excelと略称する)を含むフォー
ムファイルである。
本実施例では、excelファイル:Microsoft ExcelはWindows
とApple Macintoshオペレーティングシステムを使用するコンピューター
のためにMicrosoftが作成したスプレッドシートソフトウェアであり、exce
lファイルはMicrosoft Excelフォーマット標準のスプレッドシートファ
イルである。ワークシート:ワークシートはexcelファイル中のsheet部分であ
り、1つのexcelファイルは複数のワークシートを含み得て、ワークシートはexc
elファイルに依存している。
導入モジュール102と、導入モジュール102は導入テンプレートを介して汚染場所デ
ータを導入して一時保存データを得るために使用され、一時保存データは、特徴指標、特
徴指標に対応する特徴データを含み、一時保存データのフォーマットは複数のワークシー
トを含むexcelファイルである。
本実施例では、特徴指標は汚染物の検出指標、検出限界、単位を含み、特徴データは汚染
物の検出濃度値を含み、汚染物はアセトン、2-プロパノール、酢酸ビニル、2-ブタノン
、酢酸エチル、4-メチル-2-ペンタノン、2-ヘキサノン、二硫化炭素、ベンゼン、トル
エン、エチルベンゼン、p-m-キシレン、スチレン、o-キシレン、イソプロピルベンゼ
ン、m-エチルトルエン、1,3,5-トリメチルベンゼン、o-エチルトルエン、1,2,4-
トリメチルベンゼン、12,3-トリメチルベンゼン、m-ジエチルベンゼン、クロロジフ
ルオロメタンを含む。
データ記憶モジュール103と、データ記憶モジュール103は一時保存データを記憶す
るために使用され、一時保存データの記憶方式は、特徴指標と特徴データを対応して記憶
し、データ記憶モジュール103は3つのリストを介して一時保存データを記憶し、3つ
のlistはそれぞれlist1、list2、list3であり、list1は一時保
存データ中の特徴指標を記憶するために使用され、list2は特徴指標に対応する特徴
データを記憶するために使用され、list3は一時保存データ中のワークシートの名称
およびワークシート中の特徴指標を記憶するために使用され、、
特徴指標管理モジュール104と、特徴指標管理モジュール104は標準化特徴指標を決
定して与えるために使用され、特徴指標管理モジュール104は標準化特徴指標が記憶さ
れたlist4を有し、標準化特徴指標は汚染場所の従業員によって決定されてlist
4に導かれて書き込まれ、書き込む方式は、コンピュータープログラムによって書き込ま
れる。
特徴指標調整モジュール105と、特徴指標調整モジュール105はlist1に記憶さ
れた特徴指標に対して重複・スペース削除操作を行い、重複・スペース削除特徴指標を得
て、Levenshtein距離類似度アルゴリズムを編集して、重複・スペース削除特
徴指標と標準化特徴指標の2つを類似度指数計算し、計算した類似度指数に基づいて重複
・スペース削除特徴指標を更新、保持または削除し、
データ選択モジュール106と、データ選択モジュール106は検索欄を提供し、検索欄
を通じて検索項を選択するために使用され、検索欄は、未検出指標濾過、データ統計分析
という2つの検索項を含み、
データ計算モジュール107と、データ計算モジュール107はデータ選択モジュール1
06が選択した検索項およびテンプレートのヘッダに導入された特徴指標の順序を統合し
て位置決め条件を得て、位置決め条件を通じて以下のように汚染場所データの集約統合、
一括統計分析を完成し:
位置決め条件中の検索項が未検出指標濾過である場合、まず特徴指標調整モジュール10
5で処理されたlist2中の内容が空の特徴データを削除し、次にlist1、lis
t2、list3中のデータを導入テンプレートに書き込み、統合統計後の汚染場所デー
タとし、
位置決め条件中の検索項がデータ統計分析である場合時、まず特徴指標調整モジュール1
05で処理されたlist2中の内容が空の特徴データを削除し、list1、list
2、list3中のデータを導入テンプレートに書き込み、統合統計後の汚染場所データ
とし、次にlist1中の特徴データを一括統計分析し、一括統計データを得て、最後に
一括統計データを統合統計後の汚染場所データに統合して、統合統計後の汚染場所データ
を得て、
一括統計分析は、平均値、最大値と最小値、分散と標準差を求めることを含み、
導出モジュール108と、導出モジュール108は統合統計後の汚染場所データを導出す
るために使用され、導出モジュール108のデータ出力フォーマットは複数のワークシー
トを含むexcelファイルである。
本実施例では、アーキテクチャ技術としてJFrameを使用し、Javaをプログラミ
ング言語として統合統計システムを実現する。ここで、Javaはほとんどのプログラミ
ング言語に共通するいくつかの特徴を持ち、特にインターネットの分散環境のために設計
されている。JavaはC++言語に似た形式や間隔を持っているが、C++言語よりも
使いやすく、プログラミングの際にオブジェクト指向の方法を徹底的に採用している。
JFrameはコンピューター言語JavaのGUIプログラムを指し、JFrameは
画面上のwindowオブジェクトであり、図3に示すように、最大化、最小化、閉じる
ことができる。
本実施例では、一括統計分析は改善されたmath関数に基づいて実現され、具体的な改
善点は、math関数の入力パラメータをstreamフロー形式に変更することである
。その中で、math関数はコンピュータープログラミング言語の関数の一種であり、主
にデータ演算に適用されている。math関数はコンピュータープログラムの一部の問題
を解決するために適用され得る。
改善されたmath関数は以下を含み:
平均値の計算式:list.stream().mapToDouble(BigDeci
mal::doubleValue).average().getAsDouble()、平
均値の計算式は入力パラメータを1組のデータ集合listとし、steamフローのm
aptoDoubleの方法を用いて、データに対してmapマッピングを行い、その後
averageで平均値を求めるインタフェースを呼び出して直接に計算し、最後にge
tAsDoubleの方式で結果をdoubleタイプに直接に変換する。
ここで、list.stream()は集合をストリームに実装することを表し、mapT
oDouble()はデータに対してmapマッピングを行うことを表し、average
()は平均値を求めることを表す。
最大値と最小値の計算式:list.stream().reduce(list.get(
0), BigDecimal::max)、最大値と最小値の計算式はstreamフローで
計算し、reduce方法を呼び出して1組数の最大値と最小値を取得する。
math関数中の分散と標準差の計算方式:まず和を計算し、次に平均値を計算する方式
を用いて、分散と標準差を求める。
上記データ処理関数は従来のmath関数で最大値、最小値、平均値を求める方法と比較
すると、従来のmath関数はコードが優美ではないだけでなく、効率も低く、しかも少
量のデータしか処理できなく、上記関数はstreamフロー計算を結合して処理を行い
、マルチデータ同時処理による解きをサポートし、正解率が100%に達し、計算速度を
極めて向上させ、マスデータ処理に適応し、效率も従来のmath関数の4倍以上になる
。同時に、コードが簡潔で、後期の機能拡張が便利である。
実施例2
本実施例は、実施例1の汚染場所の同一媒体のバッチデータに基づく統合統計システムに
基づく汚染場所の同一媒体のバッチデータに基づく統合統計方法を提供し、図2に示すよ
うに、以下のステップを含み:
S1、汚染場所データを統合統計システムに導入し、導入後の汚染場所データを前処理し
て対応するデータ構造に記憶し、汚染場所データは特徴指標および特徴指標に対応する特
徴データを含み、特徴指標は汚染物の検出指標、検出限界、単位を含み、かつ以下のステ
ップを含み:
S1-1、汚染場所データを統合統計システムに導入し、
情報処理装置では、テンプレートダウンロードモジュール101を通じて汚染場所データ
の導入テンプレートをダウンロードし、次に汚染場所データを汚染場所データ導入テンプ
レートに記入して、導入可能な汚染場所データを得て、導入モジュール102はファイル
出力ストリームを通じて導入可能な汚染場所データを読み取り、導入可能な汚染場所デー
タを再分布して一時保存データを得て、データ記憶モジュール103のさらなる処理を待
ち、再分布は行列変換、行統合、列統合であ、本実施例では、一時保存データをHSSF
Workbookに保存し、
汚染場所データ導入テンプレートおよび一時保存データはいずれも複数のワークシートを
含むexcelファイルであり、各ワークシートのヘッダは汚染場所データの特徴指標で
あり、各ヘッダのある列は特徴指標に対応する特徴データであり、
S1-2、前処理後の汚染場所データを記憶し:
情報処理装置では、データ記憶モジュール103はまずlist1、list2、lis
t3という3つのlistを作成し、さらに一時保存データ中のワークシートの順序に従
って、各ワークシートの各行データを読み取り、各ワークシート中の特徴指標に対してス
ペース・重複削除操作を行ってlist1に格納し、各ワークシート中の特徴指標に対応
する特徴データをlist2に格納し、各ワークシートの名称およびワークシート中の特
徴指標をlist3に格納する。
S2、特徴指標識別および更新:
情報処理装置では、特徴指標管理モジュール104によって標準化特徴指標を決定して特
定し、特徴指標調整モジュール105はまずステップS1で記憶された特徴指標に対して
重複・スペース削除操作を行って、重複・スペース削除特徴指標を得て、特徴指標調整モ
ジュール105はLevenshtein距離類似度アルゴリズムを編集して、重複・ス
ペース削除特徴指標と標準化特徴指標の2つの類似度指数を計算し、計算した類似度指数
に基づいて重複・スペース削除特徴指標を更新、保持または削除し、以下の内容を含み:
両者の類似度指数が90%を超え文字表現が一致している場合、重複・スペース削除特徴
指標を保持して決定後の特徴指標としてマークし、
両者の類似度指数が90%を超え文字表現が一致していない場合、重複・スペース削除特
徴指標を標準化特徴指標に更新して決定後の特徴指標としてマークし、
両者の類似度指数が90%未満である場合、ステップS1で記憶した特徴指標も保持する

本実施例では、特徴指標管理モジュール104は標準化特徴指標が記憶されたlist4
を有し、標準化特徴指標は汚染場所従業員によって決定されてlist4に導かれて書き
込まれ、書き込む方式は、コンピュータープログラムによって書き込まれる。
類似度指数計算が終了した後、マークしていない特徴指標および特徴指標に対応する特徴
データを削除し、
S3、汚染場所データの集約統合と一括統計分析:
情報処理装置では、データ選択モジュール106の検索欄を介して検索項を選択し、デー
タ選択モジュール106は検索項をデータ計算モジュール107に返信し、
位置決め条件中の検索項が未検出指標濾過である場合、まず特徴指標調整モジュール10
5で処理したlist2中の内容が空の特徴データを削除し、次にlist1、list
2、list3中のデータを導入テンプレートに書き込み、統合統計後の汚染場所データ
とし、
位置決め条件中の検索項がデータ統計分析である場合、まず特徴指標調整モジュール10
5で処理したlist2中の内容が空の特徴データを削除し、list1、list2、
list3中のデータを導入テンプレートに書き込み、統合統計後の汚染場所データとし
、次にlist1中の特徴データを一括統計分析して一括統計データを得て、最後に一括
統計データを統合統計後の汚染場所データに統合して統合統計後の汚染場所データを得て

ここで、一括統計分析は平均値、最大値と最小値、分散と標準差を求めることを含む。
S4、出力統合統計後の汚染場所データ:
情報処理装置では、導出モジュール108によって統合統計後の汚染場所データを出力し
、統合統計後の汚染場所データのフォーマットはexcelファイルである。

Claims (6)

  1. テンプレートダウンロードモジュール(101)と、
    前記テンプレートダウンロードモジュール(101)は汚染場所データの導入テンプレ
    ートを提供するために使用され、テンプレートダウンロードモジュール(101)が提供
    する導入テンプレートのフォーマットは複数のワークシートを含むフォームファイルであ
    り、
    導入モジュール(102)と、
    前記導入モジュール(102)は前記導入テンプレートを介して汚染場所データを導入
    して一時保存データを得るために使用され、前記一時保存データは、特徴指標、特徴指標
    に対応する特徴データを含み、前記一時保存データのフォーマットは複数のワークシート
    を含むフォームファイルであり、
    データ記憶モジュール(103)と、
    前記データ記憶モジュール(103)は前記一時保存データを記憶するために使用され
    、前記一時保存データの記憶方式は、特徴指標と特徴データを対応して記憶し、データ記
    憶モジュール(103)は3つのリストを介して一時保存データを記憶し、前記3つのリ
    ストはそれぞれリスト1、リスト2、リスト3であり、前記リスト1は一時保存データ中
    の特徴指標を記憶するために使用され、前記リスト2は特徴指標に対応する特徴データを
    記憶するために使用され、前記リスト3は一時保存データ中のワークシートの名称および
    ワークシート中の特徴指標を記憶するために使用され、
    特徴指標管理モジュール(104)と、
    前記特徴指標管理モジュール(104)は標準化特徴指標を決定して与えるために使用
    され、前記特徴指標管理モジュール(104)はリスト4と命名されたリストを有し、前
    記リスト4は標準化特徴指標を記憶し、
    特徴指標調整モジュール(105)と、
    前記特徴指標調整モジュール(105)はlist1に記憶された特徴指標に対して重
    複・スペース削除操作を行い、重複・スペース削除特徴指標を得て、次に距離類似度アル
    ゴリズムを編集して、前記重複・スペース削除特徴指標と前記標準化特徴指標の2つを類
    似度指数計算し、計算した類似度指数に基づいて重複・スペース削除特徴指標を更新、保
    持または削除し、
    データ選択モジュール(106)と、
    前記データ選択モジュール(106)は検索欄を提供し、検索欄を通じて検索項を選択
    するために使用され、前記検索欄は、未検出指標濾過、データ統計分析という2つの検索
    項を含み、
    データ計算モジュール(107)と、
    前記データ計算モジュール(107)は前記データ選択モジュール(106)が選択し
    た検索項およびテンプレートのヘッダに導入された特徴指標の順序を統合して位置決め条
    件を得て、位置決め条件を通じて以下のように汚染場所データの集約統合、一括統計分析
    を完成し:
    位置決め条件中の検索項が未検出指標濾過である場合、まず特徴指標調整モジュール(1
    05)で処理されたリスト2中の内容が空の特徴データを削除し、次にリスト1、リスト
    2、リスト3中のデータを導入テンプレートに書き込み、統合統計後の汚染場所データと
    し、
    位置決め条件中の検索項がデータ統計分析である場合、まず特徴指標調整モジュール(1
    05)で処理されたリスト2中の内容が空の特徴データを削除し、リスト1、リスト2、
    リスト3中のデータを導入テンプレートに書き込み、統合統計後の汚染場所データとし、
    次にリスト1中の特徴データを一括統計分析して、一括統計データを得て、最後に前記一
    括統計データを統合統計後の汚染場所データに統合して、統合統計後の汚染場所データを
    得て、
    そのうちに、一括統計分析は、平均値、最大値と最小値、分散と標準差を求めることを含
    み、
    導出モジュール(108)と、
    前記導出モジュール(108)は統合統計後の汚染場所データを導出するために使用さ
    れ、導出モジュール(108)のデータ出力フォーマットは複数のワークシートを含むフ
    ォームファイルであり、
    を含むことを特徴とする汚染場所の同一媒体のバッチデータに基づく統合統計システム。
  2. 請求項1に記載の汚染場所の同一媒体のバッチデータに基づく統合統計システムに基づく
    汚染場所の同一媒体のバッチデータに基づく統合統計方法であって、
    S1、汚染場所データを統合統計システムに導入し、導入後の汚染場所データを前処理し
    て対応するデータ構造に記憶し、前記汚染場所データは特徴指標および前記特徴指標に対
    応する特徴データを含み、特徴指標は汚染物の検出指標、検出限界、単位を含むステップ
    と、
    S2、特徴指標の識別および更新:
    情報処理装置では、特徴指標管理モジュール(104)によって標準化特徴指標を決定し
    て特定し、特徴指標調整モジュール(105)はまずステップS1で記憶された特徴指標
    に対して重複・スペース削除操作を行って、重複・スペース削除特徴指標を得て、特徴指
    標調整モジュール(105)は次に距離類似度アルゴリズムを編集して前記重複・スペー
    ス削除特徴指標と前記標準化特徴指標の2つの類似度指数を計算し、計算した類似度指数
    に基づいて重複・スペース削除特徴指標を更新、保持または削除するステップと、
    S3、汚染場所データの集約統合と一括統計分析:
    情報処理装置では、データ選択モジュール(106)の検索欄を介して検索項を選択し、
    データ選択モジュール(106)は前記検索項をデータ計算モジュール(107)に返信
    し、
    位置決め条件中の検索項が未検出指標濾過である場合、まず特徴指標調整モジュール(1
    05)で処理したリスト2中の内容が空の特徴データを削除し、次にリスト1、リスト2
    、リスト3中のデータを導入テンプレートに書き込み、統合統計後の汚染場所データとし

    位置決め条件中の検索項がデータ統計分析である場合、まず特徴指標調整モジュール(1
    05)で処理したリスト2中の内容が空の特徴データを削除し、リスト1、リスト2、リ
    スト3中のデータを導入テンプレートに書き込み、統合統計後の汚染場所データとし、次
    にリスト1中の特徴データを一括統計分析して一括統計データを得て、最後に前記一括統
    計データを統合統計後の汚染場所データに統合して統合統計後の汚染場所データを得て、
    一括統計分析は平均値、最大値と最小値、分散と標準差を求めることを含むステップと、
    S4、統合統計後の汚染場所データの出力:
    情報処理装置では、導出モジュール(108)によって統合統計後の汚染場所データを出
    力し、統合統計後の汚染場所データのフォーマットはフォームファイルであるステップと

    を含むことを特徴とする汚染場所の同一媒体のバッチデータに基づく統合統計方法。
  3. 前記計算して得られた類似度指数に基づいて重複・スペース削除特徴指標を更新、保持ま
    たは削除することは、
    両者の類似度指数が90%を超え文字表現が一致している場合、重複・スペース削除特徴
    指標を保持して決定後の特徴指標としてマークし、
    両者の類似度指数が90%を超え文字表現が一致していない場合、重複・スペース削除特
    徴指標を標準化特徴指標に更新して決定後の特徴指標としてマークし、
    両者の類似度指数が90%未満である場合、ステップS1で記憶した特徴指標も保持し、
    類似度指数計算が終了した後、マークしていない特徴指標および特徴指標に対応する特徴
    データを削除することを含む、
    ことを特徴とする請求項2に記載の汚染場所の同一媒体のバッチデータに基づく統合統計
    方法。
  4. 前記ステップS1は以下のステップを含み:
    S1-1、汚染場所データを統合統計システムに導入し、
    情報処理装置では、テンプレートダウンロードモジュール(101)を通じて汚染場所デ
    ータの導入テンプレートをダウンロードし、次に汚染場所データを汚染場所データ導入テ
    ンプレートに記入して、導入可能な汚染場所データを得て、導入モジュール(102)は
    ファイル出力ストリームを通じて導入可能な汚染場所データを読み取り、導入可能な汚染
    場所データを再分布して一時保存データを得て、データ記憶モジュール(103)のさら
    なる処理を待ち、
    前記汚染場所データ導入テンプレートおよび一時保存データはいずれも複数のワークシー
    トを含むフォームファイルであり、各ワークシートのヘッダは汚染場所データの特徴指標
    であり、各前記ヘッダのある列は前記特徴指標に対応する特徴データである、ことを特徴
    とする請求項2に記載の汚染場所の同一媒体のバッチデータに基づく統合統計方法。
  5. 前記再分布は行列変換、行統合、列統合である、ことを特徴とする請求項4に記載の汚染
    場所の同一媒体のバッチデータに基づく統合統計方法。
  6. 前記ステップS1は以下のステップをさらに含み:
    S1-2、前処理後の汚染場所データを記憶し:
    情報処理装置では、データ記憶モジュール(103)はまずリスト1、リスト2、リスト
    3という3つのリストを作成し、さらに一時保存データ中のワークシートの順序に従って
    、各ワークシートの各行データを読み取り、各ワークシート中の特徴指標に対してスペー
    ス・重複削除操作を行ってリスト1に格納し、各ワークシート中の特徴指標に対応する特
    徴データをリスト2に格納し、各ワークシートの名称およびワークシート中の特徴指標を
    リスト3に格納する、ことを特徴とする請求項4に記載の汚染場所の同一媒体のバッチデ
    ータに基づく統合統計方法。
JP2023052527A 2022-09-22 2023-03-29 汚染場所の同一媒体のバッチデータに基づく統合統計システムおよび方法 Active JP7360000B1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202211169793.0A CN115495499B (zh) 2022-09-22 2022-09-22 一种基于污染场地同介质多批次海量数据的整合统计方法
CN202211169793.0 2022-09-22

Publications (2)

Publication Number Publication Date
JP7360000B1 JP7360000B1 (ja) 2023-10-12
JP2024046580A true JP2024046580A (ja) 2024-04-03

Family

ID=84471096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023052527A Active JP7360000B1 (ja) 2022-09-22 2023-03-29 汚染場所の同一媒体のバッチデータに基づく統合統計システムおよび方法

Country Status (2)

Country Link
JP (1) JP7360000B1 (ja)
CN (1) CN115495499B (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11224837A (ja) * 1998-02-04 1999-08-17 Sharp Corp 処理装置の汚染管理システム
CN112163724A (zh) * 2020-08-05 2021-01-01 宁夏无线互通信息技术有限公司 环境信息数据资源整合集成***
JP2022526143A (ja) * 2019-03-22 2022-05-23 レール・リキード-ソシエテ・アノニム・プール・レテュード・エ・レクスプロワタシオン・デ・プロセデ・ジョルジュ・クロード 水処理プラントにおける異常を検出する方法
CN114996410A (zh) * 2022-06-30 2022-09-02 济南市环境研究院(济南市黄河流域生态保护促进中心) 一种关于环境数据资源自动整合及共享的方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512336A (zh) * 2015-12-29 2016-04-20 中国建设银行股份有限公司 一种基于Hadoop的海量数据处理方法和装置
CN106407714A (zh) * 2016-10-14 2017-02-15 珠海富鸿科技有限公司 基于calpuff***的大气污染评估方法及装置
CN107577909B (zh) * 2017-07-31 2020-09-01 武汉工程大学 一种环境空气质量监测大数据统计的优化方法
CN107525907B (zh) * 2017-10-16 2019-12-31 中国环境科学研究院 地下水污染监测网多目标优化方法
CN112085241B (zh) * 2019-06-12 2024-03-22 江苏汇环环保科技有限公司 一种基于机器学***台
CN110297921A (zh) * 2019-06-24 2019-10-01 南京邮电大学 一种基于大数据技术的大气污染物无人机溯源***及方法
CN111367911B (zh) * 2020-03-02 2023-05-09 上海市岩土地质研究院有限公司 一种场地环境数据分析方法及其***
CN111651432B (zh) * 2020-06-11 2024-04-23 中科山水(北京)科技信息有限公司 一种疑似污染场地时空信息识别方法
CN112164136A (zh) * 2020-09-14 2021-01-01 浙江省环境科技有限公司 一种基于三维地质模型的地下水智慧监管平台
CN112347155B (zh) * 2020-10-29 2023-11-21 南京大学 基于数据挖掘的场地污染特征因子识别和监测指标优化方法
CN114356864A (zh) * 2021-12-09 2022-04-15 浪潮云信息技术股份公司 国产环境下批量导入excel文件的方法及导入***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11224837A (ja) * 1998-02-04 1999-08-17 Sharp Corp 処理装置の汚染管理システム
JP2022526143A (ja) * 2019-03-22 2022-05-23 レール・リキード-ソシエテ・アノニム・プール・レテュード・エ・レクスプロワタシオン・デ・プロセデ・ジョルジュ・クロード 水処理プラントにおける異常を検出する方法
CN112163724A (zh) * 2020-08-05 2021-01-01 宁夏无线互通信息技术有限公司 环境信息数据资源整合集成***
CN114996410A (zh) * 2022-06-30 2022-09-02 济南市环境研究院(济南市黄河流域生态保护促进中心) 一种关于环境数据资源自动整合及共享的方法

Also Published As

Publication number Publication date
CN115495499A (zh) 2022-12-20
CN115495499B (zh) 2023-05-30
JP7360000B1 (ja) 2023-10-12

Similar Documents

Publication Publication Date Title
US20220327137A1 (en) Modifying field definitions to include post-processing instructions
US8959122B2 (en) Data processing device
Chevenet et al. TreeDyn: towards dynamic graphics and annotations for analyses of trees
Navarro et al. Flexible pattern matching in strings: practical on-line search algorithms for texts and biological sequences
CN109344230B (zh) 代码库文件生成、代码搜索、联结、优化以及移植方法
CN110532019B (zh) 一种软件代码片段历史追溯的方法
US7571151B1 (en) Data analysis tool for analyzing data stored in multiple text files
US11907203B2 (en) Path encoded tree structures for operations
KR101617696B1 (ko) 데이터 정규표현식의 마이닝 방법 및 장치
CN112102887A (zh) 多尺度集成可视化的高通量自动计算流程及数据智能***
US8209297B2 (en) Data processing device and method
CN112860727B (zh) 基于大数据查询引擎的数据查询方法、装置、设备及介质
CN110795526B (zh) 一种用于检索***的数学公式索引创建方法与***
CN115543402B (zh) 一种基于代码提交的软件知识图谱增量更新方法
KR20210129465A (ko) 연구노트 관리 장치 및 이를 이용한 연구노트 검색 방법
Bailey et al. GAIA: framework annotation of genomic sequence
Martorelli et al. Fungal metabarcoding data integration framework for the MycoDiversity DataBase (MDDB)
JP7360000B1 (ja) 汚染場所の同一媒体のバッチデータに基づく統合統計システムおよび方法
US20060218174A1 (en) Method for coordinating schema and data access objects
CN112835905B (zh) 一种数组类型列的索引方法、装置、设备以及存储介质
JP2002366401A (ja) 統合的データマート構築及び運用支援システム
Göker et al. Opm: an R package for analysing phenotype microarray and growth curve data
Moftah et al. Methods to access structured and semi-structured data in bioinformatics databases: A perspective
CN107992567A (zh) 数据采集方法及数据采集***
Maibaum et al. Cluster based integration of heterogeneous biological databases using the AutoMed toolkit

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230329

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230904

R150 Certificate of patent or registration of utility model

Ref document number: 7360000

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150