CN109062926A - 一种车辆保险数据采集*** - Google Patents

一种车辆保险数据采集*** Download PDF

Info

Publication number
CN109062926A
CN109062926A CN201810585689.7A CN201810585689A CN109062926A CN 109062926 A CN109062926 A CN 109062926A CN 201810585689 A CN201810585689 A CN 201810585689A CN 109062926 A CN109062926 A CN 109062926A
Authority
CN
China
Prior art keywords
module
data
vehicle insurance
insurance information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810585689.7A
Other languages
English (en)
Inventor
韦波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhong Tong Tong Technology Co Ltd
Original Assignee
Chengdu Zhong Tong Tong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhong Tong Tong Technology Co Ltd filed Critical Chengdu Zhong Tong Tong Technology Co Ltd
Priority to CN201810585689.7A priority Critical patent/CN109062926A/zh
Publication of CN109062926A publication Critical patent/CN109062926A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种车辆保险数据采集***,包括网络数据获取单元,用于获取各个保险公司的车险信息,它包括异步通讯模块、HTML数据采集模块、API数据采集模块和OCR图像识别模块;数据管理单元,用于对获取的车险信息进行清洗及存储,它包括数据清洗模块和数据库;业务管理单元,用于将清洗后的数据进行展示及管理,它包括Restful服务模块、日志管理模块、运维后台模块和策略管理模块。本发明通过HTML数据采集模块、API数据采集模块和OCR图像识别模块多种方式获取各个保险公司的车险信息,并通过异步通讯模块传输到数据清洗模块对数据进行清洗,除去不需要的脏数据,再将其存储到数据库,最后通过业务管理单元对其展示及管理。

Description

一种车辆保险数据采集***
技术领域
本发明涉及一种车辆保险数据采集***,属于车险数据采集技术领域。
背景技术
随着社会经济的快速发展,汽车越来越多。车主买车后的第一件的是就是购买车险。每家保险公司都有自己的车险,从而使车险品种众多。大多数车主在购买时都有货比三家的***台才有,车主需要对比时只有自己一个一个找到对比,浪费了大量的时间和精力,最后的购买的也不一定是自己最心仪的车险,因此需要一种可以将大多数保险公司车险信息显示在一起的平台,便于直观观看及对比,解决这一问题的关键是每家保险公司的车险信息采集。
发明内容
本发明的目的在于提供一种可获取多家保险公司的车险信息的车辆保险数据采集***。
本发明的目的是通过以下技术方案实现的:
一种车辆保险数据采集***,包括网络数据获取单元、数据管理单元和业务管理单元;
所述网络数据获取单元用于获取各个保险公司的车险信息,它包括异步通讯模块、HTML数据采集模块、API数据采集模块和OCR图像识别模块;
所述数据管理单元用于对获取的车险信息进行清洗及存储,它包括数据清洗模块和数据库;
所述业务管理单元用于将清洗后的数据进行展示及管理,它包括Restful服务模块、日志管理模块、运维后台模块和策略管理模块。
进一步地,所述网络数据获取单元包括异步通讯模块、HTML数据采集模块、API数据采集模块和OCR图像识别模块;
所述HTML数据采集模块用于获取HTML页面的车险信息,它采用Beautiful Soup解析工具解析文档获取车险信息;
所述API数据采集模块用于通过API数据接口获取车险信息;
所述OCR图像识别模块用于解析图片信息获取车险信息,包括Pillow图像处理库的图片操作模块和pytesseractOCR库的OCR识别模块;
所述异步通讯模块用于获取各个保险公司的车险信息。
进一步地,所述HTML数据采集模块包括Ztxt_parser解析插件。
进一步地,所述数据清洗模块用于去除获取的车险信息中不需要的信息,它包括脚本清洗子模块和OpenRefine清洗子模块。
进一步地,所述业务管理单元包括Restful服务模块、日志管理模块、运维后台模块和策略管理模块;
所述Restful服务模块用于对前端展示提供Restful服务接口,并可通过所述Restful服务接口进行车险信息的查询和提取;
所述日志管理模块用于记录操作数据;
所述运维后台模块用于对网络数据获取单元获取的车险信息过程进行监控并保存结果。
本发明通过HTML数据采集模块、API数据采集模块和OCR图像识别模块多种方式获取各个保险公司的车险信息,并通过异步通讯模块传输到数据清洗模块对数据进行清洗,除去不需要的脏数据,再将其存储到数据库,最后通过业务管理单元对其展示及管理;实现了将多家保险公司的采集、存储、显示,便于车主查询购买,节约了车主的时间和精力。
具体实施方式
本实施例提供的车辆保险数据采集***包括网络数据获取单元、数据管理单元和业务管理单元。
所述网络数据获取单元用于获取各个保险公司的车险信息,它包括异步通讯模块、HTML数据采集模块、API数据采集模块和OCR图像识别模块。
所述HTML数据采集模块用于获取HTML页面的车险信息,它采用Beautiful Soup解析工具解析文档获取车险信息;该解析工具提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能,通过解析文档提供需要抓取的车险数据。因为保险公司的数据页面设计标准各不相同,所以需要一个兼容能力强的解析工具对所有可能出现的情况进行完整正确的分析。以文本编码为例,平安和太平洋保险使用的是标准的utf-8编码,而阳光使用latin-1编码,人寿使用gbk编码,如果使用普通的解析工具就会在统一编码上造成不必要的麻烦,而Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编。本发明还在Beautiful Soup解析工具中设置Ztxt_parser插件,具有速度快,文档容错能力强,存储方便,内置车险专业名词解析等特点,为***提供更高效的HTML语法解析。
所述API数据采集模块用于通过API数据接口获取车险信息;因有些保险公司还提供的专门的API接口,所述本发明设置API数据接口。API数据接口需要与浏览器结合实现对数据的采集,本发明采用Phantom JS工具代替传统的浏览器,具有数据采集效果高的优点。所述Phantom JS工具是一个无头浏览器,它会网页加载到内存并执行页面上的JavaScript,但是它不会向用户展示网页的图形界面。需要说明的是:Phantom JS工具需要和Selenium网络采集工具结合使用,实现对API数据接口的数据采集。
所述OCR图像识别模块用于解析图片信息获取车险信息,它包括Pillow图像处理库的图片操作模块和pytesseract OCR库的OCR识别模块;Pillow图像处理库的图片操作模块是可导入代码,并通过大量的过滤、修饰甚至像素级的变换操作处理图片。PytesseractOCR库的OCR识别模块是将图片中的信息识别为文本信息,具体包括检测出字符区域的轮廓,再识别去区域内的字符得出文本。
所述异步通讯模块用于获取各个保险公司的车险信息,包括多种格式的,如文本、图片、PDF等,异步通讯模块使用Twisted作为基础了框架,并在事件驱动和IO阻塞方面加以改良,具有高效稳定的完成大量的分布式多网站抓取的任务。
所述数据管理单元用于对获取的车险信息进行清洗及存储,它包括数据清洗模块和数据库。
所述数据清洗模块用于去除获取的车险信息中不需要的信息,它包括脚本清洗子模块和OpenRefine清洗子模块。脚本清洗子模块是根据清洗规则对采集的车险信息进行清洗,可除去不要求的信息,并且具有处理数据量大且效率高等优点。OpenRefine清洗子模块主要是便于API数据接口获取的数据星期,可将清洗结果图像化。
所述业务管理单元用于将清洗后的数据进行展示及管理,它包括Restful服务模块、日志管理模块、运维后台模块和策略管理模块。
所述Restful服务模块用于对前端展示提供Restful服务接口,并可通过所述Restful服务接口进行车险信息的查询和提取;
所述日志管理模块用于记录操作数据;
所述运维后台模块用于对网络数据获取单元获取的车险信息过程进行监控并保存结果。
以上所述仅是本发明优选的实施方式,但本发明的保护范围并不局限于此,任何基于本发明所提供的技术方案和发明构思进行的改造和替换都应涵盖在本发明的保护范围内。

Claims (5)

1.一种车辆保险数据采集***,其特征在于:包括网络数据获取单元、数据管理单元和业务管理单元;
所述网络数据获取单元用于获取各个保险公司的车险信息,它包括异步通讯模块、HTML数据采集模块、API数据采集模块和OCR图像识别模块;
所述数据管理单元用于对获取的车险信息进行清洗及存储,它包括数据清洗模块和数据库;
所述业务管理单元用于将清洗后的数据进行展示及管理,它包括Restful服务模块、日志管理模块、运维后台模块和策略管理模块。
2.根据权利要求1所述的车辆保险数据采集***,其特征在于:所述网络数据获取单元包括异步通讯模块、HTML数据采集模块、API数据采集模块和OCR图像识别模块;
所述HTML数据采集模块用于获取HTML页面的车险信息,它采用Beautiful Soup解析工具解析文档获取车险信息;
所述API数据采集模块用于通过API数据接口获取车险信息;
所述OCR图像识别模块用于解析图片信息获取车险信息,包括Pillow图像处理库的图片操作模块和pytesseractOCR库的OCR识别模块;
所述异步通讯模块用于获取各个保险公司的车险信息。
3.根据权利要求2所述的车辆保险数据采集***,其特征在于:所述HTML数据采集模块包括Ztxt_parser解析插件。
4.根据权利要求1所述的车辆保险数据采集***,其特征在于:所述数据清洗模块用于去除获取的车险信息中不需要的信息,它包括脚本清洗子模块和OpenRefine清洗子模块。
5.根据权利要求1所述的车辆保险数据采集***,其特征在于:所述业务管理单元包括Restful服务模块、日志管理模块、运维后台模块和策略管理模块;
所述Restful服务模块用于对前端展示提供Restful服务接口,并可通过所述Restful服务接口进行车险信息的查询和提取;
所述日志管理模块用于记录操作数据;
所述运维后台模块用于对网络数据获取单元获取的车险信息过程进行监控并保存结果。
CN201810585689.7A 2018-06-06 2018-06-06 一种车辆保险数据采集*** Pending CN109062926A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810585689.7A CN109062926A (zh) 2018-06-06 2018-06-06 一种车辆保险数据采集***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810585689.7A CN109062926A (zh) 2018-06-06 2018-06-06 一种车辆保险数据采集***

Publications (1)

Publication Number Publication Date
CN109062926A true CN109062926A (zh) 2018-12-21

Family

ID=64819972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810585689.7A Pending CN109062926A (zh) 2018-06-06 2018-06-06 一种车辆保险数据采集***

Country Status (1)

Country Link
CN (1) CN109062926A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903174A (zh) * 2019-03-22 2019-06-18 成都晟堃科技有限责任公司 一种基于移动终端摄像的保险单录入***及方法
CN110674332A (zh) * 2019-08-01 2020-01-10 南昌市微轲联信息技术有限公司 基于ocr与文本挖掘的机动车数字电子档案分类方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719063B1 (en) * 2013-05-07 2014-05-06 Marsh USA Inc. System and method for comparing information in a process for issuing insurance policies
CN103810636A (zh) * 2012-11-13 2014-05-21 腾讯科技(深圳)有限公司 车险投保信息的处理方法、装置和车险投保信息处理平台
CN105243592A (zh) * 2015-11-06 2016-01-13 东莞市创世纪保险代理有限公司 一种车险智能报价投保***及方法
CN106548404A (zh) * 2016-11-10 2017-03-29 上海最会保网络科技有限公司 一种基于互联网的车险比价交易方法及装置
CN107273409A (zh) * 2017-05-03 2017-10-20 广州赫炎大数据科技有限公司 一种网络数据采集、存储及处理方法及***
US20170323389A1 (en) * 2016-05-05 2017-11-09 Sensormatic Electronics, LLC Method and Apparatus for Evaluating Risk Based on Sensor Monitoring
CN107369092A (zh) * 2016-05-11 2017-11-21 无锡智道安盈科技有限公司 一种车险比价***
JP2018025978A (ja) * 2016-08-10 2018-02-15 パナソニックIpマネジメント株式会社 自動車保険会社業務支援システム
US20180150481A1 (en) * 2015-05-12 2018-05-31 Hangzhou Hikvision Digital Technology Co., Ltd. Collection and provision method, device, system and server for vehicle image data

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810636A (zh) * 2012-11-13 2014-05-21 腾讯科技(深圳)有限公司 车险投保信息的处理方法、装置和车险投保信息处理平台
US8719063B1 (en) * 2013-05-07 2014-05-06 Marsh USA Inc. System and method for comparing information in a process for issuing insurance policies
US20180150481A1 (en) * 2015-05-12 2018-05-31 Hangzhou Hikvision Digital Technology Co., Ltd. Collection and provision method, device, system and server for vehicle image data
CN105243592A (zh) * 2015-11-06 2016-01-13 东莞市创世纪保险代理有限公司 一种车险智能报价投保***及方法
US20170323389A1 (en) * 2016-05-05 2017-11-09 Sensormatic Electronics, LLC Method and Apparatus for Evaluating Risk Based on Sensor Monitoring
CN107369092A (zh) * 2016-05-11 2017-11-21 无锡智道安盈科技有限公司 一种车险比价***
JP2018025978A (ja) * 2016-08-10 2018-02-15 パナソニックIpマネジメント株式会社 自動車保険会社業務支援システム
CN106548404A (zh) * 2016-11-10 2017-03-29 上海最会保网络科技有限公司 一种基于互联网的车险比价交易方法及装置
CN107273409A (zh) * 2017-05-03 2017-10-20 广州赫炎大数据科技有限公司 一种网络数据采集、存储及处理方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903174A (zh) * 2019-03-22 2019-06-18 成都晟堃科技有限责任公司 一种基于移动终端摄像的保险单录入***及方法
CN109903174B (zh) * 2019-03-22 2023-11-24 成都肯定科技有限公司 一种基于移动终端摄像的保险单录入***及方法
CN110674332A (zh) * 2019-08-01 2020-01-10 南昌市微轲联信息技术有限公司 基于ocr与文本挖掘的机动车数字电子档案分类方法
CN110674332B (zh) * 2019-08-01 2022-11-15 南昌市微轲联信息技术有限公司 基于ocr与文本挖掘的机动车数字电子档案分类方法

Similar Documents

Publication Publication Date Title
WO2020211299A1 (zh) 数据清理方法
CN103279503B (zh) 一种从网页中获取二维码信息的方法及***
WO2017177872A1 (zh) 数据的收集方法及装置、存储介质
CN109062926A (zh) 一种车辆保险数据采集***
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN113190689B (zh) 一种电力安全知识图谱的构建方法、装置、设备和介质
CN108446136B (zh) 一种元素代码的提取方法及***
CN110134844A (zh) 细分领域舆情监控方法、装置、计算机设备及存储介质
CN106649308B (zh) 一种分词词库更新方法及***
CN113742368A (zh) 一种数据血缘关系分析方法
Herrera et al. SAX-quantile based multiresolution approach for finding heatwave events in summer temperature time series
Bex et al. Expressiveness of XSDs: from practice to theory, there and back again
CN107368500B (zh) 数据抽取方法及***
KR20000037595A (ko) 온라인 상점 상의 제품 정보 자동 색인 방법 및 시스템
CN101895517A (zh) 一种脚本语义提取方法和提取装置
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
US10963690B2 (en) Method for identifying main picture in web page
CN105117448B (zh) 一种网络购物中基于图片的产品曝光率算法及***
CN104765747A (zh) 网页处理方法及装置
CN106874495A (zh) 基于机器学习建模抽取网页结构的方法
Azad et al. Removal of noisy information in web pages
CN109948015A (zh) 一种元搜索列表结果抽取方法及***
CN111198879A (zh) 基于智慧社区的业务数据存储方法及***
KR102072236B1 (ko) 정형 스트림 데이터 처리장치 및 처리방법
CN110442768A (zh) 一种智能的政策信息采集和查询方法及其***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181221

RJ01 Rejection of invention patent application after publication