CN111444397A - 一种人工智能数据收集*** - Google Patents
一种人工智能数据收集*** Download PDFInfo
- Publication number
- CN111444397A CN111444397A CN202010389211.4A CN202010389211A CN111444397A CN 111444397 A CN111444397 A CN 111444397A CN 202010389211 A CN202010389211 A CN 202010389211A CN 111444397 A CN111444397 A CN 111444397A
- Authority
- CN
- China
- Prior art keywords
- character
- word
- information
- unit
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013480 data collection Methods 0.000 title claims abstract description 17
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 238000004458 analytical method Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种人工智能数据收集***,配置有云处理子***、非字数据库、非字策略库、文字数据库、文字策略库;所述云处理子***包括:信息获取单元;非字特征提取单元;非字特征匹配单元;非字信息生成单元;文字字段分割单元;关联地址获取单元;字段解析单元;文字信息生成单元;存储模块。首先对复杂数据进行非文字信息的获取,然后通过非文字信息中的内容和关系判断其对应的含义也就是非字名称,根据非字名称确定文字信息中的关联以获得需要去筛选的数据,而关联越强则说明成功率越高,这样的***有利于数据的信息收集,保证数据合理性。
Description
技术领域
本发明涉及数据处理***,更具体地说,涉及一种人工智能数据收集***。
背景技术
随着大数据技术的发展,越来越多的数据平台、处理***、应用需要依赖后台大数据训练提高结果的精确度以起到更加合理的数据输出效果,而大数据分析存在一个根本问题,多数信息是较为内容、类型不同,而***一般难以对复杂信息进行收集,而如果无法对复杂信息进行收集,那么会导致大数据的样本较少,或是大数据的样本就必须按照既定格式进行录入才能实现数据收集,人工成本和协调需要的数据较大,而目前是通过人工理解复杂信息然后对复杂信息进行格式化录入,而这庞大的数据对数据收集***而言,明显是个较大的负荷。
发明内容
有鉴于此,本发明目的是提供一种人工智能数据收集***。
为了解决上述技术问题,本发明的技术方案是:
一种人工智能数据收集***,配置有云处理子***、非字数据库、非字策略库、文字数据库、文字策略库;
所述云处理子***包括:
信息获取单元:获取一待处理信息;
非字特征提取单元,确定待处理信息中的非字数据,并根据非字数据生成非字特征;
非字特征匹配单元,将非字特征输入非字策略库以调取对应的非字匹配策略,通过非字匹配策略在待处理信息中获取非字名称;
非字信息生成单元,根据非字数据生成对应的非字内容,根据获得的非字名称以及非字内容生成非字信息;
文字字段分割单元,根据非字数据以及非字名称将所述待处理信息分割成若干文字段;
关联地址获取单元,根据生成的非字名称的集合从所述非字关联数据库中调取获得关联地址,根据关联地址从所述文字数据库中调取对应的文字名称;
字段解析单元,根据获得的文字名称从文字策略库中调取对应的文字解析策略,并根据文字解析策略解析对应的文字段以得到文字内容;
文字信息生成单元,根据文字内容以及对应的文字名称生成文字信息;通过这样设置就可以起到一个文字信息的管理作用。
存储模块,将得到的非字信息和文字信息分别存储至非字数据库和文字数据库。
进一步的,所述非字特征匹配单元根据非字数据的数量设置有非字匹配阈值,当匹配度低于阈值时,将该待处理信息发送至后台处理端,并将所述后台处理端的处理结果对应的非字信息和文字信息分别存储至非字数据库和文字数据库。
进一步的,所述非字特征匹配单元执行辨识策略时若未获取到对应的非字名称,将该待处理信息发送至后台处理端,以获取对应的非字名称,并将对应的非字名称输入至非字信息生成单元。
进一步的,进一步的,关联反馈单元还包括为每一关联地址配置关联优先级,按关联优先级调取对应关联地址,所述关联优先级反映该待处理信息对应的非字名称的集合出现的次数。
进一步的,所述非字数据包括数字数据和字母数据。
进一步的,所述云处理子***还包括样本录入模块,获取作为样本的待处理信息,以及该待处理信息对应的非字信息以及文字信息。
进一步的,所述非字特征匹配单元还包括根据样本的待处理信息以及对应的非字特征训练对应的辨识策略。
进一步的,所述字段解析单元还包括根据作为样本的待处理信息以及对应的文字内容训练对应的文字解析策略。
进一步的,所述字段解析单元根据文字名称的数量设置有文字匹配阈值,当匹配度低于阈值时,将该待处理信息发送至后台处理端,并将所述后台处理端的处理结果对应的非字信息和文字信息分别存储至非字数据库和文字数据库。
进一步的,所述字段解析单元执行辨识策略时若未获取到对应的文字内容,将该待处理信息发送至后台处理端,以获取对应的文字内容,并将对应的文字内容输入至文字信息生成单元。
本发明技术效果主要体现在以下方面:通过这样设置,首先对复杂数据进行非文字信息的获取,然后通过非文字信息中的内容和关系判断其对应的含义也就是非字名称,根据非字名称确定文字信息中的关联以获得需要去筛选的数据,而关联越强则说明成功率越高,这样的***有利于数据的信息收集,保证数据合理性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1:本发明***架构原理图;
图2:本发明云处理子***原理图。
附图标记:100、云处理子***;200、非字数据库;300、非字策略库;400、文字数据库;500、文字策略库;110、信息获取单元;120、非字特征提取单元;130、非字特征匹配单元;140、非字信息生成单元;150、文字字段分割单元;160、关联地址获取单元;170、字段解析单元;180、文字信息生成单元;190、存储模块。
具体实施方式
以下结合附图,对本发明的具体实施方式作进一步详述,以使本发明技术方案更易于理解和掌握。
一种人工智能数据收集***,配置有云处理子***100、非字数据库200、非字策略库300、文字数据库400、文字策略库500;
所述云处理子***100包括:
信息获取单元110:获取一待处理信息;
非字特征提取单元120,确定待处理信息中的非字数据,并根据非字数据生成非字特征;首先对非字数据,一般待处理数据包括文字、字母和数字等信息,一般以文字为主的信息中如果有字母、数字等信息是相对容易辨识的,例如电话号码、地址门牌、身高等等数据的内容都是非文字形式记载的,所以第一步应该先去定位这些非字形式的数据,而可以根据这些数据形成对应的非字特征,非字特征是用于确定对应的内容的依据,例如数字后面的字母很多都是单位概念,而如果数字之间通过文字间隔可能就是地址例如2号楼A座303室,所以这些数据格式可以形成非字特征。
非字特征匹配单元130,将非字特征输入非字策略库300以调取对应的非字匹配策略,通过非字匹配策略在待处理信息中获取非字名称;非字策略库300是预先配置在这个***中,是根据非字特征生成对应的辨识策略以获取对应的非字名称,例如如果出现连续数字则去待处理信息中查找“手机”“号码”“电话”等关键字,以获取到对应的关键字作为非字名称。所述非字特征匹配单元130根据非字数据的数量设置有非字匹配阈值,当匹配度低于阈值时,将该待处理信息发送至后台处理端,并将所述后台处理端的处理结果对应的非字信息和文字信息分别存储至非字数据库200和文字数据库400;所述非字特征匹配单元130执行辨识策略时若未获取到对应的非字名称,将该待处理信息发送至后台处理端,以获取对应的非字名称,并将对应的非字名称输入至非字信息生成单元140。
非字信息生成单元140,根据非字数据生成对应的非字内容,根据获得的非字名称以及非字内容生成非字信息;这样就能匹配形成对应的非字内容,需要说明的是,如果非字名称匹配成功,非字内容需要根据对应的非字策略生成,因为对于2号楼A座303室,那么非字数据为2、A、303但是由于非字内容是地址(匹配成功)此时就根据非字名称获取到对应的非字内容是2号楼A座303室这样才与地址对应,这样就可以生成名称以及对应的内容。由于待处理信息是较为复杂的,如果没有进行数据分割,直接用关键词匹配的方式,那么由于关键词非常多,所以匹配的数据量较大,以目前的关键词匹配技术而言,现有的算法难以负荷较为巨大的数据量。
文字字段分割单元150,根据非字数据以及非字名称将所述待处理信息分割成若干文字段;每个文字段是独立存在的,这样就可以对复杂数据进行初步划分,减少比对数据量。
关联地址获取单元160,根据生成的非字名称的集合从所述非字关联数据库中调取获得关联地址,根据关联地址从所述文字数据库400中调取对应的文字名称;本发明中较为重要的一个技术手段就是通过关联地址去指向更容易被选为关键词的对应的文字名称,而这个关联可以通过后台输入或者关联反馈单元实现,关联反馈单元,根据同一待处理信息中的非字名称为索引对对应存储的文字名称形成关联地址;进一步的,关联反馈单元还包括为每一关联地址配置关联优先级,按关联优先级调取对应关联地址,所述关联优先级反映该待处理信息对应的非字名称的集合出现的次数。例如出现名称是地址、手机,那么优先级可能较高的是收件人或者发件人,这样通过查询这个关键词更容易从文字字段中获取到对应的名称。
字段解析单元170,根据获得的文字名称从文字策略库500中调取对应的文字解析策略,并根据文字解析策略解析对应的文字段以得到文字内容;获得了名称之后,通过文字解析策略解析得到对应的文字内容,文字解析策略可以是识别姓名或者特殊的文字后缀以及符号判断是否将这段数据作为文字内容。所述字段解析单元170根据文字名称的数量设置有文字匹配阈值,当匹配度低于阈值时,将该待处理信息发送至后台处理端,并将所述后台处理端的处理结果对应的非字信息和文字信息分别存储至非字数据库200和文字数据库400;所述字段解析单元170执行辨识策略时若未获取到对应的文字内容,将该待处理信息发送至后台处理端,以获取对应的文字内容,并将对应的文字内容输入至文字信息生成单元180。
文字信息生成单元180,根据文字内容以及对应的文字名称生成文字信息;通过这样设置就可以起到一个文字信息的管理作用。
存储模块190,将得到的非字信息和文字信息分别存储至非字数据库200和文字数据库400;由于关联地址的设置,所以将文字数据库400和非字数据库200划分为两个不同的数据,综上所述,本发明的关键在于利用非字特征实现对复杂信息的初步信息的获取同时对复杂信息中的内容进行初步解读(生成关联地址)这样就可以找到优选的文字名称,通过关键词比对的方式进行筛选,然后确定得到对应的文字名称后,通过设置对应的解析获取到文字内容,然后完成对整个字段的解析。先通过非字内容确定非字名称再通过非字名称确定文字名称再通过文字名称确定文字内容。
所述云处理子***100还包括
样本录入模块,获取作为样本的待处理信息,以及该待处理信息对应的非字信息以及文字信息;所述非字特征匹配单元130还包括根据样本的待处理信息以及对应的非字特征训练对应的辨识策略;所述字段解析单元170还包括根据作为样本的待处理信息以及对应的文字内容训练对应的文字解析策略;首先对辨识策略的训练做出说明,训练辨识策略关键是如何构建非字特征,例如173CM和303A一个是身高一个是门牌号,而辨识策略需要根据前后文字内容、字母的含义等等去判断,但是仍然可能出错,所以定义出不同的非字特征就会得到不同的结果,所以训练辨识策略就如果得到的结果(非字特征)与实际输入的不符,则对应的策略可以自修正以得到一个较佳的结果,策略修正的方式在此不做公开,不属于本发明的设计要点,而同样的对文字解析策略也进行修正,以提高结果的精确度。当然,以上只是本发明的典型实例,除此之外,本发明还可以有其它多种具体实施方式,凡采用等同替换或等效变换形成的技术方案,均落在本发明要求保护的范围之内。
Claims (8)
1.一种人工智能数据收集***,其特征在于:配置有云处理子***、非字数据库、非字策略库、文字数据库、文字策略库;
所述云处理子***包括:
信息获取单元:获取一待处理信息;
非字特征提取单元,确定待处理信息中的非字数据,并根据非字数据生成非字特征;
非字特征匹配单元,将非字特征输入非字策略库以调取对应的非字匹配策略,通过非字匹配策略在待处理信息中获取非字名称;
非字信息生成单元,根据非字数据生成对应的非字内容,根据获得的非字名称以及非字内容生成非字信息;
文字字段分割单元,根据非字数据以及非字名称将所述待处理信息分割成若干文字段;
关联地址获取单元,根据生成的非字名称的集合从所述非字关联数据库中调取获得关联地址,根据关联地址从所述文字数据库中调取对应的文字名称;
字段解析单元,根据获得的文字名称从文字策略库中调取对应的文字解析策略,并根据文字解析策略解析对应的文字段以得到文字内容;
文字信息生成单元,根据文字内容以及对应的文字名称生成文字信息;
存储模块,将得到的非字信息和文字信息分别存储至非字数据库和文字数据库;
所述非字特征匹配单元根据非字数据的数量设置有非字匹配阈值,当匹配度低于阈值时,将该待处理信息发送至后台处理端,并将所述后台处理端的处理结果对应的非字信息和文字信息分别存储至非字数据库和文字数据库;
所述非字特征匹配单元执行辨识策略时若未获取到对应的非字名称,将该待处理信息发送至后台处理端,以获取对应的非字名称,并将对应的非字名称输入至非字信息生成单元。
2.如权利要求1所述的一种人工智能数据收集***,其特征在于:进一步的,关联反馈单元还包括为每一关联地址配置关联优先级,按关联优先级调取对应关联地址,所述关联优先级反映该待处理信息对应的非字名称的集合出现的次数。
3.如权利要求1所述的一种人工智能数据收集***,其特征在于:所述非字数据包括数字数据和字母数据。
4.如权利要求1所述的一种人工智能数据收集***,其特征在于:所述云处理子***还包括样本录入模块,获取作为样本的待处理信息,以及该待处理信息对应的非字信息以及文字信息。
5.如权利要求1所述的一种人工智能数据收集***,其特征在于:所述非字特征匹配单元还包括根据样本的待处理信息以及对应的非字特征训练对应的辨识策略。
6.如权利要求1所述的一种人工智能数据收集***,其特征在于:所述字段解析单元还包括根据作为样本的待处理信息以及对应的文字内容训练对应的文字解析策略。
7.如权利要求1所述的一种人工智能数据收集***,其特征在于:所述字段解析单元根据文字名称的数量设置有文字匹配阈值,当匹配度低于阈值时,将该待处理信息发送至后台处理端,并将所述后台处理端的处理结果对应的非字信息和文字信息分别存储至非字数据库和文字数据库。
8.如权利要求1所述的一种人工智能数据收集***,其特征在于:所述字段解析单元执行辨识策略时若未获取到对应的文字内容,将该待处理信息发送至后台处理端,以获取对应的文字内容,并将对应的文字内容输入至文字信息生成单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010389211.4A CN111444397A (zh) | 2020-05-10 | 2020-05-10 | 一种人工智能数据收集*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010389211.4A CN111444397A (zh) | 2020-05-10 | 2020-05-10 | 一种人工智能数据收集*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111444397A true CN111444397A (zh) | 2020-07-24 |
Family
ID=71654955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010389211.4A Pending CN111444397A (zh) | 2020-05-10 | 2020-05-10 | 一种人工智能数据收集*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444397A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017088479A1 (zh) * | 2015-11-24 | 2017-06-01 | 乐视控股(北京)有限公司 | 台标识别方法及装置 |
CN109165273A (zh) * | 2018-08-24 | 2019-01-08 | 安徽讯飞智能科技有限公司 | 一种面向大数据环境的通用中文地址匹配方法 |
WO2019140641A1 (zh) * | 2018-01-19 | 2019-07-25 | 深圳前海达闼云端智能科技有限公司 | 信息处理方法、***、云处理设备以及计算机程序产品 |
-
2020
- 2020-05-10 CN CN202010389211.4A patent/CN111444397A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017088479A1 (zh) * | 2015-11-24 | 2017-06-01 | 乐视控股(北京)有限公司 | 台标识别方法及装置 |
WO2019140641A1 (zh) * | 2018-01-19 | 2019-07-25 | 深圳前海达闼云端智能科技有限公司 | 信息处理方法、***、云处理设备以及计算机程序产品 |
CN109165273A (zh) * | 2018-08-24 | 2019-01-08 | 安徽讯飞智能科技有限公司 | 一种面向大数据环境的通用中文地址匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
CN110275965B (zh) | 假新闻检测方法、电子装置及计算机可读存储介质 | |
WO2020253399A1 (zh) | 日志分类规则的生成方法、装置、设备及可读存储介质 | |
CN108363701B (zh) | 命名实体识别方法及*** | |
CN108682421B (zh) | 一种语音识别方法、终端设备及计算机可读存储介质 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN113220782A (zh) | 多元测试数据源生成方法、装置、设备及介质 | |
CN111708805A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
US11762879B2 (en) | Information traceability method and system based on blockchain | |
CN101339560B (zh) | 一种搜索系列性数据的方法、装置及一种搜索引擎*** | |
CN111079410A (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN112182174A (zh) | 业务问答知识查询方法、装置、计算机设备和存储介质 | |
CN114398315A (zh) | 一种数据存储方法、***、存储介质及电子设备 | |
CN106570095B (zh) | 一种xml数据的操作方法及设备 | |
CN115039090A (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN101600023A (zh) | 终端短信息搜索方法及其装置 | |
CN105512270B (zh) | 一种确定相关对象的方法和装置 | |
CN111444397A (zh) | 一种人工智能数据收集*** | |
CN110597765A (zh) | 一种大零售呼叫中心异构数据源数据处理方法及装置 | |
CN116501844A (zh) | 语音关键词检索方法及*** | |
CN113590828B (zh) | 一种通话关键信息的获取方法及装置 | |
CN115544235A (zh) | 一种基于文本解析的电网规划智能问答*** | |
CN112650600B (zh) | 推送消息内容的方法、装置和计算机设备 | |
CN115221874A (zh) | 倒排索引的构建方法、名单筛查方法、装置、电子设备 | |
CN111708872B (zh) | 对话方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |