CN109614622A - 有效数据提取方法、装置、存储介质及终端 - Google Patents

有效数据提取方法、装置、存储介质及终端 Download PDF

Info

Publication number
CN109614622A
CN109614622A CN201811510383.1A CN201811510383A CN109614622A CN 109614622 A CN109614622 A CN 109614622A CN 201811510383 A CN201811510383 A CN 201811510383A CN 109614622 A CN109614622 A CN 109614622A
Authority
CN
China
Prior art keywords
data
file destination
valid data
target
preset keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811510383.1A
Other languages
English (en)
Inventor
火莽
火一莽
王如意
石志中
张俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201811510383.1A priority Critical patent/CN109614622A/zh
Publication of CN109614622A publication Critical patent/CN109614622A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种有效数据提取方法、装置、存储介质及终端,该方法包括:首先,载入目标文件,拆分目标文件,得到多个第一数据;然后,根据预设位置从第一数据中确定第二数据,从第二数据开始遍历,将当前遍历的数据作为目标数据;最后,如果目标数据与预设关键字匹配,则根据预设关键字对应的获取模板提取有效数据,能够基于预设关键字从目标文件中提取有效数据,提高有效数据的提取效率。

Description

有效数据提取方法、装置、存储介质及终端
技术领域
本申请实施例涉及移动终端技术领域,尤其涉及有效数据提取方法、装置、存储介质及终端。
背景技术
随着大数据的飞速发展,文本信息的数据量也是暴增,文本内容中同样包含大量各行各业所需的信息。在获取文本信息的过程中发现,文本信息中除了包含有效数据,还包括许多冗余数据,如广告信息等。此时,从文本信息中提取出的数据将包括冗余数据,不仅占用了存储空间且在后续数据分析时会出现资源浪费的问题。可见,如何高效的提取文本信息中的有效数据成为亟待解决的问题。
发明内容
本申请实施例的目的是提供一种有效数据提取方法、装置、存储介质及终端,可以提高有效数据的提取效率。
第一方面,本申请实施例提供了一种有效数据提取方法,包括:
载入目标文件,拆分所述目标文件,得到多个第一数据;
根据预设位置从所述第一数据中确定第二数据,从所述第二数据开始遍历,将当前遍历的数据作为目标数据;
如果所述目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据。
第二方面,本申请实施例提供了一种有效数据提取装置,包括:
载入模块,用于载入目标文件;
拆分模块,用于拆分所述载入模块载入的所述目标文件,得到多个第一数据;
遍历模块,用于根据预设位置从所述拆分模块得到的所述第一数据中确定第二数据,从所述第二数据开始遍历,将当前遍历的数据作为目标数据;
提取模块,用于如果所述目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所示的有效数据提取方法。
第四方面,本申请实施例提供了一种终端,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,处理器执行计算机程序时实现如第一方面所示的有效数据提取方法。
本申请实施例提供的有效数据提取的方案,首先,载入目标文件,拆分所述目标文件,得到多个第一数据;然后,根据预设位置从所述第一数据中确定第二数据,从所述第二数据开始遍历,将当前遍历的数据作为目标数据;最后,如果所述目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据,能够基于预设关键字从目标文件中提取有效数据,提高有效数据的提取效率。
附图说明
图1为本申请实施例提供的一种有效数据提取方法的流程示意图;
图2为本申请实施例提供的另一种有效数据提取方法的流程示意图;
图3为本申请实施例提供的另一种有效数据提取方法的流程示意图;
图4为本申请实施例提供的另一种有效数据提取方法的流程示意图;
图5为本申请实施例提供的另一种有效数据提取方法的流程示意图;
图6为本申请实施例提供的另一种有效数据提取方法的流程示意图;
图7为本申请实施例提供的一种有效数据提取装置的结构示意图;
图8为本申请实施例提供的另一种有效数据提取装置的结构示意图;
图9为本申请实施例提供的一种移动终端的结构示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本申请的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
随着大数据的飞速发展,文本信息的数据量也是暴增,文本内容中同样包含大量各行各业所需的信息。在获取文本信息的过程中发现,文本信息中除了包含有效数据,还包括许多冗余数据,如广告信息等。此时,从文本信息中提取出的数据将包括冗余数据,不仅占用了存储空间且在后续数据分析时会出现资源浪费的问题。可见,如何高效的提取文本信息中的有效数据成为亟待解决的问题。
本申请实施例提供了一种有效数据提取方法,能够从具有固定格式的目标文件中快速准确的提取有效数据,提高有效数据的提取效率。具体方案如下所示:
图1为本申请实施例提供的有效数据提取方法的流程示意图,该方法用于从文件中获取有效数据的情况,该方法可以由终端执行,该终端可以为移动终端、固定终端或服务器等。其中,移动终端包括智能手机、平板电脑等、固定终端包括个人计算机等,该方法具体包括如下步骤:
步骤110、载入目标文件,拆分目标文件,得到多个第一数据。
目标文件可以为邮件或者邮件中携带的附件。以邮件为例,邮件包括邮件头和邮件正文。拆分目标文件时,可以将邮件头和邮件正文分别进行拆分,也可以支队邮件正文进行拆分。拆分后可以得到多个第一数据。第一数据的粒度可以为词组、字或者短语。
步骤120、根据预设位置从第一数据中确定第二数据,从第二数据开始遍历,将当前遍历的数据作为目标数据。
预设位置可以为第一个第一数据,即将目标文件拆分出的第一个数据作为第二数据。也可以根据目标文件的类型,将第N个第一数据确定为第二数据,并从第二数据开始遍历。第二数据为遍历的起始位置。按照顺序依次遍历全部第一数据,并将当前遍历的第一数据作为目标数据。
步骤130、如果目标数据与预设关键字匹配,则根据预设关键字对应的获取模板提取有效数据。
如果目标数据与预设关键字匹配,则说明在目标文件中找到了有效数据的前序数据。例如,预设关键字为“姓名”,则此时将姓名后面的N个字符作为姓名进行提取。N可以为1个字符、2个字符或3个字符等。又例如,预设关键字为“先生”或“女士”,则获取该预设关键词前面的M个字符,M可以为1个或2个。
可以为不同的目标文件配置相应的关键字库,然后基于关键字库中的预设关键字进行匹配。当匹配到预设关键字时,调用预设关键字对应的获取模板以便在目标文件中的获取相应有效数据。
例如,对于火车订票网站发送的订票信息邮件,预设关键字为“您好!”,此时,有效数据为预设关键字下两段的有效信息,如票款共计100元,订单号为EC12345678。购票信息如下:王二,a年b月c日d时f分发车,A地点-B地点。G123次列车,e车f号座位,二等座。
进一步的,不同的文件中有效数据有所不同,因此需要为每个文件类型设置相应的关键字库以及每个关键字对应的获取模板。在步骤130之前,还包括:
根据已知的目标文件和预期的有效数据确定至少一个预设关键字以及每个预设关键字对应的获取模板。根据所述至少一个预设关键字以及每个预设关键字对应的获取模板生成关键字库。建立所述目标文件的类型与所述关键字库的关联关系。
为不同的目标文件建立相应的获取模板,可以提高适用性,即可根据不同的词典库进行处理不同格式的实体文本,同样字符串的精确匹配也大大提高了文件正文内容结构化提取的准确度。
本申请实施例提供的有效数据提取的方法,首先,载入目标文件,拆分所述目标文件,得到多个第一数据。然后,根据预设位置从所述第一数据中确定第二数据,从所述第二数据开始遍历,将当前遍历的数据作为目标数据。最后,如果所述目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据,能够基于预设关键字从目标文件中提取有效数据,提高有效数据的提取效率。
图2为本申请实施例提供的一种有效数据提取方法的流程示意图,作为对上述实施例的进一步说明,包括:
步骤210、载入目标文件。
步骤220、根据预设符号拆分目标文件,预设符号包括,逗号,句号或分段符。或者,根据预设关键词拆分目标文件。或者,根据预设表格选项拆分目标文件拆分目标文件,得到多个第一数据。
根据逗号进行拆分时,每个半句作为一个第一数据。根据句号进行拆分时,每个句子作为一个第一数据。根据分段符进行拆分时,每个段落作为一个第一数据。预设关键词可以为有效数据前经常出现的关键词。例如:“信息如下:”等。预设表格选项可以为根据表格中有效数据所在的表格选项位置对表格进行拆分。
步骤230、根据预设位置从第一数据中确定第二数据,从第二数据开始遍历,将当前遍历的数据作为目标数据。
步骤240、如果目标数据与预设关键字匹配,则根据预设关键字对应的获取模板提取有效数据。
本申请实施例提供的有效数据提取方法,能够基于特定符号或者关键字或者表格选项对目标文件进行拆分,提高第一数据的拆分效率。
图3为本申请实施例提供的一种有效数据提取方法的流程示意图,作为对上述实施例的进一步说明,包括:
步骤310、载入目标文件。
步骤320、获取目标文件的文件类型。
可以根据目标文件的文件后缀确定目标文件的文件类型。
步骤330、根据文件类型确定拆分模版。
可以预先配置不同文件类型对应的拆分模板。从拆分模板集合中找到与目标文件的文件类型匹配的拆分模板。
步骤340、根据拆分模版拆分目标文件,得到多个第一数据。
步骤350、根据预设位置从第一数据中确定第二数据,从第二数据开始遍历,将当前遍历的数据作为目标数据。
步骤360、如果目标数据与预设关键字匹配,则根据预设关键字对应的获取模板提取有效数据。
本申请实施例提供的有效数据提取方法,能够基于目标文件的文件类型对目标文件进行拆分,提高第一数据的拆分效率。
图4为本申请实施例提供的一种有效数据提取方法的流程示意图,作为对上述实施例的进一步说明,包括:
步骤410、载入目标文件。
步骤420、识别目标文件中的图像数据,得到相应的文本数据。
目标文件中除了文本格式的数据,还可能包括图像数据。然而图像数据中可能存在有效数据。此时,需要对图像数据进行识别,获取图像数据包括的文本数据。
步骤430、根据文本数据进行拆分,得到多个第一数据。
将对图像数据识别得到的文本数据以及目标文件本身的文本数据进行拆分,得到多个第一数据。
步骤440、根据预设位置从第一数据中确定第二数据,从第二数据开始遍历,将当前遍历的数据作为目标数据。
步骤450、如果目标数据与预设关键字匹配,则根据预设关键字对应的获取模板提取有效数据。
本申请实施例提供的有效数据提取方法,能够对目标文件中的图像数据进行识别,获取其中的文本数据,提高易用性。
图5为本申请实施例提供的一种有效数据提取方法的流程示意图,作为对上述实施例的进一步说明,包括:
步骤510、载入目标文件,拆分目标文件,得到多个第一数据。
步骤520、根据预设位置从第一数据中确定第二数据。
步骤530、从第二数据开始遍历,将当前遍历的数据作为目标数据。
步骤540、根据目标文件的类型确定关键字库,关键字库包括多个预设关键字以及每个预设关键字对应的获取模板。
关键字库中包含目标文件中可以查找到有效数据的预设关键字。
步骤550、判断目标数据是否与目标关键字匹配,目标关键字为所述关键字库中的任意一个预设关键字。
将当前遍历的目标数据分别与关键字库中的每个预设关键字进行比较,当前比较的预设关键字称为目标关键字。如果目标数据与目标关键字匹配,则执行步骤560。如果不匹配,则将下一个第一数据确定为目标数据,返回执行步骤540。
步骤560、如果目标数据与目标关键字匹配,则根据目标关键字对应的获取模板提取有效数据。
如果目标数据与目标关键字匹配,则根据目标关键字对应的获取模板。获取模板可以为获取目标关键字前N个字符或获取目标关键字后N个字符,或者获取目标关键字下一行的信息。或者获取目标关键字下一段的信息等。
本申请实施例提供的有效数据提取方法,能够通过关键字的匹配从目标文件中确定可以获取到有效数据的目标关键字,然后通过目标关键字的获取模板获取有效数据,进而更加准确的定位有效数据,提高有效数据的提取效率。
图6为本申请实施例提供的一种有效数据提取方法的流程示意图,作为对上述实施例的进一步说明,包括:
步骤610、载入目标文件,拆分目标文件,得到多个第一数据。
步骤620、根据预设位置从第一数据中确定第二数据。
步骤630、从第二数据开始遍历,将当前遍历的数据作为目标数据。
步骤640、根据目标文件的类型确定关键字库,关键字库包括多个预设关键字以及每个预设关键字对应的获取模板。
步骤650、判断目标数据是否与目标关键字匹配,目标关键字为关键字库中的任意一个预设关键字。
如果不匹配,则将下一个第一数据确定为目标数据,返回执行步骤540。
步骤660、如果目标数据与目标关键字匹配,则根据目标关键字对应的获取模板提取有效数据。
步骤670、对有效数据进行分词处理,得到至少一个分词数据。
分词数据包括单子数据、词语数据以及短语数据。
步骤680、如果分词数据与预设子关键字匹配,则根据预设子关键字对应的子获取模板提取子有效数据。
本申请实施例提供的有效数据提取方法,能够在获取到有效数据后,进一步获取有效数据的子有效数据,能够更加精准的获取子有效数据,提高易用性。
图7为本申请实施例提供的一种有效数据提取装置的结构示意图。如图7所示,该装置包括:载入模块710、拆分模块720、遍历模块730和提取模块740。
载入模块710,用于载入目标文件。
拆分模块720,用于拆分所述载入模块710载入的所述目标文件,得到多个第一数据。
遍历模块730,用于根据预设位置从所述拆分模块720得到的所述第一数据中确定第二数据,从所述第二数据开始遍历,将当前遍历的数据作为目标数据。
提取模块740,用于如果所述目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据。
进一步的,拆分模块720用于:根据预设符号拆分所述目标文件,所述预设符号包括,逗号,句号或分段符。
或者,根据预设关键词拆分所述目标文件。
或者,根据预设表格选项拆分所述目标文件。
进一步的,拆分模块720用于:
获取所述目标文件的文件类型。
根据所述文件类型确定拆分模版。
根据所述拆分模版拆分所述目标文件。
进一步的,拆分模块720用于:
识别所述目标文件中的图像数据,得到相应的文本数据。
根据所述文本数据进行拆分。
进一步的,提取模块740用于:根据目标文件的类型确定关键字库,所述关键字库包括多个预设关键字以及每个预设关键字对应的获取模板。
判断所述目标数据是否与目标关键字匹配,所述目标关键字为所述关键字库中的任意一个预设关键字。
如果所述目标数据与目标关键字匹配,则根据所述目标关键字对应的获取模板提取有效数据。
进一步的,提取模块740用于:在根据所述目标关键字对应的获取模板提取有效数据之后,对所述有效数据进行分词处理,得到至少一个分词数据。
如果所述分词数据与预设子关键字匹配,则根据所述预设子关键字对应的子获取模板提取子有效数据。
进一步的,如图8所示,还包括模板建立模块750。
模板建立模块750用于:在如果目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据之前,根据已知的目标文件和预期的有效数据确定至少一个预设关键字以及每个预设关键字对应的获取模板。
根据所述至少一个预设关键字以及每个预设关键字对应的获取模板生成关键字库。
建立所述目标文件的类型与所述关键字库的关联关系。
本申请实施例提供的有效数据提取的装置,首先,载入模块710载入目标文件,拆分模块720拆分所述目标文件,得到多个第一数据。然后,遍历模块730根据预设位置从所述第一数据中确定第二数据,从所述第二数据开始遍历,将当前遍历的数据作为目标数据。最后,如果所述目标数据与预设关键字匹配,则提取模块740根据所述预设关键字对应的获取模板提取有效数据,能够基于预设关键字从目标文件中提取有效数据,提高有效数据的提取效率。
上述装置可执行本申请前述所有实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请前述所有实施例所提供的方法。
图9是本申请实施例提供的另一种终端设备的结构示意图。如图9所示,该终端可以包括:壳体(图中未示出)、存储器801、中央处理器(Central Processing Unit,CPU)802(又称处理器,以下简称CPU)、存储在存储器801上并可在处理器802上运行的计算机程序、电路板(图中未示出)和电源电路(图中未示出)。电路板安置在壳体围成的空间内部;CPU802和存储器801设置在电路板上;电源电路,用于为终端的各个电路或器件供电;存储器801,用于存储可执行程序代码;CPU802通过读取存储器801中存储的可执行程序代码来运行与可执行程序代码对应的程序。
终端还包括:外设接口803、RF(Radio Frequency,射频)电路805、音频电路806、扬声器811、电源管理芯片808、输入/输出(I/O)子***809、显示屏812、其他输入/控制设备810以及外部端口804,这些部件通过一个或多个通信总线或信号线807来通信。
应该理解的是,图示终端设备800仅仅是终端的一个范例,并且终端设备800可以具有比图中所示出的更多的或者更少的部件,可以组合两个或更多的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
下面就本实施例提供的用于一种终端设备进行详细的描述,该终端设备以智能手机为例。
存储器801,存储器801可以被CPU802、外设接口803等访问,存储器801可以包括高速随机存取存储器,还可以包括非易失性存储器,例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
外设接口803,外设接口803可以将设备的输入和输出外设连接到CPU802和存储器801。
I/O子***809,I/O子***809可以将设备上的输入输出外设,例如显示屏812和其他输入/控制设备810,连接到外设接口803。I/O子***809可以包括显示控制器8091和用于控制其他输入/控制设备810的一个或多个输入控制器8092。其中,一个或多个输入控制器8092从其他输入/控制设备810接收电信号或者向其他输入/控制设备810发送电信号,其他输入/控制设备810可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是,输入控制器8092可以与以下任一个连接:键盘、红外端口、USB接口以及诸如鼠标的指示设备。
I/O子***809中的显示控制器8091向显示屏812发送电信号。显示在显示屏812上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是,设备还可以包括光鼠,光鼠是不显示可视输出的触摸敏感表面,或者是由触摸屏形成的触摸敏感表面的延伸。
RF电路805,主要用于建立智能音箱与无线网络(即网络侧)的通信,实现智能音箱与无线网络的数据接收和发送。例如收发短信息、电子邮件等。
音频电路806,主要用于从外设接口803接收音频数据,将该音频数据转换为电信号,并且将该电信号发送给扬声器811。
扬声器811,用于将智能音箱通过RF电路805从无线网络接收的语音信号,还原为声音并向用户播放该声音。
电源管理芯片808,用于为CPU802、I/O子***及外设接口所连接的硬件进行供电及电源管理。
在本实施例中,中央处理器802用于:
载入目标文件,拆分所述目标文件,得到多个第一数据;
根据预设位置从所述第一数据中确定第二数据,从所述第二数据开始遍历,将当前遍历的数据作为目标数据;
如果所述目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据。
进一步的,所述拆分所述目标文件,包括:
根据预设符号拆分所述目标文件,所述预设符号包括,逗号,句号或分段符;
或者,根据预设关键词拆分所述目标文件;
或者,根据预设表格选项拆分所述目标文件。
进一步的,所述拆分所述目标文件,包括:
获取所述目标文件的文件类型;
根据所述文件类型确定拆分模版;
根据所述拆分模版拆分所述目标文件。
进一步的,所述拆分所述目标文件,包括:
识别所述目标文件中的图像数据,得到相应的文本数据;
根据所述文本数据进行拆分。
进一步的,如果目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据,包括:
根据目标文件的类型确定关键字库,所述关键字库包括多个预设关键字以及每个预设关键字对应的获取模板;
判断所述目标数据是否与目标关键字匹配,所述目标关键字为所述关键字库中的任意一个预设关键字;
如果所述目标数据与目标关键字匹配,则根据所述目标关键字对应的获取模板提取有效数据。
进一步的,在根据所述目标关键字对应的获取模板提取有效数据之后,包括:
对所述有效数据进行分词处理,得到至少一个分词数据;
如果所述分词数据与预设子关键字匹配,则根据所述预设子关键字对应的子获取模板提取子有效数据。
进一步的,在如果目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据之前,包括:
根据已知的目标文件和预期的有效数据确定至少一个预设关键字以及每个预设关键字对应的获取模板;
根据所述至少一个预设关键字以及每个预设关键字对应的获取模板生成关键字库;
建立所述目标文件的类型与所述关键字库的关联关系。
本申请实施例还提供一种包含终端设备可执行指令的存储介质,终端设备可执行指令在由终端设备处理器执行时用于执行一种有效数据提取方法,该方法包括:
载入目标文件,拆分所述目标文件,得到多个第一数据;
根据预设位置从所述第一数据中确定第二数据,从所述第二数据开始遍历,将当前遍历的数据作为目标数据;
如果所述目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据。
进一步的,所述拆分所述目标文件,包括:
根据预设符号拆分所述目标文件,所述预设符号包括,逗号,句号或分段符;
或者,根据预设关键词拆分所述目标文件;
或者,根据预设表格选项拆分所述目标文件。
进一步的,所述拆分所述目标文件,包括:
获取所述目标文件的文件类型;
根据所述文件类型确定拆分模版;
根据所述拆分模版拆分所述目标文件。
进一步的,所述拆分所述目标文件,包括:
识别所述目标文件中的图像数据,得到相应的文本数据;
根据所述文本数据进行拆分。
进一步的,如果目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据,包括:
根据目标文件的类型确定关键字库,所述关键字库包括多个预设关键字以及每个预设关键字对应的获取模板;
判断所述目标数据是否与目标关键字匹配,所述目标关键字为所述关键字库中的任意一个预设关键字;
如果所述目标数据与目标关键字匹配,则根据所述目标关键字对应的获取模板提取有效数据。
进一步的,在根据所述目标关键字对应的获取模板提取有效数据之后,包括:
对所述有效数据进行分词处理,得到至少一个分词数据;
如果所述分词数据与预设子关键字匹配,则根据所述预设子关键字对应的子获取模板提取子有效数据。
进一步的,在如果目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据之前,包括:
根据已知的目标文件和预期的有效数据确定至少一个预设关键字以及每个预设关键字对应的获取模板;
根据所述至少一个预设关键字以及每个预设关键字对应的获取模板生成关键字库;
建立所述目标文件的类型与所述关键字库的关联关系。
本申请实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的应用推荐操作,还可以执行本申请任意实施例所提供的应用推荐方法中的相关操作。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (10)

1.一种有效数据提取方法,其特征在于,包括:
载入目标文件,拆分所述目标文件,得到多个第一数据;
根据预设位置从所述第一数据中确定第二数据,从所述第二数据开始遍历,将当前遍历的数据作为目标数据;
如果所述目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据。
2.根据权利要求1所述的有效数据提取方法,其特征在于,所述拆分所述目标文件,包括:
根据预设符号拆分所述目标文件,所述预设符号包括,逗号,句号或分段符;
或者,根据预设关键词拆分所述目标文件;
或者,根据预设表格选项拆分所述目标文件。
3.根据权利要求1所述的有效数据提取方法,其特征在于,所述拆分所述目标文件,包括:
获取所述目标文件的文件类型;
根据所述文件类型确定拆分模版;
根据所述拆分模版拆分所述目标文件。
4.根据权利要求1所述的有效数据提取方法,其特征在于,所述拆分所述目标文件,包括:
识别所述目标文件中的图像数据,得到相应的文本数据;
根据所述文本数据进行拆分。
5.根据权利要求1-4中任一项所述的有效数据提取方法,其特征在于,如果目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据,包括:
根据目标文件的类型确定关键字库,所述关键字库包括多个预设关键字以及每个预设关键字对应的获取模板;
判断所述目标数据是否与目标关键字匹配,所述目标关键字为所述关键字库中的任意一个预设关键字;
如果所述目标数据与目标关键字匹配,则根据所述目标关键字对应的获取模板提取有效数据。
6.根据权利要求5所述的有效数据提取方法,其特征在于,在根据所述目标关键字对应的获取模板提取有效数据之后,包括:
对所述有效数据进行分词处理,得到至少一个分词数据;
如果所述分词数据与预设子关键字匹配,则根据所述预设子关键字对应的子获取模板提取子有效数据。
7.根据权利要求5所述的有效数据提取方法,其特征在于,在如果目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据之前,包括:
根据已知的目标文件和预期的有效数据确定至少一个预设关键字以及每个预设关键字对应的获取模板;
根据所述至少一个预设关键字以及每个预设关键字对应的获取模板生成关键字库;
建立所述目标文件的类型与所述关键字库的关联关系。
8.一种有效数据提取的装置,其特征在于,包括:
载入模块,用于载入目标文件;
拆分模块,用于拆分所述载入模块载入的所述目标文件,得到多个第一数据;
遍历模块,用于根据预设位置从所述拆分模块得到的所述第一数据中确定第二数据,从所述第二数据开始遍历,将当前遍历的数据作为目标数据;
提取模块,用于如果所述目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述有效数据提取方法。
10.一种终端,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一所述的有效数据提取方法。
CN201811510383.1A 2018-12-11 2018-12-11 有效数据提取方法、装置、存储介质及终端 Pending CN109614622A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811510383.1A CN109614622A (zh) 2018-12-11 2018-12-11 有效数据提取方法、装置、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811510383.1A CN109614622A (zh) 2018-12-11 2018-12-11 有效数据提取方法、装置、存储介质及终端

Publications (1)

Publication Number Publication Date
CN109614622A true CN109614622A (zh) 2019-04-12

Family

ID=66007182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811510383.1A Pending CN109614622A (zh) 2018-12-11 2018-12-11 有效数据提取方法、装置、存储介质及终端

Country Status (1)

Country Link
CN (1) CN109614622A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144092A (zh) * 2019-12-16 2020-05-12 深圳市金蝶天燕云计算股份有限公司 数据拆分方法、装置、计算机可读存储介质和计算机设备
CN111160157A (zh) * 2019-12-17 2020-05-15 万翼科技有限公司 基于dwg图纸的文本提取方法及相关产品
CN112256459A (zh) * 2020-11-18 2021-01-22 四川长虹电器股份有限公司 一种可自定义复制粘贴文档中的文字的方法
CN112686012A (zh) * 2020-11-11 2021-04-20 福建亿榕信息技术有限公司 一种公文特征提取方法、装置、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040243501A1 (en) * 2003-05-29 2004-12-02 Regal Press, Inc. System and method for automated data processing
JP2009302741A (ja) * 2008-06-11 2009-12-24 Konica Minolta Business Technologies Inc 画像処理装置
CN104123289A (zh) * 2013-04-24 2014-10-29 北京无限立通通讯技术有限责任公司 一种垃圾邮件关键词的查找方法及***
US9176945B1 (en) * 2013-03-15 2015-11-03 Easilydo, Inc. Extracting data from messages for multiple accounts
CN105472580A (zh) * 2015-11-17 2016-04-06 小米科技有限责任公司 信息的处理方法、装置、终端及服务器
CN106547895A (zh) * 2016-11-03 2017-03-29 北京锐安科技有限公司 一种网页信息的提取方法及装置
CN107798030A (zh) * 2017-02-17 2018-03-13 平安科技(深圳)有限公司 数据表的拆分方法和装置
CN108304554A (zh) * 2018-02-02 2018-07-20 平安证券股份有限公司 文件拆分方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040243501A1 (en) * 2003-05-29 2004-12-02 Regal Press, Inc. System and method for automated data processing
JP2009302741A (ja) * 2008-06-11 2009-12-24 Konica Minolta Business Technologies Inc 画像処理装置
US9176945B1 (en) * 2013-03-15 2015-11-03 Easilydo, Inc. Extracting data from messages for multiple accounts
CN104123289A (zh) * 2013-04-24 2014-10-29 北京无限立通通讯技术有限责任公司 一种垃圾邮件关键词的查找方法及***
CN105472580A (zh) * 2015-11-17 2016-04-06 小米科技有限责任公司 信息的处理方法、装置、终端及服务器
CN106547895A (zh) * 2016-11-03 2017-03-29 北京锐安科技有限公司 一种网页信息的提取方法及装置
CN107798030A (zh) * 2017-02-17 2018-03-13 平安科技(深圳)有限公司 数据表的拆分方法和装置
CN108304554A (zh) * 2018-02-02 2018-07-20 平安证券股份有限公司 文件拆分方法、装置、计算机设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144092A (zh) * 2019-12-16 2020-05-12 深圳市金蝶天燕云计算股份有限公司 数据拆分方法、装置、计算机可读存储介质和计算机设备
CN111144092B (zh) * 2019-12-16 2023-11-24 深圳市金蝶天燕云计算股份有限公司 数据拆分方法、装置、计算机可读存储介质和计算机设备
CN111160157A (zh) * 2019-12-17 2020-05-15 万翼科技有限公司 基于dwg图纸的文本提取方法及相关产品
CN111160157B (zh) * 2019-12-17 2023-08-08 深圳市万翼数字技术有限公司 基于dwg图纸的文本提取方法及相关产品
CN112686012A (zh) * 2020-11-11 2021-04-20 福建亿榕信息技术有限公司 一种公文特征提取方法、装置、设备和介质
CN112256459A (zh) * 2020-11-18 2021-01-22 四川长虹电器股份有限公司 一种可自定义复制粘贴文档中的文字的方法

Similar Documents

Publication Publication Date Title
CN109614622A (zh) 有效数据提取方法、装置、存储介质及终端
CN106155686B (zh) 界面生成方法、装置和***
CN106251869B (zh) 语音处理方法及装置
CN104380284B (zh) 针对多种语言处理内容的语音合成
KR101491843B1 (ko) 대화 기반 검색 도우미 시스템 및 그 방법
US20170249934A1 (en) Electronic device and method for operating the same
CN111261144A (zh) 一种语音识别的方法、装置、终端以及存储介质
US10783874B2 (en) Method and apparatus for providing voice feedback information to user in call
CN103853703A (zh) 一种信息处理方法及电子设备
CN111490927B (zh) 一种显示消息的方法、装置及设备
CN109271768A (zh) 发布信息管理方法、装置、存储介质及终端
CN107943914A (zh) 语音信息处理方法和装置
CN105426103A (zh) 一种移动设备上消息编辑方法和装置
CN107767228A (zh) 应用推荐方法、装置、终端设备及存储介质
CN103177724A (zh) 语音控制文本操作的方法、装置及终端
CN108304434B (zh) 信息反馈方法和终端设备
CN107168610A (zh) 弹窗处理方法及装置、存储介质和电子设备
CN107797996B (zh) 一种词条翻译方法及装置
CN111160157B (zh) 基于dwg图纸的文本提取方法及相关产品
CN110970030A (zh) 一种语音识别转换方法及***
CN108595412A (zh) 纠错处理方法及装置、计算机设备及可读介质
CN111179904A (zh) 混合文语转换方法及装置、终端和计算机可读存储介质
CN108427549A (zh) 通知消息的声音处理方法、装置、存储介质及终端
CN109005469A (zh) 一种消息格式的转换方法、装置、存储介质及安卓终端
CN108072885A (zh) 定位模块的配置方法、装置、存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190412