CN101770470B - 一种文件类型识别分析方法及*** - Google Patents

一种文件类型识别分析方法及*** Download PDF

Info

Publication number
CN101770470B
CN101770470B CN2008102052113A CN200810205211A CN101770470B CN 101770470 B CN101770470 B CN 101770470B CN 2008102052113 A CN2008102052113 A CN 2008102052113A CN 200810205211 A CN200810205211 A CN 200810205211A CN 101770470 B CN101770470 B CN 101770470B
Authority
CN
China
Prior art keywords
file
file type
type
internal memory
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008102052113A
Other languages
English (en)
Other versions
CN101770470A (zh
Inventor
庄晓
吕苏
李岭
胡小舟
李正林
诸遥杳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN2008102052113A priority Critical patent/CN101770470B/zh
Priority to SG2011047628A priority patent/SG172426A1/en
Priority to US13/142,923 priority patent/US9690788B2/en
Priority to PCT/CN2009/000904 priority patent/WO2010075661A1/zh
Publication of CN101770470A publication Critical patent/CN101770470A/zh
Priority to HK11100137.1A priority patent/HK1145896A1/xx
Application granted granted Critical
Publication of CN101770470B publication Critical patent/CN101770470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供了一种处理效率高、精确性高并且参数配置简单、分析迅速的文件类型识别、分析方法及***。该文件类型识别分析方法是用于识别从数据库读入的文件类型并进行分析的方法,其特征在于,包括:将文件类型、文件格式参数装载到内存的装载步骤;从存储器读入文件的文件读入步骤;判断读入的文件是否是内存能够识别的文件类型的文件类型识别步骤;在能够识别文件类型的情况下,进行文件分析并生成分析报告的文件分析步骤。利用本发明,有效地缩短了文件分析的时间,并且也能够确保文件识别、分析的精确性。

Description

一种文件类型识别分析方法及***
技术领域
本发明涉及一种数据处理方法及***,特别地涉及用于识别、分析文件类型的数据处理法方法及***。
背景技术
信息的存储通常是以文件的形式存在,并以文件形式进行归档、整理。伴随着数据处理技术的不断发展,用户对文件归档、分析等工作的需求也日趋多样化。
在现有技术中,作为文件分析方法,主要有诸如使用UltraEdit等辅助工具,采用人工分析流水文件的方法。
UltraEdit是一种文本编辑器,可以编辑文字、Hex、ASCII码,可以取代记事本,内建英文单字检查、C++及VB指令突显,可同时编辑多个文件,而且即使开启很大的文件速度也不会慢。软件附有HTML Tag颜色显示、搜寻替换以及无限制的还原功能,一般可以用UltraEdit来修改EXE或DLL文件。
然而,上述利用UltraEdit等的分析方法存在工作量大、分析结果不准确、需要依靠人工进行分析的问题,而且,文件过大时,存在无法正确进行处理或者处理效率低的问题。
发明内容
本发明鉴于上述问题,旨在提出一种处理效率高、精确性高并且参数配置简单、分析迅速的文件类型识别、分析方法及***。
本发明第1方面的文件类型识别分析方法,是用于识别从数据库读入的文件类型并进行分析的方法,其特征在于,包括下述步骤:
将文件类型、文件格式参数装载到内存的装载步骤;
从存储器读入文件的文件读入步骤;
判断读入的文件是否是内存能够识别的文件类型的文件类型识别步骤;
在能够识别文件类型的情况下,进行文件分析并生成分析报告的文件分析步骤。
优选地,在上述文件类型识别步骤中,根据文件名在内存中匹配对应的文件类型,根据匹配的文件类型在内存中搜索对应的文件格式。
优选地,在上述文件分析步骤中,对不同类型的文件,按照不同规则对行长度、字段分割符、结尾符、字段字符串格式进行判定。
优选地,在上述文件分析步骤中,包括下述步骤:
打开文件,一次性读取指定行数的文件内容,根据文件类型在规定规范下的要求,判断每行结尾的方式是否正确,对错误的行直接抛弃,并在分析报告中进行提示;
根据匹配到的文件格式,对文件格式中的长度取和并与该行的长度对比,不相等的,则抛弃并在分析报告中进行提示;
根据文件格式中的每个字段,取其长度对该行进行切割,并对切割出来的数据内容匹配对应的字段名称及域号内存中对应的文件格式取完后,该行切割结束。将切割的结果保存在内存中,
将内存中切割后的结果,以及对应的文件格式信息,通过界面显示。
优选地,在上述文件分析步骤中,包括下述步骤:
打开文件,读取指定字节大小的文件内容,对读取的内容,按指定字符个数进行分行,并装载入内存;
取内存中文件的第一行内容,前三个字符,根据该文件类型及记录类型码从内存中查找出对应的所有文件格式;
对该文件格式数据进行切割处理;
当该记录类型的段号切割完后,对剩余的行文件内容切割前三个字符,和文件类型一起查找文件格式,对该文件格式数据同样地进行上述切割处理直至文件读入指定字节大小结束;
通过界面显示该文件内容。
优选地,上述切割处理包括下述步骤:
取该文件的接下来四位字符并转换成二进制,对二进制结果进行检查,若值为1的,则在文件格式内存中查找该段号的文件格式,按照字段长度对行文件内容进行切割,并和字段名称、域号匹配地载入到内存,当行的长度不够切割时,取下一行和上一行剩余内容继续完成切割。
优选地,在上述文件分析步骤之前、文件类型识别步骤之后还包括:
判断文件的是否为大文件的步骤,
如果判断为大文件的情况下,按页打开文件进行文件分析。
优选地,还具备对读入的文件进行模糊匹配的模糊匹配步骤,该模糊匹配步骤包括:获得读入的文件文件名的步骤;
判断文件名是否模糊匹配,在匹配的情况下,区分文件类型及属性,在不匹配的情况下直接输出分析报告。
本发明第2方面的文件类型识别分析***,用于识别从数据库读入的文件类型并进行分析,其特征在于,包括下述单元:
将文件类型、文件格式参数装载到内存的装载单元;
从存储器读入文件的文件读入单元;
判断读入的文件是否是内存能够识别的文件类型的文件类型识别单元;以及
在由上述文件类型识别单元判别为能够识别文件类型的情况下,进行文件分析并生成分析报告的文件分析单元。
优选地,还括:
判断上述文件读入单元读入的文件是否为大文件的判断单元,如果判断为大文件的情况下,上述文件分析单元按页打开文件进行文件分析。
优选地,还具备对读入的文件进行模糊匹配的模糊匹配单元,该模糊匹配单元包括:
获得读入的文件文件名的文件名获取单元;以及
判断由上述文件名获取单元获得的文件名是否模糊匹配,在匹配的情况下,区分文件类型及属性,在不匹配的情况下直接输出分析报告的判断单元。
利用本发明,如上所述,能够进行文件类型自动识别,并对文件进行自动分析。在无需修改应用***的情况下,按照录入的文件类型及格式参数,能够自动进行各种类型文件的自动识别、分析并将分析报告通过界面输出。实现了在广泛应用的windos的平台下,对各类文件流水文件自动进行识别并分析的方法及***。具有参数配饰简单、分析迅速及精确的优点,大大缩短了事件处理或测试过程中对文件分析的时间,有效的提高了工作效率。
附图说明
图1是表示本发明的文件类型识别分析方法的流程图。
图2是表示上述文件类型识别分析方法中的文件类型识别步骤的流程图。
具体实施方式
图1是表示本发明的文件类型识别分析方法的流程图。
如图1所示,用于识别从数据库读入的文件类型并进行分析的文件类型识别分析方法,包括下述步骤:
将文件类型、文件格式参数装载到内存的装载步骤(S100);从存储器读入文件的文件读入步骤(S110);判断读入的文件是否是内存能够识别的文件类型的文件类型识别步骤(S120);在能够识别文件类型的情况下,进行文件分析并生成分析报告的文件分析步骤(S140)。
在上述文件类型识别步骤(S120)和上述文件分析步骤(S140)之间,还可设置判断文件是否是大文件的判断步骤(S130)。当读入的文件是大文件的情况下,例如,达到几百兆或者上G字节的情况下,进行按Page页方法打开(例如,每页的大小为64×5KB)并且读取文件进行分析处理。
另外,根据文件表现性质的不同,可以将文件分为分行流水文件和不分行流水文件。这里,分行流水文件是指,文件中每行格式相同,长度相同,一行表示一笔数据,不分行流水文件是指,文件中可能有多笔交易内容,但是整体上显示成一行,且文件的格式不固定。一般,一笔流水文件的具体格式,根据该流水文件开始的交易类型码和16进制位图来决定。
具体地,在对分行文件进行上述文件分析的步骤中,包括下述步骤:
打开文件,一次性读取指定行数的文件内容,根据文件类型在规定规范下的要求,判断每行结尾的方式是否正确,对错误的行直接抛弃,并在分析报告中进行提示;
根据匹配到的文件格式,对文件格式中的长度取和并与该行的长度对比,不相等的,则抛弃并在分析报告中进行提示;
根据文件格式中的每个字段,取其长度对该行进行切割,并对切割出来的数据内容匹配对应的字段名称及域号内存中对应的文件格式取完后,该行切割结束。将切割的结果保存在内存中,
将内存中切割后的结果,以及对应的文件格式信息,通过界面显示。
另外,在对不分行流水文件进行在上述文件分析的步骤中,包括下述步骤:
打开文件,读取指定字节大小的文件内容,对读取的内容,按指定字符个数进行分行,并装载入内存;
取内存中文件的第一行内容,前三个字符(记录类型码),根据该文件类型及记录类型码从内存中查找出对应的所有文件格式(例如,字段名称、字段长度、域号等);
按照字段长度对行流水进行切割,并和字段名称、域号匹配地存放入内存中。当行的长度不够切割时,取下一行和上一行的剩余内容继续完成切割;
当该记录类型的段号切割完后,对剩余的行文件内容切割前三个字符,和文件类型一起查找文件格式,对该文件格式数据同样地进行上述切割处理直至文件读入指定字节大小结束;
通过界面显示该文件内容,例如显示字段名称、字段内容、字段长度以及域号等。
其中,上述切割处理包括下述步骤:
取该文件的接下来四位字符并转换成二进制,对二进制结果进行检查,若值为1的,则在文件格式内存中查找该段号的文件格式,按照字段长度对行文件内容进行切割,并和字段名称、域号匹配地载入到内存,当行的长度不够切割时,取下一行和上一行剩余内容继续完成切割。
在上述文件分析过程中,对不同类型的文件,可以按照不同规则对行长度、字段分割符、结尾符、字段字符串格式等进行判定。例如将本发明应用到银行***进行文件类型分析的情况下,可以对应报文域获取,获取与交易识别,对应数据库字段获取等进行分析,对文件中本金、手续费、交易进行统计分析,并将分析内容做出内存日志报告。在文件分析完毕之后,将内存中的分析报告输出。
图2是表示本发明的文件类型识别步骤的流程图。
如图2所示,在本发明的文件类型识别中,首先对内存装载参数(S121),其次,获取读入文件名(S122),接着判断文件名是否模糊匹配(S123)。
在进行模糊匹配的判断中,将读入的具体文件名称,先转换成通用文件类型名称。按照“年”方“YY”或“YYYY”,“月”为“MM”,“日”为“DD”,其它数字为“?”,英文字符不转换的规则,进行转换。如读入文件名称为“IND2008100899ACOM”,转换为“INDYYMMDD??ACOM”;读入文件名称为“SF20081008”,转换为“SFYYYYMMDD”。最后,将转换后的通用文件类型名称,在内存参数中查找,查找到则继续处理,查找不到输出日志报告并结束。
上述描写的本发明的文件类型识别分析方法能够用下述文件类型识别分析***来实现。
该文件类型识别分析***包括:将文件类型、文件格式参数装载到内存的装载单元;从存储器读入文件的文件读入单元;判断读入的文件是否是内存能够识别的文件类型的文件类型识别单元;以及在由上述文件类型识别单元判别为能够识别文件类型的情况下,进行文件分析并生成分析报告的文件分析单元。
其中,在该文件类型识别分析***中还可以包括:判断上述文件读入单元读入的文件是否为大文件的判断单元,如果判断为大文件的情况下,上述文件分析单元按页打开文件进行文件分析。
进一步在该文件类型识别分析***中还可以具备对读入的文件进行模糊匹配的模糊匹配单元,该模糊匹配单元包括:获得读入的文件文件名的文件名获取单元;以及判断由上述文件名获取单元获得的文件名是否模糊匹配,在匹配的情况下,区分文件类型及属性,在不匹配的情况下直接输出分析报告的判断单元。
利用本发明文件类型识别分析方法以及***,如上所述,能够进行文件类型自动识别,并对文件进行自动分析。在无需修改应用***的情况下,按照录入的文件类型及格式参数,能够自动进行各种类型文件的自动识别、分析并将分析报告通过界面输出。实现了在广泛应用的windos的平台下,对存储器之间的各类文件流水文件自动进行识别并分析的方法及***。
由此,具有参数配饰简单、分析迅速及精确的优点,大大缩短了测试过程中对文件分析的时间,有效的提高了工作效率。即,利用本发明,能够有效缩短文件分析的时间,同时也能够确保文件识别、分析的精确性。
以上内容仅为本发明的优选实施方式而已,并不用于限制本发明。对于本领域的技术人员来说,可以对本发明进行各种改变和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应该包含在本发明所保护的范围之内。

Claims (7)

1.一种文件类型识别分析方法,用于识别从数据库读入的文件类型并进行分析,其特征在于,包括下述步骤:
将文件类型、文件格式参数装载到内存的装载步骤;
从存储器读入文件的文件读入步骤;
判断读入的文件是否是内存能够识别的文件类型的文件类型识别步骤;
在能够识别文件类型的情况下,进行文件分析并生成分析报告的文件分析步骤,
在上述文件分析步骤中,包括下述步骤:
打开文件,一次性读取指定行数的文件内容,根据文件类型在规定规范下的要求,判断每行结尾的方式是否正确,对错误的行直接抛弃,并在分析报告中进行提示;
根据匹配到的文件格式,对文件格式中的长度取和并与该行的长度对比,不相等的,则抛弃并在分析报告中进行提示;
根据文件格式中的每个字段,取其长度对该行进行切割,并对切割出来的数据内容匹配对应的字段名称及域号内存中对应的文件格式取完后,该行切割结束,将切割的结果保存在内存中,
将内存中切割后的结果,以及对应的文件格式信息,通过界面显示。
2.如权利要求1所述的文件类型识别分析方法,其特征在于,
在上述文件类型识别步骤中,根据文件名在内存中匹配对应的文件类型,根据匹配的文件类型在内存中搜索对应的文件格式。
3.如权利要求2所述的文件类型识别分析方法,其特征在于,
在上述文件分析步骤中,对不同类型的文件,按照不同规则对行长度、字段分割符、结尾符、字段字符串格式进行判定。
4.如权利要求3所述的文件类型识别分析方法,其特征在于,
在上述文件分析步骤中,还包括下述步骤:
取内存中文件的第一行内容,前三个字符,根据该文件类型及记录类型码从内存中查找出对应的所有文件格式;
对该文件格式数据进行切割处理;
当该记录类型的段号切割完后,对剩余的行文件内容切割前三个字符,和文件类型一起查找文件格式,对该文件格式数据同样地进行上述切割处理直至文件读入指定字节大小结束;
通过界面显示该文件内容。
5.如权利要求4所述的文件类型识别分析方法,其特征在于,
上述切割处理包括下述步骤:
取该文件的接下来四位字符并转换成二进制,对二进制结果进行检查,若值为1的,则在文件格式内存中查找该段号的文件格式,按照字段长度对行文件内容进行切割,并和字段名称、域号匹配地载入到内存,当行的长度不够切割时,取下一行和上一行剩余内容继续完成切割。
6.如权利要求1所述的文件类型识别分析方法,其特征在于,
在上述文件分析步骤之前、文件类型识别步骤之后还包括:
判断文件的是否为大文件的步骤,
如果判断为大文件的情况下,按页打开文件进行文件分析。
7.如权利要求1所述的文件类型识别分析方法,其特征在于,
上述文件类型识别步骤具备对读入的文件进行模糊匹配的模糊匹配步骤,该模糊匹配步骤包括:
获得读入的文件文件名的步骤;
判断文件名是否模糊匹配,在匹配的情况下,区分文件类型及属性,在不匹配的情况下直接输出分析报告。
CN2008102052113A 2008-12-31 2008-12-31 一种文件类型识别分析方法及*** Active CN101770470B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN2008102052113A CN101770470B (zh) 2008-12-31 2008-12-31 一种文件类型识别分析方法及***
SG2011047628A SG172426A1 (en) 2008-12-31 2009-08-10 Method and system for file type identifying and analyzing
US13/142,923 US9690788B2 (en) 2008-12-31 2009-08-10 File type recognition analysis method and system
PCT/CN2009/000904 WO2010075661A1 (zh) 2008-12-31 2009-08-10 一种文件类型识别分析方法及***
HK11100137.1A HK1145896A1 (en) 2008-12-31 2011-01-07 A method and a system for identifying and analyzing types of files

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102052113A CN101770470B (zh) 2008-12-31 2008-12-31 一种文件类型识别分析方法及***

Publications (2)

Publication Number Publication Date
CN101770470A CN101770470A (zh) 2010-07-07
CN101770470B true CN101770470B (zh) 2012-11-28

Family

ID=42309767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102052113A Active CN101770470B (zh) 2008-12-31 2008-12-31 一种文件类型识别分析方法及***

Country Status (5)

Country Link
US (1) US9690788B2 (zh)
CN (1) CN101770470B (zh)
HK (1) HK1145896A1 (zh)
SG (1) SG172426A1 (zh)
WO (1) WO2010075661A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770470B (zh) * 2008-12-31 2012-11-28 ***股份有限公司 一种文件类型识别分析方法及***
US8606597B2 (en) 2011-02-24 2013-12-10 Olympus Corporation Endoscope inspection report creating apparatus, creating method of endoscope inspection report and storage medium
CN103067684A (zh) * 2011-10-18 2013-04-24 株式会社东芝 视频再现设备和视频再现方法
CN102508895B (zh) * 2011-11-02 2015-01-21 深圳市华力特电气股份有限公司 一种读取ini文件的方法及装置
CN102385630B (zh) * 2011-11-19 2017-09-29 上海量明科技发展有限公司 一种在文件夹中进行文件标记的方法及***
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置
CN103383681B (zh) * 2011-12-31 2016-12-07 华为数字技术(成都)有限公司 一种文件类型识别方法及***
CN103514343B (zh) * 2012-06-18 2018-03-09 奥林巴斯株式会社 内窥镜检查报告生成装置和内窥镜检查报告生成方法
CN103391241A (zh) * 2013-07-17 2013-11-13 厦门亿联网络技术股份有限公司 一种在即时通讯工具中传送普通文件和截图的传输方法及***
CN104424237A (zh) * 2013-08-27 2015-03-18 鸿合科技有限公司 白板教学***附件预览方法及其白板教学***
CN104765741A (zh) * 2014-01-06 2015-07-08 ***股份有限公司 数据处理方法
CN104252531B (zh) * 2014-09-11 2017-12-08 北京优特捷信息技术有限公司 一种文件类型识别方法及装置
CN105095330B (zh) * 2014-12-01 2019-05-07 哈尔滨安天科技股份有限公司 一种基于压缩包内容的文件格式识别方法及***
CN104715359B (zh) * 2015-04-03 2017-11-17 广东中建普联科技股份有限公司 一种结构化建设行业材料文件及材料数据识别管理方法
CN105357383B (zh) * 2015-11-02 2019-01-25 四川效率源信息安全技术股份有限公司 一种高效分析智能手机底层数据的方法
CN109710571B (zh) * 2018-12-27 2023-06-23 腾讯音乐娱乐科技(深圳)有限公司 一种文件解析方法、设备及存储介质
CN110381107B (zh) * 2019-05-24 2023-04-07 平安普惠企业管理有限公司 文件下载方法、装置、计算机设备及存储介质
CN110674093A (zh) * 2019-08-28 2020-01-10 金蝶汽车网络科技有限公司 文件数据处理方法、装置、计算机设备和存储介质
CN111143849B (zh) * 2019-12-31 2022-06-24 奇安信科技集团股份有限公司 应用于电子设备的文件类型识别方法和装置、电子设备
CN114710482A (zh) * 2022-03-23 2022-07-05 马上消费金融股份有限公司 文件检测方法、装置、电子设备及存储介质
CN114896467B (zh) * 2022-04-24 2024-02-09 北京月新时代科技股份有限公司 基于神经网络的字段匹配方法和数据智能录入方法
CN115577330A (zh) * 2022-12-07 2023-01-06 北京志翔科技股份有限公司 文件类型识别方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1933512A (zh) * 2006-09-30 2007-03-21 华为技术有限公司 一种话单处理设备及方法
CN1991821A (zh) * 2005-12-30 2007-07-04 英业达股份有限公司 文件格式识别***及方法
CN101211353A (zh) * 2006-12-27 2008-07-02 北京海尔集成电路设计有限公司 一种识别多格式媒体文件的方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0380239A3 (en) * 1989-01-18 1992-04-15 Lotus Development Corporation Search and retrieval system
CA2014799A1 (en) * 1989-05-08 1990-11-08 John W. Whisler System and method for reading and writing disks formatted for an operating system foreign to the host computer
US5226163A (en) * 1989-08-01 1993-07-06 Silicon Graphics, Inc. File characterization for computer operating and file management systems
US5299018A (en) * 1992-03-20 1994-03-29 Xerox Corporation System and method for storing received facsimile image data in computer memory
JP3445304B2 (ja) * 1993-03-29 2003-09-08 株式会社東芝 ファイル管理装置
US6049799A (en) * 1997-05-12 2000-04-11 Novell, Inc. Document link management using directory services
US6097834A (en) * 1997-06-13 2000-08-01 Paystation America Inc. Financial transaction processing systems and methods
JP2002202987A (ja) * 2000-11-02 2002-07-19 At System:Kk データ管理方法
US7500017B2 (en) * 2001-04-19 2009-03-03 Microsoft Corporation Method and system for providing an XML binary format
US20020194217A1 (en) * 2001-04-26 2002-12-19 International Business Machnies Corporation Metadata graphial user interface
US20030233321A1 (en) * 2001-11-30 2003-12-18 Scolini Anthony J. Integrated invoice solution
US7761427B2 (en) * 2003-04-11 2010-07-20 Cricket Technologies, Llc Method, system, and computer program product for processing and converting electronically-stored data for electronic discovery and support of litigation using a processor-based device located at a user-site
WO2005008542A1 (en) * 2003-07-11 2005-01-27 Computer Associates Think, Inc. Method and apparatus for generating csv-formatted extract file
CN1702651A (zh) * 2004-05-24 2005-11-30 富士通株式会社 特定类型信息文件的识别方法和装置
US7555711B2 (en) * 2005-06-24 2009-06-30 Hewlett-Packard Development Company, L.P. Generating a text layout boundary from a text block in an electronic document
US7779034B2 (en) * 2005-10-07 2010-08-17 Citrix Systems, Inc. Method and system for accessing a remote file in a directory structure associated with an application program executing locally
US8131825B2 (en) * 2005-10-07 2012-03-06 Citrix Systems, Inc. Method and a system for responding locally to requests for file metadata associated with files stored remotely
US20070143378A1 (en) * 2005-12-21 2007-06-21 Gorobets Sergey A Non-volatile memories with adaptive file handling in a directly mapped file storage system
US20070280438A1 (en) * 2006-05-17 2007-12-06 Recording For The Blind & Dyslexic, Incorporated Method and apparatus for converting a daisy format file into a digital streaming media file
US8311990B2 (en) * 2007-04-16 2012-11-13 Michael Martinek Fragmented data file forensic recovery system and method
CN101770470B (zh) * 2008-12-31 2012-11-28 ***股份有限公司 一种文件类型识别分析方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1991821A (zh) * 2005-12-30 2007-07-04 英业达股份有限公司 文件格式识别***及方法
CN1933512A (zh) * 2006-09-30 2007-03-21 华为技术有限公司 一种话单处理设备及方法
CN101211353A (zh) * 2006-12-27 2008-07-02 北京海尔集成电路设计有限公司 一种识别多格式媒体文件的方法

Also Published As

Publication number Publication date
WO2010075661A1 (zh) 2010-07-08
US9690788B2 (en) 2017-06-27
HK1145896A1 (en) 2011-05-06
SG172426A1 (en) 2011-07-28
US20110270858A1 (en) 2011-11-03
CN101770470A (zh) 2010-07-07

Similar Documents

Publication Publication Date Title
CN101770470B (zh) 一种文件类型识别分析方法及***
US9025890B2 (en) Information classification device, information classification method, and information classification program
CN109062874A (zh) 财政数据的获取方法、终端设备及介质
CN111708773A (zh) 一种多源科创资源数据融合方法
US7313514B2 (en) Validating content of localization data files
CN107704539B (zh) 大规模文本信息批量结构化的方法及装置
CN110175334B (zh) 基于自定义的知识槽结构的文本知识抽取***和方法
CN111444718A (zh) 一种保险产品需求文档处理方法、装置及电子设备
CN114297140A (zh) 一种基于人工智能的档案管理***
US20040123237A1 (en) Example-based concept-oriented data extraction method
CN111177401A (zh) 一种电网自由文本知识抽取方法
CN109325217B (zh) 一种文件转换方法、***、装置及计算机可读存储介质
CN111090755A (zh) 一种文本关联关系判别方法及存储介质
CN114330284A (zh) 一种基于规则模型的自动化保险条款解析方法
CN113806311B (zh) 基于深度学习的文件分类方法、装置、电子设备及介质
TWI793432B (zh) 工程專案文件管理方法與系統
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN109739981B (zh) 一种pdf文件类别判定方法及文字提取方法
CN113609860B (zh) 文本切分方法、装置及计算机设备
CN109408533A (zh) 数据处理及检索方法、数据库、检索引擎及***
CN114638558B (zh) 一种综合能源***运行事故分析的数据集分类方法
CN112749186B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN116245108B (zh) 验证匹配导向方法、验证匹配导向器、设备及存储介质
Rastan Towards generic framework for tabular data extraction and management in documents
CN117539864A (zh) 报表数据比对方法和装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1145896

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1145896

Country of ref document: HK