CN112733513A - 自动整理航司退改规则的方法、***、终端和存储介质 - Google Patents

自动整理航司退改规则的方法、***、终端和存储介质 Download PDF

Info

Publication number
CN112733513A
CN112733513A CN202110037555.3A CN202110037555A CN112733513A CN 112733513 A CN112733513 A CN 112733513A CN 202110037555 A CN202110037555 A CN 202110037555A CN 112733513 A CN112733513 A CN 112733513A
Authority
CN
China
Prior art keywords
text
change
cell
information
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110037555.3A
Other languages
English (en)
Inventor
朱小武
吴芹
陈志刚
冯嵛
黄雪萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongcheng Network Technology Co Ltd
Original Assignee
Tongcheng Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongcheng Network Technology Co Ltd filed Critical Tongcheng Network Technology Co Ltd
Priority to CN202110037555.3A priority Critical patent/CN112733513A/zh
Publication of CN112733513A publication Critical patent/CN112733513A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种自动整理航司退改规则的方法、***、终端和存储介质,其属于信息技术的领域,其中方法包括建立文本坐标系;获取待处理文本中每个文字的文本坐标信息;将待处理文本转换为图像文件,并得到图像处理结果;获取图像文件中的表格坐标信息;建立文本框架,每个文本框架内包括若干单元格及对应的子信息段;根据预设的分配标记模型,为每个文本框架的单元格分配退改标签;读取历史退改规则表格;根据退改标签,将子信息段填充入历史退改规则表格以获取当前退改规则表格;将当前退改规则表格反馈至管理员终端。本申请具有提高航司退改签规则录入的准确率的效果。

Description

自动整理航司退改规则的方法、***、终端和存储介质
技术领域
本申请涉及信息技术的领域,尤其是涉及一种自动整理航司退改规则的方法、***、终端和存储介质。
背景技术
随着互联网的高速发展,用户在线预订机票的需求越来越多。用户能够在手机上在线操作和查看自己的订单和机票行程信息。当行程发生改变时,用户可以在线查看航司的退改签规则,实时知道退票和改签的手续费用,然后操作退票或者改签。
目前,各个在线旅行OTA平台对于航司退改签规则的收集,大部分的退改签规则是基于航司下发的红头文件来进行手工录入。OTA业务人员在收到航司的文件后,先阅读完整文件,然后把退改签规则相关的表格信息,通过人工编辑的方式把退规信息录入到excel表格,并补充编辑退规相关的扩展信息,最后再人工录入或导入到退改签规则信息***。这样用户通过手机访问退改签规则信息页面时,即可实时查看到当前退规信息。
上述中的相关技术存在以下缺陷:工作人员在手工录入退改签规则信息时,容易因个人疏漏导致退改签规则录入错误,导致客人退改手续费用计算错误,从而给公司造成较大的亏损。
发明内容
为了提高航司退改签规则录入的准确率,本申请提供一种自动整理航司退改规则的方法。
第一方面,本申请提供一种自动整理航司退改规则的方法,采用如下的技术方案:
一种自动整理航司退改规则的方法,包括:
根据待处理文本,建立文本坐标系;
根据建立的文本坐标系,获取待处理文本中每个文字的文本坐标信息;
将所述待处理文本转换为图像文件,并得到图像处理结果;
根据所述图像处理结果,获取所述图像文件中的表格坐标信息,所述表格坐标信息包括每个表格的轮廓坐标信息以及对应的单元格坐标信息;
根据所述表格坐标信息以及文本坐标信息,建立文本框架,每个文本框架内包括若干单元格及对应的子信息段;
根据预设的分配标记模型,为每个文本框架的单元格分配退改标签,所述退改标签包括主标签与子标签;
读取历史退改规则表格,所述历史退改规则表格中包括若干主标签与子标签;
根据退改标签,将所述子信息段填充入历史退改规则表格以获取当前退改规则表格;
将所述当前退改规则表格反馈至管理员终端。
通过采用上述技术方案,根据航司下发的待处理文本,自动识别文本中的表格与表格内每个单元格的对应的子信息段,并为单元格内的子信息段分配退改标签,根据退改标签,可以自动生成当前退改规则表格,无需人工录入,提高了退改签规则录入的准确率。
可选的,每个所述子标签均对应有二级标签,所述二级标签内可包含多个同一类型不同条件的子标签,所述根据预设的分配标记模型,为每个文本框架内的单元格分配退改标签具体包括:
获取每个文本框架的标题信息,并根据标题信息为每个所述文本框架赋予一个主标签;
根据预设的分析模型,对所述文本框架中的子信息段进行条件标题筛选,并获取条件标题筛选结果;
根据所述条件标题筛选结果,获取退改条件单元格;
按照预设的分配原则,为每个所述退改条件单元格分配子标签;
根据退改条件单元格,获取退改信息单元格;
根据所述退改条件单元格,按照预设的纵向获取原则,获取纵向单元格;
将当前退改条件单元格对应的子标签赋予给所述纵向单元格;
按照预设的横向获取原则,获取横向单元格;
将当前退改条件单元格对应的子标签赋予给所述横向单元格。
通过采用上述方法,将单元格区分为退改条件单元格以及退改信息单元格,并根据区分结果为每个单元格赋予至少一个退改标签,从而提高退改签规则录入的准确率。
可选的,所述表格坐标信息还包括页码信息,在根据所述图像处理结果,获取所述图像文件中的表格坐标信息之后,还包括:
根据所述页码信息,判断是否有两个在两面连续页码上的表格;
若判断为是,则根据轮廓坐标信息,判断所述两个在连续页码上的表格之间的最小纵坐标差值是否为预设的合并值;
若判断为是,则将所述两个在连续页码上的表格合并为一个新表格;
根据所述轮廓坐标信息,获取所述新表格的表格坐标信息。
通过采用上述技术方案,首先筛选出退改条件单元格,并为退改条件单元格分配子标签,再根据退改条件单元格获取与之对应的退改信息单元格,按照纵向获取原则与横向获取原则,为退改信息单元格分配子标签,提高分配退改标签的准确率,从而提高退改签规则录入的准确率。
可选的,在根据所述图像处理结果,获取所述图像文件中的表格坐标信息之后,还包括:
根据所述页码信息,判断是是否有两个在两面连续页码上的表格;
若判断为是,则根据轮廓坐标信息,判断所述两个在连续页码上的表格之间的最小纵坐标差值;
判断所述最小纵坐标差值是否为预设的合并值;
若判断为是,则将所述两个在连续页码上的表格合并为一个新表格;
根据所述轮廓坐标信息,获取所述新表格的表格坐标信息。
通过采用上述技术方案,对表格进行校准,避免出现一个表格因为页面布局,导致被***判别为两个表格的可能性,从而减少数据采集不完整的情况发生。
可选的 ,在根据预设的分配标记模型,为每个文本框架内的单元格分配退改标签之后,还包括:
获取所有所述退改信息单元格;
判断是否有两个及以上的退改信息单元格携带的主标签及子标签完全相同;
若判断为是,则将携带主标签与子标签完全相同的单元格标记为异常单元格;
获取异常单元格对应的文本框架,并将获取的文本框架标记为异常文本框架;
判断所述异常文本框架中是否包含两个及以上的异常单元格;
若判断为是,则将所述异常文本框内的所有单元格对应的主标签及子标签清零。
通过采用上述技术方案, 对退改信息单元格携带的主标签以及子标签进行验证,从而提高当前退改规则表格的准确率。
可选的,在将所述异常文本框内的所有单元格对应的主标签及子标签清零之后,还包括:
对待处理文本进行文本分词处理,并得到分词处理结果,所述分词处理结果包括若干特征样本;
读取所述退改信息单元格对应的主标签与子标签,并将获取的主标签与子标签标记为待处理样本;
根据所述待处理样本与分词处理结果,获取与待处理样本的相似度超过预设阈值的特征样本,将获取的样本标记为比对样本;
获取比对样本的分布密度;
根据所述分布密度,确定特征区块;
获取所述特征区块的特征区块坐标信息;
获取当前退改信息单元格的单元格坐标信息;
根据所述特征区块坐标信息与所述当前退改信息单元格的坐标信息,判断所述退改信息单元格是否为异常单元格;
若判断为是,则将异常单元格的主标签及子标签清零。
通过采用上述技术方案,对退改信息单元格进行二次检验,以退改信息单元携带的主标签与子标签做为待处理样本,将待处理文本进行分词处理,从而获取若干特征样本,获取与待处理样本相似度超过预设阈值的比对样本,根据比对样本的分布密度以及特征区块与退改信息单元格之间的距离,判断退改信息单元格对应的主标签以及子标签是否准确,从而进一步提高退改签规则录入的准确率。
可选的,所述方法基于一个包含若干模板语句库的数据库,所述对待处理文本进行文本分词处理,并得到分词处理结果具体包括:
将待处理文本按照预设的划分规则划分为若干语句段;
采用第一分词模型对每个所述语句段进行文本分词处理,并得到第一语句段处理结果,所述第一语句段处理结果包括语句段被划分成的若干词组以及每个词组对应的词性;
根据语句段的词组对应的词性,判断所述第一语句段处理结果是否合理;
若判断为是,将第一语句段处理结果标记为模板语句段处理结果;
若判断为否,则采用第二分词模型对当前语句进行文本分词处理,并得到第二语句段处理结果;
根据第一语句段处理结果与第二语句段处理结果,获取模板语句段处理结果;
整合所有模板语句段处理结果,输出分词处理结果;
将所述语句段以及对应的模板语句处理结果存储至数据库。
通过采用上述技术方案,检验第一语句段处理结果的合理性,若存在不合理的可能性,采用第二分词模型对语句段进行二次文本分词处理,通过比对获取较为合理的模板语句段处理结果,为校对退改信息单元格的主标签与子标签提供较为准确的特征样本,同时,将模板语句段处理结果存储至数据库,作为学习模板,不断提高文本分词处理的准确度。
可选的,所述根据退改标签,将所述子信息段填充入历史退改规则表格以生成当前退改规则表格具体包括:
根据所述分配退改标签,将所述退改信息单元格填充入历史退改规则表格,以生成初步退改规则表格;
对初步退改规则表格中的子信息段内容进行正则化处理,并获取正则处理结果;
根据正则处理结果,生成当前退改规则表格。
通过采用上述技术方案,对初步退改规则表格内的子信息段进行正则化处理,从而获取较为简洁的退改信息,方便用户查阅。
第二方面,本申请提供一种自动整理航司退改规则的***,采用如下的技术方案:
一种自动整理航司退改规则的***,包括:
建立模块,用于根据待处理文本,建立文本坐标系;
文字模块,用于根据建立的文本坐标系,获取待处理文本中每个文字的文本坐标信息;
图像模块,用于根据所述图像处理结果,获取所述图像文件中的表格坐标信息,所述表格坐标信息包括每个表格的轮廓坐标信息以及对应的单元格坐标信息以及页码信息;
表格模块,用于根据所述图像处理结果,获取所述图像文件中的表格坐标信息,所述表格坐标信息包括每个表格的轮廓坐标信息以及对应的单元格坐标信息以及页码信息;
生成模块,用于根据所述表格坐标信息以及文本坐标信息,建立文本框架,每个文本框架内包括若干单元格及对应的子信息段;
分配模块,用于根据预设的分配标记模型,为每个文本框架的单元格分配退改标签,所述退改标签包括主标签与子标签;
读取模块,用于读取历史退改规则表格,所述历史退改规则表格中包括若干主标签与子标签;
填充模块,用于根据退改标签,将所述子信息段填充入历史退改规则表格以获取当前退改规则表格;
反馈模块,用于将所述当前退改规则表格反馈至管理员终端。
通过采用上述技术方案,自动对待处理文本进行扫描,从而将待处理文本中的表格筛选出来,并以此建立文本框架,为文本框架内的单元格分配退改标签,并根据退改单元格的退改标签,生成当前退改规则表格,无需人工录入,提高了退改签规则录入的准确率。
第三方面,本申请提供一种,采用如下的技术方案:
一种智能终端,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如第一方面所述方法的计算机程序。
通过采用上述技术方案,管理员可以根据反馈的当前退改规则表格之间获取最新的退改规则信息,无需人工整理录入信息,在提高工作效率的同时,可以避免人工录入导致信息录入错误的情况发生。
第四方面,本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,存储有能够被处理器加载并执行如第一方面所述方法的计算机程序。
通过采用上述技术方案,当所述计算机可读存储介质被装入任一计算机后,所述任一计算机就能执行本申请提供的一种焊接参数自动调整方法。
综上所述,本申请包括以下至少一种有益技术效果:
1.根据待处理文本,自动生成当前退改规则表格,无需人工录入,提高退改签录入规则的准确率;
2.对退改信息单元格内的子信息段进行正则化处理,对文本进行清理,是生成的当前退改规则表格更加简洁明了,方便用户查阅退改签规则。
附图说明
图1是本申请实施例的自动整理航司退改规则的方法的流程示意图。
图2是本申请实施例的为每个文本框架内的单元格分配退改标签的流程示意图。
图3是本申请实施例的为每个文本框架内的单元格分配退改标签的举例示意图。
图4是本申请实施例的对退改信息单元格进行校准的流程示意图。
图5是本申请实施例的生成初步退改规则表格的举例示意图。
图6是本申请实施例的对待处理文本进行文本分词处理的流程示意图图。
图7是本申请实施例的自动整理航司退改规则的***的结构框图。
附图标记说明:1、建立模块;2、文字模块;3、图像模块;4、表格模块;5、生成模块;6、分配模块;7、读取模块;8、填充模块;9、反馈模块。
具体实施方式
以下结合附图1-7对本申请作进一步详细说明。
本申请实施例公开一种自动整理航司退改规则的方法。参照图1,自动整理航司退改规则的方法包括:
S100:根据待处理文本,建立文本坐标系。
其中,待处理文本具体为航空公司下发的红头文件,其中包含文字信息与若干表格信息,通过整理红头文件,可以获取相关航空公司的退改签规则。
具体的,文本坐标系可根据待处理文本建立,其中以待处理文本的最后一行为横坐标,文本的第一列为纵坐标,建立的坐标系以一个字节的宽度为横坐标单位,一个字节的高度为纵坐标单位,待处理文本中的每个文字均对应有一个坐标值。举例来说,在待处理文本中,倒数第五行的第四个字,对应的坐标为[4,5]。
S200:根据建立的文本坐标系,获取待处理文本中每个文字的文本坐标信息。
S300:将待处理文本转换为图像文件,并得到图像处理结果。
其中,S300具体包括:
S301:将待处理文件转换为图像文件。
在实例中,待处理文本初始状态为pdf文件格式,通过常规转换手段将待处理文件转换为pdf图片格式,以获取图像文件。
S302:对图像文件进行二值化处理。
在实例中,由于许多算法的输入需要基于二值数据,故对图像文件进行二值化处理以得到二值化处理结果,便于后期对图像文件进行处理。具体的,对图像文件二值化处理具体包括对图像文件进行膨胀及腐蚀,并提取轮廓线。
S303:根据二值化处理结果获取表格坐标信息。
具体的,可基于S302中获取的轮廓线,确定图像文件中的垂线、横线以及垂线、横线之间的交叉点,基于图像文件中的垂线、横线及交叉点,可以确定图像文件中的表格,基于S100中建立的文本坐标系,可确定表格坐标信息。
其中,在实例中,每个表格均由若干单元格组合而成,单元格可根据交叉点确定,故获取的表格坐标信息具体包括每个表格对应的轮廓坐标信息、单元格坐标信息以及页码信息。具体的,轮廓坐标信息包括表格两个斜对角的坐标值;单元格坐标信息包括每个单元格对应的两个斜对角的坐标值;根据轮廓坐标信息和单元格坐标信息,可以确定表格所在的位置及范围。举例来说,获取到轮廓坐标信息具体为{[2,50]∪[25,42]},则可根据轮廓坐标信息判断当前表格相对于文本坐标系的相对范围。
进一步的,由于待处理文件为pdf图片格式,在生成表格时,有可能为遇到表格因为页面布局原因,被拆分成两个表格,对后期数据处理可能会产生影响,故在生成表格坐标信息后,可根据每个表格的页码信息,判断是否有两个表格的横坐标范围相同且分布在两面连续的页码上,若判断为是,则获取两个表格之间的最小纵坐标差值,判断获取的最小纵坐标差值是否为预设的合并值,若判断为是,则将两表格合并,生成新的表格坐标信息,其中,合并值具体为两页之间的上下页边距之和。
举例来说,获取到表格A的轮廓坐标为{[2,50]∪[25,42]},所在页码为P32,表格B的轮廓坐标为{[2,38]∪[25,30]},所在页码为P33,则可知表格A与表格B的横坐标范围均为23个单位值,两表格的纵坐标差值为4个单位值,已知预设的合并值为4,则将表格A与表格B合并生成新的一个表格,对应的轮廓坐标为{[2,50]∪[25,30]}。
S400:根据表格坐标信息以及文本坐标信息,建立文本框架。
具体的,可根据轮廓坐标信息以及文本坐标信息,筛选出在表格框选范围内的文本信息,每个表格对应的文本信息可根据单元格被划分为若干子信息段,每个子信息段与单元格一一对应,从而建立文本框架。
S500:为每个文本框架内的单元格分配退改标签。
其中,退改标签具体包括主标签与子标签。
结合图2,S500具体包括:
S501:获取每个文本框架的标题信息。
具体的,标题信息可根据文本框架对应的轮廓坐标信息,以表格轮廓坐标信息的纵坐标范围为基础,向文本坐标系Y轴的正负方向扩展一个单位,获取该范围内带有“《》”标识的文本,将“《》”内的文本信息标记为标题信息。
举例来说,结合图3,表格A对应的轮廓坐标为{[2,51]∪[16,41]},则获取{[2,52]∪[16,40]}范围内带有“《》”标识的文本,将获取的文本标记为标题信息。
S502:根据标题信息为文本框架赋予主标签。
在实例中,数据库包含若干退改标签,退改标签包括主标签与子标签,每个主标签与各个航空公司一一对应,如中联航对应的主标签中联航主标签,东方航空对应的主标签为东方航空主标签,可根据标题信息,读取标题信息中的关键词,并根据读取的关键词,为每个文本框架赋予一个主标签,文本框架内每个单元格均被赋予相同的主标签。结合图3,可获取标题信息为“中联航国内运价适用条件表”,根据标题信息提取关键词“中联航”,则为当前文本框架赋予“中联航主标签”。
S503:根据预设的规则,对文本框架内每个单元格进行标号。
具体的,以文本坐标轴为基准,按照从左至右,从上至下的顺序对文本框架内的每个单元格进行标号。举例来说,表格A对应的标号结果如附图3所示。
S504:根据预设的分析模型,为文本框架中的子信息段进行条件标题筛选。
具体的,数据库中预设有条件标题关键词,可根据每个子信息段的文本信息,判断子信息段是否为条件标题,从而进行条件标题筛选,并获取条件标题筛选结果。
S505:根据条件标题筛选结果,确定退改条件单元格。
其中,将判断为条件标题的子信息段对饮的单元格标记为退改条件单元格。具体的,可读取每个子信息段中的关键词,判断是否带有条件标题信息,若判断到有相关条件标题信息,则将对应的单元格标记为退改条件单元格。举例来说,可获取单元格(3)、单元格(6)、单元格(7)、单元格(8)、单元格(9)、单元格(12)、单元格(13)、单元格(16)为退改条件单元格。
S506:为退改条件单元格分配子标签。
具体的,可根据每个退改条件单元格内的关键词信息,为每个退改单元格分配对应的子标签。
其中,数据库中包含若干二级标签,每个二级标签包含有若干子标签,每个子标签对应有唯一的一个二级标签。
在实例中,二级标签包括舱位标签、产品名称标签、变更标签、时间段标签。具体的,舱位标签包括多个用代码表示的子标签,如W子标签、Y子标签等,舱位标签可用来表示各个不同舱位对应的退改条件;产品标签包括多个用产品名称表示的子标签,如舒心飞子标签、大众游子标签等,产品标签可用来表示各个不同类型产品对应的退改条件;变更标签包括多个用来表示退改情况的子标签,包括自愿变更子标签、自愿退票子标签;时间段标签包括多个不同时间段表示的子标签,具体包括(>168)子标签、(168-72)子标签、(72-4)子标签、(<4)子标签,可分别用来表示用户不同退票时间对应的退改条件,其中分别对应飞前168小时以上提出退改申请、起飞前168-72小时内提出退改申请、起飞前72-4小时内提出退改申请以及起飞前4小时内提出退改申请.
结合图3,识别到关键词“W”,则为单元格(8)分配“W子标签”,表明该单元格对应的是代码为W舱位对应的退改条件,以此类推,分别为单元格(12)分配“P子标签”,为单元格(16)分配“Y子标签”,为单元格(9)分配“舒心飞子标签”,为单元格(13)分配“大众游子标签”,为单元格(3)分配“自愿变更子标签”,为单元格(6)分配“(>168)子标签”,为单元格(7)分配“(168-72)子标签”。
S507:获取退改信息单元格。
具体的,退改信息单元格为当前文本框架内不携带任何子标签的单元格。结合图3,表格A内的退改信息单元格具体为单元格(10)、单元格(11)、单元格(14)、单元格(15)、单元格(17)、单元格(18)。
S508:根据纵向获取原则,获取与退改条件单元格对应的纵向单元格。
具体的,纵向单元格以当前文本框架为基础,退改条件单元格的横坐标范围内,纵坐标小于退改条件单元格的退改信息单元格,获取到的即为纵向单元格。
结合图3,退改条件单元格(3)对应的纵向单元格具体为:单元格(10)、单元格(11)、单元格(14)、单元格(15)、单元格(17)、单元格(18);退改条件单元格(8)无对应的纵向单元格。
S509:将当前退改条件单元格对应的子标签赋予给纵向单元格。
S510:根据横向获取原则,获取横向单元格。
具体的,横向单元格以当前文本框架为基础,退改条件单元格的纵坐标范围内,横坐标大于退改条件单元格的退改信息单元格,获取到的即为横向单元格。
结合图3,退改条件单元格(12)对应的横向单元格为单元格(14)、单元格(15);退改条件单元格(6)无对应的横向单元格。
S511:将当前退改条件单元格对应的子标签赋予给横向单元格。
举例来说,结合图3,表格A内,以单元格(3)为当前退改条件单元格,则获取到对应的纵向单元格具体为单元格(10)、单元格(11)、单元格(14)、单元格(15)、单元格(17)、单元格(18),在上述单元格内均为获取到与单元格(3)相同的二级标签,故将单元格为(3)对应的子标签“自愿变更子标签”赋予到上述纵向单元格中,单元格(3)无横向单元格;以单元格(8)为当前退改条件单元格,经过判断,单元格(8)无对应的纵向单元格,获取单元格(8)对应的横向单元格,具体为单元格单元格(10)、单元格(11),并将单元格(8)对应的子标签“W子标签”赋予给上述横向单元格。经过计算,最终可获得单元格(10)具体携带有“W子标签”、“自愿变更子标签”、“(>168)子标签”和“舒心飞子标签”四个子标签,以及“中联航主标签”。
S600:根据退改标签,对退改信息单元格进行校准。
结合图4,S600具体包括:
S601:判断是否有两个及以上的退改信息单元格携带的退改标签完全相同。
若判断为否,则跳转至S606;
若判断为是,则跳转至S602。
其中,若两个及以上的退改信息单元格携带的主标签与子标签完全相同,表示在上述分配退改标签时出现了错误,需要做进一步的修改。
S602:将携带相同退改标签的退改信息单元格标记为异常单元格。
S603:根据异常单元格获取异常文本框架。
具体的,根据异常单元格的单元格坐标信息,可获取异常单元格对应的文本框架,并将获取的文本框架标记为异常文本框架。
S604:判断异常文本框架内是否包含两个及以上的异常单元格。
若判断为是,则跳转至S605;
若判断为否,则跳转至S606。
S605:将异常文本框架内的所有单元格对应的退改标签清零。
其中,若一个文本框架内,包含有多个异常单元格,说明该文本框架内的子信息段没有可取度,将该异常文本框架内的单元格数据清零,可避免退改信息录入发生错误。
S606:对待处理文本进行文本分词处理,并得到分词处理结果。
具体的,采用中文分词处理对待处理文本进行处理,文本分词处理具体为将一句话根据词性,将一句话拆分成若干词组。举例来说,“我正在制作表格”可被拆分为“我”(代词)、“正在”(副词)、“制作”(动词)、“表格”(名词)。
其中,分词处理结果包括若干特征样本,特征样本具体为处理得到的各个词组及其对应的词性。
S607:读取退改信息单元格对应的主标签与子标签,将获取的主标签与子标签标记为待处理样本。
S608:获取比对样本。
具体的,比对样本可根据待处理样本与分词处理结果获取,将与待处理样本的相似度超过预设阈值的特征样本标记为比对样本。举例来说,待处理样本具体为“中联航+资源变更+W+舒心飞”,则将携带有上述任一相关词的特征样本标记为比对样本。
S609:获取比对样本的分布密度。
其中,分布密度为单位面积内比对样本的分布密度。
S610:根据分布密度确定特征区块。
其中,特征区块为单位面积内比对样本分布最密集的区块,将该区块标记为特征区块。
S611:获取特征区块的特征区块坐标信息。
S612:获取当前退改信息单元格的单元格坐标信息。
S613:根据特征区块坐标信息与当前退改信息单元格的单元格坐标信息,判断退改信息单元格是否为异常单元格。
若判断为是,则跳转至S614;
若判断为否,则跳转至S700。
具体的,根据特征区块坐标信息与单元格坐标信息,判断两个区块之间纵坐标方向之间的距离,从而判断退改信息单元格与相关文本信息之间的纵向距离,从而判断两者联系是否紧密,若两者之间的纵向距离超过预设的阈值,则说明紧密性不高,该退改信息单元格内的子信息段不可取,故将当前退改信息单元格标记为异常单元格。
S614:将异常单元格的退改标签清除。
其中,S614完成后跳转至S700。
在实例中,将异常单元格的主标签及子标签清除后,在后期制作当前退改规则表格时,异常单元格对应的子信息段无法录用。
S700:读取历史退改规则表格。
其中,历史退改规则表格为更新前的退改规则表格,在航司下达新的退改规则后,需要根据航司下达的红头文件,修改历史退改规则表格,以得到最新的历史退改规则表格。结合图5,历史退改规则表格由若干退改信息单元格与退改条件单元格组成,每个退改信息单元格对应有一个主标签与若干子标签,每个退改信息单元格携带的主标签与子标签均不完全相同。
S800:根据退改标签,将子信息段填充入历史退改规则表格以获取初步退改规则表格。
具体的,每个子信息段对应有一个单元格,每个单元格均配对有一个主标签与若干子标签,根据历史退改规则表格中退改信息单元格携带的主标签与子标签,匹配携带有完全相同标签的单元格,并将匹配到的单元格填充至历史退改规则表格,即生成初步退改规则表格。结合图3与图5,表格A中单元格(10)携带有“W子标签”、“自愿变更子标签”、“(>168)子标签”和“舒心飞子标签”四个子标签,以及“中联航主标签”的主标签,历史退改规则表格中有单元格携带的标签具体为“W子标签”、“自愿变更子标签”、“(>168)子标签”、“舒心飞子标签”和“中联航主标签”,与表格A中单元格(10)对应的子信息段填充至历史退改规则表格对应的单元格中,以更新历史退改规则表格,获取到初步退改规则表格。
S900:对初步退改规则表格内的子信息段内容进行正则化处理。
其中,正则化处理为对子信息段剔除无效、特殊字符,从而提取有效的退改规则数据,经过正则化处理后,可以简化退改规则表格,方便用户查阅。
S1000:生成当前退改规则表格。
具体的,当前退改规则表格为子信息段经过正则化处理后的初步退改规则表格。
S1100:将当前退改规则表格反馈至管理员终端。
进一步的,可将与异常单元格对应的单元格在当前退改规则单元格中用亮色标出,以提示管理员针对异常单元格进行二次检测,确保当前退改表格的准确性。
对于S606,在实施例中,对待处理文本进行文本分词处理的流程具体可以如图6所示:
S061:将待处理文本按照预设的划分规则划分为若干语句段。
具体的,可以“。”为划分标准,每一段带有“。”的句子为一个语句段。
S062:采用第一分词模型对每个模板语句段进行文本分词处理,以获取第一语句段处理结果。
其中,S061-S069基于一数据库,数据库中携带用若干模板语句段;可根据模板语句段的分词方式,对待处理文本中的语句段进行文本分词处理。
具体的,第一分词模型可对语句段进行文本分词处理,处理结果可将一个语句段拆分为若干词组,每个词组携带有对应的词性标识。
S063:根据语句段内的词性组成,判断第一语句段处理结果是否合理。
若判断为是,则跳转至S064;
若判断为否,则跳转至S065。
具体的,一句话由若干携带有不同词性的词组组成,可根据组成语句段的词组对应的词性是否合理,判断第一语句段处理结果是否合理。举例来说,若对一个语句段进行文本分词处理,语句段处理结果显示该语句段由多个词性为形容词的词组组成,则判断第一语句段处理结果不合理。
S064:将第一语句段处理结果标记为模板语句段处理结果。
其中,S064完成后跳转至S069。
S065:采用第二分词模型,对当前语句段进行文本分词处理,并获取第二语句段处理结果。
其中,若第一分词模型对当前语句段进行文本分词处理的语句段处理结果不合理,则采用第二分词模型对当前语句段进行文本分词处理,第一分词模型与第二分词模型分别采用不同的处理模型,故对同一语句段进行分词处理后,可以得到两种不同的语句段处理结果。
S066:判断第一语句段处理结果与第二语句段处理结果是否一致。
若判断为是,则跳转至S064;
若判断为否,则跳转至S067。
其中,若第一语句段处理结果与第二语句段处理结果完全一致,表明第一语句段处理结果合理。
S067:判断第一语句段处理结果中包含的词性种类数量是否大于第二语句段处理结果中包含的词性种类数量。
若判断为否,则跳转至S068;
若判断为是,则跳转至S064。
其中,若第一语句段处理结果中包含的词性种类数量大于第二语句段处理结果中包含的词性种类数量,则说明第一语句段处理结果比第二语句段处理结果更加合理,则获取第一语句段处理结果为模板语句段处理结果。举例来说,语句段具体为“物理学起来真困难”,以第一分词模型处理,得到的第一语句段处理结果具体为:“物理”(名词)、“学”(动词)、“起来”(能愿动词),“真”(副词)、“困难”(形容词);以第二分词模型处理,得到的第二语句段处理结果具体为:“物理学”(名词)、“起来”(动词)、“真”(副词)、“困难”(形容词),通过比对,第一语句段处理结果携带有五种不同词性的词组,第二语句段处理结果携带有四种不同词性的词组,故获取第一语句段处理结果为模板语句段处理结果。
S068:将第二语句段处理结果标记为模板语句段处理结果。
S069:将语句段及对应的模板语句段处理结果存储至数据库。
具体的,将处理结果最为合理的一种语句段处理结果存储至数据库,可将模板语句段处理结果作为训练模型,为下一次进行分词处理结果提供模板,从而提高的分词准确率,从而进一步提高制作当前退改规则表格的准确性。
S0610:整合所有模板语句段处理结果。
S0611:根据所有模板语句段处理结果,输出分词处理结果。
实施原理:根据待处理文本的文本坐标信息与表格坐标信息,可将文本坐标信息与表格坐标信息进行匹配,根据关键词获取退改规则单元格与退改信息单元格,为每个单元格分配退改标签,并根据退改标签更新历史退改规则表格,从而获取当前退改规则表格,自动生成当前退改规则表格,有效提高航司退改签规则录入的准确率。
基于上述方法,本申请实施例还公开一种自动整理航司退改规则的***。参照图7,自动整理航司退改规则***包括:建立模块1、文字模块2、图像模块3、表格模块4、生成模块5、分配模块6、读取模块7、填充模块8、反馈模块9。
建立模块1,用于根据待处理文本,建立文本坐标系。
文字模块2,用于根据建立的文本坐标系,获取待处理文本中每个文字的文本坐标信息。
图像模块3,用于根据图像处理结果,获取图像文件中的表格坐标信息,表格坐标信息包括每个表格的轮廓坐标信息以及对应的单元格坐标信息以及页码信息。
表格模块4,用于根据图像处理结果,获取图像文件中的表格坐标信息,表格坐标信息包括每个表格的轮廓坐标信息以及对应的单元格坐标信息以及页码信息。
生成模块5,用于根据表格坐标信息以及文本坐标信息,建立文本框架,每个文本框架内包括若干单元格及对应的子信息段。
分配模块6,用于根据预设的分配标记模型,为每个文本框架的单元格分配退改标签,退改标签包括主标签与子标签。
读取模块7,用于读取历史退改规则表格,历史退改规则表格中包括若干主标签与子标签。
填充模块8,用于根据退改标签,将子信息段填充入历史退改规则表格以获取当前退改规则表格。
反馈模块9,用于将当前退改规则表格反馈至管理员终端。
本申请实施例还公开一种智能终端,其包括存储器和处理器,存储器上存储有能够被处理器加载并执行如上述自动整理航司退改规则的方法的计算机程序。
本申请实施例还公开一种计算机可读存储介质,其存储有能够被处理器加载并执行如自动整理航司退改规则的方法的计算机程序,该计算机可读存储介质例如包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅用以说明本申请的技术方案,而非对申请的保护范围进行限制。显然,所描述的实施例仅仅是本申请部分实施例,而不是全部实施例。基于这些实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所要保护的范围。

Claims (10)

1.一种自动整理航司退改规则的方法,其特征在于,包括:
根据待处理文本,建立文本坐标系;
根据建立的文本坐标系,获取待处理文本中每个文字的文本坐标信息;
将所述待处理文本转换为图像文件,并得到图像处理结果;
根据所述图像处理结果,获取所述图像文件中的表格坐标信息,所述表格坐标信息包括每个表格的轮廓坐标信息以及单元格坐标信息;
根据所述表格坐标信息以及文本坐标信息,建立文本框架,每个文本框架内包括若干单元格及对应的子信息段;
根据预设的分配标记模型,为每个文本框架的单元格分配退改标签,所述退改标签包括主标签与子标签;
读取历史退改规则表格,所述历史退改规则表格中包括若干主标签与子标签;
根据退改标签,将所述子信息段填充入历史退改规则表格以获取当前退改规则表格;
将所述当前退改规则表格反馈至管理员终端。
2.根据权利要求1所述的自动整理航司退改规则的方法,其特征在于,每个所述子标签均对应有二级标签,所述二级标签内可包含多个同一类型不同条件的子标签,所述根据预设的分配标记模型,为每个文本框架内的单元格分配退改标签具体包括:
获取每个文本框架的标题信息,并根据标题信息为每个所述文本框架赋予一个主标签;
根据预设的分析模型,对所述文本框架中的子信息段进行条件标题筛选,并获取条件标题筛选结果;
根据所述条件标题筛选结果,获取退改条件单元格;
按照预设的分配原则,为每个所述退改条件单元格分配子标签;
根据退改条件单元格,获取退改信息单元格;
根据所述退改条件单元格,按照预设的纵向获取原则,获取纵向单元格;
将当前退改条件单元格对应的子标签赋予给所述纵向单元格;
按照预设的横向获取原则,获取横向单元格;
将当前退改条件单元格对应的子标签赋予给所述横向单元格。
3.根据权利要求1所述的自动整理航司退改规则的方法,其特征在于,所述表格坐标信息还包括页码信息,在根据所述图像处理结果,获取所述图像文件中的表格坐标信息之后,还包括:
根据所述页码信息,判断是否有两个在两面连续页码上的表格;
若判断为是,则根据轮廓坐标信息,判断所述两个在连续页码上的表格之间的最小纵坐标差值是否为预设的合并值;
若判断为是,则将所述两个在连续页码上的表格合并为一个新表格;
根据所述轮廓坐标信息,获取所述新表格的表格坐标信息。
4.根据权利要求2所述的自动整理航司退改规则的方法,其特征在于,在根据预设的分配标记模型,为每个文本框架内的单元格分配退改标签之后,还包括:
获取所有所述退改信息单元格;
判断是否有两个及以上的退改信息单元格携带的主标签及子标签完全相同;
若判断为是,则将携带主标签与子标签完全相同的单元格标记为异常单元格;
获取异常单元格对应的文本框架,并将获取的文本框架标记为异常文本框架;
判断所述异常文本框架中是否包含两个及以上的异常单元格;
若判断为是,则将所述异常文本框内的所有单元格对应的主标签及子标签清零。
5.根据权利要求4所述的自动整理航司退改规则的方法,其特征在于,在将所述异常文本框内的所有单元格对应的主标签及子标签清零之后,还包括:
对待处理文本进行文本分词处理,并得到分词处理结果,所述分词处理结果包括若干特征样本;
读取所述退改信息单元格对应的主标签与子标签,并将获取的主标签与子标签标记为待处理样本;
根据所述待处理样本与分词处理结果,获取与待处理样本的相似度超过预设阈值的特征样本,将获取的样本标记为比对样本;
获取比对样本的分布密度;
根据所述分布密度,确定特征区块;
获取所述特征区块的特征区块坐标信息;
获取当前退改信息单元格的单元格坐标信息;
根据所述特征区块坐标信息与所述当前退改信息单元格的坐标信息,判断所述退改信息单元格是否为异常单元格;
若判断为是,则将异常单元格的主标签及子标签清零。
6.根据权利要求5所述的自动整理航司退改规则的方法,其特征在于,所述方法基于一个包含若干模板语句库的数据库,所述对待处理文本进行文本分词处理,并得到分词处理结果具体包括:
将待处理文本按照预设的划分规则划分为若干语句段;
采用第一分词模型对每个所述语句段进行文本分词处理,并得到第一语句段处理结果,所述第一语句段处理结果包括语句段被划分成的若干词组以及每个词组对应的词性;
根据语句段的词组对应的词性,判断所述第一语句段处理结果是否合理;
若判断为是,将第一语句段处理结果标记为模板语句段处理结果;
若判断为否,则采用第二分词模型对当前语句进行文本分词处理,并得到第二语句段处理结果;
根据第一语句段处理结果与第二语句段处理结果,获取模板语句段处理结果;
整合所有模板语句段处理结果,输出分词处理结果;
将所述语句段以及对应的模板语句处理结果存储至数据库。
7.根据权利要求1所述的自动整理航司退改规则的方法,其特征在于,所述根据退改标签,将所述子信息段填充入历史退改规则表格以生成当前退改规则表格具体包括:
根据所述分配退改标签,将所述退改信息单元格填充入历史退改规则表格,以生成初步退改规则表格;
对初步退改规则表格中的子信息段内容进行正则化处理,并获取正则处理结果;
根据正则处理结果,生成当前退改规则表格。
8.一种自动整理航司退改规则的***,其特征在于,包括:
建立模块(1),用于根据待处理文本,建立文本坐标系;
文字模块(2),用于根据建立的文本坐标系,获取待处理文本中每个文字的文本坐标信息;
图像模块(3),用于根据所述图像处理结果,获取所述图像文件中的表格坐标信息,所述表格坐标信息包括每个表格的轮廓坐标信息以及对应的单元格坐标信息以及页码信息;
表格模块(4),用于根据所述图像处理结果,获取所述图像文件中的表格坐标信息,所述表格坐标信息包括每个表格的轮廓坐标信息以及对应的单元格坐标信息以及页码信息;
生成模块(5),用于根据所述表格坐标信息以及文本坐标信息,建立文本框架,每个文本框架内包括若干单元格及对应的子信息段;
分配模块(6),用于根据预设的分配标记模型,为每个文本框架的单元格分配退改标签,所述退改标签包括主标签与子标签;
读取模块(7),用于读取历史退改规则表格,所述历史退改规则表格中包括若干主标签与子标签;
填充模块(8),用于根据退改标签,将所述子信息段填充入历史退改规则表格以获取当前退改规则表格;
反馈模块(9),用于将所述当前退改规则表格反馈至管理员终端。
9.一种智能终端,其特征在于,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。
10.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。
CN202110037555.3A 2021-01-12 2021-01-12 自动整理航司退改规则的方法、***、终端和存储介质 Pending CN112733513A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110037555.3A CN112733513A (zh) 2021-01-12 2021-01-12 自动整理航司退改规则的方法、***、终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110037555.3A CN112733513A (zh) 2021-01-12 2021-01-12 自动整理航司退改规则的方法、***、终端和存储介质

Publications (1)

Publication Number Publication Date
CN112733513A true CN112733513A (zh) 2021-04-30

Family

ID=75591443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110037555.3A Pending CN112733513A (zh) 2021-01-12 2021-01-12 自动整理航司退改规则的方法、***、终端和存储介质

Country Status (1)

Country Link
CN (1) CN112733513A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487338A (zh) * 2021-07-26 2021-10-08 携程商旅信息服务(上海)有限公司 退票处理方法、***、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487338A (zh) * 2021-07-26 2021-10-08 携程商旅信息服务(上海)有限公司 退票处理方法、***、电子设备和存储介质

Similar Documents

Publication Publication Date Title
JP4343213B2 (ja) 文書処理装置および文書処理方法
JP3940491B2 (ja) 文書処理装置および文書処理方法
JP3425408B2 (ja) 文書読取装置
CN107358208A (zh) 一种pdf文档结构化信息提取方法及装置
CN114610892A (zh) 知识点标注方法、装置、电子设备和计算机存储介质
CN113468317B (zh) 一种简历筛选方法、***、设备和存储介质
CN112417873B (zh) 基于bbwc模型和mcmc的自动漫画生成方法和***
CN115630648A (zh) 面向人机对话的地址要素解析方法、***与计算机可读介质
CN111369294B (zh) 软件造价估算方法及装置
CN116401376A (zh) 一种面向工艺性检查的知识图谱构建方法及***
CN113673294B (zh) 文献关键信息的提取方法、装置、计算机设备和存储介质
CN112733513A (zh) 自动整理航司退改规则的方法、***、终端和存储介质
CN112988982B (zh) 一种计算机比较空间的自主学习方法及***
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
JP2004178010A (ja) 文書処理装置並びにその方法及びプログラム
CN114863408A (zh) 文档内容分类方法、***、装置及计算机可读存储介质
CN112528642A (zh) 一种隐式篇章关系自动识别方法及***
CN111783416A (zh) 一种利用先验知识构建文档图像数据集的方法
CN110765107A (zh) 基于数字化编码的题型识别方法及其***
CN113742498B (zh) 一种知识图谱的构建更新方法
CN115130437A (zh) 一种文档智能填写方法、装置及存储介质
CN115116069A (zh) 文本处理方法、装置、电子设备及存储介质
CN115203415A (zh) 一种简历文档信息提取方法及相关装置
CN114238654A (zh) 一种知识图谱的构建方法、装置和计算机可读存储介质
CN113343990A (zh) 一种证件类图片的关键文本检测、分类训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination