CN110515999A

CN110515999A - 通用记录处理方法、装置、电子设备及存储介质

Info

Publication number: CN110515999A
Application number: CN201910799571.9A
Authority: CN
Inventors: 张亦鹏; 安思宇; 刘明浩; 姚荣洁; 郭江亮; 李旭
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-11-29

Abstract

本申请公开了通用记录处理方法、装置、电子设备及存储介质，涉及云计算技术领域。具体实现方案为：识别原始记录的表头样式；基于表头样式从原始记录中抽取出记录行；将原始记录中的原始字段与预设的标准字段进行匹配；在抽取出的记录行中，用匹配成功的标准字段代替对应的原始字段，生成通用记录文本。本申请实施例能够自动化解析记录，并进行记录字段标准化处理，提供统一的标准格式的记录数据，可大幅提升处理效率，节省人力资源。

Description

通用记录处理方法、装置、电子设备及存储介质

技术领域

本申请涉及一种计算机技术领域，尤其涉及一种信息处理技术领域。

背景技术

目前的应用平台的数据通常来自不同的数据源，数据兼容性差、难以统一。例如，目前的大宗商品交易平台，普通通过规定不同类别商品货源数据的标准模板，并强制要求用户按规范填写表格，来获取标准化的货源数据。大宗商品交易平台希望能以相对标准的方式获取供货商的货源数据，但是每个供货商都有自己的数据模版，难以统一。对大宗商品交易平台的用户来说，原有货源数据已经按照特定格式存储，重新进行格式转换或标准化成本较高，导致平台使用门槛较高。如果由交易平台负责，为每个新的货源数据模板投入人力进行手工数据格式转换或编写数据格式转换工具，则引入大量重复工作，是对人力的浪费。综上，采用传统方式为每个数据源建立数据模板对照表，业务人员工作量巨大，存在重复工作、效率低的缺陷。

发明内容

本申请实施例提出一种通用记录处理方法、装置、电子设备及存储介质，以至少解决现有技术中的以上技术问题。

第一方面，本申请实施例提供了一种通用记录处理方法，包括：

识别原始记录的表头样式；

基于表头样式从原始记录中抽取出记录行；

将原始记录中的原始字段与预设的标准字段进行匹配；

在抽取出的记录行中，用匹配成功的标准字段代替对应的原始字段，生成通用记录文本。

本申请实施例中，能够自动化解析记录，并进行记录字段标准化处理，提供统一的标准格式的记录数据，可大幅提升处理效率，节省人力资源。

在一种实施方式中，识别原始记录的表头样式，包括：

确定原始记录的表头行范围；

在表头行范围内，将每个记录行中的目标字段与预设的表头关键词相匹配；

在记录行中的所有目标字段均与对应的表头关键词匹配成功的情况下，确定记录行精确匹配成功；

将精确匹配成功的记录行作为表头行。

本申请实施例中，通过精确匹配识别表头样式，是进行表格记录批量定位的重要环节，为后续抽取记录的步骤提供定位依据。

在一种实施方式中，所述方法还包括：

在表头行范围内的记录行精确匹配不成功的情况下，计算第一匹配度混合指标，第一匹配度混合指标是每个记录行中的目标字段与预设的表头关键词的匹配度混合指标；

在记录行中的所有目标字段均与对应的表头关键词的第一匹配度混合指标大于等于第一预设阈值的情况下，确定记录行模糊匹配成功；

将模糊匹配成功的记录行作为表头行。

本申请实施例中，通过模糊匹配识别表头样式，提高了容错能力，对于规范性较差的数据也能达到较好的识别效果。

在一种实施方式中，基于表头样式从原始记录中抽取出记录行，包括：

将原始记录中的有效列数据对应的列序号分布作为记录规则；

根据记录规则和表头样式从原始记录中抽取出记录行。

本申请实施例中，在基于表头样式和记录规则进行表格记录批量定位，在此基础上进行后续的文本归一化处理可确保数据的有效性和标准化，且提升了处理效率。

在一种实施方式中，将原始记录中的原始字段与预设的标准字段进行匹配，包括：

将原始字段与标准字段的匹配成功的历史匹配记录写入缓存；

若当前待匹配的原始字段与历史匹配记录中的原始字段匹配成功，则确定当前待匹配的原始字段与标准字段通过缓存匹配成功。

本申请实施例中，通过缓存中的数据匹配原始字段与标准字段可提升处理速度，提升***性能。

在一种实施方式中，所述方法还包括：

在当前待匹配的原始字段与标准字段通过缓存匹配不成功的情况下，将当前待匹配的原始字段与预设的字段值集中的标准字段进行匹配；

若当前待匹配的原始字段与预设的字段值集中的标准字段匹配成功，则确定当前待匹配的原始字段与标准字段通过字段值集匹配成功。

本申请实施例中，通过字段值集匹配原始字段与标准字段，可确保匹配的准确性，进而提高生成数据的准确度。

在一种实施方式中，所述方法还包括：

在当前待匹配的原始字段与标准字段通过字段值集匹配不成功的情况下，将当前待匹配的原始字段与预设的规则库中的标准字段的别名进行匹配，其中，规则库用于存储标准字段与标准字段的别名之间的映射关系；

若当前待匹配的原始字段与预设的规则库中的标准字段的别名匹配成功，则确定当前待匹配的原始字段与标准字段通过规则库匹配成功。

本申请实施例中，通过规则库匹配原始字段与标准字段，由于规则库存储有原始字段与标准字段的别名之间的映射关系，使数据具有兼容性，提升了***的处理能力。

在一种实施方式中，所述方法还包括：

在当前待匹配的原始字段与标准字段通过规则库匹配不成功的情况下，计算第二匹配度混合指标，第二匹配度混合指标是当前待匹配的原始字段与字段值集中的标准字段的匹配度混合指标；

在第二匹配度混合指标大于等于第二预设阈值的情况下，确定当前待匹配的原始字段与标准字段模糊匹配成功。

本申请实施例中，利用匹配度混合指标进行模糊匹配的方法提高了容错能力，对于规范性较差的数据也能达到较好的数据归一化效果。

第二方面，本申请实施例提供了一种通用记录处理装置，包括：

识别单元，用于识别原始记录的表头样式；

抽取单元，用于：基于表头样式从原始记录中抽取出记录行；

匹配单元，用于将原始记录中的原始字段与预设的标准字段进行匹配；

生成单元，用于：在抽取出的记录行中，用匹配成功的标准字段代替对应的原始字段，生成通用记录文本。

在一种实施方式中，识别单元包括第一识别子单元，第一识别子单元用于：

确定原始记录的表头行范围；

将精确匹配成功的记录行作为表头行。

在一种实施方式中，识别单元还包括第二识别子单元，第二识别子单元用于：

将模糊匹配成功的记录行作为表头行。

在一种实施方式中，抽取单元用于：

根据记录规则和表头样式从原始记录中抽取出记录行。

在一种实施方式中，匹配单元包括第一匹配子单元，第一匹配子单元用于：

在一种实施方式中，匹配单元还包括第二匹配子单元，第二匹配子单元用于：

在一种实施方式中，匹配单元还包括第三匹配子单元，第三匹配子单元用于：

在一种实施方式中，匹配单元还包括第四匹配子单元，第四匹配子单元用于：

第三方面，本申请实施例提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任意一项实施例所提供的方法。

第四方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。

上述申请中的一个实施例具有如下优点或有益效果：能够自动化解析记录，并进行记录字段标准化处理，提供统一的标准格式的记录数据，可大幅提升处理效率，节省人力资源。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的通用记录处理方法的流程图；

图2是根据本申请实施例的通用记录处理方法的识别表头样式的流程图；

图3是根据本申请实施例的通用记录处理方法的识别表头样式的流程图；

图4是根据本申请实施例的通用记录处理方法的抽取记录行的流程图；

图5是根据本申请实施例的通用记录处理方法的匹配的流程图；

图6是根据本申请实施例的通用记录处理方法的匹配的流程图；

图7是根据本申请实施例的通用记录处理方法的匹配的流程图；

图8是根据本申请实施例的通用记录处理方法的匹配的流程图；

图9A是根据本申请实施例的通用记录处理方法的知识图谱示意图；

图9B是根据本申请实施例的通用记录处理方法的知识图谱示意图；

图10是根据本申请实施例的通用记录处理方法的模块设计与数据流程示意图；

图11是根据本申请实施例的通用记录处理装置结构示意图；

图12是根据本申请实施例的通用记录处理装置结构示意图；

图13是根据本申请实施例的通用记录处理装置结构示意图；

图14是用来实现本申请实施例的通用记录处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请实施例的通用记录处理方法的示意图。该通用记录处理方法包括：

步骤S110，识别原始记录的表头样式；

步骤S120，基于表头样式从原始记录中抽取出记录行；

步骤S130，将原始记录中的原始字段与预设的标准字段进行匹配；

步骤S140，在抽取出的记录行中，用匹配成功的标准字段代替对应的原始字段，生成通用记录文本。

通常情况下，原始记录可能来自不同的数据源。例如，在大宗商品交易平台中，数据可能来自不同的供货商，而每个供货商都有自己的数据模版，数据格式和表述方式难以统一。以字段名称为例，用于存储商品售价信息的字段名称可以叫做“价格”，也可以叫做“单价”。这种来自不同的数据源的数据互相之间的兼容性差。因此需要对这些格式不标准、不规范的数据进行标准化和归一化处理，生成通用记录文本，以方便进行处理和交互。本申请实施例的记录处理方法适用于从不限定样式的电子表格抽取目标记录的场景，以及适用于后续的将非标准记录字段值归一化为标准值集(Value Set)项的场景。

对不规范的原始记录进行归一化处理之前，首先需要识别原始记录的表头样式。在步骤S110中，识别出原始记录中的表头行。识别表头样式是后续记录抽取的基础。在步骤S120中，基于识别出的表头样式从原始记录中抽取出记录行。可以从识别出的待处理的原始记录的表头开始向下搜索，直到搜索结束或者搜索到其它表头行截止。将搜索到的记录行的数据抽取出来。

为了进行记录标准化和归一化处理，可预先设置标准的字段值集数据库。字段值集中存储有标准字段的名称。其中，标准字段的名称也可称为“标准字段值”或“值集项”。例如，原始记录中用于存储商品售价信息的字段名称可以叫做“价格”，也可以叫做“单价”。可在字段值集中存储对这些字段进行归一化处理之后的标准字段的名称。例如可将原始字段中的“价格”、“单价”、“售价”，在归一化处理之后统一为标准字段“价格”。

在步骤S130中，将原始记录中的原始字段与预设的标准字段进行匹配。也就是将原始字段的名称与标准字段的名称进行匹配。例如，将原始字段的名称“单价”与字段值集中存储的标准字段的名称逐一进行匹配，以识别与原始字段对应的标准字段。例如下列表1-表4所示，表1和表2是原始记录表格示例，表3是与表1对应的经过归一化处理后的通用记录表格示例，表4是与表2对应的经过归一化处理后的通用记录表格示例。其中，表1中的原始字段“不锈钢复合冷轧卷”在字段值集中对应的标准字段的名称是“冷轧板卷”；表2中的原始字段“镀铝锌耐指纹板卷”在字段值集中对应的标准字段的名称也是“冷轧板卷”；表2中的原始字段“单价”在字段值集中对应的标准字段的名称是“价格”。

表1原始记录表格示例一

记录行1	商品名称	价格
			记录行2	不锈钢复合冷轧卷	180
…	…	…

表2原始记录表格示例二

记录行1	商品名称	单价
			记录行2	镀铝锌耐指纹板卷	160
…	…	…

表3通用记录表格示例一

记录行1	商品名称	价格
			记录行2	冷轧板卷	180
…	…	…

表4通用记录表格示例二

记录行1	商品名称	价格
			记录行2	冷轧板卷	160
…	…	…

在步骤S140中，在抽取出的记录行中，用匹配成功的标准字段代替对应的原始字段。如表1-表4所示，用“冷轧板卷”代替“不锈钢复合冷轧卷”和“镀铝锌耐指纹板卷”，用“价格”代替“单价”，生成通用记录文本。

图2是根据本申请实施例的通用记录处理方法的识别表头样式的流程图。如图2所示，在一种实施方式中，图1中的步骤S110，识别原始记录的表头样式，包括：

步骤S210，确定原始记录的表头行范围；

步骤S220，在表头行范围内，将每个记录行中的目标字段与预设的表头关键词相匹配；

步骤S230，在记录行中的所有目标字段均与对应的表头关键词匹配成功的情况下，确定记录行精确匹配成功；

步骤S240，将精确匹配成功的记录行作为表头行。

在对原始记录进行标准化和归一化处理之前，首先要识别原始记录的表头样式，也就是要定位表头行的位置。在步骤S210中，首先确定原始记录sheet(表格)内容的表头行范围。在一个示例中，可用如下语句计算表头行范围：max(40，20％*sheet总行数)。其中，max是选取最大值的函数；“20％*sheet总行数”表示表格总行数的20％，可指定这部分行数在表格中的位置，例如通常是在表格上部的20％；“max(40，20％*sheet总行数)”语句的计算结果是在“20％*sheet总行数”和“40”中选取一个最大值。例如，sheet总行数是100行，则“20％*sheet总行数”为20行，则在“20％*sheet总行数”和“40”中选取一个最大值则为40，因此“max(40，20％*sheet总行数)”的值为40。

在步骤S220中，在上述确定的sheet内容的表头行范围内，提取原始字段中每个记录行中的列字段的名称。其中，将原始字段中表头行范围内的列字段的名称称为目标字段。另一方面，可预先设置标准的表头关键词集数据库，表头关键词集数据库中存储有对目标字段进行归一化处理之后的表头关键词。例如在上述表1中原始记录中记录行1的目标字段为“价格”，表头关键词集中的表头关键词也是“价格”，则确定目标字段和表头关键词精确匹配成功。

在步骤S230中，若记录行中的所有目标字段均与对应的表头关键词匹配成功，则确定记录行精确匹配成功。例如上述表1和表3中，表1原始记录中记录行1的另一个目标字段为“商品名称”，表头关键词集中的表头关键词也是“商品名称”，则该目标字段和表头关键词也精确匹配成功。表1原始记录中的记录行1中的所有目标字段均与对应的表头关键词匹配成功，则确定表1中的记录行1精确匹配成功。在步骤S240中，将精确匹配成功的记录行，如表1中的记录行1，作为表头行。

图3是根据本申请实施例的通用记录处理方法的识别表头样式的流程图。如图3所示，在一种实施方式中，所述方法还包括：

步骤S310，在表头行范围内的记录行精确匹配不成功的情况下，计算第一匹配度混合指标，第一匹配度混合指标是每个记录行中的目标字段与预设的表头关键词的匹配度混合指标；

步骤S320，在记录行中的所有目标字段均与对应的表头关键词的第一匹配度混合指标大于等于第一预设阈值的情况下，确定记录行模糊匹配成功；

步骤S330，将模糊匹配成功的记录行作为表头行。

在这种实施方式中，如果进行识别的当前记录行精确匹配不成功，也就是当前记录行没有精确匹配到所有目标字段对应的关键词，则放宽匹配标准，将每个记录行中的目标字段与预设的表头关键词进行糊糊匹配。例如，在步骤S310中，可以使用以下公式计算第一匹配度混合指标：

其中，score表示第一匹配度混合指标和第二匹配度混合指标的计算结果的分值，LCS表示最长公共子序列算法，ED表示编辑距离，函数len(LCS(x，y))用于计算字符串x和y的最长公共子序列的长度，函数len(z)用于计算字符串z的长度，ω表示权重值，S_raw表示原字符串，S_target表示目标字符串。

LCS是Longest Common Subsequence的缩写，即最长公共子序列。一个序列，如果是两个或多个已知序列的子序列，且是所有子序列中最长的，则为最长公共子序列。公式中ω的取值可根据实验结果选取最佳数据，例如可利用爬山算法选取局部最优的数值。

在第一匹配度混合指标中，原字符串可以为每个记录行中的目标字段，目标字符串可以为表头关键词。

在步骤S320中，判定第一匹配度混合指标大于等于第一预设阈值时，确定目标字段均与对应的表头关键词模糊匹配成功。若当前记录行中的所有目标字段均与表头关键词集中的至少一个表头关键词模糊匹配成功，则确定当前记录行模糊匹配成功。在步骤S330中，将确定为模糊匹配成功的当前记录行作为表头行。

例如，在上述表2中原始记录中的目标字段为“单价”，表头关键词集中与“单价”对应的表头关键词是“价格”，则“单价”和“价格”可模糊匹配成功。表2原始记录中的记录行1中的所有目标字段对应的匹配度混合指标均大于等于第一预设阈值，则确定表2中的记录行1模糊匹配成功。将表2中的记录行1作为表头行。

图4是根据本申请实施例的通用记录处理方法的抽取记录行的流程图。如图4所示，在一种实施方式中，图1中的步骤S120，基于表头样式从原始记录中抽取出记录行，包括：

步骤S410，将原始记录中的有效列数据对应的列序号分布作为记录规则；

步骤S420，根据记录规则和表头样式从原始记录中抽取出记录行。

在这种实施方式中，使用如下方法生成记录规则：预先制定标准记录形式。以货源记录为例，可制定标准记录形式中的表头关键词包括：商品名称、阶格、产地、生产日期。与标准记录形式相比较，识别货源原始记录表格中无效的列数据，也说是识别无用信息。与标准记录形式不同的列数据被视为无用信息。有效的列数据对应的字段称为目标字段，将目标字段列序号分布作为记录规则。例如，货源原始记录表格中的列数据包括：第1列：商品名称、第2列：商品类别、第3列：价格、第4列：外观颜色、第5列：产地、第6列：商品等级、第7列：生产日期。则与标准记录形式相比较，将原始货源记录表格中的第1、3、5、7列确定为目标字段列序号。

在步骤S410中，分析原始记录中的所有表头，确定每个表头中，目标字段所在列序号，将目标字段列序号分布作为记录规则。在步骤S420中，在原始记录中进行记录搜索，根据表头样式和记录规则抽取出每条记录。

在一个示例中，记录搜索的步骤如下：

(1)根据记录规则计算原始记录表格中每张子表的列范围。例如在上述货源原始记录表格的示例中，被确定为目标字段列序号的第1、3、5、7列为实施搜索的原始记录表格的列范围。

(2)从每个子表的表头行向下搜索，收集候选记录行，直到当前行到达sheet底部完成搜索，或者，在与其他子表的表头行或者列范围发生冲突时完成搜索。

(3)对步骤(2)中得到的候选记录行进行过滤，保留行中包含必要目标字段的有效内容的行作为记录行。例如，“品名”至少包含一个汉字，“牌号”不为空，“产地”至少包含一个汉字。

(4)根据记录规则，将记录行转换成标准记录形式，例如列字段包括：“(商品名称、价格、产地、生产日期)”。

图5是根据本申请实施例的通用记录处理方法的匹配的流程图。如图5所示，在一种实施方式中，图1中的步骤S130中，将原始记录中的原始字段与预设的标准字段进行匹配，包括：

步骤S510，将原始字段与标准字段的匹配成功的历史匹配记录写入缓存；

步骤S520，若当前待匹配的原始字段与历史匹配记录中的原始字段匹配成功，则确定当前待匹配的原始字段与标准字段通过缓存匹配成功。

在步骤S130中，通过将原始记录中的原始字段与预设的标准字段进行匹配，将原始记录中表述不规范的字段值与标准字段值对齐。

在步骤S510中，在对原始记录表格进行归一化处理的过程中，将原始字段与标准字段进行匹配，将已匹配成功的结果写入缓存。写入缓存的历史匹配记录中包括原始字段与标准字段的映射关系。

在步骤S520中，查询缓存，确认是否已存在匹配成功的原始字段与标准字段的映射关系。若已存在当前待匹配的原始字段与标准字段的映射关系，则确定当前待匹配的原始字段与标准字段通过缓存匹配成功。例如，在历史匹配记录中已经存在原始字段“单价”与标准字段“价格”的映射关系。若当前待匹配的原始字段也是“单价”，即当前待匹配的原始字段与历史匹配记录中的原始字段匹配成功，则确定与当前待匹配的原始字段“单价”对应的标准字段是“价格”。

图6是根据本申请实施例的通用记录处理方法的匹配的流程图。如图6所示，在一种实施方式中，所述方法还包括：

步骤S610，在当前待匹配的原始字段与标准字段通过缓存匹配不成功的情况下，将当前待匹配的原始字段与预设的字段值集中的标准字段进行匹配；

步骤S620，若当前待匹配的原始字段与预设的字段值集中的标准字段匹配成功，则确定当前待匹配的原始字段与标准字段通过字段值集匹配成功。

例如，若在步骤S520中没有查询到历史匹配记录中有当前待匹配的原始字段与标准字段的映射关系，则在步骤S610中枚举字段值集中的值集项，将当前待匹配的原始字段与字段值集中的值集项进行精确匹配。在步骤S620中，若当前待匹配的原始字段与字段值集中的值集项精确匹配成功，例如记录表格中的行记录为：“商品名称：冷轧板卷”、“产地：上海”，在字段值集中的值集项中也有“冷轧板卷”、“上海”，则确定当前待匹配的原始字段与标准字段通过字段值集匹配成功。

图7是根据本申请实施例的通用记录处理方法的匹配的流程图。如图7所示，在一种实施方式中，所述方法还包括：

步骤S710，在当前待匹配的原始字段与标准字段通过字段值集匹配不成功的情况下，将当前待匹配的原始字段与预设的规则库中的标准字段的别名进行匹配，其中，规则库用于存储标准字段与标准字段的别名之间的映射关系；

步骤S720，若当前待匹配的原始字段与预设的规则库中的标准字段的别名匹配成功，则确定当前待匹配的原始字段与标准字段通过规则库匹配成功。

例如，若在步骤S620中当前待匹配的原始字段与字段值集中的值集项没有精确匹配成功，则在步骤S710中枚举纠错规则列表，进行纠错规则的精确匹配，将当前待匹配的原始字段与规则库中的标准字段的别名进行精确匹配。其中，别名是法定名符或规范的名称以外的名称。以产地为“上海”为例，若标准字段为“上海”，别名可能为“大上海”或“沪”等。

在步骤S720中，若当前待匹配的原始字段与规则库中的标准字段的别名精确匹配成功，例如原始记录表格中的字段记录为：“产地：沪”，在规则库中的标准字段的别名中有：标准字段“产地：上海”，别名“产地：沪”，即可确定原始字段到标准字段的映射关系。用标准字段“产地：上海”代替原始字段“产地：沪”。

图8是根据本申请实施例的通用记录处理方法的匹配的流程图。如图8所示，在一种实施方式中，所述方法还包括：

步骤S810，在当前待匹配的原始字段与标准字段通过规则库匹配不成功的情况下，计算第二匹配度混合指标，第二匹配度混合指标是当前待匹配的原始字段与字段值集中的标准字段的匹配度混合指标；

步骤S820，在第二匹配度混合指标大于等于第二预设阈值的情况下，确定当前待匹配的原始字段与标准字段模糊匹配成功。

例如，若在步骤S720中当前待匹配的原始字段与规则库中的标准字段的别名没有精确匹配成功，则在步骤S810中使用以下公式计算第二匹配度混合指标：

LCS是Longest Common Subsequence的缩写，即最长公共子序列。一个序列，如果是两个或多个已知序列的子序列，且是所有子序列中最长的，则为最长公共子序列。公式中ω的取值可根据实验结果选取最佳数据，例如可利用爬山算法选取局部择优的数值。

在第二匹配度混合指标中，原字符串为当前待匹配的原始字段，目标字符串为字段值集中的标准字段。

在步骤S820中，如果判定当前待匹配的原始字段与字段值集中的某个标准字段的匹配度混合指标大于等于第二预设阈值时，确定当前待匹配的原始字段与标准字段模糊匹配成功。

在一种实施方式中，可在字段值集中构建知识图谱，以表示字段值集中的各值集项的拓扑关系。知识图谱是由一些相互连接的实体以及它们的属性构成的。知识图谱由一条条知识组成，每条知识可以表示为一个SPO三元组(Subject-Predicate-Object)，其中，Subject表示主语，Predicate表示谓语，Object表示宾语。知识图谱能够将知识的集合用拓扑图来描述，适合表达知识实体之间的抽象关系。常用于知识实体间的抽象关联搜索。

本申请实施例中，知识实体为各种值集项文本，实体的属性之一为文本字面内容，实体之间的关系为同类或非同类。以钢材商品为例，对品种值集，同类实体拥有相同的品种大类，例如板材、管材、中厚板；对产地实体，同类实体拥有相同的钢厂集团，例如宝武、马钢、邯钢；对仓库实体，同类实体拥有相同的地址所属地区，例如上海、武汉、南京。

每一组同类实体形成一个知识实体簇，每个簇具有一个中心实体。通过大量抽样货源记录，统计所有值集项的出现频率，每个实体簇中对应值集项出现频率最高的实体被选为簇中心实体。例如在图9B中，“冷轧板卷”为簇中心实体，“不锈钢复合冷轧卷”、“镀铝锌耐指纹板卷”、“彩涂板卷(电锌基板)”是与“冷轧板卷”同类的非中心实体。

在执行步骤S820的过程中，可遍历枚举字段值集中的值集项，度量原始字段与值集项文本的匹配度混合指标，综合确定是否匹配成功。上述遍历枚举的顺序可由值集项在KG(Knowledge Graph，知识图谱)中的拓扑关系决定。在一个示例中，为简化搜索实体过程，去掉所有簇内非中心实体间的同类关系，首先遍历KG中不同簇的中心实体值集项并记录对应匹配度混合指标。如果原始字段与不同簇的中心实体没有匹配成功，再按照原始字段与各个不同簇的中心实体的匹配度混合指标的降序顺序，得到与原始字段匹配度混合指标最大的中心实体，然后依次匹配KG中该中心实体所在簇里的非中心实体。

图9A和图9B是根据本申请实施例的通用记录处理方法的知识图谱示意图。9A和图9B中的连线上的数值表示计算得到的连线两端的名词之间的匹配度混合指标。如9A和图9B所示，原始记录中的原始字段为“冷轧”，则首先计算原始字段与不同簇的中心实体的匹配度混合指标。若没有匹配成功，则将原始字段与各个不同簇的中心实体的匹配度混合指标的降序排序。参见图9A的示例，知识图谱中的中心实体包括“冷轧板卷”和“普线”。经过计算得到，“冷轧”与“冷轧板卷”的匹配度混合指标是0.5，“冷轧”与“普线”的匹配度混合指标是0.0。则降序排序的结果为“冷轧”与“冷轧板卷”的匹配度混合指标最高。再参见图9B的示例，依次匹配KG中以“冷轧板卷”为中心的非中心实体，即将“冷轧”与以“冷轧板卷”为中心的非中心实体进行匹配。也就是分别计算“冷轧”与“不锈钢复合冷轧卷”、“镀铝锌耐指纹板卷”、“彩涂板卷(电锌基板)”的匹配度混合指标。参见图9B，“冷轧”与“彩涂板卷(电锌基板)”的匹配度混合指标是0.0，“冷轧”与“镀铝锌耐指纹板卷”的匹配度混合指标是0.0，“冷轧”与“不锈钢复合冷轧卷”的匹配度混合指标是0.25。前面步骤已经计算了“冷轧”与“冷轧板卷”的匹配度混合指标是0.5，则在这些指标中，“冷轧”与“冷轧板卷”的匹配度混合指标最大，若该匹配度混合指标大于等于第二预设阈值，则确定当前待匹配的原始字段“冷轧”与标准字段“冷轧板卷”模糊匹配成功。

在一种实施方式中，若原始字段与标准字段匹配成功，则将匹配成功的原始字段值与值集项的映射关系，写入缓存。缓存容量溢出时使用LRU(Least Recently Used，最近最少使用)算法进行调度。LRU算法用于内存调度场景，也可用于缓存调度场景。以缓存调度场景为例，即当缓存空间被装满并溢出时，从缓存中当前被命中次数最少的元素中，选择一个元素移出缓存，并向缓存中加入新的元素。

图8中所示的各步骤可顺序执行，也可根据执行结果设定程序的跳转流程。例如执行步骤S520查询缓存，若查询失败则继续执行步骤S610；或者执行步骤S520查询成功则直接跳转到步骤S510，将匹配成功的原始字段值与值集项的映射关系写入缓存。同样地，执行步骤S610和步骤S620枚举值集项进行匹配，若匹配失败则继续执行步骤S710；或者匹配成功则直接跳转到步骤S510，将匹配成功的原始字段值与值集项的映射关系写入缓存。以此类推，执行步骤S710和步骤S720枚举纠错规则列表进行匹配，若匹配失败则继续执行步骤S810；或者匹配成功则直接跳转到步骤S510，将匹配成功的原始字段值与值集项的映射关系写入缓存。在执行步骤S820时，若匹配成功也直接跳转到步骤S510。综上，图8中的各步骤顺序执行，若在其中的某一个步骤匹配成功则跳转到步骤S510，否则继续顺序执行下一步骤。

在上述归化处理的过程中，可能会出现得不到归一化结果的情况，也就是归一化失败。可预先设置是否允许归一化失败。在一个示例中，在不允许归一化失败的场景下，可使用根据大量样本统计结果设定的默认值作为记录字段值归一化结果。在这个示例中，可预先针对各个原始字段，统计在历史生成的通用记录中与各个原始字段对应的标准字段，并统计原始字段和对应的标准字段的匹配成功的次数。例如，原始字段是“产品名：香蕉苹果”，在历史生成的通用记录中，任意“产品名”原始字段与“产品名：香蕉”匹配成功累计50次，任意“产品名”原始字段与“产品名：苹果”匹配成功累计500次，则选取匹配成功次数最多的对应字段设定为默认值，将“产品名：苹果”作为“产品名：香蕉苹果”的归一化结果。上述默认值的设定方法中，不区分原始字段，选择历史累计被命中最多次的“产品名”作为归一化默认值，这种方法从概率上来说归一化正确的可能性最大。

在上述示例中，在允许归一化失败的场景下，可使用归一化失败标识符作为归一化结果。

图10是根据本申请实施例的通用记录处理方法的模块设计与数据流程示意图。如图10所示，本申请实施例利用文本模糊匹配技术和规则库，构建特定业务场景内通用的记录解析与归一化***。该***包括记录搜索模块、归一化模块和数据管理模块。其中，记录搜索模块使用表格记录批量定位算法，从原始记录的电子表格文件的所有sheet中批量抽取原始记录。记录搜索模块包括表头搜索模块1、记录规则生成模块2和记录搜索模块4。归一化模块包括表头字段关联模块3和记录归一化模块7。表头搜索模块用于识别表头样式，从而得到原始表头字段。表头字段关联模块分析原始表头字段和表头关键词集中的表头关键词的关联关系，将有关联关系的原始表头字段和表头关键词分为一组，得到分组关联的原始表头字段。记录规则生成模块比较原始表头字段和分组关联的原始表头字段，生成记录规则。记录搜索模块根据记录规则从原始记录的电子表格文件的所有sheet中批量抽取原始记录。

参见图10，记录归一化模块根据记录搜索模块抽取的原始记录、以及归一化规则库中的归一化规则和字段值集中的特定字段值集项信息，产生归一化记录，并生成归一化记录列表。其中，表头字段关联模块和记录归一化模块利用LCS、编辑距离、知识图谱KG和LRU算法进行表头字段关联或记录归一化处理。

参见图10，数据管理模块包括值集管理模块6和纠错规则管理模块5，该模块用于维护值集数据和纠错规则数据。

值集管理模块提供值集管理功能，即维护若干个可更新的标准字段值(值集项)集合。具体包括值集项添加接口、值集项删除接口、值集项修改接口、值集项查询接口。

纠错规则管理模块提供纠错规则管理功能，即维护若干个原始字段值到标准字段值(值集项)的映射关系集合，解决匹配度混合指标无法处理原始字段中出现标准字段的别名的问题。具体包括纠错规则添加接口、纠错规则删除接口、纠错规则修改接口、纠错规则查询接口。用户可通过上述接口自定义标准字段的别名。

图11是根据本申请实施例的通用记录处理装置结构示意图。如图11所示，本申请实施例的通用记录处理装置包括：

识别单元100，用于识别原始记录的表头样式；

抽取单元200，用于：基于表头样式从原始记录中抽取出记录行；

匹配单元300，用于将原始记录中的原始字段与预设的标准字段进行匹配；

生成单元400，用于：在抽取出的记录行中，用匹配成功的标准字段代替对应的原始字段，生成通用记录文本。

图12是根据本申请实施例的通用记录处理装置结构示意图。如图12所示，在一种实施方式中，识别单元100包括第一识别子单元110，第一识别子单元110用于：

确定原始记录的表头行范围；

将精确匹配成功的记录行作为表头行。

在一种实施方式中，识别单元100还包括第二识别子单元120，第二识别子单元120用于：

将模糊匹配成功的记录行作为表头行。

在一种实施方式中，抽取单元200用于：

根据记录规则和表头样式从原始记录中抽取出记录行。

图13是根据本申请实施例的通用记录处理装置结构示意图。如图13所示，在一种实施方式中，匹配单元300包括第一匹配子单元310，第一匹配子单元310用于：

在一种实施方式中，匹配单元300还包括第二匹配子单元320，第二匹配子单元320用于：

在一种实施方式中，匹配单元300还包括第三匹配子单元330，第三匹配子单元330用于：

在一种实施方式中，匹配单元300还包括第四匹配子单元340，第四匹配子单元340用于：

本申请实施例的通用记录处理装置中的各单元的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图14所示，是根据本申请实施例的通用记录处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图14所示，该电子设备包括：一个或多个处理器1401、存储器1402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图14中以一个处理器1401为例。

存储器1402即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的通用记录处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的通用记录处理的方法。

存储器1402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的通用记录处理的方法对应的程序指令/模块/单元(例如，附图11所示的识别单元100、抽取单元200、匹配单元300、生成单元400，附图12所示的第一识别子单元110、第二识别子单元120，以及附图13所示的第一匹配子单元310、第二匹配子单元320、第三匹配子单元330、第四匹配子单元340)。处理器1401通过运行存储在存储器1402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的通用记录处理的方法。

存储器1402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据通用记录处理方法的电子设备的使用所创建的数据等。此外，存储器1402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1402可选包括相对于处理器1401远程设置的存储器，这些远程存储器可以通过网络连接至通用记录处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通用记录处理方法的电子设备还可以包括：输入装置1403和输出装置1404。处理器1401、存储器1402、输入装置1403和输出装置1404可以通过总线或者其他方式连接，图14中以通过总线连接为例。

输入装置1403可接收输入的数字或字符信息，以及产生与通用记录处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(Liquid Crystal Display，LCD)、发光二极管(Light EmittingDiode，LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用集成电路(Application Specific Integrated Circuits，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(programmable logic device，PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode Ray Tube，阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，直接从用户信息行为的相关内容中识别出兴趣点，从而保证了为用户推送的兴趣点能够与用户意图相吻合，用户体验良好。因为直接从用户信息行为的相关内容中识别出兴趣点，所以避免了推送的兴趣点不满足用户的需要的问题，进而提升了用户体验。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种通用记录处理方法，其特征在于，包括：

识别原始记录的表头样式；

基于所述表头样式从所述原始记录中抽取出记录行；

将所述原始记录中的原始字段与预设的标准字段进行匹配；

在抽取出的所述记录行中，用匹配成功的标准字段代替对应的原始字段，生成通用记录文本。

2.根据权利要求1所述的方法，其特征在于，识别原始记录的表头样式，包括：

确定所述原始记录的表头行范围；

在所述表头行范围内，将每个记录行中的目标字段与预设的表头关键词相匹配；

将精确匹配成功的记录行作为表头行。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在所述表头行范围内的记录行精确匹配不成功的情况下，计算第一匹配度混合指标，所述第一匹配度混合指标是每个记录行中的目标字段与预设的表头关键词的匹配度混合指标；

在记录行中的所有目标字段均与对应的表头关键词的所述第一匹配度混合指标大于等于第一预设阈值的情况下，确定记录行模糊匹配成功；

将模糊匹配成功的记录行作为表头行。

4.根据权利要求1-3中任一项所述的方法，其特征在于，基于所述表头样式从所述原始记录中抽取出记录行，包括：

将所述原始记录中的有效列数据对应的列序号分布作为记录规则；

根据所述记录规则和所述表头样式从所述原始记录中抽取出记录行。

5.根据权利要求1-3中任一项所述的方法，其特征在于，将所述原始记录中的原始字段与预设的标准字段进行匹配，包括：

将所述原始字段与所述标准字段的匹配成功的历史匹配记录写入缓存；

若当前待匹配的原始字段与所述历史匹配记录中的原始字段匹配成功，则确定所述当前待匹配的原始字段与所述标准字段通过缓存匹配成功。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在所述当前待匹配的原始字段与所述标准字段通过缓存匹配不成功的情况下，将所述当前待匹配的原始字段与预设的字段值集中的标准字段进行匹配；

若所述当前待匹配的原始字段与预设的字段值集中的标准字段匹配成功，则确定所述当前待匹配的原始字段与所述标准字段通过字段值集匹配成功。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

在所述当前待匹配的原始字段与所述标准字段通过字段值集匹配不成功的情况下，将所述当前待匹配的原始字段与预设的规则库中的标准字段的别名进行匹配，其中，所述规则库用于存储所述标准字段与所述标准字段的别名之间的映射关系；

若所述当前待匹配的原始字段与预设的规则库中的标准字段的别名匹配成功，则确定所述当前待匹配的原始字段与所述标准字段通过规则库匹配成功。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

在所述当前待匹配的原始字段与所述标准字段通过规则库匹配不成功的情况下，计算第二匹配度混合指标，所述第二匹配度混合指标是所述当前待匹配的原始字段与字段值集中的标准字段的匹配度混合指标；

在所述第二匹配度混合指标大于等于第二预设阈值的情况下，确定所述当前待匹配的原始字段与所述标准字段模糊匹配成功。

9.一种通用记录处理装置，其特征在于，包括：

识别单元，用于识别原始记录的表头样式；

抽取单元，用于：基于所述表头样式从所述原始记录中抽取出记录行；

匹配单元，用于将所述原始记录中的原始字段与预设的标准字段进行匹配；

生成单元，用于：在抽取出的所述记录行中，用匹配成功的标准字段代替对应的原始字段，生成通用记录文本。

10.根据权利要求9所述的装置，其特征在于，所述识别单元包括第一识别子单元，所述第一识别子单元用于：

确定所述原始记录的表头行范围；

将精确匹配成功的记录行作为表头行。

11.根据权利要求10所述的装置，其特征在于，所述识别单元还包括第二识别子单元，所述第二识别子单元用于：

将模糊匹配成功的记录行作为表头行。

12.根据权利要求9-11中任一项所述的装置，其特征在于，所述抽取单元用于：

13.根据权利要求9-11中任一项所述的装置，其特征在于，所述匹配单元包括第一匹配子单元，所述第一匹配子单元用于：

14.根据权利要求13所述的装置，其特征在于，所述匹配单元还包括第二匹配子单元，所述第二匹配子单元用于：

15.根据权利要求14所述的装置，其特征在于，所述匹配单元还包括第三匹配子单元，所述第三匹配子单元用于：

16.根据权利要求15所述的装置，其特征在于，所述匹配单元还包括第四匹配子单元，所述第四匹配子单元用于：

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。