CN114510560A - 一种基于深度学习的商品关键信息抽取方法及存储介质 - Google Patents
一种基于深度学习的商品关键信息抽取方法及存储介质 Download PDFInfo
- Publication number
- CN114510560A CN114510560A CN202210100878.7A CN202210100878A CN114510560A CN 114510560 A CN114510560 A CN 114510560A CN 202210100878 A CN202210100878 A CN 202210100878A CN 114510560 A CN114510560 A CN 114510560A
- Authority
- CN
- China
- Prior art keywords
- commodity
- key information
- data set
- information
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 28
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000013136 deep learning model Methods 0.000 claims abstract description 46
- 230000011218 segmentation Effects 0.000 claims abstract description 37
- 238000002372 labelling Methods 0.000 claims abstract description 28
- 238000004140 cleaning Methods 0.000 claims abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000012805 post-processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims 1
- 230000014509 gene expression Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 6
- 238000013519 translation Methods 0.000 description 6
- 238000004904 shortening Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004534 enameling Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Mathematical Physics (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于深度学习的商品关键信息抽取方法及存储介质,所述方法包括以下步骤:获取商品信息数据集,根据预设规则筛选商品关键信息标注数据并构成候选数据集;对筛选后的商品关键信息标注数据进行数据清洗,构造新的商品信息数据集对构造的新的商品信息数据集加入标识符,并进行分词,得到训练数据集;利用训练数据集训练基于Encoder‑Decoder框架的Transformer深度学习模型;基于Transformer深度学习模型对商品原始信息自动抽取商品关键信息。提供一个基于Transformer深度学习模型,用于商品关键信息抽取,相对于传统关键词抽取,选用商品信息作为模型训练数据集,增加商品关键信息抽取的准确性。
Description
技术领域
本申请涉及文本处理领域,具体涉及一种基于深度学习的商品关键信息抽取方法及存储介质。
背景技术
近年来,随着电商行业逐渐兴起、繁盛,商品信息呈现***式增长,对于繁杂、冗余的商品信息,商品关键信息指商品品牌、型号等,商品关键信息能够帮助用户快速对比多平台同等商品信息,在琳琅满目的各大商城高效选择最优质的商品,面对每日成千上万的商品上新,手工标注商品关键信息难度日益上升,因此如何利用人工智能技术服务于电商行业是未来电商发展的趋势。
但是由于现有关键词抽取技术大多服务于长文本摘要信息,商品关键信息抽取任务的输入不仅包括非结构化的纯文本(标题),还包括结构化的键值对字典(属性表),而传统文本关键词抽取任务并没有使用结构化的键值对进行模型训练,对商品信息的关键信息抽取效果不佳。
发明内容
鉴于上述问题,本申请提供了一种基于深度学习的商品关键信息抽取的方法及存储介质,解决现有的关键词抽取技术对于商品信息的关键信息抽取不佳的问题。
为实现上述目的,发明人提供了一种基于深度学习的商品关键信息抽取方法,包括以下步骤:
获取商品信息数据集,根据预设规则筛选商品关键信息标注数据并构成候选数据集;
对筛选后的商品关键信息标注数据进行数据清洗,构造新的商品信息数据集
对构造的新的商品信息数据集加入标识符,并进行分词,得到训练数据集;
利用训练数据集训练基于Encoder-Decoder框架的Transformer深度学习模型;
基于Transformer深度学习模型对商品原始信息自动抽取商品关键信息。
进一步优化,所述步骤“根据预设规则筛选商品关键信息标注数据并构成候选数据集”具体包括以下步骤:
在商品信息数据集中选取同时具备原始标题、属性表且标注的关键信息在标题或属性表中出现过的数据构成候选数据集。
进一步优化,所述步骤“对筛选后的商品关键信息标注数据进行数据清洗,构造新的商品信息数据集”具体包括以下步骤:
删除筛选后的商品关键信息标注数据的标题中的干扰文本及属性表中的无效字符,所述无效字符包括无效的key及无效符号;
对于标记的商品关键信息同时出现在标题和属性表中的数据,按照预设概率删除属性表中标注的商品关键信息所在的key-value对。
进一步优化,所述步骤“对构造的新的商品信息数据集加入标识符,并进行分词,得到训练数据集”具体包括以下步骤:
在构造的新的商品信息数据集的输入文本开头增加关键信息标识符,标题属性表中添加连接标识符,替换文本空格为空格标识符,输出文本的关键信息前添加关键信息标识符;
采用单字符分词法对输入文本和输出文本进行分词,得到训练数据集。
进一步优化,所述步骤“基于Transformer深度学习模型对商品原始信息自动抽取商品关键信息”具体包括以下步骤:
通过训练好的Transformer深度学习模型对商品原始信息的商品标题+完整属性表及商品标题+空属性表进行商品关键信息抽取;
对抽取的商品关键信息进行后处理分析,得到最终的抽取结果。
还提供了另一个技术方案,一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器运行时执行以下步骤:
获取商品信息数据集,根据预设规则筛选商品关键信息标注数据并构成候选数据集;
对筛选后的商品关键信息标注数据进行数据清洗,构造新的商品信息数据集
对构造的新的商品信息数据集加入标识符,并进行分词,得到训练数据集;
利用训练数据集训练基于Encoder-Decoder框架的Transformer深度学习模型;
基于Transformer深度学习模型对商品原始信息自动抽取商品关键信息。
进一步优化,所述步骤“根据预设规则筛选商品关键信息标注数据并构成候选数据集”具体包括以下步骤:
在商品信息数据集中选取同时具备原始标题、属性表且标注的关键信息在标题或属性表中出现过的数据构成候选数据集。
进一步优化,所述步骤“对筛选后的商品关键信息标注数据进行数据清洗,构造新的商品信息数据集”具体包括以下步骤:
删除筛选后的商品关键信息标注数据的标题中的干扰文本及属性表中的无效字符,所述无效字符包括无效的key及无效符号;
对于标记的商品关键信息同时出现在标题和属性表中的数据,按照预设概率删除属性表中标注的商品关键信息所在的key-value对。
进一步优化,所述步骤“对构造的新的商品信息数据集加入标识符,并进行分词,得到训练数据集”具体包括以下步骤:
在构造的新的商品信息数据集的输入文本开头增加关键信息标识符,标题属性表中添加连接标识符,替换文本空格为空格标识符,输出文本的关键信息前添加关键信息标识符;
采用单字符分词法对输入文本和输出文本进行分词,得到训练数据集。
进一步优化,所述步骤“基于Transformer深度学习模型对商品原始信息自动抽取商品关键信息”具体包括以下步骤:
通过训练好的Transformer深度学习模型对商品原始信息的商品标题+完整属性表及商品标题+空属性表进行商品关键信息抽取;
对抽取的商品关键信息进行后处理分析,得到最终的抽取结果。
区别于现有技术,上述技术方案,通过获取大规模的商品信息数据集,筛选高质量的商品信息标注数据,然后进行清洗数据,构建新的商品信息数据集;在构建的新的商品信息数据集中加入标识符,并进行分词,构建作为模型训练的训练数据集;通过构建的训练数据集训练基于Encoder-Decoder框架的Transformer深度学习模型,利用训练后的Transformer深度学习模型对商品原始信息进行抽取商品关键信息;提供一个基于Encoder-Decoder框架的Transformer深度学习模型,用于商品关键信息抽取,相对于传统关键词抽取,选用商品信息作为模型训练数据集,增加商品关键信息抽取的准确性。
上述发明内容相关记载仅是本申请技术方案的概述,为了让本领域普通技术人员能够更清楚地了解本申请的技术方案,进而可以依据说明书的文字及附图记载的内容予以实施,并且为了让本申请的上述目的及其它目的、特征和优点能够更易于理解,以下结合本申请的具体实施方式及附图进行说明。
附图说明
附图仅用于示出本申请具体实施方式以及其他相关内容的原理、实现方式、应用、特点以及效果等,并不能认为是对本申请的限制。
在说明书附图中:
图1为具体实施方式所述基于深度学习的商品关键信息抽取方法的一种流程示意图;
图2为具体实施方式所述步骤S110的一种流程示意图;
图3为具体实施方式所述步骤S120的一种流程示意图;
图4为具体实施方式所述步骤S130的一种流程示意图;
图5为具体实施方式所述步骤S150的一种流程示意图;
图6为具体实施方式所述基于深度学习的商品关键信息抽取方法的一种流程示意图;
图7为具体实施方式所述基于深度学习的商品关键信息抽取方法的一种流程示意图;
图8为具体实施方式所述存储介质的一种结构示意图
上述各附图中涉及的附图标记说明如下:
810、存储介质。
具体实施方式
为详细说明本申请可能的应用场景,技术原理,可实施的具体方案,能实现目的与效果等,以下结合所列举的具体实施例并配合附图详予说明。本文所记载的实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例,亦不特别限定其与其它实施例之间的独立性或关联性。原则上,在本申请中,只要不存在技术矛盾或冲突,各实施例中所提到的各项技术特征均可以以任意方式进行组合,以形成相应的可实施的技术方案。
除非另有定义,本文所使用的技术术语的含义与本申请所属技术领域的技术人员通常理解的含义相同;本文中对相关术语的使用只是为了描述具体的实施例,而不是旨在限制本申请。
在本申请的描述中,用语“和/或”是一种用于描述对象之间逻辑关系的表述,表示可以存在三种关系,例如A和/或B,表示:存在A,存在B,以及同时存在A和B这三种情况。另外,本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。
在本申请中,诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。
在没有更多限制的情况下,在本申请中,语句中所使用的“包括”、“包含”、“具有”或者其他类似的表述,意在涵盖非排他性的包含,这些表述并不排除在包括所述要素的过程、方法或者产品中还可以存在另外的要素,从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要素,而且还可以包括没有明确列出的其他要素,或者还包括为这种过程、方法或者产品所固有的要素。
与《审查指南》中的理解相同,在本申请中,“大于”、“小于”、“超过”等表述理解为不包括本数;“以上”、“以下”、“以内”等表述理解为包括本数。此外,在本申请实施例的描述中“多个”的含义是两个以上(包括两个),与之类似的与“多”相关的表述亦做此类理解,例如“多组”、“多次”等,除非另有明确具体的限定。
在本申请实施例的描述中,所使用的与空间相关的表述,诸如“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“垂直”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等,所指示的方位或位置关系是基于具体实施例或附图所示的方位或位置关系,仅是为了便于描述本申请的具体实施例或便于读者理解,而不是指示或暗示所指的装置或部件必须具有特定的位置、特定的方位、或以特定的方位构造或操作,因此不能理解为对本申请实施例的限制。
除非另有明确的规定或限定,在本申请实施例的描述中,所使用的“安装”“相连”“连接”“固定”“设置”等用语应做广义理解。例如,所述“连接”可以是固定连接,也可以是可拆卸连接,或成一体设置;其可以是机械连接,也可以是电连接,也可以是通信连接;其可以是直接相连,也可以通过中间媒介间接相连;其可以是两个元件内部的连通或两个元件的相互作用关系。对于本申请所属技术领域的技术人员而言,可以根据具体情况理解上述用语在本申请实施例中的具体含义。
请参阅图1,本实施例提供了一种基于深度学习的商品关键信息抽取方法,包括以下步骤:
步骤S110:获取商品信息数据集,根据预设规则筛选商品关键信息标注数据并构成候选数据集;
步骤S120:对筛选后的商品关键信息标注数据进行数据清洗,构造新的商品信息数据集;
步骤S130:对构造的新的商品信息数据集加入标识符,并进行分词,得到训练数据集;
步骤S140:利用训练数据集训练基于Encoder-Decoder框架的Transformer深度学习模型;
步骤S150:基于Transformer深度学习模型对商品原始信息自动抽取商品关键信息。
Encoder-Decoder框架是机器翻译(Machine Translation)模型的产物;使用一个循环神经网络读取输入句子,将整个句子的信息压缩到一个固定维度的编码中;再使用另一个循环神经网络读取这个编码,将其“解压”为目标语言的一个句子。这两个循环神经网络分别称为编码器(Encoder)和解码器(Decoder),这就是encoder-decoder框架的由来。
Transformer模型是一个Seq2Seq架构的模型,所以它也由Encoder与Decoder这2部分组成。与原始Seq2Seq模型不同的是:Transformer模型中没有RNN,而是完全基于Attention(以及全连接层)。在大型数据集上,它的效果可以完全碾压RNN模型(即使RNN中加入Attention机制)。现如今例如机器翻译场景,已经看不到RNN的影子了,基本都是Transformer+Bert。
通过获取大规模的商品信息数据集,筛选高质量的商品信息标注数据,然后进行清洗数据,构建新的商品信息数据集;在构建的新的商品信息数据集中加入标识符,并进行分词,构建作为模型训练的训练数据集;通过构建的训练数据集训练基于Encoder-Decoder框架的Transformer深度学习模型,利用训练后的Transformer深度学习模型对商品原始信息进行抽取商品关键信息;提供一个基于Encoder-Decoder框架的Transformer深度学习模型,用于商品关键信息抽取,相对于传统关键词抽取,选用商品信息作为模型训练数据集,增加商品关键信息抽取的准确性。
请参阅图2,在某些实施例中,所述步骤“根据预设规则筛选商品关键信息标注数据并构成候选数据集”具体包括以下步骤:
步骤S210:在商品信息数据集中选取同时具备原始标题、属性表且标注的关键信息在标题或属性表中出现过的数据构成候选数据集。
在获取的大规模的商品信息数据集中存储很多不必要的数据,需要新的商品信息数据集进行数据筛选,具体的,通过在商品信息数据集中选取同时具备原始标题、属性表且标注的关键信息在标题或者属性表出出现的数据构建候选数据集。
请参阅图3,在某些实施例中,所述步骤“对筛选后的商品关键信息标注数据进行数据清洗,构造新的商品信息数据集”具体包括以下步骤:
步骤S310:删除筛选后的商品关键信息标注数据的标题中的干扰文本及属性表中的无效字符,所述无效字符包括无效的key及无效符号,如“、”,“空格”等,干扰文本还包括比如京东商场数据标题前会加上的“京东**”,或者聚划算商品标题前会加上的“聚划算**”;
步骤S320:对于标记的商品关键信息同时出现在标题和属性表中的数据,按照预设概率删除属性表中标注的商品关键信息所在的key-value对。
需要对筛选后的候选数据集进行数据清洗,再次去除垃圾数据,删除无效的key,删除文本无效字符,清理商品标题干扰文本,缩短文本长度。对于标记的商品关键信息同时出现在标题和属性表中的数据,按照预设概率删除属性表中的该值所在的key-value对;key即关键字,value即值。
请参阅图4,在某些实施例中,所述步骤“对构造的新的商品信息数据集加入标识符,并进行分词,得到训练数据集”具体包括以下步骤:
步骤S410:在构造的新的商品信息数据集的输入文本开头增加关键信息标识符,标题属性表中添加连接标识符,替换文本空格为空格标识符,输出文本的关键信息前添加关键信息标识符;
步骤S420:采用单字符分词法对输入文本和输出文本进行分词,得到训练数据集。
在构建新的商品信息数据集后,在新的商品信息数据集的输入文本开头增加关键信息的标识符,标题属性表中间添加连接标识符,替换文本空格为空格标识符;输出文本关键信息前添加关键信息标识符。采用单字节分词法对输入文本和输出文件进行分词,单字符分词法指除标识符外,任何字符均认为是单一词语单元。
请参阅图5,在某些实施例中,所述步骤“基于Transformer深度学习模型对商品原始信息自动抽取商品关键信息”具体包括以下步骤:
步骤S510:通过训练好的Transformer深度学习模型对商品原始信息的商品标题+完整属性表及商品标题+空属性表进行商品关键信息抽取;
步骤S520:对抽取的商品关键信息进行后处理分析,得到最终的抽取结果。
通过使用训练好的Transformer深度学习模型对商品原始信息中的商品标题+完整属性表及商品标题+空属性表进行商品关键信息抽取,然后对抽取的商品关键信息进行后处理分析,得到最终的抽取结构。
通过大规模的商品信息,包括商品标题和属性表,以及标注的商品关键信息,训练基于Encoder-Decoder的transformer模型,实现对原始商品信息全自动抽取商品关键信息。
数据集的预处理操作,包括但不限于舍弃无关文本,缩短文本输入长度,对同时出现在标题和属性表的商品关键信息值按概率p删除属性表key-value对。进而提升模型关键信息从标题抽取的准确性。
为模型输入及输出添加标识符,包括但不限于商品关键信息标识符如[brand],标题属性表连接标识符如[union],符号标识符如空格[space]。
对深度模型输出结果进行后处理分析,对比标题+完整属性表和标题+空属性表模型输出结果,对比分析得到更加准确的商品关键信息。提升模型抽取准确率。
请参阅图6,在另一实施例中,一种基于深度学习的商品关键信息抽取方法,其中,商品关键信息为商品的品牌,具体方法如下:
步骤S610:获取大规模商品信息数据集,筛选高质量的(标题,属性表)–(品牌)标注数据,清洗数据,构造新的商品信息数据集。选取同时具备原始标题,属性表且标注品牌在标题/属性表中出现过的数据构成候选数据集。清理商品标题前端干扰中文文本;统计商品数据集商品信息出现的key,缩短文本长度,删除无效的key,删除文本无效字符。对于标记品牌同时出现在标题和属性表中数据,按照概率p删除属性表中该值所在的key-value对。
步骤S620:在构造的新的商品信息数据集中加入标识符,分词,获取作为模型输入单元训练数据集。输入文本开头增加关键信息标识符[brand],标题属性表中间添加连接标识符[union],替换文本空格为空格标识符[space]。输出文本关键信息前添加关键信息标识符[brand]。采用单字符分词法对本发明输入文本及输出文本进行分词;单字符分词法指除标识符外,任意字符均认为是单一词语单元。
步骤S630:构造的训练数据集训练基于Encoder-Decoder框架的Transformer深度学习模型。
步骤S640:利用训练的Transformer深度学习模型对商品原始信息(标题,属性表)自动抽取商品关键信息(品牌)。训练的Transformer深度学习模型对商品原始信息的商品标题+完整属性表及商品标题+空属性表进行商品品牌抽取结果分别记为:brands,brandn。
抽取的品牌结果分别进行后处理分析,结果记为brand。具体的后处理分析如下:
统计训练数据集中标注品牌的频率,品牌brand的频率记为fbrand;
若通过Transformer深度学习模型抽取的品牌结果中,若brands=brandn,则brand=brandn;若brands≠brandn,且该条商品信息包含标注品牌brandb,且存在并且其中pb为大量数据分析得到的阈值;则brand=brandb;若brands≠brandn,且该条商品信息不包含标注品牌或则brand=brands。
请参阅图7,在另一实施例中,一种基于深度学习的商品关键信息抽取方法,其中,商品关键信息为商品的型号,具体方法如下:
步骤S710:获取大规模商品信息数据集,筛选高质量的(标题,属性表)–(型号)标注数据,清洗数据,构造新的商品信息数据集。选取同时具备原始标题,属性表且标注型号在标题/属性表中出现过的数据构成候选数据集。清理商品标题前端干扰中文文本;统计商品数据集商品型号出现的key,缩短文本长度,删除无效的key,删除文本无效字符。对于标记型号同时出现在标题和属性表中数据,按照概率p删除属性表中该值所在的key-value对。
步骤S720:在构造的新的商品信息数据集中加入标识符,分词,获取作为模型输入单元训练数据集。输入文本开头增加关键信息标识符[model],标题属性表中间添加连接标识符[union],替换文本空格为空格标识符[space]。输出文本关键信息前添加关键信息标识符[model]。采用单字符分词法对本发明输入文本及输出文本进行分词;单字符分词法指除标识符外,任意字符均认为是单一词语单元。
步骤S730:构造的训练数据集训练基于Encoder-Decoder框架的Transformer深度学习模型。
步骤S740:利用训练的Transformer深度学习模型对商品原始信息(标题,属性表)自动抽取商品关键信息(型号)。使用训练的Transformer深度学习模型对商品标题+完整属性表及商品标题+空属性表进行商品型号抽取,抽取结果分别记为:models,modeln。
抽取的型号结果分别进行后处理分析,结果记为model。具体的后处理分析如下:
若models=modeln,则model=modeln;
若models全为中文且modeln包含数字字母,则model=modeln;
若modeln全为中文且models包含数字或字母,则model=models;
若不属于上述任意情形,且商品品类属于预设品类的商品数据,则model=modeln;预先设定品类为根据大量测试数据获取的品类表;
采用训练的Transformer深度学习模型对标题+models+属性表进行商品关键信息抽取,抽取结果记为modelss,计算modelss与models和modeln的语义相似度,选取语义相似度较近的结果为model。
请参阅图8,另一实施例中,一种存储介质810,所述存储介质810存储有计算机程序,所述计算机程序被处理器运行时执行以下步骤:
获取商品信息数据集,根据预设规则筛选商品关键信息标注数据并构成候选数据集;
对筛选后的商品关键信息标注数据进行数据清洗,构造新的商品信息数据集
对构造的新的商品信息数据集加入标识符,并进行分词,得到训练数据集;
利用训练数据集训练基于Encoder-Decoder框架的Transformer深度学习模型;
基于Transformer深度学习模型对商品原始信息自动抽取商品关键信息。
Encoder-Decoder框架是机器翻译(Machine Translation)模型的产物;使用一个循环神经网络读取输入句子,将整个句子的信息压缩到一个固定维度的编码中;再使用另一个循环神经网络读取这个编码,将其“解压”为目标语言的一个句子。这两个循环神经网络分别称为编码器(Encoder)和解码器(Decoder),这就是encoder-decoder框架的由来。
Transformer模型是一个Seq2Seq架构的模型,所以它也由Encoder与Decoder这2部分组成。与原始Seq2Seq模型不同的是:Transformer模型中没有RNN,而是完全基于Attention(以及全连接层)。在大型数据集上,它的效果可以完全碾压RNN模型(即使RNN中加入Attention机制)。现如今例如机器翻译场景,已经看不到RNN的影子了,基本都是Transformer+Bert。
通过获取大规模的商品信息数据集,筛选高质量的商品信息标注数据,然后进行清洗数据,构建新的商品信息数据集;在构建的新的商品信息数据集中加入标识符,并进行分词,构建作为模型训练的训练数据集;通过构建的训练数据集训练基于Encoder-Decoder框架的Transformer深度学习模型,利用训练后的Transformer深度学习模型对商品原始信息进行抽取商品关键信息;提供一个基于Encoder-Decoder框架的Transformer深度学习模型,用于商品关键信息抽取,相对于传统关键词抽取,选用商品信息作为模型训练数据集,增加商品关键信息抽取的准确性。
在某些实施例中,所述步骤“根据预设规则筛选商品关键信息标注数据并构成候选数据集”具体包括以下步骤:
在商品信息数据集中选取同时具备原始标题、属性表且标注的关键信息在标题或属性表中出现过的数据构成候选数据集。
在获取的大规模的商品信息数据集中存储很多不必要的数据,需要新的商品信息数据集进行数据筛选,具体的,通过在商品信息数据集中选取同时具备原始标题、属性表且标注的关键信息在标题或者属性表出出现的数据构建候选数据集。
在某些实施例中,所述步骤“对筛选后的商品关键信息标注数据进行数据清洗,构造新的商品信息数据集”具体包括以下步骤:
删除筛选后的商品关键信息标注数据的标题中的干扰文本及属性表中的无效字符,所述无效字符包括无效的key及无效符号;
对于标记的商品关键信息同时出现在标题和属性表中的数据,按照预设概率删除属性表中标注的商品关键信息所在的key-value对。
需要对筛选后的候选数据集进行数据清洗,再次去除垃圾数据,删除无效的key,删除文本无效字符,清理商品标题干扰文本,缩短文本长度。对于标记的商品关键信息同时出现在标题和属性表中的数据,按照预设概率删除属性表中的该值所在的key-value对;key即关键字,value即值。
在某些实施例中,所述步骤“对构造的新的商品信息数据集加入标识符,并进行分词,得到训练数据集”具体包括以下步骤:
在构造的新的商品信息数据集的输入文本开头增加关键信息标识符,标题属性表中添加连接标识符,替换文本空格为空格标识符,输出文本的关键信息前添加关键信息标识符;
采用单字符分词法对输入文本和输出文本进行分词,得到训练数据集。
在构建新的商品信息数据集后,在新的商品信息数据集的输入文本开头增加关键信息的标识符,标题属性表中间添加连接标识符,替换文本空格为空格标识符;输出文本关键信息前添加关键信息标识符。采用单字节分词法对输入文本和输出文件进行分词,单字符分词法指除标识符外,任何字符均认为是单一词语单元。
在某些实施例中,所述步骤“基于Transformer深度学习模型对商品原始信息自动抽取商品关键信息”具体包括以下步骤:
通过训练好的Transformer深度学习模型对商品原始信息的商品标题+完整属性表及商品标题+空属性表进行商品关键信息抽取;
对抽取的商品关键信息进行后处理分析,得到最终的抽取结果。
通过使用训练好的Transformer深度学习模型对商品原始信息中的商品标题+完整属性表及商品标题+空属性表进行商品关键信息抽取,然后对抽取的商品关键信息进行后处理分析,得到最终的抽取结构。
最后需要说明的是,尽管在本申请的说明书文字及附图中已经对上述各实施例进行了描述,但并不能因此限制本申请的专利保护范围。凡是基于本申请的实质理念,利用本申请说明书文字及附图记载的内容所作的等效结构或等效流程替换或修改产生的技术方案,以及直接或间接地将以上实施例的技术方案实施于其他相关的技术领域等,均包括在本申请的专利保护范围之内。
Claims (10)
1.一种基于深度学习的商品关键信息抽取方法,其特征在于,包括以下步骤:
获取商品信息数据集,根据预设规则筛选商品关键信息标注数据并构成候选数据集;
对筛选后的商品关键信息标注数据进行数据清洗,构造新的商品信息数据集;
对构造的新的商品信息数据集加入标识符,并进行分词,得到训练数据集;
利用训练数据集训练基于Encoder-Decoder框架的Transformer深度学习模型;
基于Transformer深度学习模型对商品原始信息自动抽取商品关键信息。
2.根据权利要求1所述基于深度学习的商品关键信息抽取方法,其特征在于,所述步骤“根据预设规则筛选商品关键信息标注数据并构成候选数据集”具体包括以下步骤:
在商品信息数据集中选取同时具备原始标题、属性表且标注的关键信息在标题或属性表中出现过的数据构成候选数据集。
3.根据权利要求1所述基于深度学习的商品关键信息抽取方法,其特征在于,所述步骤“对筛选后的商品关键信息标注数据进行数据清洗,构造新的商品信息数据集”具体包括以下步骤:
删除筛选后的商品关键信息标注数据的标题中的干扰文本及属性表中的无效字符,所述无效字符包括无效的key及无效符号;
对于标记的商品关键信息同时出现在标题和属性表中的数据,按照预设概率删除属性表中标注的商品关键信息所在的key-value对。
4.根据权利要求1所述基于深度学习的商品关键信息抽取方法,其特征在于,所述步骤“对构造的新的商品信息数据集加入标识符,并进行分词,得到训练数据集”具体包括以下步骤:
在构造的新的商品信息数据集的输入文本开头增加关键信息标识符,标题属性表中添加连接标识符,替换文本空格为空格标识符,输出文本的关键信息前添加关键信息标识符;
采用单字符分词法对输入文本和输出文本进行分词,得到训练数据集。
5.根据权利要求1所述基于深度学习的商品关键信息抽取方法,其特征在于,所述步骤“基于Transformer深度学习模型对商品原始信息自动抽取商品关键信息”具体包括以下步骤:
通过训练好的Transformer深度学习模型对商品原始信息的商品标题+完整属性表及商品标题+空属性表进行商品关键信息抽取;
对抽取的商品关键信息进行后处理分析,得到最终的抽取结果。
6.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行以下步骤:
获取商品信息数据集,根据预设规则筛选商品关键信息标注数据并构成候选数据集;
对筛选后的商品关键信息标注数据进行数据清洗,构造新的商品信息数据集
对构造的新的商品信息数据集加入标识符,并进行分词,得到训练数据集;
利用训练数据集训练基于Encoder-Decoder框架的Transformer深度学习模型;
基于Transformer深度学习模型对商品原始信息自动抽取商品关键信息。
7.根据权利要求6所述存储介质,其特征在于,所述步骤“根据预设规则筛选商品关键信息标注数据并构成候选数据集”具体包括以下步骤:
在商品信息数据集中选取同时具备原始标题、属性表且标注的关键信息在标题或属性表中出现过的数据构成候选数据集。
8.根据权利要求6所述存储介质,其特征在于,所述步骤“对筛选后的商品关键信息标注数据进行数据清洗,构造新的商品信息数据集”具体包括以下步骤:
删除筛选后的商品关键信息标注数据的标题中的干扰文本及属性表中的无效字符,所述无效字符包括无效的key及无效符号;
对于标记的商品关键信息同时出现在标题和属性表中的数据,按照预设概率删除属性表中标注的商品关键信息所在的key-value对。
9.根据权利要求6所述存储介质,其特征在于,所述步骤“对构造的新的商品信息数据集加入标识符,并进行分词,得到训练数据集”具体包括以下步骤:
在构造的新的商品信息数据集的输入文本开头增加关键信息标识符,标题属性表中添加连接标识符,替换文本空格为空格标识符,输出文本的关键信息前添加关键信息标识符;
采用单字符分词法对输入文本和输出文本进行分词,得到训练数据集。
10.根据权利要求6所述存储介质,其特征在于,所述步骤“基于Transformer深度学习模型对商品原始信息自动抽取商品关键信息”具体包括以下步骤:
通过训练好的Transformer深度学习模型对商品原始信息的商品标题+完整属性表及商品标题+空属性表进行商品关键信息抽取;
对抽取的商品关键信息进行后处理分析,得到最终的抽取结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210100878.7A CN114510560A (zh) | 2022-01-27 | 2022-01-27 | 一种基于深度学习的商品关键信息抽取方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210100878.7A CN114510560A (zh) | 2022-01-27 | 2022-01-27 | 一种基于深度学习的商品关键信息抽取方法及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114510560A true CN114510560A (zh) | 2022-05-17 |
Family
ID=81550286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210100878.7A Pending CN114510560A (zh) | 2022-01-27 | 2022-01-27 | 一种基于深度学习的商品关键信息抽取方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114510560A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116050397A (zh) * | 2023-03-07 | 2023-05-02 | 知呱呱(天津)大数据技术有限公司 | 一种长文本摘要生成方法、***、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814465A (zh) * | 2020-06-17 | 2020-10-23 | 平安科技(深圳)有限公司 | 基于机器学习的信息抽取方法、装置、计算机设备及介质 |
CN112184250A (zh) * | 2020-09-23 | 2021-01-05 | 支付宝(杭州)信息技术有限公司 | 挽回页的生成方法、装置、存储介质和计算机设备 |
CN112861540A (zh) * | 2021-04-25 | 2021-05-28 | 成都索贝视频云计算有限公司 | 基于深度学习的广播电视新闻关键词自动抽取方法 |
CN113779232A (zh) * | 2020-06-12 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 物品摘要生成方法及装置、计算机存储介质、电子设备 |
CN113822067A (zh) * | 2021-08-17 | 2021-12-21 | 深圳市东信时代信息技术有限公司 | 关键信息提取方法、装置、计算机设备及存储介质 |
-
2022
- 2022-01-27 CN CN202210100878.7A patent/CN114510560A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779232A (zh) * | 2020-06-12 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 物品摘要生成方法及装置、计算机存储介质、电子设备 |
CN111814465A (zh) * | 2020-06-17 | 2020-10-23 | 平安科技(深圳)有限公司 | 基于机器学习的信息抽取方法、装置、计算机设备及介质 |
CN112184250A (zh) * | 2020-09-23 | 2021-01-05 | 支付宝(杭州)信息技术有限公司 | 挽回页的生成方法、装置、存储介质和计算机设备 |
CN112861540A (zh) * | 2021-04-25 | 2021-05-28 | 成都索贝视频云计算有限公司 | 基于深度学习的广播电视新闻关键词自动抽取方法 |
CN113822067A (zh) * | 2021-08-17 | 2021-12-21 | 深圳市东信时代信息技术有限公司 | 关键信息提取方法、装置、计算机设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116050397A (zh) * | 2023-03-07 | 2023-05-02 | 知呱呱(天津)大数据技术有限公司 | 一种长文本摘要生成方法、***、设备及存储介质 |
CN116050397B (zh) * | 2023-03-07 | 2023-05-30 | 知呱呱(天津)大数据技术有限公司 | 一种长文本摘要生成方法、***、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
RU2628436C1 (ru) | Классификация текстов на естественном языке на основе семантических признаков | |
RU2628431C1 (ru) | Подбор параметров текстового классификатора на основе семантических признаков | |
US7689527B2 (en) | Attribute extraction using limited training data | |
CN108391446B (zh) | 基于机器学习算法对针对数据分类器的训练语料库的自动提取 | |
CN111324742A (zh) | 一种数字人文知识图谱的构建方法 | |
CN112434691A (zh) | 基于智能解析识别的hs编码匹配、展示方法、***及存储介质 | |
Sommerschield et al. | Machine learning for ancient languages: A survey | |
Nasim et al. | Sentiment analysis on Urdu tweets using Markov chains | |
CN113033183B (zh) | 一种基于统计量与相似性的网络新词发现方法及*** | |
CN110928981A (zh) | 一种文本标签体系搭建及完善迭代的方法、***及存储介质 | |
Gopinath et al. | Supervised and unsupervised methods for robust separation of section titles and prose text in web documents | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN113722490A (zh) | 一种基于键值匹配关系的视觉富文档信息抽取方法 | |
Tkaczyk | New methods for metadata extraction from scientific literature | |
CN107832307B (zh) | 基于无向图与单层神经网络的中文分词方法 | |
Scharkow | Content analysis, automatic | |
Hicham et al. | An efficient approach for improving customer Sentiment Analysis in the Arabic language using an Ensemble machine learning technique | |
Wong et al. | iSentenizer‐μ: Multilingual Sentence Boundary Detection Model | |
Meuschke et al. | A benchmark of pdf information extraction tools using a multi-task and multi-domain evaluation framework for academic documents | |
CN113158659B (zh) | 一种基于司法文本的涉案财物计算方法 | |
JP2020173779A (ja) | 文書における見出しのシーケンスの識別 | |
CN114510560A (zh) | 一种基于深度学习的商品关键信息抽取方法及存储介质 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、***及存储介质 | |
Premaratne et al. | Lexicon and hidden Markov model-based optimisation of the recognised Sinhala script |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220517 |
|
RJ01 | Rejection of invention patent application after publication |