CN116308635A - 塑化产业报价结构化方法、装置、设备及存储介质 - Google Patents
塑化产业报价结构化方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116308635A CN116308635A CN202310163474.7A CN202310163474A CN116308635A CN 116308635 A CN116308635 A CN 116308635A CN 202310163474 A CN202310163474 A CN 202310163474A CN 116308635 A CN116308635 A CN 116308635A
- Authority
- CN
- China
- Prior art keywords
- quotation
- word
- data
- text data
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000011218 segmentation Effects 0.000 claims abstract description 64
- 238000004458 analytical method Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 19
- 235000019580 granularity Nutrition 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 239000000463 material Substances 0.000 description 11
- 238000011144 upstream manufacturing Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 238000007334 copolymerization reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0611—Request for offers or quotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种塑化产业报价结构化方法,包括如下步骤:获取报价资料,从所述报价资料中提取报价文本数据,并对所述报价文本数据进行标准化处理;对标准化处理后的所述报价文本数据进行分词,得到报价词组;对所述报价词组中每一报价词进行词性标注,得到报价特征数据;根据所述报价特征数据匹配对应的解析语法,根据所述解析语法对所述报价词组进行解析,得到初步报价信息;将所述初步报价信息根据预设结构进行结构化,得到结构化报价信息。相对于现有技术,本发明的塑化产业报价结构化方法能够自动识别报价资料中的报价信息并进行结构化,能够提高报价信息的识别效率。
Description
技术领域
本发明涉及塑化产业报价结构化技术领域,尤其是涉及一种塑化产业报价结构化方法、装置、电子设备及计算机可读存储介质。
背景技术
塑化行业产业链中,需要获取上游供应商的报价来确定物料订购。上游报价的形式有多种,如通过文本报价,通过Excel表格报价,通过截图图片报价,目前行业中是通过人工对这些报价资料进行读取识别,从中提取关键报价信息并录入到***的对应字段中。但人工的读取和录入存在操作效率低的问题。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种塑化产业报价结构化方法,能够提高塑化产业报价信息结构化的效率。
本发明是通过以下技术方案实现的:一种塑化产业报价结构化方法,包括如下步骤:
获取报价资料,从所述报价资料中提取报价文本数据,并对所述报价文本数据进行标准化处理;
对标准化处理后的所述报价文本数据进行分词,得到报价词组;
对所述报价词组中每一报价词进行词性标注,得到报价特征数据;
根据所述报价特征数据匹配对应的解析语法,根据所述解析语法对所述报价词组进行解析,得到初步报价信息;
将所述初步报价信息根据预设结构进行结构化,得到结构化报价信息。
相对于现有技术,本发明的塑化产业报价结构化方法能够自动识别报价资料中的报价信息并进行结构化,能够提高报价信息的识别效率。
进一步地,对标准化处理后的所述报价文本数据进行分词,包括步骤:
对所述报价文本数据进行多粒度分词,得到多个对应不同粒度的初分词组;
根据最粗粒度的所述初分词组的分词位置将每一所述初分词组分割为多个候选词组,将所有粒度的所述初分词组中相同位置的所述候选词组构成一候选组别;
对所述报价文本数据进行语境分析,得到语境特征;
针对每一所述候选组别,对每一所述候选词组与所述语境特征进行关联度计算,确定其中相关性最高的所述候选词组中的初分词为报价词。
进一步地,对每一所述候选词组与所述语境特征进行关联度计算,包括步骤:
根据已有报价文本数据构建语境特征与登记词的关系图,其中,所述关系图包括节点和边,所述节点为所述语境特征和登记词,具有直接关系的所述节点通过所述边进行连接,所述边的值为具有直接关系的两节点间的距离;
获取所述候选词组中初分词对应的登记词节点与所述语境特征节点间的所有连接路径,计算每一所述连接路径上所有边的值的和,其中最小和为关联距离;
根据所述关联距离计算关联度。
进一步地,对所述报价词组中每一报价词进行词性标注,包括步骤:
针对所述报价词组中每一报价词,在塑化产业词典中对所述报价词进行匹配,得到与所述报价词相同的塑化产业专用词,通过所述塑化产业专用词的词性对所述报价词进行词性标注;
根据歧义词典对所述报价词进行匹配,得到歧义词,所述歧义词典包括歧义词,每一所述歧义词对应有多个上下文-词性键值对;
获取所述歧义词在所述报价文本数据中的上下文,根据所述歧义词典获取所述歧义词的上下文对应的纠正词性;
通过所述纠正词性更新对应报价词的词性标注。
进一步地,对所述报价词组中每一报价词进行词性标注,包括步骤:
针对所述报价词组中每一报价词,提取所述报价词在所述报价文本数据中的上下文特征;
将所述报价词的向量表示与所述上下文特征拼接,得到拼接向量;
根据所述拼接向量进行词性预测,通过预测结果对所述报价词进行词性标注。
进一步地,根据所述报价特征数据匹配对应的解析语法,根据所述解析语法对所述最终报价词组进行解析,得到初步报价信息后,还包括步骤:
若所述初步报价信息中存在报价要素缺失,则获取所述报价资料的报价来源,根据所述报价来源获取所缺失的报价要素对应的来源默认值,通过所述来源默认值确定初步报价信息中缺失的报价要素。
进一步地,对所述报价文本数据进行标准化处理,包括步骤:
识别所述报价文本数据中的特定简写文本,对所述特定简写文本进行标准文本转换;
识别所述报价文本数据中的特定分隔符,根据所述特定分隔符对所述报价文本数据进行分割。
基于同一发明构思,本申请还提供一种塑化产业报价结构化装置,包括:
标准化模块,用于获取报价资料,从所述报价资料中提取报价文本数据,并对所述报价文本数据进行标准化处理;
分词模块,用于对标准化处理后的所述报价文本数据进行分词,得到报价词组;
词性标注模块,用于对所述报价词组中每一报价词进行词性标注,得到报价特征数据;
语法解析模块,用于根据所述报价特征数据匹配对应的解析语法,根据所述解析语法对所述报价词组进行解析,得到初步报价信息;
结构化模块,用于将所述初步报价信息根据预设结构进行结构化,得到结构化报价信息。
基于同一发明构思,本申请还提供一种电子设备,包括:
处理器;
存储器,用于存储可由所述处理器执行的计算机程序;
其中,所述处理器执行所述程序时实现上述方法的步骤。
基于同一发明构思,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为一示例性的塑化产业报价结构化方法的应用场景示意图;
图2为一个实施例的塑化产业报价结构化方法流程示意图;
图3为一优选实施例中对报价文本数据进行分词的流程图;
图4为一个示例性的语境特征与登记词的关系图;
图5为一可选实施例中对报价词组中每一报价词进行词性标注的流程示意图;
图6为另一可选实施例中对报价词组中每一报价词进行词性标注的流程示意图;
图7一个实施例的塑化产业报价结构化装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
请参阅图1,其为一示例性的塑化产业报价结构化方法的应用场景示意图,包括报价终端10和服务器20,报价终端10可以是任何具有上网功能的智能终端,例如,可以具体为计算机、手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、电子书阅读器、多媒体播放器等,服务器20可以是计算机,还可以是专用服务器。其中,报价终端10可以通过无线局域网接入路由器,并通过路由器访问公网上的服务器20。上游供应商或接收报价人员可以将报价资料输入报价终端10,通过报价终端10向服务器20发送报价资料,服务器20接收到报价资料时,通过本发明的塑化产业报价结构化方法对报价资料进行处理,得到结构化报价信息。
请参阅图2,其为一个实施例的塑化产业报价结构化方法流程示意图。该方法包括如下步骤:
S1:获取待结构化的报价资料,从报价资料中提取报价文本数据,并对报价文本数据进行标准化处理;
S2:对标准化处理后的报价文本数据进行分词,得到报价词组;
S3:对报价词组中每一报价词进行词性标注,得到报价特征数据;
S4:根据报价特征数据匹配对应的解析语法,根据解析语法对报价词组进行解析,得到初步报价信息;
S5:将初步报价信息根据预设结构进行结构化,得到结构化报价信息。
具体的,在步骤S1中,获取报价资料,从报价资料中提取报价文本数据,并对报价文本数据进行标准化处理。
其中,报价资料有多种数据形式,包括文本类型、表格类型和图片类型等,文本类型的报价资料为文本字符数据;表格类型的报价资料中存在文本字符数据和边框数据,如excel表格等;图片类型的报价资料为图形数据,如截图、扫描图等。
从报价资料中提取报价文本数据,是将报价资料所显示的文本提取为字符数据。对于文本类型的报价资料,可将其中的文本字符数据直接作为报价文本数据;对于表格类型的报价资料,可对其中文本字符数据进行识别,筛除边框数据等无关数据,将识别到的文本字符数据作为报价文本数据;对于图片类型的报价资料,可通过OCR等文本识别技术,对其上的文本图形进行识别,提取为文本字符数据,作为报价文本数据。
对报价文本数据进行标准化处理,是将报价文本进行统一化处理,以便后续进行报价信息的获取。对报价文本数据进行标准化处理包括步骤:识别报价文本数据中的特定符号,根据特定符号对报价文本数据进行清洗。其中,特定符号用于标记与报价信息无关的特殊文本,这些特殊文本通常来自上游供应商的特殊说明,例如一段报价文本数据“广州7042 8350广州中储库(100熔指高熔共聚,对标SK3920),最后27吨”,其括号中的“100熔指高熔共聚,对标SK3920”为上游供应商对于该物料的补充说明,与所需报价信息无关。特定符号可根据实际需求设定,如可设置为一对括号“(”“)”,或一对花括号“{”“}”,一对中括号“【”“】”等。根据特定符号对报价文本数据进行清洗,即将特定符号标记的特殊文本进行清除,如将“()”中的文本进行清除。
为了进一步统一报价文本数据中的术语表达,对报价文本数据进行标准化处理还包括步骤:识别报价文本数据中的特定简写文本,对特定简写文本进行标准文本转换。其中,特定简写文本是塑化行业中行业名词的简写,例如一段报价文本数据“广州7042 8350H广州中储库(100熔指高熔共聚,对标SK3920),最后27吨”,其中“H”为特定简写文本,是一种常见的行业名词的简写,表示“8350”为配送价格,则应将“H”转换为标准文本“配送价格”。
为了进一步统一报价文本数据中句子与句子之间的分隔格式,对报价文本数据进行标准化处理还包括步骤:识别所述报价文本数据中的特定分隔符,根据所述特定分隔符对所述报价文本数据进行分割。其中,特定分隔符可为文本段落的常见分隔符,如换行符等。将报价文本数据中特定分隔符两侧的数据分割,使完整的句子和句子之间分离。
在步骤S2中,对标准化处理后的报价文本数据进行分词,得到报价词组。
在一个优选的实施例中,按照一定分词粒度对报价文本数据中的报价词进行提取,可预先建立塑化产业词典,塑化产业词典中记录有登记词,登记词是塑化产业专业术语,将报价文本数据与塑化产业词典中的登记词进行匹配,匹配到与登记词相同的文本即为报价文本数据中的报价词,分词粒度是可匹配的最小文本长度。例如一段报价文本数据“广州7042 8350配送价格广州中储库”,按粒度为2进行分词,将得到报价词组(广州,4042,8350,配送价格,广州,中储库)。
不同分词粒度将使所识别的登记词不同,即以何种分词粒度进行分词将影响分词的准确性,对于简单报价文本数据,通过一种分词粒度分词可获得高准确性的分词结果,而对于复杂报价文本数据,通过一种分词粒度分词则难以保证其分词准确性。为了提高复杂报价文本数据的分词准确性,请参阅图3,其为一优选实施例中对报价文本数据进行分词的流程图,对报价文本数据进行分词包括如下步骤:
S21:对报价文本数据进行多粒度分词,得到多个对应不同粒度的初分词组;
其中,对报价文本数据进行多粒度分词,可根据塑化产业词典,按照多种粒度分别对报价文本数据中的报价词进行提取,将按照不同粒度处理得到的分词构成初分词组。粒度范围可根据实际需求进行确定,本实施例对此不进行限定。
S22:将不同粒度的初分词组中,对应相同报价文本的初分词分为同一候选组别,候选组别中同一初分词组的初分词分为同一候选词组;
其中,相同报价文本的初分词即在报价文本数据中具有相同的位置特征,即为相同的文本数据。对于相同报价文本,分词粒度不同时,将可能得到不同初分词,将这些初分词形成同一候选组别,以便于后续进行初分词的筛选。容易想到,最粗粒度候选词组的每一候选词组中仅有一个初分词,其他候选词组的候选词组中可能有一个或多个初分词。例如一段报价文本数据“广州7042 8350配送价格广州中储库”,按粒度为5进行分词,可得到初分词组(广州中储库);按粒度为2进行分词,可得到初分词组(广州,4042,8350,配送价格,广州,中储库),则对于相同报价文本“广州中储库”,有候选组别[(广州中储库),(广州,中储库)],其中(广州中储库)为分词粒度5的候选词组,(广州,中储库)为分词粒度2的候选词组。
S23:对报价文本数据进行语境分析,得到语境特征;
在优选的例子中,将报价文本数据转换为向量表示后,输入语境分析模型进行处理,输出语境特征。语境分析模型为经过训练的神经网络模型,其隐藏层对报价文本数据的向量表示进行计算,将输出对应的特征向量,该特征向量可归一化为某类语境特征。语境特征为当前报价文本数据所表示的语境类型的向量表示。
S24:针对每一候选组别,对每一候选词组与语境特征进行关联度计算,确定其中相关性最高的候选词组中的初分词为报价词。
其中,通过关联度选择候选词组,关联度越高,则对应候选词组与语境特征所表示的语境更相关。
在一可选实施例中,对每一候选词组与语境特征进行关联度计算,可以包括步骤:获取该语境特征下,候选词组中每一初分词的出现频次,根据出现频次计算关联度,其中出现频次越高,则对应初分词所在候选词组与当前语境特征的关联度越大。某一语境特征下的初分词的出现频次,是初分词在具有同一语境特征的已有报价文本数据中的出现次数。
在另一可选实施例中,对每一候选词组与语境特征进行关联度计算,可以包括步骤:根据已有报价文本数据构建语境特征与登记词的关系图;根据该关系图获取候选词组中初分词与语境特征的关联距离,根据该关联距离计算关联度。其中,请参阅图4,其为一个示例性的语境特征与登记词的关系图,关系图包括节点和边,节点为语境特征和登记词,具有直接关系的节点通过边进行连接,边的值为具有直接关系节点间的距离。节点间的直接关系包括语境特征与登记词的相关关系、登记词与登记词的相关关系,其中,在同一语境特征下,登记词的出现频次高于一预设频次,则确定该登记词与该语境特征具有相关关系;对于一登记词,另一登记词在同一报价文本数据中的出现频次高于一预设频次,则确定该两个登记词具有相关关系。边的值可以根据出现频次进行确定。
获取节点间的关联距离包括步骤:获取节点间的所有连接路径,计算每一连接路径上所有边的值的和,其中最小和为关联距离。如图4,语境特征A节点与登记词3之间的连接路径包括(语境特征A,登记词1,登记词2,登记词3)、(语境特征A,登记词1,登记词4,登记词3)、(语境特征A,登记词5,登记词4,登记词3),对应的边的和分别为5、6、9,则最小和5为语境特征A节点与登记词3的关联距离。
在步骤S3中,对报价词组中每一报价词进行词性标注,抽取所标注的词性得到报价特征数据。
其中,对报价词进行词性标注是对报价词进行词性识别,所得到的词性抽取为报价特征。
请参阅图5,其为一可选实施例中对报价词组中每一报价词进行词性标注的流程示意图,对报价词组中每一报价词进行词性标注,包括步骤:
S311:针对报价词组中每一报价词,在塑化产业词典中对报价词进行匹配,匹配得到与报价词相同的塑化产业专用词,通过该塑化产业专用词的词性对报价词进行词性标注。
其中,塑化产业词典中存储了塑化产业专用词及其对应的词性,例如一段报价文本数据分词后得到“万华”“648V”“8350”“配送”“广州”“中储库”,通过词性标注后得到“万华(生产商)”“648V(报价牌号)”“8350(价格)”“配送(配送方式)”“广州(城市)”“中储库(仓库)”,则所提取的报价特征数据为“生产商+报价牌号+价格+配送方式+城市+仓库”。
优选的,为了保证报价词中歧义词的词性得到正确识别,对报价词进行词性标注后,还包括步骤:
S312:针对报价词组中每一报价词,根据歧义词典对报价词进行匹配,得到歧义词;
S313:获取歧义词在报价文本数据中的上下文,根据歧义词典获取该歧义词的上下文对应的纠正词性;
S314:通过该纠正词性更新对应报价词的词性标注。
其中,歧义词典包括歧义词,每一歧义词对应有多个上下文-词性键值对,在确定歧义词的上下文时,可通过歧义词典查询得到该歧义词的纠正词性。例如,歧义词“广州”,对应的上下文-词性键值对有“出-仓库”、“提-仓库”、“佛山-城市”、“江门-城市”等。
请参阅图6,其为另一可选实施例中对报价词组中每一报价词进行词性标注的流程示意图,在另一可选实施例中,对报价词组中每一报价词进行词性标注,包括步骤:
S321:针对报价词组中每一报价词,提取报价词在报价文本数据中的上下文特征;
S322:将报价词的向量表示与上下文特征拼接,得到拼接向量;
S323:根据拼接向量进行词性预测,通过预测结果对报价词进行词性标注。
其中,可通过上下文特征提取模型对报价词进行上下文特征的提取,上下文特征提取模型是基于深度学习的神经网络模型。报价词的向量表示是对报价词进行自然语言处理,转换为机器能够理解的数据。可以通过经过训练的深度卷积神经网络对拼接向量进行分类预测,得到报价词的词性。
在步骤S4中,根据报价特征数据匹配对应的解析语法,根据解析语法对报价词组进行解析,得到初步报价信息。其中,塑化行业报价有特定的语法,而不同的特征将匹配不同的语法解析器进行解析,将报价词组中的每个报价词解析为***设定的统一形式。例如,对于报价特征数据“生产商+牌号+价格+配送方式+仓库”,对应的解析语法将会根据其中的生产商和牌号对应报价词,从***的sku库中获取对应的sku ID;根据价格对应报价词生成相应类型的价格数据,包括期货价格、固定价格、美金价格等等。
在一种复杂报价文本数据中,其报价特征数据将可能出现重复的报价特征,例如,对于报价文本数据提取的报价词组“万华648V万华658V配送广州8600 8700”,其报价特征数据为“生产商+报价牌号+生产商+报价牌号+配送方式+城市+价格+价格”,其中生产商、报价牌号及价格为重复的报价特征。为了使复杂报价文本数据能被正确解析,在一可选实施例中,根据报价特征数据匹配对应的解析语法前,包括步骤:通过循环检测算法对报价特征数据进行处理,得到至少一组子报价特征数据。通过循环检查算法,能够对报价特征数据中重复的报价特征进行识别,将重复报价特征拆分,形成多组子报价特征数据。如报价特征数据为“生产商+报价牌号+生产商+报价牌号+配送方式+城市+价格+价格”,经过处理可得到两组子报价特征数据,均为“生产商+报价牌号+配送方式+城市+价格”,对应的报价词组分别为“万华648V配送广州8600”和“万华658V配送广州8700”。
在步骤S5中,将初步报价信息根据预设结构进行结构化,得到结构化报价信息。其中,初步报价信息是非结构化数据,需要将初步报价信息结构化后得到结构化的报价信息,以便报价***访问。预设结构包括预设的数据字段,数据字段根据报价信息中报价要素的类型进行设置,将初步报价信息中的数据根据类型存储在对应的数据字段下,完成初步报价信息的结构化。
在一优选实施例中,根据报价特征数据匹配对应的解析语法,根据解析语法对最终报价词组进行解析,得到初步报价信息后,还包括步骤:若所述初步报价信息中存在报价要素缺失,则获取所述报价资料的报价来源,根据所述报价来源获取所缺失的报价要素对应的来源默认值,通过所述来源默认值确定初步报价信息中缺失的报价要素。其中,获取初步报价信息后,可检查初步报价信息中的报价要素是否符合报价所需数据的需求,若所述初步报价信息中存在报价要素缺失,则需要进一步填补所缺失的报价要素,以确保结构化报价信息的完整性。报价资料的报价来源对应为提供该报价资料的上游供应商,每一报价来源对应多个来源默认值,每一来源默认值与一报价要素对应,通过报价来源和缺失的报价要素可以确定用于填补该缺失报价要数的来源默认值,来源默认值可根据报价来源对应的上游供应商的惯常报价数据进行设置。
相对于现有技术,本发明的塑化产业报价结构化方法能够自动识别报价资料中的报价信息并进行结构化,能够提高报价信息的识别效率。此外,在塑化行业,报价资料中存在大量塑化行业术语的缩略表达以及口语化表达,人工读取时需要结合大量行业知识库进行联想才能确定其中所表示的报价信息,现有算法难以对塑化产业报价资料进行准确的分词和词性标注,而本发明的塑化产业报价结构化方法对报价文本数据进行多粒度分词,结合语境特征确定分词结果,能够提高报价文本数据的分词准确性。同时,通过上下文信息进行报价词的词性标注,能够保证词性识别的正确,从而最终结构化的报价信息能够保证正确。
基于同一发明构思,本申请还提供一种塑化产业报价结构化装置。请参阅图7,其为一个实施例的塑化产业报价结构化装置的结构示意图,该装置包括标准化模块11、分词模块12、词性标注模块13、语法解析模块14和结构化模块15,其中,标准化模块11用于获取报价资料,从所述报价资料中提取报价文本数据,并对所述报价文本数据进行标准化处理;分词模块12用于对标准化处理后的所述报价文本数据进行分词并标注词性,得到初步报价词组;词性标注模块13用于对所述报价词组中每一报价词进行词性标注,得到报价特征数据;语法解析模块14用于根据所述报价特征数据匹配对应的解析语法,根据所述解析语法对所述报价词组进行解析,得到初步报价信息;结构化模块15用于将所述初步报价信息根据预设结构进行结构化,得到结构化报价信息。
在一优选实施例中,塑化产业报价结构化装置还包括缺失填补模块,该缺失填补模块用于若所述初步报价信息中存在报价要素缺失,则获取所述报价资料的报价来源,根据所述报价来源获取所缺失的报价要素对应的来源默认值,通过所述来源默认值确定初步报价信息中缺失的报价要素。
进一步,所述标准化模块11包括文本清洗子模块、文本转换子模块和数据分割子模块,其中,文本清洗子模块用于识别报价文本数据中的特定符号,根据特定符号对报价文本数据进行清洗;文本转换子模块用于识别所述报价文本数据中的特定简写文本,对所述特定简写文本进行标准文本转换;数据分割子模块用于识别所述报价文本数据中的特定分隔符,根据所述特定分隔符对所述报价文本数据进行分割。
在一优选实施例中,所述分词模块12包括多粒度分词子模块、分组子模块、语境分析子模块和关联度计算子模块,其中,多粒度分词子模块用于对报价文本数据进行多粒度分词,得到多个对应不同粒度的初分词组;分组子模块用于根据最粗粒度初分词组的分词位置将每一初分词组分割为多个候选词组,将所有粒度的初分词组中相同位置的候选词组构成一候选组别;语境分析子模块用于对报价文本数据进行语境分析,得到语境特征;关联度计算子模块用于针对每一候选组别,对每一候选词组与语境特征进行关联度计算,确定其中相关性最高的候选词组中的初分词为报价词。
在一可选实施例中,关联度计算子模块包括词频计算子模块,用于获取该语境特征下,候选词组中每一初分词的出现词频,根据出现词频计算关联度,其中词频越高,则对应初分词所在候选词组与当前语境特征的关联度越大。
在另一可选实施例中,关联度计算子模块包括关系图构建子模块和关联距离子模块,其中,关系图构建子模块用于根据已有报价文本数据构建语境特征与登记词的关系图;关联距离子模块用于根据该关系图获取候选词组中初分词与语境特征的关联距离,根据该关联距离计算关联度。
在一可选实施例中,词性标注模块13包括词性匹配子模块,用于针对报价词组中每一报价词,在塑化产业词典中对报价词进行匹配,匹配得到与报价词相同的塑化产业专用词,通过该塑化产业专用词的词性对报价词进行词性标注。
优选的,词性标注模块13还包括歧义词匹配子模块、纠正词性匹配子模块和纠正子模块,其中,歧义词匹配子模块用于针对报价词组中每一报价词,根据歧义词典对报价词进行匹配,得到歧义词;纠正词性匹配子模块用于获取歧义词在报价文本数据中的上下文,根据歧义词典获取该歧义词的上下文对应的纠正词性;纠正子模块用于通过该纠正词性更新对应报价词的词性标注。
在另一可选实施例中,词性标注模块13包括上下文特征提取子模块、拼接子模块和预测子模块,其中,上下文特征提取子模块用于针对报价词组中每一报价词,提取报价词在报价文本数据中的上下文特征;拼接子模块用于将报价词的向量表示与上下文特征拼接,得到拼接向量;预测子模块用于根据拼接向量进行词性预测,通过预测结果对报价词进行词性标注。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关细节之处请参见方法实施例的说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元。
基于同一发明构思,本发明还提供一种电子设备,所述电子设备可以是服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。该电子设备包括一个或多个处理器和存储器,其中处理器用于执行程序实现方法实施例的塑化产业报价结构化方法;存储器用于存储可由所述处理器执行的计算机程序。
基于同一发明构思,本发明还提供一种计算机可读存储介质,与前述塑化产业报价结构化方法的实施例相对应,所述计算机可读存储介质其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所记载的塑化产业报价结构化方法的步骤。
本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,则本发明也意图包含这些改动和变形。
Claims (10)
1.一种塑化产业报价结构化方法,其特征在于,包括如下步骤:
获取报价资料,从所述报价资料中提取报价文本数据,并对所述报价文本数据进行标准化处理;
对标准化处理后的所述报价文本数据进行分词,得到报价词组;
对所述报价词组中每一报价词进行词性标注,得到报价特征数据;
根据所述报价特征数据匹配对应的解析语法,根据所述解析语法对所述报价词组进行解析,得到初步报价信息;
将所述初步报价信息根据预设结构进行结构化,得到结构化报价信息。
2.根据权利要求1所述的方法,其特征在于,对标准化处理后的所述报价文本数据进行分词,包括步骤:
对所述报价文本数据进行多粒度分词,得到多个对应不同粒度的初分词组;
根据最粗粒度的所述初分词组的分词位置将每一所述初分词组分割为多个候选词组,将所有粒度的所述初分词组中相同位置的所述候选词组构成一候选组别;
对所述报价文本数据进行语境分析,得到语境特征;
针对每一所述候选组别,对每一所述候选词组与所述语境特征进行关联度计算,确定其中相关性最高的所述候选词组中的初分词为报价词。
3.根据权利要求2所述的方法,其特征在于,对每一所述候选词组与所述语境特征进行关联度计算,包括步骤:
根据已有报价文本数据构建语境特征与登记词的关系图,其中,所述关系图包括节点和边,所述节点为所述语境特征和登记词,具有直接关系的所述节点通过所述边进行连接,所述边的值为具有直接关系的两节点间的距离;
获取所述候选词组中初分词对应的登记词节点与所述语境特征节点间的所有连接路径,计算每一所述连接路径上所有边的值的和,其中最小和为关联距离;
根据所述关联距离计算关联度。
4.根据权利要求1所述的方法,其特征在于,对所述报价词组中每一报价词进行词性标注,包括步骤:
针对所述报价词组中每一报价词,在塑化产业词典中对所述报价词进行匹配,得到与所述报价词相同的塑化产业专用词,通过所述塑化产业专用词的词性对所述报价词进行词性标注;
根据歧义词典对所述报价词进行匹配,得到歧义词,所述歧义词典包括歧义词,每一所述歧义词对应有多个上下文-词性键值对;
获取所述歧义词在所述报价文本数据中的上下文,根据所述歧义词典获取所述歧义词的上下文对应的纠正词性;
通过所述纠正词性更新对应报价词的词性标注。
5.根据权利要求1所述的方法,其特征在于,对所述报价词组中每一报价词进行词性标注,包括步骤:
针对所述报价词组中每一报价词,提取所述报价词在所述报价文本数据中的上下文特征;
将所述报价词的向量表示与所述上下文特征拼接,得到拼接向量;
根据所述拼接向量进行词性预测,通过预测结果对所述报价词进行词性标注。
6.根据权利要求1所述的方法,其特征在于,根据所述报价特征数据匹配对应的解析语法,根据所述解析语法对所述最终报价词组进行解析,得到初步报价信息后,还包括步骤:
若所述初步报价信息中存在报价要素缺失,则获取所述报价资料的报价来源,根据所述报价来源获取所缺失的报价要素对应的来源默认值,通过所述来源默认值确定初步报价信息中缺失的报价要素。
7.根据权利要求1所述的方法,其特征在于,对所述报价文本数据进行标准化处理,包括步骤:
识别所述报价文本数据中的特定简写文本,对所述特定简写文本进行标准文本转换;
识别所述报价文本数据中的特定分隔符,根据所述特定分隔符对所述报价文本数据进行分割。
8.一种塑化产业报价结构化装置,其特征在于,包括:
标准化模块,用于获取报价资料,从所述报价资料中提取报价文本数据,并对所述报价文本数据进行标准化处理;
分词模块,用于对标准化处理后的所述报价文本数据进行分词,得到报价词组;
词性标注模块,用于对所述报价词组中每一报价词进行词性标注,得到报价特征数据;
语法解析模块,用于根据所述报价特征数据匹配对应的解析语法,根据所述解析语法对所述报价词组进行解析,得到初步报价信息;
结构化模块,用于将所述初步报价信息根据预设结构进行结构化,得到结构化报价信息。
9.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储可由所述处理器执行的计算机程序;
其中,所述处理器执行所述程序时实现权利要求1~7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1~7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310163474.7A CN116308635B (zh) | 2023-02-23 | 2023-02-23 | 塑化产业报价结构化方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310163474.7A CN116308635B (zh) | 2023-02-23 | 2023-02-23 | 塑化产业报价结构化方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116308635A true CN116308635A (zh) | 2023-06-23 |
CN116308635B CN116308635B (zh) | 2023-09-29 |
Family
ID=86789902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310163474.7A Active CN116308635B (zh) | 2023-02-23 | 2023-02-23 | 塑化产业报价结构化方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116308635B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569999A (zh) * | 2016-11-09 | 2017-04-19 | 武汉泰迪智慧科技有限公司 | 多粒度短文本语义相似度比较方法及*** |
CN106844741A (zh) * | 2017-02-13 | 2017-06-13 | 哈尔滨工业大学 | 一种面向特定领域的问题解答方法 |
CN109271493A (zh) * | 2018-11-26 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 一种语言文本处理方法、装置和存储介质 |
WO2019085236A1 (zh) * | 2017-10-31 | 2019-05-09 | 北京小度信息科技有限公司 | 检索意图识别方法、装置、电子设备及可读存储介质 |
CN113761900A (zh) * | 2021-09-08 | 2021-12-07 | 南方基金管理股份有限公司 | 基于自然语言处理的非结构化交易信息识别方法及*** |
CN113901840A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于多粒度特征的文本生成评价方法 |
CN114880447A (zh) * | 2022-05-13 | 2022-08-09 | 平安科技(深圳)有限公司 | 信息检索方法、装置、设备及存储介质 |
CN114997161A (zh) * | 2022-05-23 | 2022-09-02 | 河北省讯飞人工智能研究院 | 关键词抽取方法、装置、电子设备与存储介质 |
CN115186665A (zh) * | 2022-09-15 | 2022-10-14 | 北京智谱华章科技有限公司 | 一种基于语义的无监督学术关键词提取方法及设备 |
CN115374242A (zh) * | 2021-12-31 | 2022-11-22 | 杭州简测科技有限公司 | 面向非结构化合同订单的自定义字段和模板低代码*** |
-
2023
- 2023-02-23 CN CN202310163474.7A patent/CN116308635B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569999A (zh) * | 2016-11-09 | 2017-04-19 | 武汉泰迪智慧科技有限公司 | 多粒度短文本语义相似度比较方法及*** |
CN106844741A (zh) * | 2017-02-13 | 2017-06-13 | 哈尔滨工业大学 | 一种面向特定领域的问题解答方法 |
WO2019085236A1 (zh) * | 2017-10-31 | 2019-05-09 | 北京小度信息科技有限公司 | 检索意图识别方法、装置、电子设备及可读存储介质 |
CN109271493A (zh) * | 2018-11-26 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 一种语言文本处理方法、装置和存储介质 |
CN113761900A (zh) * | 2021-09-08 | 2021-12-07 | 南方基金管理股份有限公司 | 基于自然语言处理的非结构化交易信息识别方法及*** |
CN113901840A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于多粒度特征的文本生成评价方法 |
CN115374242A (zh) * | 2021-12-31 | 2022-11-22 | 杭州简测科技有限公司 | 面向非结构化合同订单的自定义字段和模板低代码*** |
CN114880447A (zh) * | 2022-05-13 | 2022-08-09 | 平安科技(深圳)有限公司 | 信息检索方法、装置、设备及存储介质 |
CN114997161A (zh) * | 2022-05-23 | 2022-09-02 | 河北省讯飞人工智能研究院 | 关键词抽取方法、装置、电子设备与存储介质 |
CN115186665A (zh) * | 2022-09-15 | 2022-10-14 | 北京智谱华章科技有限公司 | 一种基于语义的无监督学术关键词提取方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116308635B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781276A (zh) | 文本抽取方法、装置、设备及存储介质 | |
WO2021051560A1 (zh) | 文本分类方法和装置、电子设备、计算机非易失性可读存储介质 | |
CN111309915A (zh) | 联合学习的自然语言训练方法、***、设备及存储介质 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及*** | |
CN110555205B (zh) | 否定语义识别方法及装置、电子设备、存储介质 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN113076720A (zh) | 长文本的分段方法及装置、存储介质、电子装置 | |
CN113220854B (zh) | 机器阅读理解的智能对话方法及装置 | |
CN111159354A (zh) | 一种敏感资讯检测方法、装置、设备及*** | |
CN116522905B (zh) | 文本纠错方法、装置、设备、可读存储介质及程序产品 | |
CN116308635B (zh) | 塑化产业报价结构化方法、装置、设备及存储介质 | |
CN116306974A (zh) | 问答***的模型训练方法、装置、电子设备及存储介质 | |
CN116028608A (zh) | 问答交互方法、装置、计算机设备及可读存储介质 | |
CN115730071A (zh) | 电力舆情事件的抽取方法、装置、电子设备及存储介质 | |
CN116976341A (zh) | 实体识别方法、装置、电子设备、存储介质及程序产品 | |
CN112732743B (zh) | 一种基于中文自然语言的数据分析方法及装置 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
CN111488737B (zh) | 文本识别方法、装置及设备 | |
CN114691907A (zh) | 一种跨模态检索的方法、设备及介质 | |
CN114065762A (zh) | 一种文本信息的处理方法、装置、介质及设备 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN113962196A (zh) | 一种简历处理方法、装置、电子设备及存储介质 | |
CN113536790A (zh) | 基于自然语言处理的模型训练方法及装置 | |
CN111723568A (zh) | 一种事件抽取方法、装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |