CN113536766B - 一种汽车维保记录的解析方法和装置 - Google Patents
一种汽车维保记录的解析方法和装置 Download PDFInfo
- Publication number
- CN113536766B CN113536766B CN202010302207.XA CN202010302207A CN113536766B CN 113536766 B CN113536766 B CN 113536766B CN 202010302207 A CN202010302207 A CN 202010302207A CN 113536766 B CN113536766 B CN 113536766B
- Authority
- CN
- China
- Prior art keywords
- original
- standard
- phrase
- verb
- grammar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 211
- 238000004458 analytical method Methods 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000001914 filtration Methods 0.000 claims abstract description 16
- 239000012634 fragment Substances 0.000 claims description 30
- 238000003062 neural network model Methods 0.000 claims description 15
- 125000004122 cyclic group Chemical group 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims 3
- 230000008439 repair process Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000003973 paint Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000013049 sediment Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种汽车维保记录的解析方法和装置。一种汽车维保记录的解析方法包括:基于预设的对应关系将汽车维保记录中的无动词词组转换为对应的标准词组得到第一标准词组集合;过滤维保记录中的无动词词组;将过滤后的维保记录中的原始动词转换为对应的标准动词,将原始名词转换为对应的标准名词,按照预设的组合规则对标准动词和标准名词进行组合得到第二标准词组集合;基于语法关系,对过滤后的维保记录中的原始动词和原始名词进行组合得到原始词组,确定原始词组对应的标准词组得到第三标准词组集合;综合第一标准词组集合、第二标准词组集合和第三标准词组集合,确定所述维保记录的解析结果。本申请可以提高汽车维保记录解析的效率和准确度。
Description
技术领域
本申请涉及自然语言处理领域,特别涉及一种汽车维保记录的解析方法和装置。
背景技术
在二手车流通领域,为了使车辆更好地流通,一般需要对二手车的使用情况进行分析,一种常见的方法便是对车辆的维修保养记录(以下称为维保记录)进行分析。维保记录中涵盖了车辆的维修、养护相关内容,包含具体的维修、养护时间等等。但由于维保记录一般是由工作人员手动记录的,不同的人对于同一事物的描述很可能是不一样的,这就导致维保记录内容口语化严重、不统一,给解析维保记录带来了一定难度。
现有技术中,一方面可以由工作人员人工解析维保记录,这样解析的准确度较高,但效率较低,无法满足实际需求。另一方面,可以事先定义好一系列的文本描述,在解析时将维保记录中的内容与预先定义好的文本描述进行匹配,若匹配成功,则能输出对应的解析结果。这种方法相比于人工解析,可以提高解析效率,但由于无法穷尽实际情况中所有可能的不规范描述,因此往往解析的准确度不高。
发明内容
有鉴于此,本申请提供一种汽车维保记录的解析方法和装置。
具体地,本申请是通过如下技术方案实现的:
一种汽车维保记录的解析方法,包括:
基于预设的对应关系,将汽车维保记录中的无动词词组转换为对应的标准词组,得到第一标准词组集合,所述标准词组由标准动词和标准名词组成;
过滤所述维保记录中的所述无动词词组;
将过滤后的维保记录中的原始动词转换为对应的标准动词,将原始名词转换为对应的标准名词,按照预设的组合规则对所述标准动词和标准名词进行组合,得到第二标准词组集合;
基于语法关系,对过滤后的维保记录中的原始动词和原始名词进行组合,得到原始词组,确定所述原始词组对应的标准词组,得到第三标准词组集合,其中,所述原始词组由原始动词和原始名词组成;
综合所述第一标准词组集合、第二标准词组集合和第三标准词组集合,确定所述维保记录的解析结果。
一种汽车维保记录的解析装置,包括:
第一标准词组集合确定单元,用于基于预设的对应关系,将汽车维保记录中的无动词词组转换为对应的标准词组,得到第一标准词组集合,所述标准词组由标准动词和标准名词组成;
过滤单元,用于过滤所述维保记录中的所述无动词词组;
第二标准词组集合确定单元,用于将过滤后的维保记录中的原始动词转换为对应的标准动词,将原始名词转换为对应的标准名词,按照预设的组合规则对所述标准动词和标准名词进行组合,得到第二标准词组集合;
第三标准词组集合确定单元,用于基于语法关系,对过滤后的维保记录中的原始动词和原始名词进行组合,得到原始词组,确定所述原始词组对应的标准词组,得到第三标准词组集合,其中,所述原始词组由原始动词和原始名词组成;
解析结果确定单元,用于综合所述第一标准词组集合、第二标准词组集合和第三标准词组集合,确定所述维保记录的解析结果。
一种汽车维保记录的解析装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与汽车维保记录的解析逻辑对应的机器可执行指令,所述处理器被促使:
基于预设的对应关系,将汽车维保记录中的无动词词组转换为对应的标准词组,得到第一标准词组集合,所述标准词组由标准动词和标准名词组成;
过滤所述维保记录中的所述无动词词组;
将过滤后的维保记录中的原始动词转换为对应的标准动词,将原始名词转换为对应的标准名词,按照预设的组合规则对所述标准动词和标准名词进行组合,得到第二标准词组集合;
基于语法关系,对过滤后的维保记录中的原始动词和原始名词进行组合,得到原始词组,确定所述原始词组对应的标准词组,得到第三标准词组集合,其中,所述原始词组由原始动词和原始名词组成;
综合所述第一标准词组集合、第二标准词组集合和第三标准词组集合,确定所述维保记录的解析结果。
本申请所述汽车维保记录的解析方法,可以先将汽车维保记录中的无动词词组解析为对应的标准词组,得到第一标准词组集合;然后将过滤所述无动词词组后的维保记录中的原始动词转换为对应的标准动词,将原始名词转换为对应的标准名词,将所述标准动词和标准名词进行组合得到标准词组,得到第二标准词组集合;基于语法关系,将过滤后的维保记录中的原始动词和原始名词组合后得到原始词组,然后将原始词组转换为标准词组,得到第三标准词组集合。最后综合上述第一标准词组集合、第二标准词组集合、第三标准词组集合,得到汽车维保记录的解析结果。
本申请的方案,一方面,相比于现有技术中人工解析的方法,不需要花费大量的人力,解析的效率更高;另一方面,相比于现有技术中利用预先定义好的文本进行匹配的方法,能够将维保记录中存在的各式各样的不规范、口语化的描述,都解析为对应的标准描述,且解析的准确度大大提高。
附图说明
图1是本申请一示例性实施例示出的一种汽车维保记录的解析方法的流程示意图;
图2是本申请一示例性示出的一种汽车维保记录的解析装置的一结构示意图;
图3是本申请一示例性实施例示出的一种汽车维保记录的解析装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在二手车流通领域,通常需要掌握二手车的使用情况,例如二手车是否存在损伤、是否更换过零部件、使用年限等等,这些信息对客户购车、车商收车、车贷业务来说都十分重要。目前,一般可以通过汽车的维保记录来分析汽车的使用情况。汽车的维保记录中记载了车辆在整个生命周期内所进行的维修、保养相关信息,包含具体的维保内容、维保类型、维保材料、维保时间等等。通过对维保记录进行分析,能够全面、详细地掌握车辆的状况。
维保记录一般由工作人员手动记录,不同的人对于同一事物的描述很可能不一样,这就导致维保记录内容不统一、口语化严重。例如,针对“维修发动机”这一事实,维保记录中可能出现以下几种描述:“对发动机进行维修”、“修护发动机”、“检修发现发动机存在故障,已排除异常”等等。在这些描述中,有些描述可能过于冗长,增加了阅读时长,而有些描述可能过于简略,阅读时容易遗失有价值的信息。在实际情况中,还可能存在标点符号使用不规范、语法错误等等问题。总之,不规范、不统一的描述给维保记录的阅读和理解带来了困难。
基于此,本申请提供了一种汽车维保记录的解析方法,能够将不规范的维保记录解析为标准的形式。
首先,对本申请中涉及的一些概念进行说明。本申请中,存在原始名词、原始动词、标准名词、标准动词,以及原始词组和标准词组,分别指的是:
1、原始名词:维保记录中出现的汽车部件(名词),同一个部件可能有多种不同的叫法,比如汽车的翼子板又可称为叶子板。
2、原始动词:维保记录中出现的汽车维修、保养相关的操作(动词),同一个操作可能有多种不同的叫法,比如维修和修理。
3、原始词组:将维保记录中的原始动词和原始名词进行组合得到的词组,原始词组中包括一个原始动词和一个原始名词,比如维修翼子板。当然,也可以更换词组中原始动词和原始名词的先后顺序,即翼子板维修也可以是原始词组。
4、标准名词:同一汽车部件可能有多种不同的叫法,将其中的一个叫法确定为标准名词。标准名词可以是汽车行业对汽车部件最常见的叫法。
5、标准动词:同一个维保操作可能有多种不同的叫法,将其中一个维保操作的叫法确定为标准叫法。标准动词可以是汽车行业对车辆部件维修、养护相关操作最常见的叫法。
6、标准词组:将标准动词和标准名词进行组合得到的词组,标准词组中包括一个标准动词和一个标准名词。当然,标准词组中也不限制标准动词、标准名词的先后顺序。
事实上,汽车维保记录中除了表示汽车部件的原始名词外,还可能存在一些其他的名词,比如“我”、“上午”等等,但本申请中只将表示汽车部件的名词作为原始名词。当然,汽车维保记录中也可能存在一些和汽车维保操作不相关的动词,类似的,本申请中也只将和汽车维保操作相关的动词作为原始动词。
下面对本申请提供的一种汽车维保记录的解析方法进行详细说明。
图1是本申请一示例性实施例示出的一种汽车维保记录的解析方法的流程示意图。
所述汽车维保记录的解析方法可以应用于服务器或服务器集群。
请参考图1,所述汽车维保记录的解析方法可以包括以下步骤:
步骤102,基于预设的对应关系,将汽车维保记录中的无动词词组转换为对应的标准词组,得到第一标准词组集合,所述标准词组由标准动词和标准名词组成。
步骤104,过滤所述维保记录中的所述无动词词组。
本申请中,获取了汽车的维保记录后,在对所述维保记录进行解析之前,可以先对所述维保记录进行文本预处理。
例如,可以过滤掉维保记录中的数字、字母、空格等。
再例如,可以将维保记录中的英文标点符号转换为对应的中文标点符号。若维保记录中存在括号,且括号中存在中文汉字和标点符号,则将括号中标点符号删除。
除上述方法之外,还可以采用其他的方式对维保记录进行文本预处理,具体方法可参考现有技术,本申请在此不再赘述。
对维保记录进行文本预处理之后,需要将维保记录中不规范的词组转换为对应的标准形式。在一些情况下,这些不规范的词组中可能不存在动词,本申请中将其称为无动词词组,需要将这些无动词词组也转换为对应的标准词组。
比如无动词词组可以为:底板有泥沙、底板存在水印、底板有故障,这些无动词词组中的车辆部件均为“底板”,维保相关操作可以统一为“维修”,则上述无动词词组均可以统一地转换为标准词组“底板维修”。
本申请中,可以基于预设的对应关系,将维保记录中的无动词词组转换为对应的标准词组。
在实际情况中,可以通过下述方法确定所述对应关系:
例如,可以对一些维保记录进行分析,收集这些维保记录中出现的无动词词组,然后为每个无动词词组规定其对应的标准词组,则可以得到无动词词组和标准词组的对应关系。
当然,也可以人为地向所述对应关系中添加无动词词组和对应的标准词组,本申请对此不作特殊限制。
获取了上述对应关系后,就可以基于所述对应关系,将维保记录与所述对应关系进行匹配,若维保记录中存在所述对应关系中的无动词词组,则可以确定所述无动词词组对应的标准词组,将所述标准词组归入第一标准词组集合。
本申请中,将维保记录中的无动词词组解析得到对应的标准词组后,则可以过滤维保记录中的所述无动词词组,对过滤后的维保记录作后续的解析。
下面以一个具体的例子来说明步骤102和步骤104的具体实现方法:
本例中,所述无动词词组和标准词组的对应关系可以key和value的形式存在。即可以将key设为无动词词组,将value设为对应的标准词组。比如,可以将key设为“底板有泥沙”,将value设为“底板维修”。基于同样的方法,每个无动词词组及其对应的标准词组都可以转换为key和value的形式。
在对维保记录进行解析时,可以对每一个key进行遍历,针对每一个key所指的无动词词组,判断其是否出现在维保记录中,若出现,则可以把当前key所指的无动词词组从维保记录中删除,将当前key对应的value所指的标准词组归入第一标准词组集合;若未出现,则遍历下一个key,直到所有key遍历完成。这样就可以得到第一标准词组集合和过滤后的维保记录。
本申请步骤102中,需要将维保记录中的无动词词组解析成对应的标准词组,这是由于无动词词组中不存在动词,其在实际情况下存在各种各样的形式,例如“底板存在水印”、“底板有泥沙”等等,这些无动词词组往往不容易被解析出来,但也具有汽车维保相关的关键信息,因此为了避免遗漏这些关键信息,可以将这些无动词词组单独地识别出来。
步骤106,将过滤后的维保记录中的原始动词转换为对应的标准动词,将原始名词转换为对应的标准名词,按照预设的组合规则对所述标准动词和标准名词进行组合,得到第二标准词组集合。
本申请中,在步骤106之前,可以先对过滤后的维保记录进行拆分,得到若干个文本片段。例如,可以标点符号为分隔,将过滤后的维保记录拆分为若干个文本片段。
针对每一个文本片段,可以对所述文本片段进行分词处理,将所述文本片段转换为一个词的列表。然后针对每个文本片段对应的词的列表,将列表中的原始名词转换为对应的标准名词,将原始动词转转为对应的标准动词。分词的方法参照现有技术,本申请在此不再赘述。
本申请中,可以预先构建原始动词和标准动词的对应关系、原始名词和标准名词的对应关系,然后基于上述两个对应关系,将所述文本片段对应的词的列表中的原始动词转换为对应的标准动词,将原始名词转换为对应的标准名词。
具体地,原始动词和标准动词的对应关系、原始名词和标准名词的对应关系也可以key和value的形式存在。
例如,对于原始动词和标准动词的对应关系,可以将key设为原始动词,将value设为标准动词。类似的,对于原始名词和标准名词的对应关系,可以将key设为原始名词,将value设为标准名词。
在对过滤后的维保记录进行解析时,以将原始名词转换为标准名词为例,可以对每一个key进行遍历,针对每一个key所指原始名词,判断其是否出现在过滤后的维保记录中,若出现,则可以把当前key所指的原始名词替换为当前key对应的value所指的标准名词;若未出现,则遍历下一个key,直到所有key遍历完成,这样就可以将维保记录中的原始名词转换为标准名词。
类似的,将原始动词转换为标准动词的方法与上述方法类似,在此不再赘述。
本申请中,可以按照预设的组合规则,对所述标准动词和标准名词进行组合,得到第二标准词组集合。
仍以上述词的列表为例,将所述词的列表中的原始动词转换为标准动词、原始名词转换为标准名词后,针对每一个文本片段对应的词的列表,确定列表中标准动词和标准名词的数量,然后执行以下操作:
1.若所述词的列表中只有一个标准动词,但是存在多个标准名词,则可以将所述标准动词与存在的各个标准名词分别组合,得到标准词组。
例如,标准动词为“维修”,标准名词为“翼子板”、“车轮”、“前车门”,则组合后得到的标准词组为“维修翼子板”、“维修车轮”、“维修前车门”。
当然,也可以更换标准词组中的标准动词和标准名词的先后顺序,即得到的标准词组也可以为“翼子板维修”、“车轮维修”、“前车门维修”,本申请对此不作特殊限制。
2.若所述词的列表中只有一个标准名词,但是存在多个标准动词,则可以将所述标准名词与存在的各个标准动词分别组合,得到标准词组。
例如,标准名词为“前车门”,标准动词为“更换”、“维修”、“喷漆”,则组合后得到的标准词组为“前车门更换”、“前车门维修”、“前车门喷漆”。
3.若所述词的列表中有多个标准名词和多个标准动词,则可以对所述词的列表进行遍历,若遍历到标准动词,则将标准动词与下一个遍历到的标准名词进行组合,若遍历到标准名词,则将标准名词与下一个遍历到的标准动词进行组合。
例如,假设某个文本片段对应的词的列表为{前车门,更换,维修,翼子板},则可以对上述词的列表从左至右进行遍历。
具体的,遍历得到第一个词为“前车门”,为标准名词,则将其与下一个遍历到的标准动词进行组合,下一个标准动词为“更换”,则组合得到标准词组为“前车门更换”。由于“更换”已经与“前车门”组合了,所以可将“更换”这个标准动词从遍历序列中删除,然后继续遍历,遍历得到的下一个词为“维修”,为标准动词,将其与下一个遍历到的标准名词进行组合,下一个遍历的标准名词为“翼子板”,则组合后得到标准词组为“维修翼子板”。同样的,由于“翼子板”已经与“维修”组合了,所以可将“翼子板”从遍历序列中删除。也就是说,文本片段中的每个词语都只遍历一次。当遍历完文本片段中的所有词语后,结束遍历。
在这种情况下,得到的标准词组为“前车门更换”、“维修翼子板”。
采用上述遍历方法,并对标准动词和标准名词进行组合,可以使得组合后得到的标准词组符合语意顺序。当然,在实际情况中,也可以按照实际需求选择其他组合方法,只需要将标准动词和标准名词组合得到标准词组即可,本申请对此不作特殊限制。
本申请中,得到标准词组后,可以将标准词组归入第二标准词组集合。
步骤108,基于语法关系,对过滤后的维保记录中的原始动词和原始名词进行组合,得到原始词组,确定所述原始词组对应的标准词组,得到第三标准词组集合,其中,所述原始词组由原始动词和原始名词组成。
本申请中,在步骤108执行之前,也可以先对过滤后的维保记录进行拆分,得到若干个文本片段,具体拆分方法可参照步骤106中的相关描述,在此不再赘述。
本申请中,可以对过滤后的维保记录进行语法分析,然后根据语法关系对所述过滤后的维保记录中的原始名词和原始动词进行组合。
在一个例子中,可以将过滤后的维保记录输入依存句法分析模型,通过所述依存句法分析模型输出的结果,确定过滤后的维保记录中原始名词、原始动词之间的语法关系。
以上述将过滤后的维保记录拆分为若干个文本片段为例进行说明,对于每一个文本片段,可以将其输入所述依存句法分析模型,所述依存句法分析模型具有分词功能,可以将所述文本片段拆分为若干个词,然后输出这些词之间的语法关系。
在实际情况中,由于过滤后的汽车维保记录中可能存在一些和汽车部件无关的名词,或者和维保操作无关的动词,因此这些词语相关的语法关系对本申请而言也是无意义的。基于此,本申请中可以指定一些语法关系,只对指定的语法关系进行分析,并且将存在指定语法关系的词认为是原始动词和原始名词。所述指定语法关系可以为主谓关系、动宾关系、宾语前置关系、并列关系等等。
例如,一个文本片段为“修理完了汽车的前车门、车轮、叶子板;对车顶、后车门作了更换”,则可将上述文本片段输入依存句法分析模型,模型的输出结果可以为:
存在动宾关系:“修理”和“前车门”;
与动宾关系中的“前车门”存在并列关系的有:“车轮”和“叶子板”;
存在宾语前置关系:“更换”和“后车门”;
与宾语前置关系中的“后车门”存在并列关系的有:“车顶”;
存在动补关系:“维修”和“完”。
当然,在实际情况中,依存句法分析模型输出的语法关系还可以为主谓关系等其他语法关系。
本例中,可以根据依存句法分析模型输出的结果,遍历每一个输出的指定语法关系(非并列关系),找到当前指定语法关系中存在并列关系的原始名词,并将这些原始名词分别与当前指定语法关系中的原始动词进行组合;找到当前指定语法关系中存在并列关系的原始动词,并将这些原始动词分别与当前指定语法关系中的原始名词进行组合,组合后得到原始词组,原始词组中包括一个原始名词和一个原始动词。
仍以上述文本片段为例,遍历依存句法分析模型输出的语法关系,当遍历到动宾关系时,动宾关系是指定语法关系,继续后续的分析:存在动宾关系的原始动词和原始名词分别为“修理”和“前车门”,而存在与“前车门”为并列关系的原始名词“车轮”和“叶子板”,则将存在并列关系的“前车门”、“车轮”和“叶子板”分别与当前动宾关系中的原始动词“维修”进行组合,得到原始词组为:“修理前车门”、“修理车轮”和“修理叶子板”。
然后遍历到下一个语法关系,当遍历到宾语前置关系时,宾语前置关系是指定语法关系,继续后续的分析:存在宾语前置关系的原始动词和原始名词分别为“更换”和“后车门”,而存在与“后车门”为并列关系的原始名词“车顶”,则将存在并列关系的“后车门”和“车顶”分别与当前宾语前置关系中的原始动词“更换”进行组合,得到原始词组为:“更换后车门”和“更换车顶”。
然后遍历到下一个语法关系,当遍历到动补关系时,由于动补关系不是指定语法关系,则可以不对动补关系的词进行后续分析。
当遍历完所有语法关系后,结束遍历。上述文本片段遍历、组合后得到的原始词组为{修理前车门、修理车轮、修理叶子板、更换后车门、更换车顶}。
当然,若依存句法分析模型输出的结果中,不存在有并列关系的词语,则可以根据主谓关系、动宾关系、宾语前置关系等等对原始动词和原始名词进行组合。
例如,一个文本片段为“养护汽车的车轮”,则将上述文本片段输入依存句法分析模型,模型的输出结果可以为:
存在动宾关系:“养护”和“车轮”。
同样的,可以对模型输出的语法关系进行遍历,遍历到动宾关系时,动宾关系是指定语法关系,继续后续的分析:将存在动宾关系的原始动词“养护”和原始名词“车轮”进行组合,得到原始词组为“养护车轮”。
采用上述的方法,可以对每一个文本片段进行语法分析,并基于语法关系对文本片段中的原始动词和原始名词进行组合,得到原始词组。得到原始词组之后,需要将原始词组转换为对应的标准词组。
在一个例子中,可以基于步骤106中的原始名词和标准名词的对应关系、原始动词和标准动词的对应关系,将原始词组中的原始名词转换为标准名词,将原始动词转换为标准动词。
例如,原始词组为:“修理叶子板”,则可以根据原始动词和标准动词的对应关系,找到所述对应关系中原始动词“修理”对应的标准动词为“维修”。然后根据原始名词和标准名词的对应关系,找到所述对应关系中原始名词“叶子板”对应的标准名词为“翼子板”,则可以将原始词组中的原始动词、原始分词分别替换为标准动词和标准名词,得到标准词组“维修翼子板”。
由于实际情况下,可能存在各种各样的原始词组,原始词组中的原始动词和原始名词也是各种各样的,若采用原始动词和标准动词的对应关系、原始名词和标准名词的对应关系,对原始词组中的原始动词和原始名词进行转换,由于上述两个对应关系中无法穷尽实际情况下所有可能的原始动词和原始名词,因此往往是难以满足实际需求的。
在这种情况下,本申请中提出了还可以利用循环神经网络模型的方法,通过使用大量的样本数据对所述模型进行训练,则可以利用所述模型得到原始词组对应的标准词组。可参照下面的例子:
将原始词组输入预先构建的循环神经网络模型,根据所述循环神经网络模型输出的结果,确定对应的标准词组。
例如,所述循环神经网络模型可以为基于双向长短时记忆网络的Siamese模型,所述Siamese模型的训练样本为原始词组和标准词组,样本标签为原始词组和标准词组是否匹配。
假设输入Siamese模型的原始词组为“修理叶子板”,则Siamese模型输出的结果可以为:
标准词组“维修翼子板”的匹配度:90%;
标准词组“更换翼子板”的匹配度:60%。
则可以根据上述Siamese模型的输出结果得出,标准词组“维修翼子板”与原始词组“修理叶子板”的匹配度更高,则确定原始词组“修理叶子板”的标准词组为“维修翼子板”。
本例中,还可以预先设置一个匹配度的阈值,只有当匹配度达到阈值时,才确定对应的标准词组。
仍以上述例子为例,假设预设的匹配度阈值为85%,则上述Siamese模型输出的标准词组“维修翼子板”的匹配度为90%,超过了85%,则将“维修翼子板”作为原始词组“维修叶子板”的标准词组。
在实际情况中,若输入模型的词组是和汽车部件、汽车维保操作不相关的词组,则可以通过预先设置匹配度阈值的方法,将匹配度未达到所述阈值的词组丢弃,也能达到过滤不相关词组的目的。
当然,在其他例子中,还可以结合上述原始名词和标准名词的对应关系、原始动词和标准动词的对应关系和所述循环神经网络模型,将原始词组转换为对应的标准词组。
本申请中,将原始词组转换为对应的标准词组后,将所述标准词组归入第三标准词组集合。
值得说明的是,本申请中的步骤108可以在步骤106之后执行,也可以在步骤106之前执行,步骤108和步骤106还可以并行执行,本申请对此不作特殊限制。
本申请步骤108中,通过对过滤后的维保记录进行语法分析,然后基于语法关系对原始动词和原始名词进行组合,能够使得到的原始词组更符合语意,且能够避免遗漏诸如存在并列关系的词语,使其也能与存在指定语法关系的词语进行组合,使得维保记录中的解析结果更准确。
步骤110,综合所述第一标准词组集合、第二标准词组集合和第三标准词组集合,确定所述维保记录的解析结果。
本申请中,获取了第一标准词组集合、第二标准词组集合和第三标准词组集合后,需要对各个集合中的标准词组进行汇总,以确定维保记录的解析结果。
在一个例子中,可以对第一标准词组集合、第二标准词组集合和第三标准词组取并集,将所述并集中的标准词组作为维保记录的解析结果。
例如,第一标准词组集合中的标准词组为{维修翼子板、维修车门},第二标准词组集合中的标准词组为{更换车胎、维修翼子板、更换车顶},第三标准词组集合中的标准词组为{养护翼子板},则可以对上述三个标准词组集合取并集,删去重复的标准词组,得到最终的解析结果为{维修翼子板、维修车门、更换车胎、更换车顶、养护翼子板}。
本申请所述方案,可以先将汽车维保记录中的无动词词组解析为对应的标准词组,得到第一标准词组集合;然后将过滤所述无动词词组后的维保记录中的原始动词转换为对应的标准动词,将原始名词转换为对应的标准名词,将所述标准动词和标准名词进行组合得到标准词组,得到第二标准词组集合;基于语法关系,将过滤后的维保记录中的原始动词和原始名词组合后得到原始词组,然后将原始词组转换为标准词组,得到第三标准词组集合。最后综合上述第一标准词组集合、第二标准词组集合、第三标准词组集合,得到汽车维保记录的解析结果。
本申请的方案,相比于现有技术中人工解析的方法,不需要花费大量的人力,且解析的效率更高;相比于现有技术中利用预先定义好的文本进行匹配的方法,能够将维保记录中存在的各式各样的不规范、口语化的描述,都解析为对应的标准描述,且解析的准确度大大提高。
与前述汽车维保记录的解析方法的实施例相对应,本申请还提供了汽车维保记录的解析装置的实施例。
本申请汽车维保记录的解析装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图2所示,为本申请汽车维保记录的解析装置所在服务器的一种硬件结构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图3是本申请一示例性实施例示出的一种汽车维保记录的解析装置的框图。
请参考图3,所述汽车维保记录的解析装置300可以应用在前述图2所示的服务器中,包括有:第一标准词组集合确定单元310、过滤单元320、第二标准词组集合确定单元330、第三标准词组集合确定单元340、解析结果确定单元350。
其中,第一标准词组集合确定单元310,用于基于预设的对应关系,将汽车维保记录中的无动词词组转换为对应的标准词组,得到第一标准词组集合,所述标准词组由标准动词和标准名词组成;
过滤单元320,用于过滤所述维保记录中的所述无动词词组;
第二标准词组集合确定单元330,用于将过滤后的维保记录中的原始动词转换为对应的标准动词,将原始名词转换为对应的标准名词,按照预设的组合规则对所述标准动词和标准名词进行组合,得到第二标准词组集合;
第三标准词组集合确定单元340,用于基于语法关系,对过滤后的维保记录中的原始动词和原始名词进行组合,得到原始词组,确定所述原始词组对应的标准词组,得到第三标准词组集合,其中,所述原始词组由原始动词和原始名词组成;
解析结果确定单元350,用于综合所述第一标准词组集合、第二标准词组集合和第三标准词组集合,确定所述维保记录的解析结果。
可选的,所述将过滤后的维保记录中的原始动词转换为对应的标准动词,将原始名词转换为标准名词,包括:
将所述过滤后的维保记录拆分为若干个文本片段;
对每一个所述文本片段,执行以下操作:
基于预设的原始名词和标准名词的对应关系,将文本片段中的原始名词转换为对应的标准名词;
基于预设的原始动词和标准动词的对应关系,将文本片段中的原始动词转换为对应的标准动词。
可选的,所述按照预设的组合规则对所述标准动词和标准名词进行组合,包括:
对每一个所述文本片段,执行以下操作:
确定所述文本片段中存在的标准动词与标准名词的数量;
若存在一个标准名词和多个标准动词,则将所述标准名词和多个标准动词分别组合;
若存在一个标准动词和多个标准名词,则将所述标准动词和多个标准名词分别组合;
若存在多个标准动词和多个标准名词,则对所述文本片段进行遍历,
若遍历到标准动词,则将所述标准动词与下一个遍历到的标准名词进行组合,将已组合的所述标准名词从遍历序列中删除;
若遍历到标准名词,则将所述标准名词与下一个遍历到的标准动词进行组合,将已组合的所述标准动词从遍历序列中删除。
可选的,所述基于语法关系,对过滤后的维保记录中的原始动词和原始名词进行组合,得到原始词组,包括:
将所述过滤后的维保记录拆分为若干个文本片段;
对每一个所述文本片段,执行以下操作:
对所述文本片段进行语法分析,得到原始动词和原始名词之间的语法关系;
针对存在并列语法关系的每个原始动词,同与其存在指定非并列语法关系的原始名词进行组合,得到原始词组;
针对存在并列语法关系的每个原始名词,同与其存在指定非并列语法关系的原始动词进行组合,得到原始词组;
针对不存在并列语法关系的每个原始动词,同与其存在指定非并列语法关系的原始名词进行组合,得到原始词组;
针对不存在并列语法关系的每个原始名词,同与其存在指定非并列语法关系的原始动词进行组合,得到原始词组。
可选的,所述对所述文本片段进行语法分析,得到原始动词和原始名词之间的语法关系,包括:
将所述文本片段输入依存句法分析模型;
基于所述依存句法分析模型的输出结果,确定原始动词和原始名词的语法关系。
可选的,所述确定所述原始词组对应的标准词组,包括:
将所述原始词组输入预先构建的循环神经网络模型,得到对应的标准词组。
可选的,所述循环神经网络模型,包括:基于双向长短时记忆网络的Siamese模型。
可选的,所述解析结果确定单元,具体用于:
对所述第一集合、第二集合和第三集合取并集,得到所述解析结果。
可选的,所述指定非并列语法关系包括主谓关系、动宾关系和宾语前置关系。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述汽车维保记录的解析方法的实施例相对应,本说明书还提供一种汽车维保记录的解析装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与汽车维保记录的解析逻辑对应的机器可执行指令,所述处理器被促使:
基于预设的对应关系,将汽车维保记录中的无动词词组转换为对应的标准词组,得到第一标准词组集合,所述标准词组由标准动词和标准名词组成;
过滤所述维保记录中的所述无动词词组;
将过滤后的维保记录中的原始动词转换为对应的标准动词,将原始名词转换为对应的标准名词,按照预设的组合规则对所述标准动词和标准名词进行组合,得到第二标准词组集合;
基于语法关系,对过滤后的维保记录中的原始动词和原始名词进行组合,得到原始词组,确定所述原始词组对应的标准词组,得到第三标准词组集合,其中,所述原始词组由原始动词和原始名词组成;
综合所述第一标准词组集合、第二标准词组集合和第三标准词组集合,确定所述维保记录的解析结果。
可选的,在将过滤后的维保记录中的原始动词转换为对应的标准动词,将原始名词转换为标准名词时,所述处理器被促使:
将所述过滤后的维保记录拆分为若干个文本片段;
对每一个所述文本片段,执行以下操作:
基于预设的原始名词和标准名词的对应关系,将文本片段中的原始名词转换为对应的标准名词;
基于预设的原始动词和标准动词的对应关系,将文本片段中的原始动词转换为对应的标准动词。
可选的,在按照预设的组合规则对所述标准动词和标准名词进行组合时,所述处理器被促使:
对每一个所述文本片段,执行以下操作:
确定所述文本片段中存在的标准动词与标准名词的数量;
若存在一个标准名词和多个标准动词,则将所述标准名词和多个标准动词分别组合;
若存在一个标准动词和多个标准名词,则将所述标准动词和多个标准名词分别组合;
若存在多个标准动词和多个标准名词,则对所述文本片段进行遍历,
若遍历到标准动词,则将所述标准动词与下一个遍历到的标准名词进行组合,将已组合的所述标准名词从遍历序列中删除;
若遍历到标准名词,则将所述标准名词与下一个遍历到的标准动词进行组合,将已组合的所述标准动词从遍历序列中删除。
可选的,在基于语法关系,对过滤后的维保记录中的原始动词和原始名词进行组合,得到原始词组时,所述处理器被促使:
将所述过滤后的维保记录拆分为若干个文本片段;
对每一个所述文本片段,执行以下操作:
对所述文本片段进行语法分析,得到原始动词和原始名词之间的语法关系;
针对存在并列语法关系的每个原始动词,同与其存在指定非并列语法关系的原始名词进行组合,得到原始词组;
针对存在并列语法关系的每个原始名词,同与其存在指定非并列语法关系的原始动词进行组合,得到原始词组;
针对不存在并列语法关系的每个原始动词,同与其存在指定非并列语法关系的原始名词进行组合,得到原始词组;
针对不存在并列语法关系的每个原始名词,同与其存在指定非并列语法关系的原始动词进行组合,得到原始词组。
可选的,在对所述文本片段进行语法分析,得到原始动词和原始名词之间的语法关系时,所述处理器被促使:
将所述文本片段输入依存句法分析模型;
基于所述依存句法分析模型的输出结果,确定原始动词和原始名词的语法关系。
可选的,在确定所述原始词组对应的标准词组时,所述处理器被促使:
将所述原始词组输入预先构建的循环神经网络模型,得到对应的标准词组。
可选的,所述循环神经网络模型,包括:基于双向长短时记忆网络的Siamese模型。
可选的,在解析结果确定单元,所述处理器被促使:
对所述第一集合、第二集合和第三集合取并集,得到所述解析结果。
可选的,指定非并列语法关系包括主谓关系、动宾关系和宾语前置关系。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (6)
1.一种汽车维保记录的解析方法,其特征在于,所述方法包括:
基于预设的对应关系,将汽车维保记录中的无动词词组转换为对应的标准词组,得到第一标准词组集合,所述标准词组由标准动词和标准名词组成;
过滤所述维保记录中的所述无动词词组;
将过滤后的维保记录中的原始动词转换为对应的标准动词,将原始名词转换为对应的标准名词,按照预设的组合规则对所述标准动词和标准名词进行组合,得到第二标准词组集合;
基于语法关系,对过滤后的维保记录中的原始动词和原始名词进行组合,得到原始词组,确定所述原始词组对应的标准词组,得到第三标准词组集合,其中,所述原始词组由原始动词和原始名词组成;
综合所述第一标准词组集合、第二标准词组集合和第三标准词组集合,确定所述维保记录的解析结果;
所述基于语法关系,对过滤后的维保记录中的原始动词和原始名词进行组合,得到原始词组,包括:
将所述过滤后的维保记录拆分为若干个文本片段;
对每一个所述文本片段,执行以下操作:
对所述文本片段进行语法分析,得到原始动词和原始名词之间的语法关系;
针对存在并列语法关系的每个原始动词,同与其存在指定非并列语法关系的原始名词进行组合,得到原始词组;
针对存在并列语法关系的每个原始名词,同与其存在指定非并列语法关系的原始动词进行组合,得到原始词组;
针对不存在并列语法关系的每个原始动词,同与其存在指定非并列语法关系的原始名词进行组合,得到原始词组;
针对不存在并列语法关系的每个原始名词,同与其存在指定非并列语法关系的原始动词进行组合,得到原始词组;
所述对所述文本片段进行语法分析,得到原始动词和原始名词之间的语法关系,包括:
将所述文本片段输入依存句法分析模型;
基于所述依存句法分析模型的输出结果,确定原始动词和原始名词的语法关系;
所述确定所述原始词组对应的标准词组,包括:
将所述原始词组输入预先构建的循环神经网络模型,得到对应的标准词组;
所述循环神经网络模型,包括:基于双向长短时记忆网络的Siamese模型。
2.根据权利要求1所述方法,其特征在于,所述将过滤后的维保记录中的原始动词转换为对应的标准动词,将原始名词转换为标准名词,包括:
将所述过滤后的维保记录拆分为若干个文本片段;
对每一个所述文本片段,执行以下操作:
基于预设的原始名词和标准名词的对应关系,将文本片段中的原始名词转换为对应的标准名词;
基于预设的原始动词和标准动词的对应关系,将文本片段中的原始动词转换为对应的标准动词。
3.根据权利要求2所述方法,其特征在于,所述按照预设的组合规则对所述标准动词和标准名词进行组合,包括:
对每一个所述文本片段,执行以下操作:
确定所述文本片段中存在的标准动词与标准名词的数量;
若存在一个标准名词和多个标准动词,则将所述标准名词和多个标准动词分别组合;
若存在一个标准动词和多个标准名词,则将所述标准动词和多个标准名词分别组合;
若存在多个标准动词和多个标准名词,则对所述文本片段进行遍历,
若遍历到标准动词,则将所述标准动词与下一个遍历到的标准名词进行组合,将已组合的所述标准名词从遍历序列中删除;
若遍历到标准名词,则将所述标准名词与下一个遍历到的标准动词进行组合,将已组合的所述标准动词从遍历序列中删除。
4.根据权利要求1所述方法,其特征在于,所述综合所述第一标准词组集合、第二标准词组集合和第三标准词组集合,确定所述维保记录的解析结果,包括:
对所述第一标准词组集合、第二标准词组集合和第三标准词组集合取并集,得到所述解析结果。
5.一种汽车维保记录的解析装置,其特征在于,所述装置包括:
第一标准词组集合确定单元,用于基于预设的对应关系,将汽车维保记录中的无动词词组转换为对应的标准词组,得到第一标准词组集合,所述标准词组由标准动词和标准名词组成;
过滤单元,用于过滤所述维保记录中的所述无动词词组;
第二标准词组集合确定单元,用于将过滤后的维保记录中的原始动词转换为对应的标准动词,将原始名词转换为对应的标准名词,按照预设的组合规则对所述标准动词和标准名词进行组合,得到第二标准词组集合;
第三标准词组集合确定单元,用于基于语法关系,对过滤后的维保记录中的原始动词和原始名词进行组合,得到原始词组,
确定所述原始词组对应的标准词组,得到第三标准词组集合,其中,所述原始词组由原始动词和原始名词组成;
解析结果确定单元,用于综合所述第一标准词组集合、第二标准词组集合和第三标准词组集合,确定所述维保记录的解析结果;
所述基于语法关系,对过滤后的维保记录中的原始动词和原始名词进行组合,得到原始词组,包括:
将所述过滤后的维保记录拆分为若干个文本片段;
对每一个所述文本片段,执行以下操作:
对所述文本片段进行语法分析,得到原始动词和原始名词之间的语法关系;
针对存在并列语法关系的每个原始动词,同与其存在指定非并列语法关系的原始名词进行组合,得到原始词组;
针对存在并列语法关系的每个原始名词,同与其存在指定非并列语法关系的原始动词进行组合,得到原始词组;
针对不存在并列语法关系的每个原始动词,同与其存在指定非并列语法关系的原始名词进行组合,得到原始词组;
针对不存在并列语法关系的每个原始名词,同与其存在指定非并列语法关系的原始动词进行组合,得到原始词组;
所述对所述文本片段进行语法分析,得到原始动词和原始名词之间的语法关系,包括:
将所述文本片段输入依存句法分析模型;
基于所述依存句法分析模型的输出结果,确定原始动词和原始名词的语法关系;
所述确定所述原始词组对应的标准词组,包括:
将所述原始词组输入预先构建的循环神经网络模型,得到对应的标准词组;
所述循环神经网络模型,包括:基于双向长短时记忆网络的Siamese模型。
6.一种汽车维保记录的解析装置,其特征在于,所述装置包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与汽车维保记录的解析逻辑对应的机器可执行指令,所述处理器被促使:
基于预设的对应关系,将汽车维保记录中的无动词词组转换为对应的标准词组,得到第一标准词组集合,所述标准词组由标准动词和标准名词组成;
过滤所述维保记录中的所述无动词词组;
将过滤后的维保记录中的原始动词转换为对应的标准动词,将原始名词转换为对应的标准名词,按照预设的组合规则对所述标准动词和标准名词进行组合,得到第二标准词组集合;
基于语法关系,对过滤后的维保记录中的原始动词和原始名词进行组合,得到原始词组,确定所述原始词组对应的标准词组,得到第三标准词组集合,其中,所述原始词组由原始动词和原始名词组成;
综合所述第一标准词组集合、第二标准词组集合和第三标准词组集合,确定所述维保记录的解析结果;
所述基于语法关系,对过滤后的维保记录中的原始动词和原始名词进行组合,得到原始词组,包括:
将所述过滤后的维保记录拆分为若干个文本片段;
对每一个所述文本片段,执行以下操作:
对所述文本片段进行语法分析,得到原始动词和原始名词之间的语法关系;
针对存在并列语法关系的每个原始动词,同与其存在指定非并列语法关系的原始名词进行组合,得到原始词组;
针对存在并列语法关系的每个原始名词,同与其存在指定非并列语法关系的原始动词进行组合,得到原始词组;
针对不存在并列语法关系的每个原始动词,同与其存在指定非并列语法关系的原始名词进行组合,得到原始词组;
针对不存在并列语法关系的每个原始名词,同与其存在指定非并列语法关系的原始动词进行组合,得到原始词组;
所述对所述文本片段进行语法分析,得到原始动词和原始名词之间的语法关系,包括:
将所述文本片段输入依存句法分析模型;
基于所述依存句法分析模型的输出结果,确定原始动词和原始名词的语法关系;
所述确定所述原始词组对应的标准词组,包括:
将所述原始词组输入预先构建的循环神经网络模型,得到对应的标准词组;
所述循环神经网络模型,包括:基于双向长短时记忆网络的Siamese模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010302207.XA CN113536766B (zh) | 2020-04-16 | 2020-04-16 | 一种汽车维保记录的解析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010302207.XA CN113536766B (zh) | 2020-04-16 | 2020-04-16 | 一种汽车维保记录的解析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113536766A CN113536766A (zh) | 2021-10-22 |
CN113536766B true CN113536766B (zh) | 2024-04-12 |
Family
ID=78088471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010302207.XA Active CN113536766B (zh) | 2020-04-16 | 2020-04-16 | 一种汽车维保记录的解析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536766B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031143A (ja) * | 2004-07-13 | 2006-02-02 | Fuji Xerox Co Ltd | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム |
CN102163317A (zh) * | 2010-02-23 | 2011-08-24 | 通用汽车环球科技运作有限责任公司 | 用于确定车辆保修报告中出现的问题的文字提取 |
WO2018000272A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种语料生成装置和方法 |
CN108280201A (zh) * | 2018-01-29 | 2018-07-13 | 优信数享(北京)信息技术有限公司 | 一种车辆信息生成方法、装置及其*** |
CN108932342A (zh) * | 2018-07-18 | 2018-12-04 | 腾讯科技(深圳)有限公司 | 一种语义匹配的方法、模型的学习方法及服务器 |
CN110032643A (zh) * | 2019-04-02 | 2019-07-19 | 上海建工四建集团有限公司 | 一种建筑维修工单分析方法、装置、存储介质及客户端 |
CN110610007A (zh) * | 2019-09-20 | 2019-12-24 | 广州穗圣信息科技有限公司 | 基于nlp的维保车况智能识别方法及装置 |
CN110705301A (zh) * | 2019-09-30 | 2020-01-17 | 京东城市(北京)数字科技有限公司 | 实体关系抽取方法及装置、存储介质、电子设备 |
CN110765135A (zh) * | 2019-10-28 | 2020-02-07 | 深圳市元征科技股份有限公司 | 汽修资料结构标准化方法、装置及电子设备和存储介质 |
CN110895566A (zh) * | 2018-08-23 | 2020-03-20 | 优估(上海)信息科技有限公司 | 一种车辆评估方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10134013B2 (en) * | 2015-11-05 | 2018-11-20 | Snap-On Incorporated | Methods and systems for clustering of repair orders based on inferences gathered from repair orders |
-
2020
- 2020-04-16 CN CN202010302207.XA patent/CN113536766B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031143A (ja) * | 2004-07-13 | 2006-02-02 | Fuji Xerox Co Ltd | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム |
CN102163317A (zh) * | 2010-02-23 | 2011-08-24 | 通用汽车环球科技运作有限责任公司 | 用于确定车辆保修报告中出现的问题的文字提取 |
WO2018000272A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种语料生成装置和方法 |
CN108280201A (zh) * | 2018-01-29 | 2018-07-13 | 优信数享(北京)信息技术有限公司 | 一种车辆信息生成方法、装置及其*** |
CN108932342A (zh) * | 2018-07-18 | 2018-12-04 | 腾讯科技(深圳)有限公司 | 一种语义匹配的方法、模型的学习方法及服务器 |
CN110895566A (zh) * | 2018-08-23 | 2020-03-20 | 优估(上海)信息科技有限公司 | 一种车辆评估方法和装置 |
CN110032643A (zh) * | 2019-04-02 | 2019-07-19 | 上海建工四建集团有限公司 | 一种建筑维修工单分析方法、装置、存储介质及客户端 |
CN110610007A (zh) * | 2019-09-20 | 2019-12-24 | 广州穗圣信息科技有限公司 | 基于nlp的维保车况智能识别方法及装置 |
CN110705301A (zh) * | 2019-09-30 | 2020-01-17 | 京东城市(北京)数字科技有限公司 | 实体关系抽取方法及装置、存储介质、电子设备 |
CN110765135A (zh) * | 2019-10-28 | 2020-02-07 | 深圳市元征科技股份有限公司 | 汽修资料结构标准化方法、装置及电子设备和存储介质 |
Non-Patent Citations (4)
Title |
---|
Natural language processing of maintenance records data;Stenström Christer ET AL;International Journal of COMADEM;第18卷(第2期);33-37 * |
基于NLP的转向架故障信息处理***;李闻涛;罗敏;黄江山;;机电一体化(07);55-61 * |
支持汽车维修自动问答的案例匹配方法研究;张强;中国优秀硕士学位论文全文数据库 工程科技II辑(第1期);C035-908 * |
自动变速器故障信息抽取方法研究;鬲玲;李乘宇;敬石开;王宏君;陈金梁;;现代制造工程(11);47+147-152 * |
Also Published As
Publication number | Publication date |
---|---|
CN113536766A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359175B (zh) | 电子装置、诉讼数据处理的方法及存储介质 | |
CN110555372A (zh) | 数据录入方法、装置、设备及存储介质 | |
CN104503998B (zh) | 针对用户查询句的类型识别方法及装置 | |
CN107229627B (zh) | 一种文本处理方法、装置及计算设备 | |
CN110119353B (zh) | 测试数据生成方法、装置以及控制器和介质 | |
CN108345689B (zh) | 商标注册成功率查询方法、装置、商标注册方法、装置 | |
CN108363691A (zh) | 一种用于电力95598工单的领域术语识别***及方法 | |
CN111831920A (zh) | 用户需求分析方法、装置、计算机设备及存储介质 | |
CN107390896A (zh) | 一种输入法的词库管理方法及装置 | |
CN112951233A (zh) | 语音问答方法、装置、电子设备及可读存储介质 | |
CN113780418B (zh) | 一种数据的筛选方法、***、设备和存储介质 | |
CN102033866A (zh) | 用于校验化学名称的方法及*** | |
CN111488456A (zh) | 一种商家用户评价分析方法及*** | |
CN113536766B (zh) | 一种汽车维保记录的解析方法和装置 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
CN113609864B (zh) | 一种基于工业控制***的文本语义识别处理***及方法 | |
CN110083807B (zh) | 合同的修改影响自动预测方法、装置、介质及电子设备 | |
CN105786929A (zh) | 一种信息监测方法及装置 | |
CN112417851B (zh) | 文本纠错分词方法、***及电子设备 | |
CN110929502B (zh) | 一种文本检错方法及装置 | |
KR102118322B1 (ko) | 원문과 번역문 파일을 개별적으로 생성하는 문서 번역 서버 및 번역 방법 | |
CN111339756B (zh) | 一种文本检错方法及装置 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、***、电子设备及介质 | |
CN111178090A (zh) | 一种用于企业名称翻译的方法及*** | |
CN115543977B (zh) | 一种供水行业数据清洗方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |