CN102314483A - 使用基于本体的文本挖掘用于非结构化数据的知识提取方法 - Google Patents

使用基于本体的文本挖掘用于非结构化数据的知识提取方法 Download PDF

Info

Publication number
CN102314483A
CN102314483A CN2011101908195A CN201110190819A CN102314483A CN 102314483 A CN102314483 A CN 102314483A CN 2011101908195 A CN2011101908195 A CN 2011101908195A CN 201110190819 A CN201110190819 A CN 201110190819A CN 102314483 A CN102314483 A CN 102314483A
Authority
CN
China
Prior art keywords
word
maintenance
repair
section
symptom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101908195A
Other languages
English (en)
Other versions
CN102314483B (zh
Inventor
D.拉帕塔克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of CN102314483A publication Critical patent/CN102314483A/zh
Application granted granted Critical
Publication of CN102314483B publication Critical patent/CN102314483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供一种用于从车辆维护报告***中的维护修理逐字段中提取数据的方法。每个维护修理逐字段包括技术人员对于部件、与部件有关的症状以及与症状有关的修理行为的评述。每个维护修理逐字段包括涉及与至少一个车辆部件相关的识别问题的信息。提供诊断和预测本体数据库,所述诊断和预测本体数据库通过车辆部件分类、车辆部件子类分类和关系分类而构造,其中关系分类包括症状关系和行为关系。使用诊断和预测本体数据库来重构每个维护修理逐字段。从重构维护修理逐字段根据用户输入标准来提取信息的组合。确定在重构维护修理逐字段中提取的每个组合的频率。针对每种组合成簇维护修理逐字段。

Description

使用基于本体的文本挖掘用于非结构化数据的知识提取方法
技术领域
实施例总体上涉及质保维护修理数据的数据挖掘。
背景技术
典型文本挖掘工具使用简单搜索标准(例如,单项搜索)产生检索。许多当前的文本挖掘工具不能处理低劣写入的语句或非结构化维护修理数据,其包括不同类型的干扰,例如缩写维护修理信息、不完整的维护修理文本和拼错。此外,现有的工具不能从域数据识别异常情形,例如将相应劳动代码描述符(其包括用于确定与部件相关的故障的‘要确定的部件名称’和‘要采取的修理行为’)与用于识别错误匹配的相应报告劳动代码比较。因此,对于需要不止一个单项的检索,不能保证在维护修理逐字段(verbatim)中搜索项的组合在彼此之间具有精确关系。此外,除非所搜索的正确项显示在文档的每个不同组中,否则成簇维护修理技术人员逐字段(即,文档)以识别经常出故障的部件以及与这些部件相关的症状以及技术人员要采取的修理行为以确定故障可能是不完整的。这会导致挖掘数据且试图采取合适正确行为的本领域技术人员的不可见数据表示。
发明内容
实施例的优势在于产生可使用的数据,所述数据使得用户通过将相关维护修理文档成簇到一起来分析质保数据。文本挖掘工具以不同组合以及在所提取概念之间存在的关系来提取特定域信息。于是,所提取的信息被用于产生文档的分等级簇的三个不同组合,从而突出被用于确定故障的最常见类型的修理行为。三个簇组合的名称是:簇1,部件簇;簇2,部件-症状簇;以及簇3,部件-症状-行为簇。这些不同簇组合有助于本领域技术人员从不同角度可视化数据。
实施例构想出一种用于从车辆维护报告***中的维护修理逐字段中提取数据的方法。每个维护修理逐字段包括技术人员对于部件、与部件有关的症状以及与症状有关的修理行为的评述。维护修理逐字段从车辆维护报告***收集。每个维护修理逐字段包括涉及与至少一个车辆部件相关的识别问题的信息。提供诊断和预测本体数据库,所述诊断和预测本体数据库通过车辆部件分类、车辆部件子类分类和关系分类而构造,其中关系分类包括症状关系和行为关系。使用诊断和预测本体数据库来重构每个维护修理逐字段。从重构维护修理逐字段根据用户输入标准来提取信息的组合。确定在重构维护修理逐字段中提取的每个组合的频率。针对每种组合成簇维护修理逐字段。
本发明涉及下述技术方案。
1. 一种用于从车辆维护报告***的维护修理逐字段中提取数据的方法,每个维护修理逐字段包括技术人员对于部件、与部件有关的症状以及与症状有关的修理行为的评述,所述方法包括步骤:
从车辆维护报告***收集维护修理逐字段,每个维护修理逐字段包括涉及与至少一个车辆部件相关的识别问题的信息;
提供诊断和预测本体数据库,所述诊断和预测本体数据库通过车辆部件分类、车辆部件子类分类和关系分类而构造,其中关系分类包括症状关系和行为关系;
使用诊断和预测本体数据库来重构每个维护修理逐字段;
从重构维护修理逐字段根据用户输入标准来提取信息的组合;
确定在重构维护修理逐字段中提取的每个组合的频率;以及
针对每种组合成簇维护修理逐字段。
2. 根据技术方案1所述的方法,其中,重构每个维护修理逐字段包括将每个相应维护修理逐字段分离为一个或多个语句。
3. 根据技术方案2所述的方法,其中,重构每个维护修理逐字段包括识别在每个维护修理逐字段中的部件词、症状词和修理行为词。
4. 根据技术方案3所述的方法,其中,重构每个维护修理逐字段包括分段化,其中从每个维护修理逐字段移除无实质意义的用词、字符和空格符。
5. 根据技术方案4所述的方法,其中,通过移除无实质意义的用词来重构每个维护修理逐字段包括从维护修理逐字段移除至少一些结束字。
6. 根据技术方案5所述的方法,其中,被确定为症状一部分的结束字被保留在维护修理逐字段中。
7. 根据技术方案3所述的方法,其中,重构每个维护修理逐字段包括针对每个维护修理逐字段词干化症状词和修理行为词,其中词干化包括将症状词和修理行为词减少至其基本形式。
8. 根据技术方案3所述的方法,其中,重构每个维护修理逐字段包括将维护修理逐字段与诊断和预测本体数据库词汇匹配。
9. 根据技术方案3所述的方法,其中,词汇匹配包括应用启发式规则,用于识别被书写为维护修理逐字段中的字符串的诊断疑难代码。
10. 根据技术方案3所述的方法,其中,从重构维护修理逐字段提取信息的组合包括提取来自于维护逐字段的所识别部件词、症状词和修理行为词中的至少两项的组合。
11. 根据技术方案10所述的方法,其中,所提取的信息被提取为成对组合。
12. 根据技术方案10所述的方法,其中,所提取的信息被提取为三者组合。
13. 根据技术方案2所述的方法,其中,成簇维护修理逐字段包括形成至少一个基于部件的簇,其中相应基于部件的簇利用在每个维护修理逐字段内具有相应部件名称的维护修理逐字段被构造,其中包括相应部件名称的维护修理逐字段的索引被组群,以形成相应基于部件的簇。
14. 根据技术方案2所述的方法,其中,成簇维护修理逐字段包括形成至少一个部件-症状簇,其中相应部件-症状簇利用在每个维护修理逐字段内具有相应部件名称和相关症状的维护修理逐字段被构造,其中包括相应部件名称和相关症状的维护修理逐字段的索引被组群,以形成相应部件-症状的簇。
15. 根据技术方案14所述的方法,其中,在维护修理逐字段中将症状与部件名称相关包括下述步骤:
确定在维护修理逐字段内的语句边界,所述语句边界识别维护修理逐字段在何处被分离为一个或多个语句;
识别在维护修理逐字段的一个语句边界内的部件名称;
将部件名称设置为每个语句边界内的焦点项;
设置窗口,以包括到焦点项的左侧的相应数量项以及到焦点项部件的右侧的相应数量项;
确定相应症状是否显示在窗口内;以及
响应于显示在窗口内的相应症状来构造部件-症状关系。
16. 根据技术方案15所述的方法,其中,构造有效部件-症状关系还包括步骤:
确定多个症状是否显示在窗口中;
确定从在窗口中识别的每个症状至焦点项的距离;
选定在与焦点项最小距离处的症状;以及
使用最接近焦点项的症状来构造有效部件-症状关系。
17. 根据技术方案16所述的方法,其中,相应部件名称和相关症状的每种组合形成相应部件-症状簇。
18. 根据技术方案2所述的方法,其中,成簇维护修理逐字段包括形成至少一个部件-症状-行为簇,其中相应部件-症状-行为簇利用在每个维护修理逐字段中具有相应部件名称、相关症状以及相关修理行为的维护修理逐字段被构造,其中包括相应部件名称、相关症状以及相关修理行为的维护修理逐字段的索引被组群,以形成相应部件-症状-行为簇。
19. 根据技术方案18所述的方法,其中,将相应症状和相应修理行为与维护修理逐字段中的相应部件名称相关包括下述步骤:
确定在维护修理逐字段内的语句边界,所述语句边界识别维护修理逐字段在何处被分离为一个或多个语句;
识别在维护修理逐字段的一个语句边界内的部件名称;
将部件名称设置为每个语句边界内的焦点项;
设置窗口,以包括到焦点项的左侧的相应数量项以及到焦点项的右侧的相应数量项;
确定相应症状和相应修理行为是否显示在窗口内;以及
响应于显示在窗口内的相应症状和相应修理行为来构造部件-症状-行为关系。
20. 根据技术方案19所述的方法,其中,构造有效部件-症状-行为关系还包括步骤:
确定多个症状是否显示在窗口中;
确定从在窗口中识别的每个症状至焦点项的距离;
选定在与焦点项最小距离处的症状;
确定多个行为是否显示在窗口中;
设置选定症状作为下一焦点项;
确定从窗口内每个修理行为到下一焦点项的距离;
选择在与下一焦点项最小距离的修理行为;以及
使用所识别的部件名称、选定的症状以及选定的行为来构造部件-症状-行为关系。
21. 根据技术方案20所述的方法,其中,每个组合的部件名称、相关症状和相关修理行为形成相应部件-症状-行为簇。
22. 根据技术方案1所述的方法,还包括步骤:产生图形报告用于分析,所述图形报告将簇的维护修理逐字段放入到用户指定类目中。
附图说明
图1是本发明的文本挖掘***的框图。
图2是本发明的非结构化文本重构过程的框图。
图3是本发明的语义提取器的框图。
具体实施方式
在图1中示出了用于从存储在质保数据库报告***的质保数据库中的维护修理逐字段中单独或组合地文本挖掘部件项、症状项和行为项的架构的流程图。
质保数据库包括存储装置单元,其存储涉及车辆的问题和修理的信息。质保数据库优选地是中央数据库,其接收并汇编来自于各自制造商(例如,车辆制造商)的所有维护设施的维护修理逐字段。典型地,车辆维护设施确定问题的原因并且将预定劳动代码提交给质保数据库。所述劳动代码包括对于车辆实施的修理和被修理的部件的预定描述。该***还允许维修技术员输入维护检查、诊断和维护修理的细节。导致问题的部件、问题的描述以及实际修理可分别称为部件、症状和行为。在许多示例中,维修技术员所输入的维护修理逐字段的细节不必要匹配劳动代码描述所表示的。例如,部件症状逐字段可将修理行为“蓄电池被修理”表示作为{部件, 行为}组合。然而,所报告的劳动代码表示“蓄电池被置换”,但是维护技术员所报告的描述声明蓄电池被再充电。结果是,在数据中存在异常,其中所报告的劳动代码与维护技术员的输入不相关。此外,可存在这样的趋势,多个代理商或一个具体代理商如何提交质保要求。因此,在质保报告***中重要的是,准确地描述并报告故障部件是哪个、是什么问题以及什么是正确的修理行为。在每个域中正确描述会允许参阅质保数据的本领域技术人员容易地评估这种问题并且采用合适措施以相应地改正该问题。
在图1中,具体地在框10,从数据库产生文档语料库。文档语料库包括供应给所有车辆维护设施的质保报告数据库的维护修理逐字段的完整列表。维护修理逐字段通常是非结构化文本,意味着可能存在连续编排的语句,不存在分离语句的限定性定界符(例如,区别的标点符号)。此外,定界符可被错误地用在非结构化文本中,从而使得难以确定在维护修理逐字段中什么构成完整的语句。此外,维护修理逐字段包括不同类型的干扰,例如缩写的维护修理信息、不完整的维护修理文本以及拼错。
在框20,借助于以诊断和预测(D&P)本体30形式的特定域知识数据库来重构非结构化文本。D&P本体30被存储、交换并且可机器读取,使得其可在许多机动车应用域中被共享和再使用。在宽泛的结构中,D&P本体具有形式{C, Csubclass, RelCi>1}的结构,其中C代表例如部件(例如,车门、控制模块)的最高水平概念的类目。在D&P本体中每个“部件”概念包括基本词,其代表参考相应部件概念的最合适特定域。基本词差不多是词根,不同形式的基本词出现在维护修理逐字段中。例如,部件概念“电子制动器控制模块”可书写为“制动器控制模块”或“EBCM”。基本词使得分析数据的本领域技术人员语义清楚其中部件被记录在维护修理逐字段中的不同方式。
为了基于类概念被组织的进一步特征化来更好地区分类目,子类层级用Csubclass来表示。最后,在D&P域中两个或多个类之间存在的关系用RelCi>1来表示,因为有必要在类(部件)与实施在相应部件上的类(行为)之间建立关系。在概要中,D&P本体提供体系框架,以通过限定类、类之间的关系以及子类来形式化特定域知识,使得该标准化知识可在机动车的不同诊断应用中再使用。例如,在D&P本体中被包括的重要概念是部件、行为、逐字段、部件位置和劳动代码。形式化其中的特定域知识所需的在D&P本体中的一些主要关系包括但不局限于:部件具有一位置(部件,部件位置);在部件上所执行的行为(行为,部件);与部件相关的症状(症状,部件);行为矫正症状(行为,症状);以及行为具有劳动代码(行为,劳动代码)。
再次参考框20,在语料库文档内的每个维护修理逐字段上实施重构。重构包括分段化(断词)、结束字删除、词词干化以及词汇匹配。文档重构将每个维护修理逐字段格式化为具有容易识别词的合适语句结构,所述词可与在D&P本体数据库中的相关项匹配。
在框40中,执行语义提取。语义提取包括考虑用户指定需求从每个维护修理逐字段提取信息的不同组合的过程。所提取的信息从包括部件、症状和行为的不同组合获得。组合包括{部件, 症状}、{部件, 行为}、{症状, 行为}以及{部件, 症状, 行为}。在多种组合中提取信息允许终端用户构造维护修理逐字段的不同簇。结果是,通过构造组合数据的各种簇,极大地减少了疏漏信息。
在框50,在所提取的信息上实施以成簇形式的知识发现。成簇包括收集具有组群在一起的相关信息的维护修理逐字段。也就是说,包括用户所选择的提取语义的这些重构维护修理逐字段被索引并组群以形成簇。存在可构造的三种类型的簇:基于部件的簇;部件-症状簇;以及部件-症状-行为簇。
通过使用部件项作为输入特征来构造基于部件的簇。每个部件簇包括一个或多个维护修理逐字段,其包括用户指定部件的记录。也就是说,相应部件簇将具有在其中涉及用户所选择的识别部件的名称的维护修理逐字段。
通过使用部件和症状项作为输入特征来构造部件-症状簇,所述部件和症状项常常一起出现在数据中。每个部件-症状簇包括一个或多个维护修理逐字段,其中,具体部件与具体症状一起存在。相应部件-症状簇将具有包含具体部件名称和具体相关症状的维护修理逐字段。这使得本领域技术人员能够认识到连同症状在数据中显示的最常见部件。可使用具体部件和不同症状来构造多个簇。使用具体部件和不同簇的多个簇示例包括但不局限于{蓄电池没电}、{蓄电池无法使用}和{蓄电池泄漏}。
通过使用部件项、症状项和行为项作为输入特征来构造部件-症状-行为簇。每个部件-症状-行为簇包括一个或多个维护修理逐字段,其中,具体部件与具体症状和具体行为共同存在。相应部件-症状-行为簇将具有包含具体部件名称、与具体部件相关的具体症状、以及与具体症状相关的具体行为的维护修理逐字段。使用与在维护修理逐字段内的相关装置和相关修理行为共同发生的具体部件的多个簇的示例包括但不局限于{蓄电池没电再充电}、{蓄电池没电更换}和{蓄电池没电诊断}。
在步骤60中,结果被输出,用于供用户分析。用户可以是本领域技术人员、技术员、质保人员、工程师、现场维护人员和具有车辆技术知识的技术专员。输出结果可以按照图形内容的形式被产生(例如,帕累托(paretos)),以用于分析。帕累托提供用于分析被包括在频繁显示的{部件-症状-行为}情形中的维护中心的独特方法,所述维护中心以及时且成本有效的方式确定问题。同时,帕累托分析被用于识别其中修理未以及时且成本有效的方式被确定的相应维护中心。此外,帕累托可被构造成根据车辆生产日期和车辆生产年代来组群车辆的{部件-症状}、{症状-行为}和{部件-症状-行为}情形。如果存在在数据中频繁显示的具体车辆批次和型号,其中症状与机械部件(例如,发动机)相关,那么相应车辆被组装/制造的制造工厂还可绘制在帕累托中,以实现问题的起源。
图2描述了在维护修理逐字段中重构非结构化文本的框图。在框21中,通过将每个维护修理逐字段分流(如果需要的话,分流为不同语句)来启动文本重构。如前文所述,维护修理逐字段被潜在地输入作为非结构化文本,其中技术人员提供所面临问题的细节和解释、问题被如何诊断的解释以及推荐修理行为。技术人员可以结构化或非结构化格式自由地输入细节。在自然语言中,处理语句边界确定成为问题,在于必须确定那个语句开始和结束。为了确定语句边界,句号被用作语句定界符。与例如缩写的标点符号不同,为了确定句号当然表示语句边界,提出各种规则以将维护修理逐字段分流为语句,如下所述:
规则1 - 如果项记号连接到“句号”,所述“句号”之后是空格符,在空格符之后的后续项的第一字符是大写字母,例如“door. Fixed ...”,那么这种“句号”被认为是有效语句边界。
规则2 - 如果项记号连接到“句号”,那么其在车辆制造商所供应的标准缩写列表中被检查,以确保其是有效缩写,例如“PCM.”。如果有效缩写之后是空格符,且后续项的第一字母是大写字母,例如‘brkn. Fixed...’,那么句号被认为是有效的语句边界。
规则3 - 如果有效缩写连接到“句号”并且其在两侧上均有短语围绕,例如,“the door is brkn. so it is fixed”,那么“句号”被认为不是有效语句边界。
规则4 - 如果“句号”在其左侧连接到整数且在右侧在其间没有任何空格符,例如“0.5 olh is claimed”,那么“句号”被认为不是有效语句边界。
规则5a - 如果“句号”连接到字母,所述字母之后是另一字母而在其间没有任何空格符并且第二字母连接到句号,例如,“e.g.”,那么“句号”被认为是无效语句边界。
规则5b - 如果“句号”连接到字母,所述字母之后是连接到“句号”的第二字母而在其间没有任何空格符并且在第二“句号”之后不存在字符串,那么第二“句号”被认为是语句边界,例如“we have to meet at 5 p.m.”(语句的结束)。
上述规则可被修改以处理其它标点,其包括但不局限于:连字号(-);下划线(_);问号(?);叹号(!);冒号(:);以及分号(;)。
在框22,在维护修理逐字段被分离成相应语句之后,通过移除空格符同时考虑上述的常用定界符来实施分段化技术。
在框23,在执行分段化步骤之后,在维护修理逐字段内的结束字被删除。结束字在执行数据的自然语言处理时在数据中添加不必要的干扰。结束字包括但不局限于"a"、"an"、"the"、"who"、"www"、"because"和"becomes",它们被认为是非描述性的。然而应当理解的是,作为症状短语一部分的结束字不应被删除。因此,每个识别的症状短语针对结束字列表被检查。在结束字列表中被识别的作为症状短语一部分的结束字由结束字删除算法忽略。
在框24,所有的行为词/短语和症状词/短语被词干化。词干化词减少变形的词为其基本形式。然而,重要的是要理解,并非所有词干化的词对于词的语态学词根都相同。词干化的示例包括包含以不同语言学形式书写的症状的维护修理逐字段,例如"leaking"、leaked和"leaks"。词干化算法将所有这些不同形式减少为其基本项“leak”。
在框25中,应用词汇匹配技术,其中通过实施全字符数匹配,词干化行为和症状记号连同部件记号匹配来自于D&P本体中的对应概念的部件概念。在各种示例中,相同部件记号表示为不同语言变形(例如,"Powertrain Control Module"、"PC Module"和"PCM")。为了在部件记号之间消除歧义,词汇匹配技术将部件记号的每个语言变形匹配与D&P本体中的对应部件相关的相同基本词。由于相应症状记号具有多种含义(例如,记号TPS可表示'tank pressure sensor'和'tire pressure sensor'),因此词汇匹配技术提供用于识别症状的正确解释的独特方法。词汇匹配技术考虑到显示有症状记号的每种含义的相邻词。
词汇匹配技术首先构造所有可能的{症状i, 部件k}和{症状i, 行为l}对,其显示在维护修理逐字段中。于是进行检查以确定每种{症状i, 部件k}和{症状i, 行为l}对在维护修理逐字段的整个语料库中的频率,用于确定每对在语料库中出现的次数。
具有与症状一起出现的部件和行为的最多数量的症状记号(症状i)被处理为在维护修理逐字段内的正确症状指定内容。此外,实施独特的启发式规则以避免反复且费时的迭代以识别被写入维护修理逐字段中的字符串的诊断疑难代码。例如,症状部分数据库包含超过6000个诊断疑难代码(DTC),且在最坏的情形中,算法可需要执行6000次迭代以匹配用于维护修理逐字段中的DTC串。为了避免迭代的次数匹配字符数的DTC,诸如示例性启发式规则的启发式规则如下所述:实施“如果记号的第一字符是在“从a到z”的字符,且之后是在“从0到9”的数字,并且记号的长度是5个字符,那么记号被再形式化为DTC”。
图3描述了语义提取器的框图。在框41,提取过程通过提取部件项、症状项和行为项的不同组合来启动。被选择的不同组合的数量由用户指定需求来指示。语义提取器允许终端用户使用所提取的信息来构造维护修理逐字段的不同簇。语义提取器允许用户指定需要提取哪个重构信息。可提取不同的组合,例如三者组合、两者组合或单项。
框42表示语义提取为单项。也就是说,对于提取项,该项可被提取作为部件项、行为项或症状项。
框42表示语义提取为成对组合。对于所提取的成对组合,不同形式的组合可包括{部件, 行为}、{部件, 症状}和{行为, 症状}。
框44表示语义提取为三者组合。对于所提取的三者组合,提取所有三个项{部件, 症状, 行为}或其组合,例如{症状, 部件, 行为}、{行为, 症状, 部件}。
于是,所提取的项和/或组合被用于在框50中形成簇。应当理解的是,收集每个所提取项或组合的频率,用于识别在维护修理逐字段中频繁被引用的最大问题。
成簇被用于收集维护修理逐字段,其根据语义提取器所提取的项和组合而变化。本文所述的优势在于,成簇考虑在上文描述的频繁共同发生的组合。下述步骤被用于根据所提取的项和组合来成簇维护修理逐字段。
在步骤51中,语句边界被确定且维护修理逐字段被分流为不同语句。每个分流语句被分析以确定是否存在项和组合。
在步骤52,构造基于部件的簇。所提取的每个部件项与在每个维护修理逐字段中的每个语句比较。当匹配部件项时,维护修理逐字段的索引被收集并且被记录为簇的一部分。针对相应部件项记录的维护修理逐字段的所有收集索引形成相应簇。因此,每个部件项形成相应簇。
在步骤53中,构造部件-症状簇。所识别的部件项被设定为在每个分流语句中的焦点项。到焦点项左侧的固定数量词和到焦点项右侧的固定数量词形成窗口。下述两个步骤被用于形成成对簇。
在步骤53a中,如果单个症状显示在窗口中,那么构造成对的组合。从每个维护修理逐字段确定成对组合的频率,以查看成对组合的频率是否高于最小频率阈值。具有高于最小频率阈值的频率的成对组合被认为是有效成对组合{部件i, 症状j}。针对相应成对组合记录的所有维护修理逐字段的索引形成相应簇。
在步骤53b中,如果多个症状出现在窗口中,那么确定从部件项至每个症状的距离。最接近部件项的症状被选择,以与部件项构造部件组合{部件i, 症状j }。从每个维护修理逐字段来确定成对组合的频率,以查看成对组合的频率是否高于最小频率阈值。具有高于最小频率阈值的频率的成对组合被认为是有效成对组合。针对相应成对组合记录的所有维护修理逐字段的索引形成相应簇。
在步骤54,构造部件-症状-行为簇。焦点项(即,症状)在每个分流语句中被确定。到焦点项左侧的固定数量词和到焦点项右侧的固定数量词形成窗口。下述两个步骤被用于形成成对簇。
在步骤54a中,如果在窗口中出现单个行为,那么构造三者组合。从每个维护修理逐字段来确定三者组合的频率,以查看三者组合的频率是否高于最小频率阈值。具有高于最小频率阈值的频率的三者组合被认为是有效三者组合{部件i, 症状j, 行为k}。针对相应三者组合记录的所有维护修理逐字段的索引形成相应簇。
在步骤54b中,如果在窗口中出现多种行为,那么确定每个行为的症状的距离。最接近症状的行为被选择以与部件项和行为构造三者组合{部件i, 症状j, 行为k}。从每个维护修理逐字段来确定三者组合的频率,以查看三者组合的频率是否高于最小频率阈值。具有高于最小频率阈值的频率的三者组合被认为是有效三者组合。针对相应三者组合记录的所有维护修理逐字段的索引形成相应簇。
在执行成簇技术之后,可存在驻留在共享相同信息的两个分离簇中的文档(维护修理逐字段)。也就是说,由于一些项的类似限定意义,在不同簇中可存在维护修理逐字段的复制组。例如,包括部件-症状组合簇的簇1包含具有信息{无线电, 无法使用}的维护修理逐字段。包括部件-症状组合簇的簇2包含具有信息{激光磁盘播放器, 无法使用}的维护修理逐字段。在这种情形中,簇1和簇2包含涉及相同电子模块的大致相同信息。在这种情形中,该两个簇被合并为超簇(例如,簇3),其现包括与该电子模块相关的维护修理逐字段,使得本领域技术人员等接收与电子模块相关的问题的集成水平见解。
图形(例如,帕累托)分析可被产生,用于由本领域技术人员等进行分析。下述是可按照图形内容输出的搜索项或组合的示例。图形分析使得主题聚焦到项的具体组合上同时考虑到劳动代码,用于确定维护修理逐字段是否被正确地放入。例如,本领域技术人员可仅有兴趣参阅涉及部件簇的域数据,其可导致从数据库选择最频繁的再次出现部件(即,原因)。如果本领域技术人员有兴趣参阅与每个原因(即,部件)相关的常见相关症状(即,问题),那么产生帕累托分析。那么图形可产生,其显示成对组合,例如{蓄电池没电}、{蓄电池无法使用}和{蓄电池泄漏}。此外,本领域技术人员产生图形,其中相应簇由下述标准分离,所述标准包括但不局限于维护中心、生产日期、车辆型号和车辆批次。
虽然已经详细描述了本发明的一些实施例,但是本发明所属领域的技术人员将认识到用于实践本发明的由后述权利要求书限定的各种替代性设计和实施例。

Claims (10)

1. 一种用于从车辆维护报告***的维护修理逐字段中提取数据的方法,每个维护修理逐字段包括技术人员对于部件、与部件有关的症状以及与症状有关的修理行为的评述,所述方法包括步骤:
从车辆维护报告***收集维护修理逐字段,每个维护修理逐字段包括涉及与至少一个车辆部件相关的识别问题的信息;
提供诊断和预测本体数据库,所述诊断和预测本体数据库通过车辆部件分类、车辆部件子类分类和关系分类而构造,其中关系分类包括症状关系和行为关系;
使用诊断和预测本体数据库来重构每个维护修理逐字段;
从重构维护修理逐字段根据用户输入标准来提取信息的组合;
确定在重构维护修理逐字段中提取的每个组合的频率;以及
针对每种组合成簇维护修理逐字段。
2. 根据权利要求1所述的方法,其中,重构每个维护修理逐字段包括将每个相应维护修理逐字段分离为一个或多个语句。
3. 根据权利要求2所述的方法,其中,重构每个维护修理逐字段包括识别在每个维护修理逐字段中的部件词、症状词和修理行为词。
4. 根据权利要求3所述的方法,其中,重构每个维护修理逐字段包括分段化,其中从每个维护修理逐字段移除无实质意义的用词、字符和空格符。
5. 根据权利要求4所述的方法,其中,通过移除无实质意义的用词来重构每个维护修理逐字段包括从维护修理逐字段移除至少一些结束字。
6. 根据权利要求5所述的方法,其中,被确定为症状一部分的结束字被保留在维护修理逐字段中。
7. 根据权利要求3所述的方法,其中,重构每个维护修理逐字段包括针对每个维护修理逐字段词干化症状词和修理行为词,其中词干化包括将症状词和修理行为词减少至其基本形式。
8. 根据权利要求3所述的方法,其中,重构每个维护修理逐字段包括将维护修理逐字段与诊断和预测本体数据库词汇匹配。
9. 根据权利要求3所述的方法,其中,词汇匹配包括应用启发式规则,用于识别被书写为维护修理逐字段中的字符串的诊断疑难代码。
10. 根据权利要求3所述的方法,其中,从重构维护修理逐字段提取信息的组合包括提取来自于维护逐字段的所识别部件词、症状词和修理行为词中的至少两项的组合。
CN2011101908195A 2010-07-08 2011-07-08 使用基于本体的文本挖掘用于非结构化数据的知识提取方法 Active CN102314483B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/832142 2010-07-08
US12/832,142 US8489601B2 (en) 2010-07-08 2010-07-08 Knowledge extraction methodology for unstructured data using ontology-based text mining

Publications (2)

Publication Number Publication Date
CN102314483A true CN102314483A (zh) 2012-01-11
CN102314483B CN102314483B (zh) 2013-11-20

Family

ID=45372783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101908195A Active CN102314483B (zh) 2010-07-08 2011-07-08 使用基于本体的文本挖掘用于非结构化数据的知识提取方法

Country Status (3)

Country Link
US (1) US8489601B2 (zh)
CN (1) CN102314483B (zh)
DE (1) DE102011106550A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783950A (zh) * 2017-04-11 2018-03-09 平安医疗健康管理股份有限公司 药品说明书处理方法及装置
CN108351989A (zh) * 2015-11-05 2018-07-31 实耐宝公司 基于从修理单收集的推断的修理单的聚类的方法和***
CN108351997A (zh) * 2015-11-05 2018-07-31 实耐宝公司 基于多个修理指示符对修理单进行聚类的方法和***
CN108932333A (zh) * 2018-07-06 2018-12-04 弗兰威尔信息科技(苏州)有限公司 一种基于运营商平台的数据分析***
CN110232529A (zh) * 2019-06-21 2019-09-13 中国神华能源股份有限公司 管理车辆的零部件的方法和装置及机器可读存储介质
CN111382229A (zh) * 2018-12-28 2020-07-07 罗伯特·博世有限公司 用于汽车修理辅助的信息提取和检索的***和方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9886478B2 (en) * 2005-10-07 2018-02-06 Honeywell International Inc. Aviation field service report natural language processing
US20140258304A1 (en) * 2013-03-11 2014-09-11 GM Global Technology Operations LLC Adaptable framework for ontology-based information extraction
DE102013211726A1 (de) * 2013-06-20 2014-12-24 Robert Bosch Gmbh Informationssystem und Verfahren zum Auswählen und Wiedergeben von Informationen, insbesondere zum Einsatz im Werkstattbereich
US10109115B2 (en) * 2015-03-11 2018-10-23 GM Global Technology Operations LLC Modifying vehicle fault diagnosis based on statistical analysis of past service inquiries
WO2017119014A1 (en) 2016-01-08 2017-07-13 Nec Corporation Information processing apparatus, information processing method and computer-readable medium
JP6589704B2 (ja) * 2016-03-17 2019-10-16 日本電気株式会社 文境界推定装置、方法およびプログラム
US10068207B2 (en) * 2016-06-17 2018-09-04 Snap-On Incorporated Systems and methods to generate repair orders using a taxonomy and an ontology
US10692051B2 (en) 2017-02-08 2020-06-23 Snap-On Incorporated Method and system for displaying vehicle service information based on ordered group of information set identifiers
US10417269B2 (en) * 2017-03-13 2019-09-17 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for verbatim-text mining
US10325021B2 (en) 2017-06-19 2019-06-18 GM Global Technology Operations LLC Phrase extraction text analysis method and system
CN109189866A (zh) * 2018-08-22 2019-01-11 北京大学 一种构建装备故障诊断领域知识本体知识库的方法和***
WO2021026533A1 (en) * 2019-08-08 2021-02-11 Augmedix Operating Corporation Method of labeling and automating information associations for clinical applications
CN110717318B (zh) * 2019-10-10 2020-11-17 海南大学 意图驱动的适应竞争及合作意向的内容填充方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070185854A1 (en) * 2003-11-14 2007-08-09 Casebank Technologies Inc. Case-based reasoning system and method having fault isolation manual trigger cases
CN101583943A (zh) * 2005-12-12 2009-11-18 章勤 思维***及方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415395B1 (en) * 1999-04-02 2002-07-02 General Electric Company Method and system for processing repair data and fault log data to facilitate diagnostics
US6845374B1 (en) * 2000-11-27 2005-01-18 Mailfrontier, Inc System and method for adaptive text recommendation
US8200700B2 (en) * 2005-02-01 2012-06-12 Newsilike Media Group, Inc Systems and methods for use of structured and unstructured distributed data
US7949444B2 (en) * 2005-10-07 2011-05-24 Honeywell International Inc. Aviation field service report natural language processing
US20080228769A1 (en) * 2007-03-15 2008-09-18 Siemens Medical Solutions Usa, Inc. Medical Entity Extraction From Patient Data
US20110035094A1 (en) * 2009-08-04 2011-02-10 Telecordia Technologies Inc. System and method for automatic fault detection of a machine
US8930305B2 (en) * 2009-11-16 2015-01-06 Toyota Motor Engineering & Manfuacturing North America, Inc. Adaptive information processing systems, methods, and media for updating product documentation and knowledge base
US8219519B2 (en) * 2010-02-23 2012-07-10 GM Global Technology Operations LLC Text extraction for determining emerging issues in vehicle warranty reporting

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070185854A1 (en) * 2003-11-14 2007-08-09 Casebank Technologies Inc. Case-based reasoning system and method having fault isolation manual trigger cases
CN101583943A (zh) * 2005-12-12 2009-11-18 章勤 思维***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
辛惠娟等: "汽车发动机故障诊断专家***的开发研究", 《煤矿机械》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108351989A (zh) * 2015-11-05 2018-07-31 实耐宝公司 基于从修理单收集的推断的修理单的聚类的方法和***
CN108351997A (zh) * 2015-11-05 2018-07-31 实耐宝公司 基于多个修理指示符对修理单进行聚类的方法和***
CN107783950A (zh) * 2017-04-11 2018-03-09 平安医疗健康管理股份有限公司 药品说明书处理方法及装置
CN107783950B (zh) * 2017-04-11 2021-05-14 平安医疗健康管理股份有限公司 药品说明书处理方法及装置
CN108932333A (zh) * 2018-07-06 2018-12-04 弗兰威尔信息科技(苏州)有限公司 一种基于运营商平台的数据分析***
CN111382229A (zh) * 2018-12-28 2020-07-07 罗伯特·博世有限公司 用于汽车修理辅助的信息提取和检索的***和方法
CN110232529A (zh) * 2019-06-21 2019-09-13 中国神华能源股份有限公司 管理车辆的零部件的方法和装置及机器可读存储介质

Also Published As

Publication number Publication date
US20120011073A1 (en) 2012-01-12
DE102011106550A1 (de) 2012-01-12
US8489601B2 (en) 2013-07-16
CN102314483B (zh) 2013-11-20

Similar Documents

Publication Publication Date Title
CN102314483B (zh) 使用基于本体的文本挖掘用于非结构化数据的知识提取方法
US9886478B2 (en) Aviation field service report natural language processing
CN106445795B (zh) 一种数据库sql效率检测方法及装置
US20120233112A1 (en) Developing fault model from unstructured text documents
US7814111B2 (en) Detection of patterns in data records
US7020804B2 (en) Test data generation system for evaluating data cleansing applications
CN106557541A (zh) 用于产品故障检测的执行数据的自动分析的装置和方法
US8452774B2 (en) Methodology to establish term co-relationship using sentence boundary detection
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
Rajpathak et al. A domain-specific decision support system for knowledge discovery using association and text mining
US20170213222A1 (en) Natural language processing and statistical techniques based methods for combining and comparing system data
CN1950819B (zh) 检索信息的***和方法以及储存信息的***和方法
JP5146750B2 (ja) Ft図作成プログラム、ft図作成装置、記録媒体及びft図作成方法
US20070083300A1 (en) Aviation field service report natural language processing
CN104298683A (zh) 主题挖掘方法和设备、以及查询扩展方法和设备
CN111488314A (zh) 一种基于Python的仿真日志分析方法
CN102033866A (zh) 用于校验化学名称的方法及***
US20090265364A1 (en) Method and process for automatic generation of symptom codes from textual problem descriptions to enable problem classification, early warning trend prediction, and fast recall of prognostic/diagnostic solutions
CN112131344A (zh) 基于自动聚类技术的电力设备故障诊断方法及***
CN104298676A (zh) 主题挖掘方法和设备、以及查询扩展方法和设备
JP6022815B2 (ja) 構文解析を用いたソースコードの差分抽出方法およびシステム
US7225412B2 (en) Visualization toolkit for data cleansing applications
CN101425141B (zh) 图像识别装置和图像识别方法
JP5430989B2 (ja) オントロジー生成装置、及び方法
JP5487078B2 (ja) ソフトウェア資産整理方法及び装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant