CN114880455B - 一种三元组抽取方法、装置、设备及存储介质 - Google Patents

一种三元组抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114880455B
CN114880455B CN202210814378.XA CN202210814378A CN114880455B CN 114880455 B CN114880455 B CN 114880455B CN 202210814378 A CN202210814378 A CN 202210814378A CN 114880455 B CN114880455 B CN 114880455B
Authority
CN
China
Prior art keywords
column
key
data
question
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210814378.XA
Other languages
English (en)
Other versions
CN114880455A (zh
Inventor
谭昶
刘丹月
范磊
张友国
刘江
吕军
胡少云
陈士星
刘啸
陈敏军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Iflytek Information Technology Co Ltd
Original Assignee
iFlytek Co Ltd
Iflytek Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd, Iflytek Information Technology Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202210814378.XA priority Critical patent/CN114880455B/zh
Publication of CN114880455A publication Critical patent/CN114880455A/zh
Application granted granted Critical
Publication of CN114880455B publication Critical patent/CN114880455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种三元组抽取方法、装置、设备及存储介质,相较于传统的人工对行业知识材料进行三元组抽取,本申请将问答数据作为三元组抽取的基础数据,该问答数据作为一种非结构化数据是一种广泛的优质行业知识来源,更加容易被转换为三元组数据。在此基础上,本申请从问答数据中抽取关键片段,并进行聚类、确定类标签操作,基于此生成结构化数据表,该数据表的标题行包括各聚类簇的类标签,除标题行外的其余每一行对应一条问答文本,一行中每一类标签对应的列表格中包含从行对应的问答文本中抽取的属于类标签的关键片段。进一步基于结构化数据表提取三元组数据,实现三元组数据的自动化抽取,避免了人工抽取成本高、耗时长的问题。

Description

一种三元组抽取方法、装置、设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种三元组抽取方法、装置、设备及存储介质。
背景技术
知识图谱技术发展已经深入到了各垂直领域,行业数据也在从大规模数据到图谱化知识快速演变。知识图谱是行业认知智能化应用的基石,由此发展出的如智能客服、智能决策、智能营销等各类智能化服务,正带领行业进入认知发展的新纪元。
知识图谱的组织形式是有向图,其中图的节点表示实体或概念,图的边表示实体/概念之间的各种语义关系。在目前主要的文献中,知识图谱都被定义为“实体-关系-实体”和“实体-属性-属性值”的三元组集合。三元组在实体问答、实体推荐等各应用场景有着重要的作用。获得三元组数据是“自底向上”构建知识图谱最基础最重要的一个环节。
现有技术中,知识图谱的构建往往由业务专家来承担。尽管业务专家对业务资料的理解和领域知识的掌握远超图谱技术人员,但他们对知识图谱及概念层的理解和使用却有着较高的启动成本,可能需要图谱技术人员进行培训和讲解。这直接导致业务专家无法快速从自身业务知识中抽象组织归纳出满足应用需求的图谱本体层。这样的领域专家构建模式人力投入成本高,建设周期长。
发明内容
鉴于上述问题,提出了本申请以便提供一种三元组抽取方法、装置、设备及存储介质,以实现自动抽取三元组数据,解决人工抽取成本高,耗时长的问题。具体方案如下:
第一方面,提供了一种三元组抽取方法,包括:
获取问答数据,所述问答数据中包含多条问答文本;
从所述问答数据中抽取关键片段;
对各所述关键片段进行聚类,并确定每一聚类簇的类标签,所述类标签用于表征聚类簇中各关键片段的共同属性;
生成一结构化数据表,所述结构化数据表的标题行包括各聚类簇的类标签,除标题行外的其余每一行对应一条问答文本,不同行对应不同的问答文本,一行中每一类标签对应的列表格中包含从行对应的问答文本中抽取的属于类标签的关键片段;
基于所述结构化数据表,提取三元组数据。
优选地,对各所述关键片段进行聚类,包括:
确定每一所述关键片段的词向量矩阵,将各关键片段的词向量矩阵进行聚类。
第二方面,提供了一种三元组抽取装置,包括:
问答数据获取单元,用于获取问答数据,所述问答数据中包含多条问答文本;
关键片段抽取单元,用于从所述问答数据中抽取关键片段;
聚类单元,用于对各所述关键片段进行聚类,并确定每一聚类簇的类标签,所述类标签用于表征聚类簇中各关键片段的共同属性;
结构化数据表生成单元,用于生成一结构化数据表,所述结构化数据表的标题行包括各聚类簇的类标签,除标题行外的其余每一行对应一条问答文本,不同行对应不同的问答文本,一行中每一类标签对应的列表格中包含从行对应的问答文本中抽取的属于类标签的关键片段;
三元组提取单元,用于基于所述结构化数据表,提取三元组数据。
第三方面,提供了一种文本处理设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的三元组抽取方法的各个步骤。
第四方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的三元组抽取方法的各个步骤。
借由上述技术方案,相较于传统的人工对行业知识材料进行三元组抽取,本申请创造性的将问答数据作为三元组抽取的基础数据,其中,问答数据如各领域网站上以FAQ(Frequently Asked Questions,常见问题)的形式展示的数据,该问答数据作为一种非结构化数据是一种广泛的优质行业知识来源,基于其天然的一问一答、围绕一个中心讲述知识的形式特点,更加容易被转换为三元组数据。在此基础上,本申请从问答数据中抽取关键片段,并进行聚类、确定类标签操作,基于此生成结构化数据表,该数据表的标题行包括各聚类簇的类标签,除标题行外的其余每一行对应一条问答文本,不同行对应不同的问答文本,一行中每一类标签对应的列表格中包含从行对应的问答文本中抽取的属于类标签的关键片段。在将问答数据转换为结构化数据表之后,可以基于结构化数据表提取三元组数据,实现三元组数据的自动化抽取,避免了人工抽取成本高、耗时长的问题。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的三元组抽取方法的一流程示意图;
图2示例了一种对关键片段进行聚类的过程示意图;
图3示例了一种由分表A、B、C耦合在一起的结构化数据表示意图;
图4示例了一种结构化数据表赋值转换的过程示意图;
图5为本申请实施例提供的一种三元组抽取装置结构示意图;
图6为本申请实施例提供的三元组抽取设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种三元组抽取方案,可以基于已有知识数据自动化的进行三元组抽取,抽取的三元组数据可以作为知识图谱创建的基础。本申请的三元组抽取方案可以适用于各行业、领域。
本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。
接下来,结合图1所示,本申请的三元组抽取方法可以包括如下步骤:
步骤S100、获取问答数据,所述问答数据中包含多条问答文本。
其中,问答数据中包含多条问答文本,一条问答文本可以包括问题文本和对应的答案文本。
问答数据可以基于现有的知识源获取,示例如各领域网站上将行业知识以FAQ(Frequently Asked Questions,常见问题)的形式进行展示。FAQ又可以称为常见问题解答,或者帮助中心。FAQ页面是网站中一种常见的在线帮助方式,出色的FAQ页面可以使得访客和用户更加容易找到问题的答案。
问答数据作为一种非结构化数据是一种广泛的优质行业知识来源,基于其天然的一问一答、围绕一个中心讲述知识的形式特点,更加容易被转换为三元组数据。基于此,本步骤中获取问答数据,作为后续提取三元组数据的知识来源。
步骤S110、从所述问答数据中抽取关键片段。
具体地,关键片段可以是问答数据中的关键词、短语等。
步骤S120、对各所述关键片段进行聚类,并确定每一聚类簇的类标签。
可以理解的是,从问答数据中抽取出的各关键片段,其可能归属于不同的类型,示例如,某些关键片段属于地址,某些关键片段属于交通工具等等。为此,本步骤中对各关键片段进行聚类处理,可以得到多个聚类簇。同时,进一步确定每一聚类簇的类标签,其中,类标签用于表征聚类簇中各关键片段的共同属性。
步骤S130、生成一结构化数据表,所述结构化数据表的标题行包括各聚类簇的类标签,除标题行外的其余每一行对应一条问答文本。
上一步骤中通过对关键片段进行聚类,可以得到关键片段对应的一个以上的类标签。为了将问答数据转换为结构化数据表,本步骤中可以按照各关键片段所属的类标签进行划分。具体地,可以将各聚类簇的类标签作为结构化数据表的标题行,也即标题行中不同列填充不同的类标签。除标题行外的其余每一行对应一条问答文本。其中,不同行对应不同的问答文本,一行中每一类标签对应的列表格中包含从行对应的问答文本中抽取的属于类标签的关键片段。
需要说明的是,本申请中对结构化数据表的定义是由标题行和其它行组成,结构化数据表的行数可以不将标题行计算在内,所谓的结构化数据表的第一行可以理解为除去标题行后的其它行中的第一行。
按照本步骤的处理方式,可以将非结构化的问答数据转换为结构化的数据表,为后文提取三元组数据提供了基础。
步骤S140、基于所述结构化数据表,提取三元组数据。
具体地,结构化数据表为关系型数据表,因此在得到结构化数据表之后,可以采用映射的方式,按照表中不同元素间的映射关系,提取出三元组数据,示例如下述结构化数据表1:
表1
ID name addressID
287 浦东机场 18
209 新桥机场 NULL
通过映射可以得到如下三元组数据:
287-name-浦东机场;
209-name-新桥机场;
287-addressID-18。
相较于传统的人工对行业知识材料进行三元组抽取,本申请实施例中创造性的将问答数据作为三元组抽取的基础数据,该问答数据作为一种非结构化数据是一种广泛的优质行业知识来源,基于其天然的一问一答、围绕一个中心讲述知识的形式特点,更加容易被转换为三元组数据。在此基础上,本申请从问答数据中抽取关键片段,并进行聚类、确定类标签操作,基于此生成结构化数据表,该数据表的标题行包括各聚类簇的类标签,除标题行外的其余每一行对应一条问答文本, 不同行对应不同的问答文本,一行中每一类标签对应的列表格中包含从行对应的问答文本中抽取的属于类标签的关键片段。在将问答数据转换为结构化数据表之后,可以基于结构化数据表提取三元组数据,实现三元组数据的自动化抽取,避免了人工抽取成本高、耗时长的问题。
可以理解的是,在提取得到三元组数据之后,可以进一步基于该三元组数据,构建知识图谱。
在本申请的一些实施例中,对上述步骤S110,从所述问答数据中抽取关键片段的过程进行说明。
一种可选的方式下,本申请可以采用机器学习的方式进行关键片段的抽取,示例如采用预训练的关键片段标注模型,对问答数据进行关键片段的标注,进而得到问答数据中的关键片段。
除此之外,本申请进一步提供了另一种关键片段的抽取方式,即可以采用自然语言处理技术,首先对问答数据进行分词、词性标注及句法依存关系分析。在此基础上,可以基于分析后的句法依存关系、词性标注结果,从分词结果中确定关键片段。
其中,分词、词性标注及句法依存关系分析的过程,可以采用各种自然语言处理工具,示例如哈工大语言技术平台LTP,能够对问答数据进行分词、词性标注、句法依存关系分析等。
在得到分词结果、分析后的句法依存关系及词性标注结果之后,可以按照如下任意一种或多种方式确定关键片段:
1)、将修饰词与被修饰的名词及形容词组合起来,作为一个关键片段;
2)、将主谓关系中的主语作为一个关键片段;
3)、将数字及量词的组合作为一个关键片段;
4)、将顿号之间的片段作为一个关键片段。
在本申请的一些实施例中,对上述步骤S120,对各所述关键片段进行聚类,并确定每一聚类簇的类标签的过程进行说明。
在对关键片段进行聚类时,可以先将关键片段按照预训练词向量库转换为词向量矩阵,然后对各关键片段的词向量矩阵进行聚类。聚类时可以采用single-pass或其它聚类算法。
可选的,为了进一步确保聚类正确率,本申请方案在聚类后还可以提示用户对聚类结果进行检查,以及,响应用户修改操作,将聚类错误的关键片段移动到正确的类中。
示例如图2,其中左侧框内包含多个关键片段,经过聚类后可以得到四个聚类簇,如图2中右侧四个框,每一个框作为一个聚类簇。
在对关键片段进行聚类,得到若干个聚类簇之后,可以进一步确定每一聚类簇的类标签,该类标签用于表征聚类簇中各关键片段的共同属性。
本实施例中提供了几种确定聚类簇的类标签的可选实施方式:
第一种,
S1、确定每一关键片段在所属问答文本中的语义类型。
具体地,关键片段是从问答文本中抽取出来的,本步骤中可以先确定关键片段在所属问答文本中的语义类型。其中,关键片段的语义类型一般可以用问答文本中关键片段的关系词来表示。
对于每一关键词,可以在所属问答文本中查找关键片段的关系词,如果能够查找到关键片段的关系词,则将关系词作为关键片段的语义类型;若未能够查找到关键片段的关系词,则将关键片段的语义类型设置为空。
其中,在问答文本中查找关键片段的关系词的过程,可以按照如下任意一种方式查找关键片段的关系词:
1)在问答文本中查找介宾关系,若查找到的介宾关系中的宾语为关键片段,则将介宾关系中的介词,或介词及宾语后跟随的动词的组合,作为所述关键片段的关系词;
2)查找关键片段前的兼语作为关键片段的关系词;
3)查找动宾关系中的动词,作为宾语对应的关键片段的关系词;
4)查找主谓关系中的谓语,作为谓语后跟随的关键片段的关系词;
5)查找核心关系中的动词,作为后面跟随的关键片段的关系词;
6)查找动补结构中的补语和动词,将补语和动词组合,作为动词对应的关键片段的关系词。
示例如,下表2示例了一种问答文本,从该问答文本中提取的关键片段及对应的关系词如下表3:
表2
AA科技城有海鲜市场吗 有。AA渔港是我省南部地区规模最大的渔港,XXX港湾公司水产品直营店位于XX路物资仓库XX号铺面,可以买到无中间商经营的新鲜海鲜。
表3
关键片段 关系词
AA科技城
海鲜市场
AA渔港
我省南部地区规模最大的渔港
XXX港湾公司水产品直营店
XX路物资仓库XX号铺面 位于
无中间商经营的新鲜海鲜 买到
S2、基于每一聚类簇中各条关键片段的语义类型确定聚类簇的类标签。
具体地,上一步骤中已经得到了每条关键片段的语义类型。一个聚类簇中包含的各条关键片段的语义类型可能相同也可能不同,因此可以基于聚类簇中各关键片段的语义类型,来确定聚类簇的类标签。
一种可选的方式如,对于每一聚类簇,在聚类簇包含的各条关键片段的语义类型中选出众数对应的目标语义类型,作为聚类簇的类标签。
当然,若存在聚类簇无法选出众数,则可以生成一个随机数作为聚类簇的类标签。
可选的,为了进一步提升聚类簇的类标签的准确性,本申请方案在确定了聚类簇的类标签之后,还可以提示用户对类标签进行核对,以及,响应用户对不准确类标签的修改操作,将其修改为用户设定的类标签。
用户无需理解三元组抽取背后的算法逻辑,仅需要进行个别关键片段的确认,以及个别聚类簇的类标签的核对及修改操作,其工作量大大降低,并且不要求用户理解三元组及知识图谱知识,对用户专业要求也更低。
第二种,
在得到聚类后的各个聚类簇之后,可以向用户展示各聚类簇中的关键片段,进而获取用户定义的每一聚类簇的类标签。
相比于现有技术需要专业工作人员全程参与三元组的抽取,本实施例的方案仅需要用户对聚类簇进行类标签的定义,其人工工作量大大降低,并且无需用户了解三元组抽取的算法逻辑,对用户专业要求也更低。
在本申请的一些实施例中,提供了一种可选的生成结构化数据表的实现方式,具体可以包括:
S1、创建一空的结构化数据表;
S2、将各聚类簇的类标签依次排列到结构化数据表的标题行中各列;
S3、从结构化数据表的第一行开始向下遍历,对于当前遍历行,从问答数据中选取一条未被选取过的问答文本,并将从选取的问答文本中抽取的各关键片段,按照关键片段所属的类标签对应的列,填充至当前遍历行中对应列表格中,直至问答数据中不存在未被选取过的问答文本为止,得到最终的结构化数据表。
前文已经说明,本申请中对结构化数据表的定义是由标题行和其它行组成,结构化数据表的行数可以不将标题行计算在内,也即结构化数据表的第一行可以理解为除去标题行后的其它行中的第一行。
参照表4,其示例了一种问答文本中抽取的关键片段集合。
表4
问答文本 关键词集合
问答1 AA科技城、海鲜市场、AA渔港、我省南部地区规模最大的渔港、XX路物资仓库XX号铺面、买到无中间商经营的新鲜海鲜
问答2 AA海滩、下海游泳、公共浴场、救生员值岗、7:00-11:00,14:00-18:00、自行注意个人安全及保管好个人物品
问答3 AA科技城、菜市场、AA科技城第一农贸市场,XX路上XX小学斜对面
…… ……
对上述关键片段集合进行聚类,并确定的类标签包括以下几种:
“在”、“有”、“ID1298”、“特点是”、“位于”、“可提供”、“配置有”、“在..开发”、“需要注意”……。
则按照上述结构化数据表的生成方式,所生成的结构化数据表可以如下表5所示:
表5
ID1298 特点是 位于 可提供 配置有 在..开放 需要注意
AA科技城 海鲜市场 AA渔港 我省南部地区规模最大的渔港 XX路物资仓库XX号铺面 买到无中间商经营的新鲜海鲜
公共浴场 AA海滩 下海游泳 救生员值岗 7:00-11:00,14:00-18:00 自行注意个人安全及保管好个人物品
AA科技城 菜市场 AA科技城第一农贸市场 XX路上XX小学斜对面
…… …… …… …… …… …… …… …… …… ……
由上可知,结构化数据表中每一行对应一条问答文本中抽取出来的各个关键片段。以问答1为例,其中抽取出的各关键片段的所属的类标签分别为:“AA科技城”对应类标签为“在”;
“海鲜市场”对应类标签为“有”;
“AA渔港”对应类标签为“ID1298”;
“我省南部地区规模最大的渔港”对应类标签为“特定是”;
“XX路物资仓库XX号铺面”对应类标签为“位于”;
“买到无中间商经营的新鲜海鲜”对应类标签为“可提供”。
在本申请的一些实施例中,介绍基于结构化数据表提取三元组数据的过程。
一种可选的方式下,可以直接采用映射的方式,按照结构化数据表中不同元素间的映射关系,提取出三元组数据。
进一步地,考虑到某些场景下得到的结构化数据表可能是一个或多个单表耦合在一起的复杂宽表,如图4,图4示例了一种由分表A、B、C耦合在一起的结构化数据表。
每一张分表都对应一个中心主题,比如分表A表示场所和其他相关信息,分表B表示出行信息,分表C表示服务和服务方式、服务收费标准等信息。
为此本实施例中,首先对结构化数据表进行分表,得到至少一个分表,每一分表属于一个主题;基于每一分表,提取三元组数据。
在对结构化数据表进行分表时,考虑到同一个主题下的数据,不为孔的数据分布的列应该比较近似,比如以场所为主题的数据一般都有场所地址、场所类型、属于区域等,而不太可能在公交路线和交通出行方式等字段上有非空值。基于此,本申请可以选用空/非空标记每个表格数据,并对标记结果进行聚类。
进一步地,考虑到有一些字段在一个单独的分表中非常重要,比如场所名称,在场所主题下几乎所有行的场所名称字段都非空,且不重复,性质和作用类似数据库表中的主键。而有一些字段则相对次要,比如场所主题下的所属区域、场所介绍等。这些列即使处于相应主题下的分表中,值也有可能是空的,比如有些问答中的场所带有场所介绍信息,而其他大部分问答中则可能没有场所介绍信息,或者是,虽然有值但是重复率非常高,示例如,图3中区域这个字段,几乎所有的值都是同一值“AA科技城”。这些地位重要和相对次要的字段如果在聚类时不加以区分,则会影响聚类效果。因此,本实施例中可以确定为不同的列分配相应的权值。
本实施例中在确定各列的重要性时,基于两两列数据之间的变化跟随关系来区分重要列和次要列,示例如,如果某X列数据在其他所有列数据变化的情况下都不随之变化,则认为X列数据是重要列,反之,如果X列数据会跟随另一列数据的变化而变化,则认为X列数据为次要列。
本实施例中提供了一种对结构化数据表进行分表的具体处理过程,包括如下步骤:
S1、构建与结构化数据表O对应的目标矩阵D。
其中,所述目标矩阵D中的元素Dij与结构化数据表O中的元素Oij一一对应,且当Oij为空值时Dij为0,当Oij不为空值时Dij为1,其中,
Figure 57186DEST_PATH_IMAGE001
Figure 36644DEST_PATH_IMAGE002
,h为数据表O除标题行外的行数,p为数据表O的列数。
S2、基于结构化数据表O中两两列数据之间的变化跟随关系,确定其中的重要列和次要列。
其中,所述变化跟随关系表明其中一列数据在取不同值时另一列数据的取值是否跟随变化。
S3、为所述重要列分配第一权值,为所述次要列分配第二权值,第一权值大于第二权值。
示例如,第二权值为1,第一权值可以取大于1的整数。按照本案申请人的实验结果确定,当第一权值取值为4时,既能够保证主键的优势,也不会因为取值过大而影响算法正确性。
S4、基于各列对应分配的权值,对所述目标矩阵D进行加权处理,得到加权后矩阵
Figure 816381DEST_PATH_IMAGE003
具体地,各列对应的权值可以组成一个权值向量,将该权值向量与目标矩阵D相乘可以得到加权后矩阵
Figure 790020DEST_PATH_IMAGE004
S5、将加权后矩阵
Figure 604392DEST_PATH_IMAGE004
以行为单位进行聚类分析,得到若干个聚类簇。
具体地,可以将加权后矩阵
Figure 489172DEST_PATH_IMAGE004
按照设定聚类算法进行聚类分析,如采用kmeans聚类算法等,聚类个数按照样本轮廓系数silhouette score最优进行计算得到。
聚类后的每一聚类簇中,包含结构化数据表O中的一行或多行,每一行都存在对应的行号。
S6、对于每一聚类簇,按照聚类簇包含的各行号在所述结构化数据表O中拆分出对应行数据,并结合结构化数据表O的标题行组成一个分表。
在将结构化数据表拆分成一个以上的分表之后,可以基于每一分表提取三元组数据。
可选的,在基于分表提取三元组数据之前,本实施例中还可以进一步对分表进行处理,具体地:
对于每一分表,如果其中存在值全为空的列,则可以将此列在分表中删除。
以图3中分表A为例进行说明:
可知分表A中前3列及后5列值全部为空,则可以将分表A中的前3列及后5列全部删除。
再进一步地,在上述对分表进行空值列删除操作之后,可能会出现分表中存在值完全相同的行,为此,在对分表进行空值列删除操作后,还可以进一步以行为单位对各行去重,得到去重后的分表。后续可以基于去重后的分表提取三元组数据。
在本申请的一些实施例中,对上述S2,基于结构化数据表O中两两列数据之间的变化跟随关系,确定其中的重要列和次要列的过程进行说明,具体实现步骤可以包括:
S21、对于所述结构化数据表O中的每一列,将其中各关键片段去重,并为去重后每一关键片段赋予不同的数值,在结构化数据表O中将每一列中各关键片段按照对应的数值进行替换,得到替换后的数字表
Figure 756205DEST_PATH_IMAGE005
如图4所示,图4左图示例的一个结构化数据表O,对于第1列,将其中各关键片段去重后只有“A城镇上”和“AA科技城”,分别为两个关键片段赋值1和2。在
Figure 955105DEST_PATH_IMAGE005
中用1替代“A城镇上”,用2替代“AA科技城”。对于第2列及第3列,类似处理,最终得到替换后的数字表
Figure 686301DEST_PATH_IMAGE005
如图4中的右图。
S22、对
Figure 679665DEST_PATH_IMAGE005
中每列数据做一阶差分数列,得到每列数据对应的一阶差分数列
Figure 433994DEST_PATH_IMAGE006
Figure 233323DEST_PATH_IMAGE007
其中,n为一阶差分数列中元素的个数。
S23、对
Figure 756708DEST_PATH_IMAGE008
按照如下方式进行转换,得到转换后的数列
Figure 750334DEST_PATH_IMAGE009
如果
Figure 991960DEST_PATH_IMAGE010
,则令
Figure 267083DEST_PATH_IMAGE011
,如果
Figure 972871DEST_PATH_IMAGE012
,则令
Figure 308037DEST_PATH_IMAGE013
S24、对
Figure 99276DEST_PATH_IMAGE014
中两两列数据对应的转换后的数列
Figure 178090DEST_PATH_IMAGE015
进行求差,并基于差值结果确定
Figure 676068DEST_PATH_IMAGE016
中各列数据之间的变化跟随关系。
具体地,两列数据
Figure 510032DEST_PATH_IMAGE017
Figure 460670DEST_PATH_IMAGE018
之间,每行之间存在三种情况:
(1)
Figure 904027DEST_PATH_IMAGE019
,表示
Figure 256511DEST_PATH_IMAGE017
变化的时候
Figure 199060DEST_PATH_IMAGE018
随之变化,或,
Figure 699311DEST_PATH_IMAGE020
不变化的时候
Figure 119928DEST_PATH_IMAGE021
也没有变化;
(2)
Figure 592498DEST_PATH_IMAGE022
,表示
Figure 768264DEST_PATH_IMAGE017
变化的时候
Figure 693495DEST_PATH_IMAGE023
没有变化;
(3)
Figure 980120DEST_PATH_IMAGE024
,表示
Figure 41617DEST_PATH_IMAGE025
没有变化的时候
Figure 325967DEST_PATH_IMAGE023
发生了变化。
一旦两列数据的某行出现第3种情况,则说明
Figure 302276DEST_PATH_IMAGE023
列不跟随
Figure 330275DEST_PATH_IMAGE025
列变化。
S25、基于各列数据之间的变化跟随关系,将相对于其他所有列都没有跟随变化关系,且只有被跟随变化关系的列作为重要列,除重要列外的其余列作为次要列。
在本申请的一些实施例中,对基于分表提取三元组数据的过程进行说明,具体可以包括如下步骤:
S1、对于每一分表,在分表中查找列元素完全不重复的列作为主键列
Figure 511857DEST_PATH_IMAGE026
如果查找到多个列元素完全不重复的列,则可以从中随机选择一个作为主键列。或者是,在多个列元素完全不重复的列中,优先选择由文字元素组成的列,其次选取数字或符号元素组成的列。
在得到主键列之后,主键列中的元素作为三元组的头实体。
S2、基于所述主键列
Figure 763847DEST_PATH_IMAGE026
,按照如下方式生成三元组数据
Figure 663670DEST_PATH_IMAGE027
Figure 292098DEST_PATH_IMAGE028
其中,
Figure 593766DEST_PATH_IMAGE029
表示主键列
Figure 954340DEST_PATH_IMAGE030
中第i行数据,
Figure 403776DEST_PATH_IMAGE031
表示第j列的列名,
Figure 773577DEST_PATH_IMAGE032
表示分表中第i行第j列的数据,
Figure 664173DEST_PATH_IMAGE033
Figure 27939DEST_PATH_IMAGE034
为分表除标题行外的行数,
Figure 636775DEST_PATH_IMAGE035
Figure 872584DEST_PATH_IMAGE036
为分表的列数,且j取值不包含主键列。
进一步地,如果在分表中未查找到列元素完全不重复的列,该方法还可以包括:
S3、确定分表中各列包含的不重复元素数量,并按照包含的不重复元素数量由多至少的顺序,得到列排序;
S4、从列排序中首列开始顺序遍历各列:
在分表中,将从列排序中首列至当前遍历列之间的各列的数据按行组合,直至组合后的列中各元素完全不重复为止停止遍历,得到组合后的列作为主键列
Figure 883266DEST_PATH_IMAGE037
,并执行上述步骤S2生成三元组数据。
示例如,在列排序中首列开始,当遍历到第2列时,在分表中将首列和第2列的数据按照行组合,判断组合后的列中是否存在重复的元素,如果不存在,则将该组合后的列作为主键列,否则,继续遍历第3列,在分表中将首列至第3列的数据按照行组合,继续判断组合后的列中是否存在重复的元素,以此类推,直到组合后列中不存在重复的元素为止。
下面对本申请实施例提供的三元组抽取装置进行描述,下文描述的三元组抽取装置与上文描述的三元组抽取方法可相互对应参照。
参见图5,图5为本申请实施例公开的一种三元组抽取装置结构示意图。
如图5所示,该装置可以包括:
问答数据获取单元11,用于获取问答数据,所述问答数据中包含多条问答文本;
关键片段抽取单元12,用于从所述问答数据中抽取关键片段;
聚类单元13,用于对各所述关键片段进行聚类,并确定每一聚类簇的类标签,所述类标签用于表征聚类簇中各关键片段的共同属性;
结构化数据表生成单元14,用于生成一结构化数据表,所述结构化数据表的标题行包括各聚类簇的类标签,除标题行外的其余每一行对应一条问答文本,不同行对应不同的问答文本,一行中每一类标签对应的列表格中包含从行对应的问答文本中抽取的属于类标签的关键片段;
三元组提取单元15,用于基于所述结构化数据表,提取三元组数据。
可选的,上述关键片段抽取单元从所述问答数据中抽取关键片段的过程,可以包括:
对所述问答数据进行分词、词性标注及句法依存关系分析;
基于分析后的句法依存关系、词性标注结果,从分词结果中确定关键片段。
可选的,上述关键片段抽取单元基于分析后的句法依存关系、词性标注结果,从分词结果中确定关键片段的过程,可以包括:
按照如下任意一种或多种方式确定关键片段:
将修饰词与被修饰的名词及形容词组合起来,作为一个关键片段;
将主谓关系中的主语作为一个关键片段;
将数字及量词的组合作为一个关键片段;
将顿号之间的片段作为一个关键片段。
可选的,上述聚类单元确定每一聚类簇的类标签的过程,可以包括:
确定每一关键片段在所属问答文本中的语义类型;
基于每一聚类簇中各条关键片段的语义类型确定聚类簇的类标签。
可选的,上述聚类单元确定每一关键片段在所属问答文本中的语义类型的过程,可以包括:
对于每一关键片段,在所属问答文本中查找关键片段的关系词;
若能够查找到关键片段的关系词,则将所述关系词作为关键片段的语义类型;
若未能够查找到关键片段的关系词,则将关键片段的语义类型设置为空。
可选的,上述聚类单元在所属问答文本中查找关键片段的关系词的过程,可以包括:按照如下任意一种方式查找关键片段的关系词:
在问答文本中查找介宾关系,若查找到的介宾关系中的宾语为关键片段,则将介宾关系中的介词,或介词及宾语后跟随的动词的组合,作为所述关键片段的关系词;
查找关键片段前的兼语作为关键片段的关系词;
查找动宾关系中的动词,作为宾语对应的关键片段的关系词;
查找主谓关系中的谓语,作为谓语后跟随的关键片段的关系词;
查找核心关系中的动词,作为后面跟随的关键片段的关系词;
查找动补结构中的补语和动词,将补语和动词组合,作为动词对应的关键片段的关系词。
可选的,上述聚类单元基于每一聚类簇中各条关键片段的语义类型确定聚类簇的类标签的过程,可以包括:
对于每一聚类簇,在聚类簇包含的各条关键片段的语义类型中选出众数对应的目标语义类型,作为聚类簇的类标签。
可选的,上述结构化数据表生成单元生成一结构化数据表的过程,可以包括:
创建一空的结构化数据表;
将各聚类簇的类标签依次排列到结构化数据表的标题行中各列;
从结构化数据表的第一行开始向下遍历,对于当前遍历行,从问答数据中选取一条未被选取过的问答文本,并将从选取的问答文本中抽取的各关键片段,按照关键片段所属的类标签对应的列,填充至当前遍历行中对应列表格中,直至问答数据中不存在未被选取过的问答文本为止,得到最终的结构化数据表。
可选的,上述三元组提取单元基于所述结构化数据表,提取三元组数据的过程,可以包括:
对所述结构化数据表进行分表,得到至少一个分表,每一分表属于一个主题;
基于每一分表,提取三元组数据。
可选的,上述三元组提取单元对所述结构化数据表进行分表,得到至少一个分表的过程,可以包括:
构建与结构化数据表O对应的目标矩阵D,所述目标矩阵D中的元素Dij与结构化数据表O中的元素Oij一一对应,且当Oij为空值时Dij为0,当Oij不为空值时Dij为1,其中,
Figure 851222DEST_PATH_IMAGE001
Figure 275250DEST_PATH_IMAGE038
,h为数据表O除标题行外的行数,p为数据表O的列数;
基于结构化数据表O中两两列数据之间的变化跟随关系,确定其中的重要列和次要列,所述变化跟随关系表明其中一列数据在取不同值时另一列数据的取值是否跟随变化;
为所述重要列分配第一权值,为所述次要列分配第二权值,第一权值大于第二权值;
基于各列对应分配的权值,对所述目标矩阵D进行加权处理,得到加权后矩阵
Figure 986854DEST_PATH_IMAGE039
将加权后矩阵
Figure 648779DEST_PATH_IMAGE040
以行为单位进行聚类分析,得到若干个聚类簇;
对于每一聚类簇,按照聚类簇包含的各行号在所述结构化数据表O中拆分出对应行数据,并结合结构化数据表O的标题行组成一个分表。
可选的,上述结构化数据表生成单元在基于每一分表,提取三元组数据之前,还用于对于每一分表,若其中存在值全为空的列,则将此列从分表中删除。
可选的,上述结构化数据表生成单元还用于,在对分表进行空值列删除操作后,以行为单位对各行去重,得到去重后的分表,去重后的分表作为提取三元组数据的基础。
可选的,上述三元组提取单元基于结构化数据表O中两两列数据之间的变化跟随关系,确定其中的重要列和次要列的过程,可以包括:
对于所述结构化数据表O中的每一列,将其中各关键片段去重,并为去重后每一关键片段赋予不同的数值,在结构化数据表O中将每一列中各关键片段按照对应的数值进行替换,得到替换后的数字表
Figure 787637DEST_PATH_IMAGE041
Figure 371065DEST_PATH_IMAGE041
中每列数据做一阶差分数列,得到每列数据对应的一阶差分数列
Figure 184562DEST_PATH_IMAGE042
Figure 169836DEST_PATH_IMAGE043
其中,n为一阶差分数列中元素的个数;
Figure 479594DEST_PATH_IMAGE044
按照如下方式进行转换,得到转换后的数列
Figure 612635DEST_PATH_IMAGE045
如果
Figure 666042DEST_PATH_IMAGE010
,则令
Figure 505822DEST_PATH_IMAGE046
,如果
Figure 48799DEST_PATH_IMAGE012
,则令
Figure 341240DEST_PATH_IMAGE047
Figure 526234DEST_PATH_IMAGE048
中两两列数据对应的转换后的数列
Figure 220520DEST_PATH_IMAGE015
进行求差,并基于差值结果确定
Figure 872081DEST_PATH_IMAGE048
中各列数据之间的变化跟随关系;
基于各列数据之间的变化跟随关系,将相对于其他所有列都没有跟随变化关系,且只有被跟随变化关系的列作为重要列,除重要列外的其余列作为次要列。
可选的,上述三元组提取单元基于每一分表,提取三元组数据的过程,可以包括:
对于每一分表,在分表中查找列元素完全不重复的列作为主键列
Figure 212671DEST_PATH_IMAGE026
基于所述主键列
Figure 607880DEST_PATH_IMAGE026
,按照如下方式生成三元组数据
Figure 156673DEST_PATH_IMAGE027
Figure 307032DEST_PATH_IMAGE028
其中,
Figure 574065DEST_PATH_IMAGE049
表示主键列
Figure 100861DEST_PATH_IMAGE050
中第i行数据,
Figure 504161DEST_PATH_IMAGE031
表示第j列的列名,
Figure 763104DEST_PATH_IMAGE051
表示分表中第i行第j列的数据,
Figure 314171DEST_PATH_IMAGE033
Figure 51183DEST_PATH_IMAGE034
为分表除标题行外的行数,
Figure 403929DEST_PATH_IMAGE052
Figure 833773DEST_PATH_IMAGE036
为分表的列数,且j取值不包含主键列。
可选的,上述三元组提取单元若在分表中未查找到列元素完全不重复的列,则可以进一步确定分表中各列包含的不重复元素数量,并按照包含的不重复元素数量由多至少的顺序,得到列排序;
从列排序中首列开始顺序遍历各列:
在分表中,将从列排序中首列至当前遍历列之间的各列的数据按行组合,直至组合后的列中各元素完全不重复为止停止遍历,得到组合后的列作为主键列
Figure 606557DEST_PATH_IMAGE053
,并执行基于所述主键列
Figure 147260DEST_PATH_IMAGE054
,按照如下方式生成三元组数据
Figure 790731DEST_PATH_IMAGE055
的步骤。
可选的,本申请的装置还可以包括:知识图谱构建单元,用于基于提取的三元组数据,构建知识图谱。
本申请实施例提供的三元组抽取装置可应用于三元组抽取设备,如终端:手机、电脑等。可选的,图6示出了三元组抽取设备的硬件结构框图,参照图6,三元组抽取设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取问答数据,所述问答数据中包含多条问答文本;
从所述问答数据中抽取关键片段;
对各所述关键片段进行聚类,并确定每一聚类簇的类标签,所述类标签用于表征聚类簇中各关键片段的共同属性;
生成一结构化数据表,所述结构化数据表的标题行包括各聚类簇的类标签,除标题行外的其余每一行对应一条问答文本, 不同行对应不同的问答文本,一行中每一类标签对应的列表格中包含从行对应的问答文本中抽取的属于类标签的关键片段;
基于所述结构化数据表,提取三元组数据。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取问答数据,所述问答数据中包含多条问答文本;
从所述问答数据中抽取关键片段;
对各所述关键片段进行聚类,并确定每一聚类簇的类标签,所述类标签用于表征聚类簇中各关键片段的共同属性;
生成一结构化数据表,所述结构化数据表的标题行包括各聚类簇的类标签,除标题行外的其余每一行对应一条问答文本, 不同行对应不同的问答文本,一行中每一类标签对应的列表格中包含从行对应的问答文本中抽取的属于类标签的关键片段;
基于所述结构化数据表,提取三元组数据。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (15)

1.一种三元组抽取方法,其特征在于,包括:
获取问答数据,所述问答数据中包含多条问答文本;所述问答数据为非结构化数据;
从所述问答数据中抽取关键片段;
对各所述关键片段进行聚类,并确定每一聚类簇的类标签,所述类标签用于表征聚类簇中各关键片段的共同属性;
生成一结构化数据表,所述结构化数据表的标题行包括各聚类簇的类标签,除标题行外的其余每一行对应一条问答文本,不同行对应不同的问答文本,一行中每一类标签对应的列表格中包含从行对应的问答文本中抽取的属于类标签的关键片段;
对所述结构化数据表进行分表,得到至少一个分表,每一分表属于一个主题;
对于每一分表,在分表中查找列元素完全不重复的列作为主键列
Figure DEST_PATH_IMAGE001
基于所述主键列
Figure 376553DEST_PATH_IMAGE001
,按照如下方式生成三元组数据
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
其中,
Figure DEST_PATH_IMAGE004
表示主键列
Figure DEST_PATH_IMAGE005
中第i行数据,
Figure DEST_PATH_IMAGE006
表示第j列的列名,
Figure DEST_PATH_IMAGE007
表示分表中第i行第j列的数据,
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
为分表除标题行外的行数,
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
为分表的列数,且j取值不包含主键列。
2.根据权利要求1所述的方法,其特征在于,从所述问答数据中抽取关键片段,包括:
对所述问答数据进行分词、词性标注及句法依存关系分析;
基于分析后的句法依存关系、词性标注结果,从分词结果中确定关键片段。
3.根据权利要求2所述的方法,其特征在于,所述基于分析后的句法依存关系、词性标注结果,从分词结果中确定关键片段,包括:
按照如下任意一种或多种方式确定关键片段:
将修饰词与被修饰的名词及形容词组合起来,作为一个关键片段;
将主谓关系中的主语作为一个关键片段;
将数字及量词的组合作为一个关键片段;
将顿号之间的片段作为一个关键片段。
4.根据权利要求1所述的方法,其特征在于,所述确定每一聚类簇的类标签,包括:
确定每一关键片段在所属问答文本中的语义类型;
基于每一聚类簇中各条关键片段的语义类型确定聚类簇的类标签。
5.根据权利要求4所述的方法,其特征在于,所述确定每一关键片段在所属问答文本中的语义类型,包括:
对于每一关键片段,在所属问答文本中查找关键片段的关系词;
若能够查找到关键片段的关系词,则将所述关系词作为关键片段的语义类型;
若未能够查找到关键片段的关系词,则将关键片段的语义类型设置为空。
6.根据权利要求5所述的方法,其特征在于,所述在所属问答文本中查找关键片段的关系词,包括:按照如下任意一种方式查找关键片段的关系词:
在所属问答文本中查找介宾关系,若查找到的介宾关系中的宾语为关键片段,则将介宾关系中的介词,或介词及宾语后跟随的动词的组合,作为所述关键片段的关系词;
查找关键片段前的兼语作为关键片段的关系词;
查找动宾关系中的动词,作为宾语对应的关键片段的关系词;
查找主谓关系中的谓语,作为谓语后跟随的关键片段的关系词;
查找核心关系中的动词,作为后面跟随的关键片段的关系词;
查找动补结构中的补语和动词,将补语和动词组合,作为动词对应的关键片段的关系词。
7.根据权利要求4所述的方法,其特征在于,所述基于每一聚类簇中各条关键片段的语义类型确定聚类簇的类标签,包括:
对于每一聚类簇,在聚类簇包含的各条关键片段的语义类型中选出众数对应的目标语义类型,作为聚类簇的类标签。
8.根据权利要求1所述的方法,其特征在于,所述生成一结构化数据表,包括:
创建一空的结构化数据表;
将各聚类簇的类标签依次排列到结构化数据表的标题行中各列;
从结构化数据表的第一行开始向下遍历,对于当前遍历行,从问答数据中选取一条未被选取过的问答文本,并将从选取的问答文本中抽取的各关键片段,按照关键片段所属的类标签对应的列,填充至当前遍历行中对应列表格中,直至问答数据中不存在未被选取过的问答文本为止,得到最终的结构化数据表。
9.根据权利要求1所述的方法,其特征在于,所述对所述结构化数据表进行分表,得到至少一个分表,包括:
构建与结构化数据表O对应的目标矩阵D,所述目标矩阵D中的元素Dij与结构化数据表O中的元素Oij一一对应,且当Oij为空值时Dij为0,当Oij不为空值时Dij为1,其中,
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
,h为数据表O除标题行外的行数,p为数据表O的列数;
基于结构化数据表O中两两列数据之间的变化跟随关系,确定其中的重要列和次要列,所述变化跟随关系表明其中一列数据在取不同值时另一列数据的取值是否跟随变化;
为所述重要列分配第一权值,为所述次要列分配第二权值,第一权值大于第二权值;
基于各列对应分配的权值,对所述目标矩阵D进行加权处理,得到加权后矩阵
Figure DEST_PATH_IMAGE014
将加权后矩阵
Figure DEST_PATH_IMAGE015
以行为单位进行聚类分析,得到若干个聚类簇;
对于每一聚类簇,按照聚类簇包含的各行号在所述结构化数据表O中拆分出对应行数据,并结合结构化数据表O的标题行组成一个分表。
10.根据权利要求9所述的方法,其特征在于,所述基于结构化数据表O中两两列数据之间的变化跟随关系,确定其中的重要列和次要列,包括:
对于所述结构化数据表O中的每一列,将其中各关键片段去重,并为去重后每一关键片段赋予不同的数值,在结构化数据表O中将每一列中各关键片段按照对应的数值进行替换,得到替换后的数字表
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
中每列数据做一阶差分数列,得到每列数据对应的一阶差分数列
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
其中,n为一阶差分数列中元素的个数;
Figure DEST_PATH_IMAGE020
按照如下方式进行转换,得到转换后的数列
Figure DEST_PATH_IMAGE021
如果
Figure DEST_PATH_IMAGE022
,则令
Figure DEST_PATH_IMAGE023
,如果
Figure DEST_PATH_IMAGE024
,则令
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
中两两列数据对应的转换后的数列
Figure DEST_PATH_IMAGE027
进行求差,并基于差值结果确定
Figure 707740DEST_PATH_IMAGE026
中各列数据之间的变化跟随关系;
基于各列数据之间的变化跟随关系,将相对于其他所有列都没有跟随变化关系,且只有被跟随变化关系的列作为重要列,除重要列外的其余列作为次要列。
11.根据权利要求1所述的方法,其特征在于,若在分表中未查找到列元素完全不重复的列,该方法还包括:
确定分表中各列包含的不重复元素数量,并按照包含的不重复元素数量由多至少的顺序,得到列排序;
从列排序中首列开始顺序遍历各列:
在分表中,将从列排序中首列至当前遍历列之间的各列的数据按行组合,直至组合后的列中各元素完全不重复为止停止遍历,得到组合后的列作为主键列
Figure DEST_PATH_IMAGE028
,并执行基于所述主键列
Figure DEST_PATH_IMAGE029
,生成三元组数据
Figure DEST_PATH_IMAGE030
12.根据权利要求1-11任一项所述的方法,其特征在于,还包括:
基于提取的三元组数据,构建知识图谱。
13.一种三元组抽取装置,其特征在于,包括:
问答数据获取单元,用于获取问答数据,所述问答数据中包含多条问答文本;所述问答数据为非结构化数据;
关键片段抽取单元,用于从所述问答数据中抽取关键片段;
聚类单元,用于对各所述关键片段进行聚类,并确定每一聚类簇的类标签,所述类标签用于表征聚类簇中各关键片段的共同属性;
结构化数据表生成单元,用于生成一结构化数据表,所述结构化数据表的标题行包括各聚类簇的类标签,除标题行外的其余每一行对应一条问答文本,不同行对应不同的问答文本,一行中每一类标签对应的列表格中包含从行对应的问答文本中抽取的属于类标签的关键片段;
三元组提取单元,用于对所述结构化数据表进行分表,得到至少一个分表,每一分表属于一个主题;对于每一分表,在分表中查找列元素完全不重复的列作为主键列
Figure 5254DEST_PATH_IMAGE001
;基于所述主键列
Figure 338146DEST_PATH_IMAGE001
,按照如下方式生成三元组数据
Figure 339469DEST_PATH_IMAGE002
Figure 99615DEST_PATH_IMAGE003
其中,
Figure 756861DEST_PATH_IMAGE004
表示主键列
Figure 893445DEST_PATH_IMAGE005
中第i行数据,
Figure 746344DEST_PATH_IMAGE006
表示第j列的列名,
Figure 942970DEST_PATH_IMAGE007
表示分表中第i行第j列的数据,
Figure 884250DEST_PATH_IMAGE008
Figure 886842DEST_PATH_IMAGE009
为分表除标题行外的行数,
Figure 347910DEST_PATH_IMAGE010
Figure 964705DEST_PATH_IMAGE011
为分表的列数,且j取值不包含主键列。
14.一种文本处理设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~12中任一项所述的三元组抽取方法的各个步骤。
15.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~12中任一项所述的三元组抽取方法的各个步骤。
CN202210814378.XA 2022-07-12 2022-07-12 一种三元组抽取方法、装置、设备及存储介质 Active CN114880455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210814378.XA CN114880455B (zh) 2022-07-12 2022-07-12 一种三元组抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210814378.XA CN114880455B (zh) 2022-07-12 2022-07-12 一种三元组抽取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114880455A CN114880455A (zh) 2022-08-09
CN114880455B true CN114880455B (zh) 2022-12-06

Family

ID=82682990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210814378.XA Active CN114880455B (zh) 2022-07-12 2022-07-12 一种三元组抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114880455B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836316A (zh) * 2021-09-23 2021-12-24 北京百度网讯科技有限公司 三元组数据的处理方法、训练方法、装置、设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569051A (zh) * 2020-04-29 2021-10-29 北京金山数字娱乐科技有限公司 一种知识图谱构建方法及装置
US11954605B2 (en) * 2020-09-25 2024-04-09 Sap Se Systems and methods for intelligent labeling of instance data clusters based on knowledge graph
CN112860908A (zh) * 2021-01-27 2021-05-28 云南电网有限责任公司电力科学研究院 基于多源异构电力设备数据的知识图谱自动化构建方法
CN113742474B (zh) * 2021-11-08 2022-02-22 北京博瑞彤芸科技股份有限公司 一种基于知识图谱的智能问答方法和装置
CN114328951A (zh) * 2021-12-15 2022-04-12 广东工业大学 一种融合信息获取和三元组抽取的知识图谱构建方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836316A (zh) * 2021-09-23 2021-12-24 北京百度网讯科技有限公司 三元组数据的处理方法、训练方法、装置、设备及介质

Also Published As

Publication number Publication date
CN114880455A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
KR101895249B1 (ko) 지능 문답 구현 방법, 시스템 및 저장 매체
US10795919B2 (en) Assisted knowledge discovery and publication system and method
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及***
CN109783817A (zh) 一种基于深度强化学习的文本语义相似计算模型
CN110633373A (zh) 一种基于知识图谱和深度学习的汽车舆情分析方法
CN105719191B (zh) 多尺度空间下不确定行为语义的社交群体发现方法
CN110443571A (zh) 基于知识图谱进行简历评估的方法、装置及设备
CN104572982B (zh) 基于问题引导的个性化推荐方法及***
CN106557560A (zh) 基于用户兴趣的层次音乐推荐方法
CN110555107B (zh) 确定业务对象主题、业务对象推荐的方法及装置
CN108108347B (zh) 对话模式分析***及方法
CN111737427B (zh) 融合论坛互动行为与用户阅读偏好的慕课论坛帖推荐方法
CN112632239A (zh) 基于人工智能技术的类脑问答***
CN115292599A (zh) 一种融合属性共现和交互行为特征的旅游景点推荐方法
CN110781300B (zh) 基于百度百科知识图谱的旅游资源文化特色评分算法
Sahu et al. Automatic question tagging using multi-label classification in community question answering sites
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN114880455B (zh) 一种三元组抽取方法、装置、设备及存储介质
Wang et al. Understanding the spatial dimension of natural language by measuring the spatial semantic similarity of words through a scalable geospatial context window
CN102460440A (zh) 搜索方法和设备
Gunarathne et al. Web-based learning object search engine solution together with data visualization: the case of MERLOT II
Khatoon Real-time twitter data analysis of Saudi telecom companies for enhanced customer relationship management
CN106844743B (zh) 维吾尔语文本的情感分类方法及装置
Sun et al. Urban region function mining service based on social media text analysis
Piao et al. Product reputation mining: bring informative review summaries to producers and consumers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant