CN108399157B - 实体与属性关系的动态抽取方法、服务器及可读存储介质 - Google Patents

实体与属性关系的动态抽取方法、服务器及可读存储介质 Download PDF

Info

Publication number
CN108399157B
CN108399157B CN201711389560.0A CN201711389560A CN108399157B CN 108399157 B CN108399157 B CN 108399157B CN 201711389560 A CN201711389560 A CN 201711389560A CN 108399157 B CN108399157 B CN 108399157B
Authority
CN
China
Prior art keywords
entity
attribute
text data
library
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711389560.0A
Other languages
English (en)
Other versions
CN108399157A (zh
Inventor
陈虹
董振江
王宇
龚乐君
李涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Nanjing University of Posts and Telecommunications
Original Assignee
ZTE Corp
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp, Nanjing University of Posts and Telecommunications filed Critical ZTE Corp
Priority to CN201711389560.0A priority Critical patent/CN108399157B/zh
Publication of CN108399157A publication Critical patent/CN108399157A/zh
Application granted granted Critical
Publication of CN108399157B publication Critical patent/CN108399157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实体与属性关系的动态抽取方法,该方法包括:获取文本数据;基于动态实体属性关系库和训练模型,从文本数据中动态抽取实体与属性的各项特征。此外,本发明还提供了一种服务器及可读存储介质,采用本发明构建了动态的实体属性关系库和训练模型,并能够从文本数据中自动地抽取实体与属性的各项特征。

Description

实体与属性关系的动态抽取方法、服务器及可读存储介质
技术领域
本发明互联网技术领域,尤其涉及实体与属性关系的动态抽取方法、服 务器及可读存储介质。
背景技术
伴随着互联网的迅猛发展及大数据信息时代的来临,在一些特定领域中, 例如:电信领域中的技术和业务面临技术升级、业务更新的机遇与挑战,产 生了大量的知识和专用术语,成为名副其实的知识高度密信的行业。电信领 域中信息量增长,并已形成一个非常庞大而无序的信息资源库,其中非结构 化或半结构化的文本数据中携带着丰富的有价值的电信信息。命名实体是文 本中承载信息的重要语言单位,是获取有价值信息的必不可少的环节,不同 的实体具有不同的属性,同一类实体具有大致相同的属性,只是属性值有所 不同。
命名实体识别包括对实体的识别及属性的抽取。通用领域中实体识别是 把文本中的实体划为某一语义类型。现有的方法主要有三种方法,即:基于 字典、基于统计与基于规则的方法。其中,
基于字典的方法主要是通过字符串匹配找寻词库中命名实体,但是通常 没有一个全面的实体库,而且比对费时。
基于规则算法主要在实体识别过程中加入词法规则、语法规则、语义规 则,通过规则匹配的方法识别各种类型的命名实体。然而,基于规则方法受 限于人工添加规则。
基于统计的方法利用人工标注或原始语料进行训练。而基于统计的方法 需要先建立语言模型,然后在训练数据上估算模型参数,这有利于移植到不 同的语言及新领域。基于统计的方法主要利用一些统计模型如隐马尔可夫模 型、最大熵模型、支持向量机、条件随机场等。属性抽取的任务是为每个实 体语义类构造属性表并抽取出属性值。属性抽取的方法主要由模式匹配及基 于统计的方法,但是,当前这方面的研究远远少于实体识别。所以,在现有 技术中,抽取实体与属性关系的技术仍存在不足和缺陷。
发明内容
本发明的主要目的在于提出一种实体与属性关系的动态抽取方法、服务 器与可读存储介质,旨在解决特定技术领域的知识库和语料不健全的问题。
为实现上述目的,本发明提供的一种实体与属性关系的动态抽取方法, 所述方法包括步骤:
获取文本数据;
基于动态实体属性关系库和训练模型,从所述文本数据中动态抽取实体 与属性的各项特征。
此外,为实现上述目的,本发明还提出一种服务器,所述服务器包括处 理器以及存储器;
所述处理器用于执行存储器中存储的实体与属性关系的动态抽取程序, 以实现上述的方法。
此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述 计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被 一个或者多个处理器执行,以实现上述的方法。
本发明提出的实体与属性关系的动态抽取方法、服务器与可读存储介质, 通过获取文本数据,基于动态实体属性关系库和训练模型,从文本数据中动 态抽取实体与属性的各项特征,从而构建了动态的实体属性关系库和训练模 型,并能够从文本数据中自动地抽取实体与属性的各项特征。
附图说明
图1为本申请第一实施例提供的实体与属性关系的动态抽取方法的流程 示意图;
图2为本申请第一实施例提供的实体与属性关系的动态抽取方法的另一 流程示意图一;
图3为本申请第一实施例提供的实体与属性关系的动态抽取方法的子流 程示意图一;
图4为本申请第一实施例提供的实体与属性关系的动态抽取方法的示例 图;
图5为本申请第一实施例提供的实体与属性关系的动态抽取方法的另一 流程示意图二;
图6为本申请第一实施例提供的实体与属性关系的动态抽取方法的子流 程示意图二;
图7为本申请第二实施例提供的服务器硬件架构的示意图;
图8为图7中实体与属性关系的动态抽取程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限 定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单 元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模 块”、“部件”或“单元”可以混合地使用。
第一实施例
如图1所示,为本申请第一实施例提供的实体与属性关系的动态抽取方 法的流程示意图。在图1中,所述实体与属性关系的动态抽取方法,包括以 下步骤:
步骤110,获取文本数据;
步骤120,基于动态实体属性关系库和训练模型,从所述文本数据中动态 抽取实体与属性的各项特征。
具体的,当获取到文本数据时,则基于预先建立的实体属性关系库和实 体属性关系训练模型,从该文本数据中动态抽取实体与属性的各项特征,并 将其结构化为实体与属性对,得到动态抽取的结果。
在建立了实体属性关系库和训练模型之后,能够识别出文本数据中的实 体与属性的关系,动态抽取各项特征,并不断动态扩充训练模型的实体属性 关系语料。从而得到更加完善规模的语料作为训练语料,将使通过基于统计 机器学习的自动抽取海量文本中的实体与属性的方法的性能更好,从而全面 实行自动抽取大量文本中的实体与属性。
可选的,如图2所示,在步骤110之前,所述方法还包括:
步骤210,抓取多个样本数据;
步骤220,根据所述多个样本数据,构建实体属性关系库;
步骤230,按照预设的特征规则,对所述实体属性关系库进行扩充。
具体的,获取大量的样本数据,采用爬虫技术并使用相关领域(例如: 电信领域)典型的关键字抓取互联网上与该领域的相关文本数据。研究抓取 的样本数据,使用实体属性值模型(Entity-attribute-value model,EAV)自动 构建实体属性种子表,作为实体属性关系的种子库。
利用预设的特征规则,对文本进行分割,使得文本经过分句、分词等预 处理后,预留预设的关键字或者关键词,并将预留的关键字或者关键词扩充 到实体属性关系库中。以电信领域为例,这些关键字或者关键词可以是“套 餐”、“通”、“电话”、“显示”等,当检测到这些关键字或者关键词则 扩充至实体属性关系库。
可选的,如图3所示,步骤230具体包括:
步骤310,接收字符串语句;
步骤320,判断所述字符串语句中是否包括实体属性关系库中预设的关键 字;若是,则进入步骤330,若否,则不作处理;
步骤330,将所述字符串语句分割成一个或者多个子字符串语句;
步骤340,判断每个子字符串语句与所述实体属性关系库中预设的关键字 的匹配度是否达到预设的阈值;若是,则表示原实体属性关系库中存在子字 符串语句中的实体,不作处理,若否,则进入步骤350;
步骤350,将所述子字符串语句扩充至所述实体属性关系库。
具体的,检测用户输入字符串语句,并接收该字符串语句,判断字符串 语句中包括了预设的关键字或者关键词,则通过正则表达式将字符串语句优 化精简为一个或者多个子字符串语句。将子字符串语句与实体属性关系库中 的实体进行相似度匹配。相似度匹配的过程为:设置相似度阈值(例如1), 若子字符串语句与实体属性关系库中的实体匹配度为1,则说明原实体属性关 系库中存在子字符串语句中的实体,不需要进行扩充,相反地,若子字符串 语句与实体属性关系库中的实体匹配度没有达到1,则说明原实体属性关系库 中没有子字符串语句中的实体,则需要扩充原实体属性关系库。优选的,若 存在多个未达到相似度阈值的实体,则取相似度高的实体扩充至实体属性关 系库。
示例性地,如图4所示,为扩充实体属性关系库的显示图。在图4中, 当接收输入查询内容为“我想了解无线宽带和专线上网的相关消息”时,得 到实体1为“无线宽带”,且实体1的相似度结果为0.800000011920929Pts, 与实体1对应的信息为:业务介绍、接入方式、终端、无线网卡、以及故障 分析;得到实体2为“专线上网”,与实体2对应的信息为业务介绍。实体1 与实体属性关系库的相似度小于1,则将实体1扩充至实体属性关系库中。
可选的,如图5所示,在步骤110之后,还包括步骤:
步骤510,根据所述实体属性关系库,对所述文本数据进行实体与属性的 标注;
步骤520,研究标注的语料,以对实体与属性的特征进行选择。
具体的,对抓取的文本数据通过实体属性关系库使用XML语言对其进行 标注,形成特定领域的文本实体属性语料库。对标注的语料进行研究,并根 据文本中实体与属性的特点,选择实体与属性的特征,例如,根据上下文特 征、词性特征、词表特征等进行选择,从而提取文本中的各项特征。
进一步的,还可以选取实体可能构成的词、句等进行标注和扩充。例如, 若关系库中已经存在实体“套餐”,而另一文本数据中存在“A套餐”、“B 套餐”等,也可以标注“A套餐”、“B套餐”为实体,并将新标注的实体扩 充至实体属性关系库中。
可选的,本申请的实体与属性关系的动态抽取方法还包括:建立实体属 性关系训练模型,如图6所示,建立实体属性关系训练模型具体包括以下步 骤:
步骤610,抓取多个文本语料;
步骤620,将所述文本语料处理成预设格式的一个或者多个语料文件;
步骤630,训练所述一个或者多个语料文件,生成模型文件;
步骤640,通过所述模型文件中的特征函数集以及预设的算法对所述模型 文件进行标注。
具体的,对文本语料进行预加工,生成预设格式的一个或者多个字级的 训练语料文件和词级普通训练语料文件,例如,生成规定格式的训练文件、 测试文件及用于测评的标准答案文件。
将预处理阶段生成的语料文件生成训练文件,在本实施例中,可以通过 CRF提供的软件开发工具包(Software Development Kit,SDK)生成训练文 件。借助于模型文件中的特征函数集和参数采用Viterbi标注算法得到测试输 入数据的全局最优的标注结果。
可选的,建立实体属性关系训练模型的过程还可以包括:
识别标注的模型文件的准确率、召回率和F测度。
具体的,在本实施例中,将标注结果和标准答案进行比较得到识别的准 确率、召回率和F测度。
在实际应用中,每次获取到文本数据,则重复上述过程,进而动态建立 师徒属性关系库和训练模型,从而使模型在样本有限的情况下学习到新知识, 将筛选出的元素加入词表中。随着数据样本的增多,通过对大量数据的学习 自动识别电信实体从而扩大命名实体库的规模。通过动态构建的电信实体属 性语料,得到比较完善规模的语料作为训练语料,将使通过基于统计机器学 习的自动抽取海量文本中的实体与属性的方法的性能更好,从而全面实行自 动抽取海量文本中实体与属性。
本实施例提供的实体与属性关系的动态抽取方法,通过获取文本数据, 基于动态实体属性关系库和训练模型,从文本数据中动态抽取实体与属性的 各项特征,从而构建了动态的实体属性关系库和训练模型,并能够从文本数 据中自动地抽取实体与属性的各项特征。
第二实施例
如图7所示,为本申请第二实施例提供一种服务器硬件架构的示意图。 在图7中,服务器包括:存储器710、处理器720及存储在所述存储器710上 并可在所述处理器720上运行的实体与属性关系的动态抽取程序730。在本实 施例中,所述的实体与属性关系的动态抽取程序730包括一系列的存储于存 储器710上的计算机程序指令,当该计算机程序指令被处理器720执行时, 可以实现本发明各实施例的实体与属性关系的动态抽取操作。在一些实施例 中,基于该计算机程序指令各部分所实现的特定的操作,实体与属性关系的 动态抽取程序730可以被划分为一个或多个模块。如图8所示,实体与属性 关系的动态抽取程序730包括:数据获取模块810、动态抽取模块820、关系 库构建模块830、扩充模块840、标注模块850、特征选择模块860以及模型 构建模块870。其中,
数据获取模块810,用于获取文本数据;
动态抽取模块820,用于基于动态实体属性关系库和训练模型,从所述文 本数据中动态抽取实体与属性的各项特征。
具体的,当数据获取模块810获取到文本数据时,则基于预先建立的实 体属性关系库和实体属性关系训练模型,动态抽取模块820从该文本数据中 动态抽取实体与属性的各项特征,并将其结构化为实体与属性对,得到动态 抽取的结果。
在建立了实体属性关系库和训练模型之后,动态抽取模块820能够识别 出文本数据中的实体与属性的关系,动态抽取各项特征,并不断动态扩充训 练模型的实体属性关系语料。从而得到更加完善规模的语料作为训练语料, 将使通过基于统计机器学习的自动抽取海量文本中的实体与属性的方法的性 能更好,从而全面实行自动抽取大量文本中的实体与属性。
数据获取模块810,还用于抓取多个样本数据;
关系库构建模块830,用于根据所述多个样本数据,构建实体属性关系库;
扩充模块840,用于按照预设的特征规则,对所述实体属性关系库进行扩 充。
具体的,当数据获取模块810获取大量的样本数据时,采用爬虫技术并 使用相关领域(例如:电信领域)典型的关键字抓取互联网上与该领域的相 关文本数据。研究抓取的样本数据,使用EAV自动构建实体属性种子表,作 为实体属性关系的种子库。
利用预设的特征规则,对文本进行分割,使得文本经过分句、分词等预 处理后,预留预设的关键字或者关键词,并将预留的关键字或者关键词扩充 到实体属性关系库中。以电信领域为例,这些关键字或者关键词可以是“套 餐”、“通”、“电话”、“显示”等,当检测到这些关键字或者关键词则 扩充至实体属性关系库。
可选的,如图3所示,扩充模块840具体用于:
接收字符串语句;
判断所述字符串语句中是否包括实体属性关系库中预设的关键字;若是, 则将所述字符串语句分割成一个或者多个子字符串语句;
判断每个子字符串语句与所述实体属性关系库中预设的关键字的匹配度 是否达到预设的阈值;若是,则表示原实体属性关系库中存在子字符串语句 中的实体,不作处理,若否,则将所述子字符串语句扩充至所述实体属性关 系库。
具体的,检测用户输入字符串语句,并接收该字符串语句,判断字符串 语句中包括了预设的关键字或者关键词,则通过正则表达式将字符串语句优 化精简为一个或者多个子字符串语句。将子字符串语句与实体属性关系库中 的实体进行相似度匹配。相似度匹配的过程为:设置相似度阈值(例如1), 若子字符串语句与实体属性关系库中的实体匹配度为1,则说明原实体属性关 系库中存在子字符串语句中的实体,不需要进行扩充,相反地,若子字符串 语句与实体属性关系库中的实体匹配度没有达到1,则说明原实体属性关系库 中没有子字符串语句中的实体,则需要扩充原实体属性关系库。优选的,若 存在多个未达到相似度阈值的实体,则取相似度高的实体扩充至实体属性关 系库。
示例性地,如图4所示,为扩充实体属性关系库的显示图。在图4中, 当接收输入查询内容为“我想了解无线宽带和专线上网的相关消息”时,得 到实体1为“无线宽带”,且实体1的相似度结果为0.800000011920929Pts, 与实体1对应的信息为:业务介绍、接入方式、终端、无线网卡、以及故障 分析;得到实体2为“专线上网”,与实体2对应的信息为业务介绍。实体1 与实体属性关系库的相似度小于1,则将实体1扩充至实体属性关系库中。
标注模块850,用于根据所述实体属性关系库,对所述文本数据进行实体 与属性的标注;
特征选择模块860,用于研究标注的语料,以对实体与属性的特征进行选 择。
具体的,标注模块850对抓取的文本数据通过实体属性关系库使用XML 语言对其进行标注,形成特定领域的文本实体属性语料库。特征选择模块860 对标注的语料进行研究,并根据文本中实体与属性的特点,选择实体与属性 的特征,例如,根据上下文特征、词性特征、词表特征等进行选择,从而提 取文本中的各项特征。
进一步的,还可以选取实体可能构成的词、句等进行标注和扩充。例如, 若关系库中已经存在实体“套餐”,而另一文本数据中存在“A套餐”、“B 套餐”等,也可以标注“A套餐”、“B套餐”为实体,并将新标注的实体扩 充至实体属性关系库中。
模型构建模块870,用于建立实体属性关系训练模型,模型构建模块870 包括:预处理单元871、训练单元872、标注单元873以及测评单元874。其 中,
预处理单元871,用于将抓取的多个文本语料处理成预设格式的一个或者 多个语料文件;
训练单元872,用于训练所述一个或者多个语料文件,生成模型文件;
标注单元873,用于通过所述模型文件中的特征函数集以及预设的算法对 所述模型文件进行标注。
测评单元874,用于识别标注的模型文件的准确率、召回率和F测度。
具体的,对文本语料进行预加工,生成预设格式的一个或者多个字级的 训练语料文件和词级普通训练语料文件,例如,生成规定格式的训练文件、 测试文件及用于测评的标准答案文件。
将预处理阶段生成的语料文件生成训练文件,在本实施例中,可以通过 CRF提供的SDK生成训练文件。借助于模型文件中的特征函数集和参数采用 Viterbi标注算法得到测试输入数据的全局最优的标注结果。
在本实施例中,将标注结果和标准答案进行比较得到识别的准确率、召 回率和F测度。
在实际应用中,每次获取到文本数据,则重复上述过程,进而动态建立 师徒属性关系库和训练模型,从而使模型在样本有限的情况下学习到新知识, 将筛选出的元素加入词表中。随着数据样本的增多,通过对大量数据的学习 自动识别电信实体从而扩大命名实体库的规模。通过动态构建的电信实体属 性语料,得到比较完善规模的语料作为训练语料,将使通过基于统计机器学 习的自动抽取海量文本中的实体与属性的方法的性能更好,从而全面实行自 动抽取海量文本中实体与属性。
本实施例提供的服务器,通过数据获取模块810获取文本数据,基于动 态实体属性关系库和训练模型,动态抽取模块820从文本数据中动态抽取实 体与属性的各项特征,从而构建了动态的实体属性关系库和训练模型,并能 够从文本数据中自动地抽取实体与属性的各项特征。
第三实施例
本申请实施例还提供了一种计算机可读存储介质。这里的计算机可读存 储介质存储有一个或者多个程序。其中,计算机可读存储介质可以包括易失 性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如 只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的 存储器的组合。当计算机可读存储介质中一个或者多个程序可被一个或者多 个处理器执行,以实现上述第一实施例所提供的实体与属性关系的动态抽取 方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变 体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品 或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是 还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的 情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过 程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光 盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器, 空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上 述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的, 本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求 所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (7)

1.一种实体与属性关系的动态抽取方法,其特征在于,所述方法包括步骤:
获取文本数据;
基于动态实体属性关系库和训练模型,从所述文本数据中动态抽取实体与属性的各项特征;
在获取文本数据之前,所述方法还包括:
抓取多个样本数据;
根据所述多个样本数据,构建实体属性关系库;
按照预设的特征规则,对所述实体属性关系库进行扩充;
其中,按照预设的特征规则,对所述实体属性关系库进行扩充,包括:
接收字符串语句;
判断所述字符串语句中是否包括实体属性关系库中预设的关键字;
若是,则将所述字符串语句分割成一个或者多个子字符串语句;
判断每个子字符串语句与所述实体属性关系库中预设的关键字的匹配度是否达到预设的阈值;
若否,则将所述子字符串语句扩充至所述实体属性关系库。
2.根据权利要求1所述的实体与属性关系的动态抽取方法,其特征在于,在获取文本数据之后,所述方法还包括:
根据所述实体属性关系库,对所述文本数据进行实体与属性的标注;
研究标注的语料,以对实体与属性的特征进行选择。
3.根据权利要求1所述的实体与属性关系的动态抽取方法,其特征在于,在获取文本数据之前,所述方法还包括:
建立实体属性关系训练模型。
4.根据权利要求3所述的实体与属性关系的动态抽取方法,其特征在于,建立实体属性关系训练模型,包括:
抓取多个文本语料;
将所述文本语料处理成预设格式的一个或者多个语料文件;
训练所述一个或者多个语料文件,生成模型文件;
通过所述模型文件中的特征函数集以及预设的算法对所述模型文件进行标注。
5.根据权利要求4所述的实体与属性关系的动态抽取方法,其特征在于,所述方法还包括:
识别标注的模型文件的准确率、召回率和F测度。
6.一种服务器,其特征在于,所述服务器包括处理器以及存储器;
所述处理器用于执行存储器中存储的实体与属性关系的动态抽取程序,以实现权利要求1-5任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1-5任一项所述的方法。
CN201711389560.0A 2017-12-21 2017-12-21 实体与属性关系的动态抽取方法、服务器及可读存储介质 Active CN108399157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711389560.0A CN108399157B (zh) 2017-12-21 2017-12-21 实体与属性关系的动态抽取方法、服务器及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711389560.0A CN108399157B (zh) 2017-12-21 2017-12-21 实体与属性关系的动态抽取方法、服务器及可读存储介质

Publications (2)

Publication Number Publication Date
CN108399157A CN108399157A (zh) 2018-08-14
CN108399157B true CN108399157B (zh) 2023-08-18

Family

ID=63094325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711389560.0A Active CN108399157B (zh) 2017-12-21 2017-12-21 实体与属性关系的动态抽取方法、服务器及可读存储介质

Country Status (1)

Country Link
CN (1) CN108399157B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726398B (zh) * 2018-12-27 2023-07-07 奇安信科技集团股份有限公司 一种实体识别及属性判断方法、***、设备及介质
CN110457686A (zh) * 2019-07-23 2019-11-15 福建奇点时空数字科技有限公司 一种基于深度学习的信息技术数据实体属性抽取方法
CN112434530A (zh) * 2019-08-06 2021-03-02 富士通株式会社 信息处理装置和信息处理方法
CN111611799B (zh) * 2020-05-07 2023-06-02 北京智通云联科技有限公司 基于字典和序列标注模型实体属性抽取方法、***及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104160390A (zh) * 2012-03-06 2014-11-19 微软公司 来自潜在关系数据的实体扩充服务
CN104572125A (zh) * 2015-01-28 2015-04-29 中国农业银行股份有限公司 实体关系图的绘制方法、存储方法、绘制装置及存储装置
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其***
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104160390A (zh) * 2012-03-06 2014-11-19 微软公司 来自潜在关系数据的实体扩充服务
CN104572125A (zh) * 2015-01-28 2015-04-29 中国农业银行股份有限公司 实体关系图的绘制方法、存储方法、绘制装置及存储装置
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其***
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和***

Also Published As

Publication number Publication date
CN108399157A (zh) 2018-08-14

Similar Documents

Publication Publication Date Title
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
US10176804B2 (en) Analyzing textual data
US20210157984A1 (en) Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
CN108399157B (zh) 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN109408824B (zh) 用于生成信息的方法和装置
CN111368049A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN112052324A (zh) 智能问答的方法、装置和计算机设备
CN111488468B (zh) 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN111460149B (zh) 文本分类方法、相关设备及可读存储介质
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN108536673B (zh) 新闻事件抽取方法及装置
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN108170708B (zh) 一种车辆实体识别方法、电子设备、存储介质、***
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN111859950A (zh) 一种自动化生成讲稿的方法
CN110727764A (zh) 一种话术生成方法、装置及话术生成设备
CN110674243A (zh) 一种基于动态k-均值算法的语料库索引构建方法
CN110969005A (zh) 一种确定实体语料之间的相似性的方法及装置
CN111492364A (zh) 数据标注方法、装置及存储介质
CN104572628B (zh) 一种基于句法特征的学术定义自动抽取***及方法
CN110956043A (zh) 基于别名标准化的领域专业词汇词嵌入向量训练方法、***及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20180829

Address after: 518000 Zhongnan communication tower, South China Road, Nanshan District high tech Industrial Park, Shenzhen, Guangdong

Applicant after: ZTE Corp.

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: 518000 Zhongnan communication tower, South China Road, Nanshan District high tech Industrial Park, Shenzhen, Guangdong

Applicant before: ZTE Corp.

TA01 Transfer of patent application right
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant