CN112805715A - 识别实体属性关系 - Google Patents
识别实体属性关系 Download PDFInfo
- Publication number
- CN112805715A CN112805715A CN202080005433.XA CN202080005433A CN112805715A CN 112805715 A CN112805715 A CN 112805715A CN 202080005433 A CN202080005433 A CN 202080005433A CN 112805715 A CN112805715 A CN 112805715A
- Authority
- CN
- China
- Prior art keywords
- attribute
- entity
- embedding
- generating
- vector representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 111
- 238000012545 processing Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 abstract description 14
- 238000013145 classification model Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000270322 Lepidosauria Species 0.000 description 1
- 241000270295 Serpentes Species 0.000 description 1
- 230000036531 allelopathy Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
方法、***和装置,包括编码在计算机存储介质上的计算机程序,有助于识别文本语料库中的实体‑属性关系。方法包括确定候选实体‑属性对中的属性是否是实体‑属性候选对中的实体的实际属性。这可以包括生成针对包括实体和属性的句子中的单词的嵌入和生成。这还可以包括基于与实体相关联的其他属性针对实体生成属性分布嵌入,以及基于与属性的已知实体相关联的已知属性针对属性生成属性分布嵌入。基于这些嵌入,前馈网络可以确定实体‑属性候选对中的属性是否是实体‑属性候选对中的实体的实际属性。
Description
相关申请的交叉引用
本申请是国际申请,并且要求2019年7月5日提交的美国申请号16/504,068的权益。前述申请的公开内容通过引用整体结合于此。
背景技术
本说明书涉及识别文本语料库中的实体-属性关系。
基于搜索的应用程序(例如,搜索引擎、知识库)旨在识别与用户的信息需求相关的资源(例如,网页、图像、文本文档和多媒体内容),并以对用户最有用的方式呈现关于该资源的信息。基于搜索的应用程序可以呈现关于已识别资源的信息的一种方式呈结构化搜索结果的形式。结构化搜索结果通常呈现带有针对用户请求(例如,查询)中指定的实体的答案的属性列表。例如,响应于对“凯文·杜兰特”的查询,结构化搜索结果可以包括有关“凯文·杜兰特”的属性(诸如,薪水、团队、出生年份、家庭等),以及提供关于这些属性的信息的答案。
构建此类结构化搜索结果通常需要识别实体-属性关系。实体-属性关系是术语对之间的文本关系的特例。该术语对中的第一术语为实体,可以是人、地点、组织、概念等。该术语对中的第二术语为属性,该属性是描述实体的某些方面或特性的字符串。属性的示例可以包括人的“出生日期”、国家的“人口”、运动员的“薪水”或组织的“CEO”。
然而,常常必须处理大量数据以便识别合适的搜索结果。这可能会使用大量的处理功率。另外,需要处理如此大量的数据可能会导致结果获得缓慢,或者对处理做出妥协,以至于结果品质较差。
发明内容
一般而言,本说明书中描述的主题的一个创新方面可以体现在一种方法中,该方法包括以下操作:获得定义实体和属性的实体-属性候选对,其中属性为实体的候选属性;基于包括实体和属性的句子集合,确定属性是否为实体-属性候选对中的实体的实际属性,该确定包括:生成针对包括实体和属性的句子集合中的单词的嵌入;使用已知实体-属性对生成针对实体的属性分布嵌入,其中针对实体的属性分布嵌入基于与来自已知实体-属性对的实体相关联的其他属性来指定针对实体的嵌入;使用已知实体-属性对生成针对属性的属性分布嵌入,其中针对该属性的属性分布嵌入指定针对基于与已知实体-属性对中的属性的已知实体相关联的已知属性的属性的嵌入;基于针对句子集合中单词的嵌入、针对实体的属性分布嵌入和针对属性的属性分布嵌入,确定实体-属性候选对中的属性是否为实体-属性候选对中的实体的实际属性。该方面的其他实施例包括被配置成执行方法的动作的对应***、设备、装置和计算机程序。可以将计算机程序(例如,指令)编码在计算机存储装置上。这些和其他实施例可各自可选地包括以下特征中的一个或多个。
在一些实施方式中,生成针对包括实体和属性的句子集合中的单词的嵌入包括:生成指定在句子集合中的实体与属性之间的单词的第一嵌入的第一矢量表示;基于句子集合生成指定针对实体的第二嵌入的第二矢量表示;以及基于句子集合生成指定针对属性的第三嵌入的第三矢量表示。
在一些实施方式中,使用已知实体-属性对生成针对实体的属性分布嵌入包括:使用已知实体-属性对生成指定针对实体的属性分布嵌入的第四矢量表示。
在一些实施方式中,使用已知实体-属性对生成针对属性的属性分布嵌入包括:使用已知实体-属性对生成指定针对属性的属性分布嵌入的第五矢量表示。
在一些实施方式中,基于针对句子集合中的单词的嵌入、针对实体的属性分布嵌入和针对属性的属性分布嵌入,确定实体-属性候选对中的属性是否为实体-属性候选对中的实体的实际属性包括:基于第一矢量表示、第二矢量表示、第三矢量表示、第四矢量表示和第五矢量表示,确定实体-属性候选对中的属性是否为实体-属性候选对中的实体的实际属性。
在一些实施方式中,使用前馈网络执行:基于第一矢量表示、第二矢量表示、第三矢量表示、第四矢量表示和第五矢量表示,确定实体-属性候选对中的属性是否为实体-属性候选对中的实体的实际属性。
在一些实施方式中,基于第一矢量表示、第二矢量表示、第三矢量表示、第四矢量表示和第五矢量表示来确定实体-属性候选对中的属性是否为实体-属性候选对中的实体的实际属性包括:通过将第一矢量表示、第二矢量表示、第三矢量表示、第四矢量表示和第五矢量表示进行级联来生成单个矢量表示;将单个矢量表示输入到前馈网络中;以及通过前馈网络并使用单个矢量表示,确定实体-属性候选对中的属性是否为实体-属性候选对中的实体的实际属性。
在一些实施方式中,使用已知实体-属性对生成指定针对实体的属性分布嵌入的第四矢量表示包括:识别与已知实体-属性对中的实体相关联的属性集合,其中该属性集合不包括该属性;以及通过计算该属性集合中的属性的加权和,生成针对实体的属性分布嵌入。
在一些实施方式中,使用已知实体-属性对,生成指定针对属性的属性分布嵌入的第五矢量表示包括:使用该属性从已知实体-属性对中识别实体集合;对于该实体集合中的每个实体,识别与该实体相关联的属性集合,其中该属性集合不包括该属性;以及通过计算属性集合中的属性的加权和,生成针对属性的属性分布嵌入。
与现有技术的基于模型的实体-属性识别技术相比,可以实现本说明书中描述的主题的特定实施例,以达成识别更准确的实体-属性关系的优点。现有技术的实体-属性识别技术使用各种基于模型的方法(例如,自然语言处理(NLP)特征、远距离监督和传统机器学习模型),这些方法通过基于其中出现这些术语的数据(例如,句子)表示实体和属性来识别实体-属性关系。对比而言,本说明书中描述的创新不仅通过使用关于其中出现这些术语的数据中如何描述实体和属性的信息,而且还通过使用已知与这些术语相关联的其他属性来表示实体和属性,以识别数据集中的实体-属性关系。这支持用由类似实体共享的属性来表示实体和属性,从而提高了识别实体-属性关系的准确性,否则仅通过考虑其中出现这些术语的句子无法辨别出这些关系。因此,当用户执行搜索时,可以获得更多有用的信息。特别地,范围更广的搜索术语将引起识别出更多相关信息。因此,不一定需要重复搜索。因此,要获得期望的搜索结果,需要的处理可能较少。
例如,考虑一种场景,其中数据集包括:具有使用“record(记录)”属性来描述的两个实体“Ronaldo(罗纳尔多)”和“Messi(梅西)”的句子;以及其中的实体“Messi(梅西)”是使用“goals(进球数)”属性来描述的句子。在这种场景下,现有技术可以识别以下实体属性对:(Ronaldo,record(罗纳尔多,记录))、(Messi,record(梅西,记录))和(Messi,goals(梅西,进球数))。本说明书中描述的创新通过识别实体-属性关系超越了这些现有技术方法,而这些关系可能无法通过如何在数据集中使用这些术语来轻易辨别。使用以上示例,本说明书中描述的创新确定“Ronaldo(罗纳尔多)”和“Messi(梅西)”是类似的实体,因为它们共享“record(记录)”属性,并且然后使用“goals(进球数)”属性来表示“record(记录)”属性。以这种方式,例如在本说明书中描述的创新可以使得能够识别实体-属性关系,例如(Cristiano,Goals(克里斯蒂亚诺,进球数)),即使从数据集中可能无法轻易辨别这种关系。
本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书,本主题的其他特征、方面和优点将变得显而易见。
附图说明
图1是用于提取实体-属性关系的示例环境的框图。
图2是用于识别实体-属性关系的示例过程的流程图。
图3是示例计算机***的框图。
在各个附图中,相同的附图标记和标号指示相同的元件。
具体实施方式
本说明书涉及识别文本语料库中的实体-属性关系。
如本说明书中进一步描述的,将候选实体-属性对(其中属性是实体的候选属性)输入到分类模型。包括路径嵌入引擎、分布表示引擎、属性分布引擎和前馈网络的分类模型确定候选实体-属性对中的属性是否为候选实体-属性对中的实体的实际属性。
路径嵌入引擎生成矢量,该矢量表示连接数据集的句子集合(例如,30个或更多个句子)中实体和属性的联合发生的路径或单词的嵌入。分布表示引擎基于这些术语在句子集合中出现的上下文来生成表示针对实体术语和属性术语的嵌入的矢量。属性分布引擎生成表示针对实体的嵌入的矢量和表示针对属性的嵌入的另一矢量。属性分布引擎对实体的嵌入基于已知与数据集中的实体相关联的其他属性(即,候选属性以外的属性)。属性分布引擎对该属性的嵌入基于候选属性的与已知实体相关联的其他属性。
分类模型将来自路径嵌入引擎、分布表示引擎和属性分布引擎的矢量表示级联成单个矢量表示。由于单个矢量表示被用于这些级联的矢量,因此需要存储较少的数据。然后,分类模型将单个矢量表示输入到前馈网络中,该前馈网络使用单个矢量表示来确定候选实体-属性对中的属性是否为候选实体-属性对中的实体的实际属性。如果前馈网络确定候选实体-属性对中的属性为候选实体-属性对中的实体的实际属性,则将候选实体-属性对与其他已知/实际实体-属性对一起存储在知识库中。
下面参考图1至图3更详细地描述这些特征和附加特征。
图1是用于提取实体属性关系的示例环境的框图。环境100包括分类模型114,该分类模型针对知识库104中的候选实体-属性对来确定候选实体-属性对中的属性是否为候选对中的实体的实际属性。在一些实施方式中,分类模型114是神经网络模型,下面描述了其部件/引擎(以及其相应操作)。应当了解,也可以使用其他类型的监督和/或无监督机器学习模型来实现分类模型114。
可以包括存储在一个或多个非暂时性数据存储介质(例如,硬盘驱动器、快闪存储器等)中的一个或多个数据库(或其他适当的数据存储结构)的知识库104存储候选实体-属性对的集合。可以使用呈从数据源102获得的文本文档(例如,网页、新闻文章等)形式的内容的集合来获得候选实体-属性对,该数据源102可以包括任何内容源,诸如新闻网站、数据聚合器平台、社交媒体平台等。在一些实施方式中,数据源102从数据聚合器平台获得新闻文章。在一些实施方式中,数据源102可以使用模型(例如,监督或无监督的机器学习模型、自然语言处理模型)来通过以下方式生成候选实体-属性对的集合:从文章中提取句子,并且使用词性(part-of-speech)标记和依存解析树标记来对提取的句子进行令牌化和贴标签(例如,作为实体和属性)。在一些实施方式中,数据源102可以将提取的句子输入到机器学习模型中,该机器学习模型例如可以使用训练句子的集合以及其相关联的实体-属性对被训练。然后,这种机器学习模型可以输出针对输入的提取的句子的候选实体-属性对。
数据源102在知识库104中存储候选实体-属性对以及由数据源102提取的包括候选实体-属性对的单词的句子。在一些实施方式中,仅当其中存在实体和属性的句子的数目满足(例如,达到或超过)阈值数目的句子(例如,30个句子)时,才将候选实体-属性对存储在知识库104中。因此,通过设置用于确定是否存储数据的阈值来减少存储的数据量。
分类模型114确定(存储在知识库104中的)候选实体-属性对中的属性是否为候选实体-属性对中的实体的实际属性。分类模型114包括路径嵌入引擎106、分布表示引擎108、属性分布引擎110和前馈网络112。如本文中所使用的,术语引擎是指执行任务集的数据处理装置。参考图2描述分类模型114的这些引擎中的每个引擎在确定候选实体-属性对中的属性是否为实体的实际属性时的操作。
图2是用于识别实体属性关系的示例过程200的流程图。下面将过程200的操作描述为由图1中描述和绘示的***的部件执行。下面仅出于说明目的描述过程200的操作。过程200的操作可以由任何适当的设备或***(例如,任何适当的数据处理装置)来执行。过程200的操作还可以被实现为存储在非暂时性计算机可读介质上的指令。指令的实行致使一个或多个数据处理装置以执行过程200的操作。
知识库104从数据源104获得实体-属性候选对,如参考图1所描述的(在202处)。
知识库104从数据源102获得包括候选实体-属性对中的实体和属性的单词的句子集合,如上面参考图1所描述的(在204处)。
分类模型114基于句子集合和候选实体-属性对来确定候选属性是否为候选实体的实际属性。在一些实施方式中,句子集合可以是大量的句子,例如30个或更多个句子。分类模型通过执行以下操作来做出该确定:(1)针对包括实体和属性的句子集合中的单词生成嵌入,下面参考操作206、208和210对其进行更详细的描述;(2)使用已知实体-属性对,生成针对实体的属性分布嵌入,下面参考操作212对其进行更详细的描述;(3)使用已知实体-属性对,生成针对属性的属性分布嵌入,下面参考操作214对其进行更详细的描述;以及(4)基于针对句子集合中单词的嵌入、针对实体的属性分布嵌入和针对属性的属性分布嵌入,确定实体-属性候选对中的属性是否为实体-属性候选对中的实体的实际属性,在下面参考操作216对其进行更详细的描述。下面描述操作206至216。
路径嵌入引擎106生成指定在句子集合中的实体与属性之间的单词的第一嵌入的第一矢量表示(在206处)。路径嵌入引擎106通过嵌入连接句子集合中这些术语的联合发生的路径或单词来检测候选实体-属性术语之间的关系。例如,对于短语“snake is areptile(蛇是爬行动物)”,路径嵌入引擎106生成针对路径“is a(是)”的嵌入,然后可将其用于检测例如属种关系,然后可将该属种关系用于识别其他实体-属性对。通过生成这种路径,需要减少处理以执行这种术语的分析和检测。
路径嵌入引擎106执行以下操作,以生成在句子集合中的实体与属性之间的单词的嵌入。对于句子集合中的每个句子,路径嵌入引擎106首先提取实体与属性之间的依存路径(其指定单词集合)。路径嵌入引擎106将句子从字符串转换为列表,其中第一术语是实体,而最后术语是属性(或者替代地,第一术语是属性,而最后术语是实体)。依存路径中的每个术语(其也被称为边沿)均使用以下特征进行表示:术语的引理、词性标记(part-of-speech tag)、依存标签和依存路径的方向(左、右或根)。将这些特征中的每个嵌入并级联以产生术语或边沿的矢量表示(Ve),其包括矢量序列(V1、Vpos、Vdep、Vdir),如由以下等式所示:
然后,路径嵌入引擎106将每个路径中的术语或边沿的矢量序列输入到长短期记忆(LSTM)网络中,其会产生有关句子的单个矢量表示(Vs),如由以下等式所示:
该单个矢量表示减少了需要存储、处理或传送的数据量。这是因为单个矢量使用的数据比单个矢量表示的所有矢量所需的数据少得多。
最后,路径嵌入引擎106将针对句子集合中所有句子的单个矢量表示输入到注意机制中,其确定句子表示(Vsents(e、a))的加权平均值,如由以下等式所示:
分布表示引擎108基于句子集合而生成针对实体的第二矢量表示和针对属性的第三矢量表示(在208和210处)。分布表示引擎108基于候选实体-属性对的属性和实体在句子集合中发生的上下文来检测候选实体-属性术语之间的关系。用于该处理的基于矢量的方法减少了处理量,并且因此提高了获得结果的速度。例如,分布表示引擎108可以确定实体“New York(纽约)”在句子集合中以表明该实体是指美国的城市或州的方式使用。作为另一示例,分布表示引擎108可以确定属性“首都”在句子集合中以表明该属性是指州或国家的重要城市的方式使用。因此,分布表示引擎108使用其中出现实体的上下文(即,句子集合)来生成指定针对实体的嵌入的矢量表示(Ve)。类似地,分布表示引擎108使用其中出现属性的句子集合来生成指定针对属性的嵌入的矢量表示(Va)。
属性分布引擎110使用已知实体-属性对生成指定针对实体的属性分布嵌入的第四矢量表示(在212处)。存储在知识库104中的已知实体-属性对是已经(例如,由分类模型114使用先前处理或基于人工评估)确认了实体-属性对中的每个属性为实体-属性对中的实体的实际属性的实体-属性对。
在一些实施方式中,属性分布引擎110执行以下操作以确定属性分布嵌入,该属性分布嵌入使用与实体相关联的已知实体-属性对当中的其他已知属性中的一些(例如,最常见的)或全部来指定针对该实体的嵌入。对于实体-属性候选对中的实体,属性分布引擎110识别与已知实体-属性对中的实体相关联的其他属性(即,除了实体-属性候选对中包括的属性之外的属性)。例如,对于候选实体-属性对(Michael Jordan,famous(迈克尔·乔丹,有名))中的实体“Michael Jordan(迈克尔·乔丹)”,属性分布引擎110可以使用有关Michael Jordan(迈克尔·乔丹)的已知实体-属性对,诸如(Michael Jordan,wealthy(迈克尔·乔丹,富有))和(Michael Jordan,record(迈克尔·乔丹,记录)),以识别诸如wealthy(富有)和record(记录)等属性。
然后,属性分布引擎110通过计算已识别的已知属性的加权和(如先前段落中所述)来生成针对实体的嵌入,其中权重是使用/通过注意机制来学习的,如以下等式中所示:
属性分布引擎110使用已知实体-属性对生成指定针对属性的属性分布嵌入的第五矢量表示(在214处)。在一些实施方式中,属性分布引擎110执行以下操作以基于与候选属性的已知实体相关联的已知属性中的一些(例如,最常见的)或全部来确定针对属性的表示。对于实体-属性候选对中的属性,属性分布引擎110识别具有该属性的已知实体-属性对当中的已知实体。对于每个已识别的已知实体,属性分布引擎110识别与已知实体-属性对中的实体相关联的其他属性(即,除了实体-属性候选对中包括的属性之外的属性)。在一些实施方式中,属性分布引擎110可以通过以下方式从已识别的属性中识别属性的子集:(1)基于与每个属性相关联的已知实体的数目来对属性进行排名(例如,较之与较少的实体相关联的属性,将较高的排名指派给与较多数目的实体相关联的属性);以及(2)然后基于该排名而选择阈值数目的属性(例如,选择排名最高的五个属性)。
然后,属性分布引擎110通过计算已识别的已知属性(的全部或子集)的加权和(如先前段落中所述)来生成针对属性的嵌入,其中权重是使用/通过注意机制来学习的,如以下等式中所示:
应当了解,由操作206至214生成的嵌入通常由相应的引擎(106、108、110)并行地生成。
前馈网络112基于矢量表示来确定实体-属性候选对中的属性是否为实体-属性候选对中的实体的实际属性(在216处)。在一些实施方式中,前馈网络112将由路径嵌入引擎106、分布表示引擎108和属性分布引擎110输出的矢量表示中的每个级联成单个矢量表示(V(e、a)),如由以下等式所示:
使用该输入的单个矢量表示,前馈网络112输出候选实体-属性对中的属性是否为候选实体-属性对中的实体的实际属性。在一些实施方式中,前馈网络112的输出可以是二元的。例如,当候选实体-属性对中的属性是候选实体-属性对中的实体的实际属性时,前馈网络112可以输出“是”,而当候选实体-属性对中的属性不是候选实体-属性对中的实体的实际属性时,前馈网络112可以输出“否”。要产生这种二元输出,由于借助于上述过程做出的各种简化,减少了获得这种结果所需的处理量。在一些实施方式中,前馈网络112的输出可以是置信度值(例如,范围从0到1的值),其中0指定候选实体-属性对中的属性不是候选实体-属性对中的实体的实际属性,而1指定候选实体-属性对中的属性是候选实体-属性对中的实体的实际属性。
在一些实施方式中,使用远距离监督来训练前馈网络112。训练使用分类模型114对已识别为真对(即,已将其候选实体-属性对中的属性识别(例如基于人为评估或前馈网络112进行的先前处理)为候选实体-属性对中的实体的实际属性)的候选实体-属性对执行上述处理。
如果前馈网络112的输出指定实体-属性候选对中的属性为实际属性(例如,如果前馈网络112如上所述输出“是”指示符)或具有较高的可能性(例如,如上所述,前馈网络112输出达到或超过某个阈值的置信度值,诸如0.8),则前馈网络112将实体-属性候选对存储为知识库104中的实际实体-属性对。这提供了对所存储的数据的确定性。另外,它确保仅存储相关数据,这反过来又提高了存储的数据的质量,并且减少了存储的数据总量。
图3是可用于执行上述操作的示例计算机***300的框图。***300包括处理器310、存储器320、存储设备330和输入/输出设备340。组件310、320、330和340中的每一个均可以例如使用***总线350来互连。处理器310能够处理在***300内执行的指令。在一个实施方式中,处理器310是单线程处理器。在另一实施方式中,处理器310是多线程处理器。处理器310能够处理存储在存储器320中或在存储设备330上的指令。
存储器320存储***300内的信息。在一个实施方式中,存储器320是计算机可读介质。在一些实施方式中,存储器320是易失性存储器单元。在另一实施方式中,存储器320是非易失性存储器单元。
存储设备330能够为***300提供大容量存储。在一些实施方式中,存储设备330是计算机可读介质。在各种不同的实施方式中,存储设备330可包括例如硬盘设备、光盘设备、由多个计算设备(例如,云存储设备)通过网络共享的存储设备,或某个其它大容量存储设备。
输入/输出设备340为***300提供输入/输出操作。在一些实施方式中,输入/输出设备340可以包括一个或多个网络接口设备(例如,以太网卡)、串行通信设备(例如RS-232端口)和/或无线接口设备(例如,802.11卡)。在另一实施方式中,输入/输出设备可包括被配置为接收输入数据并且向其它输入/输出设备例如键盘、打印机和显示设备360发送输出数据的驱动器设备。然而,还可使用其它实施方式,诸如移动计算设备、移动通信设备、机顶盒电视客户端设备等。
尽管已在图3中描述了示例处理***,但是本说明书中描述的主题和功能操作的实施方式可用其它类型的数字电子电路或者用计算机软件、固件或硬件包括本说明书中公开的结构及其结构等同物或者用它们中的一个或多个的组合加以实现。
本说明书中描述的主题和操作的实施例可用数字电子电路或者用计算机软件、固件或硬件包括本说明书中公开的结构及其结构等同物或者用它们中的一个或多个的组合加以实现。本说明书中描述的主题的实施例可作为编码在计算机存储介质(或多个介质)上以供由数据处理装置执行或者控制数据处理装置的操作的一个或多个计算机程序即计算机程序指令的一个或多个模块被实现。替换地或此外,可将程序指令编码在人工生成的传播信号上,所述传播信号例如为机器生成的电、光或电磁信号,其被生成来对信息进行编码以便传输到适合的接收器装置以供由数据处理装置执行。计算机存储介质可以是或者被包括在计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备或它们中的一个或多个的组合中。此外,虽然计算机存储介质不是传播信号,但是计算机存储介质可以是编码在人工生成的传播信号中的计算机程序指令的源或目的地。计算机存储介质也可以是或者被包括在一个或多个单独的物理组件或介质(例如,多个CD、磁盘或其它存储设备)中。
本说明书中描述的操作可作为由数据处理装置对存储在一个或多个计算机可读存储设备上或者从其它源接收到的数据执行的操作被实现。
术语“数据处理装置”包含用于处理数据的所有种类的装置、设备和机器,作为示例包括可编程处理器、计算机、片上***或多个可编程处理器、计算机、片上***或前述的组合。装置可包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。装置除了包括硬件之外还可包括为所述计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理***、操作***、跨平台运行时环境、虚拟机或它们中的一个或多个的组合的代码。装置和执行环境可实现各种不同的计算模型基础设施,诸如web服务、分布式计算和网格计算基础设施。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可用任何形式的编程语言编写,所述编程语言包括编译或解释语言、声明或过程语言,并且它可被以任何形式部署,包括作为独立程序或者作为模块、组件、子例程、对象或适合于在计算环境中使用的其它单元。计算机程序可以但不必对应于文件***中的文件。可在保持其它程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的一部分中、在专用于所述程序的单个文件中、或者在多个协调文件(例如,存储代码的一个或多个模块、子程序或部分的文件)中存储程序。可将计算机程序部署成在一个计算机上或者在位于一个站点处或者分布在多个站点之上并通过通信网络互连的多个计算机上执行。
本说明书中描述的过程和逻辑流程可通过一个或多个可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行动作而被执行。过程和逻辑流程也可由专用逻辑电路执行,并且装置也可作为专用逻辑电路被实现,所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
作为示例,适合于执行计算机程序的处理器包括通用微处理器和专用微处理器两者。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于依照指令来执行动作的处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括或者在操作上耦合以从用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘)接收数据,或者将数据转移到用于存储数据的一个或多个大容量存储设备,或者兼而有之。然而,计算机不必具有这样的设备。此外,计算机可被嵌入在另一设备中,所述另一设备例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位***(GPS)接收器或便携式存储设备(例如,通用串行总线(USB)闪存驱动器)等等。适合于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备,作为示例包括:半导体存储器设备,例如EPROM、EEPROM和闪速存储器设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充,或者被并入在专用逻辑电路中。
为了提供与用户的交互,可在计算机上实现本说明书中描述的主题的实施例,所述计算机具有用于向用户显示信息的显示设备例如CRT(阴极射线管)或LCD(液晶显示器)监视器以及用户可用来向该计算机提供输入的键盘和指点设备例如鼠标或轨迹球。其它种类的设备也可用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以任何形式接收来自用户的输入,包括声、语音或触觉输入。此外,计算机可通过向由用户使用的设备发送文档并且从由用户使用的设备接收文档来与用户交互;例如,通过响应于从web浏览器接收到的请求而向用户的客户端设备上的web浏览器发送web页面。
本说明书中描述的主题的实施例可被实现在计算***中,所述计算***包括后端组件(例如,作为数据服务器),或者包括中间件组件(例如,应用服务器),或者包括前端组件(例如,具有用户可用来与本说明书中描述的主题的实施方式交互的图形用户界面或Web浏览器的客户端计算机),或者包括一个或多个这样的后端、中间件或前端组件的任何组合。***的组件可通过任何形式或介质的数字数据通信例如通信网络来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互连网络(例如,因特网)和对等网络(例如,自组织对等网络)。
计算***可包括客户端和服务器。客户端和服务器一般地彼此远离并且通常通过通信网络来交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中,服务器向客户端设备发送数据(例如,HTML页面)(例如,用于向与客户端设备交互的用户显示数据并且从与客户端设备交互的用户接收用户输入的目的)。可在服务器处从客户端设备接收在客户端设备处生成的数据(例如,用户交互的结果)。
虽然本说明书包含许多具体实施方式细节,但是这些不应该被解释为对任何发明的或可以要求保护的范围构成限制,而是相反被解释为特定于特定发明的特定实施例的特征的描述。也可在单个实施例中相结合地实现在本说明书中在单独的实施例的上下文中描述的某些特征。相反地,也可单独地或者按照任何适合的子组合在多个实施例中实现在单个实施例的上下文中描述的各种特征。此外,尽管特征可以在上面被描述为按照某些组合起作用并且甚至最初被如此要求保护,但是可在一些情况下从该组合中除去来自要求保护的组合的一个或多个特征,并且所要求保护的组合可以针对子组合或子组合的变化。
类似地,虽然在附图中以特定次序描绘操作,但是这不应该被理解为要求以所示的特定次序或者以顺序次序执行这样的操作,或者要求执行所有图示的操作以实现所希望的结果。在某些情况下,多任务处理和并行处理可以是有利的。此外,上述实施例中的各种***组件的分离不应该被理解为在所有实施例中要求这样的分离,并且应该理解的是,所描述的程序组件和***通常可被一起集成在单个软件产品中或者包装到多个软件产品中。
因此,已经描述了主题的特定实施例。其它实施例在以下权利要求的范围内。在一些情况下,权利要求中记载的动作可被以不同的次序执行并仍然实现所希望的结果。此外,附图中描绘的过程不一定要求所示的特定次序或顺序次序来实现所希望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
Claims (24)
1.一种计算机实现的方法,包括:
获得定义实体和属性的实体-属性候选对,其中所述属性为所述实体的候选属性;
基于包括所述实体和所述属性的句子集合,确定所述属性是否为所述实体-属性候选对中的所述实体的实际属性,所述确定包括:
生成针对包括所述实体和所述属性的所述句子集合中的单词的嵌入;
使用已知实体-属性对来生成针对所述实体的属性分布嵌入,其中针对所述实体的所述属性分布嵌入基于与来自所述已知实体-属性对的所述实体相关联的其他属性来指定针对所述实体的嵌入;
使用所述已知实体-属性对来生成针对所述属性的属性分布嵌入,其中针对所述属性的所述属性分布嵌入指定针对基于已知属性的所述属性的嵌入,所述已知属性与所述已知实体-属性对中的所述属性的已知实体相关联;
基于针对所述句子集合中的单词的嵌入、针对所述实体的所述属性分布嵌入和针对所述属性的所述属性分布嵌入,确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性。
2.根据权利要求1所述的计算机实现的方法,其中生成针对包括所述实体和所述属性的所述句子集合中的单词的嵌入包括:
生成第一矢量表示,所述第一矢量表示指定在所述句子集合中的所述实体与所述属性之间的单词的第一嵌入;
基于所述句子集合,生成指定针对所述实体的第二嵌入的第二矢量表示;以及
基于所述句子集合,生成指定针对所述属性的第三嵌入的第三矢量表示。
3.根据权利要求2所述的计算机实现的方法,其中:
使用已知实体-属性对来生成针对所述实体的所述属性分布嵌入包括:使用已知实体-属性对来生成第四矢量表示,所述第四矢量表示指定针对所述实体的所述属性分布嵌入;以及
使用所述已知实体-属性对来生成针对所述属性的所述属性分布嵌入包括:使用已知实体-属性对来生成第五矢量表示,所述第五矢量表示指定针对所述属性的所述属性分布嵌入。
4.根据权利要求3所述的计算机实现的方法,其中,基于针对所述句子集合中的单词的嵌入、针对所述实体的所述属性分布嵌入和针对所述属性的所述属性分布嵌入来确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性包括:
基于所述第一矢量表示、所述第二矢量表示、所述第三矢量表示、所述第四矢量表示和所述第五矢量表示,确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性。
5.根据权利要求4所述的计算机实现的方法,其中,使用前馈网络来执行基于所述第一矢量表示、所述第二矢量表示、所述第三矢量表示、所述第四矢量表示和所述第五矢量表示确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性的操作。
6.根据权利要求5所述的计算机实现的方法,其中,基于所述第一矢量表示、所述第二矢量表示、所述第三矢量表示、所述第四矢量表示和所述第五矢量表示来确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性包括:
通过将所述第一矢量表示、所述第二矢量表示、所述第三矢量表示、所述第四矢量表示和所述第五矢量表示进行级联来生成单个矢量表示;
将所述单个矢量表示输入到所述前馈网络中;以及
通过所述前馈网络并且使用所述单个矢量表示,确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性。
7.根据权利要求3-6中任一项所述的计算机实现的方法,其中,使用已知实体-属性对来生成第四矢量表示、所述第四矢量表示指定针对所述实体的所述属性分布嵌入包括:
识别与所述已知实体-属性对中的所述实体相关联的属性集合,其中所述属性集合不包括所述属性;以及
通过计算所述属性集合中的属性的加权和,生成针对所述实体的所述属性分布嵌入。
8.根据权利要求3-7中任一项所述的计算机实现的方法,其中,使用已知实体-属性对来生成第五矢量表示、所述第五矢量表示指定针对所述属性的所述属性分布嵌入包括:
使用所述属性,从所述已知实体-属性对中识别实体集合;
对于所述实体集合中的每个实体,识别与所述实体相关联的属性集合,其中所述属性集合不包括所述属性;以及
通过计算所述属性集合中的属性的加权和,生成针对所述属性的所述属性分布嵌入。
9.一种***,包括:
存储指令的一个或多个存储器设备;和
一个或多个数据处理装置,所述一个或多个数据处理装置被配置为与所述一个或多个存储器设备进行交互,并且在执行所述指令时执行包括以下的操作:
获得定义实体和属性的实体属性候选对,其中,所述属性为所述实体的候选属性;
基于包括所述实体和所述属性的句子集合,确定所述属性是否为所述实体-属性候选对中的所述实体的实际属性,所述确定包括:
生成针对包括所述实体和所述属性的所述句子集合中的单词的嵌入;
使用已知实体-属性对生成针对所述实体的属性分布嵌入,其中,针对所述实体的所述属性分布嵌入基于与来自所述已知实体-属性对的所述实体相关联的其他属性来指定针对所述实体的嵌入;
使用所述已知实体-属性对来生成针对所述属性的属性分布嵌入,其中针对所述属性的所述属性分布嵌入指定针对基于已知属性的所述属性的嵌入,所述已知属性与所述已知实体-属性对中的所述属性的已知实体相关联;
基于针对所述句子集合中单词的嵌入、针对所述实体的所述属性分布嵌入和针对所述属性的所述属性分布嵌入,确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性。
10.根据权利要求9所述的***,其中,生成针对包括所述实体和所述属性的所述句子集合中的单词的嵌入包括:
生成第一矢量表示,所述第一矢量表示指定在所述句子集合中的所述实体与所述属性之间的单词的第一嵌入;
基于所述句子集合,生成指定针对所述实体的第二嵌入的第二矢量表示;以及
基于所述句子集合,生成指定针对所述属性的第三嵌入的第三矢量表示。
11.根据权利要求10所述的***,其中:
使用已知实体-属性对来生成针对所述实体的所述属性分布嵌入包括:使用已知实体-属性对来生成第四矢量表示,所述第四矢量表示指定针对所述实体的所述属性分布嵌入;以及
使用所述已知实体-属性对来生成针对所述属性的所述属性分布嵌入包括:使用已知实体-属性对来生成第五矢量表示,所述第五矢量表示指定针对所述属性的所述属性分布嵌入。
12.根据权利要求11所述的***,其中,基于针对所述句子集合中的单词的嵌入、针对所述实体的所述属性分布嵌入和针对所述属性的所述属性分布嵌入来确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性包括:
基于所述第一矢量表示、所述第二矢量表示、所述第三矢量表示、所述第四矢量表示和所述第五矢量表示,确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性。
13.根据权利要求12所述的***,其中,使用前馈网络来执行基于所述第一矢量表示、所述第二矢量表示、所述第三矢量表示、所述第四矢量表示以及所述第五矢量表示确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性的操作。
14.根据权利要求13所述的***,其中,基于所述第一矢量表示、所述第二矢量表示、所述第三矢量表示、所述第四矢量表示以及所述第五矢量表示来确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性包括:
通过将所述第一矢量表示、所述第二矢量表示、所述第三矢量表示、所述第四矢量表示和所述第五矢量表示进行级联来生成单个矢量表示;
将所述单个矢量表示输入到所述前馈网络中;以及
通过所述前馈网络并且使用所述单个矢量表示,确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性。
15.根据权利要求11-14中的任一项所述的***,其中,使用已知实体-属性对来生成第四矢量表示、所述第四矢量表示指定针对所述实体的所述属性分布嵌入包括:
识别与所述已知实体-属性对中的所述实体相关联的属性集合,其中所述属性集合不包括所述属性;以及
通过计算所述属性集合中的属性的加权和,生成针对所述实体的所述属性分布嵌入。
16.根据权利要求11-15中的任一项所述的***,其中,使用已知实体-属性对来生成第五矢量表示、所述第五矢量表示指定针对所述属性的所述属性分布嵌入包括:
使用所述属性,从所述已知实体-属性对中识别实体集合;
对于所述实体集合中的每个实体,识别与所述实体相关联的属性集合,其中所述属性集合不包括所述属性;以及
通过计算所述属性集合中的属性的加权和,生成针对所述属性的所述属性分布嵌入。
17.一种存储指令的非暂时性计算机可读介质,当所述指令由一个或多个数据处理装置执行时,使所述一个或多个数据处理装置执行包括下述的操作:
获得定义实体和属性的实体-属性候选对,其中所述属性为所述实体的候选属性;
基于包括所述实体和所述属性的句子集合,确定所述属性是否为所述实体-属性候选对中的所述实体的实际属性,所述确定包括:
生成针对包括所述实体和所述属性的所述句子集合中的单词的嵌入;
使用已知实体-属性对来生成针对所述实体的属性分布嵌入,其中针对所述实体的所述属性分布嵌入基于与来自所述已知实体-属性对的所述实体相关联的其他属性来指定针对所述实体的嵌入;
使用所述已知实体-属性对生成针对所述属性的属性分布嵌入,其中针对所述属性的所述属性分布嵌入指定针对基于已知属性的所述属性的嵌入,所述已知属性与所述已知实体-属性对中的所述属性的已知实体相关联;
基于针对所述句子集合中的单词的嵌入、针对所述实体的所述属性分布嵌入和针对所述属性的所述属性分布嵌入,确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性。
18.根据权利要求17所述的非暂时性计算机可读存储介质,其中生成针对包括所述实体和所述属性的所述句子集合中的单词的嵌入包括:
生成第一矢量表示,所述第一矢量表示指定在所述句子集合中的所述实体与所述属性之间的单词的第一嵌入;
基于所述句子集合,生成指定针对所述实体的第二嵌入的第二矢量表示;以及
基于所述句子集合,生成指定针对所述属性的第三嵌入的第三矢量表示。
19.根据权利要求18所述的非暂时性计算机可读介质,其中:
使用已知实体-属性对来生成针对所述实体的所述属性分布嵌入包括:使用已知实体-属性对来生成第四矢量表示,所述第四矢量表示指定针对所述实体的所述属性分布嵌入;以及
使用所述已知实体-属性对来生成针对所述属性的所述属性分布嵌入包括:使用已知实体-属性对来生成第五矢量表示,所述第五矢量表示指定针对所述属性的所述属性分布嵌入。
20.根据权利要求19所述的非暂时性计算机可读介质,其中,基于针对所述句子集合中的单词的嵌入、针对所述实体的所述属性分布嵌入和针对所述属性的所述属性分布嵌入来确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性包括:
基于所述第一矢量表示、所述第二矢量表示、所述第三矢量表示、所述第四矢量表示和所述第五矢量表示,确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性。
21.根据权利要求20所述的非暂时性计算机可读介质,其中,使用前馈网络来执行基于所述第一矢量表示、所述第二矢量表示、所述第三矢量表示、所述第四矢量表示和所述第五矢量表示确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性的操作。
22.根据权利要求21所述的非暂时性计算机可读介质,其中,基于所述第一矢量表示、所述第二矢量表示、所述第三矢量表示、所述第四矢量表示和所述第五矢量表示来确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性包括:
通过将所述第一矢量表示、所述第二矢量表示、所述第三矢量表示、所述第四矢量表示和所述第五矢量表示进行级联来生成单个矢量表示;
将所述单个矢量表示输入到所述前馈网络中;以及
通过所述前馈网络并且使用所述单个矢量表示,确定所述实体-属性候选对中的所述属性是否为所述实体-属性候选对中的所述实体的实际属性。
23.根据权利要求19-22中任一项所述的非暂时性计算机可读介质,其中,使用已知实体-属性对来生成第四矢量表示、所述第四矢量表示指定针对所述实体的所述属性分布嵌入包括:
识别与所述已知实体-属性对中的所述实体相关联的属性集合,其中所述属性集合不包括所述属性;以及
通过计算所述属性集合中的属性的加权和,生成针对所述实体的所述属性分布嵌入。
24.根据权利要求19-23中任一项所述的非暂时性计算机可读介质,其中,使用已知实体-属性对来生成第五矢量表示、所述第五矢量表示指定针对所述属性的所述属性分布嵌入包括:
使用所述属性,从所述已知实体-属性对中识别实体集合;
对于所述实体集合中的每个实体,识别与所述实体相关联的属性集合,其中所述属性集合不包括所述属性;以及
通过计算所述属性集合中的属性的加权和,生成针对所述属性的所述属性分布嵌入。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/504,068 | 2019-07-05 | ||
US16/504,068 US11263400B2 (en) | 2019-07-05 | 2019-07-05 | Identifying entity attribute relations |
PCT/US2020/040890 WO2021007159A1 (en) | 2019-07-05 | 2020-07-06 | Identifying entity attribute relations |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112805715A true CN112805715A (zh) | 2021-05-14 |
Family
ID=71895199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080005433.XA Pending CN112805715A (zh) | 2019-07-05 | 2020-07-06 | 识别实体属性关系 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11263400B2 (zh) |
KR (1) | KR20210034679A (zh) |
CN (1) | CN112805715A (zh) |
WO (1) | WO2021007159A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128196A (zh) * | 2021-05-19 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 文本信息处理方法及其装置、存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220050967A1 (en) * | 2020-08-11 | 2022-02-17 | Adobe Inc. | Extracting definitions from documents utilizing definition-labeling-dependent machine learning background |
US11929062B2 (en) * | 2020-09-15 | 2024-03-12 | International Business Machines Corporation | End-to-end spoken language understanding without full transcripts |
CN112926329B (zh) * | 2021-03-10 | 2024-02-20 | 招商银行股份有限公司 | 文本生成方法、装置、设备及计算机可读存储介质 |
US20220318669A1 (en) * | 2021-04-01 | 2022-10-06 | Salesforce.Com, Inc. | Training a machine learning model using structured data |
US11893352B2 (en) * | 2021-04-22 | 2024-02-06 | Adobe Inc. | Dependency path reasoning for measurement extraction |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169533A (zh) * | 2011-05-11 | 2011-08-31 | 华南理工大学 | 一种商用网页恶意篡改检测方法 |
US20120072387A1 (en) * | 2009-05-18 | 2012-03-22 | Takatoshi Yanase | Knowledge base system, logic operation method, program, and recording medium |
CN103207913A (zh) * | 2013-04-15 | 2013-07-17 | 武汉理工大学 | 商品细粒度语义关系的获取方法和*** |
CN104081385A (zh) * | 2011-04-29 | 2014-10-01 | 汤姆森路透社全球资源公司 | 从文档表示信息 |
US20150310096A1 (en) * | 2014-04-29 | 2015-10-29 | International Business Machines Corporation | Comparing document contents using a constructed topic model |
CN107688616A (zh) * | 2016-08-05 | 2018-02-13 | 谷歌有限责任公司 | 使实体的独特事实显现 |
CN108052577A (zh) * | 2017-12-08 | 2018-05-18 | 北京百度网讯科技有限公司 | 一种通用文本内容挖掘方法、装置、服务器及存储介质 |
CN108257608A (zh) * | 2016-12-29 | 2018-07-06 | 谷歌有限责任公司 | 自动语音发音归属 |
CN108805290A (zh) * | 2018-06-28 | 2018-11-13 | 国信优易数据有限公司 | 一种实体类别的确定方法及装置 |
CN109783651A (zh) * | 2019-01-29 | 2019-05-21 | 北京百度网讯科技有限公司 | 提取实体相关信息的方法、装置、电子设备和存储介质 |
CN109800411A (zh) * | 2018-12-03 | 2019-05-24 | 哈尔滨工业大学(深圳) | 临床医疗实体及其属性抽取方法 |
CN109885697A (zh) * | 2019-02-01 | 2019-06-14 | 北京百度网讯科技有限公司 | 构建数据模型的方法、装置、设备和介质 |
CN109933785A (zh) * | 2019-02-03 | 2019-06-25 | 北京百度网讯科技有限公司 | 用于实体关联的方法、装置、设备和介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9110852B1 (en) * | 2012-07-20 | 2015-08-18 | Google Inc. | Methods and systems for extracting information from text |
US9501503B2 (en) * | 2013-05-09 | 2016-11-22 | Microsoft Technology Licensing, Llc | Inferring entity attribute values |
US9864795B1 (en) * | 2013-10-28 | 2018-01-09 | Google Inc. | Identifying entity attributes |
US9898458B2 (en) | 2015-05-08 | 2018-02-20 | International Business Machines Corporation | Generating distributed word embeddings using structured information |
CN107977368B (zh) | 2016-10-21 | 2021-12-10 | 京东方科技集团股份有限公司 | 信息提取方法及*** |
US11361242B2 (en) | 2016-10-28 | 2022-06-14 | Meta Platforms, Inc. | Generating recommendations using a deep-learning model |
CN107783960B (zh) | 2017-10-23 | 2021-07-23 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
CN108073711B (zh) | 2017-12-21 | 2022-01-11 | 北京大学深圳研究生院 | 一种基于知识图谱的关系抽取方法和*** |
US10803248B1 (en) * | 2018-01-04 | 2020-10-13 | Facebook, Inc. | Consumer insights analysis using word embeddings |
US20190286978A1 (en) * | 2018-03-14 | 2019-09-19 | Adobe Inc. | Using natural language processing and deep learning for mapping any schema data to a hierarchical standard data model (xdm) |
US20190327330A1 (en) * | 2018-04-20 | 2019-10-24 | Facebook, Inc. | Building Customized User Profiles Based on Conversational Data |
US11487791B2 (en) * | 2019-03-29 | 2022-11-01 | Microsoft Technology Licensing, Llc | Latent feature extraction from a network graph |
US11875253B2 (en) * | 2019-06-17 | 2024-01-16 | International Business Machines Corporation | Low-resource entity resolution with transfer learning |
-
2019
- 2019-07-05 US US16/504,068 patent/US11263400B2/en active Active
-
2020
- 2020-07-06 KR KR1020217008154A patent/KR20210034679A/ko active IP Right Grant
- 2020-07-06 WO PCT/US2020/040890 patent/WO2021007159A1/en active Application Filing
- 2020-07-06 CN CN202080005433.XA patent/CN112805715A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120072387A1 (en) * | 2009-05-18 | 2012-03-22 | Takatoshi Yanase | Knowledge base system, logic operation method, program, and recording medium |
CN104081385A (zh) * | 2011-04-29 | 2014-10-01 | 汤姆森路透社全球资源公司 | 从文档表示信息 |
CN102169533A (zh) * | 2011-05-11 | 2011-08-31 | 华南理工大学 | 一种商用网页恶意篡改检测方法 |
CN103207913A (zh) * | 2013-04-15 | 2013-07-17 | 武汉理工大学 | 商品细粒度语义关系的获取方法和*** |
US20150310096A1 (en) * | 2014-04-29 | 2015-10-29 | International Business Machines Corporation | Comparing document contents using a constructed topic model |
CN107688616A (zh) * | 2016-08-05 | 2018-02-13 | 谷歌有限责任公司 | 使实体的独特事实显现 |
CN108257608A (zh) * | 2016-12-29 | 2018-07-06 | 谷歌有限责任公司 | 自动语音发音归属 |
CN108052577A (zh) * | 2017-12-08 | 2018-05-18 | 北京百度网讯科技有限公司 | 一种通用文本内容挖掘方法、装置、服务器及存储介质 |
CN108805290A (zh) * | 2018-06-28 | 2018-11-13 | 国信优易数据有限公司 | 一种实体类别的确定方法及装置 |
CN109800411A (zh) * | 2018-12-03 | 2019-05-24 | 哈尔滨工业大学(深圳) | 临床医疗实体及其属性抽取方法 |
CN109783651A (zh) * | 2019-01-29 | 2019-05-21 | 北京百度网讯科技有限公司 | 提取实体相关信息的方法、装置、电子设备和存储介质 |
CN109885697A (zh) * | 2019-02-01 | 2019-06-14 | 北京百度网讯科技有限公司 | 构建数据模型的方法、装置、设备和介质 |
CN109933785A (zh) * | 2019-02-03 | 2019-06-25 | 北京百度网讯科技有限公司 | 用于实体关联的方法、装置、设备和介质 |
Non-Patent Citations (5)
Title |
---|
KATRIN ERK等: "Improving Hypernymy Detection with an Integrated Path-based and Distributional Method", PROCEEDINGS OF THE 54TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, pages 2389 * |
刘丽佳;郭剑毅;周兰江;余正涛;邵发;张金鹏;: "基于LM算法的领域概念实体属性关系抽取", 中文信息学报, vol. 28, no. 06, pages 216 * |
刘建伟等: "生成对抗网络在各领域应用研究进展", 自动化学报, vol. 46, no. 12, pages 2500 * |
胡静等: "机器学习及其神经网络分类器优化设计", 中国博士学位论文全文数据库信息科技辑, no. 4, pages 140 - 5 * |
车海燕;孙吉贵;荆涛;白曦;: "一个基于本体主题的中文知识获取方法", 计算机科学与探索, vol. 1, no. 02, pages 206 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128196A (zh) * | 2021-05-19 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 文本信息处理方法及其装置、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US11263400B2 (en) | 2022-03-01 |
US20210004438A1 (en) | 2021-01-07 |
WO2021007159A1 (en) | 2021-01-14 |
KR20210034679A (ko) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2020321751B2 (en) | Neural network system for text classification | |
US9373075B2 (en) | Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation | |
US11263400B2 (en) | Identifying entity attribute relations | |
US10303767B2 (en) | System and method for supplementing a question answering system with mixed-language source documents | |
US20160283468A1 (en) | Context Based Synonym Filtering for Natural Language Processing Systems | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
US10783179B2 (en) | Automated article summarization, visualization and analysis using cognitive services | |
US10303766B2 (en) | System and method for supplementing a question answering system with mixed-language source documents | |
US20170371955A1 (en) | System and method for precise domain question and answer generation for use as ground truth | |
US8463591B1 (en) | Efficient polynomial mapping of data for use with linear support vector machines | |
US20170371956A1 (en) | System and method for precise domain question and answer generation for use as ground truth | |
Kim et al. | Applying a convolutional neural network to legal question answering | |
Nasim et al. | ABSA toolkit: An open source tool for aspect based sentiment analysis | |
Hourrane et al. | Using deep learning word embeddings for citations similarity in academic papers | |
Barik et al. | Analysis of customer reviews with an improved VADER lexicon classifier | |
Brum et al. | Semi-supervised sentiment annotation of large corpora | |
Chakma et al. | 5W1H-Based semantic segmentation of tweets for event detection using BERT | |
US20230042683A1 (en) | Identifying and transforming text difficult to understand by user | |
US20220335066A1 (en) | Efficient tagging of content items using multi-granular embeddings | |
Kim et al. | Question answering of bar exams by paraphrasing and legal text analysis | |
Bhalerao et al. | Social media mining using machine learning techniques as a survey | |
Zhou et al. | Nested causality extraction on traffic accident texts as question answering | |
Hernandez Barrera et al. | Automated creation of a repository for learning words in the area of computer science by keyword extraction methods and text classification | |
Mansur et al. | Text Analytics and Machine Learning (TML) CS5604 Fall 2019 | |
Kadam et al. | Multilingual Information Retrieval Chatbot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |