CN111625623B

CN111625623B - 文本主题提取方法、装置、计算机设备、介质和程序产品

Info

Publication number: CN111625623B
Application number: CN202010359673.1A
Authority: CN
Inventors: 杨宇轩; 王仕宇
Original assignee: Qax Technology Group Inc; Secworld Information Technology Beijing Co Ltd
Current assignee: Qax Technology Group Inc; Secworld Information Technology Beijing Co Ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2023-09-08
Anticipated expiration: 2040-04-29
Also published as: CN111625623A

Abstract

本公开提供了一种由计算机设备执行的文本主题提取方法，包括：获取待处理文本。基于待处理文本，构建至少一个查询语句。基于预先构建的用于表征待处理文本的知识库，利用逻辑推理算法验证所构建的至少一个查询语句的真伪，其中，知识库由逻辑式表达，至少一个查询语句由逻辑式表达。并且基于上述至少一个查询语句中被验证为真的查询语句，确定待处理文本的主题。本公开还提供了一种设置于计算机设备的主题文本提取装置、计算机设备、介质和程序产品。

Description

文本主题提取方法、装置、计算机设备、介质和程序产品

技术领域

本公开涉及一种文本主题提取方法、装置、计算机设备、介质和程序产品。

背景技术

在自然语言处理(Natural Language Processing，NLP)领域，以文本为处理对象，从中提取出文本主题具有重要的意义。可以广泛应用于例如文本主题标引、文本分类、自动摘要、案例检索等多种场景。

在一种文本主题提取方案中，通常利用预先设定的主题模板和主题库，结合一些模糊语句生成主题。该方案针对不同文本缺乏自适应能力，导致所提取的主题不能准确概括文本信息。在另一种文本主题提取方案中，通常利用深度学习模型提取文本主题，该方案需要大量人工标注的训练数据、较高的计算能力、长时间的训练和调试，成本较高。

发明内容

本公开的一个方面提供了一种由计算机设备执行的文本主题提取方法，包括：获取待处理文本。基于待处理文本，构建至少一个查询语句。基于预先构建的用于表征待处理文本的知识库，利用逻辑推理算法验证所构建的至少一个查询语句的真伪，其中，知识库由逻辑式表达，至少一个查询语句由逻辑式表达。并且基于上述至少一个查询语句中被验证为真的查询语句，确定待处理文本的主题。

可选地，上述方法还包括：构建用于表征待处理文本的知识库。上述构建用于表征待处理文本的知识库具体包括：获取待处理文本中的语义特征。其中，语义特征包括：实体集合、关键词集合、共现关系集合和事件组集合。基于所获取的语义特征，定义针对待处理文本的事实。基于针对待处理文本的事实，定义针对待处理文本的规则。由上述针对待处理文本的事实和上述针对待处理文本的规则，构成知识库。

可选地，上述基于语义特征，定义针对待处理文本的事实包括：利用预先构建的类别模型对上述实体集合进行处理，以确定上述实体集合中的至少一个实体各自的词类别。并且，根据上述至少一个实体各自的词类别，定义与上述至少一个实体相对应的至少一个实体事实。

可选地，上述基于语义特征，定义针对待处理文本的事实还包括：利用类别模型对上述关键词集合进行处理，以确定上述关键词集合中的至少一个关键词各自的词类别。并且，根据上述至少一个关键词各自的词类别，定义与上述至少一个关键词相对应的至少一个关键词事实。

可选地，上述共现关系集合包括如下至少一项：实体和实体之间的共现关系，实体和关键词之间的共现关系，以及关键词和关键词之间的共现关系。上述基于语义特征，定义针对待处理文本的事实还包括：根据上述至少一个实体事实和/或上述至少一个关键词事实，定义与上述共现关系集合中的至少一个共现关系相对应的至少一个共现关系事实。

可选地，上述基于语义特征，定义针对待处理文本的事实还包括：根据上述至少一个实体事实和上述至少一个关键词事实，定义与上述事件组集合中的至少一个事件组相对应的至少一个事件组事实。其中，上述至少一个事件组中的每个事件组由三个以上的实体和/或关键词构成。

可选地，上述基于针对待处理文本的事实，定义针对待处理文本的规则包括：利用预先构建的主题模型对待处理文本进行处理，以确定待处理文本的多个主题类别和所述多个主题类别中每个主题类别的词分布。并且，针对上述多个主题类别中的任一主题类别，根据该任一主题类别的词分布、上述至少一个实体事实、上述至少一个关键词事实、上述至少一个共现关系事实、以及上述至少一个事件组事实，定义针对该任一主题类别的规则。

可选地，上述方法还包括：基于类别模型构建主题模型，主题模型的主题类别集合为类别模型的词类别集合的子集。

可选地，上述基于待处理文本，构建至少一个查询语句包括：根据上述多个主题类别、上述至少一个实体和上述至少一个关键词，构建上述至少一个查询语句。此外，上述基于所述知识库，利用逻辑推理算法验证所述至少一个查询语句的真伪包括：针对至少一个查询语句中的任一查询语句，基于谓词逻辑在知识库中进行归结演算，并当归结演算结果均成立时，确定该任一查询语句为真。

可选地，上述基于至少一个查询语句中被验证为真的查询语句，确定待处理文本的主题包括：获取被验证为真的一个或多个查询语句所包含的多个词。对所获取的多个词进行依存句法分析，以确定该多个词在待处理文本中的相互依存关系。并且，基于上述相互依存关系，对多个词进行筛选、补充、以及组合，以得到待处理文本的主题。

本公开的另一个方面提供了一种设置于计算机设备的文本主题提取装置，包括：文本获取模块、查询模块、验证模块和主题确定模块。文本获取模块用于获取待处理文本。查询模块用于基于待处理文本，构建至少一个查询语句。。验证模块用于基于预先构建的用于表征待处理文本的知识库，利用逻辑推理算法验证所构建的至少一个查询语句的真伪。其中，知识库由逻辑式表达，至少一个查询语句由逻辑式表达。主题确定模块用于基于上述至少一个查询语句中被验证为真的查询语句，确定待处理文本的主题。

本公开的另一个方面提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如上文中任一实施例所述的方法。

本公开的另一个方面提供了一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。处理器执行计算机程序时用于实现如上文中任一实施例所述的方法。

本公开的另一个方面提供了一种计算机程序产品，包括计算机可读指令。其中，计算机可读指令被执行时用于执行如上文中任一实施例所述的方法。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开实施例的文本主题提取方法和装置的应用场景；

图2示意性示出了根据本公开实施例的文本主题提取方法的流程图；

图3A示意性示出了根据本公开另一实施例的文本主题提取方法的示例流程图；

图3B示意性示出了根据本公开另一实施例的文本主题提取方法的示例流程图；

图4示意性示出了根据本公开另一实施例的文本主题提取方法的示例流程图；

图5示意性示出了根据本公开另一实施例的文本主题提取方法的示例流程图；

图6A示意性示出了根据本公开实施例的文本主题提取装置的框图；

图6B示意性示出了根据本公开另一实施例的文本主题提取装置的框图；以及

图7示意性示出了根据本公开实施例的计算机设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释 (例如，“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和 C、和/或具有A、B、C的***等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A 和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行***使用或者结合指令执行***使用。

本公开的一个方面提供了一种由计算机设备执行的文本主题提取方法。该方法可以包括文本获取过程、查询过程、验证过程和主题确定过程。在文本获取过程，获取待处理文本。在查询过程，基于待处理文本，构建至少一个查询语句。在验证过程，基于预先构建的用于表征待处理文本的知识库，验证所构建的至少一个查询语句的真伪。在得到验证结果后进入主题确定过程，基于上述至少一个查询语句中被验证为真的查询语句，确定待处理文本的主题。

图1示意性示出了根据本公开实施例的文本主题提取方法和装置的应用场景。需要注意的是，图1所示仅为可以应用本公开实施例的场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。

如图1所示，该应用场景可以包括终端设备101、102、103，网络 104和服务器/服务器集群105。

终端设备101、102、103可以是各种电子设备，例如智能手机、平板电脑、便携式计算机、台式计算机等。终端设备101、102、103中可以安装各种应用程序以执行不同功能。服务器/服务器集群105相较于终端设备101、102、103可以具有更强的计算能力。服务器/服务器集群 105可以为终端设备101、102、103提供各种后台支持服务。网络104 是用以在终端设备101、102、103和服务器/服务器集群105之间提供通信链路的介质。

根据本公开实施例的文本主题提取方法可以由终端设备101、102、 103执行，相应地，根据本公开实施例的文本主题提取装置可以设置于终端设备101、102、103中。此外，根据本公开实施例的文本主题提取方法也可以由服务器/服务器集群105执行，相应地，根据本公开实施例的文本主题提取装置可以设置于服务器/服务器集群105中。

应当理解，图1中的终端设备、网络和服务器/服务器集群的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器/服务器集群。

根据本公开实施例，提供了一种文本主题提取方法，以尽量兼顾较高的准确率和较低的成本，下面结合图例对该方法进行示例性说明。应注意，以下方法中各个步骤的序号仅作为该步骤的表示以便描述，而不应被看作表示该各个步骤的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的文本主题提取方法的流程图，该方法可以由各种类型的计算机设备执行。

如图2所示，该方法可以包括操作S210～S240。

在操作S210，获取待处理文本。

在操作S220，基于待处理文本，构建至少一个查询语句(query)。

示例性地，上述至少一个查询语句中的每个查询语句均可以由逻辑式来表达。例如，每个查询语句可以表征待处理文本中的部分信息与待处理文本的主题之间的逻辑关系，而后续操作中针对查询语句的验证过程则旨在验证查询语句所蕴含的逻辑关系是否成立。

在操作S230，基于预先构建的用于表征待处理文本的知识库 (knowledge base)，利用逻辑推理算法验证所构建的至少一个查询语句的真伪。

示例性地，预先构建的知识库可以由一个或多个逻辑式来表达。知识库可以包括待处理文本所蕴含的部分或全部逻辑关系。

示例性地，本操作S230在知识库所包含的成立的逻辑关系的基础上进行逻辑推理，以验证查询语句中的逻辑关系是否成立。当一个查询语句中的逻辑关系成立时，该查询语句被验证为真。否则该查询语句被验证为伪。

在操作S240，基于上述至少一个查询语句中被验证为真的查询语句，确定待处理文本的主题。

本领域技术人员可以理解，根据本公开实施例的文本主题提取方法基于计算机设备中的逻辑编程(logic programming)来实现。针对待处理文本，预先构建能够表征该待处理文本的知识库，即通过知识库来表征待处理文本所蕴含的逻辑关系。然后基于该知识库可以验证查询语句的真伪，从而根据被验证为真的查询语句来确定待处理文本的主题。上述过程依据待处理文本所蕴含的逻辑关系来构建知识库，针对不同文本具有自适应性，所提取出的文本主题能够更为准确地概括文本信息。此外，上述过程无需进行数据标注、训练和调试，成本低且高效。

图3A～图3B示意性示出了根据本公开另一实施例的文本主题提取方法的示例流程图，用于示例性地说明预先构建用于表征待处理文本的知识库的实施过程。

如图3A所示，在基于知识库验证至少一个查询语句的真伪之前，上述方法还可以包括：操作S250，构建用于表征待处理文本的知识库。

如图3B所示，该构建用于表征待处理文本的知识库的过程例如可以包括操作S251～S254。

在操作S251，获取待处理文本中的语义特征。

根据本公开的实施例，语义特征可以包括：实体(entity)集合、关键词(keyword)集合、共现关系(co-occurrence)集合和事件组(event) 集合。其中，实体集合可以由一个或多个命名实体(named entity)构成，关键词集合可以由一个或多个关键词构成。共现关系集合可以由一个或多个共现关系构成，每个共现关系用于表征多个文本成分之间的共现关系。事件组可以由一个或多个事件组构成，每个事件组由三个以上文本成分构成，例如任一事件组可以是三元组(triple)。

示例性地，在获取到待处理文本后，可以先对待处理文本进行分句处理，再依据分句处理的结果进行分词处理并进行词性标注，从而得到待处理文本的预处理结果。在此基础上，可以利用各种命名实体识别(Named Entity Recognition，NER)方法来从上述预处理结果中提取一个或多个命名实体，以构成实体集合。命名实体识别的主要任务是识别出文本中的例如人名、地名、机构等类别的专有名词。例如采用BERT(Bidirectional EncoderRepresentations from Transformers，来自变换器的双向编码器表示)模型结合双向LSTM(Long Short Term Memroy，长短时记忆)神经网络和CRF(Conditional Random Field，条件随机场)对待处理文本进行命名实体识别。

示例性地，可以利用各种关键词提取方法来从上述预处理结果中提取一个或多个关键词，以构成关键词集合。关键词是能够表征文本主题性和关键性的内容，是文本内容理解的最小单位。关键词提取方法是从文本把与文本所表达的意义最相关的一些词或短语抽取出来。例如采用TextRank(文本排序)方法对待处理文本进行关键词提取。在其他例子中，也采用TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆向文档频率)或LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)模型等进行关键词提取，在此不做限制。

在获取到待处理文本中的实体集合和关键词集合后，可以确定与实体和/或关键词相关的共现关系，以构成共现关系集合。例如共现关系可以包括如下至少一项：实体与实体之间的共现关系、实体与关键词之间的共现关系、以及关键词与关键词之间的共现关系。

此外，根据本公开的实施例，还可以对待处理文本进行依存句法分析(dependencysyntactic parsing)，用于确定待处理文本中的句子的句法结构或者句子中词汇之间的依存关系。从而根据上述依存句法分析结果和所确定的共现关系来提取待处理文本中存在动宾关系的短语以作为事件组，以构成事件组集合。

在本公开的一个实施例中，在获取待处理文本的上述语义特征之前，可以先对待处理文本进行数据清理。例如过滤待处理文本中的异常字符、符号、格式、敏感词等，以消除待处理文本中的噪声信息的影响。上述获取待处理文本的语义特征的过程可以针对经过数据清洗后的待处理文本进行，从而提高文本主题提取的准确率。

继续参考图3，在操作S252，基于所获取的语义特征，定义针对待处理文本的事实(fact)。

其中，事实是指无条件为真的一些事物、状态或者关系，可以由各种形式的逻辑式进行表达。在一些逻辑编程语言范式中，事实可以由霍恩(horn)子句表达，此时，事实表示为无条件子句。例如事实p 如公式(1)所示。

p(q₁，q₂，…，q_k) 公式(1)

本例中k为大于等于3的整数。在其他例子中，当k为1时，事实p可以表达为p(q₁)，当k为2时，事实p可以表达为p(q₁，q₂)。q_i可称为变元，i为大于等于1且小于等于k的整数。由于子句表示形式单一，非常适合在计算机设备中使用，易于计算机设备进行逻辑推理。

根据本公开的实施例，事实定义过程可以结合从待处理文本中识别出的实体、关键词的词类别、属性、词性等信息进行，从而挑选出适用于定义事实的词。图4示意性示出了根据本公开另一实施例的文本主题提取方法的示例流程图，用于示例性地说明上述操作S252的实施过程。如图4所示，示例性地，上述基于语义特征，定义针对待处理文本的事实的过程可以包括：操作S2521，利用预先构建的类别模型对上述实体集合进行处理，以确定上述实体集合中的至少一个实体各自的词类别。操作S2522，根据上述至少一个实体各自的词类别，定义与上述至少一个实体相对应的至少一个实体事实。

例如，在事实定义过程中可以利用开放中文语料库来预先构建类别模型，从而对上述提取出的实体的词类别进行识别，一些情况下还可以利用开放中文语料库对上述提取出的实体、关键词等进行词替换。由于开放中文语料库质量高、领域广泛且开放，非常适合作为语料来训练模型。例如首先对需要的语料进行数据清理，利用经过数据清理的语料训练用于产生词向量的相关模型(如Word2vec模型)。利用 Word2vec模型将开源常用词类别库中属于不同词类别的词转换为词向量，再以属于不同词类别的词向量为训练样本进行分类模型训练，从而得到优化完成的类别模型。

其中实体的词类别例如可以包括：领域、人物、事件、机构、地点等等一种或多种，可以根据需要进行设置。在预先构建类别模型时应当以期望设置的词类别为基础进行构建。所设置的词类别的粒度决定了事实定义的细致程度和准确程度。在确定用于定义事实的实体后，可一一对应地定义实体事实和关键词事实。例如一个实体X的词类别为人物(person)，其所对应的实体事实可以表示为：entity(X，P)，其中P表示人物类别，该事实的含义为：X是人物类别的实体。

除了定义实体事实之外，如图4所示，示例性地，上述基于语义特征，定义针对待处理文本的事实的过程还可以包括：操作S2523，利用类别模型对上述关键词集合进行处理，以确定上述关键词集合中的至少一个关键词各自的词类别。操作S2524，根据上述至少一个关键词各自的词类别，定义与上述至少一个关键词相对应的至少一个关键词事实。

其中，类别模型的构建过程在上文中已详细说明，在此不再赘述。关键词的词类别可以与实体的词类别不同或不同，例如关键词的词类别可以根据不同领域来划分，可以根据词性来划分，也可以根据感情色彩来划分，在此不做限制。例如一个关键词X的词类别为政治，其所对应的关键词事实可以表示为：kw(X，政治)；或者一个关键词X为词类别为正向形容词，其所对应的关键词事实可以表示为：kw(X，正向形容词)；或者一个关键词X的词类别为医学名词，其所对应的关键词事实可以表示为：kw(X，医学名词)；等等。

根据本公开的实施例，上述从待处理文本中所获取的共现关系集合包括如下至少一项：实体和实体之间的共现关系，实体和关键词之间的共现关系，以及关键词和关键词之间的共现关系。针对所获取的共现关系集合，如图4所示，示例性地，上述基于语义特征，定义针对待处理文本的事实的过程还可以包括：操作S2525，根据上述至少一个实体事实和/或上述至少一个关键词事实，定义与上述共现关系集合中的至少一个共现关系相对应的至少一个共现关系事实。例如，当一个词类别为人物的实体X₁与一个词类别为正向形容词的关键词X₂之间存在共现关系，则相应的共现关系事实可以表示为： coexist(entity(X₁，P)，kw(X₂，正向形容词))。以此类推，基于上文中定义的各实体事实和关键词事实，可以定义各种共现关系事实，以表征待处理文本中词与词之间的关联关系。

进一步地，根据本公开的实施例，针对上文所获取的事件组集合，如图4所示，示例性地，上述基于语义特征，定义针对待处理文本的事实的过程还可以包括：操作S2526，根据上述至少一个实体事实和上述至少一个关键词事实，定义与上述事件组集合中的至少一个事件组相对应的至少一个事件组事实。其中，上述至少一个事件组中的每个事件组由三个以上的实体和/或关键词构成。例如，当一个词类别为人物的实体X₁、一个词类别为动词的关键词X₂以及一个词类别为医学名词的关键词X₃构成一个存在动宾关系的三元组时，相应的事件组事实可表示为：triples(entity(X₁，P)，kw(X₂，动词)，kw(X₃，医学名词))。以此类推，基于上文中定义的各实体事实和关键词事实，可以定义各种事件组事实，以表征待处理文本中多个词之间的关联关系。

继续参考图3，在操作S253，基于针对待处理文本的事实，定义针对待处理文本的规则(rule)。

其中，规则是有条件为真的一些事物、状态或者关系。在一些逻辑编程语言范式中，规则可以由霍恩子句表达，此时，规则表示为条件子句。例如规则可以如公式(2)所示。

h：-p₁∧p₂∧…∧p_n 公式(2)

本例中n为大于等于3的整数。在其他例子中，当n为1时，该规则可以表达为h：-p₁，当n为2时，该规则可以表达为h：-p₁∧p₂。该规则意味着如果p_j均为真，则h为真。j为大于等于1且小于等于n 的整数。霍恩子句的集合被称为逻辑程序。此程序通过在事实和规则上应用逻辑推理引擎来运行。

图5示意性示出了根据本公开另一实施例的文本主题提取方法的示例流程图，用于示例性地说明上述操作S253的实施过程。如图5 所示，示例性地，上述基于针对待处理文本的事实，定义针对待处理文本的规则的过程可以包括：操作S2531，利用预先构建的主题模型对待处理文本进行处理，以确定待处理文本的多个主题类别和所述多个主题类别中每个主题类别的词分布。操作S2532，针对上述多个主题类别中的任一主题类别，根据该任一主题类别的词分布、上述至少一个实体事实、上述至少一个关键词事实、上述至少一个共现关系事实、以及上述至少一个事件组事实，定义针对该任一主题类别的规则。示例性地，其中用于确定待处理文本的主题类别的主题模型可以是基于上文提到的类别模型来构建的，关于类别模型上文已详细说明，在此不再赘述。主题模型的主题类别集合可以是该类别模型的词类别集合的子集。

示例性地，规则的定义可以大致分通用规则定义和领域特性规则定义两种。这两种定义方法没有明显的分界，越细粒度的定义越接近领域特性规则定义，反之越接近通用规则定义。较为复杂的领域特性规则定义往往需要使用预先设计好的专家规则库。图5示出了通用规则的定义过程的一个例子，下面进一步分别对上述两规则定义方式进行示例性说明。

(1)通用规则定义，为了保证生成主题方法的通用性，可借助文本中出现的词汇类别信息。例如利用定义事实时构造的Word2vec模型和类别模型可以将待处理文本进行向量化，使用类别模型中用到的词类别集合C构造主题模型(例如为LDA模型)的主题类别集合A，其中A为C的子集，C中包含词类别(词类别有层级关系，主题集合主要包含于上层层级中)以及情感正负向信息。在确定主题类别集合和词向量后，拟合词分类结果，构造得到主题模型。主题模型可以表示待处理文本的主题类别分布和每个主题类别下的词分布。根据本公开的实施例，可以利用主题类别下的词分布来定义通用规则。

例如，设主题类别集合A＝{A₁，A₂，...，A_n}，其中n为大于2的整数，A_i代表第i个主题类别，i为大于等于1且小于等于n的整数。主题类别集合中各个主题类别属于类别模型的类别标签。每个主题类别下存在词分布A_i＝{X₁，X₂，...，X_m}，其中m为大于2的整数。针对任一主题类别，例如可以定义通用规则{A_i}Event(X)：-{事实(X)|存在动词宾语关系的X，以及其他X}。

(2)领域特性规则定义，在通用规则定义基础上添加专家规则可以实现领域特性规则的定义。例如针对自然灾害领域的新闻报道，可以引进相关领域专家规则库，用于定义相关灾害的专业词汇与规则的关系、定义灾害事件、定义自然现象等。由于不同领域与不同的业务需求相差很大，需要根据实际需要和具体场景进行定义。这种领域特性的规则定义其思想是在无结构数据层构建逻辑关系结构的知识库，相比利用无结构数据训练深度学习模型依然具有节省开发成本的优势。

继续参考图3，在操作S254，由上述针对待处理文本的事实和上述针对待处理文本的规则，构成知识库。

根据本公开的实施例，查询语句是有条件但尚未确定真伪的一些事物、状态或者关系。在一些逻辑编程语言范式中，每一个查询语句可以以“？-”这样两个字符作为开头，作为查询语句的标识，计算机设备基于上述构建的知识库来判定这个查询是真(true)或是伪(false)。示例性地，上述基于待处理文本，构建至少一个查询语句包括：根据上述多个主题类别、上述至少一个实体和上述至少一个关键词，构建上述至少一个查询语句。上述基于所述知识库，验证所述至少一个查询语句的真伪包括：针对至少一个查询语句中的任一查询语句，基于谓词逻辑在知识库中进行归结演算，并当归结演算结果均成立时，确定该任一查询语句为真。

上述归结演算过程也可称为消解计算过程，此阶段逻辑程序语言会进行消解计算推理出符合关键词、关系的规则和事实。根据本公开实施例的文本主题提取方法可以通过各种逻辑编程语言实现，在此不做限制。下面以prolog程序实现为例进行说明。Prolog语言是以一阶谓词逻辑的Horn子句集为语法，以罗宾逊(Robinson)消解原理为工具，加上深度优先的控制策略而形成的人工智能通用程序设计语言。

下面结合具体例子，对根据本公开实施例的文本提取方法进行示例性说明。

例如待处理文本如下：“北京时间2019年10月7日17点30分， 2019年诺贝尔生理学或医学奖揭晓，来自美英的三位科学家William G. Kaelin Jr.Sir Peter J.Ratcliffe和Gregg L.Semenza获奖，获奖理由是“发现了细胞如何感知和适应氧气的可用性”。威廉·凯林(William G.Kaelin Jr)为美国癌症学家，彼得·拉特克利夫(Sir Peter J.Ratcliffe)为英国医学家，格雷格·塞门扎(Gregg L.Semenza)为美国医学家。动物需要氧气才能将食物转化为有用的能量。数个世纪前，氧气最基本的重要性已被认识到，但长期以来人们一直不清楚细胞如何适应氧气水平的变化。William G.Kaelin、Sir Peter J.Ratcliffe和Gregg L.Semenza发现了细胞如何感知并适应氧气变化的含量。他们发现了调控基因活性的分子机器，从而响应于不同水平的氧气。今年诺贝尔奖获得者做出的开创性发现揭示了生命最重要的适应过程之一的作用机制。他们为我们了解氧水平如何影响细胞代谢和生理功能奠定了基础。他们的发现也为抗击贫血、癌症和许多其他疾病的新策略铺平了道路”。

对待处理文本进行例如数据清理、分句、分词、命名实体识别、关键词识别、依存关系分析等，例如可以得到如下数据：

实体集合(例如以名称(name)和取值(value)的对应关系进行表示)：{′name′：′实体′，′value′：[[′2019年10月7日′，′时间′]，[′彼得·拉特克利夫′，′人物′]，[′格雷格·塞门扎′，′人物′]，[′威廉·凯林′，′人物′]，[′诺贝尔医学奖′，′机构′]，[′医学家′，′称谓′]，[′英国′，′地名′]，[′美国′，′地名′]，······]}。

关键词集合：{′name′：′关键词′，′value′：[[′细胞′，′名词′]，[′响应′，′动词′]，[′感知′，′动词′]，[′基因′，′名词′]，[′开创性′，′动词′]，[′生理功能′，′名词′]，[′发现′，′动词′]，……]}。

实体共现关系：{′name′：′共现关系′，′value′：[[′诺贝尔医学奖′，′威廉·凯林′]，[′格雷格·塞门扎′，′诺贝尔医学奖′]，[′医学家′，′美国′]，[′医学家′，′英国′]，[′医学家′，′格雷格·塞门扎′]，[′医学家′，′威廉·凯林′]，[′医学家′，′彼得·拉特克利夫′]，……]}。

关键词实体共现关系：{′name′：′共现关系′，′value′：[[′格雷格·塞门扎′，′发现′]，[′威廉·凯林′，′发现′]，[′彼得·拉特克利夫′，′发现′]，[′格雷格·塞门扎′，′细胞′]，[′威廉·凯林′，′细胞′]，[′彼得·拉特克利夫′，′细胞′]， [′诺贝尔医学奖′，′开创性′]，……]}。

事件组：{′name′：′有关键词的三元组′，′value′：[[′科学家′，′发现′，′可用性′]，[′诺贝尔医学奖′，′揭示′，′机制′]，[′氧水平′，′影响′，′细胞′]，[′疾病′，′铺平′，′道路′]，……]}。

基于上文所获取的语义特征，进行事实和规则的定义。

例如定义实体和关键词事实包括：entity(诺贝尔医学奖，组织)， kw(揭示，动词)，kw(X，正向形容词)，kw(癌症，医学)，kw(贫血，医学)，kw(基因，医学)，等等。例如定义共现关系事实包括： coexist(entity(诺贝尔医学奖)，kw(开创性))，coexist(entity(格雷格·塞门扎)，entity(发现))，coexist(entity(威廉·凯林)，entity(发现))，coexist(entity(彼得·拉特克利夫)，entity(发现))，coexist(entity(贝尔医学奖)，entity(揭示))，等等。例如定义事件组事实包括：triples(kw(发现，动词)，kw(科学家，名词)，kw(可用性，名词))，triples(kw(影响，动词)，kw(氧水平，名词)，kw(细胞，名词))，triples(entity(诺贝尔医学奖，组织)，entity(机制，名词)，kw(揭示，动词))，等等。根据本公开的实施例，可以将上述信息转化成prolog语言定义事实，如表1所示。

表1

然后定义规则，规则可以由{A_i}Event(X)：-{事实(X)|存在动词宾语关系的X，以及其他X}构成。A_i代表主题模型中的第i个主题类别， {X}表示输入参数集合。举例定义的规则如表2所示。

表2

在构建上述事实和规则后，上述事实和规则可以构成知识库。

在基于待处理文本构建出至少一个查询语句后，查询构建好的知识库，将命名实体、关键词以及可能作为规则的主题类别标签进行组合遍历查询。举例说明：

例如一个程序中可能组合的查询语句为“？-科学事件(基因，威廉·凯林，美国，彼得·拉特克利夫，英国，开创性，科学家，揭示)”。针对该查询语句，***首先会在它的知识库里面寻找“科学事件”的定义，从而找到了如表2所示的两个“科学事件”的规则.例如先取第一个规则，由于这个规则里面的{X}是变量集合，***利用查询语句给 X赋值，使得：科学事件(基因，威廉·凯林，美国，彼得·拉特克利夫，英国，开创性，科学家，揭示)：-医学家(基因，威廉·凯林，美国，彼得·拉特克利夫，英国，开创性，科学家，揭示)，诺贝尔医学奖(基因，威廉·凯林，美国，彼得·拉特克利夫，英国，开创性，科学家，揭示)，发现(基因，威廉·凯林，美国，彼得·拉特克利夫，英国，开创性，科学家，揭示)，该结果不符合知识库的定义。下面***开始证明第二个规则：科学事件({X})：-HotKey({X1})，科学事件({X2})。首先，***会尝试在知识库查询“HotKey({X1})”，故可以在知识库里面找到：“HotKey(基因)”，其中X1为(基因)。接着，在知识库查询“科学事件({X2})”，找到：“科学事件(威廉·凯林，美国，彼得·拉特克利夫，英国，开创性，科学家，揭示)：-医学家(威廉·凯林，美国，彼得·拉特克利夫，英国，开创性，科学家，揭示)，诺贝尔医学奖(威廉·凯林，美国，彼得·拉特克利夫，英国，开创性，科学家，揭示)，发现(威廉·凯林，美国，彼得·拉特克利夫，英国，开创性，科学家，揭示)”，其中X2为(威廉·凯林，美国，彼得·拉特克利夫，英国，开创性，科学家，揭示)。说明查询语句中的(基因，威廉·凯林，美国，彼得·拉特克利夫，英国，开创性，科学家，揭示)满足表2中的第二个规则，则(基因，威廉·凯林，美国，彼得·拉特克利夫，英国，开创性，科学家，揭示)为科学事件，查询语句成立，***返回“true”。回溯(back-tracking)是逻辑编程语言最重要的一个特性。例如，Prolog是用深度优先(depth-firstsearch)的算法来寻找答案的。当一个规则或者是事实不符合时，Prolog会通过回溯的方式回到之前的状态，然后去尝试另外的规则或者是事实，查询语句被证明为止。如果所有的可能性都搜索过了，你的查询仍然不能得到证实，那么Prolog会认为查询证实不了，返回“false”。

根据本公开的实施例，上述基于至少一个查询语句中被验证为真的查询语句，确定待处理文本的主题的过程可以包括：获取被验证为真的一个或多个查询语句所包含的多个词。对所获取的多个词进行依存句法分析，以确定该多个词在待处理文本中的相互依存关系。并且，基于上述相互依存关系，对多个词进行筛选、补充、以及组合，以得到待处理文本的主题，下面结合具体例子对主题合成方法进行说明。

例如，主题合成方法。构建逻辑关系的过程本质上是构建一个知识库，在推理过程相当于查询知识库中的推理得到的知识，主题合成部分是将查询的知识结果用自然语言进行表达，从而得到具有可读性的能够总结文本主题的结果。主题合成方法中可以使用通用也可以用户自定义合成逻辑，示例性地，通用主题合成方法例如可以分为两部分。第一部分是依存句法分析获取结果词上下文中词之间的依存句法关系。第二部分依据依存文法分析结果组合和补缺文本。其中，组合原则为依据词在待处理文本中的前后顺序和/或存在依存关系的顺序。补全原则例如包括直接宾语补全、主谓关系补全、部分出现于关键词的时间关系补全(时间关系定义的是时间状语和其所修饰的中心动词之间的关系)、复合名词修饰补全、等等。依据如上原则可得到上例中待处理文本的主题为“2019年10月7日诺贝尔医学奖揭晓，威廉·凯林、彼得·拉特克利夫、格雷格·塞门扎医学家发现氧水平如何影响细胞代谢”。

图6A示意性示出了根据本公开实施例的文本主题提取装置的框图，该装置可以设置于各种类型的计算机设备中。

如图6A所示，文本主题提取装置600可以包括：文本获取模块 610、查询模块620、验证模块630和主题确定模块640。

文本获取模块610用于获取待处理文本。

查询模块620用于基于待处理文本，构建至少一个查询语句，该至少一个查询语句可以由逻辑式表达。

验证模块630用于基于预先构建的用于表征待处理文本的知识库，利用逻辑推理算法验证所构建的至少一个查询语句的真伪。

主题确定模块640用于基于上述至少一个查询语句中被验证为真的查询语句，确定待处理文本的主题。

图6B示意性示出了根据本公开另一实施例的文本主题提取装置的框图，该装置可以设置于各种类型的计算机设备中。

如图6B所示，文本主题提取装置600’可以包括：文本获取模块 610、知识库构建模块650、查询模块620、验证模块630和主题确定模块640。

文本获取模块610用于获取待处理文本。

知识库构建模块650用于构建用于表征待处理文本的知识库，该知识库可以由知识库表达。

验证模块630用于基于知识库，利用逻辑推理算法验证所构建的至少一个查询语句的真伪。

需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图7示意性示出了根据本公开的实施例的适于实现上文描述的方法的计算机设备的框图。图7示出的计算机设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备700包括处理器710和计算机可读存储介质720。该计算机设备700可以执行根据本公开实施例的方法。

具体地，处理器710例如可以包括通用微处理器、指令集处理器和 /或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器710还可以包括用于缓存用途的板载存储器。处理器710可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质720，例如可以是非易失性的计算机可读存储介质，具体示例包括但不限于：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM) 或闪存；等等。

计算机可读存储介质720可以包括计算机程序721，该计算机程序 721可以包括代码/计算机可执行指令，其在由处理器710执行时使得处理器710执行根据本公开实施例的方法或其任何变形。

计算机程序721可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序721中的代码可以包括一个或多个程序模块，例如包括721A、模块721B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器 710执行时，使得处理器710可以执行根据本公开实施例的方法或其任何变形。

根据本公开的实施例，文本获取模块610、知识库构建模块620、查询模块630、验证模块640和主题确定模块650中的至少一个可以实现为参考图6描述的计算机程序模块，其在被处理器610执行时，可以实现上文所述的方法。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的；也可以是单独存在，而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种由计算机设备执行的文本主题提取方法，包括：

获取待处理文本；

基于所述待处理文本，构建至少一个查询语句，所述至少一个查询语句由逻辑式表达；

基于预先构建的用于表征所述待处理文本的知识库，利用逻辑推理算法验证所述至少一个查询语句的真伪，其中所述知识库由逻辑式表达；

基于所述至少一个查询语句中被验证为真的查询语句，确定所述待处理文本的主题；以及

构建用于表征所述待处理文本的知识库；

所述构建用于表征所述待处理文本的知识库包括：

获取所述待处理文本中的语义特征，所述语义特征包括：实体集合、关键词集合、共现关系集合和事件组集合；

基于所述语义特征，定义针对所述待处理文本的事实；

基于针对所述待处理文本的事实，定义针对所述待处理文本的规则；以及

由所述针对所述待处理文本的事实和所述针对所述待处理文本的规则，构成所述知识库。

2.根据权利要求1所述的方法，其中，所述基于所述语义特征，定义针对所述待处理文本的事实包括：

利用预先构建的类别模型对所述实体集合进行处理，以确定所述实体集合中的至少一个实体各自的词类别；以及

根据所述至少一个实体各自的词类别，定义与所述至少一个实体相对应的至少一个实体事实。

3.根据权利要求2所述的方法，其中，所述基于所述语义特征，定义针对所述待处理文本的事实还包括：

利用所述类别模型对所述关键词集合进行处理，以确定所述关键词集合中的至少一个关键词各自的词类别；以及

根据所述至少一个关键词各自的词类别，定义与所述至少一个关键词相对应的至少一个关键词事实。

4.根据权利要求3所述的方法，其中，所述共现关系集合包括如下至少一项：实体和实体之间的共现关系，实体和关键词之间的共现关系，以及关键词和关键词之间的共现关系；

所述基于所述语义特征，定义针对所述待处理文本的事实还包括：根据所述至少一个实体事实和/或所述至少一个关键词事实，定义与所述共现关系集合中的至少一个共现关系相对应的至少一个共现关系事实。

5.根据权利要求3或4所述的方法，其中，所述基于所述语义特征，定义针对所述待处理文本的事实还包括：

根据所述至少一个实体事实和所述至少一个关键词事实，定义与所述事件组集合中的至少一个事件组相对应的至少一个事件组事实，其中，所述至少一个事件组中的每个事件组由三个以上的实体和/或关键词构成。

6.根据权利要求5所述的方法，其中，所述基于针对所述待处理文本的事实，定义针对所述待处理文本的规则包括：

利用预先构建的主题模型对所述待处理文本进行处理，以确定所述待处理文本的多个主题类别和所述多个主题类别中每个主题类别的词分布；以及

针对所述多个主题类别中的任一主题类别，根据所述任一主题类别的词分布、所述至少一个实体事实、所述至少一个关键词事实、所述至少一个共现关系事实、以及所述至少一个事件组事实，定义针对所述任一主题类别的规则。

7.根据权利要求6所述的方法，还包括：基于所述类别模型构建所述主题模型，所述主题模型的主题类别集合为所述类别模型的词类别集合的子集。

8.根据权利要求6所述的方法，其中，

所述基于所述待处理文本，构建至少一个查询语句包括：根据所述多个主题类别、所述至少一个实体和所述至少一个关键词，构建所述至少一个查询语句；以及

所述基于所述知识库，利用逻辑推理算法验证所述至少一个查询语句的真伪包括：针对所述至少一个查询语句中的任一查询语句，基于谓词逻辑在所述知识库中进行归结演算，并当归结演算结果均成立时，确定所述任一查询语句为真。

9.根据权利要求8所述的方法，其中，所述基于所述至少一个查询语句中被验证为真的查询语句，确定所述待处理文本的主题包括：

获取被验证为真的一个或多个查询语句所包含的多个词；

对所述多个词进行依存句法分析，以确定所述多个词在所述待处理文本中的相互依存关系；以及

基于所述相互依存关系，对所述多个词进行筛选、补充、以及组合，以得到所述待处理文本的主题。

10.一种设置于计算机设备的文本主题提取装置，包括：

文本获取模块，用于获取待处理文本；

查询模块，用于基于所述待处理文本，构建至少一个查询语句，所述查询语句由逻辑式表达；

验证模块，用于基于预先构建的用于表征所述待处理文本的知识库，利用逻辑推理算法验证所述至少一个查询语句的真伪，其中所述知识库由逻辑式表达；

主题确定模块，用于基于所述至少一个查询语句中被验证为真的查询语句，确定所述待处理文本的主题；以及

构建模块，用于构建用于表征所述待处理文本的知识库；

所述构建用于表征所述待处理文本的知识库包括：

基于所述语义特征，定义针对所述待处理文本的事实；

11.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如权利要求1～9中任一项所述的方法。

12.一种计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时用于实现如权利要求1～9中任一项所述的方法。