发明内容
本说明书提出一种主题关键词的提取方法,所述方法包括:
从问答型知识库中读取目标问答条目;其中,所述目标问答条目包括问题数据和答案数据;
分别从所述问题数据和所述答案数据中提取关键词;
确定从所述问题数据中提取出的关键词与从所述答案数据中提取出的关键词中是否存在相同的目标关键词;
如果存在相同的目标关键词,则将所述目标关键词确定为所述目标问答条目的主题关键词。
可选地,所述方法还包括:
基于所述目标问答条目的主题关键词,为所述目标问答条目添加分类标签。
可选地,所述基于所述目标问答条目的主题关键词,为所述目标问答条目添加分类标签,包括:
如果所述目标问答条目存在多个主题关键词,则确定在所述问题数据和所述答案数据中出现次数最多的目标主题关键词,并将所述目标主题关键词作为所述目标问答条目的分类标签存储至所述问答型知识库;
如果所述目标问答条目存在唯一的主题关键词,则将所述目标主题关键词作为所述目标问答条目的分类标签存储至所述问答型知识库。
可选地,所述方法还包括:
将所述主题关键词添加至与所述问答型知识库对接的搜索引擎的搜索关键词集合。
可选地,从所述问题数据和所述答案数据中提取关键词所采用的关键词提取算法为TextRank算法或TF-IDF算法。
本说明书还提出一种主题关键词的提取装置,所述装置包括:
读取模块,用于从问答型知识库中读取目标问答条目;其中,所述目标问答条目包括问题数据和答案数据;
提取模块,用于分别从所述问题数据和所述答案数据中提取关键词;
第一确定模块,用于确定从所述问题数据中提取出的关键词与从所述答案数据中提取出的关键词中是否存在相同的目标关键词;
第二确定模块,用于在存在相同的目标关键词时,将所述目标关键词确定为所述目标问答条目的主题关键词。
可选地,所述装置还包括:
第一添加模块,用于基于所述目标问答条目的主题关键词,为所述目标问答条目添加分类标签。
可选地,所述第一添加模块具体用于:
如果所述目标问答条目存在多个主题关键词,则确定在所述问题数据和所述答案数据中出现次数最多的目标主题关键词,并将所述目标主题关键词作为所述目标问答条目的分类标签存储至所述问答型知识库;
如果所述目标问答条目存在唯一的主题关键词,则将所述目标主题关键词作为所述目标问答条目的分类标签存储至所述问答型知识库。
可选地,所述装置还包括:
第二添加模块,用于将所述主题关键词添加至与所述问答型知识库对接的搜索引擎的搜索关键词集合。
可选地,从所述问题数据和所述答案数据中提取关键词所采用的关键词提取算法为TextRank算法或TF-IDF算法。
本说明书还提出一种电子设备,所述电子设备包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与关键词提取的控制逻辑对应的机器可执行指令,所述处理器被促使:
从问答型知识库中读取目标问答条目;其中,所述目标问答条目包括问题数据和答案数据;
分别从所述问题数据和所述答案数据中提取关键词;
确定从所述问题数据中提取出的关键词与从所述答案数据中提取出的关键词中是否存在相同的目标关键词;
如果存在相同的目标关键词,则将所述目标关键词确定为所述目标问答条目的主题关键词。
在上述技术方案中,针对问答型知识库,可以分别对其中的问答条目所包含的问题数据和答案数据进行关键词提取,进一步地可以将从该问题数据中提取出的与从该答案数据中提取出的相同的关键词确定为该问答条目的主题关键词。这样,一方面可以利用各个问答条目的主题关键词对问答型知识库中的问答条目进行分类,从而可以便于利用主题关键词对问答型知识库进行快速检索。另一方面,由于主题关键词是从问题数据中提取出的与从答案数据中提取出的相同的关键词,因此可以更加精确地反映问答条目的主要内容,从而可以提高针对问答型知识库的检索准确度。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本说明书旨在提供一种针对问答型知识库,将其中的问答条目所包含的问题数据以及答案数据中相同的关键词,确定为该问答条目的主题关键词的技术方案。
在具体实现时,可以对问答型知识库中的问答条目进行遍历,以从该问答型知识库中读取某个未被分类的问答条目。进一步地,可以从该问答条目所包含的问题数据中提取关键词,并从该问答条目所包含的答案数据中提取关键词。
后续,可以通过将从该问题数据中提取出的关键词与从该答案数据中提取出的关键词进行比对,来确定从该问题数据中提取出的关键词与从该答案数据中提取出的关键词中是否存在相同的目标关键词。
如果存在相同的目标关键词,则可以将该目标关键词确定为该问答条目的主题关键词。
采用这样的方式,可以进一步地实现根据问答型知识库中的各个问答条目的主题关键词,对该问答型知识库中的问答条目进行分类。
在上述技术方案中,针对问答型知识库,可以分别对其中的问答条目所包含的问题数据和答案数据进行关键词提取,进一步地可以将从该问题数据中提取出的与从该答案数据中提取出的相同的关键词确定为该问答条目的主题关键词。这样,一方面可以利用各个问答条目的主题关键词对问答型知识库中的问答条目进行分类,从而可以便于利用主题关键词对问答型知识库进行快速检索。另一方面,由于主题关键词是从问题数据中提取出的与从答案数据中提取出的相同的关键词,因此可以更加精确地反映问答条目的主要内容,从而可以提高针对问答型知识库的检索准确度。
下面通过具体实施例对本说明书进行描述。
参考图1,图1是本说明书一示例性实施例示出的一种关键词提取***的示意图。
如图1所示,该关键词提取***可以包括问答型知识库,以及与该问答型知识库对接的电子设备。其中,该电子设备可以针对该问答型知识库进行关键词提取,该电子设备可以是服务器、计算机、手机、平板设备、笔记本电脑或掌上电脑(PDAs,Personal DigitalAssistants)等,本说明书对此不作限制。
在实际应用中,问答型知识库可以是用于存储问答型数据的知识库,问答型数据可以以问答条目的形式存储在问答型数据库中,一个问答条目可以包括一个问题和一个用于解答该问题的答案。举例来说,问答型知识库中存储的问答型数据可以如下表1所示:
表1
其中,答案1可以是用于解答问题1的答案,问题1和答案1组成问答条目1;答案2可以是用于解答问题2的答案,问题2和答案2组成问答条目2;以此类推。
参考图2,图2是本说明书一示例性实施例示出的一种主题关键词的提取方法的流程图。该方法可以应用于图1所示的电子设备,包括以下步骤:
步骤202,从问答型知识库中读取目标问答条目;其中,所述目标问答条目包括问题数据和答案数据;
步骤204,分别从所述问题数据和所述答案数据中提取关键词;
步骤206,确定从所述问题数据中提取出的关键词与从所述答案数据中提取出的关键词中是否存在相同的目标关键词;
步骤208,如果存在相同的目标关键词,则将所述目标关键词确定为所述目标问答条目的主题关键词。
在本实施例中,电子设备首先可以从与其对接的问答型知识库中读取问答条目(称为目标问答条目)。其中,该目标问答条目可以包括问题数据和答案数据。
以上表1所示的问答型知识库为例,与该问答型知识库对接的电子设备可以从该问答型知识库中读取包括问题1(即问题数据)和答案1(即答案数据)的问答条目1作为目标问答条目,也可以从该问答型知识库中读取包括问题2(即问题数据)和答案2(即答案数据)的问答条目2作为目标问答条目,以此类推。
在读取到上述目标问答条目后,可以进一步地从该目标问答条目所包含的问题数据中提取关键词,并从该目标问答条目所包含的答案数据中提取关键词。
在示出的一种实施方式中,可以基于预设的关键词提取算法,从该问题数据中提取关键词。其中,关键词提取算法可以由技术人员预先设置,具体可以是TextRank算法或TF-IDF(Term Frequency-Inverse Document Frequency,信息检索数据挖掘的常用加权技术)算法等常用的关键词提取算法,本说明书在此不再赘述。
同样地,可以基于预设的关键词提取算法,从该答案数据中提取关键词。
需要说明的是,为了保证关键词提取的一致性,针对问题数据所使用的关键词提取算法,与针对答案数据所使用的关键词提取算法可以是相同的。但在实际应用中,针对问题数据所使用的关键词提取算法,与针对答案数据所使用的关键词提取算法也可以是不同的,本说明书对此不作限制。
在分别从上述问题数据和上述答案数据中提取出关键词后,可以进一步地将从该问题数据中提取出的关键词与从该答案数据中提取出的关键词进行比对,以确定从该问题数据中提取出的关键词与从该答案数据中提取出的关键词中是否存在相同的关键词(称为目标关键词)。
如果确定存在相同的目标关键词,则可以将该目标关键词确定为上述目标问答条目的主题关键词。其中,该主题关键词即为可以用于反映该目标问答条目的主要内容的关键词。
举例来说,假设从某个问答条目所包含的问题数据中提取出的关键词包括:关键词1、关键词2和问题关键词3,从该问答条目所包含的答案数据中提取出的关键词包括:关键词2、关键词3和关键词4。在这种情况下,在将从该问题数据中提取出的关键词与从该答案数据中提取出的关键词进行比对后,可以确定存在相同的关键词2和关键词3,即关键词2和关键词3都可以作为目标关键词。后续,可以将关键词2和关键词3确定为该问答条目的主题关键词。
在示出的一种实施方式中,在确定了上述目标问答条目的主题关键词后,可以进一步地判断该目标问答条目是否存在多个主题关键词,即该目标问答条目是否有且仅有一个主题关键词。
如果该目标问答条目存在唯一的主题关键词,即该目标问答条目有且仅有一个主题关键词,则可以直接将该主题关键词作为该目标问答条目的标签存储至上述问答型知识库,即直接利用该主题关键词在该问答型知识库中为该目标问答条目添加分类标签。
如果该目标问答条目存在多个主题关键词,则可以分别统计各个主题关键词在该目标问答条目所包含的问题数据和答案数据中出现的次数,以确定在该问题数据和该答案数据中出现次数最多的主题关键词(称为目标主题关键词)。后续,可以将该目标主题关键词作为该目标问答条目的标签存储至上述问答型知识库,即利用该目标主题关键词在该问答型知识库中为该目标问答条目添加分类标签。
举例来说,假设确定的某个问答条目的主题关键词包括:关键词1和关键词2,则可以分别统计关键词1和关键词2在该问答条目所包含的问题数据和答案数据中出现的次数。如果关键词1在该问题数据和该答案数据中出现的次数小于关键词2在该问题数据和该答案数据中出现的次数,则可以将关键词2作为该问答条目的目标主题关键词,并将关键词2作为该问答条目的标签存储至该问答条目所在的问答型知识库。
或者,也可以将该目标问答条目的多个主题关键词通过用户界面输出给用户。用户可以通过该用户界面从这些主题关键词中选择一个主题关键词(称为目标主题关键词)。后续,可以将该目标主题关键词作为该目标问答条目的标签存储至上述问答型知识库,即利用该目标主题关键词在该问答型知识库中为该目标问答条目添加分类标签。
请参考图3,图3是本说明书一示例性实施例示出的一种用户界面的示意图。
如图3所示,该用户界面可以是用于向用户提供在线客服的客服***所提供的用户界面。其中,该客服***可以与上述问答型知识库进行对接。
用户可以在该用户界面所提供的文本输入框中输入希望获取的资讯的关键词。用户在完成关键词输入后,可以点击该用户界面中的“发送”按钮。该客服***在检测到用户针对该“发送”按钮的点击操作时,可以获取当前由用户输入的关键词,并进一步地在与该客服***对接的该问答型知识库中查找该关键词命中的问答条目,即其标签包括该关键词的问答条目。后续,该客服***可以将查找到的问答条目展示给用户,以供用户查看。
以下表2所示的问答型知识库为例:
表2
假设用户在与该问答型知识库对接的客服***所提供的用户界面中,输入的关键词为关键词1,则由于问答条目1和问答条目2的标签均包括关键词1,因此该客服***可以将问答条目1和问答条目2展示给用户,以供用户查看。
在示出的一种实施方式中,在确定了上述目标问答条目的主题关键词后,可以进一步地将该主题关键词添加至与该问答型知识库对接的搜索引擎的搜索关键词集合。
请参考图4,图4是本说明书一示例性实施例示出的另一种用户界面的示意图。
如图4所示,该用户界面可以是用于向用户提供在线服务的客服***所提供的用户界面。其中,该客服***可以通过上述搜索引擎,与上述问答型知识库进行对接。
该客服***可以将该搜索引擎的搜索关键词集合展示在该用户界面中,从而使用户可以点击展示在该用户界面中的某个关键词,以获取与该关键词相关的资讯。
举例来说,用户可以在该用户界面中点击“关键词1”。该客服***在检测到用户在检测到用户针对“关键词1”的点击操作时,可以通过该搜索引擎,在该问答型知识库中查找该关键词命中的问答条目。后续,该搜索引擎可以将查找到的问答条目返回给该客服***,以由该客服***将查找到的问答条目展示给用户,以供用户查看。
在上述技术方案中,针对问答型知识库,可以分别对其中的问答条目所包含的问题数据和答案数据进行关键词提取,进一步地可以将从该问题数据中提取出的与从该答案数据中提取出的相同的关键词确定为该问答条目的主题关键词。这样,一方面可以利用各个问答条目的主题关键词对问答型知识库中的问答条目进行分类,从而可以便于利用主题关键词对问答型知识库进行快速检索。另一方面,由于主题关键词是从问题数据中提取出的与从答案数据中提取出的相同的关键词,因此可以更加精确地反映问答条目的主要内容,从而可以提高针对问答型知识库的检索准确度。
与前述主题关键词的提取方法的实施例相对应,本说明书还提供了主题关键词的提取装置的实施例。
本说明书主题关键词的提取装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本说明书主题关键词的提取装置所在电子设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该主题关键词的提取的实际功能,还可以包括其他硬件,对此不再赘述。
请参考图6,图6是本说明书一示例性实施例示出的一种主题关键词的提取装置的框图。该装置60可以应用于图5所示的电子设备,包括:
读取模块601,用于从问答型知识库中读取目标问答条目;其中,所述目标问答条目包括问题数据和答案数据;
提取模块602,用于分别从所述问题数据和所述答案数据中提取关键词;
第一确定模块603,用于确定从所述问题数据中提取出的关键词与从所述答案数据中提取出的关键词中是否存在相同的目标关键词;
第二确定模块604,用于在存在相同的目标关键词时,将所述目标关键词确定为所述目标问答条目的主题关键词。
在本实施例中,所述装置60还可以包括:
第一添加模块605,用于基于所述目标问答条目的主题关键词,为所述目标问答条目添加分类标签。
在本实施例中,所述第一添加模块605具体可以用于:
如果所述目标问答条目存在多个主题关键词,则确定在所述问题数据和所述答案数据中出现次数最多的目标主题关键词,并将所述目标主题关键词作为所述目标问答条目的分类标签存储至所述问答型知识库;
如果所述目标问答条目存在唯一的主题关键词,则将所述目标主题关键词作为所述目标问答条目的分类标签存储至所述问答型知识库。
在本实施例中,所述装置60还可以包括:
第二添加模块606,用于将所述主题关键词添加至与所述问答型知识库对接的搜索引擎的搜索关键词集合。
在本实施例中,从所述问题数据和所述答案数据中提取关键词所采用的关键词提取算法为TextRank算法或TF-IDF算法。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的***、装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与上述主题关键词的提取方法实施例相对应,本说明书还提供了一种电子设备的实施例。该电子设备包括:处理器以及用于存储机器可执行指令的存储器;其中,处理器和存储器通常通过内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与关键词提取的控制逻辑对应的机器可执行指令,所述处理器被促使:
从问答型知识库中读取目标问答条目;其中,所述目标问答条目包括问题数据和答案数据;
分别从所述问题数据和所述答案数据中提取关键词;
确定从所述问题数据中提取出的关键词与从所述答案数据中提取出的关键词中是否存在相同的目标关键词;
如果存在相同的目标关键词,则将所述目标关键词确定为所述目标问答条目的主题关键词。
在本实施例中,通过读取并执行所述存储器存储的与关键词提取的控制逻辑对应的机器可执行指令,所述处理器还被促使:
基于所述目标问答条目的主题关键词,为所述目标问答条目添加分类标签。
在本实施例中,通过读取并执行所述存储器存储的与关键词提取的控制逻辑对应的机器可执行指令,所述处理器被促使:
如果所述目标问答条目存在多个主题关键词,则确定在所述问题数据和所述答案数据中出现次数最多的目标主题关键词,并将所述目标主题关键词作为所述目标问答条目的分类标签存储至所述问答型知识库;
如果所述目标问答条目存在唯一的主题关键词,则将所述目标主题关键词作为所述目标问答条目的分类标签存储至所述问答型知识库。
在本实施例中,通过读取并执行所述存储器存储的与关键词提取的控制逻辑对应的机器可执行指令,所述处理器还被促使:
将所述主题关键词添加至与所述问答型知识库对接的搜索引擎的搜索关键词集合。
在本实施例中,从所述问题数据和所述答案数据中提取关键词所采用的关键词提取算法为TextRank算法或TF-IDF算法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。