CN102884527A

CN102884527A - 根据基于社区的问题回答档案库的自动常问问题汇编

Info

Publication number: CN102884527A
Application number: CN2011800227344A
Authority: CN
Inventors: 蔡达成; 明朝燕
Original assignee: National University of Singapore
Current assignee: National University of Singapore
Priority date: 2010-04-06
Filing date: 2011-04-06
Publication date: 2013-01-16
Also published as: US20130024457A1; SG184445A1; WO2011126458A1; US8732204B2

Abstract

使用基于社区的问题回答（CQA）数据来生成常问问题（FAQ）数据。题目层次生成模块接收多个数据源并且生成数据源的题目层次，其中数据源具有一个或多个主题，而主题具有一个或多个题目。特征分类器基于题目层次将多个CQA数据分类成一个或多个题目，其中CQA数据包含多个问题回答对。选择模块基于分类从CQA数据中选择多个问题回答对，测量所选择的问题回答对的质量，并且使用所选择的CQA数据的问题回答对来生成FAQ数据。

Description

根据基于社区的问题回答档案库的自动常问问题汇编

相关申请的交叉引用

本申请要求于2010年4月6日提交的、名称为“Automatic FrequentlyAsked Question Compilation from Community-based Question AnsweringAchieve”的美国临时申请第61/321,133号的权益，其全部内容通过引用结合于此。

背景技术

本发明一般地涉及来自社区生成的问题回答对的数据或者其它非结构化的存档数据的常问问题（FAQ）列表的生成。

基于社区的问题回答（CQA）数据和常问问题（FAQ）数据的相似之处在于两者均使用成对的问题与回答来提供信息。然而，在提供CQA数据的服务累积用户生成的问题回答对的同时，FAQ数据通常以显著的成本由专家关于一个或多个主题手工进行汇编。因此，FAQ数据通常是简练的、全面的、良好划分的，并且以正式的合乎文法的语言书写，然而，CQA数据在语言和内容两方面具有参差不齐的质量，并且由于大量的提供数据的参与者而通常具有松散的结构并且被粗糙地划分。

通过要求FAQ数据领域的一个或多个专家监视FAQ主题的发展和FAQ主题用户行为的变化，FAQ数据的维护引入了额外的复杂性。因此，常规的FAQ数据通常是欠维护的并且很快变得过时。虽然CQA数据更能被维护，但是甚至在最特定层级的CQA数据中都会有的大量的问题回答对导致了信息超载。另外，用于生成CQA数据的内容的质量从极好到不切题急剧变化。进一步，CQA数据的常规种类结构通常没有特定得足以包括便于用户访问的特定关系。

发明内容

本发明的实施例涉及用于对与主题相关联的基于社区的问题回答（CQA）数据进行分层次地分类和总结以呈现出与该主题相关联的简练的且分层次地组织的常问问题（FAQ）数据的方法和***。在一个实施例中，通过从与特定主题相关联的一个或多个源中以及与特定主题相关联的结构化数据中检索数据来生成针对该特定主题的题目层次。例如，与特定主题相关联的数据从与该特定主题相关联的网站或手册中检索，并且被用来生成与该主题相关联的题目层次。

使用来自题目层次的数据，从一个或多个CQA源中检索CQA数据并将其用于训练分类器。在一个实施例中，使用来自一个或多个CQA源的数据来训练分类器如类别特征质心（CFC）分类器。在训练之后，分类器根据题目层次将CQA数据组织成一个或多个题目。题目之内的CQA数据中包括的问题回答对被簇集，并且基于相关性得分和质量得分将题目的簇内的问题回答对的子集与该题目进行关联并进行存储。因此，所存储的与题目相关联的数据包括一个或多个如下问题回答对：所述问题回答对具有至少阈值数目的与先前识别的高质量问题回答对相关联的特征，并且还具有与包括该问题回答对的簇的质心相距比较小的距离。与簇的质心相距小的距离表示问题回答对高度相关于与簇相关联的题目。

附图说明

图1是根据本发明的实施例的用于使用基于社区的问题回答（CQA）数据来生成常问问题（FAQ）数据的***环境的高级框图。

图2是根据本发明的实施例的计算装置的框图。

图3是根据本发明的实施例的FAQ生成器的框图。

图4是根据本发明的实施例的用于使用CQA数据来生成FAQ数据的过程的流程图。

图5是根据本发明的实施例的用于基于CQA数据的分类来选择CQA数据以用于生成FAQ数据的过程的流程图。

具体实施方式

FAQ生成平台体系结构

本发明的实施例可以使用多种体系结构（例如图1中示出的示例性体系结构）来实现。在这个实施例中，常问问题（FAQ）生成器130从一个或多个数据源110A、110B以及一个或多个社区问题回答（CQA）源115A、115B中检索数据，并且根据所检索的数据来生成FAQ数据。在图1示出的实施例中，FAQ生成器130、数据源110A和110B以及CQA源115A和115B耦合到网络120。虽然图1描绘了两个数据源110A、110B和两个CQA源115A、115B，但是在其它实施例中可以使用更多数目或更少数目的数据源110和CQA源115。

一个或多个数据源110A、110B包括计算装置或存储装置，所述计算装置或存储装置包括与一个或多个特定主题相关联的数据。如在此使用的那样，“主题（topic）”指的是顶层级或总名称，而“题目（theme）”指的是“主题”内的种类。在层次上，主题是层次的顶层级，而“题目”是主题内的种类或类别。例如，主题可以是产品名称，而与主题相关联的题目可以是产品的不同特征。数据源110A、110B包括与主题相关联的数据。数据源110A、110B的例子包括特定于产品的网站、产品手册或者特定于其它领域的网页或网站。另外，数据源110A、110B包括其它信息源如在线百科全书。

一个或多个CQA源115A、115B包括计算装置或存储装置，所述计算装置或存储装置包括与一个或多个特定主题和/或主题内的一个或多个题目相关联的CAQ数据。在一个实施例中，CQA数据包括被构造成使得一个或多个答案与问题相关联的用户生成的问题回答对。CQA源115可以将存储的问题回答对与主题、题目或其它种类相关联，以便于随后的数据检索。

可以包括使用无线通信***的局域网和/或广域网的任意组合的网络120在一个或多个数据源110A、110B、一个或多个CQA源115A、115B和/或FAQ生成器130之间传送数据。在实施例中，网络120是因特网，并且使用无线通信***与有线通信***的组合来传送数据。

FAQ生成器130包括经由网络120来与一个或多个数据源110A、110B和/或一个或多个CQA源115A、115B进行通信的一个或多个计算装置。在图3示出的实施例中，FAQ生成器130包括题目层次生成模块310、特征分类器320以及选择模块330。如上面结合数据源110A、110B所描述的那样，题目层次生成模块310被配置成基于与从一个或多个数据源110A、110B中检索的主题相关联的数据的结构或层次来生成识别主题内的题目的题目层次。特征分类器320被配置成使用题目层次、采用基于质心的分类器从一个或多个CQA源115A、115B中生成类别特征质心。选择模块330被配置成选择一个或多个所分类的CQA数据以生成FAQ数据。

数据源110A、110B包括与主题相关联的数据。在一个实施例中，题目层次生成模块310使用数据源110内的数据的结构或层次来生成识别主题内的题目以及题目彼此之间的关系的题目层次。例如，在线百科全书的关于主题的数据的分层大纲和/或特定于主题的网站的结构由FAQ生成器130识别，并且被用来生成主题内的题目的结构化对象模型。使用与主题相关联的在线百科全书数据的结构或特定于主题的网站的版块（section）的结构，将结构化对象模型进一步提炼成题目层次。

FAQ生成器130的特征分类器320基于主题和题目的题目层次将CQA数据分类。在一个实施例中，特征分类器320是修改的类别特征质心（mCFC）分类器，以使用来自题目层次的题目对所接收的CQA数据进行分类。例如，mCFC分类器对具有至少两个子题目的非叶题目进行分类，所述至少两个子题目可以是直接子题目或者子题目的后代。根据常见质心分类器来采用mCFC分类器的基本框架，在所述常见质心分类器中，原型或“质心”用作针对题目的代表（delegate）。

在一个实施例中，新实例p与多个原型相比较，并被分类为与最相似的原型相关联的题目。新实例p与每个原型进行比较。例如，mCFC在词项空间中的向量空间模型被用来表示原型和原型语料库中的实例如题目层次。使用新实例与原型的相应词项向量之间的余弦相似性来计算新实例与原型之间的相似性。余弦相似性是通过求出两个n维向量之间的角度的余弦值来度量它们之间的相似性的手段（角度越小，相似性就越大）。例如，根据以下表示的方程（1）将新实例分配给题目，其中T表示题目，而p则表示新实例：

根据题目层次和基于质心的分类框架如上面描述的mCFC分类器，基于与子题目相关联的原型向量，特征分类器320将与非叶题目相关联的新实例分类到非叶题目的子题目。在一个实施例中，由词汇空间f中的加权向量

来表示质心，并且将词项的权重计算为类别内词项指标与类别间词项指标的组合，如：

w_{ij} = b^{\frac{{DF}_{ti}^{j}}{| T_{j} |}} \times \log (\frac{| T |}{{TF}_{t_{i}}}) - - - (2)

其中

是词项t_i在题目T_j中的文档频率，|T_j|是题目T_j中的文档的数目，|C|是文档类别的总数目，是包含词项t_i的题目的数目，并且b是大于一的常数。

方程（2）的第一个分量是类别内词项指标，其偏重题目下所讨论的常用词项。方程（2）的第二个分量表示类别间词项指标，其偏重题目之间分布相当不同的有区别的词项。

为了收集用于基于质心的分类的训练实例，使用与来自所生成的题目层次的题目相关联的一个或多个词项，特征分类器320从一个或多个CQA源115A、115B中检索CQA数据。在一个实施例中，特征分类器320从一个或多个CQA源115A、115B中检索与来自题目层次的每个题目相关联的数据。例如，特征分类器320向一个或多个CQA源115A、115B发出用于根据题目层次的题目的查询，以从一个或多个CQA源115A、115B中采集用于主题的数据。

特征分类器320使用从CQA源115A、115B接收的与题目相关联的数据的子集，作为用于针对该题目的基于质心的分类的训练数据。例如，题目层次中的特定题目受约束于其祖先及其后代的联合，因此相应地形成针对该特定题目的查询。在一个实施例中，使用与题目相关联的链接概念来扩充与题目相关联的查询，并且从一个或多个数据源110A、110B中检索。例如，特征分类器320使用通过查询所返回的CQA数据的子集（例如最相关的20个问题回答对）来建立与题目相关联的训练语料库。

在一个实施例中，特征分类器320基于mCFC输出使用自顶向下的方法用于层次分类。例如，与第一主题相关联的CQA数据首先被分类成与第一主题相关联的第二级题目。与非叶题目相关联的CQA数据被进一步分类成从第二级题目中的题目下来的题目，直到CQA数据与叶节点相关联为止。在这个实施例中，通过使用与每个非叶结点相关联的单独训练集，针对题目的每个非叶节点使用单独的模型。

在将CQA数据分类成来自题目层次的题目之后，FAQ生成器130的选择模块330单独地处理与叶题目相关联的CQA数据，以减少CQA数据的量。在一个实施例中，选择模块330使用k均值簇集法或其它合适的簇集方法将与叶题目相关联的CQA数据分组成预定义数目的簇，并且从与叶节点相关联的多个簇中识别具有高质量的代表性CQA数据。在一个实施例中，从与叶节点相关联的每个簇中识别代表性的高质量CQA数据。

在一个实施例中，选择模块330选择用于对包括在CQA数据中的不同问题回答对的质量进行估计的一组特征。因为一些特征可能不可用于每个CQA数据簇或者不可用于CQA数据簇内的每个问题回答对，因此还可以使用特征的子集来获得CQA数据簇内的问题回答对的质量的近似测量值。

在一个实施例中，针对CQA质量估计来生成标记的训练集，其中标记的训练集提供用于主题或题目的问题回答对的地面实况。发现对于具有高质量的问题回答对——“正面实例”——的注解者间一致程度低，这是因为对什么构成高质量的问题回答对的主观确定。因此，通过以下来生成标记的训练集：从一个或多个数据源110A、110B或CQA源115A、115B中自动下载与主题或题目相关联的现有FAQ，并且将现有FAQ识别为正面实例。低质量的问题回答对从一个或多个分离的CQA源115A、115B中手动地采集。

在一个实施例中，从分开开发的CQA源115或CQA源115A、115B中获得低质量的问题回答对。低质量的问题回答对或“负面实例”的例子包括用于聊天的问题、寻求个人意见的问题或者具有不合文法的英语的问题。在一个实施例中，一组正面实例和一组负面实例用作用于确定质量的训练集。例如，训练集包括2000个正面实例和2000个负面实例。通过训练集中的正面实例和负面实例表示的特征集合然后被用于估计CQA数据中的不同问题回答对的质量。在一个实施例中，来自训练集的特征是特定于应用的并且是不同的特征或者特征的子集，可以用在不同应用中。使用来自训练集的特征，选择模块330生成CQA簇内的多个问题回答对的质量得分。

除质量得分之外，选择模块330还通过计算单个问题回答对与包括该单个问题回答对的K均值簇或其它簇的质心之间的距离来生成代表性得分。在一个实施例中，质量得分和代表性得分被线性组合以生成适宜性度量，所述适宜性度量描述了将要放入到最终FAQ中的问题回答对的适宜性。例如，具有超过指定阈值的适宜性度量的问题回答对被存储和包括在最终FAQ中。代替地，在一簇CQA数据内的问题回答对基于它们相关联的适宜性度量被排名，并且具有最高相对适宜性度量的问题回答对被存储和包括在最终FAQ中。在其它实施例中，代表性得分和质量得分可以被不同地组合以生成适宜性度量。

使用CQA数据的FAQ生成

图4为根据本发明实施例的用于使用CQA数据来生成FAQ数据的过程的流程图。最初，FAQ生成器130接收410关于一个或多个主题的多个数据（例如数据源110A、110B）。FAQ生成器130生成420多个数据的题目层次，其中题目层次识别主题内的题目以及题目彼此之间的关系。FAQ生成器130接收430多个CQA数据，并且基于题目层次将CQA数据分类440。在一个实施例中，FAQ生成器130使用修改的类别特征质心（mCFC）分类器、采用来自题目层次的题目将接收到的CQA数据分类。FAQ生成器130从分类的CQA数据中选择450一组问题回答对，并且使用所选择的CQA数据的问题回答对来生成460FAQ数据。

图5是根据本发明的实施例的用于基于CQA数据的分类来选择CQA数据以用于生成FAQ数据的过程的流程图。FAQ生成器130接收多个已分类的CQA数据，其中CQA数据通过特征分类器320进行分类，并且已分类的CQA数据具有题目层次的一个或多个题目。针对已分类的CQA数据的每个题目，FAQ生成器130将预定数目的CQA数据分组522成多个簇（例如K均值簇），其中簇中的CQA数据共享与题目相关的一些公共特征。簇中CQA数据的数目是可配置的设计选择。

对于每个簇，FAQ生成器132选择524该簇的若干代表性数据，并且测量526代表性数据的质量。例如，FAQ生成器130使用标记的训练集来测量代表性数据的质量，所述标记的训练集提供了主题或题目的问题回答对的地面实况。簇中的代表性数据的质量可以由质量得分来表示。FAQ生成器130进一步生成528簇中的代表性数据的每个问题回答对的代表性得分，其中代表性数据的代表性得分表明代表性数据如何好地表示与簇的题目/主题相关联的特征。例如，FAQ生成器130通过计算单独问题回答对与K均值簇的质心之间的距离来生成代表性得分。FAQ生成器130基于代表性数据的质量和代表性从簇中选择一个或多个问题回答对。

尽管在图1中示出为经由网络120耦合到FAQ生成器130，然而在其它实施例中，数据源110A、110B中的一个或多个和/或CQA源115A、115B中的一个或多个可以包括在单个计算装置或存储装置中。在替代的实施例中，单个计算装置包括FAQ生成器130、一个或多个数据源110A、110B和/或一个或多个CQA源115A、115B。

***环境

图2图示了用于实施FAQ生成器130的计算装置200的实施例。在图2示出的实施例中，计算装置200包括处理器210、数据存储器220、输入装置230、输出装置240、电源250以及通信模块260。然而，应该理解的是，并非所有的上述部件对于计算装置200来说都是必需的，并且这不是用于计算装置200的所有实施例的部件的穷举列表或者上述部件的所有可能变型的穷举列表。计算装置200可以具有比在此描述的所有的能力和部件少的能力和部件的任意组合。

处理器210、数据存储器220以及电源250（例如电池或任何其它适当的电源）使计算装置200能够执行计算功能。处理器210耦合到输入装置230和输出装置240，以使得在计算装置200上运行的应用程序能够使用这些装置。在一个实施例中，数据存储器220包括少量的随机存取存储器（RAM）和大量的闪存或其它持久性存储器，允许应用程序或其它计算机可执行代码被存储并由处理器210执行。在一个实施例中，数据存储器220包括如下指令：当所述指令被执行时使得处理器结合FAQ生成器130执行上述图1中描述的行为，允许计算装置200从一个或多个数据源110A、110B并从一个或多个CQA源115A、115B检索数据以自动生成FAQ。计算装置200还执行操作***或其它软件，所述软件支持用于从输入装置230接收输入的一种或多种输入模态，并且/或者支持经由输出装置240来呈现数据的一种或多种输出模态，诸如音频回放或视觉数据的显示。

输出装置240可以包括用于提供视觉反馈的任何合适的显示***，例如有机发光二极管（OLED）显示器。输出装置240还可以包括扬声器或其它音频回放装置以提供听觉反馈。例如，输出装置240可以根据在计算装置200上运行的应用程序使用扬声器来传送听觉反馈（例如提示、命令和***状态），并且还可以使用显示器来显示如通过应用程序所引导的词短语、静态或动态图像或者提示。输入装置240包括用于从用户接收输入的任何合适装置，例如键盘、触控式显示器或手势捕捉***。

通信模块260包括允许与网络120进行无线通信（例如通过蓝牙、无线保真技术（WiFi）、射频（RF）、红外线或超声波）的无线通信电路。例如，通信模块260使用WiFi来识别一个或多个无线接入点并与其通信，或者使用RF来识别一个或多个蜂窝塔并与其通信。在实施例中，通信模块260还包括用入接纳数据线缆（例如迷你USB或微USB）的插孔。

综述

出于说明的目的，在本申请中呈现了本发明的实施例的描述，其并不意在详尽地表明本发明或者将本发明限制为所公开的确切形式。在相关领域中的普通技术人员可以意识到可以根据上述公开内容进行许多修改和变更。

本描述的一些部分在关于信息的操作的算法和符号表示方面描述了本发明的实施例。这些算法描述和表示被数字处理领域中的普通技术人员常用来将他们工作的主旨有效地传达至本领域中的其它技术人员。这些操作尽管被以功能性地、计算性地或逻辑性地进行描述，但是它们要被理解为通过计算机程序或等效电路、微码等来实施。进而，还证实有时为了方便将操作的这些布置称为模块，而不失一般性。所描述的操作以及它们的相关联模块可以以软件、固件、硬件或它们的任意组合来实施。

在此描述的任何步骤、操作或过程可以以一个或多个硬件或软件模块、单独地或与其它装置组合地来执行或实施。在一个实施例中，使用包括计算机可读介质的计算机程序产品来实施软件模块，所述计算机可读介质包含计算机程序代码，所述计算机程序代码可以被计算机处理器执行以执行所描述的任意或所有的步骤、操作或过程。

本发明的实施例还可以涉及用于执行在此的操作的设备。这种设备可以针对所需目的而特定构造，并且/或者该设备可以包括由计算机中存储的计算机程序选择性激活或者再配置的通用计算装置。这样的计算机程序可以存储在耦合到计算机***总线的有形的计算机可读存储介质或者适于存储电子指令的任何类型的介质中。进而，在说明书中所涉及的任何计算***可以包括单个处理器，或者可以是采用多个处理器设计以增加计算能力的体系结构。

本发明的实施例还可以涉及以载波的方式实施的计算机数据信号，其中所述计算机数据信号包括在此描述的计算机程序产品或其它数据组合的任意实施例。计算机数据信号是存在于有形介质或载波中并且被调制或以其它方式编码到载波中的产品，它是有形的，并且根据任何合适的传输方法进行传输。

最后，本说明书中所使用的语言主要是出于可读性和指导性目的而选择的，并不是被选择来描述或者限制本发明的主题。因此，本发明的范围不受限于该详细描述，而是仅受限于基于此申请所提出的任何权利要求。

Claims

1.一种根据基于社区的问题回答（CQA）数据来生成常问问题（FAQ）数据的方法，所述方法包括：

接收多个数据源和具有一个或多个题目的主题，其中每个数据源具有与一个或多个主题相关联的数据；

生成所述多个数据源的题目层次；

基于所述题目层次将多个CQA数据分类成一个或多个题目，其中所述CQA数据包含多个问题回答对；

基于所述分类从所述CQA数据中选择多个问题回答对；以及

使用选择的所述CQA数据的问题回答对来生成FQA数据。

2.根据权利要求1所述的方法，其中，所述多个数据源的主题和题目分层次地组织在所述题目层次内。

3.根据权利要求1所述的方法，其中，将所述多个CQA数据进行分类包括使用基于质心的分类器，其中所述CQA数据的题目具有与所述题目相关联的多个原型的质心。

4.根据权利要求3所述的方法，其中，与所述题目相关联的多个原型的质心基于分配给与所述题目相关联的多个原型的权重。

5.根据权利要求1所述的方法，其中，从所述CQA数据中选择多个问题回答对包括：

针对所述CQA数据的每个题目，将多个CQA数据分组成多个簇，其中簇中的CQA数据共享与所述题目相关联的一个或多个特征，并且CQA数据的簇具有表示所述簇的题目的质心。

6.根据权利要求5所述的方法，还包括：

针对CQA数据的每个簇：

从所述簇中选择多个代表性数据；

测量所述代表性数据的质量；以及

生成所述代表性数据的每个问题回答对的代表性得分。

7.根据权利要求6所述的方法，其中，测量所述代表性数据的质量包括：生成所述代表性数据的质量得分。

8.根据权利要求6所述的方法，其中，生成所述代表性数据的代表性得分包括：计算所述CQA数据的问题回答对与所述簇的质心之间的距离。

9.根据权利要求6所述的方法，其中，生成所述代表性数据的每个问题回答对的代表性得分还包括：基于所述代表性得分对所述簇中的CQA数据的问题回答对进行排名。

10.一种非暂时性计算机可读介质，所述非暂时性计算机可读介质存储有用于根据基于社区的问题回答（CQA）数据来生成常问问题（FAQ）数据的可执行计算机程序代码，所述计算机程序代码包括用于执行如下步骤的代码：

接收多个数据源，数据源具有与一个或多个主题相关联的数据，并且主题具有一个或多个题目；

生成所述多个数据源的题目层次；

基于所述分类从所述CQA数据中选择多个问题回答对；以及

使用选择的所述CQA数据的问题回答对来生成FQA数据。

11.根据权利要求10所述的计算机可读介质，其中，所述多个数据源的主题和题目分层次地组织在所述题目层次内。

12.根据权利要求10所述的计算机可读介质，其中，用于将所述多个CQA数据进行分类的计算机程序代码包括用于使用基于质心的分类器的计算机程序代码，其中所述CQA数据的题目具有与所述题目相关联的多个原型的质心。

13.根据权利要求10所述的计算机可读介质，其中，用于从所述CQA数据中选择多个问题回答对的计算机程序代码包括用于执行以下步骤的计算机程序代码：

针对所述CQA数据的每个题目，将多个CQA数据分组成多个簇，其中簇中的CQA数据共享与所述题目相关联一个或多个特征，并且CQA数据的簇具有表示所述簇的题目的质心。

14.根据权利要求13所述的计算机可读介质，还包括用于执行以下步骤的计算机程序代码：

针对CQA数据的每个簇：

从所述簇中选择多个代表性数据；

测量所述代表性数据的质量；以及

生成所述代表性数据的每个问题回答对的代表性得分。

15.根据权利要求14所述的计算机可读介质，其中，用于测量所述代表性数据的质量的计算机程序代码包括用于生成所述代表性数据的质量得分的计算机程序代码。

16.根据权利要求14所述的计算机可读介质，其中，用于生成所述代表性数据的代表性得分的计算机程序代码包括用于计算所述CQA数据的问题回答对与所述簇的质心之间的距离的计算机程序代码。

17.根据权利要求14所述的计算机可读介质，其中，用于生成所述代表性数据的每个问题回答对的代表性得分的计算机程序代码还包括用于基于所述代表性得分来对所述簇中的CQA数据的问题回答对进行排名的计算机程序代码。

18.一种根据基于社区的问题回答（CQA）数据来生成常问问题（FAQ）数据的***，所述***包括：

非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质存储有可执行计算机程序模块，所述可执行计算机程序模块包括：

题目层次生成模块，其配置成：

接收多个数据源，数据源具有与一个或多个主题相关联的数据，

并且主题具有一个或多个题目，以及

生成所述多个数据源的题目层次；

特征分类器，其配置成基于所述题目层次将多个CQA数据分类成一个或多个题目，其中所述CQA数据包含多个问题回答对；以及

选择模块，其配置成：

基于所述分类从所述CQA数据中选择多个问题回答对，以及

使用选择的所述CQA的问题回答对来生成FQA数据。

19.根据权利要求18所述的***，其中，所述选择模块还配置成：

20.根据权利要求19所述的***，其中，所述选择模块还配置成：

针对CQA数据的每个簇：

从所述簇中选择多个代表性数据；

测量所述代表性数据的质量；以及

生成所述代表性数据的每个问题回答对的代表性得分。