CN111428019B - 用于知识库问答的数据处理方法及设备 - Google Patents

用于知识库问答的数据处理方法及设备 Download PDF

Info

Publication number
CN111428019B
CN111428019B CN202010255287.8A CN202010255287A CN111428019B CN 111428019 B CN111428019 B CN 111428019B CN 202010255287 A CN202010255287 A CN 202010255287A CN 111428019 B CN111428019 B CN 111428019B
Authority
CN
China
Prior art keywords
user
knowledge
knowledge base
utterances
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010255287.8A
Other languages
English (en)
Other versions
CN111428019A (zh
Inventor
谷博
雷欣
李志飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mobvoi Information Technology Co Ltd
Original Assignee
Mobvoi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mobvoi Information Technology Co Ltd filed Critical Mobvoi Information Technology Co Ltd
Priority to CN202010255287.8A priority Critical patent/CN111428019B/zh
Publication of CN111428019A publication Critical patent/CN111428019A/zh
Application granted granted Critical
Publication of CN111428019B publication Critical patent/CN111428019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种用于知识库问答的数据处理方法及设备,该数据处理方法包括:从知识库获取任一知识条目;在对话记录中选取与知识条目匹配的用户说法形成用户说法的集合;将用户说法的集合与知识条目进行关联;将关联后的用户说法的集合与知识条目作为训练样本对知识库问答模型进行训练,以根据训练结果对后续输入的用户说法进行反馈。该数据处理方法能够提升模型基于线上真实数据优化的实时性,保障模型效果最优;提升运营人员的操作便捷性,提升工作效率;加速发现知识条目中存在的不足,促进知识库不断完善。

Description

用于知识库问答的数据处理方法及设备
技术领域
本公开涉及数据处理技术领域,尤其涉及一种用于知识库问答的数据处理方法及设备。
背景技术
问答***的历史整体进程是从基于模板的问答专家***发展到基于信息检索的问答,然后发展到基于社区的问答,再发展到目前的基于知识库的问答。基于信息检索的问答算法是在关键词匹配的基础上结合信息抽取和浅层语义分析。基于社区的问答依赖于网民贡献,问答过程依赖于关键词检索技术。基于知识库的问答则基于语义解析和知识库,通过知识库问答模型将用户输入的问题进行语义解析,并在知识库中选取与用户输入的问题相匹配的知识条目。现有的基于知识库问答的模型优化往往需要离线进行,不能支持运营人员在线实时调优模型,且知识库问答在线标注不够自动化,未对线上大量的真实数据做有效筛选、聚类和推荐,使得运营人员标注工作效率低、工作量大、重复性高。另外,线上用户的许多用户说法的数据,未被模型有效使用。
发明内容
为了解决或者至少缓解上述技术问题中的至少一个,本公开提供了一种用于知识库问答的处理方法及设备。
根据本公开的一个方面,一种用于知识库问答的数据处理方法,所述数据处理方法包括:
从知识库获取任一知识条目;
在对话记录中选取与所述知识条目匹配的用户说法形成用户说法的集合;
将所述用户说法的集合与所述知识条目进行关联;以及
将关联后的所述用户说法的集合与所述知识条目作为训练样本对知识库问答模型进行训练,以根据训练结果对后续输入的用户说法进行反馈。
根据本公开的至少一个实施方式,所述在对话记录中选取与所述知识条目匹配的用户说法形成用户说法的集合,包括:
如果所述知识条目被知识库问答模型作为近似***给用户,且被用户回复或点击选取过,则将所述对话记录中对应的用户说法设定为A级;
如果所述知识条目被知识库问答模型作为近似***给用户,且未被用户回复或点击选取过,则将所述对话记录中对应的用户说法设定为B级;
如果所述知识条目既没有被知识库问答模型作为最佳答案也没有作为近似***给用户,但是置信度大于等于预设值,则将所述对话记录中对应的用户说法设定为C级;以及
将所述用户说法按照优先级A级>B级>C级的顺序进行排序并去重,以形成所述用户说法的集合。
根据本公开的另一个方面,一种用于知识库问答的数据处理方法,所述数据处理方法包括:
将对话记录中的用户说法进行聚类,形成至少一类用户说法的集合;
针对每一类用户说法的集合,从知识库选出与该类用户说法的集合匹配的知识条目的集合;
将该类用户说法的集合与所述知识条目的集合中的其中一个知识条目进行关联;以及
将关联后的该类用户说法的集合与所述其中一个知识条目作为训练样本对知识库问答模型进行训练,以根据训练结果对后续输入的用户说法进行反馈。
根据本公开的至少一个实施方式,所述将对话记录中的用户说法进行聚类,形成至少一类用户说法的集合,包括:
在对话记录中,将知识库问答模型的反馈内容包括近似答案或无答案的用户说法聚为一类;或者在对话记录中,将知识库问答模型给出的置信度小于预设值的用户说法聚为一类。
根据本公开的至少一个实施方式,所述将对话记录中的用户说法进行聚类,形成至少一类用户说法的集合,包括:
将聚类得到的至少一类用户说法的集合进行排序。
根据本公开的至少一个实施方式,所述将聚类得到的至少一类用户说法的集合进行排序,包括:
将聚类得到的至少一类用户说法的集合按照提问次数进行降序排列;其中,提问次数是指每一类用户说法的集合中未去重的用户说法的总数。
根据本公开的至少一个实施方式,所述将聚类得到的至少一类用户说法的集合进行排序,包括:
将提问次数相同的至少一类用户说法的集合按照聚类问题数进行升序排列;聚类问题数是指每一类用户说法的集合中去重后的用户说法的总数。
根据本公开的至少一个实施方式,所述将聚类得到的至少一类用户说法的集合进行排序,包括:
将聚类问题数相同的至少一类用户说法的集合按照时间由近及远的顺序进行排序。
根据本公开的至少一个实施方式,所述针对每一类用户说法的集合,从知识库选出与该类用户说法的集合匹配的知识条目的集合,包括:
将知识库中的知识条目与每一类用户说法的集合中的各个用户说法进行逐一匹配;
选取知识库问答模型给出的置信度大于等于预设值的知识条目形成所述知识条目的集合;以及
在所述知识条目的集合中,按照各个知识条目出现的累计次数降序排列并去重。
根据本公开的另一个方面,一种用于知识库问答的处理设备,所述设备包括:
存储器,所述存储器存储有执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行前述任一项所述的方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是本公开用于知识库问答的数据处理方法的一种示例性实施方式的流程示意图。
图2是本公开用于知识库问答的数据处理方法的另一种示例性实施方式的流程示意图。
图3是本公开用于知识库问答的数据处理方法的另一种示例性实施方式的流程示意图。
图4是本公开用于知识库问答的数据处理设备的示例性实施方式的结构示意图。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。
知识库问答***包括知识库问答模型和建立的知识库,知识库中包括若干知识条目,知识条目是知识库组成的最小单位。当知识库问答模型接收到一个用户说法(用户提问的问题)时,通过语义模型进行相似度计算,在知识库中获取答案并反馈给用户,常见于FAQ一问一答的问答形式。知识库问答***可以有多种实现形式,例如设置成智能对话机器人等。在知识库问答***的在线使用过程中,其中的一个用户说法以及对该用户说法反馈的知识条目组成相应的一条对话记录。
在一种应用场景中,用户向知识库问答模型输入用户说法,知识库问答模型可以针对用户说法在知识库中找出匹配的知识条目形成反馈。对于同一个用户说法,知识库问答模型可能会反馈不止一个知识条目。而对于有些用户说法,也可能在知识库中找不到匹配度合适的知识条目,从而得不到答案,这种情况下知识库问答模型会反馈“无法提供答案”等类似的答复。在知识库问答模型将用户说法与知识库中的每个知识条目相匹配的过程中,对于每一个知识条目,知识库问答模型会分别给出相应的置信度,置信度是指知识库问答模型在对该用户说法和对应的一个知识条目进行判断后,得出的该用户说法与该对应的知识条目之间相匹配的可信程度。知识库问答模型会根据各个知识条目的置信度高低,向用户反馈出最佳答案、近似答案或无答案。最佳答案是指:当用户发起对话时,知识库问答模型可以获取一个置信度最高且高于某个指定数值的知识条目用来回答其问题,则此时回复的知识条目作为最佳答案被提供给用户。近似答案是指:当用户发起对话时,知识库问答模型获取若干置信度在一个指定范围内的知识条目用来回答其问题,则此时回复的知识条目作为近似答案被提供给用户。无答案是指:当用户发起对话时,知识库问答模型获取不到置信度在指定范围内的知识条目用于回答其问题,则此时反馈为无答案或类似说法。
在知识库问答***在线运行的过程中,会产生大量的对话记录,形成对话记录的数据集合,这些对话记录的数据均存储在***之中,现有技术中没有利用该在线形成的对话记录数据来对模型进行优化。也就是说,现有的知识库问答模型对于线上用户的许多用户说法的数据没有进行有效的使用,不能进行在线的模型优化。现有知识库问答模型的优化往往需要离线进行,不能支持运营人员在线实时调优模型。
根据本公开的一个方面,参见图1所示的本公开用于知识库问答的数据处理方法的一种示例性实施方式的流程示意图。一种用于知识库问答的数据处理方法,用于对知识库问答过程中产生的数据(如对话记录)进行处理,以便能够实现在线对知识库模型进行优化。该数据处理方法包括:
S10、从知识库获取任一知识条目。例如,***自动从知识库中选择某一个知识领域的相关知识条目,针对该知识领域的知识条目,采用本公开的数据处理方法逐一进行处理。或者,***也可以根据对话记录中的置信度,选择获得的置信度较低的知识条目,逐一进行处理。
S20、在对话记录中选取与所述知识条目匹配的用户说法形成用户说法的集合。每条对话记录包括一个用户说法,如果知识库问答模型在知识库中筛选出置信度满足要求的知识条目,则对话记录中会包含相应的知识条目;如果知识库问答模型在知识库中没有筛选出置信度满足要求的知识条目,则对话记录中没有包含知识条目。在所有的对话记录中,选择其中包含有步骤S10中选取的知识条目的对话记录中的用户说法,将选择出来的所有用户说法形成用户说法的集合。
S30、将所述用户说法的集合与所述知识条目进行关联。本领域技术人员可以理解,从***运行过程中产生的所有对话记录中找出的与该知识条目匹配过的用户说法,其都是与该知识条目相关的,否则不会被知识库问答模型反馈作为该用户说法的知识条目。通过上面步骤自动选择出来与该知识条目匹配的用户说法的集合,知识库问答模型将该集合与该知识条目进行关联。在关联时,知识库问答模型可以将用户说法的集合中所有的用户说法均与该知识条目关联,也可以只选择其中部分用户说法进行关联,选择的这部分用户说法可以是用户会话意图更明确,问法更标准的用户说法,也可以是出现频率较高的用户说法。
S40、将关联后的所述用户说法的集合与所述知识条目作为训练样本对知识库问答模型进行训练,以根据训练结果对后续输入的用户说法进行反馈。在大量的对话记录中选取出与知识条目相关的用户说法的集合并进行关联后,作为训练样本输入到模型中,知识库问答模型在训练后,能将样本中的用户说法与样本中的知识条目形成关联关系,待下次用户向知识库问答模型输入与样本中相同或相似的用户说法后,知识库问答模型能通过样本中的关联关系直接反馈出与其相关联的知识条目作为答复,实现了在线优化知识库问答模型的目的。其中,当输入的用户说法与样本中的用户说法存在一个以上相同的关键词时,可以认为输入的用户说法与样本中的用户说法是相似的。
本公开的数据处理方法,利用生产环境中(知识库问答***在线运行过程中)产生的用户对话记录的数据,***自动筛选出与需要优化的知识条目匹配的用户说法形成用户说法的集合,通过将用户说法的集合与知识条目进行关联,并将已关联的用户说法的集合与知识条目自动导入到知识库问答模型中,对知识库问答模型进行在线训练,可以达到在线学习优化模型的目的。解决了现有技术中线上用户的许多用户说法的数据未被模型有效使用的问题。同时,通过***自动在大量的在线对话记录中筛选形成用户说法的集合,避免了人工进行选取存在的工作效率低、工作量大、重复性高等问题。
在本公开的一个实施方式中,步骤S20,在对话记录中选取与所述知识条目匹配的用户说法形成用户说法的集合,可以包括:
如果所述知识条目被知识库问答模型作为近似***给用户,且被用户回复或点击选取过,则将所述对话记录中对应的用户说法设定为A级。该知识条目被作为近似***给用户,且被用户回复或点击选取过,说明该知识条目与对应的用户对话的匹配度较高,具有较高的置信度,将其优先级别设为A级。
如果所述知识条目被知识库问答模型作为近似***给用户,且未被用户回复或点击选取过,则将所述对话记录中对应的用户说法设定为B级。该知识条目虽然被作为近似***给用户,但是没有被用户回复或点击选取过,说明该知识条目与对应的用户对话具有一定匹配度,置信度比A级的置信度要低一些,将其优先级别设为B级。
如果所述知识条目既没有被知识库问答模型作为最佳答案也没有作为近似***给用户,但是在与用户说法匹配时置信度大于等于预设值,例如可以将该预设值设定为0.5,则将所述对话记录中对应的用户说法设定为C级。也就是说,所筛选的用户说法应该是与该知识条目在对话记录中进行匹配的置信度大于预设值的用户说法,对于置信度小于该预设值的用户说法则不再选择到形成的用户说法的集合中,以避免引入与该知识条目不匹配的噪声。
将上述筛选出来的用户说法按照优先级A级>B级>C级的顺序进行排序并去重,以形成所述用户说法的集合。也就是说在形成的用户说法的集合中,优先级别为A级的用户说法排列在最前面,依次类推,优先级别为C级的用户说法排在最后。
上述各实施方式适用于知识库问答***上线初期,即上线运行一段较短时间后,***中已经存在了一定数量的对话记录,需要对知识库问答模型进行优化以改进***性能的情况。
根据本公开的另一个方面,参见图2所示的本公开用于知识库问答的数据处理方法的另一种示例性实施方式的流程示意图。一种用于知识库问答的数据处理方法,用于对知识库问答过程中产生的数据(如对话记录)进行处理,以便能够实现在线对知识库模型进行优化。该数据处理方法包括:
S110、将对话记录中的用户说法进行聚类,形成至少一类用户说法的集合。随着知识库问答***在线运行时间的增加,针对同一个问题会有大量类似的用户说法存在于***中,知识库问答模型将存在于对话记录中的大量用户说法按照相似程度进行自动聚类,将与某个问题相关的多个类似的用户说法聚为一类,将与另一个问题相关的多个类似的用户说法聚为一类,形成不同种类的用户说法的集合。可能只有一类,也可能会有两类或三类不同的用户说法。
S220、针对每一类用户说法的集合,知识库问答模型从知识库选出与该类用户说法的集合匹配的知识条目的集合。也就是分别形成了用户说法的集合和知识条目的集合,知识条目的集合中的每一个知识条目均与用户说法的集合中的每个用户说法有一定的匹配度。
S330、将该类用户说法的集合与所述知识条目的集合中的其中一个知识条目进行关联。虽然知识条目的集合中的每一个知识条目均与用户说法的集合中的用户说法有一定的匹配度,但是,为了达到优化知识库问答模型的目的,避免引入多余的噪声,知识库问答模型只在知识条目的集合中筛选出其中一个知识条目进行关联。
S440、将关联后的该类用户说法的集合与所述其中一个知识条目作为训练样本对知识库问答模型进行训练,以根据训练结果对后续输入的用户说法进行反馈。在大量的对话记录中选取出各种用户说法进行聚类,针对形成的每一类用户说法的集合,筛选出与其匹配的知识条目并进行关联后,作为训练样本输入到模型中,知识库问答模型在训练后,能将样本中的用户说法的集合与样本中的知识条目形成关联关系,待下次用户向知识库问答模型输入与样本中某一类用户说法的集合中相同或相似的用户说法后,知识库问答模型能通过样本中的关联关系直接反馈出与其相关联的知识条目作为答复,实现了在线优化知识库问答模型的目的。其中,当输入的用户说法与样本中的用户说法存在一个以上相同的关键词时,可以认为输入的用户说法与样本中的用户说法是相似的。
在本公开的一个实施方式中,步骤S110,将对话记录中的用户说法进行聚类,形成至少一类用户说法的集合,可以包括:
在对话记录中,将知识库问答模型的反馈内容包括近似答案或无答案的用户说法聚为一类。或者在对话记录中,将知识库问答模型给出的置信度小于预设值的用户说法聚为一类。这两种聚类方式,均可以将对话记录中初始匹配效果不好的用户说法筛选出来并进行聚类,使这些用户说法在后续步骤中匹配到更好的知识条目,以对模型进行优化。
也就是说可以采用上述两种不同的聚类方式,可根据不同的生产环境选择其中一种聚类方式。
在本公开的一个实施方式中,步骤S110,将对话记录中的用户说法进行聚类,形成至少一类用户说法的集合,可以包括:
S111、将聚类得到的至少一类用户说法的集合进行排序。参见图3所示的本公开用于知识库问答的数据处理方法的另一种示例性实施方式的流程示意图。如果聚类形成了不止一个种类的用户说法的集合,在各个种类的用户说法的集合之间按照一定的规则进行排序,以便于后续对这些数据的进一步处理。
在本公开的一个实施方式中,步骤S111,将聚类得到的至少一类用户说法的集合进行排序,可以包括:
将聚类得到的至少一类用户说法的集合按照提问次数进行降序排列;其中,提问次数是指每一类用户说法的集合中未去重的用户说法的总数。如果聚类得到两个以上的用户说法的集合,将其中包含的用户说法的数量多的集合排列在前面,包含的用户说法的数量少的集合排列在后面。
在本公开的一个实施方式中,步骤S111,将聚类得到的至少一类用户说法的集合进行排序,可以包括:
将提问次数相同的至少一类用户说法的集合按照聚类问题数进行升序排列;聚类问题数是指每一类用户说法的集合中去重后的用户说法的总数。如果存在两个集合其中包含的用户说法的数量相同,则再比较去重后的聚类问题数进行排序,将聚类问题数少的(也就是包含重复用户说法数量多的)集合排列在前面,将聚类问题数多的(也就是包含重复用户说法数量少的)集合排列在后面。
在本公开的一个实施方式中,步骤S111,将聚类得到的至少一类用户说法的集合进行排序,可以包括:
将聚类问题数相同的至少一类用户说法的集合按照时间由近及远的顺序进行排序。如果存在两个集合其中包含的用户说法的数量相同并且包含的重复用户说法的数量也相同,则这两个集合之间将距离目前时间较近的集合排在前面,将距离目前时间较远的集合排在后面。此处所说的时间是指用户说法输入到知识库问答模型的时间,也就是用户提问的时间。换句话说,就是判断两个集合中各自距离当前时间最近的用户说法中哪个用户说法的时间最靠近当前,将最靠近当前的用户说法所对应的集合排在前面。
在本公开的一个实施方式中,步骤S220,针对每一类用户说法的集合,从知识库选出与该类用户说法的集合匹配的知识条目的集合,可以包括:
将知识库中的知识条目与每一类用户说法的集合中的各个用户说法进行逐一匹配。每一类用户说法的集合中包含多个用户说法,针对其中的每一个用户说法,均在知识库中找出与其匹配的知识条目(可能匹配到不止一个知识条目,也可能没有匹配到相关的知识条目)。即将每一类用户说法的集合中的各个用户说法与知识库中的知识条目进行遍历性匹配。也即是说,该步骤将每一类用户说法的集合中的各个用户说法在知识库中重新进行了一次匹配,以筛选出更好的与其匹配的知识条目来进行关联。其中更好的匹配是指:该步骤重新匹配后的用户说法与知识条目的置信度比对话记录中初始匹配的用户说法与知识条目的置信度更高。
选取知识库问答模型给出的置信度大于等于预设值的知识条目形成所述知识条目的集合。在上步骤中进行逐一匹配时,每匹配到相应的知识条目,知识库问答模型都会给出针对这个匹配的置信度,可以预先设定一个置信度的阈值,例如将置信度的阈值设定为0.5,只有匹配的置信度大于等于0.5的知识条目才被筛选到形成的知识条目的集合中,避免产生噪声。
在所述知识条目的集合中,按照各个知识条目出现的累计次数降序排列并去重。每一类的用户说法的集合中,均是类似的用户说法,其中有的用户说法主题和目的比较明确,能够在知识库中匹配到合适的知识条目,而有的主题和目的比较模糊,没有能够匹配到合适的知识条目。如果在知识条目的集合中,某个知识条目出现的次数较多,说明该知识条目的匹配度更好,故将其排列在前面,相反则排列在后面,便于后续对数据的进一步处理。
在本公开的一个实施方式中,步骤S220,针对每一类用户说法的集合,从知识库选出与该类用户说法的集合匹配的知识条目的集合,可以包括:
如果某一类用户说法的集合在目前的知识库中没有匹配到相关的知识条目,也就是无答案,则需要根据用户说法的内容,利用网络搜索或人工输入等方式,在知识库中增加相关的知识条目,对目前的知识库进行补充和完善。然后将增加的知识条目筛选到形成的知识条目的集合中,在后续步骤中,将增加的知识条目与相匹配的用户说法的集合进行关联后输入到知识库问答模型中作为训练样本,对模型进行训练和在线优化。
上述各实施方式适用于知识库问答***上线中后期,即上线运行一段时间后,***中存储了很大数量的对话记录,需要对知识库问答模型进行优化以改进***性能的情况。
综合以上两种不同的实施方式,可以看出,本公开的用于知识库问答的数据处理方法能够提升模型基于线上真实数据优化的实时性,保障模型效果最优;提升运营人员的操作便捷性,提升工作效率;加速发现知识条目中存在的不足,促进知识库不断完善。
本公开还提供了一种用于知识库问答的数据处理设备,参见图4所示的本公开用于知识库问答的数据处理设备的示例性实施方式的结构示意图。该设备包括:通信接口1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信,进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。处理器3000执行所述计算机程序时实现上述实施方式中方法。所述存储器2000和处理器3000的数量可以为一个或多个。
存储器2000可以包括高速RAM存储器,也可以还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果通信接口1000、存储器2000及处理器3000独立实现,则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上,则通信接口1000、存储器2000、及处理器3000可以通过内部接口完成相互间的通信。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在存储器中。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信息实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

Claims (9)

1.一种用于知识库问答的数据处理方法,其特征在于,所述方法包括:
从知识库获取任一知识条目;
在对话记录中选取与所述知识条目匹配的用户说法形成用户说法的集合;所述对话记录包括:用户说法以及对所述用户说法反馈的知识条目组成相应的一条对话记录;
将所述用户说法的集合与所述知识条目进行关联;以及
将关联后的所述用户说法的集合与所述知识条目作为训练样本对知识库问答模型进行训练,以根据训练结果对后续输入的用户说法进行反馈。
2.如权利要求1所述的数据处理方法,其特征在于,所述在对话记录中选取与所述知识条目匹配的用户说法形成用户说法的集合,包括:
如果所述知识条目被知识库问答模型作为近似***给用户,且被用户回复或点击选取过,则将所述对话记录中对应的用户说法设定为A级;所述近似***括:当用户发起对话时,所述知识库问答模型获取若干置信度在一个指定范围内的知识条目并回答问题,将此时回复的知识条目确定为近似***给用户;
如果所述知识条目被知识库问答模型作为近似***给用户,且未被用户回复或点击选取过,则将所述对话记录中对应的用户说法设定为B级;
如果所述知识条目既没有被知识库问答模型作为最佳答案也没有作为近似***给用户,但是置信度大于等于预设值,则将所述对话记录中对应的用户说法设定为C级;以及
将所述用户说法按照优先级A级>B级>C级的顺序进行排序并去重,以形成所述用户说法的集合;
所述最佳***括:当用户发起对话时,所述知识库问答模型获取一个置信度最高且高于某个指定数值的知识条目并回答问题,将此时回复的知识条目确定为最佳***给用户。
3.一种用于知识库问答的数据处理方法,其特征在于,所述方法包括:
将对话记录中的用户说法进行聚类,形成至少一类用户说法的集合,包括:在对话记录中,将知识库问答模型的反馈内容包括近似答案或无答案的用户说法聚为一类;或者在对话记录中,将知识库问答模型给出的置信度小于预设值的用户说法聚为一类;所述对话记录包括:用户说法以及对所述用户说法反馈的知识条目组成相应的一条对话记录;所述近似***括:当用户发起对话时,所述知识库问答模型获取若干置信度在一个指定范围内的知识条目并回答问题,将此时回复的知识条目确定为近似***给用户;
针对每一类用户说法的集合,从知识库选出与该类用户说法的集合匹配的知识条目的集合;
将该类用户说法的集合与所述知识条目的集合中的其中一个知识条目进行关联;以及
将关联后的该类用户说法的集合与所述其中一个知识条目作为训练样本对知识库问答模型进行训练,以根据训练结果对后续输入的用户说法进行反馈。
4.如权利要求3所述的数据处理方法,其特征在于,所述将对话记录中的用户说法进行聚类,形成至少一类用户说法的集合,包括:
将聚类得到的至少一类用户说法的集合进行排序。
5.如权利要求4所述的数据处理方法,其特征在于,所述将聚类得到的至少一类用户说法的集合进行排序,包括:
将聚类得到的至少一类用户说法的集合按照提问次数进行降序排列;其中,提问次数是指每一类用户说法的集合中未去重的用户说法的总数。
6.如权利要求5所述的数据处理方法,其特征在于,所述将聚类得到的至少一类用户说法的集合进行排序,包括:
将提问次数相同的至少一类用户说法的集合按照聚类问题数进行升序排列;聚类问题数是指每一类用户说法的集合中去重后的用户说法的总数。
7.如权利要求6所述的数据处理方法,其特征在于,所述将聚类得到的至少一类用户说法的集合进行排序,包括:
将聚类问题数相同的至少一类用户说法的集合按照时间由近及远的顺序进行排序。
8.如权利要求3所述的数据处理方法,其特征在于,所述针对每一类用户说法的集合,从知识库选出与该类用户说法的集合匹配的知识条目的集合,包括:
将知识库中的知识条目与每一类用户说法的集合中的各个用户说法进行逐一匹配;
选取知识库问答模型给出的置信度大于等于预设值的知识条目形成所述知识条目的集合;以及
在所述知识条目的集合中,按照各个知识条目出现的累计次数降序排列并去重。
9.一种用于知识库问答的数据处理设备,其特征在于,所述数据处理设备包括:
存储器,所述存储器存储有执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行如权利要求1至8任一项所述的方法。
CN202010255287.8A 2020-04-02 2020-04-02 用于知识库问答的数据处理方法及设备 Active CN111428019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010255287.8A CN111428019B (zh) 2020-04-02 2020-04-02 用于知识库问答的数据处理方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010255287.8A CN111428019B (zh) 2020-04-02 2020-04-02 用于知识库问答的数据处理方法及设备

Publications (2)

Publication Number Publication Date
CN111428019A CN111428019A (zh) 2020-07-17
CN111428019B true CN111428019B (zh) 2023-07-28

Family

ID=71556118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010255287.8A Active CN111428019B (zh) 2020-04-02 2020-04-02 用于知识库问答的数据处理方法及设备

Country Status (1)

Country Link
CN (1) CN111428019B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019149A (zh) * 2019-01-30 2019-07-16 阿里巴巴集团控股有限公司 一种客服知识库的建立方法、装置及设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8055675B2 (en) * 2008-12-05 2011-11-08 Yahoo! Inc. System and method for context based query augmentation
US9674356B2 (en) * 2012-11-21 2017-06-06 Genesys Telecommunications Laboratories, Inc. Dynamic recommendation of routing rules for contact center use
US9460085B2 (en) * 2013-12-09 2016-10-04 International Business Machines Corporation Testing and training a question-answering system
CN103902733B (zh) * 2014-04-18 2017-02-01 北京大学 基于疑问词扩展的信息检索方法
US10628735B2 (en) * 2015-06-05 2020-04-21 Deepmind Technologies Limited Reading comprehension neural networks
US10606846B2 (en) * 2015-10-16 2020-03-31 Baidu Usa Llc Systems and methods for human inspired simple question answering (HISQA)
AU2017200378A1 (en) * 2016-01-21 2017-08-10 Accenture Global Solutions Limited Processing data for use in a cognitive insights platform
US11232101B2 (en) * 2016-10-10 2022-01-25 Microsoft Technology Licensing, Llc Combo of language understanding and information retrieval
CN108241649B (zh) * 2016-12-23 2022-07-01 北京奇虎科技有限公司 基于知识图谱的搜索方法及装置
US10331402B1 (en) * 2017-05-30 2019-06-25 Amazon Technologies, Inc. Search and knowledge base question answering for a voice user interface
CN108491433B (zh) * 2018-02-09 2022-05-03 平安科技(深圳)有限公司 聊天应答方法、电子装置及存储介质
CN108874949A (zh) * 2018-06-05 2018-11-23 北京玄科技有限公司 基于业务语料的意图分类方法、装置及智能问答方法
CN110019749B (zh) * 2018-09-28 2021-06-15 北京百度网讯科技有限公司 生成vqa训练数据的方法、装置、设备和计算机可读介质
CN110059172B (zh) * 2019-04-19 2021-09-21 北京百度网讯科技有限公司 基于自然语言理解的推荐答案的方法和装置
CN110516059B (zh) * 2019-08-30 2023-06-09 腾讯科技(深圳)有限公司 基于机器学习的问题答复方法、问答模型训练方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019149A (zh) * 2019-01-30 2019-07-16 阿里巴巴集团控股有限公司 一种客服知识库的建立方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CFXGBoost: Topic phrase extraction based on context features and XGBoost for knowledge base question answering;Han Han;2017 13th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery (ICNC-FSKD);全文 *
智能回复***研究综述;岳世峰等;信息安全学报;第5卷(第1期);第20-34页 *

Also Published As

Publication number Publication date
CN111428019A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN109033229B (zh) 问答处理方法和装置
CN108153800B (zh) 信息处理方法、信息处理装置以及记录介质
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
US8190623B2 (en) Image search engine using image analysis and categorization
CN108764480B (zh) 一种信息处理的***
US8135579B2 (en) Method of analyzing conversational transcripts
US20220414093A1 (en) Combining parameters of multiple search queries that share a line of inquiry
CN1637744A (zh) 为在大量电子文档中搜索而确定文档相关性的机器学习方法
CN107967280B (zh) 一种标签推荐歌曲的方法及***
US10586237B2 (en) Method, apparatus, and computer-readable media for customer interaction semantic annotation and analytics
CN111210842A (zh) 语音质检方法、装置、终端及计算机可读存储介质
CN109408799B (zh) 语义决策方法和***
CN105893351A (zh) 语音识别方法及装置
CN111125145A (zh) 一种通过自然语言获取数据库信息的自动化***
CN111428019B (zh) 用于知识库问答的数据处理方法及设备
US20080243486A1 (en) Apparatus and Method for Identifying Unknown Word Based on a Definition
CN113254624A (zh) 基于人工智能的智能问答处理方法、装置、设备及介质
CN108647347A (zh) 分页显示方法、用户设备、存储介质及装置
DE10348920A1 (de) Computersystem und Verfahren zur mehrsprachigen assoziativen Suche
CN109726002B (zh) 一种处理流程调整方法及装置
CN112364185A (zh) 多媒体资源的特征确定方法、装置、电子设备和存储介质
JPH08221429A (ja) 文書自動分類装置
CN112395402A (zh) 基于深度模型的推荐话术生成方法、装置和计算机设备
CN113628077A (zh) 生成不重复考题的方法、终端及可读存储介质
KR20220099690A (ko) 문서를 요약하는 장치, 방법 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant