CN113407694A - 客服机器人知识库歧义检测方法、装置及相关设备 - Google Patents

客服机器人知识库歧义检测方法、装置及相关设备 Download PDF

Info

Publication number
CN113407694A
CN113407694A CN202110693227.9A CN202110693227A CN113407694A CN 113407694 A CN113407694 A CN 113407694A CN 202110693227 A CN202110693227 A CN 202110693227A CN 113407694 A CN113407694 A CN 113407694A
Authority
CN
China
Prior art keywords
category
deep learning
ambiguity
learning model
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110693227.9A
Other languages
English (en)
Other versions
CN113407694B (zh
Inventor
潘晟锋
刘云峰
吴悦
胡晓
汶林丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhuiyi Technology Co Ltd
Original Assignee
Shenzhen Zhuiyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhuiyi Technology Co Ltd filed Critical Shenzhen Zhuiyi Technology Co Ltd
Priority to CN202110693227.9A priority Critical patent/CN113407694B/zh
Publication of CN113407694A publication Critical patent/CN113407694A/zh
Application granted granted Critical
Publication of CN113407694B publication Critical patent/CN113407694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0281Customer communication at a business location, e.g. providing product or service information, consulting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Finance (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Computer Interaction (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种客服机器人知识库歧义检测方法、装置及相关设备,包括:构建知识库,所述知识库按FAQ划分,每个FAQ设有至少一个相似问句,且每个FAQ为一个类别;将所述知识库划分为深度学习模型的测试集和训练集;在训练集上训练深度学习模型,并利用学习出的所述深度学习模型进行歧义检测;根据歧义检测结果更新所述知识库;重复上述步骤直到学习效果不再提升。本申请根据歧义检测结果更新所述知识库,重复训练步骤直到学习效果达到预期标准,可以辅助人工发现并修正知识库歧义,得到消除歧义的知识库,从消除歧义的知识库中提取数据作为深度学习模型的训练集和测试集,进一步提高深度学习模型学习效果。

Description

客服机器人知识库歧义检测方法、装置及相关设备
本申请要求于2018年07月19日提交中国专利局、申请号为201810801678.8、发明名称为“客服机器人知识库歧义检测方法”的中国专利申请的分案申请。
技术领域
本申请涉及人工智能技术领域,尤其是一种客服机器人知识库歧义检测方法、装置及相关设备。
背景技术
随着互联网用户的增加,企业的客服部门服务压力不断增大。由于大多数用户遇到的问题都是重复出现的,这些重复的问题往往可以用固定模板进行回答。为了减少客服中心的人工成本,可引入机器人客服,用程序判断用户的问题类型,如果问题属于FAQ(Frequently Asked Questions,经常问到的问题),则直接给出一个标准答案,反之则转接人工服务进行特殊干预。
相关技术中,客服机器人利用机器学习技术识别用户意图,将意图识别转化成问句分类问题。每个FAQ对应一个类别,每个类别有一句以上的相似问句。所有FAQ和对应的相似问句构成了机器人的知识库。
机器学习模型的效果往往依赖于从知识库中选出的训练数据,特别是训练数据的标注准确率会对模型效果产生较大影响。但由于时间和人工精力的限制,知识库往往会存在大量歧义,如问句对应到错误的类别、类别与类别语义重合等,这些歧义会导致模型学习到错误的知识,从而对模型的准确率产生负面影响,而由于机器学习训练过程中需要大量的标注数据,无法单纯依赖人工去发现并处理这些歧义,因此如何对知识库进行歧义检测,并辅助人工消除知识库歧义成为相关技术人员亟待解决的问题。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供一种客服机器人知识库歧义检测方法、装置及相关设备。
第一方面,本申请提供一种客服机器人知识库歧义检测方法,包括:
构建知识库,所述知识库按FAQ划分,每个FAQ设有至少一个相似问句,且每个FAQ为一个类别;
将所述知识库划分为深度学习模型的测试集和训练集;
在训练集上训练深度学习模型,并利用学习出的所述深度学习模型进行歧义检测;
根据歧义检测结果更新所述知识库;
重复上述步骤直到学习效果不再提升,得到消除歧义的知识库。
进一步的,所述将所述知识库划分为深度学习模型的测试集和训练集,包括:随机抽取每个FAQ对应的预设数量的相似问句作FAQ对应类别的测试数据,其余相似问句作为所述FAQ对应类别的训练数据。所有类别的测试数据构成测试集,所有类别的训练数据构成训练集。
进一步的,所述深度学习模型包括:特征提取器、浅层分类器,所述在训练集上训练深度学习模型,包括:
将所述训练集中FAQ中的问句作为输入部分输入到所述深度学习模型;
利用所述深度学习模型中的特征提取器将输入部分中的问句转化成特征向量;
利用所述深度学习模型中的浅层分类器根据所述特征向量计算出预测结果,所述预测结果为输入部分中的问句所对应的类别;
利用优化器优化训练模型,将训练集中问句标注的实际类别和所述深度学***均差异最小化;
用测试集对训练完的模型进行评估,计算模型预测结果和测试集中问句标注的实际类别的一致率,作为模型学习效果的评估。
进一步的,所述歧义检测包括:类别歧义检测、标注错误检测和标注歧义检测,所述利用学习出的所述深度学习模型进行歧义检测,包括:
利用深度学习模型中特征提取器检测歧义;
利用深度学习模型中浅层分类器检测歧义。
进一步的,所述利用深度学习模型中特征提取器检测歧义,包括:
用所述深度学习模型中的特征提取器将数据集中的相似问句转化成特征向量,所述数据集包括训练集或/和测试集;
将问句对应的特征向量组合成问句特征向量对(x,y),其中特征向量x对应的问句和特征向量y对应的问句分别来自不同类别;
计算每组问句特征向量对的向量相似度cos(x,y),所述
Figure BDA0003126963990000031
将所有问句特征向量对按所述向量相似度从高到低排序,选择所述向量相似度排名靠前的问句特征向量对,并根据所述向量相似度排名靠前的问句特征向量对判断是否存在歧义。
更进一步的,所述根据所述向量相似度排名靠前的问句特征向量对判断是否存在歧义,包括:
判断是否存在标注歧义或标注错误:提取第一预设数量的所述相似度排名靠前的问句特征向量对,人工检查对应的问句对是否存在标注歧义和标注错误;
判断是否存在类别歧义:对于所述第一预设数量的问句特征向量对,统计对应类别对重复出现的次数,按照出现次数从高到低排序,取第二预设数量的类别对,人工检查是否存在类别歧义。
进一步的,所述利用深度学习模型浅层分类器检测歧义,包括:
将深度学习模型分类结果进行统计并形成混淆矩阵,所述混淆矩阵的每行i对应标注的类别,每列j对应所述深度学习模型预测的类别,元素xij是标注为类别i,而模型预测为类别j的问句个数,元素xji是标注为类别j,而模型预测为类别i的问句个数;
计算数据集中标注为类别i的样本个数,所述类别i的样本个数为
Figure BDA0003126963990000041
其中k为任意类别;
计算数据集中标注为类别j的样本个数,所述类别j的样本个数为
Figure BDA0003126963990000042
其中k为任意类别;
计算数据集中将标注为类别i的样本被所述深度学习模型预测为类别j的比例Pij与将标注为类别j的样本预测到类别i的比例Pji,所述Pij和Pji计算公式分别为:
Figure BDA0003126963990000043
所述类别i与所述类别j属于不同类别,所述数据集包括训练集或/和测试集;
计算类别对(类别i、类别j)的混淆度,所述混淆度为Pij和Pji的调和平均值Sij,所述
Figure BDA0003126963990000044
根据混淆度判断类别i与类别j是否存在歧义。
更进一步的,所述根据混淆度判断类别i、类别j是否存在歧义,包括:
对计算出的混淆度进行排序;
提取第三预设数量的混淆度排名靠前的类别,人工检测是否存在类别歧义。
进一步的,所述利用深度学习模型浅层分类器检测歧义,还包括:找出数据集中标注的实际类别和深度学习模型预测的类别不一致的数据,人工检查是否存在标注错误,所述数据集包括训练集或/和测试集。
进一步的,所述根据歧义检测结果更新所述知识库,包括:
对检测出的歧义问句进行人工改写、人工重新标注,并删除原标注;
对检测出的歧义类别进行相似问句的重新组合、分配,并删除原歧义类别。
第二方面,本申请提供一种客服机器人知识库歧义检测装置,包括:
构建模块,用于构建知识库,所述知识库按FAQ划分,每个FAQ设有至少一个相似问句,且每个FAQ为一个类别;
划分模块,用于将所述知识库划分为深度学习模型的测试集和训练集;
训练模块,用于在训练集上训练深度学***均值Sij,所述
Figure BDA0003126963990000054
根据混淆度判断类别i与类别j是否存在歧义;
更新模块,用于根据歧义检测结果更新所述知识库;
重复模块,用于重复上述步骤直到学习效果不再提升,得到消除歧义的知识库。
第三方面,本申请提供一种电子设备,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行如第一方面任一项所述的客服机器人知识库歧义检测方法。
第四方面,本申请提供一种计算机可读存储介质,其中存储有处理器可执行的程序,包括:
所述处理器可执行的程序在由处理器执行时用于执行如第一方面任一项所述的客服机器人知识库歧义检测方法。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请根据歧义检测结果更新所述知识库,重复训练步骤直到学习效果达到预期标准,可以辅助人工发现并修正知识库歧义,得到消除歧义的知识库,从消除歧义的知识库中提取数据作为深度学习模型的训练集和测试集,进一步提高深度学习模型学习效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请一个实施例提供的客服机器人知识库歧义检测方法的流程示意图。
图2是本申请另一个实施例提供的客服机器人知识库歧义检测方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
图1是本申请一个实施例提供的客服机器人知识库歧义检测方法的流程示意图。
如图1所示,本实施例的方法包括:
S11:构建知识库,知识库按FAQ划分,每个FAQ各带有数量不定的相似问句,每个FAQ即为一个类别。
所述知识库是在大规模知识处理基础上发展起来的一项面向行业应用的,适用大规模知识处理、自然语言理解、知识管理、自动问答***、推理等等技术行业,智能客服不仅为企业提供了细粒度知识管理技术,还为企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段。以一个电商企业的客服机器人知识库为例,所述知识库中包含多个FAQ,例如“退货流程”,“退款流程”。以“退货流程”为例,该FAQ可能包含以下相似问句:“我昨天买的东西怎么退货?”,“我想退货,应该怎么操作?”。
S12:将所述知识库划分为深度学习模型的测试集和训练集。
从所述知识库中选取需要检测歧义的N个FAQ,作为N个类别。对于每个FAQ,随机抽取预设数量的相似问句作该类别的测试数据,其余相似问句作为该类别的训练数据。所有类别的测试数据构成测试集,所有类别的训练数据构成训练集。
例如,所述知识库内包含10个FAQ,每个FAQ各包含20个相似问句,从知识库的每个类别中随机抽取预设量例如为3个相似问句作为深度学习模型的测试集,则所述测试集内包含30个相似问句,而其余170个相似问句被纳入深度学习模型的训练集。
需要说明的是,本发明所涉及的知识库内包含类别的数量、每个类别包含相似问句的数量不限于实施例中所涉及的举例,此处不再赘述。
S13:在训练集上训练深度学习模型,并利用学习出的所述深度学习模型进行歧义检测。
所述深度学习模型包括:特征提取器、浅层分类器。
所述歧义检测包括:类别歧义检测、标注错误检测和标注歧义检测;
所述歧义包括:
类别歧义:即两个类别的意思很相近,例如类别1为“订单问题”,类别2为“产品的变更取消问题”,类别1的语义和类别2的语义有重合,因为类别1基本可涵盖类别2;
标注歧义:即问句可以同时标为多个类,例如:类别1为“产品的退货问题”,类别2为“产品的价格问题”,如果问句是“这东西太贵了,我想退货”,则此句话存在标注歧义,因为该问句同时包含了所述两个类别的意思;
标注错误:问句对应到错误的类别,例如类别1为“产品的退货问题”,类别2为“产品的价格问题”,如果问句是“我不想要了”,却被标注成类别2,则会产生标注错误。
所述歧义检测针对测试集或\和训练集。
所述利用学习出的所述深度学习模型进行歧义检测,包括:
利用深度学习模型中特征提取器检测歧义;
利用深度学习模型中浅层分类器检测歧义;
所述利用深度学习模型中特征提取器检测歧义,包括:
用所述深度学习模型中的特征提取器将数据集中的相似问句转化成特征向量,所述数据集包括训练集或/和测试集;
将问句对应的特征向量组合成问句特征向量对(x,y),其中特征向量x对应的问句和特征向量y对应的问句分别来自不同类别;
计算每组问句特征向量对的向量相似度cos(x,y),所述
Figure BDA0003126963990000081
将所有问句特征向量对按所述向量相似度从高到低排序,选择所述向量相似度排名靠前的问句特征向量对,并根据所述向量相似度排名靠前的问句特征向量对判断是否存在歧义。
所述根据所述向量相似度排名靠前的问句特征向量对判断是否存在歧义,包括:
判断是否存在标注歧义或标注错误:提取第一预设数量例如为30个所述相似度排名靠前的问句特征向量对,人工检查对应的问句对是否存在标注歧义和标注错误;
判断是否存在类别歧义:对于所述第一预设数量的问句特征向量对,统计对应类别对重复出现的次数,按照出现次数从高到低排序,取第二预设数量例如为20个类别对,人工检查是否存在类别歧义。
所述利用深度学习模型浅层分类器检测歧义,包括:
将深度学习模型分类结果进行统计并形成混淆矩阵,所述混淆矩阵的每行i对应标注的类别,每列j对应所述深度学习模型预测的类别,元素xij是标注为类别i,而模型预测为类别j的问句个数,元素xji是标注为类别j,而模型预测为类别i的问句个数;
计算数据集中标注为类别i的样本个数,所述类别i的样本个数为
Figure BDA0003126963990000091
其中k为任意类别;
计算数据集中标注为类别j的样本个数,所述类别j的样本个数为
Figure BDA0003126963990000092
其中k为任意类别;
计算数据集中将标注为类别i的样本被所述深度学习模型预测为类别j的比例Pij与将标注为类别j的样本预测到类别i的比例Pji,所述Pij和Pji计算公式分别为:
Figure BDA0003126963990000093
所述类别i与所述类别j属于不同类别,所述数据集包括训练集或/和测试集;
计算类别对(类别i、类别j)的混淆度,所述混淆度为Pij和Pji的调和平均值Sij,所述
Figure BDA0003126963990000094
根据混淆度判断类别i与类别j是否存在歧义。
所述根据混淆度判断类别i、类别j是否存在歧义,包括:
对计算出的混淆度进行排序;
提取第三预设数量例如为5个混淆度排名靠前的类别对,人工检测是否存在类别歧义。
所述利用深度学习模型浅层分类器检测歧义,还包括:找出数据集中标注的实际类别和深度学习模型预测的类别不一致的数据,人工检查是否存在标注错误,所述数据集包括训练集或/和测试集。
S14:根据歧义检测结果更新所述知识库,包括:
对检测出的歧义问句进行人工改写、人工重新标注,并删除原标注;
对检测出的歧义类别进行相似问句的重新组合、分配,并删除原歧义类别。
S15:重复上述步骤直到学习效果不再提升,得到消除歧义的知识库。
所述学习效果为模型预测结果和测试集中问句标注的实际类别的一致率,所述一致率例如为预测准确率,即预测结果一致的问句数量除以总的问句数量。所述学习效果不再提升例如为预测准确率提升小于0.5%。
当模型学习效果不再提升时,说明因知识库歧义导致的模型性能下降已消除,可以利用所述知识库训练模型并部署到生产环境中使用。
本实施例中,根据歧义检测结果更新所述知识库,重复训练步骤直到学习效果达到预期标准,可以辅助人工发现并修正知识库歧义,得到消除歧义的知识库,从消除歧义的知识库中提取数据作为深度学习模型的训练集和测试集,进一步提高深度学习模型学习效果。
图2是本申请另一个实施例提供的客服机器人知识库歧义检测方法的流程示意图。
如图2所示,所述在训练集上训练深度学习模型,包括:
所述深度学习的概念源于人工神经网络的研究,含多隐层的多层感知器。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。所述深度学习模型包括特征提取器和浅层分类器。
S21:将所述训练集中的问句作为输入部分输入到所述深度学习模型;
S22:利用所述深度学习模型中的特征提取器将输入部分中的问句转化成特征向量;
所述特征提取器例如为循环神经网络。该模型按顺序读入问句中的每个词,并输出一个固定维度的特征向量。需要说明的是,特征提取器不限于所举例的循环神经网络,任何可以将问句转化成固定维度的特征向量的方法都可以作为特征提取器。
S23:利用所述深度学习模型中的浅层分类器根据所述特征向量计算出预测结果,所述预测结果为输入部分中的问句所对应的类别;
所述的浅层分类器例如为线性分类器。该分类器读入一个固定维度的特征向量,并计算向量元素的线性组合得出各个类别的打分,取打分最高的类别作为预测结果。需要说明的是,浅层分类器不限于所举例的线性分类器,任何可以将固定维度的特征向量转化成各个类别的打分的方法都可以作为浅层分类器。
S24:利用优化器优化训练模型,将训练集中问句标注的实际类别和所述深度学***均差异最小化;
所述平均差异例如为损失函数。所述损失函数例如为交叉熵。
所述优化器例如为梯度下降法。所述梯度下降是迭代法的一种,在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和相应的模型参数值。
S25:用测试集对训练完的模型进行评估,计算模型预测结果和测试集中问句标注的实际类别的一致率,作为模型学习效果的评估,所述一致率例如为预测准确率,即预测结果一致的问句数量除以总的问句数量。
本实施例中,利用深度学习模型对训练集中FAQ进行训练,在训练过程中利用优化器不断优化模型,不断迭代提升深度学习模型学习效果,并且不断提升歧义检测正确率。
本申请一个实施例提供一种客服机器人知识库歧义检测装置,包括:
构建模块,用于构建知识库,所述知识库按FAQ划分,每个FAQ设有至少一个相似问句,且每个FAQ为一个类别;
划分模块,用于将所述知识库划分为深度学习模型的测试集和训练集;
训练模块,用于在训练集上训练深度学***均值Sij,所述
Figure BDA0003126963990000124
根据混淆度判断类别i与类别j是否存在歧义;
更新模块,用于根据歧义检测结果更新所述知识库;
重复模块,用于重复上述步骤直到学习效果不再提升,得到消除歧义的知识库。
一些实施例中,还包括:
随机抽取模块,用于将知识库划分为深度学习模型的测试集和训练集,包括:随机抽取每个FAQ对应的预设数量的相似问句作FAQ对应类别的测试数据,其余相似问句作为所述FAQ对应类别的训练数据;所有类别的测试数据构成测试集,所有类别的训练数据构成训练集。
排序模块,用于对计算出的混淆度进行排序,提取第三预设数量的混淆度排名靠前的类别,人工检测是否存在类别歧义。
标注模块,用于利用深度学习模型浅层分类器检测歧义,还包括:找出数据集中标注的实际类别和深度学习模型预测的类别不一致的数据,人工检查是否存在标注错误,所述数据集包括训练集或/和测试集。
本申请一个实施例提供一种电子设备,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行如上述实施例所述的客服机器人知识库歧义检测方法。
本申请一个实施例提供一种计算机可读存储介质,其中存储有处理器可执行的程序,包括:
所述处理器可执行的程序在由处理器执行时用于执行如上述实施例所述的客服机器人知识库歧义检测方法。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
需要说明的是,本发明不局限于上述最佳实施方式,本领域技术人员在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保护范围之内。

Claims (9)

1.一种客服机器人知识库歧义检测方法,其特征在于,包括:
构建知识库,所述知识库按FAQ划分,每个FAQ设有至少一个相似问句,且每个FAQ为一个类别;
将所述知识库划分为深度学习模型的测试集和训练集;
在训练集上训练深度学习模型,并利用学习出的所述深度学习模型进行歧义检测;所述歧义检测包括:类别歧义检测、标注错误检测和标注歧义检测,所述利用学习出的所述深度学习模型进行歧义检测,包括:利用深度学习模型中浅层分类器检测歧义,包括:
将深度学习模型分类结果进行统计并形成混淆矩阵,所述混淆矩阵的每行i对应标注的类别,每列j对应所述深度学习模型预测的类别,元素xij是标注为类别i,而模型预测为类别j的问句个数,元素xji是标注为类别j,而模型预测为类别i的问句个数;
计算数据集中标注为类别i的样本个数,所述类别i的样本个数为
Figure FDA0003126963980000011
其中k为任意类别;
计算数据集中标注为类别j的样本个数,所述类别j的样本个数为
Figure FDA0003126963980000012
其中k为任意类别;
计算数据集中将标注为类别i的样本被所述深度学习模型预测为类别j的比例Pij与将标注为类别j的样本预测到类别i的比例Pji,所述Pij和Pji计算公式分别为:
Figure FDA0003126963980000013
所述类别i与所述类别j属于不同类别,所述数据集包括训练集或/和测试集;
计算类别对(类别i、类别j)的混淆度,所述混淆度为Pij和Pji的调和平均值Sij,所述
Figure FDA0003126963980000014
根据混淆度判断类别i与类别j是否存在歧义;
根据歧义检测结果更新所述知识库;
重复上述步骤直到学习效果不再提升,得到消除歧义的知识库。
2.根据权利要求1所述的方法,其特征在于,所述将所述知识库划分为深度学习模型的测试集和训练集,包括:随机抽取每个FAQ对应的预设数量的相似问句作FAQ对应类别的测试数据,其余相似问句作为所述FAQ对应类别的训练数据;所有类别的测试数据构成测试集,所有类别的训练数据构成训练集。
3.根据权利要求1所述的方法,其特征在于,所述深度学习模型包括:特征提取器、浅层分类器,所述在训练集上训练深度学习模型,包括:
将所述训练集中的问句作为输入部分输入到所述深度学习模型;
利用所述深度学习模型中的特征提取器将输入部分中的问句转化成特征向量;
利用所述深度学习模型中的浅层分类器根据所述特征向量计算出预测结果,所述预测结果为输入部分中的问句所对应的类别;
利用优化器优化训练模型,将训练集中问句标注的实际类别和所述深度学***均差异最小化;
用测试集对训练完的模型进行评估,计算模型预测结果和测试集中问句标注的实际类别的一致率,作为模型学习效果的评估。
4.根据权利要求1所述的方法,其特征在于,所述根据混淆度判断类别i、类别j是否存在歧义,包括:
对计算出的混淆度进行排序;
提取第三预设数量的混淆度排名靠前的类别,人工检测是否存在类别歧义。
5.根据权利要求1所述的方法,其特征在于,所述利用深度学习模型浅层分类器检测歧义,还包括:找出数据集中标注的实际类别和深度学习模型预测的类别不一致的数据,人工检查是否存在标注错误,所述数据集包括训练集或/和测试集。
6.根据权利要求1所述的方法,其特征在于,所述根据歧义检测结果更新所述知识库,包括:
对检测出的歧义问句进行人工改写、人工重新标注,并删除原标注;
对检测出的歧义类别进行相似问句的重新组合、分配,并删除原歧义类别。
7.一种客服机器人知识库歧义检测装置,其特征在于,包括:
构建模块,用于构建知识库,所述知识库按FAQ划分,每个FAQ设有至少一个相似问句,且每个FAQ为一个类别;
划分模块,用于将所述知识库划分为深度学习模型的测试集和训练集;
训练模块,用于在训练集上训练深度学***均值Sij,所述
Figure FDA0003126963980000041
根据混淆度判断类别i与类别j是否存在歧义;
更新模块,用于根据歧义检测结果更新所述知识库;
重复模块,用于重复上述步骤直到学习效果不再提升,得到消除歧义的知识库。
8.一种电子设备,其特征在于,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行如权利要求1-6任一项所述的客服机器人知识库歧义检测方法。
9.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,包括:
所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-6任一项所述的客服机器人知识库歧义检测方法。
CN202110693227.9A 2018-07-19 2018-07-19 客服机器人知识库歧义检测方法、装置及相关设备 Active CN113407694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110693227.9A CN113407694B (zh) 2018-07-19 2018-07-19 客服机器人知识库歧义检测方法、装置及相关设备

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810801678.8A CN109101579B (zh) 2018-07-19 2018-07-19 客服机器人知识库歧义检测方法
CN202110693227.9A CN113407694B (zh) 2018-07-19 2018-07-19 客服机器人知识库歧义检测方法、装置及相关设备

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201810801678.8A Division CN109101579B (zh) 2018-07-09 2018-07-19 客服机器人知识库歧义检测方法

Publications (2)

Publication Number Publication Date
CN113407694A true CN113407694A (zh) 2021-09-17
CN113407694B CN113407694B (zh) 2023-06-02

Family

ID=64846947

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110693227.9A Active CN113407694B (zh) 2018-07-19 2018-07-19 客服机器人知识库歧义检测方法、装置及相关设备
CN201810801678.8A Active CN109101579B (zh) 2018-07-09 2018-07-19 客服机器人知识库歧义检测方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201810801678.8A Active CN109101579B (zh) 2018-07-09 2018-07-19 客服机器人知识库歧义检测方法

Country Status (1)

Country Link
CN (2) CN113407694B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117114103A (zh) * 2023-10-20 2023-11-24 国家电网有限公司 一种语料库的重构方法及装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020010930A1 (zh) * 2018-07-09 2020-01-16 深圳追一科技有限公司 客服机器人知识库歧义检测方法、存储介质和计算机设备
CN109902285B (zh) * 2019-01-08 2023-09-22 平安科技(深圳)有限公司 语料分类方法、装置、计算机设备及存储介质
CN112818127A (zh) * 2019-11-15 2021-05-18 北京中关村科金技术有限公司 一种检测知识库中的语料冲突的方法、装置和介质
CN111209404B (zh) * 2020-04-17 2020-12-22 浙江百应科技有限公司 一种基于深度学习辅助生成相似问句的方法
CN111625636B (zh) * 2020-05-28 2023-08-04 深圳追一科技有限公司 一种人机对话的拒绝识别方法、装置、设备、介质
CN112257443B (zh) * 2020-09-30 2024-04-02 华泰证券股份有限公司 一种结合知识库的基于mrc的公司实体消歧方法
CN112559723B (zh) * 2020-12-28 2024-05-28 广东国粒教育技术有限公司 一种基于深度学习的faq检索式问答构建方法及***
CN112699226A (zh) * 2020-12-29 2021-04-23 江苏苏宁云计算有限公司 用于语义混淆检测的方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
WO2014025135A1 (ko) * 2012-08-10 2014-02-13 에스케이텔레콤 주식회사 문법 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
CN104657463A (zh) * 2015-02-10 2015-05-27 乐娟 应用于自动问答***的问句分类方法及装置
US20160091609A1 (en) * 2014-09-30 2016-03-31 Umm-Al-Qura University Method and system for an accurate and energy efficient vehicle lane detection
CN107292338A (zh) * 2017-06-14 2017-10-24 大连海事大学 一种基于样本特征值分布混淆度的特征选择方法
CN107977356A (zh) * 2017-11-21 2018-05-01 新疆科大讯飞信息科技有限责任公司 识别文本纠错方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答***实现方法
CN103617157B (zh) * 2013-12-10 2016-08-17 东北师范大学 基于语义的文本相似度计算方法
CN104268134B (zh) * 2014-09-28 2017-04-19 苏州大学 一种主客观分类器构建方法和***
US10509814B2 (en) * 2014-12-19 2019-12-17 Universidad Nacional De Educacion A Distancia (Uned) System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model
CN105512209B (zh) * 2015-11-28 2018-06-19 大连理工大学 一种基于特征自动学习的生物医学事件触发词识别方法
CN107102989B (zh) * 2017-05-24 2020-09-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
CN107993724B (zh) * 2017-11-09 2020-11-13 易保互联医疗信息科技(北京)有限公司 一种医学智能问答数据处理的方法及装置
CN108227932B (zh) * 2018-01-26 2020-06-23 上海智臻智能网络科技股份有限公司 交互意图确定方法及装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
WO2014025135A1 (ko) * 2012-08-10 2014-02-13 에스케이텔레콤 주식회사 문법 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
US20160091609A1 (en) * 2014-09-30 2016-03-31 Umm-Al-Qura University Method and system for an accurate and energy efficient vehicle lane detection
CN104657463A (zh) * 2015-02-10 2015-05-27 乐娟 应用于自动问答***的问句分类方法及装置
CN107292338A (zh) * 2017-06-14 2017-10-24 大连海事大学 一种基于样本特征值分布混淆度的特征选择方法
CN107977356A (zh) * 2017-11-21 2018-05-01 新疆科大讯飞信息科技有限责任公司 识别文本纠错方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王小佳: "基于特征选择的语音情感识别研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
镇丽华等: "自动问答***中问句分类研究综述", 《安徽工业大学学报(自然科学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117114103A (zh) * 2023-10-20 2023-11-24 国家电网有限公司 一种语料库的重构方法及装置

Also Published As

Publication number Publication date
CN109101579B (zh) 2021-11-23
CN109101579A (zh) 2018-12-28
CN113407694B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
CN109101579B (zh) 客服机器人知识库歧义检测方法
US20190354583A1 (en) Techniques for determining categorized text
US10013636B2 (en) Image object category recognition method and device
US11036811B2 (en) Categorical data transformation and clustering for machine learning using data repository systems
Ahmed et al. Clarify of the random forest algorithm in an educational field
CN109960734A (zh) 用于数据可视化的问题回答
US9189542B2 (en) Evidence profiling
JP2021510429A (ja) 知識および自然言語処理を統合するための機械学習
CN110019822B (zh) 一种少样本关系分类方法及***
CN110134777A (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN114186076A (zh) 知识图谱构建方法、装置、设备和计算机可读存储介质
US11531927B2 (en) Categorical data transformation and clustering for machine learning using natural language processing
CN112420125A (zh) 分子属性预测方法、装置、智能设备和终端
CN114691525A (zh) 测试用例的选择方法及装置
CN117151222B (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN113705159A (zh) 商户名称的标注方法、装置、设备及存储介质
CN116861358A (zh) 基于bp神经网络与多源数据融合的计算思维评测方法
CN110879821A (zh) 评分卡模型衍生标签生成方法、装置、设备及存储介质
CN113010687B (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
CN116342333A (zh) 在线学习资源推荐的方法、***及装置
US20210358317A1 (en) System and method to generate sets of similar assessment papers
Barella et al. Simulating complexity measures on imbalanced datasets
Hauser et al. An improved assessing requirements quality with ML methods
WO2020010930A1 (zh) 客服机器人知识库歧义检测方法、存储介质和计算机设备
CN111339258A (zh) 基于知识图谱的大学计算机基础习题推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant