CN111159370A - 一种短会话新问题生成方法、存储介质和人机交互装置 - Google Patents

一种短会话新问题生成方法、存储介质和人机交互装置 Download PDF

Info

Publication number
CN111159370A
CN111159370A CN201911321137.6A CN201911321137A CN111159370A CN 111159370 A CN111159370 A CN 111159370A CN 201911321137 A CN201911321137 A CN 201911321137A CN 111159370 A CN111159370 A CN 111159370A
Authority
CN
China
Prior art keywords
new
candidate new
candidate
question
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911321137.6A
Other languages
English (en)
Inventor
杨雷
李昱
王全礼
唐汇
蒲柯锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN201911321137.6A priority Critical patent/CN111159370A/zh
Publication of CN111159370A publication Critical patent/CN111159370A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本实施例公开一种短会话新问题生成方法,获取候选新问题;形成相似候选新问题集合,将所述候选新问题按照相似程度聚类,获得相似候选新问题集合;提取标签词,提取所述相似候选新问题集合中的预定词频的业务词汇作为所述相似候选新问题集合的标签词;生成主旨句,根据所述相似候选新问题集合的内容生成主旨句;生成新问题,根据所述相似候选新问题集合中预定数量的候选新问题、所述主旨句和所述标签词生成新问题。本实施例考量了候选新问题内容之间的相似性,可以对从多个角度提出的具有业务含义相近似新问题能够精准聚类,匹配到准确答复,业务意图理解能力更接近真实应用场景,适用性更强,可适用于多种业务场景。

Description

一种短会话新问题生成方法、存储介质和人机交互装置
技术领域
本发明涉及人工智能领域,尤其是涉及一种基于短会话的新问题生成方法、存储介质和人机交互装置。
背景技术
随着互联网的发展,人工智能得到了长足的发展,人机交互装置在众多领域的问答场景中被频繁使用,例如购物、理财、政务、客服等场景,人机交互装置可以对重复性的问题做出准确高效的应答,由此减轻了客服人员的工作强度,甚至用智能客服代替传统人工客服,可大幅度提升客户服务效率,缩短用户等待时间的同时,7x24小时提供专业的客户服务,可弥补人工客服下班后无法正常提供服务的不足。
人机交互装置的问答知识数据库丰富度决定了人机交互装置的智能程度,问答知识库越丰富机器人与客户会话交流能力越强,相关技术中人机交互装置的问答知识库往往是预先设定好的,通常是设定了标准问题集合和对应的标准答复集合,只有提问与标准问题匹配时才能被识别,这样问答知识库局限性比较大,无法对不同客户不同的表达方式进行识别,同时相关技术中的人机交互装置不具有自学习能力,不能应对客户新提出的问题,用户体验差。
为了解决人机交互装置问答知识库单一,业务意图理解能力差,不能自主学习更新的问题,相关技术中通常将新的关键词作为新问题更新问答知识库,以此提高人机交互装置的自主学习和业务意图理解能力。但采用该方式更新的问答知识库往往不具有代表性,或者不能准确的匹配业务意图,会引起人机交互装置在面对用户新问题时作出错误的答复,不仅没有提高用户体验还存在误导用户的风险。因此,亟待提出一种可靠的提高人机交互装置自主学习识别并生成新问题更新问答知识库的方法,以有效提高人机交互装置的业务意图理解能力。
发明内容
为了改善相关技术中的不足,本发明致力于提供一种可靠的提高人机交互装置自主学习识别并生成新问题更新问答知识库的方法,以有效提高人机交互装置的业务意图理解能力。
根据本发明提供的一种短会话新问题生成方法,包括获取候选新问题;
形成相似候选新问题集合,将所述候选新问题按照相似程度聚类,获得相似候选新问题集合;
提取标签词,提取所述相似候选新问题集合中的预定词频的业务词汇作为所述相似候选新问题集合的标签词;
生成主旨句,根据所述相似候选新问题集合的内容生成主旨句;
生成新问题,根据所述相似候选新问题集合中预定数量的候选新问题、所述主旨句和所述标签词生成新问题。
进一步的,所述主旨句为所述候选新问题集合中预定频率的候选新问题或者根据所述候选问题集合归纳形成的语句。
进一步的,所述标签词为所述候选新问题集合中预定频率的业务词汇。
进一步的,获取候选新问题包括:读取短会话内容,计算所述短会话内容中新问题的综合相似度和标准问题库中问题的综合相似度的比值,若所述比值满足第一预设条件,则将所述短会话内容中的新问题作为候选新问题。
进一步的,形成相似候选新问题集合,将所述候选新问题按照相似程度聚类,获得相似候选新问题集合包括:选择一条候选新问题,生成第一候选新问题主旨句和第一候选新问题集合,读取下一条候选新问题,计算所述第一条候选新问题的综合相似度和所述下一条候选新问题的综合相似度的比值,若所述比值满足第二预设条件,则将所述读取的下一条候选新问题加入所述第一候选新问题集合。
进一步的,所述第一预设条件为所述比值小于0.8,所述第二预设条件为所述比值大于等于0.8。
进一步的,所述综合相似度计算方式为:
Q=C·α+W·β+S·γ
其中Q为综合相似度得分;
C为基于内容计算的相似度,α为基于内容计算的相似度对应的权重值,α在[0.7,0.9]取值;
W为基于关键词命中计算的相似度,β为基于关键词命中计算的相似度对应的权重值,β在[0.05-0.15]取值;
S:基于词顺序计算的相似度,γ为基于词顺序计算的相似度对应的权重值,γ在[0.05,0.15]取值。
具体的,所述α取0.9,所述β取0.05;所述γ取0.05。
进一步的,在获取候选新问题前滤除短会话内容中的日常对话、语气词、特殊字符、单字节内容、数字或者重复的内容。
本发明方案中的对候选新问题按照相似度聚类形成相似候选新问题集合,然后根据主旨句、选取相似候选问题和标签词生成新问题,考量了候选候选新问题内容之间的相似性,可以对从多个角度提出的具有业务含义相近似新问题能够精准聚类,匹配到准确答复,业务意图理解能力更接近真实应用场景,适用性更强,可适用于多种业务场景,此外应用本方法可以提高问答知识数据库的自主学习能力,操作性更强。
本发明的另一个方面提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。
本发明的再一个方面提供一种人机交互装置,所述人机交互装置包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的短会话新问题生成程序,所述短会话新问题生成程序被所述处理器执行时实现如上任一项所述的方法。
本发明的存储介质和人机交互装置,运行上述方法具有与上述方法相同的技术效果,在此不再赘述。
附图说明
图1为本发明短会话新问题生成流程图
图2为本发明人机交互内容清洗流程图
图3为本发明标签词生成流程图
图4为本发明形成相似候选新问题集合流程图
图5本发明人机交互装置构成示意图
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。此外,本实施例内容部分和附图中的步骤并不作先后顺序限定,在本发明的精神内部分步骤可以同步或者调换次序实施。
实施例1:
基于人机交互的短会话中新问题生成是人机交互***的核心功能模块之一,通过对大量客户交互流水分析,提取出新形成的业务词汇,丰富业务词库和问答知识库,能有效提升***业务意图理解能力,增强用户体验。以下对本实施方式的技术方案进行示意性说明,如图1所示,为了改善相关技术中的不足,本发明实施例致力于提供一种可靠的提高人机交互装置自主学习识别并生成新问题来更新问答知识库的新问题生成方法,以有效提高人机交互装置的业务意图理解能力。本实施例中的人机交互装置包括客服机器人,在部分表述中以客服机器人替代人机交互装置。
根据本发明提供的一种短会话新问题生成方法,包括获取候选新问题,本实施涉及的候选新问题是没有包括在原有问答知识数据库中的新问题,原有问答知识库也称为标准问答知识数据库或简称为标准问题库,对于短会话中的新问题如果通过本实施提供的方式比较后认为与原有问答知识库中的问题相似度超过阈值,则可以将该问题更新到标准问答数据的对应问题集合中,作为对应问题集合的一个新增元素。
读取短会话内容也即对输入的大量人机交互流水分析,提取具有业务含义的语句,将这些语句与标准问答知识库中的相关问题进行综合相似度比较,首先计算短会话内容中新问题的综合相似度和标准问题库中问题的综合相似度的比值,若所述比值满足第一预设条件,则将所述短会话内容中的新问题作为候选新问题。如上所述该第一预设条件的设置是为了将没有包含在标准问答知识库中的问题识别出来,作为后续处理的材料。由于本实施例针对的是新问题,一个问题包含若干个方面,例如业务领域、语境、词汇先后顺序等都会影响问题的业务含义,不同的业务领域、语境或者词汇的先后顺序等都会改变具体业务含义,为此发明人经过深入的研究提出综合考虑了语句内容、关键词和词顺序的综合相似度计算方法,以期能够筛选出可以指向接近相同业务含义的候选新问题,该综合相似度Q计算方式如下:
Q=C·α+W·β+S·γ
其中Q为综合相似度得分;
C为基于内容计算的相似度,α为基于内容计算的相似度对应的权重值,α在[0.7,0.9]取值,优选的α设为0.9,根据需要也可以将α的值选择0.8;
W为基于关键词命中计算的相似度,β为基于关键词命中计算的相似度对应的权重值,β在[0.05,0.15]取值,优选的β设为0.05,根据需要也可以将β的值选择0.10或者0.15;
S:基于词顺序计算的相似度,γ为基于词顺序计算的相似度对应的权重值,γ在[0.05,0.15]取值,优选的γ设为0.05,根据需要也可以将γ的值选择0.10或者0.15。
若所述比值满足第一预设条件,则将所述短会话内容中的新问题作为候选新问题。其中本实施方式中将第一预设条件设定为当短会话中的新问题综合相似度值与标准问答知识库中的问题相似度值相比,其比值小于0.8时认为该新问题没有包括在标注问答数据库中,此时将该新问题作为候选新问题。
形成相似候选新问题集合,将所述候选新问题按照相似程度聚类,获得相似候选新问题集合;人机交互流水的内容是众多用户与客服机器人交流的内容,对于同一个业务含义的咨询不同客户具有不同的提问和表达方式,为了对相似问题做归一化处理,需要对表达了同一或者接近同一业务含义的问题进行聚类,作为一个问题类型对待,如此可以提高人机交互***的鲁棒性。
本实施例对人机交互过程中产生的问题进行聚类处理时,也采用综合相似度处理方式,如图4所示,具体从短会话内容中确定的一个没有经过比较判断的候选新问题,将该候选新问题作为第一候选新问题Ri,以该第一候选新问题为中心生成第一候选新问题主旨句和第一候选新问题集合,然后读取下一条候选新问题Rj,判断读取下一条候选新问题Rj是否已经经过比较判断,如果该下一条候选新问题Rj没有经过比较判断时,将新问题Rj与第一候选新问题Ri比较,如果其综合相似度Q满足第二预设条件,则认为第一候选新问题Ri和读取的下一条候选新问题Rj表达了同一业务含义,属于同一类问题,则将该下一条候选新问题Rj配置到第一候选新问题集合中,并对该下一条候选新问题Rj设置已与第一候选新问题Ri比较判断的标签,如标注为已处理或者已判断等。然后读取第j+1条候选新问题Rj+1执行上述比较判断。上述判断比较逻辑中如果第一候选新问题Ri与下一条候选新问题Rj经过比较判断后不满足第二预设条件,则对该下一条候选新问题Rj设置已与第一候选新问题Ri比较判断标签,如标注为已处理或者已判断等,并将该下一条候选新问题Rj不配置到第一候选新问题集合中。在第一候选新问题Ri与其他待比较的候选新问题比较完成后,选取第二候选新问题Ri+1执行上述比较逻辑。本实施中综合相似度算法为所述综合相似度计算方式为:
Q=C·α+W·β+S·γ
其中Q为综合相似度得分;
C为基于内容计算的相似度,α为基于内容计算的相似度对应的权重值,α在[0.7,0.9]取值,优选的α设为0.9,根据需要也可以将α的值选择0.8;
W为基于关键词命中计算的相似度,β为基于关键词命中计算的相似度对应的权重值,β在[0.05,0.15]取值,优选的β设为0.05,根据需要也可以将β的值选择0.10或者0.15;
S:基于词顺序计算的相似度,γ为基于词顺序计算的相似度对应的权重值,γ在[0.05,0.15]取值,优选的γ设为0.05,根据需要也可以将γ的值选择0.10或者0.15。
本实施方式的该步骤中是为了对候选新问题进行聚类,将表达接近相同或者相同业务含义的候选新问题最为一类处理,为了尽可能的将同类候选新问题聚在一起,发明人经过深入研究后将所述第二预设条件设为第一候选新问题的综合相似度和待比较的下一条候选新问题的综合相似度比值设置成大于等于0.8。如此可以将近似候选新问题有效的聚合。
提取标签词,提取所述相似候选新问题集合中的预定词频的业务词汇作为所述相似候选新问题集合的标签词;对于每一相似候选新问题集合中的候选新问题读取后进行分词处理,提取其中具有业务含义的关键词,本实施例中对于候选新问题集合中的候选新问题读取可以读取预定数量的候选新问题,也可以是逐条读取候选新问题,对读取的候选新问题进行选择分词处理方案进行分词,提取具有业务含义的词汇,本实施例并不限于分词处理方式,只要是能够提取候选新问题中具有业务含义词汇的分词方式均是可行的。提取候选新问题的业务词汇后进行业务词汇词频统计并进行排序,将预定词频的业务词汇作为本候选新问题集合的标签词汇。例如为了可以选择排序前三位的高频业务词汇作为标签词汇,标签词汇的数量不做具体限定,可选择能够表征该候选新问题集合关键特征的多个标签词。出于举例目的,如图3所示,首选选定一个候选新问题集合Ci,依次选择其中的候选新问题Rj,对候选新问题Rj分词处理,然后对分词结果中的业务词汇进行词频统计排序,判断该候选新问题Rj中是否存在可以表征该候选新问题特征的业务词汇,如果存在将该业务词汇作为该相似候选新问题集合Ci的备选标签词之一,以用作后续全部备选标签词词频统计对象,之后读取下一条候选新问题Rj+1做如上处理,在上述判断中如果该候选新问题经分词后无可以表征该候选新问题特征的业务词汇,则读取下一条候选新问题Rj+1继续上述处理。最终选择预定词频的业务词汇作为该相似候选新问题集合Ci的标签词。当相似候选新问题集合Ci处理完成后继续下一个相似候选新问题集合Ci+1的处理,相似候选新问题集合Ci+1的标签词的配置过程与相似候选新问题集合Ci标签词的配置相同,在此不再赘述。
生成主旨句,根据所述相似候选新问题集合的内容生成主旨句;主旨句是可以概括该相似候选新问题集合中大部分甚至是全部候选新问题的语句,其可以选取出现频率的高的候选新问题,也可以是对相似候选新问题集合中的候选新问题综合概括后的语句。本实施例对于主旨句的概括可以是基于自然语言技术的形成,也可以是人工概括形成,在本示例中不做具体限定。
生成新问题,根据所述相似候选新问题集合中预定数量的候选新问题、所述主旨句和所述标签词生成新问题。
由于人机交互过程中具有不确定性、多样化等特点,交互流水内容中包含了大量与业务不想关的干扰会话内容,例如日常对话、1-2个字的极短内容、一串特殊字符或者数字等。所以,需要对客户会话过程中的请求内容进行清洗,去除那些具有干扰性的、重复的请求内容,只保留具有一定业务含义的请求流水内容。如图2所示,本实施例在获取候选新问题前滤除短会话内容中的日常对话、语气词、特殊字符、单字节内容、数字或者重复的内容。
本实施例中对候选新问题按照相似度聚类形成相似候选新问题集合,然后根据主旨句、选取相似候选问题和标签词生成新问题,考量了候选新问题内容之间的相似性,可以对从多个角度提出的具有业务含义相近似新问题能够精准聚类,匹配到准确答复,业务意图理解能力更接近真实应用场景,适用性更强,可适用于多种业务场景。
综上所述本实施例可以提高问答知识数据库的自主学习能力,操作性更强同时经过对交互内容清洗、候选新问题与标准问答知识库中的问题比对、候选新问题聚类分析、相似候选新问题集合的标签词提取、新问题生成等多个步骤生成具有相似候选新问题集合属性、标签词属性、关联相似问题多种功能维度的新问题,将单一新问题赋予了相似候选新问题集合属性、标签词属性和关联相似问题等多重属性,适用的业务场景更加多元化,实用性更强;采用的综合相似度计算方法、聚类分析方法和标签词汇提取方法,具有灵活性和实用性,计算简单,方法灵活,参数可配置。
实施例2
本实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如实施例1所述的方法。由于本实施例中的存储介质的存储的是实现实施例1方法的可执行程序,因此具有与实施例相同的技术效果。
实施例3
本实施例提供一种人机交互装置,所述人机交互装置包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的短会话新问题生成程序,所述短会话新问题生成程序被所述处理器执行时实现如实施例1所述的方法。
本实施中的人机交互装置可以是客服机器人,例如金融领域的服务机器人,政务领域问询提供业务办理指导的人机交互***,本年实施中对于人机交互装置的形式不做具体限制,可以具有独立实体结构的装置,也可以在智能设备例如智能手机、PAD、电脑上运行的应用程序。还可以是通过互联网进行远程的交互的人机交互***,并实施例并不排除在形式上分离在实质上实现本方案的***,例如用户交互界面在本地,计算装置在远程或者云端的***也属于本方案的保护范围。
由于本实施例中人机交互装置的存储介质的存储的是实现实施例1方法的可执行程序,因此具有与实施例1相同的技术效果,在此不再赘述。
需要特别说明的是流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种短会话新问题生成方法,其特征在于:
获取候选新问题;
形成相似候选新问题集合,将所述候选新问题按照相似程度聚类,获得相似候选新问题集合;
提取标签词,提取所述相似候选新问题集合中的预定词频的业务词汇作为所述相似候选新问题集合的标签词;
生成主旨句,根据所述相似候选新问题集合的内容生成主旨句;
生成新问题,根据所述相似候选新问题集合中预定数量的候选新问题、所述主旨句和所述标签词生成新问题。
2.根据权利要求1所述的短会话新问题生成方法,其特征在于:所述主旨句为所述候选新问题集合中预定频率的候选新问题或者根据所述候选问题集合归纳形成的语句。
3.根据权利要求2所述的短会话新问题生成方法,其特征在于:所述标签词为所述候选新问题集合中预定频率的业务词汇。
4.根据权利要求1所述的短会话新问题生成方法,其特征在于:获取候选新问题包括:读取短会话内容,计算所述短会话内容中新问题的综合相似度和标准问题库中问题的综合相似度的比值,若所述比值满足第一预设条件,则将所述短会话内容中的新问题作为候选新问题。
5.根据权利要求1所述的短会话新问题生成方法,其特征在于:形成相似候选新问题集合,将所述候选新问题按照相似程度聚类,获得相似候选新问题集合包括:选择一条候选新问题,生成第一候选新问题主旨句和第一候选新问题集合,读取下一条候选新问题,计算所述第一条候选新问题的综合相似度和所述下一条候选新问题的综合相似度的比值,若所述比值满足第二预设条件,则将所述读取的下一条候选新问题加入所述第一候选新问题集合。
6.根据权利要求4或者5所述的短会话新问题生成方法,其特征在于:所述第一预设条件为所述比值小于0.8,所述第二预设条件为所述比值大于等于0.8。
7.根据权利要求4或5所述的短会话新问题生成方法,其特征在于:所述综合相似度计算方式为:
Q=C·α+W·β+S·γ
其中Q为综合相似度得分;
C为基于内容计算的相似度,α为基于内容计算的相似度对应的权重值,α在[0.7-0.9]取值;
W为基于关键词命中计算的相似度,β为基于关键词命中计算的相似度对应的权重值,β在[0.05-0.15]取值;
S:基于词顺序计算的相似度,γ为基于词顺序计算的相似度对应的权重值,γ在[0.05-0.15]取值。
8.根据权利要求7所述的短会话新问题生成方法,其特征在于:所述α取0.9,所述β取0.05;所述γ取0.05。
9.根据权利要求1所述的短会话新问题生成方法,其特征在于:在获取候选新问题前滤除短会话内容中的日常对话、语气词、特殊字符、单字节内容、数字或者重复的内容。
10.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的方法。
11.一种人机交互装置,其特征在于,所述人机交互装置包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的短会话新问题生成程序,所述短会话新问题生成程序被所述处理器执行时实现如权利要求1至9中任一项所述的方法。
CN201911321137.6A 2019-12-20 2019-12-20 一种短会话新问题生成方法、存储介质和人机交互装置 Pending CN111159370A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911321137.6A CN111159370A (zh) 2019-12-20 2019-12-20 一种短会话新问题生成方法、存储介质和人机交互装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911321137.6A CN111159370A (zh) 2019-12-20 2019-12-20 一种短会话新问题生成方法、存储介质和人机交互装置

Publications (1)

Publication Number Publication Date
CN111159370A true CN111159370A (zh) 2020-05-15

Family

ID=70557411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911321137.6A Pending CN111159370A (zh) 2019-12-20 2019-12-20 一种短会话新问题生成方法、存储介质和人机交互装置

Country Status (1)

Country Link
CN (1) CN111159370A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737440A (zh) * 2020-07-31 2020-10-02 支付宝(杭州)信息技术有限公司 一种问题生成方法及装置
CN112287069A (zh) * 2020-10-29 2021-01-29 平安科技(深圳)有限公司 基于语音语义的信息检索方法、装置及计算机设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000339314A (ja) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> 自動応答方法及び対話解析方法並びに応答文生成方法、その装置、そのプログラムを記録した媒体
CN103744889A (zh) * 2013-12-23 2014-04-23 百度在线网络技术(北京)有限公司 一种用于对问题进行聚类处理的方法与装置
CN107153639A (zh) * 2016-03-04 2017-09-12 北大方正集团有限公司 智能问答方法及***
CN108345644A (zh) * 2018-01-15 2018-07-31 阿里巴巴集团控股有限公司 一种数据处理的方法及装置
CN108804567A (zh) * 2018-05-22 2018-11-13 平安科技(深圳)有限公司 提高智能客服应答率的方法、设备、存储介质及装置
CN110134777A (zh) * 2019-05-29 2019-08-16 三角兽(北京)科技有限公司 问题去重方法、装置、电子设备和计算机可读存储介质
CN110309377A (zh) * 2018-03-22 2019-10-08 阿里巴巴集团控股有限公司 语义归一化、提问模式的生成、应答确定方法及装置
CN110555101A (zh) * 2019-09-09 2019-12-10 浙江诺诺网络科技有限公司 一种客服知识库更新方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000339314A (ja) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> 自動応答方法及び対話解析方法並びに応答文生成方法、その装置、そのプログラムを記録した媒体
CN103744889A (zh) * 2013-12-23 2014-04-23 百度在线网络技术(北京)有限公司 一种用于对问题进行聚类处理的方法与装置
CN107153639A (zh) * 2016-03-04 2017-09-12 北大方正集团有限公司 智能问答方法及***
CN108345644A (zh) * 2018-01-15 2018-07-31 阿里巴巴集团控股有限公司 一种数据处理的方法及装置
CN110309377A (zh) * 2018-03-22 2019-10-08 阿里巴巴集团控股有限公司 语义归一化、提问模式的生成、应答确定方法及装置
CN108804567A (zh) * 2018-05-22 2018-11-13 平安科技(深圳)有限公司 提高智能客服应答率的方法、设备、存储介质及装置
CN110134777A (zh) * 2019-05-29 2019-08-16 三角兽(北京)科技有限公司 问题去重方法、装置、电子设备和计算机可读存储介质
CN110555101A (zh) * 2019-09-09 2019-12-10 浙江诺诺网络科技有限公司 一种客服知识库更新方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737440A (zh) * 2020-07-31 2020-10-02 支付宝(杭州)信息技术有限公司 一种问题生成方法及装置
CN112287069A (zh) * 2020-10-29 2021-01-29 平安科技(深圳)有限公司 基于语音语义的信息检索方法、装置及计算机设备
CN112287069B (zh) * 2020-10-29 2023-07-25 平安科技(深圳)有限公司 基于语音语义的信息检索方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
CN108920467B (zh) 多义词词义学习方法及装置、搜索结果显示方法
CN112346567B (zh) 基于ai的虚拟交互模型生成方法、装置及计算机设备
CN111783474A (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN107436916B (zh) 智能提示答案的方法及装置
CN110347840A (zh) 投诉文本类别的预测方法、***、设备和存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112163081A (zh) 标签确定方法、装置、介质及电子设备
CN111816170B (zh) 一种音频分类模型的训练和垃圾音频识别方法和装置
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN114860913B (zh) 智能问答***构建方法、问答处理方法及装置
CN113407677A (zh) 评估咨询对话质量的方法、装置、设备和存储介质
CN111159370A (zh) 一种短会话新问题生成方法、存储介质和人机交互装置
CN115798661A (zh) 临床医学领域的知识挖掘方法和装置
CN111125327A (zh) 一种基于短会话的新词发现方法、存储介质和电子装置
CN110502752A (zh) 一种文本处理方法、装置、设备及计算机存储介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN113392205A (zh) 用户画像构建方法、装置、设备及存储介质
CN115017271B (zh) 用于智能生成rpa流程组件块的方法及***
CN111949777A (zh) 一种基于人群分类的智能语音对话方法、装置及电子设备
CN114548325B (zh) 基于对偶对比学习的零样本关系抽取方法和***
CN110232328A (zh) 一种征信报告解析方法、装置及计算机可读存储介质
CN116303951A (zh) 对话处理方法、装置、电子设备和存储介质
CN116010545A (zh) 一种数据处理方法、装置及设备
US11817089B2 (en) Generating aspects from attributes identified in digital video audio tracks
CN112115248B (zh) 一种从对话语料中抽取对话策略结构的方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220908

Address after: 25 Financial Street, Xicheng District, Beijing 100033

Applicant after: CHINA CONSTRUCTION BANK Corp.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Applicant before: CHINA CONSTRUCTION BANK Corp.

Applicant before: Jianxin Financial Science and Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200515