CN113094471A - 交互数据处理方法和装置 - Google Patents

交互数据处理方法和装置 Download PDF

Info

Publication number
CN113094471A
CN113094471A CN202110402946.0A CN202110402946A CN113094471A CN 113094471 A CN113094471 A CN 113094471A CN 202110402946 A CN202110402946 A CN 202110402946A CN 113094471 A CN113094471 A CN 113094471A
Authority
CN
China
Prior art keywords
data
interaction
agent
category
conversational
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110402946.0A
Other languages
English (en)
Inventor
肖鹏
白杰
姜慧
张奇峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110402946.0A priority Critical patent/CN113094471A/zh
Publication of CN113094471A publication Critical patent/CN113094471A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0281Customer communication at a business location, e.g. providing product or service information, consulting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种交互数据处理方法,包括:获取M个用户在与坐席人员进行业务交互后的行为数据,M为大于1的整数;基于所述行为数据,确定与所述业务交互关联的至少一个话术类别标签;获取与各所述话术类别标签关联的交互历史数据;进行针对所述交互历史数据的聚类处理,得到与各所述话术类别标签关联的坐席话术簇,以实现基于所述坐席话术簇进行针对所述坐席人员的交互辅助处理。本公开还提供了一种交互数据处理装置、一种电子设备及一种计算机存储介质。

Description

交互数据处理方法和装置
技术领域
本公开涉及大数据技术领域,特别是涉及一种交互数据处理方法和装置。
背景技术
随着金融行业及其他行业的迅速发展,业务交互的形式呈现多样化发展。业务交互可实现向大量用户提供高效的咨询服务,和针对大量用户进行便捷的产品外呼推介,业务交互效率及质量影响多行业业务发展。
在实现本公开技术方案过程中,发明人发现坐席话术推荐能为业务交互提供效果良好的参考支持。但由于目前被推荐的坐席话术一般是由人工根据经验制定的,这存在话术效果不清晰、主观性强、适用业务场景受限的问题。
发明内容
本公开的一个方面提供了一种交互数据处理方法,包括:获取M个用户在与坐席人员进行业务交互后的行为数据,M为大于1的整数;基于所述行为数据,确定与所述业务交互关联的至少一个话术类别标签;获取与各所述话术类别标签关联的交互历史数据;进行针对所述交互历史数据的聚类处理,得到与各所述话术类别标签关联的坐席话术簇,以实现基于所述坐席话术簇进行针对所述坐席人员的交互辅助处理。
可选地,所述行为数据包括评价数据、投诉数据和购买数据中的至少之一,所述基于所述行为数据,确定与所述业务交互关联的至少一个话术类别标签,包括:基于所述行为数据,确定与各所述用户关联的情感倾向标签;根据所述情感倾向标签,将与所述业务交互关联的话术类别标签划分为正向话术类别和负向话术类别。
可选地,所述进行针对所述交互历史数据的聚类处理,得到与各所述话术类别标签关联的坐席话术簇,包括:在所述交互历史数据中筛选话术质量特征符合预设条件的候选交互历史数据;进行针对所述候选交互历史数据的聚类处理,得到与各所述话术类别标签关联的坐席话术簇,其中,所述话术质量特征包括话术匹配度特征、话术长度特征、话术使用频次特征和业务成果转换度特征中的至少之一。
可选地,所述进行针对所述候选交互历史数据的聚类处理,得到与各所述话术类别标签关联的坐席话术簇,包括:利用语义模型提取所述候选交互历史数据中的语义特征集;基于密度聚类算法对所述语义特征集中的语义特征进行聚类处理,得到与各所述话术类别标签关联的高频话术特征;根据与各所述话术类别标签关联的高频话术特征,生成所述坐席话术簇。
可选地,所述根据与各所述话术类别标签关联的高频话术特征,生成所述坐席话术簇,包括:在所述候选交互历史数据中筛选包含所述高频话术特征的坐席话术,得到与各所述话术类别标签关联的目标话术集合;利用所述目标话术集合,生成与各所述话术类别标签关联的话术森林,以得到所述坐席话术簇;其中,所述话术森林采用多叉树的数据结构,所述多叉树至少包括三层节点,所述三层节点按从上至下顺序依次为根节点、领域节点和业务分支节点。
可选地,与正向话术类别关联的话术森林的叶节点设置有正向话术模板,所述正向话术模板中设置有可替换槽位,所述可替换槽位用于根据坐席人员与用户的实时交互数据的语义特征进行替换。
可选地,所述方法还包括:获取坐席人员与用户的实时交互数据;基于所述实时交互数据,确定实时交互所涉及的业务分支;基于所述业务分支,在与所述正向话术类别关联的话术森林中确定进行推荐的正向话术模板,和/或在与所述负向话术类别关联的话术森林中确定进行警示的负向话术集合。
本公开的另一方面提供了一种交互数据处理装置,包括:第一获取模块,用于获取M个用户在与坐席人员进行业务交互后的行为数据,M为大于1的整数;第一处理模块,用于基于所述行为数据,确定与所述业务交互关联的至少一个话术类别标签;第二获取模块,用于获取与各所述话术类别标签关联的交互历史数据;以及第二处理模块,用于进行针对所述交互历史数据的聚类处理,得到与各所述话术类别标签关联的坐席话术簇,以实现基于所述坐席话术簇进行针对所述坐席人员的交互辅助处理。
可选地,所述行为数据包括评价数据、投诉数据和购买数据中的至少之一,所述第一处理模块包括:第一处理子模块,用于基于所述行为数据,确定与各所述用户关联的情感倾向标签;第二处理子模块,用于根据所述情感倾向标签,将与所述业务交互关联的话术类别标签划分为正向话术类别和负向话术类别。
可选地,所述第二处理模块包括:第三处理子模块,用于在所述交互历史数据中筛选话术质量特征符合预设条件的候选交互历史数据;第四处理子模块,用于进行针对所述候选交互历史数据的聚类处理,得到与各所述话术类别标签关联的坐席话术簇,其中,所述话术质量特征包括话术匹配度特征、话术长度特征、话术使用频次特征和业务成果转换度特征中的至少之一。
可选地,所述第四处理子模块包括:第一处理单元,用于利用语义模型提取所述候选交互历史数据中的语义特征集;第二处理单元,用于基于密度聚类算法对所述语义特征集中的语义特征进行聚类处理,得到与各所述话术类别标签关联的高频话术特征;第三处理单元,用于根据与各所述话术类别标签关联的高频话术特征,生成所述坐席话术簇。
可选地,所述第三处理单元包括:第一处理子单元,用于在所述候选交互历史数据中筛选包含所述高频话术特征的坐席话术,得到与各所述话术类别标签关联的目标话术集合;第二处理子单元,用于利用所述目标话术集合,生成与各所述话术类别标签关联的话术森林,以得到所述坐席话术簇,其中,所述话术森林采用多叉树的数据结构,所述多叉树至少包括三层节点,所述三层节点按从上至下顺序依次为根节点、领域节点和业务分支节点。
可选地,与正向话术类别关联的话术森林的叶节点设置有正向话术模板,所述正向话术模板中设置有可替换槽位,所述可替换槽位用于根据坐席人员与用户的实时交互数据的语义特征进行替换。
可选地,所述装置还包括:第三处理模块,用于获取坐席人员与用户的实时交互数据;基于所述实时交互数据,确定实时交互所涉及的业务分支;以及基于所述业务分支,在与所述正向话术类别关联的话术森林中确定进行推荐的正向话术模板,和/或在与所述负向话术类别关联的话术森林中确定进行警示的负向话术集合。
本公开的另一方面提供了一种电子设备,包括一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本公开实施例的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现本公开实施例的方法。
本公开的另一方面提供了一种计算机程序产品,包括计算机可读指令,其中,所述计算机可读指令被执行时用于执行本公开实施例的交互数据处理方法。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中,
图1示意性示出了根据本公开实施例的交互数据处理方法和装置的***架构;
图2示意性示出了根据本公开实施例的一种交互数据处理方法的流程图;
图3示意性示出了根据本公开实施例的另一交互数据处理方法的流程图;
图4示意性示出了根据本公开实施例的一种话术森林的示意图;
图5示意性示出了根据本公开实施例的又一交互数据处理方法的流程图;
图6示意性示出了根据本公开实施例的一种交互辅助界面的示意图;
图7示意性示出了根据本公开实施例的一种交互数据处理装置的框图;
图8示意性示出了根据本公开实施例的电子设备的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性地,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、操作、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、操作、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程交互数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式,该计算机程序产品可供指令执行***使用或者结合指令执行***使用。
本公开的实施例提供了一种交互数据处理方法以及能够应用该方法的处理装置。该方法具体可以包括如下操作,首先,获取M个用户在与坐席人员进行业务交互后的行为数据,M为大于1的整数,然后,基于行为数据,确定与业务交互关联的至少一个话术类别标签,接下来,获取与各话术类别标签关联的交互历史数据,最后,进行针对交互历史数据的聚类处理,得到与各话术类别标签关联的坐席话术簇,以实现基于坐席话术簇进行针对坐席人员的交互辅助处理。
图1示意性示出了根据本公开实施例的交互数据处理方法和装置的***架构。需要注意的是,图1所示仅为可以应用本公开实施例的***架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
如图1所示,***架构100包括业务交互端101、处理器102和数据库服务器103。业务交互端101用于供坐席人员与用户进行业务交互。数据库服务器103用于存储坐席人员与用户间的交互历史数据,以及存储不同用户在与坐席人员进行业务交互后的行为数据。处理器102用于从数据库服务器103中获取多个用户在与坐席人员进行业务交互后的行为数据,基于行为数据确定与业务交互关联的至少一个话术类别标签,以及用于从数据库服务器103中获取该多个用户与坐席人员间的交互历史数据,利用交互历史数据确定用于与各话术类别标签关联的坐席话术簇,以实现当坐席人员通过业务交互端101与用户进行实时交互时,向坐席人员推送坐席话术簇,以实现基于坐席话术簇进行针对坐席人员的交互辅助处理。
具体地,处理器102从数据库服务器103中获取M个用户在与坐席人员进行业务交互后的行为数据,M为大于1的整数,基于行为数据,确定与业务交互关联的至少一个话术类别标签,然后从数据库服务器103中获取与各话术类别标签关联的交互历史数据,进行针对交互历史数据的聚类处理,得到与各话术类别标签关联的坐席话术簇。
需要说明的是,本公开实施例的交互数据处理方法和装置可用于金融领域,也可用于除金融领域之外的任意领域。以下将结合附图和具体实施例详细阐述本公开。
图2示意性示出了根据本公开实施例的一种交互数据处理方法的流程图,如图2所示,方法200可以包括操作S210~S240。
在操作S210,获取M个用户在与坐席人员进行业务交互后的行为数据,M为大于1的整数。
在本实施例中,具体地,获取M个用户在与坐席人员进行业务交互后的行为数据,M为大于1的整数,业务交互的形式例如可以包括文本形式交互、语音形式交互和视频形式交互等。行为数据的获取方式例如可以从数据库服务器中获取,或者可以利用数据采集工具(例如爬虫工具)从网络中获取。
行为数据包括评价数据、投诉数据和购买数据中的至少之一,行为数据表征用户针对业务交互的情感倾向标签和情感强度等级,情感倾向标签包括正向情感倾向和负向情感倾向。评价数据为用户针对业务交互所做出的评价历史数据,正、负向评价指示用户的不同情感倾向,正、负向评价级数指示用户的不同情感强度等级。投诉数据为用户针对业务交互所做出的投诉历史数据,投诉数据指示用户的最高情感等级的负向情感倾向。购买数据为用户在进行业务交互后产生的购买行为数据,购买数据指示用户的最高情感等级的正向情感倾向。
接下来,在操作S220,基于行为数据,确定与业务交互关联的至少一个话术类别标签。
在本实施例中,具体地,基于获取的多个用户的行为数据,确定与各用户关联的情感倾向标签,以及根据情感倾向标签,将与业务交互关联的话术类别标签划分为正向话术类别和负向话术类别。
对于产生积极用户行为的部分用户,确定与该类用户关联的情感倾向标签为正向情感倾向,将与该类用户关联的业务交互的话术类别标签确定为正向话术类别,积极用户行为例如可以包括进行正向评价的行为和产生购买记录的行为。对于产生消极用户行为的部分用户,确定与该类用户关联的情感倾向标签为负向情感倾向,将与该类用户关联的业务交互的话术类别标签确定为负向话术类别,消极用户行为例如可以包括进行负向评价的行为和产生投诉记录的行为。可选地,还可以根据与用户行为关联的情感强度等级,将正向话术类别和负向话术类别分别划分为至少一个话术子类别。
接下来,在操作S230,获取与各话术类别标签关联的交互历史数据。
在本实施例中,具体地,分别获取与正向话术类别关联的交互历史数据,和与负向话术类别关联的交互历史数据。例如基于历史投诉数据中记录的投诉编号、坐席编号、客户信息等内容,获取与投诉记录关联的用户与坐席人员间的交互历史数据。基于历史购买数据中记录的交易单号、客户信息、坐席编号等内容,获取在购买记录产生前用户与坐席人员间的交互历史数据。
交互历史数据可以是交互文本数据,例如可以是用户与坐席人员间的文字沟通记录。此外,还可以是交互语音数据,例如可以是用户与坐席人员间的语音通话数据。当然,也可以是交互视频数据,例如可以是用户与坐席人员间的视频通话数据,本实施例对交互历史数据的形式不做限定。
接下来,在操作S240,进行针对交互历史数据的聚类处理,得到与各话术类别标签关联的坐席话术簇,以实现基于坐席话术簇进行针对坐席人员的交互辅助处理。
在本实施例中,具体地,针对与各话术类别标签关联的交互历史数据,进行基于密度聚类算法的聚类处理,得到与各话术类别标签关联的坐席话术簇。在实际业务应用中,可以基于话术主题、业务领域、业务分支等指标,对交互历史数据进行密度聚类处理,实现将交互历史数据划分为至少一个相近的交互历史数据簇。接下来,在各个交互历史数据簇中,筛选频次特征满足预设条件的坐席话术,分别得到与正向话术类别和与负向话术类别对应的坐席话术簇,以实现基于坐席话术簇进行针对坐席人员的交互辅助处理。
通过本公开实施例,获取M个用户在与坐席人员进行业务交互后的行为数据,M为大于1的整数;基于行为数据,确定与业务交互关联的至少一个话术类别标签;获取与各话术类别标签关联的交互历史数据;进行针对交互历史数据的聚类处理,得到与各话术类别标签关联的坐席话术簇。通过引入大数据分析技术,根据多个用户在与坐席人员进行业务交互后的行为数据,确定与业务交互关联的至少一个话术类别标签,通过获取与各话术类别标签关联的交互历史数据并进行聚类处理,实现正向、负向挖掘高频坐席话术,这有利于实现针对坐席人员的话术推荐功能,有利于提高坐席人员与用户间的业务交互效率,和有效改善业务交互质量。此外,还有利于控制针对外呼坐席人员的培训成本,缩短培训时间,能够很好地适应金融业务的快速发展需求。
图3示意性示出了根据本公开实施例的一种对交互历史数据进行聚类处理的方法的流程图,如图3所示,操作S240可以包括操作S310~S340。
在操作S310,在交互历史数据中筛选话术质量特征符合预设条件的候选交互历史数据。
在本实施例中,具体地,在获取的交互历史数据中,筛选话术质量特征符合预设条件的候选交互历史数据。话术质量特征可以包括话术匹配度特征、话术长度特征、话术使用频次特征和业务成果转换度特征中的至少之一。话术匹配度特征指示坐席话术与业务领域或业务分支的匹配程度。话术长度特征指示业务交互的时间长度,例如可以包括交互时长、交互轮次、交互结束节点等信息。话术使用频次特征指示坐席话术在所有交互历史数据中的出现频次,通过该特征可以初步筛选使用频次较高的坐席话术。业务成果转换度特征指示业务交互所转换成的业务成果的度量值,例如可以是信贷业务的开通数量。
在不同业务场景中,不同话术质量特征的重要程度及影响能力不同,因此可以对不同话术质量特征预设不同对应权重。根据与各交互历史数据关联的至少一个话术质量特征,以及根据与各话术质量特征关联的预设权重,计算各交互历史数据的话术质量评分。筛选话术质量评分高于预设阈值的交互历史数据,作为待进行后续聚合处理的候选交互历史数据。
接下来,在操作S320,利用语义模型提取候选交互历史数据中的语义特征集。
在本实施例中,具体地,在获取的交互历史数据为交互语音数据的情况下,例如在获取的交互历史数据为历史通话数据的情况下,可以利用自动语音识别(AutomaticSpeech Recognition,ASR)技术对交互语音数据进行处理,实现将交互语音数据中的坐席语音数据和用户语音数据进行分离。可选地,对坐席语音数据进行转文本处理,得到坐席文本数据。
在获取的交互历史数据为交互文本数据的情况下,在交互文本数据中分离得到坐席文本数据,以实现对坐席文本数据进行后续聚合处理。在获取的交互历史数据为交互视频数据的情况下,将交互视频数据分离得到交互图像数据和交互语音数据,可选地,对交互语音数据进行分离和转文本处理,得到坐席文本数据。
利用语义模型提取候选交互历史数据中的语义特征集,即利用语义模型提取坐席文本数据中的语义特征集。可选地,对坐席文本数据进行例如分词、去除停用词、去除标点符号、词性标注等预处理,得到坐席文本数据中的关键词集合。利用预设的语义特征词典,在关键词集合中筛选语义特征,得到上述语义特征集。或者,在所有坐席文本数据的关键词集合中,提取词频特征满足预设条件的关键词,得到上述语义特征集。
词频特征指示关键词在所有坐席文本数据中的重要程度及区分能力,示例性地,利用TF-IDF值表征各个关键词的词频特征。具体地,TF-IDF=TF×IDF,TF=t/T,IDF=N/(n+1),其中,TF表示词频,IDF表示逆向文档频率,t表示某关键词在某个坐席文本中的出现频次,T表示该坐席文本的总词数,N表示坐席文本总数,n表示包含该关键词的坐席文本总数。TF-IDF值越大,表征关键词的重要程度越高,区分能力越强,其越能代表所在的坐席文本数据。提取坐席文本数据中TF-IDF值大于预设阈值的关键词,构成语义特征集。
接下来,在操作S330,基于密度聚类算法对语义特征集中的语义特征进行聚类处理,得到与各话术类别标签关联的高频话术特征。
在本实施例中,具体地,对与正向话术类别关联的语义特征集进行密度聚类处理,得到与正向话术类别关联的高频话术特征。同样地,对与负向话术类别关联的语义特征集进行密度聚类处理,得到与负向话术类别关联的高频话术特征。可选地,在对交互历史数据进行基于话术子类别层次区分的情况下,对与各话术子类别关联的语义特征集进行密度聚类处理,得到与各话术子类别关联的高频话术特征。
密度聚类处理可实现将具有相同或相似语义的话术特征聚类至同一话术特征聚类簇中,得到与各话术类别关联的高频话术特征。其中,密度聚类处理的方法例如可基于DBSCAN(Density-Based Spatial Clustering ofApplications with NoiSe,具有噪声的基于密度聚类)算法、HDBSCAN(Hierarchical Density-Based Spatial ClusteringofApplications with Noise,具有噪声的基于层次密度的聚类)算法实现。
接下来,在操作S340,根据与各话术类别标签关联的高频话术特征,生成坐席话术簇。
在本实施例中,具体地,在候选交互历史数据中筛选包含高频话术特征的坐席话术,得到与各话术类别标签关联的目标话术集合;利用目标话术集合,生成与各话术类别标签关联的话术森林,以得到坐席话术簇;其中,话术森林采用多叉树的数据结构,多叉树至少包括三层节点,三层节点按从上至下顺序依次为根节点、领域节点和业务分支节点。
在话术质量特征符合预设条件的候选交互历史数据中,筛选包含高频话术特征的坐席话术,得到与各话术类别标签关联的目标话术集合。图4示意性示出了根据本公开实施例的一种话术森林的示意图,如图4所示,按数据结构从上至下依次为根节点(以正向话术类别示例)、领域节点和业务分支节点的顺序,生成与各话术类别标签关联的话术森林,得到对应于各话术类别标签的坐席话术簇。
该种设计有利于实现供坐席人员根据用户的实时交互意图,从与正向话术类别关联的话术森林中选取交互参考话术,这能够有效提升坐席人员的业务交互能力,有利于改善业务交互的成果转换率,和有利于降低交互活动中的用户投诉率。
与正向话术类别关联的话术森林的叶节点中设置有正向话术模板,正向话术模板中设置有可替换槽位,可替换槽位用于根据坐席人员与用户的实时交互数据的语义特征进行替换,可替换槽位为与用户实时交互意图或交互需求有关的槽位。示例性地,利用自然语言处理技术,识别坐席人员与用户的实时通话数据的语义特征,判断用户交互需求为反馈提现失败的问题,因此,利用“提现失败”替换正向话术模板“请您别着急,这里立刻帮您核实一下xxxx的问题”中的可替换槽位“xxxx”。
图5示意性示出了根据本公开实施例的又一交互数据处理方法的流程图,如图5所示,方法500包括操作S510~S530。
在操作S510,获取坐席人员与用户的实时交互数据;
接下来,在操作S520,基于获取的实时交互数据,确定实时交互所涉及的业务分支。
根据获取的坐席人员与用户的实时交互数据,对实时交互数据进行自然语言处理,以识别实时交互数据中的语义特征,判断用户实时交互需求或交互意图,确定实时交互所涉及的业务分支,例如确定实时交互所涉及的业务分支为信贷业务开通分支。
接下来,在操作S530,基于确定出的业务分支,在与正向话术类别关联的话术森林中确定进行推荐的正向话术模板,和/或在与负向话术类别关联的话术森林中确定进行警示的负向话术集合。
图6示意性示出了根据本公开实施例的一种交互辅助界面的示意图,如图6所示,通过向坐席人员提供正向话术推荐、负向话术警示的话术辅助机制,协助坐席人员进行优秀话术积累与反例话术规避,有利于提升坐席人员的业务交互能力,改善业务交互质量,增大业务交互成果转换率。
图7示意性示出了根据本公开实施例的一种交互数据处理装置的框图。
如图7所示,装置700包括第一获取模块701、第一处理模块702、第二获取模块703和第二处理模块704。
具体地,第一获取模块701,用于获取M个用户在与坐席人员进行业务交互后的行为数据,M为大于1的整数;第一处理模块702,用于基于行为数据,确定与业务交互关联的至少一个话术类别标签;第二获取模块703,用于获取与各话术类别标签关联的交互历史数据;第二处理模块704,用于进行针对交互历史数据的聚类处理,得到与各话术类别标签关联的坐席话术簇,以实现基于坐席话术簇进行针对坐席人员的交互辅助处理。
通过本公开实施例,获取M个用户在与坐席人员进行业务交互后的行为数据,M为大于1的整数;基于行为数据,确定与业务交互关联的至少一个话术类别标签;获取与各话术类别标签关联的交互历史数据;进行针对交互历史数据的聚类处理,得到与各话术类别标签关联的坐席话术簇。通过引入大数据分析技术,基于多个用户在与坐席人员进行业务交互后的行为数据,确定与业务交互关联的至少一个话术类别标签,通过获取与各话术类别标签关联的交互历史数据并进行聚类处理,实现正向、负向挖掘高频坐席话术,这有利于实现针对坐席人员的话术推荐功能,有利于提高坐席人员与用户间的业务交互效率,和有效改善业务交互质量。此外,还有利于控制针对外呼坐席人员的培训成本,缩短培训时间,能够很好地适应金融业务的快速发展需求。
作为一种可行的实施例,行为数据包括评价数据、投诉数据和购买数据中的至少之一,第一处理模块包括:第一处理子模块,用于基于行为数据,确定与各用户关联的情感倾向标签;第二处理子模块,用于根据情感倾向标签,将与业务交互关联的话术类别标签划分为正向话术类别和负向话术类别。
作为一种可行的实施例,第二处理模块包括:第三处理子模块,用于在交互历史数据中筛选话术质量特征符合预设条件的候选交互历史数据;第四处理子模块,用于进行针对候选交互历史数据的聚类处理,得到与各话术类别标签关联的坐席话术簇,其中,话术质量特征包括话术匹配度特征、话术长度特征、话术使用频次特征和业务成果转换度特征中的至少之一。
作为一种可行的实施例,第四处理子模块包括:第一处理单元,用于利用语义模型提取候选交互历史数据中的语义特征集;第二处理单元,用于基于密度聚类算法对语义特征集中的语义特征进行聚类处理,得到与各话术类别标签关联的高频话术特征;第三处理单元,用于根据与各话术类别标签关联的高频话术特征,生成坐席话术簇。
作为一种可行的实施例,第三处理单元包括:第一处理子单元,用于在候选交互历史数据中筛选包含高频话术特征的坐席话术,得到与各话术类别标签关联的目标话术集合;第二处理子单元,用于利用目标话术集合,生成与各话术类别标签关联的话术森林,以得到坐席话术簇,其中,话术森林采用多叉树的数据结构,多叉树至少包括三层节点,三层节点按从上至下顺序依次为根节点、领域节点和业务分支节点。
作为一种可行的实施例,与正向话术类别关联的话术森林的叶节点设置有正向话术模板,正向话术模板中设置有可替换槽位,可替换槽位用于根据坐席人员与用户的实时交互数据的语义特征进行替换。
作为一种可行的实施例,装置还包括:第三处理模块,用于获取坐席人员与用户的实时交互数据;基于实时交互数据,确定实时交互所涉及的业务分支;以及基于业务分支,在与正向话术类别关联的话术森林中确定进行推荐的正向话术模板,和/或在与负向话术类别关联的话术森林中确定进行警示的负向话术集合。
需要说明的是,在本公开实施例中,装置部分的实施方式与方法部分的实施方式相同或类似,在此不再赘述。
根据本公开的实施例的模块中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者根据本公开实施例的模块中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,第一获取模块701、第一处理模块702、第二获取模块703和第二处理模块704中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一获取模块701、第一处理模块702、第二获取模块703和第二处理模块704中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。第一获取模块701、第一处理模块702、第二获取模块703和第二处理模块704中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图8示意性示出了根据本公开实施例的电子设备的框图。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800包括处理器810、计算机可读存储介质820。该电子设备800可以执行根据本公开实施例的方法。
具体地,处理器810例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器810还可以包括用于缓存用途的板载存储器。处理器810可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理模块或者是多个处理模块。
计算机可读存储介质820,例如可以是非易失性的计算机可读存储介质,具体示例包括但不限于:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;等等。
计算机可读存储介质820可以包括计算机程序821,该计算机程序821可以包括代码/计算机可执行指令,其在由处理器810执行时使得处理器810执行根据本公开实施例的方法或其任何变形。
计算机程序821可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序821中的代码可以包括一个或多个程序模块,例如包括模块821A、模块821B、......。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器810执行时,使得处理器810可以执行根据本公开实施例的方法或其任何变形。
根据本公开的实施例,第一获取模块701、第一处理模块702、第二获取模块703和第二处理模块704中的至少一个可以实现为参考图8描述的计算机程序模块,其在被处理器810执行时,可以实现上面描述的相应操作。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的;也可以是单独存在,而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

Claims (10)

1.一种交互数据处理方法,包括:
获取M个用户在与坐席人员进行业务交互后的行为数据,M为大于1的整数;
基于所述行为数据,确定与所述业务交互关联的至少一个话术类别标签;
获取与各所述话术类别标签关联的交互历史数据;
进行针对所述交互历史数据的聚类处理,得到与各所述话术类别标签关联的坐席话术簇,以实现基于所述坐席话术簇进行针对所述坐席人员的交互辅助处理。
2.根据权利要求1所述的方法,其中,
所述行为数据包括评价数据、投诉数据和购买数据中的至少之一,
所述基于所述行为数据,确定与所述业务交互关联的至少一个话术类别标签,包括:
基于所述行为数据,确定与各所述用户关联的情感倾向标签;
根据所述情感倾向标签,将与所述业务交互关联的话术类别标签划分为正向话术类别和负向话术类别。
3.根据权利要求2所述的方法,其中,所述进行针对所述交互历史数据的聚类处理,得到与各所述话术类别标签关联的坐席话术簇,包括:
在所述交互历史数据中筛选话术质量特征符合预设条件的候选交互历史数据;
进行针对所述候选交互历史数据的聚类处理,得到与各所述话术类别标签关联的坐席话术簇,
其中,所述话术质量特征包括话术匹配度特征、话术长度特征、话术使用频次特征和业务成果转换度特征中的至少之一。
4.根据权利要求3所述的方法,其中,所述进行针对所述候选交互历史数据的聚类处理,得到与各所述话术类别标签关联的坐席话术簇,包括:
利用语义模型提取所述候选交互历史数据中的语义特征集;
基于密度聚类算法对所述语义特征集中的语义特征进行聚类处理,得到与各所述话术类别标签关联的高频话术特征;
根据与各所述话术类别标签关联的高频话术特征,生成所述坐席话术簇。
5.根据权利要求4所述的方法,其中,所述根据与各所述话术类别标签关联的高频话术特征,生成所述坐席话术簇,包括:
在所述候选交互历史数据中筛选包含所述高频话术特征的坐席话术,得到与各所述话术类别标签关联的目标话术集合;
利用所述目标话术集合,生成与各所述话术类别标签关联的话术森林,以得到所述坐席话术簇;
其中,所述话术森林采用多叉树的数据结构,所述多叉树至少包括三层节点,所述三层节点按从上至下顺序依次为根节点、领域节点和业务分支节点。
6.根据权利要求5所述的方法,其中,
与正向话术类别关联的话术森林的叶节点设置有正向话术模板,
所述正向话术模板中设置有可替换槽位,所述可替换槽位用于根据坐席人员与用户的实时交互数据的语义特征进行替换。
7.根据权利要求5所述的方法,还包括:
获取坐席人员与用户的实时交互数据;
基于所述实时交互数据,确定实时交互所涉及的业务分支;
基于所述业务分支,在与所述正向话术类别关联的话术森林中确定进行推荐的正向话术模板,和/或在与所述负向话术类别关联的话术森林中确定进行警示的负向话术集合。
8.一种交互数据处理装置,包括:
第一获取模块,用于获取M个用户在与坐席人员进行业务交互后的行为数据,M为大于1的整数;
第一处理模块,用于基于所述行为数据,确定与所述业务交互关联的至少一个话术类别标签;
第二获取模块,用于获取与各所述话术类别标签关联的交互历史数据;
第二处理模块,用于进行针对所述交互历史数据的聚类处理,得到与各所述话术类别标签关联的坐席话术簇,以实现基于所述坐席话术簇进行针对所述坐席人员的交互辅助处理。
9.一种电子设备,包括:
一个或多个处理器;以及
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至7中任一项所述的方法。
CN202110402946.0A 2021-04-12 2021-04-12 交互数据处理方法和装置 Pending CN113094471A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110402946.0A CN113094471A (zh) 2021-04-12 2021-04-12 交互数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110402946.0A CN113094471A (zh) 2021-04-12 2021-04-12 交互数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN113094471A true CN113094471A (zh) 2021-07-09

Family

ID=76677770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110402946.0A Pending CN113094471A (zh) 2021-04-12 2021-04-12 交互数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN113094471A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312468A (zh) * 2021-07-30 2021-08-27 平安科技(深圳)有限公司 基于对话模式的话术推荐方法、装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312468A (zh) * 2021-07-30 2021-08-27 平安科技(深圳)有限公司 基于对话模式的话术推荐方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US10679134B2 (en) Automated ontology development
US11734329B2 (en) System and method for text categorization and sentiment analysis
US9477752B1 (en) Ontology administration and application to enhance communication data analytics
US9575936B2 (en) Word cloud display
CN108604228B (zh) 用于多层单词表示的语言特征生成的***和方法
US20220147707A1 (en) Unsupervised induction of user intents from conversational customer service corpora
US11954140B2 (en) Labeling/names of themes
US10860566B1 (en) Themes surfacing for communication data analysis
US10078689B2 (en) Labeling/naming of themes
US11188193B2 (en) Method and system for generating a prioritized list
US11416539B2 (en) Media selection based on content topic and sentiment
US20230237276A1 (en) System and Method for Incremental Estimation of Interlocutor Intents and Goals in Turn-Based Electronic Conversational Flow
WO2021063524A1 (en) Unsupervised induction of user intents from conversational customer service corpora
Mani et al. Hi, how can I help you?: Automating enterprise IT support help desks
Govindaraj et al. Intensified sentiment analysis of customer product reviews using acoustic and textual features
US20230004830A1 (en) AI-Based Cognitive Cloud Service
US11483208B2 (en) System and method for reducing network traffic
CN113094471A (zh) 交互数据处理方法和装置
US11676134B2 (en) Transaction interaction analysis and summarization
KR20230059364A (ko) 언어 모델을 이용한 여론조사 시스템 및 운영 방법
US11943392B2 (en) System and method for providing personalized customer experience in interactive communications
US20240144916A1 (en) Machine learning enabled category creation
US20230281387A1 (en) System and method for processing unlabeled interaction data with contextual understanding
Nambiar et al. Discovering customer intent in real-time for streamlining service desk conversations
Wen et al. Learning More from Mixed Emotions: A Label Refinement Method for Emotion Recognition in Conversations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination