CN111143533A - 一种基于用户行为数据的客服方法及*** - Google Patents

一种基于用户行为数据的客服方法及*** Download PDF

Info

Publication number
CN111143533A
CN111143533A CN201911365582.2A CN201911365582A CN111143533A CN 111143533 A CN111143533 A CN 111143533A CN 201911365582 A CN201911365582 A CN 201911365582A CN 111143533 A CN111143533 A CN 111143533A
Authority
CN
China
Prior art keywords
knowledge point
tree
knowledge
category
point category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911365582.2A
Other languages
English (en)
Other versions
CN111143533B (zh
Inventor
李加庆
沈春泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Financial Technology Nanjing Co Ltd
Original Assignee
Suning Financial Technology Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Financial Technology Nanjing Co Ltd filed Critical Suning Financial Technology Nanjing Co Ltd
Priority to CN201911365582.2A priority Critical patent/CN111143533B/zh
Publication of CN111143533A publication Critical patent/CN111143533A/zh
Application granted granted Critical
Publication of CN111143533B publication Critical patent/CN111143533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于用户行为数据的客服方法及***,根据用户行为数据及知识库体系,获取知识点类别权重树;根据用户输入的问题,获取词向量特征数据;根据所述知识点类别权重树和所述词向量特征数据,获取所述输入的问题对应的知识点类别;根据所述知识点类别,对属于所述知识点类别的知识点进行相似问题匹配,获取所述用户输入的问题答案。基于用户行为数据的权重分修正方法,对客服处理过程中知识点识别进行信息的补充,提高知识点分类的准确度。

Description

一种基于用户行为数据的客服方法及***
技术领域
本发明涉及人工智能领域,具体涉及一种基于用户行为数据的客服方法及***。
背景技术
随着自然语言处理处理计算的发展,智能客服机器人在各个行业都开始发挥重要作用。目前大部分的智能客服***都是在垂直领域知识库的基础上,基于自然语言处理、自动问答技术、知识库管理***,为垂直业务领域提供知识问答服务,减轻人工客服负担,节省企业成本,提高企业服务效率。
智能客服***的实现涉及文本预处理、文本特征提取、意图识别、知识库检索、相似度计算、智能排序等技术。其中意图识别根据用户的输入问题判别用户希望咨询的知识库业务类别,进而在此类别中进行知识库问题检索,再根据相似度计算和智能排序得到最匹配用户问题的答案。
在这个过程中,意图识别的准确性决定了所得答***率。一般的智能客服机器人中意图识别是基于分好类别的业务知识库数据训练出的分类模型,根据文本特征提取预测用户问题所在类别。在实际应用过程中,由于用户问题形式的多样性,以及汉语的多义性,以及一些业务往往存在相似的问题维度,意图识别在这些业务类别中可能无法做出更好的预测,比如在某金融机构的智能客服中,当用户问“人脸识别失败”,可能涉及账户登陆认证的问题,也可能涉及信贷审批过程中的问题,因为用户的表述不完整给意图识别带来了一定的难度,仅通过知识库内容匹配很可能回复给用户的答案不是用户所需要的。
发明内容
本发明的实施例提供一种基于用户行为数据的客服方法及***,基于用户行为数据的权重分修正方法,对客服处理过程中知识点识别进行信息的补充,提高知识点分类的准确度。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明的实施例提供一种基于用户行为数据的客服方法,根据用户行为数据及知识库体系,获取知识点类别权重树;根据用户输入的问题,获取词向量特征数据;根据所述知识点类别权重树和所述词向量特征数据,获取所述输入的问题对应的知识点类别;根据所述知识点类别,对属于所述知识点类别的知识点进行相似问题匹配,获取所述用户输入的问题答案。
结合第一方面,在第一方面的第一种可能的实现方式中,根据从业务***采集的用户业务数据,建立用户行为模型;根据知识库体系和用户行为模型,获取与知识库体系结构相对应的知识点类别权重树。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,根据所述业务***的产品服务体系和知识库体系,构建产品服务知识点类别映射树;根据所述用户行为模型,对产品服务知识点类别映射树进行量化处理,获取量化后的产品服务知识点类别映射树;根据产品服务触及度,构建知识点类别关注度树;根据用户对产品服务的关注时间,获取关注新鲜度;根据所述量化后的产品服务知识点类别映射树、所述知识点类别关注度树以及所述关注度新鲜度,获取知识点类别权重树。
结合第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,将所述业务***的产品服务体系与所述知识库体系建立映射关系,获取产品服务体系树;所述产品服务体系树包括不同的产品服务分类,每个所述产品服务分类中包括互不相同的产品服务子类;根据所述知识库体系,构建知识点体系树;所述知识点体系树包括不同知识点分类,每个所述知识点分类中包括互不相同的知识点子类;根据所述产品服务体系树和所述知识点体系树,构建产品服务知识点类别映射树;所述产品服务知识点类别映射树包括所述知识点分类,每个所述知识点分类中包括所述互不相同的产品服务子类。
结合第一方面,在第一方面的第四种可能的实现方式中,根据预先训练的知识库语料进行知识点模型训练,获取知识点识别模型;根据所述词向量特征数据和所述知识点识别模型,判别知识点所属的知识点类别,获取知识点类别信息;所述知识点类别信息包括各知识点类别及对应得分;计算最高得分的知识点类别与次高得分的知识点类别之间的差值;若所述差值低于类别困惑阈值,则将所述知识点类别权重树中对应的所述最高得分的知识点类别的权重与所述最高得分相乘,得到第一值;将所述知识点类别权重树中对应的所述次高得分的知识点类别的权重与所述次高得分相乘,得到第二值,将第一值和第二值中较大的值对应的知识点类别作为所述输入的问题对应的知识点类别;若所述差值不低于类别困惑阈值,则将所述最高得分的知识点类别作为所述输入的问题对应的知识点类别。
结合第一方面,在第一方面的第五种可能的实现方式中,对属于所述知识点类别下的知识点,根据TF-IDF特征进行余弦距离相似度计算,获得相似度最高的前N个知识点;根据所述词向量特征将用户输入问题与所述N个知识点的问题进行语义相似度计算,将相似度最高的知识点对应的答案作为所述用户输入的问题答案。
第二方面,本发明的实施例提供一种基于用户行为数据的客服***,包括:
知识点类别权重树获取模块,用于根据用户行为数据及知识库体系,获取知识点类别权重树;
词向量特征获取模块,用于根据用户输入的问题,获取词向量特征数据;
知识点类别识别模块,根据所述知识点类别权重树和所述词向量特征数据,获取所述输入的问题对应的知识点类别;
相似问题匹配模块,用于根据所述知识点类别,对属于所述知识点类别的知识点进行相似问题匹配,获取所述用户输入的问题答案。
结合第二方面,在第二方面的第一种可能的实现方式中,包括:
用户行为建模子模块,用于根据从业务***采集的用户业务数据,建立用户行为模型;
权重树获取子模块,用于根据知识库体系和用户行为模型,获取与知识库体系结构相对应的知识点类别权重树。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,包括:
产品服务知识点类别映射树获取子模块,用于根据所述业务***的产品服务体系和知识库体系,构建产品服务知识点类别映射树;
产品服务知识点类别映射树量化子模块,用于根据所述用户行为模型,对产品服务知识点类别映射树进行量化处理,获取量化后的产品服务知识点类别映射树;
关注度树获取子模块,用于根据产品服务触及度,构建知识点类别关注度树;
关注新鲜度获取子模块,用于根据用户对产品服务的关注时间,获取关注新鲜度;
权重树构建子模块,用于根据所述量化后的产品服务知识点类别映射树、所述知识点类别关注度树以及所述关注度新鲜度,获取知识点类别权重树。
结合第二方面的第一种可能的实现方式,在第二方面的第三种可能的实现方式中,包括:
产品服务体系树构建子模块,用于将所述业务***的产品服务体系与所述知识库体系建立映射关系,获取产品服务体系树;所述产品服务体系树包括不同的产品服务分类,每个所述产品服务分类中包括互不相同的产品服务子类;
知识点体系书构建子模块,用于根据所述知识库体系,构建知识点体系树;所述知识点体系树包括不同知识点分类,每个所述知识点分类中包括互不相同的知识点子类;
映射树构建子模块,用于根据所述产品服务体系树和所述知识点体系树,构建产品服务知识点类别映射树;所述产品服务知识点类别映射树包括所述知识点分类,每个所述知识点分类中包括所述互不相同的产品服务子类。
结合第二方面,在第二方面的第四种可能的实现方式中,包括:
知识点模型构建子模块,用于根据预先训练的知识库语料进行知识点模型训练,获取知识点识别模型;
知识点类别信息获取子模块,用于根据所述词向量特征数据和所述知识点识别模型,判别知识点所属的知识点类别,获取知识点类别信息;所述知识点类别信息包括各知识点类别及对应得分;
知识点类别识别子模块,用于计算最高得分的知识点类别与次高得分的知识点类别之间的差值;若所述差值低于类别困惑阈值,则将所述知识点类别权重树中对应的所述最高得分的知识点类别的权重与所述最高得分相乘,得到第一值;将所述知识点类别权重树中对应的所述次高得分的知识点类别的权重与所述次高得分相乘,得到第二值,将第一值和第二值中较大的值对应的知识点类别作为所述输入的问题对应的知识点类别;若所述差值不低于类别困惑阈值,则将所述最高得分的知识点类别作为所述输入的问题对应的知识点类别。
结合第二方面,在第二方面的第五种可能的实现方式中,包括:
余弦距离相似度计算子模块,用于对属于所述知识点类别下的知识点,根据TF-IDF特征进行余弦距离相似度计算,获得相似度最高的前N个知识点;
语义相似度计算子模块,用于根据所述词向量特征将用户输入问题与所述N个知识点的问题进行语义相似度计算,将相似度最高的知识点对应的答案作为所述用户输入的问题答案。
第三方面,本发明的实施例提供一种基于用户行为数据的客服装置,包括处理器和存储器,所述处理器,执行实现任一所述数据建模和知识点模型训练;所述存储器,存储知识库体系、知识点识别分类、模型以及程序。
本发明实施例提供的一种基于用户行为数据的客服方法及***,基于用户行为数据的权重分修正方法,对客服处理过程中知识点识别进行信息的补充,提高知识点分类的准确度。相比于现有技术,在本发明实施中,根据用户行为数据及知识库体系,获取知识点类别权重树,基于用户在业务***中的基础数据,以及关注产品和服务的行为数据,生成与知识点类别树对应的知识点类别权重树,知识点类别权权重树整合了用户使用产品或服务的行为信息,可用于后续进行知识点识别修正。根据用户输入的问题,获取词向量特征数据,接受用户咨询输入的问题,通过文本纠错、文本分词等处理,生成文本特征数据,作为客服处理的用户会话的输入,文本纠错根据领域专业词典,对用户可能输入的拼写错误或者同音词错误进行纠正,基于文本分词结果,得到符合本专业领域使用场景的词向量特征数据,作为后续知识点识别步骤的输入数据。根据所述知识点类别权重树和所述词向量特征数据,获取所述输入的问题对应的知识点类别;根据用户在客服咨询的过程中对输入问题进行初步知识点识别以及权重修正,得到知识点类别,该知识点因为考虑了用户关注的产品服务信息,对于用户真正希望咨询的知识点类别的预测更为准确。根据所述知识点类别,对属于所述知识点类别的知识点进行相似问题匹配,获取所述用户输入的问题答案,根据修正的知识点类别对相似问题进行查找并提供知识点答案回复,因为基于更为准确的知识点类别,查找的知识点更容易接近用户的咨询意图。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例方法流程图;
图2为本发明实施例知识点类别权重树获取流程图;
图3为本发明实施例***框图;
图4为本发明实施例权重树生成子模块***框图;
图5为本发明实施例设备结构图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的提前下所获得的实施例,都应属于本发明保护的范围。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本发明实施例提供一种基于用户行为数据的客服方法,如图1,包括:
S110、根据用户行为数据及知识库体系,获取知识点类别权重树。
优选的,S110包括:
S1101、根据从业务***采集的用户业务数据,建立用户行为模型。
根据用户的基本信息,比如用户账户的完整度等状况,用户账户关联银行卡及社交账户等状况,基于这些基本信息可以建立用户的基础画像模型,以表示用户账户特征;
基于用户的基本信息,扩展为一个包含用户的账号、购买及关注的产品服务类型、链接、时间、次数等信息的数据结构作为用户的基础画像模型,用于描述一个用户在***里的信息数据。
根据基本信息建立对应知识点的映射,根据用户对账户信息的点击情况或维护情况,确立用户对这方面知识点类别的关注度,结合业务***的产品及服务,采集到用户购买商品或办理服务的业务数据,以及用户关注商品或服务的数据(如添加购物车、频繁点击率等),基于这类数据创建一个与业务***对接的定时执行任务的数据更新模块,该模块实现这类数据的收集及更新任务,称为用户行为模块,以表示用户关于产品和服务的关注度。
S1102、根据知识库体系和用户行为模型,获取与知识库体系结构相对应的知识点类别权重树。
优选的,S1102,如图2,包括:
S1102-1、根据所述业务***的产品服务体系和知识库体系,构建产品服务知识点类别映射树,包括:
将所述业务***的产品服务体系与所述知识库体系建立映射关系,获取产品服务体系树;所述产品服务体系树包括不同的产品服务分类,每个所述产品服务分类中包括互不相同的产品服务子类;
根据所述知识库体系,构建知识点体系树;所述知识点体系树包括不同知识点分类,每个所述知识点分类中包括互不相同的知识点子类;
根据所述产品服务体系树和所述知识点体系树,构建产品服务知识点类别映射树;所述产品服务知识点类别映射树包括所述知识点分类,每个所述知识点分类中包括所述互不相同的产品服务子类。
S1102-2、根据所述用户行为模型,对产品服务知识点类别映射树进行量化处理,获取量化后的产品服务知识点类别映射树。
S1102-3、根据产品服务触及度,构建知识点类别关注度树。
S1102-4、根据用户对产品服务的关注时间,获取关注新鲜度。
S1102-5、根据所述量化后的产品服务知识点类别映射树、所述知识点类别关注度树以及所述关注度新鲜度,获取知识点类别权重树。
优选的,步骤S1102提供以下实施例,以产品服务业务领域为例,知识点类别权重树的确定步骤包括遍历产品或服务的路径,根据用户已购买或参与的产品和服务来给相应的产品或服务对应的知识点类别设置权重,详细步骤如下:
1)将垂直领域的产品服务体系与知识库体系做一个映射,构建产品服务体系树:
Treeproduct={ClassA:{P1,P2,P3,...,SA1,SA2,SA3,...},ClassB:{SB1,SB2,SB3,...},...}。
其中,Treeproduct表示产品服务体系树,ClassA表示产品服务体系中的某个类别,Pi表示该类别中涉及的某个产品,SAi表示该类别中涉及的某个服务,同理,ClassB表示产品服务体系中的某个类别,SBi表示该类别中涉及的某个服务。
2)构建知识点体系树:
Treekb={ClassX:{K1,K2,K3,..},ClassY:{Ki,Kj,Kk,...},...}。
其中,Treekb表示知识点体系树,ClassX表示知识点体系树中的某个类别,Ki表示该类别中涉及的某个知识,同理,ClassY表示知识点体系树中的某个类别,Ki,Kj,Kk表示该类别中涉及的某个知识。
3)根据知识点覆盖产品服务的情况,构建产品服务知识点类别映射树:
Treemap={ClassX:{P1,P2,P3,..},ClassY:{SA1,SA2,SA3,SB1,SB2,SB3,...},...}
其中,Treemap表示产品服务知识点类别映射树,ClassX表示知识点体系树中的某个类别,Pi表示映射到该知识点类别中的某个产品,同理ClassY表示知识点体系树中的某个类别,SAi表示映射到ClassY知识点类别中的某个服务,SBi表示映射到ClassY知识点类别中的某个服务。
4)根据知识点覆盖产品服务的情况,构建产品服务知识点类别映射树,比如根据以上用户行为数据建模得到数据,1表示关注该产品服务,0表示没有:
Treehit={ClassX:{1,1,0,..},ClassY:{0,1,1,0,1,0,...},...}
其中,Treehit表示产品服务知识点类别映射树的具体触及情况。
5)根据产品服务触及度,定义知识点类别关注度树:
Treeheat={ClassX:(1+log(n1)),ClassY:(1+log(n2)),...}
其中,Treeheat表示知识点类别树的根据Treehit中具体类别中1的个数,如ni,计算出的对应每个类别的关注度数值,如1+log(ni)。
6)定义产品服务的关注新鲜度T(t)=1/(1+log(t)),其中t为时间变量,关注度新鲜度随时间增加而衰减。并且设置规则,某类别Class下有产品服务被新触及到,则重设t的值为1,即重设T(t)的值为1,该类别的新鲜度恢复为1。
7)综合以上关注度和新鲜度,定义知识点类别的需求权重树(其中ni为类别中关注到的产品服务数目):
Figure BDA0002338319740000111
其中,Treeweight表示知识点类别的需求权重树,WeightClassX表示知识点类别ClassX的权重标识,其数值为
Figure BDA0002338319740000112
S120、根据用户输入的问题,获取词向量特征数据。
接受用户咨询输入的问题,通过文本纠错、文本分词等处理,生成文本特征数据,作为客服处理的用户会话的输入。
其中,文本纠错根据领域专业词典,对用户可能输入的拼写错误或者同音词错误进行纠正,可以采用基于N-Gram结合概率语言模型的方式对错误词汇进行纠正,该步骤主要解决应用户输入的随意性导致分词的歧义,比如用户问题中包含“任性带”三个字,在分词时会分为“任性”、“带”,这对后续的语义处理有很大影响,对应的专业领域纠错词为“任性贷”。
文本分词基于自定义业务领域词典,可以采用多种分词工具,本例不做具体限定。
基于文本分词结果,生成文本特征数据步骤中可以采用预训练的中文词向量模型,如采用开源的中文词向量语料库,在该模型中,每行表示一个词及对应它的低维稠密向量(如100维),比如“理财0.0031460.5826710.049029-0.3128030.5229860.026432-0.0971150.194231-0.362708……”
对分词序列进行词向量特征提取,也可以采用gensim的Word2vec训练工具对专业领域知识库的语料进行词向量的训练,得到符合本专业领域使用场景的词向量模型,得到分词序列词向量特征数据。
S130、根据所述知识点类别权重树和所述词向量特征数据,获取所述输入的问题对应的知识点类别。
根据预先训练的知识库语料进行知识点模型训练,获取知识点识别模型;
根据所述词向量特征数据和所述知识点识别模型,判别知识点所属的知识点类别,获取知识点类别信息;所述知识点类别信息包括各知识点类别及对应得分;
计算最高得分的知识点类别与次高得分的知识点类别之间的差值;
若所述差值低于类别困惑阈值,则将所述知识点类别权重树中对应的所述最高得分的知识点类别的权重与所述最高得分相乘,得到第一值;将所述知识点类别权重树中对应的所述次高得分的知识点类别的权重与所述次高得分相乘,得到第二值,将第一值和第二值中较大的值对应的知识点类别作为所述输入的问题对应的知识点类别;
若所述差值不低于类别困惑阈值,则将所述最高得分的知识点类别作为所述输入的问题对应的知识点类别。
优选的,给出以下实施例,
对知识库语料数据可以采用LSTM或者TextCNN等神经网络进行知识点分类模型训练,得到知识点识别模型。如图3,将知识点识别分为两个步骤:
(1)根据词向量特征数据进行意图识别判断,经过Softmax层输出知识点类别结果序列,按照得分Score降序排列:
Output={(Label1,Score1),(Label2,Score2),(Label3,Score3),...},
计算最高得分的知识点类别与次高得分的知识点类别之间的差值,与类别困惑阈值进行比较,如果低于类别困惑阈值,进入第二个步骤,否则将所述最高得分的知识点类别作为所述输入的问题对应的知识点类别;
根据实际情况,人为设定类别困惑阈值,比如0.15,一般根据实际知识点分类结果,使用一段时间后,统计知识点分类错误的那些输入问题,收集到它的最高得分的知识点类别和次高得分的类别,计算两者之差。这样得到一些错误分类的类别差值统计数据,可以取这些数据的最大值作为阈值。这样小于这个阈值,就认为需要进行一下类别修正。当然也可以再统计一下修正之后,有没有把之前未分类错误的经过修正反而分类错误了的数据。通过这些数据进行分析,人为给出一个权衡之后的阈值。
(2)第二个步骤将所述知识点类别权重树中对应的所述最高得分的知识点类别的权重与所述最高得分相乘,得到第一值;将所述知识点类别权重树中对应的所述次高得分的知识点类别的权重与所述次高得分相乘,得到第二值,将第一值和第二值中较大的值对应的知识点类别作为所述输入的问题对应的知识点类别。
S140、根据所述知识点类别,对属于所述知识点类别的知识点进行相似问题匹配,获取所述用户输入的问题答案。
根据得到的知识点类别,对在该类别下的知识点进行相似问匹配召回,该功能分为两个步骤:
(1)第一步骤先通过TF-IDF特征进行余弦距离相似度计算,取得相似度最高的前N个知识点;将输入问题的语句进行分词,通过基于知识点语料计算出词的TF-IDF值,生成对应该语句的向量,同样方式得到知识库中每个知识点的相应向量,计算余弦相似度得分,并降序排列,筛选出前N个知识点。
(2)第二步骤对这N个知识点的标准问题进行词向量特征提取,采用gensim包的Word2vec工具与用户输入问题的词向量特征进一步进行语义相似度计算,输出最高相似度的知识点答案。
S150、用户会话过程的信息输入及答案输出的接口传输处理,以及用户会话过程的超时处理与人工转接处理等流程处理。
本发明实施例还提供一种基于用户行为数据的客服***,如图3,包括:
知识点类别权重树获取模块,用于根据用户行为数据及知识库体系,获取知识点类别权重树;
词向量特征获取模块,用于根据用户输入的问题,获取词向量特征数据;
知识点类别识别模块,根据所述知识点类别权重树和所述词向量特征数据,获取所述输入的问题对应的知识点类别;
相似问题匹配模块,用于根据所述知识点类别,对属于所述知识点类别的知识点进行相似问题匹配,获取所述用户输入的问题答案。
根据本发明的一个实施例,***还包括,对话管理模块,用于用户会话过程的信息输入及答案输出的接口传输处理,以及用户会话过程的超时处理与人工转接处理等流程处理。
所述知识点类别权重树获取模块,包括:
用户行为建模子模块,用于根据从业务***采集的用户业务数据,建立用户行为模型;
权重树获取子模块,用于根据知识库体系和用户行为模型,获取与知识库体系结构相对应的知识点类别权重树。
所述权重树生成子模块,如图4,包括:
产品服务知识点类别映射树获取子模块,用于根据所述业务***的产品服务体系和知识库体系,构建产品服务知识点类别映射树;
产品服务知识点类别映射树量化子模块,用于根据所述用户行为模型,对产品服务知识点类别映射树进行量化处理,获取量化后的产品服务知识点类别映射树;
关注度树获取子模块,用于根据产品服务触及度,构建知识点类别关注度树;
关注新鲜度获取子模块,用于根据用户对产品服务的关注时间,获取关注新鲜度;
权重树构建子模块,用于根据所述量化后的产品服务知识点类别映射树、所述知识点类别关注度树以及所述关注度新鲜度,获取知识点类别权重树。
所述产品服务知识点类别映射树获取子模块,包括:
产品服务体系树构建子模块,用于将所述业务***的产品服务体系与所述知识库体系建立映射关系,获取产品服务体系树;所述产品服务体系树包括不同的产品服务分类,每个所述产品服务分类中包括互不相同的产品服务子类;
知识点体系树构建子模块,用于根据所述知识库体系,构建知识点体系树;所述知识点体系树包括不同知识点分类,每个所述知识点分类中包括互不相同的知识点子类;
映射树构建子模块,用于根据所述产品服务体系树和所述知识点体系树,构建产品服务知识点类别映射树;所述产品服务知识点类别映射树包括所述知识点分类,每个所述知识点分类中包括所述互不相同的产品服务子类。
所述知识点类别识别模块,包括:
知识点模型构建子模块,用于根据预先训练的知识库语料进行知识点模型训练,获取知识点识别模型;
知识点类别信息获取子模块,用于根据所述词向量特征数据和所述知识点识别模型,判别知识点所属的知识点类别,获取知识点类别信息;所述知识点类别信息包括各知识点类别及对应得分;知识点类别识别子模块,用于计算最高得分的知识点类别与次高得分的知识点类别之间的差值;若所述差值低于类别困惑阈值,则将所述知识点类别权重树中对应的所述最高得分的知识点类别的权重与所述最高得分相乘,得到第一值;将所述知识点类别权重树中对应的所述次高得分的知识点类别的权重与所述次高得分相乘,得到第二值,将第一值和第二值中较大的值对应的知识点类别作为所述输入的问题对应的知识点类别;若所述差值不低于类别困惑阈值,则将所述最高得分的知识点类别作为所述输入的问题对应的知识点类别。
所述相似问题匹配模块,包括:
余弦距离相似度计算子模块,用于对属于所述知识点类别下的知识点,根据TF-IDF特征进行余弦距离相似度计算,获得相似度最高的前N个知识点;
语义相似度计算子模块,用于根据所述词向量特征将用户输入问题与所述N个知识点的问题进行语义相似度计算,将相似度最高的知识点对应的答案作为所述用户输入的问题答案。
本发明实施例还提供一种基于用户行为数据的客服装置,包括处理器和存储器,所述处理器,执行实现任一所述数据建模和知识点模型训练;所述存储器,存储知识库体系、知识点识别分类、模型以及程序。
如图5,存储器包括存储介质ROM和存储介质RAM,存储器与***总线连接,处理器与***总线连接,***总线与网络连接。
本发明实施例提供的一种基于用户行为数据的客服方法及***,基于用户行为数据的权重分修正方法,对客服处理过程中知识点识别进行信息的补充,提高知识点分类的准确度。相比于现有技术,在本发明实施中,根据用户行为数据及知识库体系,获取知识点类别权重树,基于用户在业务***中的基础数据,以及关注产品和服务的行为数据,生成与知识点类别树对应的知识点类别权重树,知识点类别权权重树整合了用户使用产品或服务的行为信息,可用于后续进行知识点识别修正。根据用户输入的问题,获取词向量特征数据,接受用户咨询输入的问题,通过文本纠错、文本分词等处理,生成文本特征数据,作为客服处理的用户会话的输入,文本纠错根据领域专业词典,对用户可能输入的拼写错误或者同音词错误进行纠正,基于文本分词结果,得到符合本专业领域使用场景的词向量特征数据,作为后续知识点识别步骤的输入数据。根据所述知识点类别权重树和所述词向量特征数据,获取所述输入的问题对应的知识点类别;根据用户在客服咨询的过程中对输入问题进行初步知识点识别以及权重修正,得到知识点类别,该知识点因为考虑了用户关注的产品服务信息,对于用户真正希望咨询的知识点类别的预测更为准确。根据所述知识点类别,对属于所述知识点类别的知识点进行相似问题匹配,获取所述用户输入的问题答案,根据修正的知识点类别对相似问题进行查找并提供知识点答案回复,因为基于更为准确的知识点类别,查找的知识点更容易接近用户的咨询意图。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。本领域技术人员可以理解,可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (12)

1.一种基于用户行为数据的客服方法,其特征在于,包括:
根据用户行为数据及知识库体系,获取知识点类别权重树;
根据用户输入的问题,获取词向量特征数据;
根据所述知识点类别权重树和所述词向量特征数据,获取所述输入的问题对应的知识点类别;
根据所述知识点类别,对属于所述知识点类别的知识点进行相似问题匹配,获取所述用户输入的问题答案。
2.根据权利要求1所述的方法,其特征在于,所述根据用户行为数据及知识库体系,获取知识点类别权重树,包括:
根据从业务***采集的用户业务数据,建立用户行为模型;
根据知识库体系和用户行为模型,获取与知识库体系结构相对应的知识点类别权重树。
3.根据权利要求2所述的方法,其特征在于,所述根据知识库体系和用户行为模型,获取与知识库体系结构相对应的知识点类别权重树,包括:
根据所述业务***的产品服务体系和知识库体系,构建产品服务知识点类别映射树;
根据所述用户行为模型,对产品服务知识点类别映射树进行量化处理,获取量化后的产品服务知识点类别映射树;
根据产品服务触及度,构建知识点类别关注度树;
根据用户对产品服务的关注时间,获取关注新鲜度;
根据所述量化后的产品服务知识点类别映射树、所述知识点类别关注度树以及所述关注度新鲜度,获取知识点类别权重树。
4.根据权利要求3所述的方法,其特征在于,所述根据所述业务***的产品服务体系和知识库体系,构建产品服务知识点类别映射树,包括:
将所述业务***的产品服务体系与所述知识库体系建立映射关系,获取产品服务体系树;所述产品服务体系树包括不同的产品服务分类,每个所述产品服务分类中包括互不相同的产品服务子类;
根据所述知识库体系,构建知识点体系树;所述知识点体系树包括不同知识点分类,每个所述知识点分类中包括互不相同的知识点子类;
根据所述产品服务体系树和所述知识点体系树,构建产品服务知识点类别映射树;所述产品服务知识点类别映射树包括所述知识点分类,每个所述知识点分类中包括所述互不相同的产品服务子类。
5.根据权利要求1所述的方法,其特征在于,所述根据所述知识点类别权重树和所述词向量特征数据,获取所述输入的问题对应的知识点类别,包括:
根据预先训练的知识库语料进行知识点模型训练,获取知识点识别模型;
根据所述词向量特征数据和所述知识点识别模型,判别知识点所属的知识点类别,获取知识点类别信息;所述知识点类别信息包括各知识点类别及对应得分;
计算最高得分的知识点类别与次高得分的知识点类别之间的差值;
若所述差值低于类别困惑阈值,则将所述知识点类别权重树中对应的所述最高得分的知识点类别的权重与所述最高得分相乘,得到第一值;将所述知识点类别权重树中对应的所述次高得分的知识点类别的权重与所述次高得分相乘,得到第二值,将第一值和第二值中较大的值对应的知识点类别作为所述输入的问题对应的知识点类别;
若所述差值不低于类别困惑阈值,则将所述最高得分的知识点类别作为所述输入的问题对应的知识点类别。
6.根据权利要求1所述的方法,其特征在于,所述根据所述知识点类别,对属于所述知识点类别下的知识点进行相似问题匹配,获取所述用户输入的问题答案,包括:
对属于所述知识点类别下的知识点,根据TF-IDF特征进行余弦距离相似度计算,获得相似度最高的前N个知识点;
根据所述词向量特征将用户输入问题与所述N个知识点的问题进行语义相似度计算,将相似度最高的知识点对应的答案作为所述用户输入的问题答案。
7.一种基于用户行为数据的客服***,其特征在于,包括:
知识点类别权重树获取模块,用于根据用户行为数据及知识库体系,获取知识点类别权重树;
词向量特征获取模块,用于根据用户输入的问题,获取词向量特征数据;
知识点类别识别模块,根据所述知识点类别权重树和所述词向量特征数据,获取所述输入的问题对应的知识点类别;
相似问题匹配模块,用于根据所述知识点类别,对属于所述知识点类别的知识点进行相似问题匹配,获取所述用户输入的问题答案。
8.根据权利要求7所述的***,其特征在于,所述知识点类别权重树获取模块,包括:
用户行为建模子模块,用于根据从业务***采集的用户业务数据,建立用户行为模型;
权重树获取子模块,用于根据知识库体系和用户行为模型,获取与知识库体系结构相对应的知识点类别权重树。
9.根据权利要求8所述的***,其特征在于,所述权重树生成子模块,包括:
产品服务知识点类别映射树获取子模块,用于根据所述业务***的产品服务体系和知识库体系,构建产品服务知识点类别映射树;
产品服务知识点类别映射树量化子模块,用于根据所述用户行为模型,对产品服务知识点类别映射树进行量化处理,获取量化后的产品服务知识点类别映射树;
关注度树获取子模块,用于根据产品服务触及度,构建知识点类别关注度树;
关注新鲜度获取子模块,用于根据用户对产品服务的关注时间,获取关注新鲜度;
权重树构建子模块,用于根据所述量化后的产品服务知识点类别映射树、所述知识点类别关注度树以及所述关注度新鲜度,获取知识点类别权重树。
10.根据权利要求9所述的***,其特征在于,所述产品服务知识点类别映射树获取子模块,包括:
产品服务体系树构建子模块,用于将所述业务***的产品服务体系与所述知识库体系建立映射关系,获取产品服务体系树;所述产品服务体系树包括不同的产品服务分类,每个所述产品服务分类中包括互不相同的产品服务子类;
知识点体系树构建子模块,用于根据所述知识库体系,构建知识点体系树;所述知识点体系树包括不同知识点分类,每个所述知识点分类中包括互不相同的知识点子类;
映射树构建子模块,用于根据所述产品服务体系树和所述知识点体系树,构建产品服务知识点类别映射树;所述产品服务知识点类别映射树包括所述知识点分类,每个所述知识点分类中包括所述互不相同的产品服务子类。
11.根据权利要求7所述的***,其特征在于,所述知识点类别识别模块,包括:
知识点模型构建子模块,用于根据预先训练的知识库语料进行知识点模型训练,获取知识点识别模型;
知识点类别信息获取子模块,用于根据所述词向量特征数据和所述知识点识别模型,判别知识点所属的知识点类别,获取知识点类别信息;所述知识点类别信息包括各知识点类别及对应得分;
知识点类别识别子模块,用于计算最高得分的知识点类别与次高得分的知识点类别之间的差值;若所述差值低于类别困惑阈值,则将所述知识点类别权重树中对应的所述最高得分的知识点类别的权重与所述最高得分相乘,得到第一值;将所述知识点类别权重树中对应的所述次高得分的知识点类别的权重与所述次高得分相乘,得到第二值,将第一值和第二值中较大的值对应的知识点类别作为所述输入的问题对应的知识点类别;若所述差值不低于类别困惑阈值,则将所述最高得分的知识点类别作为所述输入的问题对应的知识点类别。
12.根据权利要求7所述的***,其特征在于,所述相似问题匹配模块,包括:
余弦距离相似度计算子模块,用于对属于所述知识点类别下的知识点,根据TF-IDF特征进行余弦距离相似度计算,获得相似度最高的前N个知识点;
语义相似度计算子模块,用于根据所述词向量特征将用户输入问题与所述N个知识点的问题进行语义相似度计算,将相似度最高的知识点对应的答案作为所述用户输入的问题答案。
CN201911365582.2A 2019-12-26 2019-12-26 一种基于用户行为数据的客服方法及*** Active CN111143533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911365582.2A CN111143533B (zh) 2019-12-26 2019-12-26 一种基于用户行为数据的客服方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911365582.2A CN111143533B (zh) 2019-12-26 2019-12-26 一种基于用户行为数据的客服方法及***

Publications (2)

Publication Number Publication Date
CN111143533A true CN111143533A (zh) 2020-05-12
CN111143533B CN111143533B (zh) 2023-06-30

Family

ID=70520441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911365582.2A Active CN111143533B (zh) 2019-12-26 2019-12-26 一种基于用户行为数据的客服方法及***

Country Status (1)

Country Link
CN (1) CN111143533B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782782A (zh) * 2020-06-09 2020-10-16 苏宁金融科技(南京)有限公司 智能客服的咨询回复方法、装置、计算机设备和存储介质
CN111881274A (zh) * 2020-07-13 2020-11-03 北京捷通华声科技股份有限公司 确定问题的答案的方法、装置与处理器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933779A (zh) * 2017-12-18 2019-06-25 苏宁云商集团股份有限公司 用户意图识别方法及***
CN110532400A (zh) * 2019-09-04 2019-12-03 江苏苏宁银行股份有限公司 基于文本分类预测的知识库维护方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933779A (zh) * 2017-12-18 2019-06-25 苏宁云商集团股份有限公司 用户意图识别方法及***
CN110532400A (zh) * 2019-09-04 2019-12-03 江苏苏宁银行股份有限公司 基于文本分类预测的知识库维护方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782782A (zh) * 2020-06-09 2020-10-16 苏宁金融科技(南京)有限公司 智能客服的咨询回复方法、装置、计算机设备和存储介质
CN111881274A (zh) * 2020-07-13 2020-11-03 北京捷通华声科技股份有限公司 确定问题的答案的方法、装置与处理器
CN111881274B (zh) * 2020-07-13 2024-06-04 北京捷通华声科技股份有限公司 确定问题的答案的方法、装置与处理器

Also Published As

Publication number Publication date
CN111143533B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN111199474B (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN111222976B (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN110489423B (zh) 一种信息抽取的方法、装置、存储介质及电子设备
CN113177700B (zh) 一种风险评估方法、***、电子设备及存储介质
US11811708B2 (en) Systems and methods for generating dynamic conversational responses using cluster-level collaborative filtering matrices
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN111143533B (zh) 一种基于用户行为数据的客服方法及***
CN111625715A (zh) 信息提取方法、装置、电子设备及存储介质
CN112836750A (zh) 一种***资源分配方法、装置及设备
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN111582912A (zh) 一种基于深度嵌入聚类算法的画像建模方法
CN114693409A (zh) 产品匹配方法、装置、计算机设备、存储介质和程序产品
CN113435900A (zh) 交易风险确定方法、装置和服务器
CN115794898B (zh) 一种金融资讯推荐方法、装置、电子设备及存储介质
CN111382265B (zh) 搜索方法、装置、设备和介质
US20140324524A1 (en) Evolving a capped customer linkage model using genetic models
US20140324523A1 (en) Missing String Compensation In Capped Customer Linkage Model
CN114529399A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN112991025A (zh) 一种保险智能推荐方法、***、设备及计算机可读存储介质
CN113571198A (zh) 转化率预测方法、装置、设备及存储介质
CN115203382A (zh) 业务问题场景识别方法、装置、电子设备及存储介质
CN114036267A (zh) 对话方法及***
CN112231546A (zh) 异构文档的排序方法、异构文档排序模型训练方法及装置
CN111611981A (zh) 信息识别方法和装置及信息识别神经网络训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant