CN117271778B - 基于生成式大模型的保险外呼会话信息输出方法及装置 - Google Patents
基于生成式大模型的保险外呼会话信息输出方法及装置 Download PDFInfo
- Publication number
- CN117271778B CN117271778B CN202311532963.1A CN202311532963A CN117271778B CN 117271778 B CN117271778 B CN 117271778B CN 202311532963 A CN202311532963 A CN 202311532963A CN 117271778 B CN117271778 B CN 117271778B
- Authority
- CN
- China
- Prior art keywords
- session
- insurance
- information
- outbound
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 95
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000004891 communication Methods 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000013503 de-identification Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Signal Processing (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Technology Law (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种基于生成式大模型的保险外呼会话信息输出方法及装置,涉及数据处理技术领域,主要目的在于解决现有基于生成式大模型的保险外呼会话信息输出准确性较低的问题。包括:获取对保险产品进行外呼会话咨询时的会话信息;基于已完成训练的生成式大模型对所述会话信息进行分类处理,得到所述会话信息的分类结果,所述生成式大模型为基于对构造的会话样本数据进行交叉区域去重处理后的训练样本集进行训练得到的;基于所述分类结果确定所述外呼会话咨询的保险外呼会话信息,并进行输出。
Description
技术领域
本发明涉及一种数据处理技术领域,特别是涉及一种基于生成式大模型的保险外呼会话信息输出方法及装置。
背景技术
随着保险产品销售方式的不断增多,用户可以通过与电话机器人进行对话的方式咨询不同保险产品信息。其中,电话机器人即为保险企业方为用户提供的对话智能算法,从而按照用户的对话内容确定并输出标准的对话回复内容。
目前,现有对话智能算法通常采用已完成对话模型训练的机器学习模型,以便预先针对保险条款文本内容、保险产品费用结合对话形式内容进行匹配预测,将对话回复内容推送给用户。但是,在训练模型时,将大量对话文本以及保险知识形成的对话形式内容作为训练样本语句,会降低模型预测分类的精度,增加模型训练时间,从而降低基于生成式大模型的保险外呼会话信息输出准确性。
发明内容
有鉴于此,本发明提供一种基于生成式大模型的保险外呼会话信息输出方法及装置,主要目的在于解决现有基于生成式大模型的保险外呼会话信息输出准确性较低的问题。
依据本发明一个方面,提供了一种基于生成式大模型的保险外呼会话信息输出方法,包括:
获取对保险产品进行外呼会话咨询时的会话信息;
基于已完成训练的生成式大模型对所述会话信息进行分类处理,得到所述会话信息的分类结果,所述生成式大模型为基于对构造的会话样本数据进行交叉区域去重处理后的训练样本集进行训练得到的;
基于所述分类结果确定所述外呼会话咨询的保险外呼会话信息,并进行输出。
进一步地,所述基于已完成训练的生成式大模型对所述会话信息进行分类处理,得到所述会话信息的分类结果之前,所述方法还包括:
获取历史会话信息,并按照文本滑窗长度从所述历史会话信息中提取出多个会话样本数据;
确定所述会话样本数据的交叉区域,并对所述交叉区域进行去重处理,得到去重处理后的训练样本集,以基于所述训练样本集对所述生成式大模型进行模型训练,所述交叉区域包括时间交叉、文本内容交叉。
进一步地,所述确定所述会话样本数据的交叉区域,并对所述交叉区域进行去重处理,得到去重处理后的训练样本集,包括:
解析所述会话样本数据的文本词语,将上一会话样本数据的文本词语与下一会话样本数据的文本词语进行对比,确定文本交叉区域;
若所述文本交叉区域对应的目标文本内容被标记为模块化词语,则删除所述目标文本内容;
若所述文本交叉区域对应的目标文本内容被标记为非模块化词语,则对所述目标文本内容进行去重处理。
进一步地,所述方法还包括:
构建待训练的生成式大模型,并获取去重处理后的所述训练样本集;
基于所述训练样本集对所述生成式大模型进行训练,并在模型损失值匹配预设损失阈值时,完成所述生成式大模型的训练,所述模型损失值为基于去重所述目标文本内容的所述会话样本数据对模型训练时计算的。
进一步地,所述确定所述会话样本数据的交叉区域之前,所述方法还包括:
当检测出所述会话样本数据中包含敏感标签时,对所述敏感标签所对应的标签文本进行去标识化处理,所述敏感标识为按照身份敏感信息、保险额度敏感信息对所述会话样本数据进行标记得到的。
进一步地,所述基于所述分类结果确定所述外呼会话咨询的保险外呼会话信息,并进行输出包括:
基于预设产品会话词语库查找与所述分类结果匹配的会话回复关键词,所述预设产品会话词语库中存储有不同分类结果对应的会话回复关键词;
基于会话语句构造策略生成包含有所述会话回复关键词的保险外呼会话信息,并进行输出,所述会话语句构造策略中包括不同语类、不同词性的补充文本与所述会话回复关键词进行构造语句的方法。
进一步地,所述方法还包括:
在输出所述保险外呼会话信息后接收到的新一轮会话信息中包含所述会话回复关键词,则解析所述会话回复关键词的意图信息,所述意图信息用于表征所述保险产品的二次咨询对象;
从保险产品信息咨询数据库中调取与所述意图信息匹配的二次咨询对象,并进行输出,所述保险产品信息咨询数据库中存储有不同意图信息对应的二次咨询对象。
依据本发明另一个方面,提供了一种基于生成式大模型的保险外呼会话信息输出装置,包括:
获取模块,用于获取对保险产品进行外呼会话咨询时的会话信息;
处理模块,用于基于已完成训练的生成式大模型对所述会话信息进行分类处理,得到所述会话信息的分类结果,所述生成式大模型为基于对构造的会话样本数据进行交叉区域去重处理后的训练样本集进行训练得到的;
确定模块,用于基于所述分类结果确定所述外呼会话咨询的保险外呼会话信息,并进行输出。
进一步地,
所述获取模块,还用于获取历史会话信息,并按照文本滑窗长度从所述历史会话信息中提取出多个会话样本数据;
所述确定模块,还用于确定所述会话样本数据的交叉区域,并对所述交叉区域进行去重处理,得到去重处理后的训练样本集,以基于所述训练样本集对所述生成式大模型进行模型训练,所述交叉区域包括时间交叉、文本内容交叉。
进一步地,所述确定模块,具体还用于解析所述会话样本数据的文本词语,将上一会话样本数据的文本词语与下一会话样本数据的文本词语进行对比,确定文本交叉区域;若所述文本交叉区域对应的目标文本内容被标记为模块化词语,则删除所述目标文本内容;若所述文本交叉区域对应的目标文本内容被标记为非模块化词语,则对所述目标文本内容进行去重处理。
进一步地,所述装置还包括:
构造模块,用于构建待训练的生成式大模型,并获取去重处理后的所述训练样本集;
训练模块,用于基于所述训练样本集对所述生成式大模型进行训练,并在模型损失值匹配预设损失阈值时,完成所述生成式大模型的训练,所述模型损失值为基于去重所述目标文本内容的所述会话样本数据对模型训练时计算的。
进一步地,所述处理模块,具体还用于当检测出所述会话样本数据中包含敏感标签时,对所述敏感标签所对应的标签文本进行去标识化处理,所述敏感标识为按照身份敏感信息、保险额度敏感信息对所述会话样本数据进行标记得到的。
进一步地,
所述确定模块,具体还用于基于预设产品会话词语库查找与所述分类结果匹配的会话回复关键词,所述预设产品会话词语库中存储有不同分类结果对应的会话回复关键词;基于会话语句构造策略生成包含有所述会话回复关键词的保险外呼会话信息,并进行输出,所述会话语句构造策略中包括不同语类、不同词性的补充文本与所述会话回复关键词进行构造语句的方法。
进一步地,所述装置还包括:
解析模块,用于在输出所述保险外呼会话信息后接收到的新一轮会话信息中包含所述会话回复关键词,则解析所述会话回复关键词的意图信息,所述意图信息用于表征所述保险产品的二次咨询对象;
调取模块,用于从保险产品信息咨询数据库中调取与所述意图信息匹配的二次咨询对象,并进行输出,所述保险产品信息咨询数据库中存储有不同意图信息对应的二次咨询对象。
根据本发明的又一方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述基于生成式大模型的保险外呼会话信息输出方法对应的操作。
根据本发明的再一方面,提供了一种终端,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述基于生成式大模型的保险外呼会话信息输出方法对应的操作。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明提供了一种基于生成式大模型的保险外呼会话信息输出方法及装置,与现有技术相比,本发明实施例通过获取对保险产品进行外呼会话咨询时的会话信息;基于已完成训练的生成式大模型对所述会话信息进行分类处理,得到所述会话信息的分类结果,所述生成式大模型为基于对构造的会话样本数据进行交叉区域去重处理后的训练样本集进行训练得到的;基于所述分类结果确定所述外呼会话咨询的保险外呼会话信息,并进行输出,实现基于训练样本的交叉区域去重方式提高模型分类精度的目的,加快模型训练的时间,从而提高基于生成式大模型的保险外呼会话信息输出准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种基于生成式大模型的保险外呼会话信息输出方法流程图;
图2示出了本发明实施例提供的一种文本训练数据的构造去重方法示意图;
图3示出了本发明实施例提供的一种基于生成式大模型的保险外呼会话信息输出装置组成框图;
图4示出了本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种基于生成式大模型的保险外呼会话信息输出方法,如图1所示,该方法包括:
101、获取对保险产品进行外呼会话咨询时的会话信息。
本发明实施例中,应用于针对保险产品进行智能对话场景,可以为非人工对话场景,包括但不限于智能机器人电话对话,智能机器人社交平台对话等,当前执行端作为保险会话信息的处理端,可以为云端服务器,也可以为终端服务器,从而对不同保险坐席或者人机对话机器人的会话内容进行处理。当通过电话坐席或人机对话机器人与用户进行对话过程中,当前执行端获取针对保险产品进行咨询的会话信息,此时,会话信息包括用户询问产生的会话内容以及用户基于固定会话语句进行回答的会话内容,本发明实施例不做具体限定。
需要说明的是,当前执行端在可以实时获取在进行外呼会话咨询是的会话信息,也可以从会话日志中调取对应的会话内容,以便针对不同的会话确定场景进行处理,本发明实施例不做具体限定。例如,当实时获取会话信息时,可以基于步骤102-103进一步得到待进行回复的保险外呼会话信息,当从会话日志中调取对应的会话内容时,在基于步骤102-103进一步得保险外呼会话信息后,可以进一步与已得到的回复内容进行比较,以验证回复内容的准确性,本发明实施例不做具体限定。
102、基于已完成训练的生成式大模型对所述会话信息进行分类处理,得到所述会话信息的分类结果。
本发明实施例中,当前执行端在获取到会话信息后,通过已完成模型训练的生成式大模型对此会话信息进行分类处理,即通过将会话信息作为输入参数通过生成式大模型进行分类,得到作为输出的分类结果。其中,生成式大模型为基于对构造的会话样本数据进行交叉区域去重处理后的训练样本集进行训练得到的,本发明实施例中,构造的会话样本数据为开发人员基于不同的场景构造的不同会话可能性的语句样本,可以为人为构造,也可以为基于自然语言算法进行构造,本发明实施例不做具体限定。另外,本发明实施例中的生成式大模型可以为具有开源编译能力的大模型等,如开源的大模型ChatGLM2-6B,本发明实施例不做具体限定。
需要说明的是,在构造会话样本数据时,为了满足符合真人的对话形式,需要在构造的语句中适当加入语气词语、承接上文词语、身份信息等相关的词语内容,在以此构造的语句作为会话样本数据对生成式大模型进行训练时,会增加模型学习负担,降低模型学习的准确性,此时,可以通过session的方式构造,并加入Prompt内容,本发明实施例不做具体限定。因此,对会话样本数据进行交叉去重处理后,作为训练样本集进行训练。另外,还可以基于如BERT模型对训练样本集进行数据清洗以及过虑,从而提高模型训练精度,本发明实施例不做具体限定。
103、基于所述分类结果确定所述外呼会话咨询的保险外呼会话信息,并进行输出。
本发明实施例中,当基于生成式大模型对会话信息进行分类处理,得到的分类结果包括但不限于针对会话内容进行保险产品分类的词语类型,例如,购买分类、咨询分类、承保分类等,从而确定用户针对保险产品进行外呼会话咨询的保险外呼会话信息,例如,调取与购买分类对应的语句内容作为保险外呼会话信息,本发明实施例不做具体限定。
在另一个本发明实施例中,为了进一步说明及限定,步骤基于已完成训练的生成式大模型对所述会话信息进行分类处理,得到所述会话信息的分类结果之前,所述方法还包括:
获取历史会话信息,并按照文本滑窗长度从所述历史会话信息中提取出多个会话样本数据;
确定所述会话样本数据的交叉区域,并对所述交叉区域进行去重处理,得到去重处理后的训练样本集,以基于所述训练样本集对所述生成式大模型进行模型训练。
为了实现基于构造的去重处理的训练样本集进行有效模型训练,当前执行端首先获取历史会话信息,此时,历史会话信息为用于构造会话样本数据的会话语句,以基于滑动窗口方式进行提取。其中,在通过滑动窗口方式提取会话样本数据时,预先配置针对不同会话场景的文本滑动窗长度,以按照文本滑窗长度提取出多个会话样本数据。此时,文本滑窗长度可以为词语长度或时间长度,例如,按照每5个词语长度作为文本滑窗长度提取会话文本,或者按照10秒读取词语的速度作为文本滑窗长度提取会话文本,本发明实施例不做具体限定。
需要说明的是,本发明实施例中滑窗滑动提取会话语句时,存在交叉区域的,如图2所示,且由于文本滑窗长度可以按照词语长或时间长度设置,对应的交叉区域包括时间交叉、文本内容交叉,按照滑窗滑动方式确定确定交叉区域,从而对所述交叉区域进行去重处理,得到去重处理后的训练样本集,本发明实施例不做具体限定。
在另一个本发明实施例中,为了进一步说明及限定,步骤确定所述会话样本数据的交叉区域,并对所述交叉区域进行去重处理,得到去重处理后的训练样本集包括:
解析所述会话样本数据的文本词语,将上一会话样本数据的文本词语与下一会话样本数据的文本词语进行对比,确定文本交叉区域;
若所述文本交叉区域对应的目标文本内容被标记为模块化词语,则删除所述目标文本内容;
若所述文本交叉区域对应的目标文本内容被标记为非模块化词语,则对所述目标文本内容进行去重处理。
为了有效确定出文本交叉区域,以提高对模型训练的准确性,当前执行端首先解析会话样本数据,以确定文本词语。如图2所示,当前执行端对会话样本数据进行词语拆分,并确定每个文本词语的标识,在通过滑动窗长度提取之后,将提取的每一会话样本数据的文本词语进行比较,即将上一会话样本数据的文本词语与下一会话样本数据的文本词语进行比较,确定属于相同词语内容的文本交叉区域。
需要说明的是,当前执行端为了提高文本内容的有效性,避免将语气词语、身份词语等影响模型训练有效性的词语作为样本数据,会预先对历史文本信息中的文本内容进行模块化标记,将属于学习无用的模块化词语进行标记筛选,以在构造文本样本数据时,进行删除。具体的,若文本交叉区域对应的目标文本内容被标记为模块化词语,则删除目标文本内容即可,从而基于非文本交叉区域作为文本样本数据进行模型训练。若所述文本交叉区域对应的目标文本内容被标记为非模块化词语,则对目标文本内容进行去重处理,从而基于去重后的词语作为文本样本数据进行模型训练。
在另一个本发明实施例中,为了进一步说明及限定,步骤还包括:
构建待训练的生成式大模型,并获取去重处理后的所述训练样本集;
基于所述训练样本集对所述生成式大模型进行训练,并在模型损失值匹配预设损失阈值时,完成所述生成式大模型的训练。
为了实现基于去重后得到的训练样本集进行模型训练,从而提高对会话进行分类的准确性,当前执行端首选构建待训练的生成式大模型。构建生成式大模型后,获取前述已构建的训练样本集,并基于此训练样本集对生成式大模型进行模型训练,同时计算训练过程中的模型损失值。其中,模型损失值为基于去重目标文本内容的会话样本数据对模型训练时计算的,以便在模型损失值匹配预设损失阈值时,完成生成式大模型的训练。
需要说明的是,在基于重处理后的训练样本集对模型进行训练时,在计算损失值时,是基于去除与上下文重复的词语内容,所采用的损失值计算方法可以为损失函数进行计算,本发明实施例不做具体限定。
在另一个本发明实施例中,为了进一步说明及限定,步骤确定所述会话样本数据的交叉区域之前,所述方法还包括:
当检测出所述会话样本数据中包含敏感标签时,对所述敏感标签所对应的标签文本进行去标识化处理。
为了使模型训练具有文本针对性,当前执行端在确定交叉区域之前,检测会话样本数据中是否包含敏感标签,此时,敏感标识为按照身份敏感信息、保险额度敏感信息对会话样本数据进行标记得到的,即可以通过人工或词语识别方式对会话样本数据预先进行身份敏感信息、保险额度敏感信息的敏感标识。具体的,可以对身份证号码进行敏感标记,对保险额度10万元以上进行敏感标记,本发明实施例不做具体限定。另外,当检测出会话样本数据包括敏感标签后,可以对带有此敏感标签的标签文本进行去标识化处理,此时,去标识化处理为选取特定词语进行敏感标识删除处理,如将固定无意义的数字串111111111111111111替换身份证号,本发明实施例不做具体限定。
在另一个本发明实施例中,为了进一步说明及限定,步骤基于所述分类结果确定所述外呼会话咨询的保险外呼会话信息,并进行输出包括:
基于预设产品会话词语库查找与所述分类结果匹配的会话回复关键词;
基于会话语句构造策略生成包含有所述会话回复关键词的保险外呼会话信息,并进行输出。
为了满足会话回复的灵活性需求,实现不同会话场景下的会话回复准确性的目的,当前执行端在确定保险外呼会话信息时,基于预设产品会话词语查询库查找分类结果中匹配的会话回复关键词,此时,预设产品会话词语库中存储有不同分类结果对应的会话回复关键词,例如,分类结果为咨询产品分类,则预设产品会话词语库中存储有匹配咨询产品分类的会话回复关键词,包括保险产品1、保险额度、年限、承保条件等会话回复关键词,本发明实施例不做具体限定。当确定会话回复关键词后,进一步基于会话语句构造策略生成包含上述会话回复关键词的保险外呼会话信息,此时,会话语句构造策略中包括不同语类、不同词性的补充文本与会话回复关键词进行构造语句的方法,补充文本为用于将上述会话回复关键词进行构造成语句的文本内容,例如,会话回复关键词为保险产品1、保险额度100万,则会话语句构造策略中包含的补充文本为“请问,您是否需要咨询xxx?”,基于补充文本构造语句的方法为直接添加,则对应得到的保险外呼会话信息为“请问,您是否需要咨询保险额度为100万的保险产品1呢?”,本发明实施例不做具体限定。
在另一个本发明实施例中,为了进一步说明及限定,步骤还包括:
在输出所述保险外呼会话信息后接收到的新一轮会话信息中包含所述会话回复关键词,则解析所述会话回复关键词的意图信息;
从保险产品信息咨询数据库中调取与所述意图信息匹配的二次咨询对象,并进行输出。
为了提高会话确定的准确性,当前执行端在确定保险外呼会话信息后,可以通过电话等终端设备向用户输出播放,从而接收用户基于保险外呼会话信息进行输入的新一轮会话信息。此时,当前执行端实时检测新一轮会话信息中是否包含前述确定的回复关键词,若存在,则说明用户对于回复关键词中的保险推荐内容存在咨询意向,因此,进一步解析回复关键词的意图信息。其中,意图信息用于表征所述保险产品的二次咨询对象,在基于回复关键词进行意图识别时,可以基于预训练的BERT模型进行意图识别,从而确定二次咨询对象,本发明实施例对于识别意图的模型预训练不做具体限定。另外,当识别出意图信息后,从保险产品信息咨询数据库中调取与此意图信息匹配的二次咨询对象,并进行输出,此时,保险产品信息咨询数据库中存储有不同意图信息对应的二次咨询对象,二次咨询对象可以与前述的回复关键词相同或不同,从而按照二次咨询对象调取保险产品。例如,保险外呼会话信息为“请问,您是否需要咨询保险产品a的保额呢?”,新一轮会话信息为用户录入的“是的,我想咨询一下保险产品a”,此时,新一轮会话信息包括回复关键词保险产品a,则识别意图信息为咨询保险产品a,因此,从保险产品信息咨询数据库中调取与咨询保险产品a匹配的二次咨询对象,如保险产品a的相关咨询内容,进行输出,本发明实施例不做具体限定。
本发明实施例提供了一种基于生成式大模型的保险外呼会话信息输出方法,与现有技术相比,本发明实施例通过获取对保险产品进行外呼会话咨询时的会话信息;基于已完成训练的生成式大模型对所述会话信息进行分类处理,得到所述会话信息的分类结果,所述生成式大模型为基于对构造的会话样本数据进行交叉区域去重处理后的训练样本集进行训练得到的;基于所述分类结果确定所述外呼会话咨询的保险外呼会话信息,并进行输出,实现基于训练样本的交叉区域去重方式提高模型分类精度的目的,加快模型训练的时间,从而提高基于生成式大模型的保险外呼会话信息输出准确性。
进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种基于生成式大模型的保险外呼会话信息输出装置,如图3所示,该装置包括:
获取模块21,用于获取对保险产品进行外呼会话咨询时的会话信息;
处理模块22,用于基于已完成训练的生成式大模型对所述会话信息进行分类处理,得到所述会话信息的分类结果,所述生成式大模型为基于对构造的会话样本数据进行交叉区域去重处理后的训练样本集进行训练得到的;
确定模块23,用于基于所述分类结果确定所述外呼会话咨询的保险外呼会话信息,并进行输出。
进一步地,
所述获取模块,还用于获取历史会话信息,并按照文本滑窗长度从所述历史会话信息中提取出多个会话样本数据;
所述确定模块,还用于确定所述会话样本数据的交叉区域,并对所述交叉区域进行去重处理,得到去重处理后的训练样本集,以基于所述训练样本集对所述生成式大模型进行模型训练,所述交叉区域包括时间交叉、文本内容交叉。
进一步地,所述确定模块,具体还用于解析所述会话样本数据的文本词语,将上一会话样本数据的文本词语与下一会话样本数据的文本词语进行对比,确定文本交叉区域;若所述文本交叉区域对应的目标文本内容被标记为模块化词语,则删除所述目标文本内容;若所述文本交叉区域对应的目标文本内容被标记为非模块化词语,则对所述目标文本内容进行去重处理。
进一步地,所述装置还包括:
构造模块,用于构建待训练的生成式大模型,并获取去重处理后的所述训练样本集;
训练模块,用于基于所述训练样本集对所述生成式大模型进行训练,并在模型损失值匹配预设损失阈值时,完成所述生成式大模型的训练,所述模型损失值为基于去重所述目标文本内容的所述会话样本数据对模型训练时计算的。
进一步地,所述处理模块,具体还用于当检测出所述会话样本数据中包含敏感标签时,对所述敏感标签所对应的标签文本进行去标识化处理,所述敏感标识为按照身份敏感信息、保险额度敏感信息对所述会话样本数据进行标记得到的。
进一步地,
所述确定模块,具体还用于基于预设产品会话词语库查找与所述分类结果匹配的会话回复关键词,所述预设产品会话词语库中存储有不同分类结果对应的会话回复关键词;基于会话语句构造策略生成包含有所述会话回复关键词的保险外呼会话信息,并进行输出,所述会话语句构造策略中包括不同语类、不同词性的补充文本与所述会话回复关键词进行构造语句的方法。
进一步地,所述装置还包括:
解析模块,用于在输出所述保险外呼会话信息后接收到的新一轮会话信息中包含所述会话回复关键词,则解析所述会话回复关键词的意图信息,所述意图信息用于表征所述保险产品的二次咨询对象;
调取模块,用于从保险产品信息咨询数据库中调取与所述意图信息匹配的二次咨询对象,并进行输出,所述保险产品信息咨询数据库中存储有不同意图信息对应的二次咨询对象。
本发明实施例提供了一种基于生成式大模型的保险外呼会话信息输出装置,与现有技术相比,本发明实施例通过获取对保险产品进行外呼会话咨询时的会话信息;基于已完成训练的生成式大模型对所述会话信息进行分类处理,得到所述会话信息的分类结果,所述生成式大模型为基于对构造的会话样本数据进行交叉区域去重处理后的训练样本集进行训练得到的;基于所述分类结果确定所述外呼会话咨询的保险外呼会话信息,并进行输出,实现基于训练样本的交叉区域去重方式提高模型分类精度的目的,加快模型训练的时间,从而提高基于生成式大模型的保险外呼会话信息输出准确性。
根据本发明一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于生成式大模型的保险外呼会话信息输出方法。
图4示出了根据本发明一个实施例提供的一种终端的结构示意图,本发明具体实施例并不对终端的具体实现做限定。
如图4所示,该终端可以包括:处理器(processor)302、通信接口(CommunicationsInterface)304、存储器(memory)306、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。
通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器302,用于执行程序310,具体可以执行上述基于生成式大模型的保险外呼会话信息输出方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。终端包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:
获取对保险产品进行外呼会话咨询时的会话信息;
基于已完成训练的生成式大模型对所述会话信息进行分类处理,得到所述会话信息的分类结果,所述生成式大模型为基于对构造的会话样本数据进行交叉区域去重处理后的训练样本集进行训练得到的;
基于所述分类结果确定所述外呼会话咨询的保险外呼会话信息,并进行输出。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (8)
1.一种基于生成式大模型的保险外呼会话信息输出方法,其特征在于,包括:
获取对保险产品进行外呼会话咨询时的会话信息;
基于已完成训练的生成式大模型对所述会话信息进行分类处理,得到所述会话信息的分类结果,所述生成式大模型为基于对构造的会话样本数据进行交叉区域去重处理后的训练样本集进行训练得到的;
基于所述分类结果确定所述外呼会话咨询的保险外呼会话信息,并进行输出;
所述基于已完成训练的生成式大模型对所述会话信息进行分类处理,得到所述会话信息的分类结果之前,所述方法还包括:
获取历史会话信息,并按照文本滑窗长度从所述历史会话信息中提取出多个会话样本数据;
确定所述会话样本数据的交叉区域,并对所述交叉区域进行去重处理,得到去重处理后的训练样本集,以基于所述训练样本集对所述生成式大模型进行模型训练,所述交叉区域包括时间交叉、文本内容交叉;
其中,所述确定所述会话样本数据的交叉区域,并对所述交叉区域进行去重处理,得到去重处理后的训练样本集包括:
解析所述会话样本数据的文本词语,将上一会话样本数据的文本词语与下一会话样本数据的文本词语进行对比,确定文本交叉区域;
若所述文本交叉区域对应的目标文本内容被标记为模块化词语,则删除所述目标文本内容;
若所述文本交叉区域对应的目标文本内容被标记为非模块化词语,则对所述目标文本内容进行去重处理。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
构建待训练的生成式大模型,并获取去重处理后的所述训练样本集;
基于所述训练样本集对所述生成式大模型进行训练,并在模型损失值匹配预设损失阈值时,完成所述生成式大模型的训练,所述模型损失值为基于去重所述目标文本内容的所述会话样本数据对模型训练时计算的。
3.根据权利要求2所述的方法,其特征在于,所述确定所述会话样本数据的交叉区域之前,所述方法还包括:
当检测出所述会话样本数据中包含敏感标签时,对所述敏感标签所对应的标签文本进行去标识化处理,所述敏感标识为按照身份敏感信息、保险额度敏感信息对所述会话样本数据进行标记得到的。
4.根据权利要求1所述的方法,其特征在于,所述基于所述分类结果确定所述外呼会话咨询的保险外呼会话信息,并进行输出包括:
基于预设产品会话词语库查找与所述分类结果匹配的会话回复关键词,所述预设产品会话词语库中存储有不同分类结果对应的会话回复关键词;
基于会话语句构造策略生成包含有所述会话回复关键词的保险外呼会话信息,并进行输出,所述会话语句构造策略中包括不同语类、不同词性的补充文本与所述会话回复关键词进行构造语句的方法。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在输出所述保险外呼会话信息后接收到的新一轮会话信息中包含所述会话回复关键词,则解析所述会话回复关键词的意图信息,所述意图信息用于表征所述保险产品的二次咨询对象;
从保险产品信息咨询数据库中调取与所述意图信息匹配的二次咨询对象,并进行输出,所述保险产品信息咨询数据库中存储有不同意图信息对应的二次咨询对象。
6.一种基于生成式大模型的保险外呼会话信息输出装置,其特征在于,包括:
获取模块,用于获取对保险产品进行外呼会话咨询时的会话信息;
处理模块,用于基于已完成训练的生成式大模型对所述会话信息进行分类处理,得到所述会话信息的分类结果,所述生成式大模型为基于对构造的会话样本数据进行交叉区域去重处理后的训练样本集进行训练得到的;
确定模块,用于基于所述分类结果确定所述外呼会话咨询的保险外呼会话信息,并进行输出;
所述获取模块,还用于获取历史会话信息,并按照文本滑窗长度从所述历史会话信息中提取出多个会话样本数据;
所述确定模块,还用于确定所述会话样本数据的交叉区域,并对所述交叉区域进行去重处理,得到去重处理后的训练样本集,以基于所述训练样本集对所述生成式大模型进行模型训练,所述交叉区域包括时间交叉、文本内容交叉;
其中,所述确定模块,具体还用于解析所述会话样本数据的文本词语,将上一会话样本数据的文本词语与下一会话样本数据的文本词语进行对比,确定文本交叉区域;若所述文本交叉区域对应的目标文本内容被标记为模块化词语,则删除所述目标文本内容;若所述文本交叉区域对应的目标文本内容被标记为非模块化词语,则对所述目标文本内容进行去重处理。
7.一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-5中任一项所述的基于生成式大模型的保险外呼会话信息输出方法对应的操作。
8.一种终端,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-5中任一项所述的基于生成式大模型的保险外呼会话信息输出方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311532963.1A CN117271778B (zh) | 2023-11-17 | 2023-11-17 | 基于生成式大模型的保险外呼会话信息输出方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311532963.1A CN117271778B (zh) | 2023-11-17 | 2023-11-17 | 基于生成式大模型的保险外呼会话信息输出方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117271778A CN117271778A (zh) | 2023-12-22 |
CN117271778B true CN117271778B (zh) | 2024-02-09 |
Family
ID=89210778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311532963.1A Active CN117271778B (zh) | 2023-11-17 | 2023-11-17 | 基于生成式大模型的保险外呼会话信息输出方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117271778B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710772A (zh) * | 2018-11-13 | 2019-05-03 | 国云科技股份有限公司 | 一种基于深度学习的问答库知识管理***及其实现方法 |
CN110909137A (zh) * | 2019-10-12 | 2020-03-24 | 平安科技(深圳)有限公司 | 基于人机交互的信息推送方法、装置和计算机设备 |
CN113962213A (zh) * | 2021-10-27 | 2022-01-21 | 深圳康佳电子科技有限公司 | 一种多轮对话生成方法、终端及计算机可读存储介质 |
CN114239607A (zh) * | 2021-12-23 | 2022-03-25 | 中国建设银行股份有限公司 | 一种对话答复方法及装置 |
CN114780675A (zh) * | 2022-03-29 | 2022-07-22 | 招商银行股份有限公司 | 对话交互方法、装置、设备与介质 |
CN115836288A (zh) * | 2022-06-22 | 2023-03-21 | 极纳人工智能有限公司 | 用于生成训练数据的方法以及装置 |
CN116881429A (zh) * | 2023-09-07 | 2023-10-13 | 四川蜀天信息技术有限公司 | 一种基于多租户的对话模型交互方法、装置及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10757058B2 (en) * | 2017-02-17 | 2020-08-25 | International Business Machines Corporation | Outgoing communication scam prevention |
US20230325601A1 (en) * | 2022-04-06 | 2023-10-12 | Relativity Oda Llc | System and method for intelligent generation of privilege logs |
-
2023
- 2023-11-17 CN CN202311532963.1A patent/CN117271778B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710772A (zh) * | 2018-11-13 | 2019-05-03 | 国云科技股份有限公司 | 一种基于深度学习的问答库知识管理***及其实现方法 |
CN110909137A (zh) * | 2019-10-12 | 2020-03-24 | 平安科技(深圳)有限公司 | 基于人机交互的信息推送方法、装置和计算机设备 |
WO2021068321A1 (zh) * | 2019-10-12 | 2021-04-15 | 平安科技(深圳)有限公司 | 基于人机交互的信息推送方法、装置和计算机设备 |
CN113962213A (zh) * | 2021-10-27 | 2022-01-21 | 深圳康佳电子科技有限公司 | 一种多轮对话生成方法、终端及计算机可读存储介质 |
CN114239607A (zh) * | 2021-12-23 | 2022-03-25 | 中国建设银行股份有限公司 | 一种对话答复方法及装置 |
CN114780675A (zh) * | 2022-03-29 | 2022-07-22 | 招商银行股份有限公司 | 对话交互方法、装置、设备与介质 |
CN115836288A (zh) * | 2022-06-22 | 2023-03-21 | 极纳人工智能有限公司 | 用于生成训练数据的方法以及装置 |
CN116881429A (zh) * | 2023-09-07 | 2023-10-13 | 四川蜀天信息技术有限公司 | 一种基于多租户的对话模型交互方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于深度神经网络的工单采集模型研究;陶晓峰等;《自动化与仪器仪表》(第02期);全文 * |
基于阈值自适应调整的重复数据删除方案;高原等;青岛大学学报(自然科学版);20191115(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117271778A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
KR102288249B1 (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN110781276A (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN111339305B (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN112765974B (zh) | 一种业务辅助方法、电子设备及可读存储介质 | |
CN111639484A (zh) | 坐席通话内容的分析方法 | |
CN110287318B (zh) | 业务操作的检测方法及装置、存储介质、电子装置 | |
CN114218375B (zh) | 基于图谱的对话引导方法、装置、设备及介质 | |
CN116108857B (zh) | 信息抽取方法、装置、电子设备以及存储介质 | |
CN113360622A (zh) | 用户对话信息的处理方法、装置及计算机设备 | |
CN110633475A (zh) | 基于计算机场景的自然语言理解方法、装置、***和存储介质 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN111783450A (zh) | 语料文本中的短语提取方法、装置、存储介质及电子设备 | |
CN111368066A (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN110750626B (zh) | 一种基于场景的任务驱动的多轮对话方法及*** | |
CN113934834A (zh) | 一种问句匹配的方法、装置、设备和存储介质 | |
CN116644183B (zh) | 文本分类方法、装置及存储介质 | |
CN115858776B (zh) | 一种变体文本分类识别方法、***、存储介质和电子设备 | |
CN117271778B (zh) | 基于生成式大模型的保险外呼会话信息输出方法及装置 | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN116304046A (zh) | 对话数据的处理方法、装置、存储介质及电子设备 | |
CN112749530B (zh) | 文本编码方法、装置、设备及计算机可读存储介质 | |
CN114757205A (zh) | 文本评价方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |