CN115017291A - 热点问题分析方法、装置、计算机设备和存储介质 - Google Patents

热点问题分析方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115017291A
CN115017291A CN202210931690.7A CN202210931690A CN115017291A CN 115017291 A CN115017291 A CN 115017291A CN 202210931690 A CN202210931690 A CN 202210931690A CN 115017291 A CN115017291 A CN 115017291A
Authority
CN
China
Prior art keywords
sentence
sentences
analyzed
determining
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210931690.7A
Other languages
English (en)
Other versions
CN115017291B (zh
Inventor
杨正超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Original Assignee
Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch filed Critical Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Priority to CN202210931690.7A priority Critical patent/CN115017291B/zh
Publication of CN115017291A publication Critical patent/CN115017291A/zh
Application granted granted Critical
Publication of CN115017291B publication Critical patent/CN115017291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种热点问题分析方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:在历史对话语句中获取多个待分析语句,根据多个待分析语句与关键语句库,确定多个待分析语句中与关键语句库匹配程度最高的待分析语句,并确定关键语句库中与匹配程度最高的待分析语句对应的关键语句为候选语句,进而利用注意力机制算法从候选语句中确定热点语句,以根据热点语句确定热点问题。通过上述方法避免了人工统计热点问题,减小了统计耗时,进而提高了分析效率。

Description

热点问题分析方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种热点问题分析方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着人工智能技术的发展,越来越多行业引入了客服机器人,以自动解答用户的提问。
传统技术中,需要人工基于历史提问数据统计热点问题,进而为客服机器人设置热点问题以及相应答复内容,以在客服机器人识别用户提出的到热点问题时,为用户提供相应的答复内容。
然而,传统人工统计热点问题的方式耗时久,效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种热点问题分析方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种热点问题分析方法,包括:
在历史对话语句中获取多个待分析语句;
根据多个待分析语句与关键语句库,确定多个待分析语句中与关键语句库匹配程度最高的待分析语句,并确定关键语句库中与匹配程度最高的待分析语句对应的关键语句为候选语句;
利用注意力机制算法从候选语句中确定热点语句,根据热点语句确定热点问题。
在其中一个实施例中,根据多个待分析语句与关键语句库,确定多个待分析语句中与关键语句库匹配程度最高的待分析语句,包括:
确定每一待分析语句的句向量和关键语句库中每一关键语句的句向量;
计算每一待分析语句的句向量与每一关键语句的句向量的相似度;
确定与待分析语句匹配的匹配语句的数量;其中,匹配语句为关键语句库中与待分析语句的相似度大于第一相似度阈值的关键语句;
将各个待分析语句中匹配语句数量大于数量阈值的待分析语句确定为匹配程度最高的待分析语句。
在其中一个实施例中,在历史对话语句中获取多个待分析语句,包括:
确定历史对话语句的关键词;
获取历史对话语句中包括关键词的语句,作为待分析语句。
在其中一个实施例中,上述方法还包括:
根据历史对话语句确定多个预设关键词在历史对话语句中的出现比例;
根据每一预设关键词的出现比例以及关键语句库的预设容量,从历史对话语句中确定预设关键词对应的多个关键语句;
基于预设关键词对应的多个关键语句构建关键语句库。
在其中一个实施例中,利用注意力机制算法从候选语句中确定热点语句,包括:
利用注意力机制算法确定每一候选语句与每一待分析语句的相似度;
根据相似度在候选语句中确定热点语句。
在其中一个实施例中,根据相似度在候选语句中确定热点语句,包括:
确定对应相似度大于第二相似度阈值的相似度数量与相似度总量的数量比值,若数量比值大于比例阈值,则确定对应相似度大于第二相似度阈值的候选语句为热点语句。
第二方面,本申请还提供了一种热点问题分析装置,包括:
语句获取模块,用于在历史对话语句中获取多个待分析语句;
匹配分析模块,用于根据多个待分析语句与关键语句库,确定多个待分析语句中与关键语句库匹配程度最高的待分析语句,并确定关键语句库中与匹配程度最高的待分析语句对应的关键语句为候选语句;
热点确定模块,用于利用注意力机制算法从候选语句中确定热点语句,根据热点语句确定热点问题。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
在历史对话语句中获取多个待分析语句;
根据多个待分析语句与关键语句库,确定多个待分析语句中与关键语句库匹配程度最高的待分析语句,并确定关键语句库中与匹配程度最高的待分析语句对应的关键语句为候选语句;
利用注意力机制算法从候选语句中确定热点语句,根据热点语句确定热点问题。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
在历史对话语句中获取多个待分析语句;
根据多个待分析语句与关键语句库,确定多个待分析语句中与关键语句库匹配程度最高的待分析语句,并确定关键语句库中与匹配程度最高的待分析语句对应的关键语句为候选语句;
利用注意力机制算法从候选语句中确定热点语句,根据热点语句确定热点问题。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
在历史对话语句中获取多个待分析语句;
根据多个待分析语句与关键语句库,确定多个待分析语句中与关键语句库匹配程度最高的待分析语句,并确定关键语句库中与匹配程度最高的待分析语句对应的关键语句为候选语句;
利用注意力机制算法从候选语句中确定热点语句,根据热点语句确定热点问题。
上述热点问题分析方法、装置、计算机设备、存储介质和计算机程序产品,通过在历史对话语句中获取多个待分析语句,根据多个待分析语句与关键语句库,确定多个待分析语句中与关键语句库匹配程度最高的待分析语句,并确定关键语句库中与匹配程度最高的待分析语句对应的关键语句为候选语句,进而利用注意力机制算法从候选语句中确定热点语句,以根据热点语句确定热点问题。通过上述方法避免了人工统计热点问题,减小了统计耗时,进而提高了分析效率。
附图说明
图1为一个实施例中热点问题分析方法的流程示意图;
图2为一个实施例中确定待分析语句的流程示意图;
图3为一个实施例中确定关键语句库的流程示意图;
图4为一个实施例中确定匹配程度最高的待分析语句的流程示意图;
图5为一个实施例中确定热点语句的流程示意图;
图6为一个实施例中BiMPM模型的结构示意图;
图7为一个实施例中BiMPM模型中4种注意力机制策略的流程示意图;
图8为一个实施例中热点问题分析装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,提供了一种热点问题分析方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的***,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
需要说明的是,本实施例中的热点问题(Frequently Asked Questions,FAQ)即用户所提出的咨询频率、热度达到一定程度的问题。本申请所提供的热点问题分析方法实质为确定热点问题的过程。
如图1所示,本实施例中,该方法包括以下步骤:
S110、在历史对话语句中获取多个待分析语句。
其中,历史对话语句即历史对话过程中所产生的语句。可选地,历史对话语句可以是过去一段时间内客服***接收到的咨询语句,还可以过去一段时间内人工客服或者客服机器人与用户通过客服***交流沟通的语句。
可选地,待分析语句可以是历史对话语句中的任意语句,也可以是历史对话语句中出现比例/频次达到相应比例/频次的语句,还可以是历史对话语句中的目标语句。其中,目标语句即为包括关键词的语句。可选地,上述关键词可以是预设的关键词,还可以是基于关键词分析算法所确定的关键词。
S120、根据多个待分析语句与关键语句库,确定多个待分析语句中与关键语句库匹配程度最高的待分析语句,并确定关键语句库中与匹配程度最高的待分析语句对应的关键语句为候选语句。
其中,关键语句库中包括多个关键语句,每一关键语句均包括至少一个行业关键词。
可选地,终端确定每一待分析语句和关键语句库中每一关键语句之间的相似度,并确定对应相似度满足预设条件的待分析语句为多个待分析语句中与关键语句库匹配程度最高的待分析语句,进而确定关键语句库中与匹配程度最高的待分析语句对应的关键语句为候选语句。其中,上述预设条件可以是相似度大于相似度阈值且得到相似度大于相似度阈值的数量大于数量阈值。
例如,待分析语句包括100条(待分析语句1~待分析语句100),关键语句库中包括1000条关键语句,终端计算每一待分析语句与每一关键语句之间的相似度,即可得到100*1000个相似度,即每一待分析语句对应1000个相似度。其中,若待分析语句10对应的1000个相似度中有400个大于相似度阈值,待分析语句20对应的1000个相似度中有350个大于相似度阈值,待分析语句21对应的1000个相似度中有351个大于相似度阈值,数量阈值为300,终端即可确认上述待分析语句10、待分析语句20以及待分析语句21为与关键语句库匹配程度最高的待分析语句,并确定分别得到的上述400个、350个以及351个相似度的关键语句为候选语句。
可选地,每一待分析语句和每一关键语句之间的相似度可根据待分析语句中的关键词的词向量和关键语句中关键词的词向量确定,还可以根据待分析语句的句向量和关键语句的句向量确定。
S130、利用注意力机制算法从候选语句中确定热点语句,根据热点语句确定热点问题。
在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他信息,这种机制通常被称为注意力机制。
可选地,终端可利用基于注意力机制算法的机器学习模型确定待分析语句与候选语句之间的相似度,从候选语句中确定出热点语句,进而由热点语句确定热点问题。
可选地,终端对于关键语句库中的每一关键语句均设置有对应的关注问题,终端在确定关键语句中的热点语句后,即可根据预设的关键语句与关注问题的对应关系确定上述热点语句所对应的关注问即为热点问题。
本实施例中,终端在历史对话语句中获取多个待分析语句,根据多个待分析语句与关键语句库,确定多个待分析语句中与关键语句库匹配程度最高的待分析语句,并确定关键语句库中与匹配程度最高的待分析语句对应的关键语句为候选语句,进而利用注意力机制算法从候选语句中确定热点语句,以根据热点语句确定热点问题。通过上述方法避免了人工统计热点问题,减小了统计耗时,进而提高了分析效率。
在其中一个实施例中,待分析语句为包括关键词的语句,如图2所示,上述S110则包括:
S210、确定历史对话语句的关键词。
其中,历史对话语句的关键词可用于表征历史对话语句的主题。可选地,历史对话语句中可以包括多个关键词。
可选地,历史对话语句可以是语音数据还可是文本数据。若历史对话语句为语音数据,终端则对该历史对话语句进行音转字的转换处理,以将语音数据转换为同一格式文本数据,如xml格式的文本数据。若历史对话语句为文本数据,则直接对历史对话语句进行格式同一处理,并对格式同一后的历史对话语句进行解析、分析、数据清洗等预处理,得到处理后的历史对话语句。
可选地,终端可统计历史对话语句中不同词语的出现频次,对于出现频次大于频次阈值的词语进行常用词剔除处理,得到上述关键词。还可以采用关键词算法确定历史对话语句中的关键词。例如,将历史对话语句输入基于关键词算法的TF-IDF模型(TF:TermFrequency,词频;IDF:Inverse Document Frequency,逆向文件频率),得到历史对话语句的关键词。
S220、获取历史对话语句中包括关键词的语句,作为待分析语句。
具体地,终端在确定历史对话语句的关键词后,则遍历每一历史对话语句,从中获取包括上述关键词的语句,作为上述待分析语句。
本实施例中,终端首先确定历史对话语句的关键词,进而获取历史对话语句中包括关键词的语句,作为待分析语句,以得到包括关键词的待分析语句,实现对于历史对话语句的数据压缩,减少后续数据计算量,进一步提高分析效率。
在其中一个实施例中,上述方法还包括确定关键语句库的过程,如图3所示,上述方法还包括:
S310、根据历史对话语句确定多个预设关键词在历史对话语句中的出现比例。
其中,预设关键词为行业关键词即与行业相关的关键词。例如,对于保险行业,上述预设关键词可以是保单、保费、保全、保额、赔偿等,还可以是保单产品的名称等等。
具体地,终端可遍历历史对话语句,确定包括至少一个预设关键词的历史对话语句,并统计每一预设关键词在历史对话语句中的出现频次(为简化计算,一句话中出现多次只记一次),得到每一预设关键词在历史对话语句中的出现比例。例如,预设关键词包括关键词A、关键词B和关键词C,历史对话语句包括10000条,关键词A在历史对话语句中出现频次为5000次,关键词B在历史对话语句中出现频次为3000次,关键词C在历史对话语句中出现频次为1000次,即可得到关键词A在历史对话语句中的出现比例为5/9,关键词B在历史对话语句中的出现比例为3/9,关键词C在历史对话语句中的出现比例为1/9。
S320、根据每一预设关键词的出现比例以及关键语句库的预设容量,从历史对话语句中确定预设关键词对应的多个关键语句。
S330、基于预设关键词对应的多个关键语句构建关键语句库。
具体地,终端在确定各个预设关键词在历史对话语句中的出现比例后,即根据每一预设关键词的出现比例以及关键语句库的预设容量,确定出包括相应预设关键词的历史对话语句的数量,并从历史对话语句中获取预设关键词所对应的相应数量的关键语句,进而由该预设关键词所对应的相应数量的关键语句构成上述关键语句库。
继续上述举例,关键语句库的预设容量为1000条,结合上述所确定的关键词A、关键词B以及关键词C各自的出现比例,确定出包括相应预设关键词的历史对话语句的数量即为:包括关键词A的历史对话语句的数量为(5/9)*1000 ≈ 556条,包括关键词B的历史对话语句的数量为(3/9)*1000 ≈ 333条,包括关键词C的历史对话语句的数量为(1/9)*1000≈ 111条。相应地,终端则在历史对话语句中抽取556条包括关键词A的历史对话语句,抽取333条包括关键词B的历史对话语句,抽取111条包括关键词C的历史对话语句,并将上述556条包括关键词A的历史对话语句、333条包括关键词B的历史对话语句、111条包括关键词C的历史对话语句作为关键语句,构成上述关键语句库。
本实施例中,终端根据历史对话语句确定多个预设关键词在历史对话语句中的出现比例,并根据每一预设关键词的出现比例以及关键语句库的预设容量,从历史对话语句中确定预设关键词对应的多个关键语句,进而基于预设关键词对应的多个关键语句构建关键语句库。采用上述方法所确定的关键语句库与历史对话语句保持相同的关键词出现比例,可准确反映每一关键词的热度情况,提高了后续确定热点语句的准确性,进而提高了基于热点语句所确定的热点问题的准确性。
在其中一个实施例中,可采用句向量确定待分析语句与关键语句之间的相似度,如图4所示,上述S120中确定多个待分析语句中与关键语句库匹配程度最高的待分析语句则包括:
S410、确定每一待分析语句的句向量和关键语句库中每一关键语句的句向量。
其中,句向量即语句在数学空间的映射向量,用于表征对应语句的语义特征。可选地,句向量可以根据对应语句的词向量确定,还可以基于自然语言处理技术得到。
可选地,终端可将每一待分析语句输入采用利用自然语言处理技术的bert模型,并由bert模型输出每一待分析语句的句向量,同理将关键语句库中每一关键语句也输入bert模型,相应输出关键语句库中每一关键语句的句向量。
S420、计算每一待分析语句的句向量与每一关键语句的句向量的相似度。
具体地,终端可计算每一待分析语句的句向量与每一关键语句的句向量之间的余弦相似度。
S430、确定与待分析语句匹配的匹配语句的数量。
其中,匹配语句为关键语句库中与待分析语句的相似度大于第一相似度阈值的关键语句。
S440、将各个待分析语句中匹配语句的数量大于数量阈值的待分析语句确定为匹配程度最高的待分析语句。
具体地,终端可根据余弦相似度在关键语句库中确定与待分析语句匹配的关键语句,即上述匹配语句。其中,若余弦相似度大于第一相似度阈值,则确定得到该余弦相似度的待分析语句和关键语句匹配。终端即可得到关键语句库中与待分析语句匹配的匹配语句,进一步统计每一待分析语句对应的匹配语句的数量,并将每一待分析语句对应的匹配语句的数量与数量阈值进行比较,确定匹配语句的数量大于数量阈值的待分析语句为匹配程度最高的待分析语句。具体过程可参见S120中的举例,在此不再赘述。
可选地,终端还可以将上述待分析语句的句向量输入到lsh(Locality SensitiveHashing,局部敏感哈希)模型中,通过分层抽样生成的初始热点问句,在lsh模型中查询相似句,得到最终的待分析语句。
本实施例中,终端确定每一待分析语句的句向量和关键语句库中每一关键语句的句向量,以计算每一待分析语句的句向量与每一关键语句的句向量的相似度,确定与待分析语句的相似度大于第一相似度阈值的匹配语句的数量,进而将各个待分析语句中匹配语句数量大于数量阈值的待分析语句确定为匹配程度最高的待分析语句。句向量可准确反映语句的语义特征,基于句向量之间的相似度即可准确确定两语句之间的相似性,进而提高了所确定的匹配程度最高的待分析语句的准确性。
在其中一个实施例中,为进一步提高所确定的热点问题的准确性,如图5所示,上述S130中热点语句的过程包括:
S510、利用注意力机制算法确定每一候选语句与每一待分析语句的相似度。
具体地,终端可将每一候选语句与每一待分析语句组成语句对输入基于注意力机制算法的机器学习模型,如BiMPM(Bilateral Multi-Perspective Matching Network)模型,并由该BiMPM模型输出该语句对的相似度。例如,候选语句包括200条,待分析语句包括100条,取每一候选语句与每一待分析语句组成语句对输入BiMPM模型,即可得到200*100组语句对所对应的相似度即200*100个相似度。
其中,BiMPM模型为一种注意力机制模型,具体介绍如下:
数据准备:
采用第三方金融相似句数据集和开源金融词向量,利用pytorch进行数据预处理,生成词向量文件,词典。将候选相似句句子对数据集,转换成pickle对象数据格式,对象为根据词典得到的组成相似句句子对中的词对应的id列表。
模型结构:
如图6所示,该BiMPM模型分为5层:词表示层(Embedding Layer)、编码层(Encoding Layer)、匹配层(Matching Layer)、融合层(Aggregated Layer)、和预测层。其核心是图7中所示的4种注意力机制策略:a)全匹配,b)最大池化匹配,c)注意力匹配,d)最大注意力匹配。
模型实现:
通过pytorch实现模型结构。其核心为匹配层的设计,4种注意力机制策略目的为了充分融合输入序列,达到更好的判断语义相似度的效果。其核心思想是基于编码层(一个双向lstm)的输出,计算两个句子的相似度权重(余弦相似度),然后通过权重作用于相应词的隐向量,然后与各自策略的余弦匹配矩阵做运算后,得到各自的余弦匹配值作为输出,融合4种策略的输出结果。
模型训练和验证:
模型输入为预处理阶段生成的句子对词id列表,输出为0或1,代表句子相似与否。模型训练epoch采用50轮,优化器采用Adam。每200批训练之后进行一次模型验证,批次大小为32,验证精度高于最大精度则保存模型。模型训练过程中若持续不收敛,会提前结束本轮训练,进入下一轮训练。
模型评估:
训练采用了开源的第三方金融数据集和行业数据集,共计80万条。相似句与非相似句的比例大致为7:3,这是出于模型对相似句学习的考虑。模型精度可达到91%以上。
模型输出:
输出相似度大于给定阈值的相似句子对,每个热点问句对应10个相似问句。在输入数据达千万条时,可以保证输出20-50条热点问题。这个视粗选候选问句数量和相似度阈值而定。
S520、根据相似度在候选语句中确定热点语句。
具体地,基于所确定的所有语句对的相似度,终端进一步确定对应相似度大于第二相似度阈值的相似度数量,并计算该相似度数量与相似度总量的数量比值,若数量比值大于比例阈值,则确定对应相似度大于第二相似度阈值的候选语句为上述热点语句。例如,继续上述举例,终端通过上述计算得到200*100个相似度,统计得到这200*100个相似度中有10001个相似度大于第二相似度阈值,进一步确定对应相似度大于第二相似度阈值的相似度数量10001与相似度总量20000的数量比值10001/20000大于比例阈值50%,终端即可确定该对应相似度大于第二相似度阈值的这10001个候选语句为热点语句并输出。
可选地,若数量比值不大于比例阈值,则确定上述候选语句均未达到热度规模,可输出无法确定热点语句的输出结果。
本实施例中,终端利用注意力机制算法确定每一候选语句与每一待分析语句的相似度,根据相似度在候选语句中确定热点语句,具体确定对应相似度大于第二相似度阈值的相似度数量与相似度总量的数量比值,在数量比值大于比例阈值的情况下,确定对应相似度大于第二相似度阈值的候选语句为热点语句。以此确定出于与行业高度相关,且为高频热度的热点语句,从而进一步提高了所确定的热点问题的准确性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的热点问题分析方法的热点问题分析装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个热点问题分析装置实施例中的具体限定可以参见上文中对于热点问题分析方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种热点问题分析装置,包括:语句获取模块801、匹配分析模块802和热点确定模块803,其中:
语句获取模块801用于在历史对话语句中获取多个待分析语句;
匹配分析模块802用于根据多个待分析语句与关键语句库,确定多个待分析语句中与关键语句库匹配程度最高的待分析语句,并确定关键语句库中与匹配程度最高的待分析语句对应的关键语句为候选语句;
热点确定模块803用于利用注意力机制算法从候选语句中确定热点语句,根据热点语句确定热点问题。
在其中一个实施例中,匹配分析模块802具体用于:
确定每一待分析语句的句向量和关键语句库中每一关键语句的句向量;计算每一待分析语句的句向量与每一关键语句的句向量的相似度;确定与待分析语句匹配的匹配语句的数量;其中,匹配语句为关键语句库中与待分析语句的相似度大于第一相似度阈值的关键语句;将各个待分析语句中匹配语句数量大于数量阈值的待分析语句确定为匹配程度最高的待分析语句。
在其中一个实施例中,语句获取模块801具体用于:
确定历史对话语句的关键词;获取历史对话语句中包括关键词的语句,作为待分析语句。
在其中一个实施例中,上述装置还包括关键确定模块;关键确定模块具体用于:
根据历史对话语句确定多个预设关键词在历史对话语句中的出现比例;根据每一预设关键词的出现比例以及关键语句库的预设容量,从历史对话语句中确定预设关键词对应的多个关键语句;基于预设关键词对应的多个关键语句构建关键语句库。
在其中一个实施例中,热点确定模块803具体用于:
利用注意力机制算法确定每一候选语句与每一待分析语句的相似度;根据相似度在候选语句中确定热点语句。
在其中一个实施例中,热点确定模块803具体用于:
确定对应相似度大于第二相似度阈值的相似度数量与相似度总量的数量比值,若数量比值大于比例阈值,则确定对应相似度大于第二相似度阈值的候选语句为热点语句。
上述热点问题分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种热点问题分析方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
在历史对话语句中获取多个待分析语句;根据多个待分析语句与关键语句库,确定多个待分析语句中与关键语句库匹配程度最高的待分析语句,并确定关键语句库中与匹配程度最高的待分析语句对应的关键语句为候选语句;利用注意力机制算法从候选语句中确定热点语句,根据热点语句确定热点问题。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:
确定每一待分析语句的句向量和关键语句库中每一关键语句的句向量;计算每一待分析语句的句向量与每一关键语句的句向量的相似度;确定与待分析语句匹配的匹配语句的数量;其中,匹配语句为关键语句库中与待分析语句的相似度大于第一相似度阈值的关键语句;将各个待分析语句中匹配语句数量大于数量阈值的待分析语句确定为匹配程度最高的待分析语句。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
确定历史对话语句的关键词;获取历史对话语句中包括关键词的语句,作为待分析语句。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据历史对话语句确定多个预设关键词在历史对话语句中的出现比例;根据每一预设关键词的出现比例以及关键语句库的预设容量,从历史对话语句中确定预设关键词对应的多个关键语句;基于预设关键词对应的多个关键语句构建关键语句库。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
利用注意力机制算法确定每一候选语句与每一待分析语句的相似度;根据相似度在候选语句中确定热点语句。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
确定对应相似度大于第二相似度阈值的相似度数量与相似度总量的数量比值,若数量比值大于比例阈值,则确定对应相似度大于第二相似度阈值的候选语句为热点语句。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
在历史对话语句中获取多个待分析语句;根据多个待分析语句与关键语句库,确定多个待分析语句中与关键语句库匹配程度最高的待分析语句,并确定关键语句库中与匹配程度最高的待分析语句对应的关键语句为候选语句;利用注意力机制算法从候选语句中确定热点语句,根据热点语句确定热点问题。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
确定每一待分析语句的句向量和关键语句库中每一关键语句的句向量;计算每一待分析语句的句向量与每一关键语句的句向量的相似度;确定与待分析语句匹配的匹配语句的数量;其中,匹配语句为关键语句库中与待分析语句的相似度大于第一相似度阈值的关键语句;将各个待分析语句中匹配语句数量大于数量阈值的待分析语句确定为匹配程度最高的待分析语句。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
确定历史对话语句的关键词;获取历史对话语句中包括关键词的语句,作为待分析语句。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据历史对话语句确定多个预设关键词在历史对话语句中的出现比例;根据每一预设关键词的出现比例以及关键语句库的预设容量,从历史对话语句中确定预设关键词对应的多个关键语句;基于预设关键词对应的多个关键语句构建关键语句库。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
利用注意力机制算法确定每一候选语句与每一待分析语句的相似度;根据相似度在候选语句中确定热点语句。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
确定对应相似度大于第二相似度阈值的相似度数量与相似度总量的数量比值,若数量比值大于比例阈值,则确定对应相似度大于第二相似度阈值的候选语句为热点语句。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
在历史对话语句中获取多个待分析语句;根据多个待分析语句与关键语句库,确定多个待分析语句中与关键语句库匹配程度最高的待分析语句,并确定关键语句库中与匹配程度最高的待分析语句对应的关键语句为候选语句;利用注意力机制算法从候选语句中确定热点语句,根据热点语句确定热点问题。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
确定每一待分析语句的句向量和关键语句库中每一关键语句的句向量;计算每一待分析语句的句向量与每一关键语句的句向量的相似度;确定与待分析语句匹配的匹配语句的数量;其中,匹配语句为关键语句库中与待分析语句的相似度大于第一相似度阈值的关键语句;将各个待分析语句中匹配语句数量大于数量阈值的待分析语句确定为匹配程度最高的待分析语句。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
确定历史对话语句的关键词;获取历史对话语句中包括关键词的语句,作为待分析语句。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据历史对话语句确定多个预设关键词在历史对话语句中的出现比例;根据每一预设关键词的出现比例以及关键语句库的预设容量,从历史对话语句中确定预设关键词对应的多个关键语句;基于预设关键词对应的多个关键语句构建关键语句库。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
利用注意力机制算法确定每一候选语句与每一待分析语句的相似度;根据相似度在候选语句中确定热点语句。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
确定对应相似度大于第二相似度阈值的相似度数量与相似度总量的数量比值,若数量比值大于比例阈值,则确定对应相似度大于第二相似度阈值的候选语句为热点语句。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种热点问题分析方法,其特征在于,所述方法包括:
在历史对话语句中获取多个待分析语句;
根据所述多个待分析语句与关键语句库,确定所述多个待分析语句中与所述关键语句库匹配程度最高的待分析语句,并确定所述关键语句库中与所述匹配程度最高的待分析语句对应的关键语句为候选语句;
利用注意力机制算法从所述候选语句中确定热点语句,根据所述热点语句确定热点问题。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个待分析语句与关键语句库,确定所述多个待分析语句中与所述关键语句库匹配程度最高的待分析语句,包括:
确定每一待分析语句的句向量和所述关键语句库中每一关键语句的句向量;
计算所述每一待分析语句的句向量与所述每一关键语句的句向量的相似度;
确定与所述待分析语句匹配的匹配语句的数量;其中,所述匹配语句为所述关键语句库中与所述待分析语句的相似度大于第一相似度阈值的关键语句;
将各个所述待分析语句中匹配语句数量大于数量阈值的待分析语句确定为匹配程度最高的待分析语句。
3.根据权利要求1所述的方法,其特征在于,所述在历史对话语句中获取多个待分析语句,包括:
确定所述历史对话语句的关键词;
获取所述历史对话语句中包括所述关键词的语句,作为所述待分析语句。
4.根据权利要求1~3中任一项所述的方法,其特征在于,所述方法还包括:
根据所述历史对话语句确定多个预设关键词在所述历史对话语句中的出现比例;
根据每一所述预设关键词的出现比例以及所述关键语句库的预设容量,从所述历史对话语句中确定所述预设关键词对应的多个关键语句;
基于所述预设关键词对应的多个关键语句构建所述关键语句库。
5.根据权利要求1所述的方法,其特征在于,所述利用注意力机制算法从所述候选语句中确定热点语句,包括:
利用所述注意力机制算法确定每一所述候选语句与每一所述待分析语句的相似度;
根据所述相似度在所述候选语句中确定所述热点语句。
6.根据权利要求5所述的方法,其特征在于,所述根据所述相似度在所述候选语句中确定所述热点语句,包括:
确定对应相似度大于第二相似度阈值的相似度数量与相似度总量的数量比值,若所述数量比值大于比例阈值,则确定对应所述相似度大于第二相似度阈值的候选语句为所述热点语句。
7.一种热点问题分析装置,其特征在于,所述装置包括:
语句获取模块,用于在历史对话语句中获取多个待分析语句;
匹配分析模块,用于根据所述多个待分析语句与关键语句库,确定所述多个待分析语句中与所述关键语句库匹配程度最高的待分析语句,并确定所述关键语句库中与所述匹配程度最高的待分析语句对应的关键语句为候选语句;
热点确定模块,用于利用注意力机制算法从所述候选语句中确定热点语句,根据所述热点语句确定热点问题。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202210931690.7A 2022-08-04 2022-08-04 热点问题分析方法、装置、计算机设备和存储介质 Active CN115017291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210931690.7A CN115017291B (zh) 2022-08-04 2022-08-04 热点问题分析方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210931690.7A CN115017291B (zh) 2022-08-04 2022-08-04 热点问题分析方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN115017291A true CN115017291A (zh) 2022-09-06
CN115017291B CN115017291B (zh) 2023-01-10

Family

ID=83065852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210931690.7A Active CN115017291B (zh) 2022-08-04 2022-08-04 热点问题分析方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115017291B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法
CN110852095A (zh) * 2018-08-02 2020-02-28 ***股份有限公司 语句热点提取方法及***
CN111061831A (zh) * 2019-10-29 2020-04-24 深圳绿米联创科技有限公司 机器客服向人工客服切换方法、装置及电子设备
CN111143530A (zh) * 2019-12-24 2020-05-12 平安健康保险股份有限公司 一种智能答复方法及装置
CN112100617A (zh) * 2020-09-15 2020-12-18 全球能源互联网研究院有限公司 一种异常sql检测方法及装置
CN112650829A (zh) * 2019-10-11 2021-04-13 阿里巴巴集团控股有限公司 一种客服处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法
CN110852095A (zh) * 2018-08-02 2020-02-28 ***股份有限公司 语句热点提取方法及***
CN112650829A (zh) * 2019-10-11 2021-04-13 阿里巴巴集团控股有限公司 一种客服处理方法及装置
CN111061831A (zh) * 2019-10-29 2020-04-24 深圳绿米联创科技有限公司 机器客服向人工客服切换方法、装置及电子设备
CN111143530A (zh) * 2019-12-24 2020-05-12 平安健康保险股份有限公司 一种智能答复方法及装置
CN112100617A (zh) * 2020-09-15 2020-12-18 全球能源互联网研究院有限公司 一种异常sql检测方法及装置

Also Published As

Publication number Publication date
CN115017291B (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
WO2021004333A1 (zh) 基于知识图谱的事件处理方法、装置、设备和存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
US11704500B2 (en) Techniques to add smart device information to machine learning for increased context
US20200012650A1 (en) Method and apparatus for determining response for user input data, and medium
CN113239176B (zh) 语义匹配模型训练方法、装置、设备及存储介质
CN110858226A (zh) 对话管理方法和装置
US20220114644A1 (en) Recommendation system with sparse feature encoding
CN113343091A (zh) 面向产业和企业的科技服务推荐计算方法、介质及程序
CN114841161A (zh) 事件要素抽取方法、装置、设备、存储介质和程序产品
Wang et al. Application of an emotional classification model in e-commerce text based on an improved transformer model
CN112069404A (zh) 一种商品信息的展示方法、装置、设备和存储介质
CN112749557A (zh) 文本处理模型的构建方法和文本处理方法
CN115017291B (zh) 热点问题分析方法、装置、计算机设备和存储介质
JP7213890B2 (ja) 高速化された大規模な類似度計算
Vielma et al. Sentiment analysis with novel GRU based deep learning networks
CN116401522A (zh) 一种金融服务动态化推荐方法和装置
CN111858899B (zh) 语句处理方法、装置、***和介质
CN114429384A (zh) 基于电商平台的产品智能推荐方法及***
CN114490996B (zh) 意图识别方法、装置、计算机设备和存储介质
CN116860972A (zh) 交互信息分类方法、装置、设备、存储介质和程序产品
CN115374273A (zh) 会话文本分析方法、装置、计算机设备和存储介质
CN117436501A (zh) 产品推荐模型的训练方法、装置、计算机设备和存储介质
CN117010334A (zh) 文本信息生成方法、装置、计算机设备和存储介质
CN114637926A (zh) 内容推荐方法、装置、电子设备及存储介质
CN117440041A (zh) 静默服务信息推送方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant