CN111221954A - 一种构建家电维修问答库的方法、装置、存储介质及终端 - Google Patents
一种构建家电维修问答库的方法、装置、存储介质及终端 Download PDFInfo
- Publication number
- CN111221954A CN111221954A CN202010021314.5A CN202010021314A CN111221954A CN 111221954 A CN111221954 A CN 111221954A CN 202010021314 A CN202010021314 A CN 202010021314A CN 111221954 A CN111221954 A CN 111221954A
- Authority
- CN
- China
- Prior art keywords
- maintenance
- question
- similarity
- answer
- questions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 357
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012545 processing Methods 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 description 13
- 238000004378 air conditioning Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000005057 refrigeration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及电子信息技术领域,具体涉及一种构建家电维修问答库的方法、装置、存储介质及终端,方法包括:获取维修问答数据集;基于语义相似度、句长相似度、字数相似度,对维修问答数据集中的维修问题进行聚类,得到问题组;从维修问答数据集中获取与每个问题组中维修问题对应的维修答案,并从获取到的维修答案中选取其中一个维修答案作为该问题组对应的最优答案;构建家电维修问答库,并将每个问题组和与该问题组对应的最优答案存储至该家电维修问答库,解决了现有技术中在构建问答知识库时难度大以及强度高的问题。
Description
技术领域
本公开涉及电子信息技术领域,特别地涉及一种构建家电维修问答库的方法、装置、存储介质及终端。
背景技术
问答知识库是一种问答知识库可以帮助用户在线解决80%的一般问题以及常见问题,不仅方便了用户,节省用户的时间,也大大减轻了工作人员的压力。
目前常见的做法是将积累的常见问题解答、或者其他相关的文档整理成常见问题解答,运用传统的文本匹配模型添加到问答知识库中,传统的文本匹配模型需要基于大量的人工标注和整理,即人工对多种问题以及对应的答案进行归类整理,如空调制冷问题类、空调噪音问题类、空调清洁问题类、空调零部件问题类、空调保养问题类、空调安装问题类等。当问答越来越多时,会给后期维护人员带来较大的压力,进而增加维护人员的劳动强度。
因此,如何降低构建问答知识库的难度和强度是亟待解决的问题。
发明内容
针对上述问题,本公开提供一种构建家电维修问答库的方法、装置、存储介质及终端,解决了现有技术中在构建问答知识库时难度大以及强度高的问题。
第一方面,本公开提供了一种构建家电维修问答库的方法,所述方法包括:
获取维修问答数据集,其中,所述维修问答数据集中包括至少两个维修问题和与每个维修问题对应的维修答案;
基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组;
从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中选取其中一个维修答案作为该问题组对应的最优答案;
构建家电维修问答库,并将每个所述问题组和与该问题组对应的最优答案存储至该家电维修问答库。
根据本公开的实施例,可选的,上述方法中,在所述基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组的步骤之前,所述方法还包括:
对所述维修问答数据集中包括的至少两个维修问题进行预处理,以更新所述维修问答数据集中包括的至少两个维修问题。
根据本公开的实施例,可选的,上述方法中,在基于语义相似度、句长相似度、字数相似度中的任意一种相似度对所述维修问答数据集中的至少两个维修问题进行聚类时,所述基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组的步骤包括:
采用TF-IDF算法提取所述维修问答数据集中更新后的每两个维修问题的关键词;
基于所述每两个维修问题的关键词,采用预设相似度算法计算该两个维修问题之间的语义相似度、句长相似度、字数相似度中的任意一种相似度值,得到该两个维修问题之间的独立相似度值;
在所述独立相似度值大于第一预设阈值时,将该独立相似度值对应的两个维修问题划为至同一个问题组。
根据本公开的实施例,可选的,上述方法中,在基于语义相似度、句长相似度、字数相似度中的至少两种相似度对所述维修问答数据集中的至少两个维修问题进行聚类时,所述基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组的步骤包括:
采用TF-IDF算法提取所述维修问答数据集中更新后的每两个维修问题的关键词;
基于所述每两个维修问题的关键词,采用预设相似度算法计算该两个维修问题之间的语义相似度、句长相似度、字数相似度中的至少两种相似度值,将所述至少两种相似度值进行加权求和,得到该两个维修问题之间的综合相似度值;
在所述综合相似度值大于第一预设阈值时,将该综合相似度值对应的两个维修问题划为至同一个问题组。
根据本公开的实施例,可选的,上述方法中,所述从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中选取其中一个维修答案作为该问题组对应的最优答案的步骤包括:
从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,从获取到的维修答案中任意选取一个维修答案,并对选取到的维修答案进行预处理,以得到该问题组对应的最优答案。
根据本公开的实施例,可选的,上述方法中,所述预处理包括:
分词处理,将待处理对象进行分词处理,得到多个词组;
筛选处理,根据获取到的预设售后关键词和句法分析算法,保留多个所述词组中词性为主语、谓语、宾语或状语以及多个所述词组中包括预设售后关键词的词组;
去停用词处理,根据获取到的停用词表,判断在经过筛选处理得到的每个词组是否为所述停用词表中的预设词组,将为所述停用词表中的预设词组的词组作为停用词组,并将该停用词组去除;
其中,所述待处理对象包括所述维修问答数据集中包括的至少两个维修问题和选取到的维修答案。
根据本公开的实施例,可选的,上述方法中,所述方法还包括:
获取待解答问题;
在确定所述家电维修问答库中包括的问题组中不存在与所述待解答问题的语义相似度大于第二预设阈值的维修问题时,获取输入的与所述待解答问题对应的答案;
将所述待解答问题以及与所述待解答问题对应的答案添加至所述维修问答数据集中,以更新维修问答数据集。
第二方面,本公开提供一种构建空调维修问答库的装置,所述装置包括:
获取模块,用于获取维修问答数据集,其中,所述维修问答数据集中包括至少两个维修问题和与每个维修问题对应的维修答案;
聚类模块,用于基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组;
确定模块,用于从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中选取其中一个维修答案作为该问题组对应的最优答案;
构建模块,用于构建家电维修问答库,并将每个所述问题组和与该问题组对应的最优答案存储至该家电维修问答库。
第三方面,本公开提供了一种存储介质,该存储介质存储有计算机程序,当该计算机程序被一个或多个处理器执行,实现上述的方法。
第四方面,本公开提供了一种终端,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,实现上述的方法。
与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
本公开提供的一种构建家电维修问答库的方法、装置、存储介质及终端,所述方法包括:获取维修问答数据集;基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组;从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中确定该问题组对应的最优答案;构建家电维修问答库,并将每个所述问题组和与该问题组对应的最优答案存储至该家电维修问答库,解决了现有技术中在构建问答知识库时难度大以及强度高的问题。
附图说明
在下文中将基于实施例并参考附图来对本公开进行更详细的描述。
图1为本公开实施例一提供的一种构建家电维修问答库的方法的流程示意图。
图2为本公开实施例一中步骤S120的流程示意图。
图3为本公开实施例一中步骤S120的另一流程示意图。
图4为本公开实施例一提供的一种构建家电维修问答库的方法的另一流程示意图。
图5为本公开实施例二提供的一种构建空调维修问答库的装置的连接框图。
在附图中,相同的部件使用相同的附图标记,附图并未按照实际的比例绘制。
具体实施方式
以下将结合附图及实施例来详细说明本公开的实施方式,借此对本公开如何应用技术手段来解决技术问题,并达到相应技术效果的实现过程能充分理解并据以实施。本公开实施例以及实施例中的各个特征,在不相冲突前提下可以相互结合,所形成的技术方案均在本公开的保护范围之内。
实施例一
请参阅图1,本公开提供一种可应用于手机、电脑或平板电脑等终端的构建家电维修问答库的方法,所述方法应用于所述终端时执行步骤S110-S140。
步骤S110:获取维修问答数据集,其中,所述维修问答数据集中包括至少两个维修问题和与每个维修问题对应的维修答案。
步骤S120:基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组。
步骤S130:从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中选取其中一个维修答案作为该问题组对应的最优答案。
步骤S140:构建家电维修问答库,并将每个所述问题组和与该问题组对应的最优答案存储至该家电维修问答库。
在本实施例中,无需人工对维修问答数据集包括的至少两个维修问题和与每个维修问题对应的维修答案进行标注以及整理,只需导入获取的维修问答数据集,降低了人工建立问答库的劳动强度,且基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对维修问答数据集中的至少两个维修问题进行相似度分析,以将相同含义的维修问题的归为同一问题组,即每个问题组包含相同含义的问题,以此构建以组形式的家电维修问答库,降低了人工建立问答库的难度。
其中,本公开提供的方法可以构建空调、冰箱等家电用器的维修问答库,对此,本公开并不做任何限定。
在步骤S110中,获取的维修问答数据集包括至少两个维修问题和与每个维修问题对应的维修答案,至少两个维修问题和与每个维修问题对应的维修答案可以由人工从现有文档中进行收集,也可以由人工自行进行编撰。
在步骤S120中,从多种不同的相似度维度考虑,对维修问答数据集中的至少两个维修问题进行相似度分析,在对两个维修问题计算得到的相似度值大于第一预设阈值时,确定该两个问题的相似性较高,即该两个维修问题的含义相同。同样的,由于两个维修问题的含义相同,则该两个维修问题分别对应的维修答案的含义也相同。
可以理解的是,可以基于语义相似度、句长相似度、字数相似度中的任意一种相似度对所述维修问答数据集中的至少两个维修问题进行聚类,也可以基于语义相似度、句长相似度、字数相似度中的至少两种相似度对所述维修问答数据集中的至少两个维修问题进行聚类。
请参阅图2,在基于语义相似度、句长相似度、字数相似度中的任意一种相似度对所述维修问答数据集中的至少两个维修问题进行聚类,上述步骤S120包括步骤S1211-S1213。
步骤S1211:采用TF-IDF算法提取所述维修问答数据集中更新后的每两个维修问题的关键词。
在本实施例中,TF-IDF算法是一种关键词算法,根据文档中各个词的词频和逆文档频率计算得到TF-IDF值。其中,TF-IDF值与一个词在文档中的出现次数成正比,与该词在整个语言库中的出现次数成反比,且该值越大,其表明对文档的重要性越高,即TF-IDF值高的对应的词就是关键词。
其中,词频为某词在文档中的次数,逆文档频率的计算规则为:
逆文档频率=log(语料库的文档总数/(包含该词的文档数+1)),log为对数符号,即一种数学运算表达符号;
示例性的,某一维修问题包括100个词,其中,“空调”出现的次数10次,“维修”出现的次数是10次,该两个词的词频是0.1,0.1。通过百度检索包括“的”字的总的网页(语料库)为200亿,其中,包括“空调”的网页为1亿,包括“维修”的网页为0.4亿,则“空调”、“维修”的TF-IDF值分别2.30,2.70,维修”的TF-IDF值大于“空调”的TF-IDF值,则“维修”即可作为该维修问题的关键词。
步骤S1212:基于所述每两个维修问题的关键词,采用预设相似度算法计算该两个维修问题之间的语义相似度、句长相似度、字数相似度中的任意一种相似度值,得到该两个维修问题之间的独立相似度值。
在本实施例中,选取包括语义相似度、句长相似度、字数相似度中的其中一个相似度,并基于该选取的相似度,根据每两个维修问题的关键词计算该两个维修问题对应的相似度值。其中,预设相似度算法可以为余弦相似度算法,在此不做任何限定。
示例性的,以计算语义相似度为例,以取出的每两个维修问题中3个关键词为例,将每个维修问题对应的关键词合并为一个集合,并计算每个集合中每个关键词的词频,并生成该集合对应的词频向量,利用余弦相似度算法,计算两个维修问题对应的词频向量的余弦相似度值,并作为该两个维修问题之间的独立相似度值。其中,余弦相似度值越大就表示两个维修问题越相似。
再以计算句长相似度为例,计算两个维修问题的向量长度,利用余弦相似度算法计算该两个维修问题所对应的两个句长向量的相似度值,并作为该两个维修问题之间的独立相似度值。其中,维修问题中包括的词的个数为该维修问题的向量长度。
再以计算字数相似度为例,统计两个维修问题中包括的字数,以包括的字数作为该维修问题的字数向量,利用余弦相似度算法计算该两个维修问题所对应的两个字数向量的相似度值,并作为该两个维修问题之间的独立相似度值。
步骤S1213:在所述独立相似度值大于第一预设阈值时,将该独立相似度值对应的两个维修问题划为至同一个问题组。
在本实施例中,第一预设阈值可以是用户设定的值。判断步骤S1213中计算得到的独立相似度值是否大于第一预设阈值,在独立相似度值大于第一预设阈值时,将该独立相似度值对应的两个维修问题划为至同一个问题组。
进一步可以理解的是,为提高聚类的准确性,可以对基于语义相似度、句长相似度、字数相似度中的至少两种相似度对所述维修问答数据集中的至少两个维修问题进行聚类。请参阅图3,在基于语义相似度、句长相似度、字数相似度中的至少两种相似度对所述维修问答数据集中的至少两个维修问题进行聚类,上述步骤S120包括步骤S1221-S1223。
步骤S1221:采用TF-IDF算法提取所述维修问答数据集中更新后的每两个维修问题的关键词。
步骤S1221的实施过程与步骤S1211的实施过程类似,关于步骤S1221的实施过程可参照上述步骤S1211的实施过程,在此不做赘述。
步骤S1222:基于所述每两个维修问题的关键词,采用预设相似度算法计算该两个维修问题之间的语义相似度、句长相似度、字数相似度中的至少两种相似度值,将所述至少两种相似度值进行加权求和,得到该两个维修问题之间的综合相似度值。
在本实施例中,关于分别基于语义相似度、句长相似度、字数相似度计算对应相似度值的实施过程可以参照上述步骤S1212中关于语义相似度、句长相似度、字数相似度的计算实施过程,在此不做赘述。
在得到计算至少两种相似度值时,对至少两种相似度值进行加权求和,得到综合相似度值。示例性的,以计算语义相似度、句长相似度为例,在分别计算得到的语义相似度值、句长相似度值后,将语义相似度值、句长相似度值进行加权求和计算,得到综合相似度值。
步骤S1223:在所述综合相似度值大于第一预设阈值时,将该综合相似度值对应的两个维修问题划为至同一个问题组。
在本实施例中,判断综合相似度值是否大于第一预设阈值,在综合相似度值大于第一预设阈值时,将该独立相似度值对应的两个维修问题划为至同一个问题组。
在本实施例中,为提高聚类的准确性,通过考虑两种或两种以上不同维度的相似度值,并对不同维度的相似度值进行加权求和的计算,以得到一种综合相似度值,进而根据该综合相似度值与第一预设阈值的关系,判断综合相似度值对应的两个维修问题是否为同一种含义的问题,若是,则将该两个维修问题划分至同一问题组,以提高准确率。
进一步考虑聚类的准确性,在所述基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组的步骤之前,可以对所述维修问答数据集中包括的至少两个维修问题进行预处理,以更新所述维修问答数据集中包括的至少两个维修问题。
其中,所述预处理包括分词处理、筛选处理、去停用词处理。其中,具体的处理过程可以是:
分词处理,将所述维修问答数据集中包括的每个维修问题进行分词处理,得到多个词组;
筛选处理,根据获取到的预设售后关键词和句法分析算法,保留多个所述词组中词性为主语、谓语、宾语或状语以及多个所述词组中包括预设售后关键词的词组;
去停用词处理,根据获取到的停用词表,判断在经过筛选处理得到的每个词组是否为所述停用词表中的预设词组,将为所述停用词表中的预设词组的词组作为停用词组,并将该停用词组去除。
其中,分词处理为本领域技术人员所熟知的技术;句法分析算法是句法分析的基本任务是确定句子的语法结构或句子中词汇之间的依存关系,且句法分析算法为现有技术,在此不做赘述;停用词表可以由用户设定,可以从云数据库中获取。
以维修问题为“你好,我之前10年的时候买了一台空条,现在出了问题,现在还可以报维修吗?”,预设售后关键词包括维修或空调,预设停用词组包括“的”、“你好”为例,对上述预处理包括的处理进行解释说明。具体的,经过分词处理得到的多个词组为:[你好,我,之前,10年,的,时候,买了,一台,空条,现在,出了问题,现在,还可以,报,维修,吗],经过筛选处理后得到的词组是:[我,之前,10年,的,时候,买了,一台,空条,现在,出了问题,现在,还可以,报,维修,吗],将经过筛选处理后得到的词组进行去停用词处理,得到的词组是:[我,之前,10年,时候,买了,空条,现在,出了问题,现在,还可以,报,维修],最后,得到的维修问题为“我之前10年时候买了空条现在出了问题现在还可以报维修吗”。
其中,有可能获取的维修问答数据集中的维修问题可能出现错别字,因此,可以利用在线拼音词典,对分到的每个词组进行错别字判断,以修改维修问题可能出现错别字。示例性的,维修问题为“我之前10年时候买了空条”,分词后的多个词组:[我,之前,10年,时候,买了,空条],将每个词组进行拼音搜索,并将每个词组与匹配搜索到的词语进行匹配,若存在错误,则将搜索到的词语替换该词组。在线拼音词典中并不存在“空条”,而存在“空调”,将“空调”替换词组“空条”,进而得到修正后的多个词组:[我,之前,10年,时候,买了,空调]。
利用在线拼音词典,对分到的每个词组进行错别字判断,以修改维修问题可能出现错别字,进而更新维修问题,以提高后续利用维修问题进行相似度分析的准确率。
可以理解的是,在对至少两个维修问题进行聚类后,为减少构建的家电维修问答库的数据量,可以对同一组的多个维修问题确定同一个维修答案,并将每个问题组和与该问题组对应的唯一维修答案存储至家电维修问答库。因此,上述步骤S130可以包括:从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,从获取到的维修答案中任意选取一个维修答案,并对选取到的维修答案进行预处理,以得到该问题组对应的最优答案。
在本实施例中,考虑到在同一个问题中的每个维修问题对应的维修答案的含义是相同的,因此,为减小家电维修问答库的数据量,可以从维修问答数据集中获取每个问题组对应的多个维修答案,并从该多个维修答案中任意选取一个维修答案作为该问题组对应的统一维修答案,且进一步的可以对该维修答案进行预处理,进而该问题组对应的最优答案。其中,对维修答案的预处理过程可以参照对维修问题的预处理实施过程,在此不做赘述。
请参阅图4,本实施例还提供一种可应用于手机、电脑或平板电脑等终端的构建家电维修问答库的方法,除上述步骤S110-S140以外,所述方法还包括步骤S150-S170。
步骤S150:获取待解答问题;
步骤S160:在确定所述家电维修问答库中包括的问题组中不存在与所述待解答问题的语义相似度大于第二预设阈值的维修问题时,获取输入的与所述待解答问题对应的答案;
步骤S170:将所述待解答问题以及与所述待解答问题对应的答案添加至所述维修问答数据集中,以更新维修问答数据集。
在本实施例中,可以利用构建的家电维修问答库进行问答。用户通过搜索引擎输入问题,计算该问题和获取到的家电维修问答库中的每个问题组包括的维修问题进行语义相似度计算,根据得到语义相似度值判断家电维修问答库中是否存在与用户输入的问题含义相同的维修问题。在计算得到的语义相似度值大于第二预设阈值时,表示家电维修问答库中存在与用户输入的问题含义相同的维修问题,则将该含义相同的维修问题对应的维修答案反馈至客户;在计算得到的语义相似度值小于第二预设阈值时,表示家电维修问答库中并不存在与用户输入的问题含义相同的维修问题,则进行人工输入回答后,将该回答反馈至客户。
获取用户输入的问题和人工输入回答,组成维修问答数据,并加入至维修问答数据集中,更新维修问答数据集,并重新对更新后的维修问答数据集进行聚类,进而更新构建的家电维修问答库。
为了减少计算量,可以将新加入的问题与其他维修问答数据集中的维修问题进行相似度计算,以对新加入的问题进行分类,并不需要再除新加入的问题以外的其他维修问题之间的相似度。
除此之外,为减少数据操作,可以判断将所述待解答问题以及所述待解答问题对应的答案添加至所述维修问答数据集的添加次数是否达到预设次数;在所述添加次数达到预设次数时,再对更新后的维修问答数据集进行聚类,进而更新构建的家电维修问答库。其中,预设次数可以由用户设定。
实施例二
请参阅图5,本实施例还提供一种构建空调维修问答库的装置,所述装置包括处理器,该处理器用于执行存储在存储器中的以下程序模块:获取模块201,用于获取维修问答数据集,其中,所述维修问答数据集中包括至少两个维修问题和与每个维修问题对应的维修答案;聚类模块202,用于基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组;确定模块203,用于从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中选取其中一个维修答案作为该问题组对应的最优答案;构建模块204,用于构建家电维修问答库,并将每个所述问题组和与该问题组对应的最优答案存储至该家电维修问答库。
其中,所述获取模块201的实施原理与上述实施例一中步骤S110的实施原理类似,关于获取模块201的实施原理,可以参照上述实施例一,在此不做赘述。所述聚类模块202的实施原理与上述实施例一中步骤S120的实施原理类似,关于聚类模块202的实施原理,可以参照上述实施例一,在此不做赘述。所述确定模块203的实施原理与上述实施例一中步骤S130的实施原理类似,关于确定模块203的实施原理,可以参照上述实施例一,在此不做赘述。所述构建模块204的实施原理与上述实施例一中步骤S140的实施原理类似,关于构建模块204的实施原理,可以参照上述实施例一,在此不做赘述。
实施例三
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,所述计算机程序被处理器执行时可以实现如实施例一中的全部或部分方法步骤。在执行上述全部和部分方法步骤的具体实施例过程可参见实施例一,本实施例在此不再重复赘述。
实施例四
本公开实施例提供了一种终端,该终端可以是手机、电脑或平板电脑等,包括存储器和处理器,所述存储器上存储有计算器程序,该计算机程序被处理器执行时实现如实施例一中所述的方法。可以理解,终端还可以包括,多媒体组件,输入/输出(I/O)接口,以及通信组件。
其中,处理器用于执行如实施例一中的方法中的全部或部分步骤。存储器用于存储各种类型的数据,这些数据例如可以包括终端中的任何应用程序或方法的指令,以及应用程序相关的数据。
所述处理器可以是专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable LogicDevice,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例一中的方法。
所述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
多媒体组件可以包括屏幕,所述屏幕可以是触摸屏。
I/O接口为处理器和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。
通信组件用于该终端与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
综上,本公开提供的一种构建家电维修问答库的方法、装置、存储介质及终端,所述方法包括:获取维修问答数据集;基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组;从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中确定该问题组对应的最优答案;构建家电维修问答库,并将每个所述问题组和与该问题组对应的最优答案存储至该家电维修问答库。无需人工对维修问答数据集进行标注以及整理,降低了人工建立问答库的劳动强度;且基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对维修问答数据集中的至少两个维修问题进行聚类,以实现将相同含义的维修问题的归为一类,以此构建以组形式的家电维修问答库,降低了人工建立问答库的难度;对所述维修问答数据集中包括的至少两个维修问题进行预处理,可以提高聚类的准确性;为减小计算量,可以从维修问答数据集中获取与每个问题组获取到的维修答案中任意选取一个维修答案作为该问题组对应的统一维修答案;获取用户输入的问题和人工输入回答,组成维修问答数据,并加入至维修问答数据集中,以重新对更新后的维修问答数据集进行聚类,进而更新构建的家电维修问答库,以使家电维修问答库能够满足用户对更多问题的需求。
在本公开实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的***和方法实施例仅仅是示意性的。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然本公开所揭露的实施方式如上,但所述的内容只是为了便于理解本公开而采用的实施方式,并非用以限定本公开。任何本公开所属技术领域内的技术人员,在不脱离本公开所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本公开的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (10)
1.一种构建家电维修问答库的方法,其特征在于,所述方法包括:
获取维修问答数据集,其中,所述维修问答数据集中包括至少两个维修问题和与每个维修问题对应的维修答案;
基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组;
从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中选取其中一个维修答案作为该问题组对应的最优答案;
构建家电维修问答库,并将每个所述问题组和与该问题组对应的最优答案存储至该家电维修问答库。
2.如权利要求1所述的方法,其特征在于,在所述基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组的步骤之前,所述方法还包括:
对所述维修问答数据集中包括的至少两个维修问题进行预处理,以更新所述维修问答数据集中包括的至少两个维修问题。
3.如权利要求2所述的方法,其特征在于,在基于语义相似度、句长相似度、字数相似度中的任意一种相似度对所述维修问答数据集中的至少两个维修问题进行聚类时,所述基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组的步骤包括:
采用TF-IDF算法提取所述维修问答数据集中更新后的每两个维修问题的关键词;
基于所述每两个维修问题的关键词,采用预设相似度算法计算该两个维修问题之间的语义相似度、句长相似度、字数相似度中的任意一种相似度值,得到该两个维修问题之间的独立相似度值;
在所述独立相似度值大于第一预设阈值时,将该独立相似度值对应的两个维修问题划为至同一个问题组。
4.如权利要求2所述的方法,其特征在于,在基于语义相似度、句长相似度、字数相似度中的至少两种相似度对所述维修问答数据集中的至少两个维修问题进行聚类时,所述基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组的步骤包括:
采用TF-IDF算法提取所述维修问答数据集中更新后的每两个维修问题的关键词;
基于所述每两个维修问题的关键词,采用预设相似度算法计算该两个维修问题之间的语义相似度、句长相似度、字数相似度中的至少两种相似度值,将所述至少两种相似度值进行加权求和,得到该两个维修问题之间的综合相似度值;
在所述综合相似度值大于第一预设阈值时,将该综合相似度值对应的两个维修问题划为至同一个问题组。
5.如权利要求2所述的方法,其特征在于,所述从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中选取其中一个维修答案作为该问题组对应的最优答案的步骤包括:
从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,从获取到的维修答案中任意选取一个维修答案,并对选取到的维修答案进行预处理,以得到该问题组对应的最优答案。
6.如权利要求5所述的方法,其特征在于,所述预处理包括:
分词处理,将待处理对象进行分词处理,得到多个词组;
筛选处理,根据获取到的预设售后关键词和句法分析算法,保留多个所述词组中词性为主语、谓语、宾语或状语以及多个所述词组中包括预设售后关键词的词组;
去停用词处理,根据获取到的停用词表,判断在经过筛选处理得到的每个词组是否为所述停用词表中的预设词组,将为所述停用词表中的预设词组的词组作为停用词组,并将该停用词组去除;
其中,所述待处理对象包括所述维修问答数据集中包括的至少两个维修问题和选取到的维修答案。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取待解答问题;
在确定所述家电维修问答库中包括的问题组中不存在与所述待解答问题的语义相似度大于第二预设阈值的维修问题时,获取输入的与所述待解答问题对应的答案;
将所述待解答问题以及与所述待解答问题对应的答案添加至所述维修问答数据集中,以更新维修问答数据集。
8.一种构建空调维修问答库的装置,其特征在于,所述装置包括:
获取模块,用于获取维修问答数据集,其中,所述维修问答数据集中包括至少两个维修问题和与每个维修问题对应的维修答案;
聚类模块,用于基于语义相似度、句长相似度、字数相似度中的至少一种相似度,对所述维修问答数据集中的至少两个维修问题进行聚类,以得到至少一个问题组;
确定模块,用于从所述维修问答数据集中获取与每个问题组中的每个维修问题分别对应的维修答案,并从获取到的维修答案中选取其中一个维修答案作为该问题组对应的最优答案;
构建模块,用于构建家电维修问答库,并将每个所述问题组和与该问题组对应的最优答案存储至该家电维修问答库。
9.一种存储介质,其特征在于,该存储介质存储有计算机程序,当该计算机程序被一个或多个处理器执行,实现如权利要求1-7中任意一项所述的方法。
10.一种终端,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,实现如权利要求1-7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010021314.5A CN111221954A (zh) | 2020-01-09 | 2020-01-09 | 一种构建家电维修问答库的方法、装置、存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010021314.5A CN111221954A (zh) | 2020-01-09 | 2020-01-09 | 一种构建家电维修问答库的方法、装置、存储介质及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111221954A true CN111221954A (zh) | 2020-06-02 |
Family
ID=70831043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010021314.5A Pending CN111221954A (zh) | 2020-01-09 | 2020-01-09 | 一种构建家电维修问答库的方法、装置、存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111221954A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100382A (zh) * | 2020-09-30 | 2020-12-18 | 珠海碳云智能科技有限公司 | 聚类方法及装置、计算机可读存储介质、处理器 |
CN112163083A (zh) * | 2020-10-20 | 2021-01-01 | 珠海格力电器股份有限公司 | 智能问答方法、装置、电子设备和存储介质 |
CN115017284A (zh) * | 2022-06-01 | 2022-09-06 | 阿里巴巴(中国)有限公司 | 问答库构建方法、评分方法、电子设备和存储介质 |
CN115334362A (zh) * | 2022-07-16 | 2022-11-11 | 珠海格力电器股份有限公司 | 弹幕问题的处理方法、装置、存储介质、服务设备及*** |
WO2023045752A1 (zh) * | 2021-09-26 | 2023-03-30 | 北京京东拓先科技有限公司 | 知识库构建、生成应答语句的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810218A (zh) * | 2012-11-14 | 2014-05-21 | 北京百度网讯科技有限公司 | 一种基于问题簇的自动问答方法和装置 |
US20160203208A1 (en) * | 2015-01-12 | 2016-07-14 | International Business Machines Corporation | Enhanced Knowledge Delivery and Attainment Using a Question Answering System |
CN108629019A (zh) * | 2018-05-08 | 2018-10-09 | 桂林电子科技大学 | 一种面向问答领域含有人名的问句相似度计算方法 |
-
2020
- 2020-01-09 CN CN202010021314.5A patent/CN111221954A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810218A (zh) * | 2012-11-14 | 2014-05-21 | 北京百度网讯科技有限公司 | 一种基于问题簇的自动问答方法和装置 |
US20160203208A1 (en) * | 2015-01-12 | 2016-07-14 | International Business Machines Corporation | Enhanced Knowledge Delivery and Attainment Using a Question Answering System |
CN108629019A (zh) * | 2018-05-08 | 2018-10-09 | 桂林电子科技大学 | 一种面向问答领域含有人名的问句相似度计算方法 |
Non-Patent Citations (1)
Title |
---|
方德坚;: "主观题自动评分算法模型研究" * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100382A (zh) * | 2020-09-30 | 2020-12-18 | 珠海碳云智能科技有限公司 | 聚类方法及装置、计算机可读存储介质、处理器 |
CN112100382B (zh) * | 2020-09-30 | 2024-05-10 | 珠海碳云智能科技有限公司 | 聚类方法及装置、计算机可读存储介质、处理器 |
CN112163083A (zh) * | 2020-10-20 | 2021-01-01 | 珠海格力电器股份有限公司 | 智能问答方法、装置、电子设备和存储介质 |
CN112163083B (zh) * | 2020-10-20 | 2023-11-03 | 珠海格力电器股份有限公司 | 智能问答方法、装置、电子设备和存储介质 |
WO2023045752A1 (zh) * | 2021-09-26 | 2023-03-30 | 北京京东拓先科技有限公司 | 知识库构建、生成应答语句的方法和装置 |
CN115017284A (zh) * | 2022-06-01 | 2022-09-06 | 阿里巴巴(中国)有限公司 | 问答库构建方法、评分方法、电子设备和存储介质 |
CN115334362A (zh) * | 2022-07-16 | 2022-11-11 | 珠海格力电器股份有限公司 | 弹幕问题的处理方法、装置、存储介质、服务设备及*** |
CN115334362B (zh) * | 2022-07-16 | 2023-09-26 | 珠海格力电器股份有限公司 | 弹幕问题的处理方法、装置、存储介质、服务设备及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111221954A (zh) | 一种构建家电维修问答库的方法、装置、存储介质及终端 | |
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
JP7343568B2 (ja) | 機械学習のためのハイパーパラメータの識別および適用 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
KR101508260B1 (ko) | 문서 특징을 반영하는 요약문 생성 장치 및 방법 | |
CN104834651B (zh) | 一种提供高频问题回答的方法和装置 | |
CN113255370B (zh) | 基于语义相似度的行业类型推荐方法、装置、设备及介质 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN112100396B (zh) | 一种数据处理方法和装置 | |
CN112328909B (zh) | 信息推荐方法、装置、计算机设备及介质 | |
CN108269122B (zh) | 广告的相似度处理方法和装置 | |
CN110795568A (zh) | 基于用户信息知识图谱的风险评估方法、装置和电子设备 | |
CN110457672A (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
CN109410001B (zh) | 一种商品推荐方法、***、电子设备和存储介质 | |
CN111414375A (zh) | 基于数据库查询的输入推荐方法、电子装置及存储介质 | |
CN111045916B (zh) | 自动化软件缺陷验证 | |
CN110866102A (zh) | 检索处理方法 | |
Yonai et al. | Mercem: Method name recommendation based on call graph embedding | |
CN112506864A (zh) | 文件检索的方法、装置、电子设备及可读存储介质 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN112860850B (zh) | 人机交互方法、装置、设备及存储介质 | |
CN117972067A (zh) | 问答模型检索优化方法、装置、计算机设备及存储介质 | |
CN113821588A (zh) | 文本处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |