CN108170780A - 一种自助问答的问题匹配方法及装置 - Google Patents
一种自助问答的问题匹配方法及装置 Download PDFInfo
- Publication number
- CN108170780A CN108170780A CN201711433681.0A CN201711433681A CN108170780A CN 108170780 A CN108170780 A CN 108170780A CN 201711433681 A CN201711433681 A CN 201711433681A CN 108170780 A CN108170780 A CN 108170780A
- Authority
- CN
- China
- Prior art keywords
- face
- topic face
- default
- synonym
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种自助问答的问题匹配方法和装置,所述方法包括:获取咨询问题,确定该咨询问题与自助问答题库中预设题面的同义词并集,一个预设题面的同义词并集包括该咨询问题与该预设题面中语义相同的词;根据该预设题面的同义词并集对该预设题面的第一语义影响程度,从自助问答库中获得题面集合,该题面集合包括至少一个第一语义影响程度大于第一阈值的预设题面;根据该预设题面的同义词并集对该咨询问题的第二语义影响程度,从该题面集合中获得目标题面,该目标题面包括至少一个第二语义影响程度大于第二阈值的预设题面。从而使得所述目标题面与该咨询问题的语义匹配度变高,进一步地,使得输出的自助答***率变高。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种自助问答的问题匹配方法及装置。
背景技术
目前,为了提高服务质量,快速解决用户提出的常见问题,大部分服务商都在网站上提供了自助问答服务。根据用户提出的常见问题,预先设置多个预设题面,并根据实际情况,设置每个预设题面对应的自助答案。创建一个自助问答库,存储该多个预设题面以及自助答案的对应关系。
网站给用户提供自助问答服务时,获取用户输入的咨询问题,分析咨询问题与预设题面的同义词并集,该同义词并集包括咨询问题与预设题面中表示同一语义的字词,根据该同义词并集对该预设题面的语义影响程度,确定咨询问题与预设题面的语义匹配度。可以理解的是,若同义词并集对该预设题面的语义影响程度高,则表示咨询问题与预设题面的语义匹配度高;若同义词并集对该预设题面的语义影响程度低,则表示咨询问题与预设题面的语义匹配度低。输出与咨询问题语义匹配度高的预设题面对应的自助答案,实现对用户输入的咨询问题的自助应答。
但是,由于自助应答库中,预设题面是从用户提出的常见问题中提炼总结得到的,组成该预设题面的词语数量较少,当用户输入的咨询问题中包含的词语很多时,该预设题面中大部分的词语都在该咨询问题中出现,即同义词并集对该预设题面的语义影响程度高,但是,该同义词并集对咨询问题的语义影响程度确很低。此时,采用上述问题匹配方法所得到的预设题面,与该咨询问题的语义匹配度实际上很低,导致输出的自助答案错误。
发明内容
本发明解决的技术问题在于提供一种自助问答的问题匹配方法及装置,从而能够为咨询问题匹配与咨询问题语义匹配度高的预设题面,从而输出准确率较高的自助答案。
为此,本发明解决技术问题的技术方案是:
一种自助问答的问题匹配方法,所述方法包括:
获取咨询问题;
确定所述咨询问题与自助问答库中预设题面的同义词并集,一个所述预设题面的所述同义词并集包括所述咨询问题与该预设题面中语义相同的字词;
根据所述预设题面的同义词并集对所述预设题面的第一语义影响程度,从所述自助问答库中获得题面集合,所述题面集合包括至少一个所述第一语义影响程度大于第一阈值的所述预设题面;
根据所述预设题面的同义词并集对所述咨询问题的第二语义影响程度,从所述题面集合中获得目标题面,所述目标题面包括至少一个所述第二语义影响程度大于第二阈值的所述预设题面。
可选的,确定所述预设题面的同义词并集对所述预设题面的第一语义影响程度包括:
统计所述预设题面的同义词并集中,每个字词对应的预设分值的和,作为第一值;
统计所述预设题面中,每个字词对应的预设分值的和,作为第二值;
确定所述第一值和所述第二值的比值作为所述第一语义影响程度。
可选的,确定所述预设题面的同义词并集对所述咨询问题的第二语义影响程度包括:
统计所述咨询问题中,每个字词对应的预设分值的和,作为第三值;
确定所述第一值和所述第三值的比值作为所述第二语义影响程度。
可选的,所述确定所述咨询问题与自助问答库中预设题面的同义词并集包括:
对所述咨询问题和所述自助问答库中的所述预设题面进行分词;
获取所述咨询问题和所述预设题面中语义相同的字词,作为所述预设题面的同义词并集。
可选的,所述方法还包括:
输出所述目标题面对应的自助答案,作为对所述咨询问题的自助应答。
一种自助问答的问题匹配装置,所述方法包括:
咨询问题获取单元,用于获取咨询问题;
同义词并集确定单元,用于确定所述咨询问题与自助问答库中预设题面的同义词并集,一个所述预设题面的所述同义词并集包括所述咨询问题与该预设题面中语义相同的字词;
题面集合获取单元,用于根据所述预设题面的同义词并集对所述预设题面的第一语义影响程度,从所述自助问答库中获得题面集合,所述题面集合包括至少一个所述第一语义影响程度大于第一阈值的所述预设题面;
目标题面获取单元,用于根据所述预设题面的同义词并集对所述咨询问题的第二语义影响程度,从所述题面集合中获得目标题面,所述目标题面包括至少一个所述第二语义影响程度大于第二阈值的所述预设题面。
可选的,所述题面集合获取单元包括:
第一值统计子单元,用于统计所述预设题面的同义词并集中,每个字词对应的预设分值的和,作为第一值;
第二值统计子单元,用于统计所述预设题面中,每个字词对应的预设分值的和,作为第二值;
第一语义影响程度确定子单元,用于确定所述第一值和所述第二值的比值作为所述第一语义影响程度。
可选的,所述目标题面获取单元,包括:
第三值统计子单元,用于统计所述咨询问题中,每个字词对应的预设分值的和,作为第三值;
第二语义影响程度确定子单元,用于确定所述第一值和所述第三值的比值作为所述第二语义影响程度。
可选的,所述同义词并集确定单元包括:
分词子单元,用于对所述咨询问题和所述自助问答库中的所述预设题面进行分词;
同义词并集获取子单元,用于获取所述咨询问题和所述预设题面中语义相同的字词,作为所述预设题面的同义词并集。
可选的,所述装置还包括:
自助答案输出单元,用于输出所述目标题面对应的自助答案,作为对所述咨询问题的自助应答。
通过上述技术方案可知,本发明有如下有益效果:
本发明提供的自助问答的问题匹配方法和装置,获取咨询问题,确定该咨询问题与自助问答题库中预设题面的同义词并集,一个预设题面的同义词并集包括该咨询问题与该预设题面中语义相同的词;根据该预设题面的同义词并集对该预设题面的第一语义影响程度,从自助问答库中获得题面集合,该题面集合包括至少一个第一语义影响程度大于第一阈值的预设题面;根据该预设题面的同义词并集对该咨询问题的第二语义影响程度,从该题面集合中获得目标题面,该目标题面包括至少一个第二语义影响程度大于第二阈值的预设题面。由此可知,不仅分析了同义词并集对该预设题面的语义影响程度,表征了从预设题面的角度看,咨询问题与预设题面的语义相关性;也分析了同义词并集对该咨询问题的语义影响程度,表征了从咨询问题的角度看,咨询问题与预设题面的语义相关性;从而,使得利用本发明提供的问题匹配方法所得到的目标题面,与该咨询问题的语义匹配度变高,进一步地,使得输出的自助答***率变高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的自助问答的问题匹配方法的流程图;
图2为本发明实施例提供的确定咨询问题与自助问答库中预设题面的同义词并集的方法流程图;
图3为本发明实施例提供的确定预设题面的同义词并集对预设题面的第一语义影响程度的方法流程图;
图4为本发明实施例提供的确定预设题面的同义词并集对咨询问题的第二语义影响程度的方法流程图;
图5为本发明实施例提供的自助问答的问题匹配方法的又一个流程图;
图6为本发明实施例提供的自助问答的问题匹配装置的示意图。
具体实施方式
为了给出得到与咨询问题的语义匹配度更高的预设题面的实现方案,本发明实施例提供了一种自助问答的问题匹配方法和装置,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
一方面,发明人在研究中发现,由于自助应答库中,预设题面是从用户提出的常见问题中提炼总结得到的,组成该预设题面的词语数量较少,当用户输入的咨询问题中包含的词语很多时,该预设题面中大部分的词语都在该咨询问题中出现,即同义词并集对该预设题面的语义影响程度高,但是,该同义词并集对咨询问题的语义影响程度确很低。例如,用户输入的咨询问题为:“我注册了用户然后在邦邦社区APP中怎么操作?”,自助应答库中有一个预设题面为“怎么注册用户”,由于该预设题面中的词语均出现在用户输入的咨询问题中,即该咨询问题与预设题面的同义词并集即为该预设提面,故而,现有的自助问答***会认为该同义词并集对该预设题面中的语义影响程度很高,故而将该预设题面与用户输入的咨询问题相匹配,并输出与该预设题面对应的自助答案。可是,由于同义词并集对预设题面的影响程度高只能说明同义词并集能表征预设题面的核心语义,而不能说明该同义词并集能够表征咨询问题的核心语义,因此,该预设题面与用户输入的咨询问题在语义上并不匹配,因此,导致输出的自助答案并不准确。
另一方面,发明人在研究中发现,可进一步分析同义词并集对用户输入的咨询问题的语义影响程度,分析该同义词并集是否能够表征咨询问题的核心语义,结合同义词并集对用户输入的咨询问题的语义影响程度和同义词并集对预设题面的语义影响程度,获得与用户输入的咨询问题语义匹配度高的预设题面。
鉴于此,本发明实施例提供一种自助问答的问题匹配方法和装置,获取咨询问题,确定该咨询问题与自助问答题库中预设题面的同义词并集,一个预设题面的同义词并集包括该咨询问题与该预设题面中语义相同的词;根据该预设题面的同义词并集对该预设题面的第一语义影响程度,从自助问答库中获得题面集合,该题面集合包括至少一个第一语义影响程度大于第一阈值的预设题面;根据该预设题面的同义词并集对该咨询问题的第二语义影响程度,从该题面集合中获得目标题面,该目标题面包括至少一个第二语义影响程度大于第二阈值的预设题面。由此可知,不仅分析了同义词并集对该预设题面的语义影响程度,表征了从预设题面的角度看,咨询问题与预设题面的语义相关性;也分析了同义词并集对该咨询问题的语义影响程度,表征了从咨询问题的角度看,咨询问题与预设题面的语义相关性;从而,使得利用本发明提供的问题匹配方法所得到的目标题面,与该咨询问题的语义匹配度变高,进一步地,使得输出的自助答***率变高。
示例性方法
参见图1,该图为本实施例提供的自助问答的问题匹配方法的流程图。
本实施例提供的自助问答的问题匹配方法,包括如下步骤:
S101:获取咨询问题。
本实施例中提及的咨询问题是指用户在提供自助问答服务的网站中输入的咨询问题。用户可以通过终端在提供自助问答服务的网站中输入咨询问题。用户还可以在其他提供自助问答服务的平台输入咨询问题,本实施例不具体限定。
在本实施例中,用户输入咨询问题之后,提供自助问答服务的网站的服务器可以获取用户输入的咨询问题,本实施例不具体限定提供自助问答服务的服务器获取咨询问题的具体实现方式。
S102:确定该咨询问题与自助问答库中预设题面的同义词并集,一个预设题面的同义词并集包括该咨询问题与该预设题面中语义相同的字词。
为了提高服务质量,快速解决用户提出的咨询问题,可以创建一个自助问答库,该自助问答库中存储有多个咨询问题,以及各个咨询问题对应的自助答案。本实施例中提及的预设题面是指自助问答库中存储的咨询问题。自助问答库中保存了多个预设题面,以便于获取用户输入的咨询问题之后,对该咨询问题与自助问答库中的预设题面进行匹配。
在本实施例中,对咨询问题与自助问答库中的预设题面进行匹配,首先可以确定咨询问题与自助问答库中预设题面的同义词并集。
需要说明的是,本实施例中提及的确定咨询问题与自助问答库中的预设题面的同义词并集,目的是为了确定咨询问题中的哪些字词出现在自助问答库中的预设题面中,从而分析咨询问题与预设题面的匹配度。也就是说,对于某一预设题面来说,该预设题面的同义词并集,可以仅包括咨询问题与该预设题面中相同的字词。
可以理解的是,对于同一语义,不同用户的描述可能会不一样,因此,在确定咨询问题与自助问答库中预设题面的同义词并集时,还可以结合字词的语义来确定咨询问题与自助问答库中预设题面的同义词并集,即将咨询问题中与预设题面中语义相同的字词也纳入该预设题面的同义词并集中。
具体地,确定咨询问题与自助问答库中预设题面的同义词并集,可以通过S201和S202实现。
S201:对咨询问题和自助问答库中的预设题面进行分词。
S202:获取咨询问题和预设题面中语义相同的字词,作为预设题面的同义词并集。
关于S201和S202,可以理解的是,咨询问题和自助问答库中的预设题面中可能包括多个字词,而确定咨询问题与自助问答库中预设题面的同义词并集时,若直接对整个咨询问题和预设题面进行处理,则会增加实际算法的复杂度。因此,在本实施例中,首先对咨询问题和自助问答库中的预设题面进行分词,对分词之后获得的多个字词进行分析,从而获得咨询问题与自助问答库中预设题面的同义词并集。
由于一个预设题面的同义词并集包括咨询问题与该预设题面中语义相同的字词,因此,在对预设题面和咨询问题进行分词之后,可以对咨询问题进行分词之后获得的多个字词逐一与对预设题面进行分词之后获得的多个字词进行比较,当对咨询问题进行分词之后获得的字词与对预设题面进行分词之后获得的字词语义相同时,则将该字词加入到该预设题面的同义词并集中。
S103:根据预设题面的同义词并集对预设题面的第一语义影响程度,从自助问答库中获得题面集合,该题面集合包括至少一个第一语义影响程度大于第一阈值的预设题面。
本实施例中提及的第一语义影响程度,是指同义词并集对该预设题面的语义影响程度。本实施例中的第一语义影响程度可以用一个取值范围在0和1之间的数值来表示,并且,该数值越大,表示第一语义影响程度越高,该数值越小,表示第一语义影响程度越低。
可以理解的是,对于一个咨询问题来说,自助问答库中可能有多个预设题面,使得多个预设题面的同义词并集对该预设题面的语义影响程度都比较高。该多个预设题面所组成的集合即为本实施例中提及的题面集合。
本实施例中提及的第一阈值是一个预先设置的值,当预设题面的同义词并集对预设题面的第一语义影响程度大于第一阈值时,可以认为该预设题面的同义词并集对该预设题面的语义影响程度比较高。作为一种示例,第一阈值的取值可以为0.4或0.5。
在本实施例中,确定预设题面的同义词并集对预设题面的第一语义影响程度可以通过S301-S303实现。
S301:统计预设题面的同义词并集中,每个字词对应的预设分值的和,作为第一值。
如前文所述,第一语义影响程度,是指同义词并集对该预设题面的语义影响程度。也就是说,第一语义影响程度,可以通过判断同义词并集中包含的字词在预设题面中所占的语义比重来确定。
可以理解的是,对预设题面进行分词之后可以获得多个字词,而该多个字词中可能包含不同性质的词汇,而不同性质的词汇在该预设题面中的重要程度是不一样的。一般而言,名词的重要程度高于动词,动词的重要程度高于语气词,语气词的重要程度高于介词,等等。
因此,在本实施例中,首先对对预设题面进行分词之后获得的多个字词设置相应的预设分值。将同义词并集中每个字词的预设分值相加,获得同义词并集的总分值,该同义词并集的总分值即为第一值。
S302:统计预设题面中,每个字词对应的预设分值的和,作为第二值。
本实施例中提及的第二值,是指将预设题面中每个字词的预设分值相加,获得的预设题面的总分值。
S303:确定第一值和第二值的比值作为第一语义影响程度。
第一值和第二值的比值可以认为是同义词并集中包含的字词在预设题面中所占的语义比重。
可以理解的是,由于第一值是预设题面的同义词并集中,每个字词对应的预设分值的和,第二值是预设题面中,每个字词对应的预设分值的和。而预设题面的同义词并集中包含的字词最多与预设题面中包含的字词相同。因此,第一值应该小于等于第二值,也就是说,第一值和第二值的比值的最大值等于1,当第一值和第二值的比值等于1时,表示预设题面中包含的字词均出现在咨询问题中,说明该预设题面的同义词并集对预设题面的影响程度高。
S104:根据预设题面的同义词并集对咨询问题的第二语义影响程度,从题面集合中获得目标题面,该目标题面包括至少一个第二语义影响程度大于第二阈值的预设题面。
本实施例中提及的第二语义影响程度,是指同义词并集对该咨询问题的语义影响程度。本实施例中的第二语义影响程度可以用一个取值范围在0和1之间的数值来表示,并且,该数值越大,表示第二语义影响程度越高,该数值越小,表示第二语义影响程度越低。
本实施例中提及的第二阈值是一个预先设置的值,当预设题面的同义词并集对咨询问题的第二语义影响程度大于第二阈值时,可以认为该预设题面的同义词并集对该咨询问题的语义影响程度比较高。作为一种示例,第二阈值的取值可以为0.4或0.5。
对于题面集合中包含的多个预设题面中,可能存在一个或多个预设题面,使得该多个预设题面的同义词并集对咨询问题的语义影响程度都比较高。该多个预设题面即为本实施例中提及的目标题面。可以理解的是,目标题面可以包含一个预设题面,也可以包含多个预设题面。
在本实施例中,目标题面的同义词并集对目标题面的第一语义影响程度大于第一阈值,且目标题面的同义词并集对咨询问题的第二语义影响程度大于第二阈值时,可以认为目标题面与咨询问题的语义匹配度较高。
在本实施例中,确定预设题面的同义词并集对咨询问题的第二语义影响程度可以通过S401-S402实现。
S401:统计咨询问题中,每个字词对应的预设分值的和,作为第三值。
如前文所述,第二语义影响程度,是指同义词并集对咨询问题的语义影响程度。也就是说,第二语义影响程度,可以通过判断同义词并集中包含的字词在咨询问题中所占的语义比重来确定。
因此,在本实施例中,首先对对咨询问题进行分词之后获得的多个字词设置相应的预设分值。将对咨询问题进行分词之后获得的每个字词的预设分值相加,获得咨询问题的总分值,该咨询问题的总分值即为第三值。
需要说明的是,在本实施例中,对对咨询问题进行分词之后获得的多个字词设置相应的预设分值的规则,与对预设题面进行分词之后获得的多个字词设置相应的预设分值的规则应该相同。作为一种示例,设置相应的预设分值的规则可以是如下表1所示的规则。
表1
字词的性质 | 预设分值 |
名词 | 4 |
动词 | 2 |
语气词 | 1 |
介词 | 1 |
S402:确定第一值和第三值的比值作为第二语义影响程度。
第一值和第三值的比值可以认为是同义词并集中包含的字词在咨询问题中所占的语义比重。
可以理解的是,由于第一值是预设题面的同义词并集中,每个字词对应的预设分值的和,第二值是咨询问题中,每个字词对应的预设分值的和。而预设题面的同义词并集中包含的字词最多与咨询问题中包含的字词相同。因此,第一值应该小于等于第三值,也就是说,第一值和第三值的比值的最大值等于1,当第一值和第三值的比值等于1时,表示咨询问题中包含的字词均出现在预设题面中,说明该预设题面的同义词并集对咨询问题的影响程度高。
需要说明的是,在S104获得目标题面之后,本实施例还可以输出该目标题面对应的自助答案,作为对咨询问题的自助应答。
需要说明的是,由于自助问答库中保存了分别与各个预设题面对应的自助答案,因此,在获得与咨询问题匹配度高的目标题面之后,就可以直接输出与该目标题面对应的自助答案。
考虑到一个咨询问题可能对应多个目标题面,在本实施例中,可以分别输出各个目标题面对应的自助答案,也可以结合多个目标题面的第一语义影响程度和第二语义影响程度,从中选择出一个目标题面作为最终的目标题面,并输出与该最终的目标题面对应的自助答案作为对该咨询问题的自助应答,还可以根据第二语义影响程度对多个目标题面进行排序,一般情况下,按照第二语义影响程度由高到低的顺序,依次输出各个目标题面对应的自助答案作为对该咨询问题的自助应答,本实施例对此不做具体限定。基于以上实施例提供的自助问答的问题匹配方法,以下将结合具体实例对该自助问答的问题匹配方法进行介绍。
咨询问题1:我在APP上绑定了银行卡,手机号怎么修改?
预设题面1:绑定手机号。
预设题面2:怎么修改绑定银行卡的手机号?
其中,第一阈值和第二阈值的取值均为0.5。
参见图5,该图为本实施例提供的本实施例提供的自助问答的问题匹配方法的又一流程图。
本实施例提供的方法,包括如下步骤:
S501:对咨询问题进行分词处理,并为分词之后获得的各个分词设置对应的预设分值,具体分词结果和预设分值设置结果如下:
我(1分)/在(1分)/APP(4分)/上(1分)/绑定(2分)/了(1分)/银行(4分)/卡(4分)/,手机(4分)/号(1分)/怎么(1分)/修改(2分)。
S502:对预设题面1和预设题面2进行分词处理,并为分词之后获得的各个分词设置对应的预设分值,具体分词结果和预设分值设置结果如下:
预设题面1:绑定(2分)/手机(4分)/号(1分);
预设题面2:怎么(1分)/修改(2分)/绑定(2分)/银行(4分)/卡(4分)/的(1分)/手机(4分)/号(1分)。
S503:获得预设题面1的同义词并集和预设题面2的同义词并集。
预设题面1对应的同义词并集为:绑定、手机、号;
预设题面2对应的同义词并集为:怎么、修改、绑定、银行、卡、手机、号。
S504:统计预设题面1的同义词并集的总分值,即第一值;统计预设题面1的总分值,即第二值;并计算预设题面1的同义词并集的第一语义影响程度。
第一值为:2+4+1=7;
第二值为:2+4+1=7;
第一语义影响程度:第一值/第二值=7/7=1.0;
S505:统计预设题面2的同义词并集的总分值,即第一值;统计预设题面2的总分值,即第二值;并计算预设题面2的同义词并集的第一语义影响程度。
第一值为:1+2+2+4+4+4+1=18
第二值为:1+2+2+4+4+1+4+1=19;
第一语义影响程度:第一值/第二值=18/19=0.95;
S506:确定题面集合。
由于预设题面1和预设题面2的第一语义影响程度均大于第一阈值0.5,因此,预设题面1和预设题面2均包含在题面集合中。
S507:统计咨询问题的总分值,即第三值。
第三值为:1+1+4+1+2+1+4+4+4+1+1+2=26
S508:计算预设题面1的同义词并集的第二语义影响程度;计算预设题面2的同义词并集的第二语义影响程度。
预设题面1的同义词并集的第二语义影响程度:第一值/第三值=7/26=0.27;
预设题面2的同义词并集的第二语义影响程度:第一值/第三值=18/26=0.69。
S509:获得目标题面。
由于预设题面1的第二语义影响程度小于第二阈值,而预设题面2的第二语义影响程度大于第二阈值,因此,预设题面2为与咨询问题匹配的目标题面。
S510:输出目标题面对应的自助答案,作为对咨询问题的自助应答。
本实施例对目标题面对应的自助答案的设置不做具体限定,该自助答案的设置可以根据目标题面的内容具体设置。
通过以上计算可知,预设题面1的第一语义影响程度很高,但是其在语义上与咨询问题并不匹配。而预设题面2的第一语义影响程度虽然没有预设题面1的第一语义影响程度高,但是,其在语义上与咨询问题更加匹配,而与咨询问题在语义上的匹配可以通过第二语义影响程度来体现。也就是说,结合第一语义影响程度和第二语义影响程度,可以为咨询问题匹配到语义匹配度更高的目标题面,从而为用户输出更加准确的自主答案。
本实施例提供的自助问答的问题匹配方法,不仅分析了同义词并集对该预设题面的语义影响程度,也分析了同义词并集对该咨询问题的语义影响程度,从而使得利用本发明提供的问题匹配方法所得到的目标题面,与该咨询问题的语义匹配度变高,进一步地,使得输出的自助答案的正确率变高。
示例性装置
鉴于以上实施例提供的自助问答的问题匹配方法,本实施例提供一种自助问答的问题匹配装置,以下将结合附图对该装置进行介绍。
参见图6,该图为本实施例提供的自助问答的问题匹配装置的示意图。
本实施例提供的自助问答的问题匹配装置,包括:咨询问题获取单元610、同义词并集确定单元620、题面集合获取单元630和目标题面获取单元640。
其中:
咨询问题获取单元610,用于获取咨询问题;
同义词并集确定单元620,用于确定咨询问题与自助问答库中预设题面的同义词并集,一个预设题面的所述同义词并集包括咨询问题与该预设题面中语义相同的字词;
题面集合获取单元630,用于根据预设题面的同义词并集对预设题面的第一语义影响程度,从自助问答库中获得题面集合,该题面集合包括至少一个第一语义影响程度大于第一阈值的预设题面;
目标题面获取单元640,用于根据预设题面的同义词并集对咨询问题的第二语义影响程度,从题面集合中获得目标题面,该目标题面包括至少一个第二语义影响程度大于第二阈值的预设题面。
在一种实施方式中,题面集合获取单元630包括:第一值统计子单元、第二值统计子单元和第一语义影响程度确定子单元。
第一值统计子单元,用于统计预设题面的同义词并集中,每个字词对应的预设分值的和,作为第一值;
第二值统计子单元,用于统计预设题面中,每个字词对应的预设分值的和,作为第二值;
第一语义影响程度确定子单元,用于确定第一值和所述第二值的比值作为所述第一语义影响程度。
在一种实施方式中,目标题面获取单元640,包括:
第三值统计子单元,用于统计咨询问题中,每个字词对应的预设分值的和,作为第三值;
第二语义影响程度确定子单元,用于确定第一值和所述第三值的比值作为所述第二语义影响程度。
在一种实施方式中,同义词并集确定单元620包括:
分词子单元,用于对咨询问题和所述自助问答库中的预设题面进行分词;
同义词并集获取子单元,用于获取咨询问题和所述预设题面中语义相同的字词,作为预设题面的同义词并集。
在一种实施方式中,所述装置还包括:
自助答案输出单元,用于输出目标题面对应的自助答案,作为对所述咨询问题的自助应答。
本实施例提供的自助问答的问题匹配装置,不仅分析了同义词并集对该预设题面的语义影响程度,也分析了同义词并集对该咨询问题的语义影响程度,从而使得利用本发明提供的问题匹配方法所得到的目标题面,与该咨询问题的语义匹配度变高,进一步地,使得输出的自助答案的正确率变高。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种自助问答的问题匹配方法,其特征在于,所述方法包括:
获取咨询问题;
确定所述咨询问题与自助问答库中预设题面的同义词并集,一个所述预设题面的所述同义词并集包括所述咨询问题与该预设题面中语义相同的字词;
根据所述预设题面的同义词并集对所述预设题面的第一语义影响程度,从所述自助问答库中获得题面集合,所述题面集合包括至少一个所述第一语义影响程度大于第一阈值的所述预设题面;
根据所述预设题面的同义词并集对所述咨询问题的第二语义影响程度,从所述题面集合中获得目标题面,所述目标题面包括至少一个所述第二语义影响程度大于第二阈值的所述预设题面。
2.根据权利要求1所述的方法,其特征在于,确定所述预设题面的同义词并集对所述预设题面的第一语义影响程度包括:
统计所述预设题面的同义词并集中,每个字词对应的预设分值的和,作为第一值;
统计所述预设题面中,每个字词对应的预设分值的和,作为第二值;
确定所述第一值和所述第二值的比值作为所述第一语义影响程度。
3.根据权利要求2所述的方法,其特征在于,确定所述预设题面的同义词并集对所述咨询问题的第二语义影响程度包括:
统计所述咨询问题中,每个字词对应的预设分值的和,作为第三值;
确定所述第一值和所述第三值的比值作为所述第二语义影响程度。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述确定所述咨询问题与自助问答库中预设题面的同义词并集包括:
对所述咨询问题和所述自助问答库中的所述预设题面进行分词;
获取所述咨询问题和所述预设题面中语义相同的字词,作为所述预设题面的同义词并集。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述方法还包括:
输出所述目标题面对应的自助答案,作为对所述咨询问题的自助应答。
6.一种自助问答的问题匹配装置,其特征在于,所述方法包括:
咨询问题获取单元,用于获取咨询问题;
同义词并集确定单元,用于确定所述咨询问题与自助问答库中预设题面的同义词并集,一个所述预设题面的所述同义词并集包括所述咨询问题与该预设题面中语义相同的字词;
题面集合获取单元,用于根据所述预设题面的同义词并集对所述预设题面的第一语义影响程度,从所述自助问答库中获得题面集合,所述题面集合包括至少一个所述第一语义影响程度大于第一阈值的所述预设题面;
目标题面获取单元,用于根据所述预设题面的同义词并集对所述咨询问题的第二语义影响程度,从所述题面集合中获得目标题面,所述目标题面包括至少一个所述第二语义影响程度大于第二阈值的所述预设题面。
7.根据权利要求6所述的装置,其特征在于,所述题面集合获取单元包括:
第一值统计子单元,用于统计所述预设题面的同义词并集中,每个字词对应的预设分值的和,作为第一值;
第二值统计子单元,用于统计所述预设题面中,每个字词对应的预设分值的和,作为第二值;
第一语义影响程度确定子单元,用于确定所述第一值和所述第二值的比值作为所述第一语义影响程度。
8.根据权利要求7所述的装置,其特征在于,所述目标题面获取单元,包括:
第三值统计子单元,用于统计所述咨询问题中,每个字词对应的预设分值的和,作为第三值;
第二语义影响程度确定子单元,用于确定所述第一值和所述第三值的比值作为所述第二语义影响程度。
9.根据权利要求6-8任意一项所述的装置,其特征在于,所述同义词并集确定单元包括:
分词子单元,用于对所述咨询问题和所述自助问答库中的所述预设题面进行分词;
同义词并集获取子单元,用于获取所述咨询问题和所述预设题面中语义相同的字词,作为所述预设题面的同义词并集。
10.根据权利要求6-9任意一项所述的装置,其特征在于,所述装置还包括:
自助答案输出单元,用于输出所述目标题面对应的自助答案,作为对所述咨询问题的自助应答。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711433681.0A CN108170780A (zh) | 2017-12-26 | 2017-12-26 | 一种自助问答的问题匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711433681.0A CN108170780A (zh) | 2017-12-26 | 2017-12-26 | 一种自助问答的问题匹配方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108170780A true CN108170780A (zh) | 2018-06-15 |
Family
ID=62521097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711433681.0A Pending CN108170780A (zh) | 2017-12-26 | 2017-12-26 | 一种自助问答的问题匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108170780A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010008121A (ko) * | 2000-11-09 | 2001-02-05 | 김진문 | 통신을 이용한 연봉측정시스템과 그 방법 및 이 시스템을이용한 구인/구직방법 |
CN101097573A (zh) * | 2006-06-28 | 2008-01-02 | 腾讯科技(深圳)有限公司 | 一种自动问答***及方法 |
CN101286161A (zh) * | 2008-05-28 | 2008-10-15 | 华中科技大学 | 一种基于概念的智能中文问答*** |
CN101465749A (zh) * | 2008-12-29 | 2009-06-24 | 武汉大学 | 基于Web Service组合的问答服务构建方法 |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答*** |
CN104050256A (zh) * | 2014-06-13 | 2014-09-17 | 西安蒜泥电子科技有限责任公司 | 基于主动学习的问答方法及采用该方法的问答*** |
CN105608218A (zh) * | 2015-12-31 | 2016-05-25 | 上海智臻智能网络科技股份有限公司 | 智能问答知识库的建立方法、建立装置及建立*** |
CN105824933A (zh) * | 2016-03-18 | 2016-08-03 | 苏州大学 | 基于主述位的自动问答***及其实现方法 |
KR101662450B1 (ko) * | 2015-05-29 | 2016-10-05 | 포항공과대학교 산학협력단 | 다중 소스 하이브리드 질의응답 방법 및 시스템 |
CN106874441A (zh) * | 2017-02-07 | 2017-06-20 | 腾讯科技(上海)有限公司 | 智能问答方法和装置 |
-
2017
- 2017-12-26 CN CN201711433681.0A patent/CN108170780A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010008121A (ko) * | 2000-11-09 | 2001-02-05 | 김진문 | 통신을 이용한 연봉측정시스템과 그 방법 및 이 시스템을이용한 구인/구직방법 |
CN101097573A (zh) * | 2006-06-28 | 2008-01-02 | 腾讯科技(深圳)有限公司 | 一种自动问答***及方法 |
CN101286161A (zh) * | 2008-05-28 | 2008-10-15 | 华中科技大学 | 一种基于概念的智能中文问答*** |
CN101465749A (zh) * | 2008-12-29 | 2009-06-24 | 武汉大学 | 基于Web Service组合的问答服务构建方法 |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答*** |
CN104050256A (zh) * | 2014-06-13 | 2014-09-17 | 西安蒜泥电子科技有限责任公司 | 基于主动学习的问答方法及采用该方法的问答*** |
KR101662450B1 (ko) * | 2015-05-29 | 2016-10-05 | 포항공과대학교 산학협력단 | 다중 소스 하이브리드 질의응답 방법 및 시스템 |
CN105608218A (zh) * | 2015-12-31 | 2016-05-25 | 上海智臻智能网络科技股份有限公司 | 智能问答知识库的建立方法、建立装置及建立*** |
CN105824933A (zh) * | 2016-03-18 | 2016-08-03 | 苏州大学 | 基于主述位的自动问答***及其实现方法 |
CN106874441A (zh) * | 2017-02-07 | 2017-06-20 | 腾讯科技(上海)有限公司 | 智能问答方法和装置 |
Non-Patent Citations (1)
Title |
---|
唐素勤等: "基于句型模板的智能问答***", 《广西师范大学学报:自然科学版》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108897867B (zh) | 用于知识问答的数据处理方法、装置、服务器和介质 | |
CN109981910B (zh) | 业务推荐方法及设备 | |
CN108682420B (zh) | 一种音视频通话方言识别方法及终端设备 | |
CN110347863B (zh) | 话术推荐方法和装置及存储介质 | |
CN112365894B (zh) | 基于ai的复合语音交互方法、装置及计算机设备 | |
CN109597874B (zh) | 信息推荐方法、装置及服务器 | |
CN110782962A (zh) | 听力语言康复装置、方法、电子设备及存储介质 | |
CN107580155B (zh) | 网络电话质量确定方法、装置、计算机设备和存储介质 | |
CN111768781A (zh) | 语音打断的处理方法和装置 | |
CN108833595B (zh) | 用于在线客服服务的计算机可读存储介质 | |
CN114037003A (zh) | 问答模型的训练方法、装置及电子设备 | |
JP7407190B2 (ja) | 発話解析装置、発話解析方法及びプログラム | |
CN114547293A (zh) | 一种跨平台虚假新闻检测方法及*** | |
CN110348539B (zh) | 短文本相关性判别方法 | |
CN111221945A (zh) | 基于用户问句生成标准问题的方法和装置 | |
CN110795630A (zh) | 一种学习方案推荐方法及装置 | |
CN110970030A (zh) | 一种语音识别转换方法及*** | |
Ono et al. | Lexical acquisition through implicit confirmations over multiple dialogues | |
CN110427470A (zh) | 问答处理方法、装置及电子设备 | |
CN105701208A (zh) | 一种面向问答***的问答评价方法及装置 | |
CN108170780A (zh) | 一种自助问答的问题匹配方法及装置 | |
WO2020199590A1 (zh) | 情绪检测分析方法及相关装置 | |
CN111970311B (zh) | 会话切分方法、电子设备及计算机可读介质 | |
CN111565254B (zh) | 通话数据质检方法、装置、计算机设备和存储介质 | |
CN110399462B (zh) | 一种信息的查询方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180615 |
|
WD01 | Invention patent application deemed withdrawn after publication |