CN105955976B - 一种自动应答***及方法 - Google Patents

一种自动应答***及方法 Download PDF

Info

Publication number
CN105955976B
CN105955976B CN201610237009.3A CN201610237009A CN105955976B CN 105955976 B CN105955976 B CN 105955976B CN 201610237009 A CN201610237009 A CN 201610237009A CN 105955976 B CN105955976 B CN 105955976B
Authority
CN
China
Prior art keywords
synonym
vocabulary
word
matching result
best matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610237009.3A
Other languages
English (en)
Other versions
CN105955976A (zh
Inventor
张佶
盛丽晔
范融
于志安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
ICBC Technology Co Ltd
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201610237009.3A priority Critical patent/CN105955976B/zh
Publication of CN105955976A publication Critical patent/CN105955976A/zh
Application granted granted Critical
Publication of CN105955976B publication Critical patent/CN105955976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自动应答***及方法,其中,该***包括:问题接收单元,用于接收用户输入的问题;关键词提取单元,用于对问题进行分析,提取关键问题词汇;同义词扩展单元,用于对问题关键词汇进行同义词扩展,获得同义词扩展后的问题关键词汇;搜索单元,用于在数据存储单元中搜索与同义词扩展后的问题关键词汇匹配度最高的历史记录;显示单元,用于将历史记录显示给用户;结果接收单元,用于接收该用户在历史记录中选择的最佳匹配结果,将最佳匹配结果存储至数据存储单元;数据存储单元,用于存储搜索索引数据、历史记录、最佳匹配结果。

Description

一种自动应答***及方法
技术领域
本发明涉及计算机信息***中的数据处理技术领域,尤指一种自动应答***及方法。
背景技术
在大数据时代下,不断产生了短信、微信、微博等新的客户服务渠道,企业服务类文本记录的数据量日益增长。这些记录通常包含了客户的提问、投诉、建议等关键信息,以及服务人员的答复记录。若能对大量的历史文本记录进行匹配分析,并能在短时间自动为终端用户提供最优应答,将大大提升服务品质,有利于树立良好的企业形象。
针对上述考虑,目前一般的做法是终端服务人员通过使用搜索工具,对历史服务文本记录进行搜索,并选择相关度最高的答案作为参考应答给终端用户。但是,这种方法有以下局限:首先终端用户的问题中对产品、服务进行描述的用词具有一定随意性,存在同一概念运用了不同的词汇的情况。另外,终端服务人员在记录问题时,也可能由于别称、错别字等原因记录了不同的说法,从而导致客服文本匹配的准确性下降,数据处理效率低;其次无法做到终端客户问题的自动应答,答复效率较低。
发明内容
针对现有应答方式所存在的不足,本发明提出了一种自动应答***及方法,通过对以往服务文本的分析,提取可替换使用的同义词对,并在终端***接收到类似终端用户的问题时,对问题中的词汇先进行同义词扩展,在进行匹配搜索后自动应答,以缩短***响应的时间,同时提升数据匹配精确度。
为达到上述目的,本发明提出了一种自动应答***,该***包括:问题接收单元,用于接收用户输入的问题;关键词提取单元,用于对问题进行分析,提取关键问题词汇;同义词扩展单元,用于对问题关键词汇进行同义词扩展,获得同义词扩展后的问题关键词汇;搜索单元,用于在数据存储单元中搜索与同义词扩展后的问题关键词汇匹配度最高的历史记录;显示单元,用于将历史记录显示给用户;结果接收单元,用于接收该用户在历史记录中选择的最佳匹配结果,将最佳匹配结果存储至数据存储单元;数据存储单元,用于存储搜索索引数据、历史记录、最佳匹配结果。
为达到上述目的,本发明还提出了一种利用自动应答***进行自动应答的方法,该方法包括:步骤1,接收用户输入的问题;步骤2,对问题进行分析,提取关键问题词汇;步骤3,对问题关键词汇进行同义词扩展,获得同义词扩展后的问题关键词汇;步骤4,在数据存储单元中搜索与同义词扩展后的问题关键词汇匹配度最高的历史记录;步骤5,将历史记录显示给用户;步骤6,接收该用户在历史记录中选择的最佳匹配结果,将最佳匹配结果存储至数据存储单元。
本发明提出的自动应答***及方法,可以通过分析处理自动发现终端服务文本相关的近义词对或同义词对,在终端用户输入提问时,自动进行同义词扩展,提升匹配准确性,并自动进行应答,提升答复问题的效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例的自动应答***结构示意图。
图2为本发明一实施例的数据存储单元的结构示意图。
图3为本发明一实施例存储的最佳匹配结果的数据结构示意图。
图4为本发明一实施例存储的近义词对数据结构示意图。
图5为本发明一实施例存储的同义词对数据结构示意图。
图6为本发明一实施例的数据分析单元的结构示意图。
图7为本发明一实施例的近似程度分析过程示意图。
图8为本发明一实施例的自动应答的方法流程图。
图9为本发明一实施例的近义词对的分析方法流程图。
图10为本发明一实施例的同义词对的分析方法流程图。
具体实施方式
以下配合图示及本发明的较佳实施例,进一步阐述本发明为达成预定发明目的所采取的技术手段。其中所使用的术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的***较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图1为本发明一实施例的自动应答***结构示意图。如图1所示,该***包括:
问题接收单元100,用于接收用户输入的问题;
关键词提取单元200,用于对问题进行分析,提取关键问题词汇;
同义词扩展单元300,用于对问题关键词汇进行同义词扩展,获得同义词扩展后的问题关键词汇;
搜索单元400,用于在数据存储单元700中搜索与同义词扩展后的问题关键词汇匹配度最高的历史记录;
显示单元500,用于将历史记录显示给用户;其中,显示单元500显示时,可以将前三条匹配度最高的历史记录反馈给用户,供用户选择。
结果接收单元600,用于接收该用户在历史记录中选择的最佳匹配结果,将最佳匹配结果存储至数据存储单元700;
数据存储单元700,用于存储搜索索引数据、历史记录、最佳匹配结果。
在本实施例中,关键词提取单元200提取关键问题词汇的步骤包括:
对问题文本进行中文分词,计算词汇在文本中的权重值TF_IDF,其中,TF表示词汇在当前文本内出现频度越高,则权重越大,IDF表示词汇在全部文本中出现频度越低,则权重越大,提取TF_IDF值最高的一定数量的词汇,作为关键问题词汇;
TF_IDF值的计算公式如下:
TF_IDFi,j=TFi.j×IDFi
其中,TF_IDFi,j表示词汇i在问题j中的权重;
其中TFi.j表示词汇i在问题j中的词频,ni,j为词汇i在问题j中的出现次数,∑knk,j为是在问题j中所有字词k的出现次数之和;
其中,IDFi表示词汇i的倒文档频率,|D|表示问题总数,|{j:ti∈dj}表示包含词语ti的问题dj的数目。
在本实施例中,结合图2所示,为数据存储单元的结构示意图。如图2所示,数据存储单元700包括:匹配记录存储模块710、搜索索引存储模块720、终端服务记录存储模块730、近义词对存储模块740、同义词对存储模块750。其中,
匹配记录存储模块710,用于存储最佳匹配结果。如图3所示,为存储的最佳匹配结果的数据结构示意图。其中记录了会话ID、终端用户编号、历史问题、问题词汇及匹配时间。
搜索索引存储模块720,用于存储搜索索引数据,对历史记录建立倒排索引,供搜索装置查询,将随着历史记录内容的增加而增量更新。
终端服务记录存储模块730,用于存储历史记录,所述历史记录包括:历史问题及通过近义词对或同义词对生成的答复文本。
近义词对存储模块740,用于存储同义词扩展后的问题关键词汇及近义词汇组成的近义词对。如图4所示,为存储的近义词对数据结构示意图。其中包含了关键问题词汇、近义词汇及关联度。
同义词对存储模块750,用于存储同义词扩展后的问题关键词汇及同义词汇组成的同义词对。如图5所示,为存储的同义词对数据结构示意图。其中包含了关键问题词汇、同义词汇。
进一步的,再结合图1所示,自动应答***还包括:数据分析单元800,用于对问题关键词汇与最佳匹配结果进行分析,根据分析结果建立近义词对或同义词对,并存储于数据存储单元700。
结合图6所示,为数据分析单元的结构示意图。如图6所示,数据分析单元800包括:近义词分析模块810、检索序列分析模块820、拼音分析模块830、共现分析模块840、点击特征分析模块850。其中,
近义词分析模块810,用于对问题关键词汇与最佳匹配结果进行关联度分析,得到具有一定关联度的近义词后,存储到近义词对存储模块740,这些近义词可能是概念相近的词汇,也可能是具有上下位关系的父子概念。
近义关系的计算公式如下:
其中,puj表示问题关键词汇u与最佳匹配结果j的近似程度,N(u)为问题关键词汇所匹配的最佳匹配结果集合,S(j,K)为与最佳匹配结果j匹配次数最高的其它K个最佳匹配结果集合,wji是最佳匹配结果j和一定数量的词汇i的匹配次数,rui是问题关键词汇u对一定数量的词汇i的匹配次数;
将计算获得的词对的近似程度进行归一化处理,公式为:
y=(x-MinValue)/(MaxValue-MinValue),把近似程度超过一设定阈值的近义词存储到近义词对存储模块740。
为了对上述近义词分析模块810的功能进行更清楚地解释,以下通过一实施例来进行说明。
结合图7所示,为本发明一实施例的近似程度分析过程示意图。如图7所示,问题词汇“ATM”有30次被终端用户匹配了历史问题一,10次匹配了历史问题二;历史问题一还被匹配了词汇“自助机具”6次和自助提款机8次;历史问题二还被匹配了词汇“自助提款机”12次和“吞卡”10次。
根据上述公式计算,并进行归一化处理后,得到以下词对近似度:
ATM—自助机具:0.3;
ATM—自助提款机:1;
ATM—吞卡:0;
若近似度阈值为0.2,则“ATM—自助提款机”、“ATM—自助机具”被判定为近义词。
检索序列分析模块820,用于从近义词对存储模块740中读取近义词对,并分析所述近义词对在匹配记录存储模块710中一设定的时间序列内被替换使用的概率,由于终端用户在输入一个问题词汇时,若没有得到理想的结果,常会在一个较短的时间内选择意义相同可以相互替换的词汇进行问题描述的改写。因此,可以将概率超过一设定阈值的近义词对判定为同义词对,存储于同义词对存储模块750。
拼音分析模块830,用于从近义词对存储模块740中读取近义词对,并分析近义词对的读音相似度,这是由于终端用户在输入问题时为了确保输入速度,输入了同音错别字的可能性较大,如;微博和微薄,其实意义相同。因此可以将读音相似度大于一设定阈值的同音近义词对判定为同义词对,存储于同义词对存储模块750;其中,读音相似度计算公式如下:
其中,Simdis表示读音相似度,Swi表示wi的读音字符串,|Swi|表示wi读音字符串的长度,i=1,2,minDis(Sw1,Sw2)代表最小编辑距离。
共现分析模块840,用于从近义词对存储模块740中读取近义词对,并分析近义词对在终端服务记录存储模块730存储的终端服务记录文本中共现程度的大小。由于终端用户在描述问题时,可能对一个词汇前后有不同说法,如先使用全称,后续再次提到则使用简称。因此,如果共现程度达到一设定阈值,可以判定近义词对为同义词对,存储于同义词对存储模块750;其中,计算两个词汇的共现程度公式如下:
其中,wij表示词汇i与词汇j的共现程度,N(i)表示出现问题词汇i的历史记录集合;N(i)∩N(j)表示同时出现词汇i和词汇j的历史记录集合;|N(i)|表示出现问题词汇i的历史记录集合的数量。
点击特征分析模块850,用于从近义词对存储模块740中读取近义词对,并分析所述近义词对在终端服务记录存储模块730存储的终端服务记录文本中,词i出现在查询中,但没有出现在历史记录的标题中,词j出现在历史记录的标题中,计算词i和词j的相互交换比例的计算公式为:
其中,Cij表示相互交换比例,wti表示词i出现在标题中,|wtiwqj|表示词i出现在标题中、词j出现在查询中的数量;
将相互交换比例超过一设定阈值的词对存储到同义词存储模块750。
本发明提出的自动应答***是基于同义词扩展的方式进行自动应答,其中的数据分析单元可以对大量历史的终端用户问题及相应的最佳应答进行分析,得到具有相关性的近义词对,对得到的近义词对做进一步计算处理,筛选出可用的同义词对,将结果存储在同义词对存储单元。在服务时,首先提取问题中的问题词汇,通过同义词扩展单元对问题词汇进行扩展,提升词汇覆盖面,再根据词汇关联度将搜索到的最佳历史应答记录返回给终端用户。
基于同一发明构思,本发明实施例中还提供了一种自动应答方法,如下面的实施例所述。由于该方法解决问题的原理与上述***相似,因此该方法的实施可以参见上述***的实施,重复之处不再赘述。
图8为本发明一实施例的自动应答的方法流程图。该方法可以通过上述自动应答***来进行,包括:
步骤S1,接收用户输入的问题;
步骤S2,对问题进行分析,提取关键问题词汇;
步骤S3,对问题关键词汇进行同义词扩展,获得同义词扩展后的问题关键词汇;
步骤S4,在数据存储单元中搜索与同义词扩展后的问题关键词汇匹配度最高的历史记录;其中,历史记录包括:历史问题及通过近义词对或同义词对生成的答复文本。
步骤S5,将历史记录显示给用户,可以显示前三条匹配度最高的历史记录。
步骤S6,接收该用户在历史记录中选择的最佳匹配结果,将最佳匹配结果存储至数据存储单元。
结合图9所示,为近义词对的分析方法流程图。如图9所示,包括:
步骤101,获取同义词扩展后的问题关键词汇及对应的最佳匹配结果;
步骤102,依次读取同义词扩展后的问题关键词汇;
步骤103,统计同义词扩展后的问题关键词汇与最佳匹配结果之间的匹配次数w;
步骤104,依次读取最佳匹配结果;
步骤105,查找匹配所述最佳匹配结果的历史记录,依次读取历史记录;
步骤106,统计所述历史记录匹配到最佳匹配结果的次数r;
步骤107,计算词汇间的近义程度p=w×r,如果遇到重复的最佳匹配结果,则将p累加;
步骤108,读取近义词判断阈值s,如果p>s,则存储为近义词对;
步骤109,判断是否为最后一个历史记录,是则执行步骤110,否则重复执行步骤105;
步骤110,判断是否为最后一个最佳匹配结果,是则执行步骤111,否则重复执行步骤104;
步骤111,判断是否为最后一个同义词扩展后的问题关键词汇,是则分析结束,否则重复执行步骤102。
结合图10所示,为同义词对的分析方法流程图。如图10所示,包括:
步骤201,依次读取近义词对;
步骤202,计算得到近义词对的拼音字符串间的读音近似度;
步骤203,判断读音近似度是否大于一设定阈值,是则执行步骤210,否则继续执行步骤204;
步骤204,根据检索序列,计算在同一个会话中,在搜索第一词的基础上,又搜索了第二词的条件概率;
步骤205,判断条件概率是否大于一设定阈值,是则执行步骤210,否则继续执行步骤206;
步骤206,分析第一词及第二词的共现程度;
步骤207,判断共现程度是否超过一设定阈值,是则执行步骤210,否则继续执行步骤208;
步骤208,分析两词汇的点击特征;
步骤209,判断点击特征超过一设定阈值,是则执行步骤210,否则结束同义词分析,判定为非同义词;
步骤210,存储同义词对。
本发明提出的自动应答***及方法,可以通过分析处理自动发现终端服务文本相关的近义词对或同义词对,在终端用户输入提问时,自动进行同义词扩展,提升匹配准确性,并自动进行应答,提升答复问题的效率。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种自动应答***,其特征在于,该***包括:
问题接收单元,用于接收用户输入的问题;
关键词提取单元,用于对问题进行分析,提取关键问题词汇;
同义词扩展单元,用于对问题关键词汇进行同义词扩展,获得同义词扩展后的问题关键词汇;
搜索单元,用于在数据存储单元中搜索与同义词扩展后的问题关键词汇匹配度最高的历史记录;
显示单元,用于将历史记录显示给用户;
结果接收单元,用于接收该用户在历史记录中选择的最佳匹配结果,将最佳匹配结果存储至数据存储单元;
数据存储单元,用于存储搜索索引数据、历史记录、最佳匹配结果;
数据分析单元,用于对问题关键词汇与最佳匹配结果进行分析,根据分析结果建立近义词对或同义词对,并存储于数据存储单元;
其中,所述数据存储单元包括:
匹配记录存储模块,用于存储最佳匹配结果;
搜索索引存储模块,用于存储搜索索引数据,对历史记录建立倒排索引,供搜索装置查询,将随着历史记录内容的增加而增量更新;
终端服务记录存储模块,用于存储历史记录,所述历史记录包括:历史问题及通过近义词对或同义词对生成的答复文本;
近义词对存储模块,用于存储同义词扩展后的问题关键词汇及近义词汇组成的近义词对;
同义词对存储模块,用于存储同义词扩展后的问题关键词汇及同义词汇组成的同义词对;
其中,所述数据分析单元包括:
近义词分析模块,用于对问题关键词汇与最佳匹配结果进行关联度分析,得到具有一定关联度的近义词后,存储到近义词对存储模块;将计算获得的词对的近似程度进行归一化处理,把近似程度超过一设定阈值的近义词存储到近义词对存储模块;
检索序列分析模块,用于从近义词对存储模块中读取近义词对,并分析所述近义词对在匹配记录存储模块中一设定的时间序列内被替换使用的概率,将概率超过一设定阈值的近义词对判定为同义词对,存储于同义词对存储模块。
2.根据权利要求1所述的***,其特征在于,所述关键词提取单元,用于对问题进行分析,提取关键问题词汇,包括:
对问题文本进行中文分词,计算词汇在文本中的权重值TF_IDF,其中,TF表示词汇在当前文本内出现频度越高,则权重越大,IDF表示词汇在全部文本中出现频度越低,则权重越大,提取TF_IDF值最高的一定数量的词汇,作为关键问题词汇;
TF_IDF值的计算公式如下:
TF_IDFi,j=TFi.j×IDFi
其中,TF_IDFi,j表示词汇i在问题j中的权重;
其中TFi.j表示词汇i在问题j中的词频,ni,j为词汇i在问题j中的出现次数,∑knk,j为是在问题j中所有字词k的出现次数之和;
其中,IDFi表示词汇i的倒文档频率,|D|表示问题总数,|{j:ti∈dj}|表示包含词语ti的问题dj的数目。
3.根据权利要求1所述的***,其特征在于,近义关系的计算公式如下:
其中,puj表示问题关键词汇u与最佳匹配结果j的近似程度,N(u)为问题关键词汇所匹配的最佳匹配结果集合,S(j,K)为与最佳匹配结果j匹配次数最高的其它K个最佳匹配结果集合,wji是最佳匹配结果j和一定数量的词汇i的匹配次数,rui是问题关键词汇u对一定数量的词汇i的匹配次数。
4.根据权利要求3所述的***,其特征在于,所述数据分析单元还包括:拼音分析模块,用于从近义词对存储模块中读取近义词对,并分析近义词对的读音相似度,将读音相似度大于一设定阈值的同音近义词对判定为同义词对,存储于同义词对存储模块;其中,读音相似度计算公式如下:
其中,Simdis表示读音相似度,Swi表示wi的读音字符串,|Swi|表示wi读音字符串的长度,i=1,2,minDis(Sw1,Sw2)代表最小编辑距离。
5.根据权利要求3所述的***,其特征在于,所述数据分析单元还包括:共现分析模块,用于从近义词对存储模块中读取近义词对,并分析近义词对在终端服务记录存储模块存储的终端服务记录文本中共现程度的大小,如果共现程度达到一设定阈值,判定近义词对为同义词对,存储于同义词对存储模块;其中,计算两个词汇的共现程度公式如下:
其中,wiq表示词汇i与词汇q的共现程度,N(i)表示出现问题词汇i的历史记录集合;N(i)∩N(q)表示同时出现词汇i和词汇q的历史记录集合;|N(i)|表示出现问题词汇i的历史记录集合的数量。
6.根据权利要求3所述的***,其特征在于,所述数据分析单元还包括:点击特征分析模块,用于从近义词对存储模块中读取近义词对,并分析所述近义词对在终端服务记录存储模块存储的终端服务记录文本中,词i出现在查询中,但没有出现在历史记录的标题中,词j出现在历史记录的标题中,计算词i和词j的相互交换比例的计算公式为:
其中,Cij表示相互交换比例,wti表示词i出现在标题中,|wtiwqj|表示词i出现在标题中、词j出现在查询中的数量;
将相互交换比例超过一设定阈值的词对存储到同义词存储模块。
7.一种利用权利要求1的自动应答***进行自动应答的方法,其特征在于,该方法包括:
步骤1,接收用户输入的问题;
步骤2,对问题进行分析,提取关键问题词汇;
步骤3,对问题关键词汇进行同义词扩展,获得同义词扩展后的问题关键词汇;
步骤4,在数据存储单元中搜索与同义词扩展后的问题关键词汇匹配度最高的历史记录;
步骤5,将历史记录显示给用户;其中,所述历史记录包括:历史问题及通过近义词对或同义词对生成的答复文本;
步骤6,接收该用户在历史记录中选择的最佳匹配结果,将最佳匹配结果存储至数据存储单元;
其中,所述近义词对的分析方法包括:
步骤101,获取同义词扩展后的问题关键词汇及对应的最佳匹配结果;
步骤102,依次读取同义词扩展后的问题关键词汇;
步骤103,统计同义词扩展后的问题关键词汇与最佳匹配结果之间的匹配次数w;
步骤104,依次读取最佳匹配结果;
步骤105,查找匹配所述最佳匹配结果的历史记录,依次读取历史记录;
步骤106,统计所述历史记录匹配到最佳匹配结果的次数r;
步骤107,计算词汇间的近义程度p=w×r,如果遇到重复的最佳匹配结果,则将p累加;
步骤108,读取近义词判断阈值s,如果p>s,则存储为近义词对;
步骤109,判断是否为最后一个历史记录,是则执行步骤110,否则重复执行步骤105;
步骤110,判断是否为最后一个最佳匹配结果,是则执行步骤111,否则重复执行步骤104;
步骤111,判断是否为最后一个同义词扩展后的问题关键词汇,是则分析结束,否则重复执行步骤102。
8.根据权利要求7所述的方法,其特征在于,所述同义词对的分析方法包括:
步骤201,依次读取近义词对;
步骤202,计算得到近义词对的拼音字符串间的读音近似度;
步骤203,判断读音近似度是否大于一设定阈值,是则执行步骤210,否则继续执行步骤204;
步骤204,根据检索序列,计算在同一个会话中,在搜索第一词的基础上,又搜索了第二词的条件概率;
步骤205,判断条件概率是否大于一设定阈值,是则执行步骤210,否则继续执行步骤206;
步骤206,分析第一词及第二词的共现程度;
步骤207,判断共现程度是否超过一设定阈值,是则执行步骤210,否则继续执行步骤208;
步骤208,分析两词汇的点击特征;
步骤209,判断点击特征超过一设定阈值,是则执行步骤210,否则结束同义词分析,判定为非同义词;
步骤210,存储同义词对。
CN201610237009.3A 2016-04-15 2016-04-15 一种自动应答***及方法 Active CN105955976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610237009.3A CN105955976B (zh) 2016-04-15 2016-04-15 一种自动应答***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610237009.3A CN105955976B (zh) 2016-04-15 2016-04-15 一种自动应答***及方法

Publications (2)

Publication Number Publication Date
CN105955976A CN105955976A (zh) 2016-09-21
CN105955976B true CN105955976B (zh) 2019-05-14

Family

ID=56917383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610237009.3A Active CN105955976B (zh) 2016-04-15 2016-04-15 一种自动应答***及方法

Country Status (1)

Country Link
CN (1) CN105955976B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503265A (zh) * 2016-11-30 2017-03-15 北京赛迈特锐医疗科技有限公司 基于权值的结构化搜索***及其搜索方法
CN106599297A (zh) * 2016-12-28 2017-04-26 北京百度网讯科技有限公司 基于深度问答的提问型搜索词搜索方法及装置
CN106649868B (zh) * 2016-12-30 2019-03-26 首都师范大学 问答匹配方法及装置
CN107220317B (zh) * 2017-05-17 2020-12-18 北京百度网讯科技有限公司 基于人工智能的匹配度评估方法、装置、设备及存储介质
CN107453980A (zh) * 2017-07-26 2017-12-08 北京小米移动软件有限公司 即时通信中问题响应方法及装置
CN107644012B (zh) * 2017-08-29 2019-03-01 平安科技(深圳)有限公司 电子装置、问题识别确认方法和计算机可读存储介质
CN108509474B (zh) * 2017-09-15 2022-01-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN110019701B (zh) * 2017-09-18 2021-12-31 京东方科技集团股份有限公司 用于问答服务的方法、问答服务***以及存储介质
CN108009253A (zh) * 2017-12-05 2018-05-08 昆明理工大学 一种改进的字符串相似对比方法
CN109063060A (zh) * 2018-07-20 2018-12-21 吴怡 一种语义网法律咨询服务机器人
CN109189897B (zh) * 2018-07-27 2020-07-31 什伯(上海)智能技术有限公司 一种基于数据内容匹配的聊天方法及聊天装置
CN109299320B (zh) * 2018-10-30 2020-09-25 上海智臻智能网络科技股份有限公司 一种信息交互方法、装置、计算机设备和存储介质
CN109710732B (zh) * 2018-11-19 2021-03-05 东软集团股份有限公司 信息查询方法、装置、存储介质和电子设备
CN110222192A (zh) * 2019-05-20 2019-09-10 国网电子商务有限公司 语料库建立方法及装置
CN110442760B (zh) * 2019-07-24 2022-02-15 银江技术股份有限公司 一种问答检索***的同义词挖掘方法及装置
CN113609273A (zh) * 2021-08-12 2021-11-05 云知声(上海)智能科技有限公司 一种机器话术配置方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174259A (zh) * 2007-09-17 2008-05-07 张琰亮 一种智能互动式问答***
CN101398835A (zh) * 2007-09-30 2009-04-01 日电(中国)有限公司 基于自然语言的服务选择***与方法以及服务查询***与方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN104809197A (zh) * 2015-04-24 2015-07-29 同程网络科技股份有限公司 基于智能机器人的在线问答方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103229223A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 使用多个候选答案评分模型提供问题答案

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174259A (zh) * 2007-09-17 2008-05-07 张琰亮 一种智能互动式问答***
CN101398835A (zh) * 2007-09-30 2009-04-01 日电(中国)有限公司 基于自然语言的服务选择***与方法以及服务查询***与方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN104809197A (zh) * 2015-04-24 2015-07-29 同程网络科技股份有限公司 基于智能机器人的在线问答方法

Also Published As

Publication number Publication date
CN105955976A (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN105955976B (zh) 一种自动应答***及方法
CN103201737B (zh) 关联词登记装置、信息处理装置、关联词登记方法、关联词登记装置用程序以及记录介质
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN103634473B (zh) 基于朴素贝叶斯分类的手机垃圾短信过滤方法与***
US8554540B2 (en) Topic map based indexing and searching apparatus
US7461056B2 (en) Text mining apparatus and associated methods
Zhao et al. Topical keyphrase extraction from twitter
US7555523B1 (en) Spam discrimination by generalized Ngram analysis of small header fields
CN107844559A (zh) 一种文件分类方法、装置及电子设备
CN100545847C (zh) 一种对博客文章进行排序的方法及***
CN109918485B (zh) 语音识别菜品的方法及装置、存储介质、电子装置
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
US20070136280A1 (en) Factoid-based searching
CN103425777B (zh) 一种基于改进贝叶斯分类的短信智能分类及搜索方法
CN101119326A (zh) 一种即时通信会话记录的管理方法及装置
CN107544988B (zh) 一种获取舆情数据的方法和装置
KR20080006578A (ko) 표시를 위한 광고 내용 및/또는 다른 관련 정보를 선택하기위해 온라인 대화 내용을 이용하는 시스템 및 방법
US20130339373A1 (en) Method and system of filtering and recommending documents
CN109033212B (zh) 一种基于相似度匹配的文本分类方法
CN103593371A (zh) 推荐搜索关键词的方法和装置
CN109933708A (zh) 信息检索方法、装置、存储介质及计算机设备
KR101429397B1 (ko) 소셜 네트워크 서비스의 메시지 분석을 이용한 핵심사건 추출 방법 및 시스템
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN106021532B (zh) 关键词的显示方法和装置
CN110866102A (zh) 检索处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210106

Address after: 100140, 55, Fuxing Avenue, Xicheng District, Beijing

Patentee after: INDUSTRIAL AND COMMERCIAL BANK OF CHINA

Patentee after: ICBC Technology Co.,Ltd.

Address before: 100140, 55, Fuxing Avenue, Xicheng District, Beijing

Patentee before: INDUSTRIAL AND COMMERCIAL BANK OF CHINA