CN107346344A - 文本匹配的方法和装置 - Google Patents

文本匹配的方法和装置 Download PDF

Info

Publication number
CN107346344A
CN107346344A CN201710607397.4A CN201710607397A CN107346344A CN 107346344 A CN107346344 A CN 107346344A CN 201710607397 A CN201710607397 A CN 201710607397A CN 107346344 A CN107346344 A CN 107346344A
Authority
CN
China
Prior art keywords
text
mrow
history
current
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710607397.4A
Other languages
English (en)
Inventor
李建星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710607397.4A priority Critical patent/CN107346344A/zh
Publication of CN107346344A publication Critical patent/CN107346344A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本匹配的方法和装置,涉及计算机领域。该方法的一具体实施方式包括:确定当前文本的至少一个特征词,根据所述至少一个特征词获取所述当前文本的特征向量;利用所述当前文本的特征向量,计算所述当前文本与多个历史文本中的任一历史文本之间的相似度;以及选择与所述当前文本的相似度符合预设规则的历史文本作为所述当前文本的匹配文本。该实施方式能够确定与当前事件的文本匹配的历史文本,从而为解决当前事件提供建议。

Description

文本匹配的方法和装置
技术领域
本发明涉及计算机领域,尤其涉及一种文本匹配的方法和装置。
背景技术
目前,面向流程管理的CRM(Customer Relationship Management,客户关系管理)***在企业的客服工作中得到广泛应用,其主要的功能是记录客户咨询的问题,并形成crm事件工单流转到相应的客服人员处理,解决客户问题后记录存档。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
在日常工作中积累的大量的crm事件工单中,很多工单都是重复发生的事件。例如用户A咨询退换货问题,客服人员处理后会将客户的问题、处理过程及处理结果记录到crm事件中,但之后仍会有其他用户继续咨询同样的问题。在现有技术中,没有将上述历史crm事件工单利用于为当前crm事件提供建议,从而导致客服工作效率较低、资源浪费严重。
发明内容
有鉴于此,本发明实施例提供一种文本匹配的方法和装置,能够确定与当前事件的文本匹配的历史文本,从而为解决当前事件提供建议。
为实现上述目的,根据本发明的一个方面,提供了一种文本匹配的方法。
本发明实施例的文本匹配的方法包括:确定当前文本的至少一个特征词,根据所述至少一个特征词获取所述当前文本的特征向量;利用所述当前文本的特征向量,计算所述当前文本与多个历史文本中的任一历史文本之间的相似度;以及选择与所述当前文本的相似度符合预设规则的历史文本作为所述当前文本的匹配文本。
可选地,所述根据所述至少一个特征词获取所述当前文本的特征向量包括:计算所述至少一个特征词中的每一个在所述当前文本的权重值,生成所述当前文本的特征向量。
可选地,所述方法进一步包括:根据下列公式计算所述当前文本的特征词在所述当前文本的权重值;
其中,i为正整数,Wi1为所述当前文本的第i个特征词在所述当前文本的权重值,ti1为所述第i个特征词在所述当前文本的出现概率,di1为文本库中包含所述第i个特征词的文本数,N为文本库的总文本数,所述文本库由所述当前文本与历史文本组成。
可选地,所述利用所述当前文本的特征向量,计算所述当前文本与多个历史文本中的任一历史文本之间的相似度包括:获取任一历史文本的特征向量;利用所述当前文本的特征向量、以及所述任一历史文本的特征向量,计算所述当前文本与该历史文本之间的相似度。
可选地,获取任一历史文本的特征向量包括:确定所述任一历史文本的至少一个特征词;计算所述至少一个特征词中的每一个在该历史文本的权重值,生成该历史文本的特征向量。
可选地,所述方法进一步包括:利用下列公式计算所述当前文本与任一历史文本的相似度;
其中,i、n为正整数,Ai为所述当前文本的特征向量的第i分量,Bi为所述任一历史文本的特征向量的第i分量,S为所述当前文本与该历史文本的相似度。
可选地,所述选择与所述当前文本的相似度符合预设规则的历史文本作为所述当前文本的匹配文本包括:
将任一历史文本与所述当前文本的相似度与预设阈值进行比较,选择所述相似度大于所述预设阈值的历史文本;在所述相似度大于所述预设阈值的历史文本中,选择所述相似度最大的历史文本作为所述当前文本的匹配文本。
为实现上述目的,根据本发明的一个方面,提供了一种文本匹配的装置。
本发明实施例的文本匹配的装置包括:特征向量获取模块,用于确定当前文本的至少一个特征词,根据所述至少一个特征词获取所述当前文本的特征向量;匹配模块,用于利用所述当前文本的特征向量,计算所述当前文本与多个历史文本中的任一历史文本之间的相似度;以及选择与所述当前文本的相似度符合预设规则的历史文本作为所述当前文本的匹配文本。
可选地,所述特征向量获取模块用于:计算所述至少一个特征词中的每一个在所述当前文本的权重值,生成所述当前文本的特征向量。
可选地,所述特征向量获取模块用于:根据下列公式计算所述当前文本的特征词在所述当前文本的权重值;
其中,i为正整数,Wi1为所述当前文本的第i个特征词在所述当前文本的权重值,ti1为所述第i个特征词在所述当前文本的出现概率,di1为文本库中包含所述第i个特征词的文本数,N为文本库的总文本数,所述文本库由所述当前文本与历史文本组成。
可选地,所述匹配模块用于:获取任一历史文本的特征向量;利用所述当前文本的特征向量、以及所述任一历史文本的特征向量,计算所述当前文本与该历史文本之间的相似度。
可选地,所述匹配模块用于:利用下列公式计算所述当前文本与任一历史文本的相似度;
其中,i、n为正整数,Ai为所述当前文本的特征向量的第i分量,Bi为所述任一历史文本的特征向量的第i分量,S为所述当前文本与该历史文本的相似度。
为实现上述目的,根据本发明的又一方面,提供了一种电子设备。
本发明的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的文本匹配的方法。
为实现上述目的,根据本发明的再一方面,提供了一种计算机可读存储介质。
本发明的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明所提供的文本匹配的方法。
根据本发明的技术方案,上述发明中的一个实施例具有如下优点或有益效果:通过提取CRM事件文本的特征词确定文本的特征向量,实现了文本数据的数字化表示,便于后续的相似度计算;通过基于特征向量的相似度计算,实现了准确判断文本之间匹配程序的效果;通过选取满足预设规则的历史文本作为当前文本的匹配文本,实现了不依赖人工经验的文本自动、快速匹配,进而可以向客服人员自动推送历史参考信息,解决了现有技术中客服人员完全依赖自身经验解决客户问题的缺陷。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的文本匹配的方法的主要步骤示意图;
图2是根据本发明实施例的文本匹配的装置的主要部分的示意图;
图3是现有技术的CRM事件整体流程图;
图4是根据本发明实施例的文本匹配的方法的CRM事件整体流程图;
图5是根据本发明实施例的文本匹配的方法的CRM事件具体流程图;
图6是根据本发明实施例可以应用于其中的示例性***架构图;
图7是用来实现本发明实施例的文本匹配的方法的电子设备的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明的实施例的技术方案通过提取CRM事件文本的特征词确定文本的特征向量,实现了文本数据的数字化表示,便于后续的相似度计算;通过基于特征向量的相似度计算,实现了准确判断文本之间匹配程序的效果;通过选取满足预设规则的历史文本作为当前文本的匹配文本,实现了不依赖人工经验的文本自动、快速匹配,进而可以向客服人员自动推送历史参考信息,解决了现有技术中客服人员完全依赖自身经验解决客户问题的缺陷。
实施例一
图1是根据本实施例的文本匹配的方法的主要步骤示意图。
如图1所示,本发明实施例的文本匹配的方法主要包括如下步骤:
步骤S101:确定当前文本的至少一个特征词,根据所述至少一个特征词获取所述当前文本的特征向量。
在本步骤中,对当前文本进行分词、去禁词操作,即可得到具有实质内容的特征词。在得到当前文本的特征词之后,计算当前文本的每一特征词在当前文本的权重值,即可生成当前文本的特征向量。
具体地,当前文本的特征词在当前文本的权重值可以由以下公式得到:
其中,i为正整数,Wi1为当前文本的第i个特征词在当前文本的权重值,ti1为第i个特征词在当前文本的出现概率,di1为文本库中包含第i个特征词的文本数,N为文本库的总文本数,文本库由所述当前文本与历史文本组成,出现概率ti1为第i个特征词在当前文本的出现次数与文本库中特征词总数的比值。
在本实施例中,在执行步骤S101的之前、同时或之后,可获取多个历史文本中的任一个历史文本的特征向量。具体地,首先获取任一历史文本的特征词,接着计算每一个特征词在该历史文本的权重值,最后根据每一特征词的所述权重值生成该历史文本的特征向量。
实际应用中,历史文本的特征词在该历史文本的权重值可以由以下公式得到:
其中,i为正整数,Wi2为任一历史文本的第i个特征词在该历史文本的权重值,ti2为第i个特征词在该历史文本的出现概率,di2为文本库中包含所述第i个特征词的文本数,出现概率ti2为第i个特征词在该历史文本的出现次数与文本库中特征词总数的比值。
可以理解的是,特征词的权重值可以表示特征词在文本中的重要程度,由多个特征词的权重值组成的向量由此可作为文本的特征向量用于匹配判断。一般地,特征词在文本中的出现概率越高,其权重值越大;同时,特征词在文本库中出现的次数越多,说明其独特性越低,故其权重值越小,因此,当前文本与历史文本的特征词的权重值可以通过上述公式Wi1、Wi2计算得到。
特别地,当前文本特征向量与任一历史文本的特征向量均以特征词作为向量维度,以该特征词的权重值作为该向量维度的分量。同时,当前文本特征向量与任一历史文本的特征向量均为K维向量,K为当前文本与历史文本的特征词总数,K为正整数。在生成文本的特征向量时,在该文本包含的特征词的向量维度,以该特征词的权重值作为该向量维度的分量;在该文本不包含的特征词的向量维度,其分量为零。
需要说明的是,在本步骤中,获得当前文本与历史文本的特征向量之后,还可保存特征向量用于后续匹配。换言之,在后续每一次匹配过程中,并不会对历史文本重复特征向量的上述计算步骤,而是根据保存的特征向量直接得到当前匹配过程的特征向量。实际应用中,如果下一次匹配过程的当前文本的特征词均包含在文本库中,则各历史文本的特征向量不变;如果如果下一次匹配过程的当前文本存在文本库中没有的特征词,则在保存的各历史文本的特征向量中增加新特征词维度的零分量即形成各历史文本的当前特征向量。
步骤S102:利用当前文本的特征向量,计算所述当前文本与多个历史文本中的任一历史文本之间的相似度;选择与当前文本的相似度符合预设规则的历史文本作为当前文本的匹配文本。
在本步骤中,可利用当前文本的特征向量以及任一历史文本的特征向量计算当前文本与该历史文本之间的相似度。
具体地,在本步骤中,通过下列公式计算当前文本与任一历史文本之间的相似度:
其中,n为正整数,Ai为当前文本的特征向量的第i分量,Bi为任一历史文本的特征向量的第i分量,S为当前文本与该历史文本的相似度。
在本发明实施例中,预设规则为:将任一历史文本与当前文本的相似度与预设阈值进行比较,确定相似度大于预设阈值的历史文本;在相似度大于预设阈值的历史文本中,选择相似度最大的历史文本作为当前文本的匹配文本。可以理解的是,预设规则可以根据实际需要灵活设置,例如:也可以直接选择与当前文本的相似度最大的历史文本作为当前文本的匹配文本。
通过上述步骤,即可从历史文本中确定与当前文本最为匹配的文本,进而可从匹配文本中获取相关信息。
根据本发明实施例的文本匹配的方法可以看出,因为采用了通过提取CRM事件文本的特征词确定文本的特征向量的技术手段,达到了实现文本数据的数字化表示,便于后续的相似度计算的效果;通过基于特征向量的相似度计算,实现了准确判断文本之间匹配程序的效果;通过选取满足预设规则的历史文本作为当前文本的匹配文本,实现了不依赖人工经验的文本自动、快速匹配,进而可以向客服人员自动推送历史参考信息,解决了现有技术中客服人员完全依赖自身经验解决客户问题的缺陷。
实施例二
图2是根据本实施例的文本匹配的装置的主要部分的示意图。
如图2所示,本实施例的文本匹配的装置200可包括特征向量获取模块201和匹配模块202。其中:
特征向量获取模块201可用于确定当前文本的至少一个特征词,根据所述至少一个特征词获取所述当前文本的特征向量。
匹配模块202可用于利用所述当前文本的特征向量,计算所述当前文本与多个历史文本中的任一历史文本之间的相似度;选择与所述当前文本的相似度符合预设规则的历史文本作为所述当前文本的匹配文本。
较佳地,在本实施例中,所述特征向量获取模块201可用于:计算所述至少一个特征词中的每一个在所述当前文本的权重值,生成所述当前文本的特征向量。
在本实施例中,所述特征向量获取模块201可用于:根据下列公式计算所述当前文本的特征词在所述当前文本的权重值;
其中,i为正整数,Wi1为所述当前文本的第i个特征词在所述当前文本的权重值,ti1为所述第i个特征词在所述当前文本的出现概率,di1为文本库中包含所述第i个特征词的文本数,N为文本库的总文本数,所述文本库由所述当前文本与历史文本组成。
实际应用中,所述匹配模块202可用于:获取任一历史文本的特征向量;利用所述当前文本的特征向量、以及所述任一历史文本的特征向量,计算所述当前文本与该历史文本之间的相似度。
在本实施例的可选实现方式中,所述匹配模块202可用于:利用下列公式计算所述当前文本与任一历史文本的相似度;
其中,i、n为正整数,Ai为所述当前文本的特征向量的第i分量,Bi为所述任一历史文本的特征向量的第i分量,S为所述当前文本与该历史文本的相似度。
从以上描述可以看出,本发明实施例的文本匹配的装置通过提取CRM事件文本的特征词确定文本的特征向量,实现了文本数据的数字化表示,便于后续的相似度计算;通过基于特征向量的相似度计算,实现了准确判断文本之间匹配程序的效果;通过选取满足预设规则的历史文本作为当前文本的匹配文本,实现了不依赖人工经验的文本自动、快速匹配,进而可以向客服人员自动推送历史参考信息,解决了现有技术中客服人员完全依赖自身经验解决客户问题的缺陷。
实施例三
可以理解的是,本发明实施例的文本匹配的方法可以用于绝大多数技术领域的文本匹配,下面将以CRM事件的文本匹配为例来介绍本发明实施例的文本匹配的方法。需要指出的是,下面的CRM事件文本匹配的具体技术内容并不对本发明实施例的文本匹配的方法形成任何限制。
现有技术的CRM事件处理流程如图3所示,从图3可以看到:首先客户咨询进线,客服人员接线后与客户进行沟通,并记录客户问题和根据经验判断的事件概要类别,生成新的CRM事件。之后***对该CRM事件工单进行派单动作,发送到指定的客服人员。当客服人员接收派单任务后通过对之前***记录的该事件的问题内容描述和事件概要类别,按企业规定的标准化服务流程来解决客户的问题。事件工单处理完成后关闭,该CRM事件存储到CRM事件库中。
上述CRM***只是作为一个流程管理工具,实现事件工单流转和事件记录存储的功能,并未考虑到历史事件工单中承载的有用信息,一线客服人员在服务过程中不断的处理重复性事件,造成工作效率较低与严重的资源浪费。
针对上述问题,本实施例提供如图4所示的CRM事件处理流程。可以看到,在图4中,首先建立文本匹配的装置,在建立新的CRM事件时,将新的CRM事件发送到文本匹配的装置,自动获取匹配信息向解决问题的客服人员提供。在本实施例中,历史CRM事件文本信息包括:编号、事件概要类别文本、问题描述文本及处理结果文本。新的CRM事件文本信息包括:编号、事件概要类别文本、问题描述文本及创建时间。下文将以新的CRM事件的问题描述文本作为当前文本,从历史CRM事件的问题描述文本(即历史文本)中确定匹配文本,进而将匹配文本对应的处理结果文本输出作为客服人员处理新的CRM事件的建议。
具体应用中,上述文本匹配的装置包括:特征向量获取模块及匹配模块。其中:
特征向量获取模块用于采集新的CRM事件与历史CRM事件的文本信息,并确定上述信息中当前文本与历史文本的特征词;根据特征词计算当前文本与历史文本的特征向量。
匹配模块用于根据特征向量计算当前文本与每一历史文本的相似度,并选择相似度符合预设规则的历史文本作为匹配文本。
具体地,特征向量获取模块执行如下步骤:
1.采集新的CRM事件与历史CRM事件的文本信息。
例如:采集的历史CRM事件文本信息如下表所示:
采集的新的CRM事件文本信息如下表所示:
2.对当前文本(即新的CRM事件的问题描述文本)及历史文本(及历史CRM事件的问题描述文本)进行分词、去禁词处理,获得当前文本及历史文本的特征词。
例如:将前例的当前文本及历史文本处理,得到以下特征词:
3.对于历史文本与当前文本中的每一文本,计算其中每一特征词在该文本中的权重值。
具体地,通过以下公式计算权重值:
其中,i为正整数,Wi为文本的第i个特征词在该文本的权重值,ti为该特征词在该文本的出现概率,di为文本库中包含该特征词的文本数,N为文本库的总文本数,文本库由当前文本与历史文本组成,出现概率ti为该特征词在该文本的出现次数与文本库中的特征词总数的比值。
4.通过特征词的权重值构造文本的特征向量。
例如:对上例的编号为1的历史文本与当前文本进行计算,可以得到如下表所示的特征向量:
权重Wi 客户 来电 反馈 收到 维修 更换 硬件 强列 要求 换货 售后 核实 接受 催促 审核
d1 0.055 0 0.05 0.018 0.05 0.05 0.05 0.05 0.018 0.05 0.05 0.05 0.05 0.018 0.018
d432 0.018 0.05 0 0.018 0 0 0 0 0.018 0 0 0 0 0.018 0.018
即该历史文本与当前文本的特征向量分别为:
d1={0.055,0,0.05,0.018,0.05,0.05,0.05,0.05,0.018,0.05,0.05,0.05,
0.05,0.018,0.018}
d432={0.018,0.05,0,0.018,0,0,0,0,0.018,0,0,0,0,0.018,0.018}
匹配模块执行以下步骤:
1.利用下列公式计算任一历史文本与当前文本的相似度。
其中,n为正整数,Ai为所述当前文本的特征向量的第i分量,Bi为所述任一历史文本的特征向量的第i分量,S为所述当前文本与该历史文本的相似度。
例如:对上例的d1与d432进行计算,相似度为0.22。
2.将相似度符合预设规则的历史文本作为当前文本的匹配文本。一般地,预设规则可以是:首先将相似度大于预设阈值的历史文本选取,之后从中选取相似度最大的历史文本作为匹配文本输出。
3.将匹配文本对应的处理文本在图5中的解决环节向客服人员输出,作为解决问题的建议。
通过特征向量获取模块及匹配模块的上述步骤,本实施例实现了当前文本的自动匹配,充分利用了历史事件中的有价值信息,大大提升了客服人员工作效率与工作质量。
图5是根据本发明实施例的文本匹配的方法的CRM事件具体流程图。从图5中可以看到特征向量获取模块及匹配模块的具体执行步骤。
需要强调的是,本实施例提供的文本匹配的方法在CRM***中的应用并不对本发明进行任何限制。事实上,本发明的文本匹配的方法可以用于具有特征词、历史文本特点的任何技术领域与技术环境。例如:在互联网领域的搜索文本商品推荐、用户咨询文本回复、用户满意度评价处理等,在出版领域对读者建议的回复等,本发明的文本匹配的方法均可适用。
图6示出了可以应用本发明实施例的文本匹配的方法或文本匹配的装置的示例性***架构600。
如图6所示,***架构600可以包括终端设备601、602、603,网络604和服务器605(此架构仅仅是示例,具体架构中包含的组件可以根据申请具体情况调整)。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的文本匹配的方法一般由服务器605执行,相应地,文本匹配的装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
本发明还提供了一种电子设备。
本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的文本匹配的方法。
下面参考图7,其示出了适于用来实现本发明实施例的电子设备的计算机***700的结构示意图。图7示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机***700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有计算机***700操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文的主要步骤图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在上述实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元701执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括样本转化率计算模块和置信区间确定模块。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,特征向量获取模块还可以被描述为“向所连接的匹配模块发送当前文本的特征向量的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中的。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该设备执行时,使得该设备执行的步骤包括:确定当前文本的至少一个特征词,根据所述至少一个特征词获取所述当前文本的特征向量;利用所述当前文本的特征向量,计算所述当前文本与多个历史文本中的任一历史文本之间的相似度;以及选择与所述当前文本的相似度符合预设规则的历史文本作为所述当前文本的匹配文本。
根据本发明实施例的技术方案,通过提取CRM事件文本的特征词确定文本的特征向量,实现了文本数据的数字化表示,便于后续的相似度计算;通过基于特征向量的相似度计算,实现了准确判断文本之间匹配程序的效果;通过选取满足预设规则的历史文本作为当前文本的匹配文本,实现了不依赖人工经验的文本自动、快速匹配,进而可以向客服人员自动推送历史参考信息,解决了现有技术中客服人员完全依赖自身经验解决客户问题的缺陷。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (14)

1.一种文本匹配的方法,其特征在于,包括:
确定当前文本的至少一个特征词,根据所述至少一个特征词获取所述当前文本的特征向量;
利用所述当前文本的特征向量,计算所述当前文本与多个历史文本中的任一历史文本之间的相似度;以及选择与所述当前文本的相似度符合预设规则的历史文本作为所述当前文本的匹配文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个特征词获取所述当前文本的特征向量包括:
计算所述至少一个特征词中的每一个在所述当前文本的权重值,生成所述当前文本的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述方法进一步包括:根据下列公式计算所述至少一个特征词在所述当前文本的权重值;
<mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>=</mo> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>&amp;times;</mo> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mn>1</mn> <mo>+</mo> <mi>N</mi> </mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> </mfrac> <mo>)</mo> </mrow> </mrow>
其中,i为正整数,Wi1为所述当前文本的第i个特征词在所述当前文本的权重值,ti1为所述第i个特征词在所述当前文本的出现概率,di1为文本库中包含所述第i个特征词的文本数,N为文本库的总文本数,所述文本库由所述当前文本与历史文本组成。
4.根据权利要求1所述的方法,其特征在于,所述利用所述当前文本的特征向量,计算所述当前文本与多个历史文本中的任一历史文本之间的相似度包括:
获取任一历史文本的特征向量;
利用所述当前文本的特征向量、以及所述任一历史文本的特征向量,计算所述当前文本与该历史文本之间的相似度。
5.根据权利要求4所述的方法,其特征在于,获取任一历史文本的特征向量包括:
确定所述任一历史文本的至少一个特征词;
计算所述至少一个特征词中的每一个在该历史文本的权重值,生成该历史文本的特征向量。
6.根据权利要求4所述的方法,其特征在于,所述方法进一步包括:利用下列公式计算所述当前文本与任一历史文本的相似度;
<mrow> <mi>S</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>&amp;times;</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <mo>(</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <msub> <mi>A</mi> <mi>i</mi> </msub> <mn>2</mn> </msup> <mo>)</mo> <mo>(</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <msub> <mi>B</mi> <mi>i</mi> </msub> <mn>2</mn> </msup> <mo>)</mo> </mrow> </msqrt> </mfrac> </mrow>
其中,i、n为正整数,Ai为所述当前文本的特征向量的第i分量,Bi为所述任一历史文本的特征向量的第i分量,S为所述当前文本与该历史文本的相似度。
7.根据权利要求1-6任一所述的方法,其特征在于,所述选择与所述当前文本的相似度符合预设规则的历史文本作为所述当前文本的匹配文本包括:
将任一历史文本与所述当前文本的相似度与预设阈值进行比较,选择所述相似度大于所述预设阈值的历史文本;
在所述相似度大于所述预设阈值的历史文本中,选择所述相似度最大的历史文本作为所述当前文本的匹配文本。
8.一种文本匹配的装置,其特征在于,包括:
特征向量获取模块,用于确定当前文本的至少一个特征词,根据所述至少一个特征词获取所述当前文本的特征向量;
匹配模块,用于利用所述当前文本的特征向量,计算所述当前文本与多个历史文本中的任一历史文本之间的相似度;选择与所述当前文本的相似度符合预设规则的历史文本作为所述当前文本的匹配文本。
9.根据权利要求8所述的装置,其特征在于,所述特征向量获取模块用于:
计算所述至少一个特征词中的每一个在所述当前文本的权重值,生成所述当前文本的特征向量。
10.根据权利要求9所述的装置,其特征在于,所述特征向量获取模块用于:
根据下列公式计算所述至少一个特征词在所述当前文本的权重值;
<mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>=</mo> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>&amp;times;</mo> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mn>1</mn> <mo>+</mo> <mi>N</mi> </mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> </mfrac> <mo>)</mo> </mrow> </mrow>
其中,i为正整数,Wi1为所述当前文本的第i个特征词在所述当前文本的权重值,ti1为所述第i个特征词在所述当前文本的出现概率,di1为文本库中包含所述第i个特征词的文本数,N为文本库的总文本数,所述文本库由所述当前文本与历史文本组成。
11.根据权利要求8所述的装置,其特征在于,所述匹配模块用于:
获取任一历史文本的特征向量;利用所述当前文本的特征向量、以及所述任一历史文本的特征向量,计算所述当前文本与该历史文本之间的相似度。
12.根据权利要求8所述的装置,其特征在于,所述匹配模块用于:
利用下列公式计算所述当前文本与任一历史文本的相似度;
<mrow> <mi>S</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>&amp;times;</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <mo>(</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <msub> <mi>A</mi> <mi>i</mi> </msub> <mn>2</mn> </msup> <mo>)</mo> <mo>(</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <msub> <mi>B</mi> <mi>i</mi> </msub> <mn>2</mn> </msup> <mo>)</mo> </mrow> </msqrt> </mfrac> </mrow>
其中,i、n为正整数,Ai为所述当前文本的特征向量的第i分量,Bi为所述任一历史文本的特征向量的第i分量,S为所述当前文本与该历史文本的相似度。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201710607397.4A 2017-07-24 2017-07-24 文本匹配的方法和装置 Pending CN107346344A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710607397.4A CN107346344A (zh) 2017-07-24 2017-07-24 文本匹配的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710607397.4A CN107346344A (zh) 2017-07-24 2017-07-24 文本匹配的方法和装置

Publications (1)

Publication Number Publication Date
CN107346344A true CN107346344A (zh) 2017-11-14

Family

ID=60256940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710607397.4A Pending CN107346344A (zh) 2017-07-24 2017-07-24 文本匹配的方法和装置

Country Status (1)

Country Link
CN (1) CN107346344A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958061A (zh) * 2017-12-01 2018-04-24 厦门快商通信息技术有限公司 一种文本相似度的计算方法及计算机可读存储介质
CN109102157A (zh) * 2018-07-11 2018-12-28 交通银行股份有限公司 一种基于深度学习的银行工单派单方法及***
CN109242516A (zh) * 2018-09-06 2019-01-18 北京京东尚科信息技术有限公司 处理服务单的方法和装置
CN110457430A (zh) * 2019-07-02 2019-11-15 北京瑞卓喜投科技发展有限公司 一种文本的溯源检测方法、装置及设备
CN113762846A (zh) * 2020-10-22 2021-12-07 北京京东振世信息技术有限公司 一种面单文本判别方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207899A (zh) * 2013-03-19 2013-07-17 新浪网技术(中国)有限公司 文本文件推荐方法及***
CN103389987A (zh) * 2012-05-09 2013-11-13 阿里巴巴集团控股有限公司 文本相似性比较方法及***
CN104239512A (zh) * 2014-09-16 2014-12-24 电子科技大学 一种文本推荐方法
CN105335496A (zh) * 2015-10-22 2016-02-17 国网山东省电力公司电力科学研究院 基于余弦相似度文本挖掘算法的客服重复来电处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389987A (zh) * 2012-05-09 2013-11-13 阿里巴巴集团控股有限公司 文本相似性比较方法及***
CN103207899A (zh) * 2013-03-19 2013-07-17 新浪网技术(中国)有限公司 文本文件推荐方法及***
CN104239512A (zh) * 2014-09-16 2014-12-24 电子科技大学 一种文本推荐方法
CN105335496A (zh) * 2015-10-22 2016-02-17 国网山东省电力公司电力科学研究院 基于余弦相似度文本挖掘算法的客服重复来电处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
段利国 等: "综合句法结构及语义相似度的问题推荐技术", 《计算机科学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958061A (zh) * 2017-12-01 2018-04-24 厦门快商通信息技术有限公司 一种文本相似度的计算方法及计算机可读存储介质
CN109102157A (zh) * 2018-07-11 2018-12-28 交通银行股份有限公司 一种基于深度学习的银行工单派单方法及***
CN109242516A (zh) * 2018-09-06 2019-01-18 北京京东尚科信息技术有限公司 处理服务单的方法和装置
CN110457430A (zh) * 2019-07-02 2019-11-15 北京瑞卓喜投科技发展有限公司 一种文本的溯源检测方法、装置及设备
CN113762846A (zh) * 2020-10-22 2021-12-07 北京京东振世信息技术有限公司 一种面单文本判别方法和装置
CN113762846B (zh) * 2020-10-22 2024-04-16 北京京东振世信息技术有限公司 一种面单文本判别方法和装置

Similar Documents

Publication Publication Date Title
CN107105031A (zh) 信息推送方法和装置
CN107346344A (zh) 文本匹配的方法和装置
CN108805594B (zh) 信息推送方法和装置
CN107247786A (zh) 用于确定相似用户的方法、装置和服务器
CN111125574B (zh) 用于生成信息的方法和装置
CN108090162A (zh) 基于人工智能的信息推送方法和装置
CN106649890A (zh) 数据存储方法和装置
CN107609890A (zh) 一种订单跟踪的方法和装置
CN109840730B (zh) 用于数据预测的方法及装置
CN107944481A (zh) 用于生成信息的方法和装置
CN107590255A (zh) 信息推送方法和装置
CN115002200B (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
CN112016796B (zh) 综合风险评分请求处理方法、装置及电子设备
CN111145009A (zh) 用户贷后风险评估方法、装置及电子设备
CN106919711A (zh) 基于人工智能的标注信息的方法和装置
CN112016792A (zh) 用户资源配额确定方法、装置及电子设备
CN110473042B (zh) 用于获取信息的方法及装置
CN111582314A (zh) 目标用户确定方法、装置及电子设备
CN109190123A (zh) 用于输出信息的方法和装置
CN112348460A (zh) 协作任务的资源额度调整方法、装置及电子设备
CN110866625A (zh) 促销指标信息生成方法和装置
CN110309293A (zh) 文本推荐方法和装置
CN107291835A (zh) 一种搜索词的推荐方法和装置
CN107704357A (zh) 日志生成方法和装置
CN112749323A (zh) 一种构建用户画像的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171114