CN113988045A - 文本相似度确定方法、文本处理方法、相应的装置和设备 - Google Patents

文本相似度确定方法、文本处理方法、相应的装置和设备 Download PDF

Info

Publication number
CN113988045A
CN113988045A CN202111620649.XA CN202111620649A CN113988045A CN 113988045 A CN113988045 A CN 113988045A CN 202111620649 A CN202111620649 A CN 202111620649A CN 113988045 A CN113988045 A CN 113988045A
Authority
CN
China
Prior art keywords
participle
text
similarity
determining
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111620649.XA
Other languages
English (en)
Other versions
CN113988045B (zh
Inventor
许斯军
田正中
李小可
张俊鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Koubei Network Technology Co Ltd
Original Assignee
Zhejiang Koubei Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Koubei Network Technology Co Ltd filed Critical Zhejiang Koubei Network Technology Co Ltd
Priority to CN202111620649.XA priority Critical patent/CN113988045B/zh
Publication of CN113988045A publication Critical patent/CN113988045A/zh
Application granted granted Critical
Publication of CN113988045B publication Critical patent/CN113988045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种文本相似度确定方法、文本处理方法、相应的装置和设备,该方法采用针对第一分词集合中的每个分词,获取该分词的权重,并且确定该分词到第二分词集合中距离最近的分词的距离,以及针对第二分词集合中的每个分词,获取该分词的权重,并且确定该分词到第一分词集合中距离最近的分词的距离,进而根据第一分词集合中的各个分词对应的权重和对应的距离以及第二分词集合中的各个分词对应的权重和对应的距离,确定第一文本和第二文本的相似度,通过从第一分词集合的角度和第二分词集合的角度联合来确定两个文本间的相似度,并结合表征每个分词重要性的权重,能够显著提高相似度确定结果的准确性。

Description

文本相似度确定方法、文本处理方法、相应的装置和设备
技术领域
本申请涉及自然语言处理技术领域,具体而言,本申请涉及一种文本相似度确定方法、文本处理方法、相应的装置和设备。
背景技术
文本相似度计算是一种常见的自然语言处理(Natural Language Processing,NLP)手段,其目的是确定出不同文本之间的相关程度,在数据挖掘、数据分类、信息检索、信息过滤、机器翻译等领域具有十分广泛的应用前景。
现有技术中,如何对各式各样的文本进行相似度计算一直是业界的热点研究难题。虽然现有技术中已经有多种不同的文本相似度确定方法,但是每种方法的效果都有待改善。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有文本相似度确定方法效果欠佳的技术缺陷。
第一方面,本申请提供了一种文本相似度确定方法,该方法包括:
获取待确定相似度的第一文本和第二文本;
对第一文本和第二文本分别进行分词处理,得到第一文本对应第一分词集合和第二文本对应的第二分词集合;
针对第一分词集合中的每个分词,获取该分词的权重,并且确定该分词到第二分词集合中距离最近的分词的距离;
针对第二分词集合中的每个分词,获取该分词的权重,并且确定该分词到第一分词集合中距离最近的分词的距离;
根据第一分词集合中的各个分词对应的权重和对应的距离以及第二分词集合中的各个分词对应的权重和对应的距离,确定第一文本和第二文本的相似度。
在一种可选的实现方式中,根据第一分词集合中的各个分词对应的权重和对应的距离以及第二分词集合中的各个分词对应的权重和对应的距离,确定第一文本和第二文本的相似度,包括:
对两个分词集合中的各个分词对应的权重和对应的距离的乘积求和,得到第一求和结果;
对两个分词集合中的各个分词对应的权重求和,得到第二求和结果;
将第一求和结果和第二求和结果相除,得到用于表示两个文本的相似度的最终距离。
在一种可选的实现方式中,对两个分词集合中的各个分词对应的权重和对应的距离的乘积求和,得到第一求和结果,包括:
在两个分词集合中分别提取权重大于第一阈值的分词,得到两个分词集合分别对应的分词子集合;
若两个分词子集合没有交集,则确定两个分词集合中的每个分词与另一个分词集合中距离最近的分词是否相似,两个分词相似是指两个分词的距离小于第二阈值;
对于确定出与另一个分词集合中距离最近的分词相似的分词,将预定数值与该分词的权重相减作为该分词的反转权重;
对于确定出与另一个分词集合中距离最近的分词不相似的分词,将该分词的权重作为该分词的反转权重;
对两个分词集合中的各个分词对应的反转权重和对应的距离的乘积求和,得到第一求和结果。
在一种可选的实现方式中,针对第一分词集合和第二分词集合中的每个分词,确定该分词到另一个分词集合中距离最近的分词的距离,包括:
根据预置的近义词词库和/或等价词词库,确定另一个分词集合中是否存在该分词的近义词和/或等价词,其中,该分词的等价词为与该分词可以互相替换的词;
若存在,则将该分词到另一个分词集合中距离最近的分词的距离确定为预设距离。
在一种可选的实现方式中,针对第一分词集合和第二分词集合中的每个分词,确定该分词到另一个分词集合中距离最近的分词的距离,包括:
通过预先训练好的word2vec模型确定该分词的词向量和另一个分词集合中各个分词的词向量;
计算该分词的词向量和另一个分词集合中每个分词的词向量之间的词向量距离,词向量距离包括余弦距离、欧式距离和曼哈顿距离中的任一项;
在计算出的各个词向量距离中确定出最小值,作为该分词到另一个分词集合中距离最近的分词的距离。
在一种可选的实现方式中,针对第一分词集合和第二分词集合中的每个分词,获取该分词的权重,包括:
在预置的词权重标准库中查询得到该分词的权重。
在一种可选的实现方式中,对第一文本和第二文本分别进行分词处理,包括:
基于预置的标准词库和原子词库,对两个文本分别进行分词处理;
其中,原子词库中包括的原子短语为无法***其他语句的完整短语。
在一种可选的实现方式中,对第一文本和第二文本分别进行分词处理之前,还包括:
采用预设的数据清洗算法,对两个文本进行数据清洗。
第二方面,本申请提供了一种文本处理方法,该方法包括:
获取问题文本;
根据第一方面所示的文本相似度确定方法,确定问题文本分别与至少一个预设文本之间的相似度,得到相似度最高的目标预设文本;
基于目标预设文本,对问题文本进行分配处理。
在一种可选的实现方式中,预设文本为频道属性描述文本;
基于目标预设文本,对问题文本进行分配处理,包括:
获取目标频道属性描述文本所属的目标频道;
将问题文本分配给目标频道。
在一种可选的实现方式中,预设文本为负责人职责描述文本和/或负责人历史问题文本;
基于目标预设文本,对问题文本进行分配处理,包括:
获取目标负责人职责描述文本和/或目标负责人历史问题文本所属的目标负责人;
将问题文本分配给目标负责人。
在一种可选的实现方式中,当预设文本为负责人职责描述文本和负责人历史问题文本时,确定问题文本分别与至少一个预设文本之间的相似度,得到相似度最高的目标预设文本,包括:
确定问题文本与至少一个负责人职责描述文本之间的相似度,得到对应的至少一个第一相似度确定结果,并确定问题文本与至少一个负责人历史问题文本之间的相似度,得到对应的至少一个第二相似度确定结果;
基于至少一对相对应的第一相似度确定结果和第二相似度确定结果,确定对应的至少一个综合相似度确定结果;
确定至少一个综合相似度确定结果中相似度最高的相似度确定结果,得到相似度最高的目标负责人职责描述文本和目标负责人历史问题文本。
在一种可选的实现方式中,针对每对第一相似度确定结果和第二相似度确定结果,基于该对第一相似度确定结果和第二相似度确定结果,确定对应的综合相似度确定结果,包括:
获取第一相似度确定结果的第一权重和第二相似度确定结果的第二权重;
基于第一权重、第二权重,将该对第一相似度确定结果和第二相似度确定结果进行加权求和,得到对应的综合相似度确定结果。
在一种可选的实现方式中,问题文本为原声问题文本,将问题文本分配给目标频道之后,还包括:
根据第一方面所示的文本相似度确定方法,对原声问题文本进行聚类,生成正式问题文本。
第三方面,本申请提供了一种文本相似度确定装置,该装置包括:
文本获取模块,用于获取待确定相似度的第一文本和第二文本;
分词模块,用于对第一文本和第二文本分别进行分词处理,得到第一文本对应第一分词集合和第二文本对应的第二分词集合;
第一获取与确定模块,用于针对第一分词集合中的每个分词,获取该分词的权重,并且确定该分词到第二分词集合中距离最近的分词的距离;
第二获取与确定模块,用于针对第二分词集合中的每个分词,获取该分词的权重,并且确定该分词到第一分词集合中距离最近的分词的距离;
相似度确定模块,用于根据第一分词集合中的各个分词对应的权重和对应的距离以及第二分词集合中的各个分词对应的权重和对应的距离,确定第一文本和第二文本的相似度。
在一种可选的实现方式中,相似度确定模块在用于根据第一分词集合中的各个分词对应的权重和对应的距离以及分词集合中的各个分词对应的权重和对应的距离,确定第一文本和第二文本的相似度时,具体用于:
对两个分词集合中的各个分词对应的权重和对应的距离的乘积求和,得到第一求和结果;
对两个分词集合中的各个分词对应的权重求和,得到第二求和结果;
将第一求和结果和第二求和结果相除,得到用于表示两个文本的相似度的最终距离。
在一种可选的实现方式中,相似度确定模块在用于对两个分词集合中的各个分词对应的权重和对应的距离的乘积求和,得到第一求和结果时,具体用于:
在两个分词集合中分别提取权重大于第一阈值的分词,得到两个分词集合分别对应的分词子集合;
若两个分词子集合没有交集,则确定两个分词集合中的每个分词与另一个分词集合中距离最近的分词是否相似,两个分词相似是指两个分词的距离小于第二阈值;
对于确定出与另一个分词集合中距离最近的分词相似的分词,将预定数值与该分词的权重相减作为该分词的反转权重;
对于确定出与另一个分词集合中距离最近的分词不相似的分词,将该分词的权重作为该分词的反转权重;
对两个分词集合中的各个分词对应的反转权重和对应的距离的乘积求和,得到第一求和结果。
在一种可选的实现方式中,针对第一分词集合和第二分词集合中的每个分词,第一获取与确定模块和第二获取与确定模块在用于确定该分词到另一个分词集合中距离最近的分词的距离时,具体用于:
根据预置的近义词词库和/或等价词词库,确定另一个分词集合中是否存在该分词的近义词和/或等价词,其中,该分词的等价词为与该分词可以互相替换的词;
若存在,则将该分词到另一个分词集合中距离最近的分词的距离确定为预设距离。
在一种可选的实现方式中,针对第一分词集合和第二分词集合中的每个分词,第一获取与确定模块和第二获取与确定模块在用于确定该分词到另一个分词集合中距离最近的分词的距离时,具体用于:
通过预先训练好的word2vec模型确定该分词的词向量和另一个分词集合中各个分词的词向量;
计算该分词的词向量和另一个分词集合中每个分词的词向量之间的词向量距离,词向量距离包括余弦距离、欧式距离和曼哈顿距离中的任一项;
在计算出的各个词向量距离中确定出最小值,作为该分词到另一个分词集合中距离最近的分词的距离。
在一种可选的实现方式中,针对第一分词集合和第二分词集合中的每个分词,第一获取与确定模块和第二获取与确定模块在用于获取该分词的权重时,具体用于:
在预置的词权重标准库中查询得到该分词的权重。
在一种可选的实现方式中,分词模块在用于对第一文本和第二文本分别进行分词处理时,具体用于:
基于预置的标准词库和原子词库,对两个文本分别进行分词处理;
其中,原子词库中包括的原子短语为无法***其他语句的完整短语。
在一种可选的实现方式中,该文本相似度确定装置还可以包括数据清洗模块,在分词模块对第一文本和第二文本分别进行分词处理之前,数据清洗模块用于采用预设的数据清洗算法,对两个文本进行数据清洗。
第四方面,本申请提供了一种文本处理装置,该装置包括:
获取模块,用于获取问题文本;
确定模块,用于根据第一方面所示的文本相似度确定方法,确定问题文本分别与至少一个预设文本之间的相似度,得到相似度最高的目标预设文本;
分配模块,用于基于目标预设文本,对问题文本进行分配处理。
在一种可选的实现方式中,预设文本为频道属性描述文本;
分配模块在用于基于目标预设文本,对问题文本进行分配处理时,具体用于:
获取目标频道属性描述文本所属的目标频道;
将问题文本分配给目标频道。
在一种可选的实现方式中,预设文本为负责人职责描述文本和/或负责人历史问题文本;
分配模块在用于基于目标预设文本,对问题文本进行分配处理时,具体用于:
获取目标负责人职责描述文本和/或目标负责人历史问题文本所属的目标负责人;
将问题文本分配给目标负责人。
在一种可选的实现方式中,当预设文本为负责人职责描述文本和负责人历史问题文本时,确定模块在用于确定问题文本分别与至少一个预设文本之间的相似度,得到相似度最高的目标预设文本时,具体用于:
确定问题文本与至少一个负责人职责描述文本之间的相似度,得到对应的至少一个第一相似度确定结果,并确定问题文本与至少一个负责人历史问题文本之间的相似度,得到对应的至少一个第二相似度确定结果;
基于至少一对相对应的第一相似度确定结果和第二相似度确定结果,确定对应的至少一个综合相似度确定结果;
确定至少一个综合相似度确定结果中相似度最高的相似度确定结果,得到相似度最高的目标负责人职责描述文本和目标负责人历史问题文本。
在一种可选的实现方式中,确定模块在用于针对每对第一相似度确定结果和第二相似度确定结果,基于该对第一相似度确定结果和第二相似度确定结果,确定对应的综合相似度确定结果时,具体用于:
获取第一相似度确定结果的第一权重和第二相似度确定结果的第二权重;
基于第一权重、第二权重,将该对第一相似度确定结果和第二相似度确定结果进行加权求和,得到对应的综合相似度确定结果。
在一种可选的实现方式中,问题文本为原声问题文本,该文本处理装置还可以包括生成模块,
在分配模块将问题文本分配给目标频道之后,生成模块用于根据上述任一实施例提供的文本相似度确定方法,对原声问题文本进行聚类,生成正式问题文本。
第五方面,本申请提供了一种电子设备,该电子设备包括:
处理器和存储器,存储器存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现本申请的第一方面所示的方法。
第六方面,本申请还提供了一种电子设备,该电子设备包括:
处理器和存储器,存储器存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现本申请的第二方面所示的方法。
第七方面,本申请提供了一种计算机可读存储介质,该计算机存储介质存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现本申请的第一方面所示的方法。
第八方面,本申请还提供了一种计算机可读存储介质,该计算机存储介质存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现本申请的第二方面所示的方法。
本申请提供的文本相似度确定方法、文本处理方法、相应的装置和设备,通过从第一分词集合的角度和第二分词集合的角度联合来确定两个文本间的相似度,并结合表征每个分词重要性的权重,能够显著提高相似度确定结果的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种文本相似度确定方法的流程示意图;
图2为本申请实施例提供的一种文本处理方法的流程示意图;
图3为本申请实施例提供的一种文本相似度确定装置的结构示意图;
图4为本申请实施例提供的一种文本处理装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面以具体的实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
本申请实施例中提供了一种文本相似度确定方法,如图1所示,该方法包括:
步骤S101:获取待确定相似度的第一文本和第二文本。
可选地,第一文本和第二文本是短文本。其中,短文本指的是文本字数较少的文本,例如文本字数在两百以内的文本,又例如一个句子也是短文本。示例性地,用户提出的问题通常包含的字数较少,可以作为一个短文本。本申请实施例不对文本所应用的领域或所采用的语言进行限定。
本申请实施例中,确定两个短文本的相似度,即确定两个短文本的相似程度。
可以理解的是,第一文本和第二文本中的“第一”、“第二”仅表示对待确定相似度的两个不同文本进行区分,而不能理解为对文本内容或字数的限定。
步骤S102:对第一文本和第二文本分别进行分词处理,得到第一文本对应第一分词集合和第二文本对应的第二分词集合。
其中,分词处理也可以称为切词处理,实际应用中,可以采用的分词方式有多种,本申请实施例在此不做限定。
本申请实施例中,得到每个分词集合中可以包括一个或多个词。例如第一分词集合可以包括M个词{X1,X2,……,Xm},第二分词集合可以包括N个词{Y1,Y2,……,Yn},M和N均为不小于1的整数。
可以理解的是,第一分词集合和第二分词集合中的“第一”、“第二”仅表示对不同文本得到的不同分词集合进行区分,而不能理解为对集合内词的数量或内容的限定。
步骤S103:针对第一分词集合中的每个分词,获取该分词的权重,并且确定该分词到第二分词集合中距离最近的分词的距离。
例如对于第一分词集合中的分词X1,获取X1对应的权重A1,并确定X1到第二分词集合的分词{Y1,Y2,……,Yn}中距离最近的分词的距离,例如X1与第二分词集合中Yn距离最近,则获取X1与Yn的距离作为X1到第二分词集合的距离,记为D11(即为X1对应的距离)。
对于第一分词集合中的其他分词{X2,……,Xm},均进行与X1相同的处理,得到每个分词分别对应的权重{A2,……,Am}以及对应的距离{D12,……,D1m}。
步骤S104:针对第二分词集合中的每个分词,获取该分词的权重,并且确定该分词到第一分词集合中距离最近的分词的距离。
例如对于第二分词集合中的分词Y1,获取Y1对应的权重B1,并确定Y1到第一分词集合的分词{X1,X2,……,Xm}中距离最近的分词的距离,例如Y1与第一分词集合中Xm距离最近,则获取Y1与Xm的距离作为Y1到第一分词集合的距离,记为D21(即为Y1对应的距离)。
对于第二分词集合中的其他分词{ Y2,……,Yn},均进行与Y1相同的处理,得到每个分词分别对应的权重{B2,……,Bn}以及对应的距离{D22,……,D2n}。
步骤S105:根据第一分词集合中的各个分词对应的权重和对应的距离以及第二分词集合中的各个分词对应的权重和对应的距离,确定第一文本和第二文本的相似度。
接上例,即根据第一分词集合中的各个分词{X1,X2,……,Xm}对应的权重{ A1,A2,……,Am}和对应的距离{ D11,D12,……,D1m},以及第二分词集合中的各个分词{ Y1,Y2,……,Yn}对应的权重{ B1,B2,……,Bn}和对应的距离{ D21,D22,……,D2n},确定第一文本和第二文本的相似度。
本申请实施例提供的文本相似度确定方法,通过从第一分词集合的角度和第二分词集合的角度联合来确定两个文本间的相似度,并结合表征每个分词重要性的权重,能够显著提高相似度确定结果的准确性。
本申请实施例中,为步骤S105提供了一种可行的实施方式,具体地,可以包括:
步骤S1051:对两个分词集合中的各个分词对应的权重和对应的距离的乘积求和,得到第一求和结果。
例如,第一分词集合中的各个分词{X1,X2,……,Xm}对应的权重和对应的距离的乘积累加的和SUM1为:
SUM1= A1*D11+ A2* D12+……+ Am* D1m
第二分词集合中的各个分词{ Y1,Y2,……,Yn}对应的权重和对应的距离的乘积累加的和SUM2为:
SUM2= B1* D21+ B2* D22+……+Bn* D2n
SUM1与SUM2的和即为第一求和结果。
步骤S1052:对两个分词集合中的各个分词对应的权重求和,得到第二求和结果。
接上例,第一分词集合中的各个分词{X1,X2,……,Xm}对应的权重累加的和WEIGHT_SUM1为:
WEIGHT_SUM1=A1+A2+……+Am
第二分词集合中的各个分词{ Y1,Y2,……,Yn}对应的权重累加的和WEIGHT_SUM2为:
WEIGHT_SUM2= B1+B2+……+Bn
WEIGHT_SUM1与WEIGHT_SUM2的和即为第二求和结果。
步骤S1053:将第一求和结果和第二求和结果相除,得到用于表示两个文本的相似度的最终距离。
即最终距离=(SUM1+SUM2)/(WEIGHT_SUM1 + WEIGHT_SUM2)。
则文本相似度=距离上限(参数可设定为常量100)-最终距离。
本申请实施例提供的文本相似度确定方法,通过从第一分词集合的角度和第二分词集合的角度联合来确定两个文本间的相似度,并同时结合第一文本中所有分词的权重以及第二文本中所有分词的权重,能够显著提高相似度确定结果的准确性。
下面对每个词的权重为何能够明显改进相似度算法的准确性进行说明。具体地,本申请实施例中提供了一种词权重标准,为不同档次的词划分不同的权重值,作为示例地,词的词性组成越完整,权重越高;或者词的目的越突出,权重越高等。例如超级吃货卡取消自动续费(权重:0.9)、部分退款(权重:0.8)、新人红包(权重0.75)、普通名词(权重0.6)等。进一步地,可以对依据词权重标准设定的权重值进行存储,例如可以建立词权重标准库进程存储。在针对第一分词集合和第二分词集合中的每个分词,获取该分词的权重时,直接在预置的词权重标准库中查询得到该分词的权重,权重越大越是文本中的重点词。基于权重来计算文本之间的相似度,会加强重点词的计算比重,减弱非重要词的计算比重,以提高计算的准确性。
本申请的发明人经过对大量短文本数据的分析发现,短文本通常存在这样的规律:
a、每个文本一般都会有一个或多个(大部分是一个)中心思想。
b、如果两个文本的中心思想不同,那么这两个文本是不相似的。
基于这样的发现,本申请实施例提供了一种权重逆向策略(规则),可以针对步骤S1051执行,具体地,步骤S1051可以包括:
步骤SA:在两个分词集合中分别提取权重大于第一阈值的分词,得到两个分词集合分别对应的分词子集合。
即在第一分词集合中提取权重大于第一阈值的分词,得到第一分词子集合,在第二分词集合中提取权重大于第一阈值的分词,得到第二分词子集合。
其中,第一阈值是一个权重阈值,本领域技术人员可以根据实际情况对第一阈值进行设置,本申请实施例在此不做限定。示例性地,第一阈值可以为0.6。
由于权重大于一定阈值的分词是集合中重要性较高的词,较能体现文本的中心思想。因此本申请实施例中,通过判断第一分词子集合和第二分词子集合是否有交集来确定第一文本和第二文本的中心思想是否相同或相近。
其中,第一分词子集合和第二分词子集合有交集是指第一分词子集合和第二分词子集合中至少有一个词相同或相近;反之,第一分词子集合和第二分词子集合没有交集是指第一分词子集合和第二分词子集合中没有词相同或相近。
若第一分词子集合和第二分词子集合有交集,则直接执行上述骤S1051。
若第一分词子集合和第二分词子集合没有交集,则执行下述步骤。
步骤SB:若两个分词子集合没有交集,则确定两个分词集合中的每个分词与另一个分词集合中距离最近的分词是否相似,两个分词相似是指两个分词的距离小于第二阈值。
其中,第二阈值是一个距离阈值,本领域技术人员可以根据实际情况对第二阈值进行设置,本申请实施例在此不做限定。示例性地,第二阈值可以为0.05。
示例性地,第一分词集合中包括两个词{ W11,W12},其中,第二分词集合中与W11距离最近的分词是W21,第二分词集合中与W12距离最近的分词是W22。
本申请实施例中,针对第一分词集合,确定W11与W21是否相似,以及确定W12与W22是否相似,进而反转权重计算。
具体而言,假设W11和W21相似,则执行下述步骤SC;假设W12和W22不相似,则执行下述步骤SD。目的在于削弱相似的词,加强不相似的词,使得文本整体不相似。即在两个文本的中心思想不相同且不相近的情况下,使得确定出的两个文本的相似度较低,加强了算法的准确性。
同理地,针对第二分词集合,也采用相同的方法进行反转权重计算,在此不再赘述。
步骤SC:对于确定出与另一个分词集合中距离最近的分词相似的分词,将预定数值与该分词的权重相减作为该分词的反转权重。
其中,本领域技术人员可以根据实际情况对预定数值进行设置,在此不做限定。示例性地,预定数值可以是1。
接上例,若确定出W11和W21相似,假设W11对应的权重为A1,W11对应的距离(即W11和W21的距离)为D11,则W11的反转权重为:1- A1。
步骤SD:对于确定出与另一个分词集合中距离最近的分词不相似的分词,将该分词的权重作为该分词的反转权重。
接上例,若确定出W12和W22不相似,假设W12对应的权重为A2,W12对应的距离(即W12和W22的距离)为D12,则W12的反转权重为:A2。
步骤SE:对两个分词集合中的各个分词对应的反转权重和对应的距离的乘积求和,得到第一求和结果。
接上例,第一分词集合中的各个分词{ W11,W12}对应的反转权重和对应的距离的乘积累加的和SUM1为:
SUM1=(1- A1)*D11+ A2* D12
同理地,第二分词集合中的各个分词对应的反转权重和对应的距离的乘积累加的和SUM2也采用相同的方法,在此不再赘述。
SUM1与SUM2的和即为第一求和结果。
对于进一步的第二求和结果以及最终距离的计算可以参见上文中描述,在此不再赘述。
本申请实施例提供的文本相似度确定方法,通过权重逆向策略,能够进一步提高相似度确定结果的准确性。
本申请实施例还提供了一种近义词策略(规则)和等价词策略(规则),可以针对步骤S103和步骤S104执行。
其中,对于近义词策略,本申请的发明人经过大量分析发现,很多词相差一个字,或者说法不同,但实际是相近或者相同的意思。例如:【评价不展示、评价不显示】、【额外收取费用、额外加收费用】、【联系不上用户、联系不到用户】、【红包无法使用、红包不能使用】等。本申请实施例中,将两个近义词之间距离定为预设距离。实际应用中,本领域技术人员可以根据实际情况对预设距离进行设置,在此不做限定。作为示例地,预设距离可以为接近0的0.0001。可以理解,由于文本相似度=距离上限(参数设定为常量100)-最终距离,两个近义词之间的预设距离越接近0,则两个近义词之间的相似度越接近100。
对于等价词策略,一个分词的等价词是指与该分词可以互相替换的词。一个场景是,一个词存在简称或者名称变更时出现了不同的词,但是实际上是同义词。例如:【超会、超级会员】、【骑手、骑士】等。本申请实施例中,判断等价词的方式,可以是在计算长词相似度时,尝试做等价词替换,看长词是否相等。如果相等,将两个等价词之间距离定为预设距离。实际应用中,本领域技术人员可以根据实际情况对预设距离进行设置,在此不做限定。作为示例地,预设距离可以为接近0的0.0001。可以理解,由于文本相似度=距离上限(参数设定为常量100)-最终距离,两个近义词之间的预设距离越接近0,则两个近义词之间的相似度越接近100。
其他实施例中,近义词之间的预设距离和等价词之间的预设距离可以相同也可以不同,即近义词之间的预设相似度和等价词之间的预设相似度可以相同也可以不同,本领域技术人员可以根据实际情况进行设置,在此不做限定。
本申请实施例中,近义词的判断可以通过维护一个预置的近义词词库来实现。同理地,等价词的判断可以通过维护一个预置的等价词词库来实现。
基于近义词策略和等价词策略,针对第一分词集合和第二分词集合中的每个分词,确定该分词到另一个分词集合中距离最近的分词的距离的步骤,包括:
根据预置的近义词词库和/或等价词词库,确定另一个分词集合中是否存在该分词的近义词和/或等价词;若存在,则将该分词到另一个分词集合中距离最近的分词的距离确定为预设距离。
实际来说,在确定一个分词到另一个分词集合中距离最近的分词的距离时,可仅判断在另一个分词集合中是否存在近义词;也可以仅判断在另一个分词集合中是否存在等价词;若存在等价词或者近义词,则直接获取预设距离进行计算。或者可以按照优先级顺序先判断在另一个分词集合中是否存在等价词,若存在等价词则直接获取预设距离进行计算,若不存在等价词则再判断是否存在近义词,若存在近义词则直接获取预设距离进行计算,本申请实施例在此对具体判断过程不做限定。
本申请实施例中,若将该分词到另一个分词集合中距离最近的分词的距离确定为预设距离后,无需再针对该分词计算与另一个分词集合中每个分词的距离,在提升相似度确定结果的准确性的同时,节约了计算资源。
本申请实施例中,提供了一种计算两个词的距离的方式,可以应用于在另一个分词集合中不存在某分词近义词和/或等价词时,对某分词到另一个分词集合中距离最近的分词的距离进行计算,也可以应用于不采用近义词策略和/或等价词策略时,直接对每个分词到另一个分词集合中距离最近的分词的距离进行计算。
具体而言,针对第一分词集合和第二分词集合中的每个分词,确定该分词到另一个分词集合中距离最近的分词的距离,包括:
通过预先训练好的word2vec模型确定该分词的词向量和另一个分词集合中各个分词的词向量;计算该分词的词向量和另一个分词集合中每个分词的词向量之间的词向量距离;在计算出的各个词向量距离中确定出最小值,作为该分词到另一个分词集合中距离最近的分词的距离。
其中,常用向量空间距离包括余弦距离、欧式距离和曼哈顿距离中的任一项。本申请实施例采用的是欧式距离。
本申请实施例中,通过计算词对应向量之间的距离来得到词之间的距离,即本方案采用基于词向量的短文本相似度计算。其中,词向量是指每个词映射到实数字表示。采用的Word2Vec是一种用来产生词向量的相关模型,通常包括浅层双层的神经网络。利用原始word2vec,基于海量文本进行训练,生成训练好的专有word2vec模型,该模型可以考虑到词向量与词向量之间的空间距离。
下面以余弦距离为例,描述了一种可选的距离计算方式。余弦距离是指通过测量两个词向量的夹角的余弦值来度量它们之间距离。两个向量间的余弦值可以通过使用欧几里的点积公式求出:
a·b = ||a|| ||b|| cosθ
给定两个词向量A和 B,其余弦距离θ由点积和向量长度给出,如下所示:
Figure 172680DEST_PATH_IMAGE001
这里的Ai、Bi分别代表向量A和B的各分量。给出的距离范围从-1到1,-1意味着两个词向量指向的方向正好截然相反,1表示两个词向量的指向是完全相同的,0通常表示两个词向量之间是独立的。
需要说明的是,现有技术中也可以采用余弦距离、欧式距离和曼哈顿距离中的任一项来计算相似度,例如对每个句子切词后,将句子对应每个词的第i列向量列数值做累加,形成的向量作为句子的句子向量。再来利用该句子向量计算余弦距离、欧式距离或曼哈顿距离。但是现有技术中的余弦相似度等未考虑到词与词之间的空间距离关系。而本申请实施例中,在预先训练好的word2vec模型得到词向量基础之上,再来计算余弦距离、欧式距离或曼哈顿距离,考虑了词与词之间的空间距离,有利于挖掘出词的语义和上下文信息,从而提高计算的准确性。
本申请实施例中,为步骤S102提供了一种可行的实施方式,具体地对第一文本和第二文本分别进行分词处理的步骤,可以包括:基于预置的标准词库和原子词库,对两个文本分别进行分词处理。
其中,原子词库中包括的原子短语为无法***其他语句的完整短语,原子短语的头部或者尾部可以拼接新词形成新的短语。
本申请实施例中,在标准词库的基础之上,创新性扩展增加了原子短语组成的扩展原子词库,并且为每个原子短语增加了相应的权重,丰富扩充了词库,能够在分词环节实现重点词的有效捕捉,从而提升相似度计算的准确性。
本申请实施例还提供了一种可选的实施方式,对第一文本和第二文本分别进行分词处理之前,还可以包括:采用预设的数据清洗算法,对两个文本进行数据清洗。
可选地,采用预设的数据清洗算法,确定两个文本中的停用词;基于停用词,对两个文本进行数据清洗。
其中,停用词为与文本语义无关的词,包括但不限于广告词、噪音词汇、垃圾词汇等,例如“您好”等。停用词还可以包括包含变量的词,例如包含变量S的词“红包S元”等。本领域技术人员可以根据实际情况对停用词进行扩展,也应包含在本发明保护范围以内。
其他实施例中,数据清洗还可以包括但不限于文本歧义消除、文本格式修改等处理手段,本领域技术人员可以根据实际情况进行设置,本申请实施例在此不做限定。
本申请实施例中,通过数据清洗可以提高效率文本相似度计算的效率。
本申请实施例中提供了一种文本处理方法,如图2所示,该方法包括:
步骤S201:获取问题文本。
其中,问题文本是指针对用户的投诉、反馈等方式得到的需要针对性地进行解决的问题的对应文本。
步骤S202:根据上述任一实施例提供的文本相似度确定方法,确定问题文本分别与至少一个预设文本之间的相似度,得到相似度最高的目标预设文本。
具体地,确定问题文本分别与至少一个预设文本之间的相似度,会得到对应的至少一个相似度确定结果,可以理解,每个预设文本对应一个相似度确定结果。确定至少一个相似度确定结果中相似度最高的相似度确定结果及其对应的目标预设文本,即可得到相似度最高的目标预设文本。
步骤S203:基于目标预设文本,对问题文本进行分配处理。
本申请实施例提供了一种可能的实施方式,预设文本为频道属性描述文本,每个频道对应一个频道属性描述文本。其中,频道是指根据各个部门的职能,划分出的不同频道,每个问题文本都可以关联到对应的频道。
则步骤S203具体可以包括:获取目标频道属性描述文本所属的目标频道;将问题文本分配给目标频道。
基于本申请实施例,便可实现将问题文本对应的问题自动分配给相应频道。
进一步地,将问题文本分配给目标频道之后,还可以包括:根据上述任一实施例提供的文本相似度确定方法,对原声问题文本进行聚类,生成正式问题文本。
即原声问题文本经过审核以后,匹配响应的频道,继而从原声问题文本中挖掘潜在的问题,关联创建为正式问题文本。
其中,原声问题文本可以收集来自监听客服的工单数据、客户通过软件接口投诉或反馈的信息数据等海量原声数据。
本领域技术人员可以理解的是,聚类算法的核心就是采取相似性度量来定义类簇,具体地,输入多个原声问题文本,通过上述任一实施例提供的文本相似度确定方法来进行相似性度量,输出所有生成的类簇,基于每个类簇可生成对应的正式问题文本。
可选地,对原声问题文本进行文本聚类可以采用DBSCAN(Density-Based SpatialClustering of Applications with Noise,基于密度的聚类算法),也可以采用其他聚类算法,本申请实施例在此不做限定。
基于本申请实施例,便可实现基于原声问题文本自动生成正式问题文本,用于在进行发布、指派、流转、解决。
本申请实施例提供了一种可能的实施方式,预设文本为负责人职责描述文本和/或负责人历史问题文本,每个问题分配到频道后,在频道内都会有一个对应的问题负责人,每个负责人对应一个负责人职责描述文本和/或一个负责人历史问题文本。
则步骤S203具体可以包括:获取目标负责人职责描述文本和/或目标负责人历史问题文本所属的目标负责人;将问题文本分配给目标负责人。
具体而言,当预设文本为负责人职责描述文本和负责人历史问题文本时,确定问题文本分别与至少一个预设文本之间的相似度,得到相似度最高的目标预设文本,包括:
确定问题文本与至少一个负责人职责描述文本之间的相似度,得到对应的至少一个第一相似度确定结果,并确定问题文本与至少一个负责人历史问题文本之间的相似度,得到对应的至少一个第二相似度确定结果;
基于至少一对相对应的第一相似度确定结果和第二相似度确定结果,确定对应的至少一个综合相似度确定结果;
确定至少一个综合相似度确定结果中相似度最高的相似度确定结果,得到相似度最高的目标负责人职责描述文本和目标负责人历史问题文本。可以理解,目标负责人职责描述文本和目标负责人历史问题文本对应同一目标负责人。
其中,该过程使用的问题文本可以是原声问题文本,也可以是正式问题文本。若使用的是原声问题文本,正式问题文本可以最终被发布成为待受理的可见文本,由频道内的问题负责人受理。
具体来说,针对每对相应的第一相似度确定结果和第二相似度确定结果,基于该对第一相似度确定结果和第二相似度确定结果,确定对应的综合相似度确定结果,包括:
获取第一相似度确定结果的第一权重和第二相似度确定结果的第二权重;
基于第一权重、第二权重,将该对第一相似度确定结果和第二相似度确定结果进行加权求和,得到对应的综合相似度确定结果。
实际应用中,本领域技术人员可以根据实际情况对第一权重和第二权重的值进行设置,在此不做限定。
基于本申请实施例,便可实现将问题文本对应的问题自动分配给问题频道内的相应负责人。
下面以一个能够提供体验服务的服务平台作为应用场景,举例说明本发明实施例所提供的技术方案的应用。
用户在服务平台享受体验服务时,若有任何问题可以向客服进行咨询。服务平台可以监听客服的工单数据,收集用户问题对应的问题文本Q。
服务平台中存在3个频道,分别为频道1,频道2,频道3,每个频道具有不同的职能。通过本申请方案提供的文本相似度确定方法,分别计算问题文本Q与3个频道的频道属性描述文本的相似度。发现问题文本Q与频道2的频道属性描述文本的相似度最高,将问题文本Q分配到频道2。
频道2中有两个问题负责人,分别为负责人1和负责人2,每个负责人职责不同,监管的问题也不同。通过本申请方案提供的文本相似度确定方法,分别计算问题文本Q与2个负责人的负责人职责描述文本和负责人历史问题文本的相似度,针对每个负责人会得到两个相似度结果,将两个相似度结果加权求和再进行比较,发现负责人2的最终相似度结果较高,将问题文本Q分配到负责人2进行处理。
通过本申请实施例提供的技术方案,可以实现问题文本的正确分配,以提高问题解决效率,提升用户体验。
本申请实施例提供了一种文本相似度确定装置,如图3所示,该文本相似度确定装置30可以包括:文本获取模块301、分词模块302、第一获取与确定模块303、第二获取与确定模块304以及相似度确定模块305,其中,
文本获取模块301用于获取待确定相似度的第一文本和第二文本;
分词模块302用于对第一文本和第二文本分别进行分词处理,得到第一文本对应第一分词集合和第二文本对应的第二分词集合;
第一获取与确定模块303用于针对第一分词集合中的每个分词,获取该分词的权重,并且确定该分词到第二分词集合中距离最近的分词的距离;
第二获取与确定模块304用于针对第二分词集合中的每个分词,获取该分词的权重,并且确定该分词到第一分词集合中距离最近的分词的距离;
相似度确定模块305用于根据第一分词集合中的各个分词对应的权重和对应的距离以及第二分词集合中的各个分词对应的权重和对应的距离,确定第一文本和第二文本的相似度。
在一种可选的实现方式中,相似度确定模块305在用于根据第一分词集合中的各个分词对应的权重和对应的距离以及第二分词集合中的各个分词对应的权重和对应的距离,确定第一文本和第二文本的相似度时,具体用于:
对两个分词集合中的各个分词对应的权重和对应的距离的乘积求和,得到第一求和结果;
对两个分词集合中的各个分词对应的权重求和,得到第二求和结果;
将第一求和结果和第二求和结果相除,得到用于表示两个文本的相似度的最终距离。
在一种可选的实现方式中,相似度确定模块305在用于对两个分词集合中的各个分词对应的权重和对应的距离的乘积求和,得到第一求和结果时,具体用于:
在两个分词集合中分别提取权重大于第一阈值的分词,得到两个分词集合分别对应的分词子集合;
若两个分词子集合没有交集,则确定两个分词集合中的每个分词与另一个分词集合中距离最近的分词是否相似,两个分词相似是指两个分词的距离小于第二阈值;
对于确定出与另一个分词集合中距离最近的分词相似的分词,将预定数值与该分词的权重相减作为该分词的反转权重;
对于确定出与另一个分词集合中距离最近的分词不相似的分词,将该分词的权重作为该分词的反转权重;
对两个分词集合中的各个分词对应的反转权重和对应的距离的乘积求和,得到第一求和结果。
在一种可选的实现方式中,针对第一分词集合和第二分词集合中的每个分词,第一获取与确定模块303和第二获取与确定模块304在用于确定该分词到另一个分词集合中距离最近的分词的距离时,具体用于:
根据预置的近义词词库和/或等价词词库,确定另一个分词集合中是否存在该分词的近义词和/或等价词,其中,该分词的等价词为与该分词可以互相替换的词;
若存在,则将该分词到另一个分词集合中距离最近的分词的距离确定为预设距离。
在一种可选的实现方式中,针对第一分词集合和第二分词集合中的每个分词,第一获取与确定模块303和第二获取与确定模块304在用于确定该分词到另一个分词集合中距离最近的分词的距离时,具体用于:
通过预先训练好的word2vec模型确定该分词的词向量和另一个分词集合中各个分词的词向量;
计算该分词的词向量和另一个分词集合中每个分词的词向量之间的词向量距离,词向量距离包括余弦距离、欧式距离和曼哈顿距离中的任一项;
在计算出的各个词向量距离中确定出最小值,作为该分词到另一个分词集合中距离最近的分词的距离。
在一种可选的实现方式中,针对第一分词集合和第二分词集合中的每个分词,第一获取与确定模块303和第二获取与确定模块304在用于获取该分词的权重时,具体用于:
在预置的词权重标准库中查询得到该分词的权重。
在一种可选的实现方式中,分词模块302在用于对第一文本和第二文本分别进行分词处理时,具体用于:
基于预置的标准词库和原子词库,对两个文本分别进行分词处理;
其中,原子词库中包括的原子短语为无法***其他语句的完整短语。
在一种可选的实现方式中,该文本相似度确定装置30还可以包括数据清洗模块,在分词模块302对第一文本和第二文本分别进行分词处理之前,数据清洗模块用于采用预设的数据清洗算法,对两个文本进行数据清洗。
本领域的技术人员可以清楚地了解到,本申请实施例提供的文本相似度确定装置,其实现原理及产生的技术效果和前述方法实施例相同,为描述的方便和简洁,装置实施例部分未提及之处,可参考前述方法实施例中相应内容,在此不再赘述。
本申请实施例还提供了一种文本处理装置,如图4所示,该文本处理装置40可以包括:获取模块401、确定模块402以及分配模块403,其中,
获取模块401用于获取问题文本;
确定模块402用于根据上述任一实施例提供的文本相似度确定方法,确定问题文本分别与至少一个预设文本之间的相似度,得到相似度最高的目标预设文本;
分配模块403用于基于目标预设文本,对问题文本进行分配处理。
在一种可选的实现方式中,预设文本为频道属性描述文本;
分配模块403在用于基于目标预设文本,对问题文本进行分配处理时,具体用于:
获取目标频道属性描述文本所属的目标频道;
将问题文本分配给目标频道。
在一种可选的实现方式中,预设文本为负责人职责描述文本和/或负责人历史问题文本;
分配模块403在用于基于目标预设文本,对问题文本进行分配处理时,具体用于:
获取目标负责人职责描述文本和/或目标负责人历史问题文本所属的目标负责人;
将问题文本分配给目标负责人。
在一种可选的实现方式中,当预设文本为负责人职责描述文本和负责人历史问题文本时,确定模块402在用于确定问题文本分别与至少一个预设文本之间的相似度,得到相似度最高的目标预设文本时,具体用于:
确定问题文本与至少一个负责人职责描述文本之间的相似度,得到对应的至少一个第一相似度确定结果,并确定问题文本与至少一个负责人历史问题文本之间的相似度,得到对应的至少一个第二相似度确定结果;
基于至少一对相对应的第一相似度确定结果和第二相似度确定结果,确定对应的至少一个综合相似度确定结果;
确定至少一个综合相似度确定结果中相似度最高的相似度确定结果,得到相似度最高的目标负责人职责描述文本和目标负责人历史问题文本。
在一种可选的实现方式中,确定模块402在用于针对每对第一相似度确定结果和第二相似度确定结果,基于该对第一相似度确定结果和第二相似度确定结果,确定对应的综合相似度确定结果时,具体用于:
获取第一相似度确定结果的第一权重和第二相似度确定结果的第二权重;
基于第一权重、第二权重,将该对第一相似度确定结果和第二相似度确定结果进行加权求和,得到对应的综合相似度确定结果。
在一种可选的实现方式中,问题文本为原声问题文本,该文本处理装置40还可以包括生成模块,
在分配模块403将问题文本分配给目标频道之后,生成模块用于根据上述任一实施例提供的文本相似度确定方法,对原声问题文本进行聚类,生成正式问题文本。
本领域的技术人员可以清楚地了解到,本申请实施例提供的文本处理装置,其实现原理及产生的技术效果和前述方法实施例相同,为描述的方便和简洁,装置实施例部分未提及之处,可参考前述方法实施例中相应内容,在此不再赘述。
其中,描述本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定。
作为示例地,本申请实施例提供的文本相似度确定装置或文本处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该文本相似度确定装置或文本处理装置为应用程序的组件或模块;该装置可以用于执行前述方法实施例中用户端的相应内容;或者该装置可以用于执行前述方法实施例中服务器端的相应内容。
在一些实施例中,本申请实施例提供的文本相似度确定装置或文本处理装置可以采用软硬件结合的方式实现,作为示例,本申请实施例提供的文本相似度确定装置或文本处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的上述方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
基于与本申请的实施例中所示的方法相同的原理,本申请的实施例中还提供了一种电子设备,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机程序;处理器,用于通过调用计算机程序执行本申请任一实施例所示的文本相似度确定方法或文本处理方法。
在一个可选实施例中提供了一种电子设备,如图5所示,图5所示的电子设备500包括:处理器501和存储器503。其中,处理器501和存储器503相连,如通过总线502相连。可选地,电子设备500还可以包括收发器504,收发器504可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器504不限于一个,该电子设备500的结构并不构成对本申请实施例的限定。
处理器501可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器501也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线502可包括一通路,在上述组件之间传送信息。总线502可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线502可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器503可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器503用于存储执行本申请方案的应用程序代码(计算机程序),并由处理器501来控制执行。处理器501用于执行存储器503中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备也可以是终端设备,图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
根据本申请的另一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述方法实施例中相应内容。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
应该理解的是,附图中的流程图和框图,图示了按照本申请各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本申请实施例提供的计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (17)

1.一种文本相似度确定方法,其特征在于,包括:
获取待确定相似度的第一文本和第二文本;
对所述第一文本和所述第二文本分别进行分词处理,得到所述第一文本对应第一分词集合和所述第二文本对应的第二分词集合;
针对第一分词集合中的每个分词,获取该分词的权重,并且确定该分词到所述第二分词集合中距离最近的分词的距离;
针对第二分词集合中的每个分词,获取该分词的权重,并且确定该分词到所述第一分词集合中距离最近的分词的距离;
根据所述第一分词集合中的各个分词对应的权重和对应的距离以及所述第二分词集合中的各个分词对应的权重和对应的距离,确定所述第一文本和所述第二文本的相似度。
2.根据权利要求1所述的文本相似度确定方法,其特征在于,所述根据所述第一分词集合中的各个分词对应的权重和对应的距离以及所述第二分词集合中的各个分词对应的权重和对应的距离,确定所述第一文本和所述第二文本的相似度,包括:
对两个分词集合中的各个分词对应的权重和对应的距离的乘积求和,得到第一求和结果;
对所述两个分词集合中的各个分词对应的权重求和,得到第二求和结果;
将所述第一求和结果和所述第二求和结果相除,得到用于表示所述两个文本的相似度的最终距离。
3.根据权利要求2所述的文本相似度确定方法,其特征在于,所述对两个分词集合中的各个分词对应的权重和对应的距离的乘积求和,得到第一求和结果,包括:
在所述两个分词集合中分别提取权重大于第一阈值的分词,得到所述两个分词集合分别对应的分词子集合;
若两个分词子集合没有交集,则确定所述两个分词集合中的每个分词与另一个分词集合中距离最近的分词是否相似,两个分词相似是指两个分词的距离小于第二阈值;
对于确定出与另一个分词集合中距离最近的分词相似的分词,将预定数值与该分词的权重相减作为该分词的反转权重;
对于确定出与另一个分词集合中距离最近的分词不相似的分词,将该分词的权重作为该分词的反转权重;
对所述两个分词集合中的各个分词对应的反转权重和对应的距离的乘积求和,得到所述第一求和结果。
4.根据权利要求1-3中任一项所述的文本相似度确定方法,其特征在于,针对所述第一分词集合和所述第二分词集合中的每个分词,确定该分词到另一个分词集合中距离最近的分词的距离,包括:
根据预置的近义词词库和/或等价词词库,确定所述另一个分词集合中是否存在该分词的近义词和/或等价词,其中,该分词的等价词为与该分词可以互相替换的词;
若存在,则将该分词到另一个分词集合中距离最近的分词的距离确定为预设距离。
5.根据权利要求1-3中任一项所述的文本相似度确定方法,其特征在于,针对所述第一分词集合和所述第二分词集合中的每个分词,确定该分词到另一个分词集合中距离最近的分词的距离,包括:
通过预先训练好的word2vec模型确定该分词的词向量和另一个分词集合中各个分词的词向量;
计算该分词的词向量和另一个分词集合中每个分词的词向量之间的词向量距离,所述词向量距离包括余弦距离、欧式距离和曼哈顿距离中的任一项;
在计算出的各个词向量距离中确定出最小值,作为该分词到另一个分词集合中距离最近的分词的距离。
6.根据权利要求1-3中任一项所述的文本相似度确定方法,其特征在于,针对所述第一分词集合和所述第二分词集合中的每个分词,获取该分词的权重,包括:
在预置的词权重标准库中查询得到该分词的权重。
7.根据权利要求1-3中任一项所述的文本相似度确定方法,其特征在于,对所述第一文本和所述第二文本分别进行分词处理,包括:
基于预置的标准词库和原子词库,对两个文本分别进行分词处理;
其中,所述原子词库中包括的原子短语为无法***其他语句的完整短语。
8.一种文本处理方法,其特征在于,包括:
获取问题文本;
根据权利要求1-7中任一项所述的文本相似度确定方法,确定所述问题文本分别与至少一个预设文本之间的相似度,得到相似度最高的目标预设文本;
基于所述目标预设文本,对所述问题文本进行分配处理。
9.根据权利要求8所述的文本处理方法,其特征在于,所述预设文本为频道属性描述文本;
所述基于所述目标预设文本,对所述问题文本进行分配处理,包括:
获取所述目标频道属性描述文本所属的目标频道;
将所述问题文本分配给所述目标频道。
10.根据权利要求8所述的文本处理方法,其特征在于,所述预设文本为负责人职责描述文本和/或负责人历史问题文本;
所述基于所述目标预设文本,对所述问题文本进行分配处理,包括:
获取目标负责人职责描述文本和/或目标负责人历史问题文本所属的目标负责人;
将所述问题文本分配给所述目标负责人。
11.根据权利要求10所述的文本处理方法,其特征在于,当所述预设文本为负责人职责描述文本和负责人历史问题文本时,所述确定所述问题文本分别与至少一个预设文本之间的相似度,得到相似度最高的目标预设文本,包括:
确定所述问题文本与至少一个负责人职责描述文本之间的相似度,得到对应的至少一个第一相似度确定结果,并确定所述问题文本与至少一个负责人历史问题文本之间的相似度,得到对应的至少一个第二相似度确定结果;
基于至少一对相对应的第一相似度确定结果和第二相似度确定结果,确定对应的至少一个综合相似度确定结果;
确定所述至少一个综合相似度确定结果中相似度最高的相似度确定结果,得到相似度最高的目标负责人职责描述文本和目标负责人历史问题文本。
12.根据权利要求11所述的文本处理方法,其特征在于,针对每对第一相似度确定结果和第二相似度确定结果,基于该对第一相似度确定结果和第二相似度确定结果,确定对应的综合相似度确定结果,包括:
获取第一相似度确定结果的第一权重和第二相似度确定结果的第二权重;
基于所述第一权重、所述第二权重,将该对第一相似度确定结果和第二相似度确定结果进行加权求和,得到对应的综合相似度确定结果。
13.根据权利要求9所述的文本处理方法,其特征在于,所述问题文本为原声问题文本,所述将所述问题文本分配给所述目标频道之后,还包括:
根据权利要求1-7中任一项所述的文本相似度确定方法,对所述原声问题文本进行聚类,生成正式问题文本。
14.一种文本相似度确定装置,其特征在于,包括:
文本获取模块,用于获取待确定相似度的第一文本和第二文本;
分词模块,用于对所述第一文本和所述第二文本分别进行分词处理,得到所述第一文本对应第一分词集合和所述第二文本对应的第二分词集合;
第一获取与确定模块,用于针对第一分词集合中的每个分词,获取该分词的权重,并且确定该分词到所述第二分词集合中距离最近的分词的距离;
第二获取与确定模块,用于针对第二分词集合中的每个分词,获取该分词的权重,并且确定该分词到所述第一分词集合中距离最近的分词的距离;
相似度确定模块,用于根据所述第一分词集合中的各个分词对应的权重和对应的距离以及所述第二分词集合中的各个分词对应的权重和对应的距离,确定所述第一文本和所述第二文本的相似度。
15.一种文本处理装置,其特征在于,包括:
获取模块,用于获取问题文本;
确定模块,用于根据权利要求1-7中任一项所述的文本相似度确定方法,确定所述问题文本分别与至少一个预设文本之间的相似度,得到相似度最高的目标预设文本;
分配模块,用于基于所述目标预设文本,对所述问题文本进行分配处理。
16.一种电子设备,其特征在于,所述电子设备包括:
处理器和存储器,所述存储器存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现权利要求1至7或权利要求8至13中任一所述的方法。
17.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现权利要求1至7或权利要求8至13中任一所述的方法。
CN202111620649.XA 2021-12-28 2021-12-28 文本相似度确定方法、文本处理方法、相应的装置和设备 Active CN113988045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111620649.XA CN113988045B (zh) 2021-12-28 2021-12-28 文本相似度确定方法、文本处理方法、相应的装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111620649.XA CN113988045B (zh) 2021-12-28 2021-12-28 文本相似度确定方法、文本处理方法、相应的装置和设备

Publications (2)

Publication Number Publication Date
CN113988045A true CN113988045A (zh) 2022-01-28
CN113988045B CN113988045B (zh) 2022-04-12

Family

ID=79734757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111620649.XA Active CN113988045B (zh) 2021-12-28 2021-12-28 文本相似度确定方法、文本处理方法、相应的装置和设备

Country Status (1)

Country Link
CN (1) CN113988045B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662374A (zh) * 2023-07-31 2023-08-29 天津市扬天环保科技有限公司 基于相关性分析的信息技术咨询服务***

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555093A (zh) * 2018-03-30 2019-12-10 华为技术有限公司 文本匹配方法、装置及设备
CN111026840A (zh) * 2019-11-26 2020-04-17 腾讯科技(深圳)有限公司 文本处理方法、装置、服务器和存储介质
CN111144109A (zh) * 2019-12-27 2020-05-12 北京明略软件***有限公司 文本相似度确定方法和装置
CN111782803A (zh) * 2020-06-05 2020-10-16 京东数字科技控股有限公司 一种工单的处理方法、装置、电子设备及存储介质
CN112364620A (zh) * 2020-11-06 2021-02-12 中国平安人寿保险股份有限公司 文本相似度的判断方法、装置以及计算机设备
CN112733520A (zh) * 2020-12-30 2021-04-30 望海康信(北京)科技股份公司 文本相似度计算方法、***及相应设备和存储介质
US20210149937A1 (en) * 2019-11-18 2021-05-20 Intuit Inc. Enhanced intent matching using keyword-based word mover's distance
CN112926308A (zh) * 2021-02-25 2021-06-08 北京百度网讯科技有限公司 匹配正文的方法、装置、设备、存储介质以及程序产品
CN113011172A (zh) * 2021-03-15 2021-06-22 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
WO2021169111A1 (zh) * 2020-02-28 2021-09-02 平安国际智慧城市科技股份有限公司 简历筛选方法、装置、计算机设备和存储介质
CN113761866A (zh) * 2020-09-23 2021-12-07 西安京迅递供应链科技有限公司 事件处理方法、装置、服务器及介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555093A (zh) * 2018-03-30 2019-12-10 华为技术有限公司 文本匹配方法、装置及设备
US20210149937A1 (en) * 2019-11-18 2021-05-20 Intuit Inc. Enhanced intent matching using keyword-based word mover's distance
CN111026840A (zh) * 2019-11-26 2020-04-17 腾讯科技(深圳)有限公司 文本处理方法、装置、服务器和存储介质
CN111144109A (zh) * 2019-12-27 2020-05-12 北京明略软件***有限公司 文本相似度确定方法和装置
WO2021169111A1 (zh) * 2020-02-28 2021-09-02 平安国际智慧城市科技股份有限公司 简历筛选方法、装置、计算机设备和存储介质
CN111782803A (zh) * 2020-06-05 2020-10-16 京东数字科技控股有限公司 一种工单的处理方法、装置、电子设备及存储介质
CN113761866A (zh) * 2020-09-23 2021-12-07 西安京迅递供应链科技有限公司 事件处理方法、装置、服务器及介质
CN112364620A (zh) * 2020-11-06 2021-02-12 中国平安人寿保险股份有限公司 文本相似度的判断方法、装置以及计算机设备
CN112733520A (zh) * 2020-12-30 2021-04-30 望海康信(北京)科技股份公司 文本相似度计算方法、***及相应设备和存储介质
CN112926308A (zh) * 2021-02-25 2021-06-08 北京百度网讯科技有限公司 匹配正文的方法、装置、设备、存储介质以及程序产品
CN113011172A (zh) * 2021-03-15 2021-06-22 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHENGHAN ZHOU等: "Text Similarity Measurement of Semantic Cognition Based on Word Vector Distance Decentralization With Clustering Analysis", 《IEEE ACCESS》 *
王春柳等: "文本相似度计算方法研究综述", 《情报科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662374A (zh) * 2023-07-31 2023-08-29 天津市扬天环保科技有限公司 基于相关性分析的信息技术咨询服务***
CN116662374B (zh) * 2023-07-31 2023-10-20 天津市扬天环保科技有限公司 基于相关性分析的信息技术咨询服务***

Also Published As

Publication number Publication date
CN113988045B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN111914551B (zh) 自然语言处理方法、装置、电子设备及存储介质
US10402427B2 (en) System and method for analyzing result of clustering massive data
CN106469192B (zh) 一种文本相关性的确定方法及装置
US11893491B2 (en) Compound model scaling for neural networks
CN113254620B (zh) 基于图神经网络的应答方法、装置、设备及存储介质
JP2023550194A (ja) モデル訓練方法、データ強化方法、装置、電子機器及び記憶媒体
US20200301908A1 (en) Dynamic Document Reliability Formulation
CN113988045B (zh) 文本相似度确定方法、文本处理方法、相应的装置和设备
CN113887213A (zh) 一种基于多层图注意力网络的事件检测方法及装置
US20230029218A1 (en) Feature engineering using interactive learning between structured and unstructured data
CN111428486A (zh) 物品信息数据处理方法、装置、介质及电子设备
CN112256841B (zh) 文本匹配和对抗文本识别方法、装置及设备
CN113821588A (zh) 文本处理方法、装置、电子设备及存储介质
CN111126617B (zh) 一种选择融合模型权重参数的方法、装置及设备
CN110968690B (zh) 词语的聚类划分方法和装置、设备以及存储介质
US11734602B2 (en) Methods and systems for automated feature generation utilizing formula semantification
CN114676677A (zh) 信息处理方法、装置、服务器及存储介质
CN111353688B (zh) 一种用户资源分配方法以及装置
CN114064859A (zh) 知识抽取方法、装置、设备、介质和程序产品
Nishino et al. The Cucconi statistic for Type-I censored data
US11586973B2 (en) Dynamic source reliability formulation
CN109285559B (zh) 角色转换点检测方法及装置、存储介质、电子设备
Vu et al. Enhancing Cheapfake Detection: An Approach Using Prompt Engineering and Interleaved Text-Image Model
CN112364258A (zh) 基于图谱的推荐方法、***、存储介质及电子设备
CN116383367B (zh) 对话***冷启动阶段的数据处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant