CN114117031A - 名单筛查方法、装置、设备及计算机存储介质 - Google Patents

名单筛查方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN114117031A
CN114117031A CN202111470152.4A CN202111470152A CN114117031A CN 114117031 A CN114117031 A CN 114117031A CN 202111470152 A CN202111470152 A CN 202111470152A CN 114117031 A CN114117031 A CN 114117031A
Authority
CN
China
Prior art keywords
list
target text
keyword
keywords
screened
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111470152.4A
Other languages
English (en)
Inventor
余孟泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN202111470152.4A priority Critical patent/CN114117031A/zh
Publication of CN114117031A publication Critical patent/CN114117031A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种名单筛查方法、装置、设备及计算机存储介质,该名单筛查方法包括获取待筛查的目标文本中的关键词;确定关键词的词性、关键词对应的名词短语以及关键词在目标文本中的位置;从预设名单中获取名单名称包括目标文本中的至少一个关键词的第一名单;根据关键词在目标文本中的位置,按照预设文本间隔对目标文本进行切分,得到关键词在目标文本中对应的匹配串;计算第一名单的每个名单名称与匹配串的相似度,得到第一名单中相似度大于预设阈值的名单名称对应的第二名单;确定第二名单中除只包括一个动词词性的关键词或名词短语中包括部分关键词之外的名单名称对应的目标筛查名单。根据本申请实施例,可以有效降低误告警率。

Description

名单筛查方法、装置、设备及计算机存储介质
技术领域
本申请属于信息提取技术领域,尤其涉及一种名单筛查方法、装置、 设备及计算机存储介质。
背景技术
现有技术中,主要通过采用提词算法从文本提取关键词的方式,对提 取后的关键词进行筛查,然而,以上方式严重依赖于提词算法的准确度, 提取错误就会导致漏报误报,存在误告警量大的问题。
发明内容
本申请实施例提供一种名单筛查方法、装置、设备及计算机存储介 质,能够解决现有技术中进行名单筛查时漏报误报,存在误告警量大的问 题。
第一方面,本申请实施例提供一种名单筛查方法,该方法包括:
获取待筛查的目标文本中的关键词;
确定所述关键词的词性、所述关键词对应的名词短语以及所述关键词 在所述目标文本中的位置;
从预设名单中获取名单名称包括所述目标文本中的至少一个关键词的 第一名单;
根据所述第一名单的名单名称中的关键词在所述目标文本中的位置, 按照预设文本间隔对所述目标文本进行切分,得到所述第一名单的名单名 称中的关键词在所述目标文本中对应的匹配串;
计算所述第一名单的每个名单名称与所述匹配串的相似度,得到所述 第一名单中所述相似度大于预设阈值的名单名称对应的第二名单;
确定所述第二名单中除只包括一个动词词性的关键词或所述名词短语 中包括部分关键词之外的名单名称对应的目标筛查名单。
在一种实施例中,所述获取待筛查的目标文本中的关键词,包括:
获取待筛查的所述目标文本;
根据预设筛查算法,对待筛查的所述目标文本进行分词处理,得到待 筛查的所述目标文本的关键词。
在一种实施例中,所述根据预设筛查算法,对待筛查的所述目标文本 进行分词处理,得到待筛查的所述目标文本的关键词,包括:
根据预设筛查算法,对待筛查的所述目标文本进行分词处理,得到待 筛查的所述目标文本的第一分词结果;
对待筛查的所述目标文本的第一分词结果进行预处理,得到待筛查的 所述目标文本的关键词,所述预处理包括删除所述分词结果中的无用标 签、特殊符号以及停用词,对所述分词结果进行标准化处理以及大写转小 写处理中的至少一项。
在一种实施例中,所述确定所述关键词的词性、所述关键词对应的名 词短语以及所述关键词在所述目标文本中的位置,包括:
对所述目标文本中的关键词进行位置标注与词性标注,得到所述关键 词在所述目标文本中的位置以及所述关键词的词性;
根据预设提取算法以及所述关键词在所述目标文本中的位置,提取所 述目标文本中所述关键词对应的名词短语。
在一种实施例中,所述从预设名单中获取名单名称包括所述目标文本 中的至少一个关键词的第一名单,包括:
对所述预设名单的名单名称进行分词处理;
对分词处理后的所述预设名单的名单名称建立倒排序索引;
基于所述倒排序索引从预设名单中查找名单名称包括所述目标文本中 的至少一个关键词的第一名单。
第二方面,本申请实施例提供了一种名单筛查装置,该名单筛查装置 包括:
获取模块,用于获取待筛查的目标文本中的关键词;
确定模块,用于确定所述关键词的词性、所述关键词对应的名词短语 以及所述关键词在所述目标文本中的位置;
所述获取模块,还用于从预设名单中获取名单名称包括所述目标文本 中的至少一个关键词的第一名单;
切分模块,用于根据所述第一名单的名单名称中的关键词在所述目标 文本中的位置,按照预设文本间隔对所述目标文本进行切分,得到所述第 一名单的名单名称中的关键词在所述目标文本中对应的匹配串;
计算模块,用于计算所述第一名单的每个名单名称与所述匹配串的相 似度,得到所述第一名单中所述相似度大于预设阈值的名单名称对应的第 二名单;
所述确定模块,还用于确定所述第二名单中除只包括一个动词词性的 关键词或所述名词短语中包括部分关键词之外的名单名称对应的目标筛查 名单。
在一种实施例中,所述名单筛查装置还包括处理模块;
所述获取模块,还用于获取待筛查的所述目标文本;
所述处理模块,用于根据预设筛查算法,对待筛查的所述目标文本进 行分词处理,得到待筛查的所述目标文本的关键词。
在一种实施例中,所述名单筛查装置还包括预处理模块;
所述处理模块,还用于根据预设筛查算法,对待筛查的所述目标文本 进行分词处理,得到待筛查的所述目标文本的第一分词结果;
所述预处理模块,用于对待筛查的所述目标文本的第一分词结果进行 预处理,得到待筛查的所述目标文本的关键词,所述预处理包括删除所述 分词结果中的无用标签、特殊符号以及停用词,对所述分词结果进行标准 化处理以及大写转小写处理中的至少一项。
在一种实施例中,所述名单筛查装置还包括标注模块和提取模块;
所述标注模块,用于对所述目标文本中的关键词进行位置标注与词性 标注,得到所述关键词在所述目标文本中的位置以及所述关键词的词性;
所述提取模块,用于根据预设提取算法以及所述关键词在所述目标文 本中的位置,提取所述目标文本中所述关键词对应的名词短语。
在一种实施例中,所述名单筛查装置还包括建立模块和查找模块;
所述处理模块,还用于对所述预设名单的名单名称进行分词处理;
所述建立模块,用于对分词处理后的所述预设名单的名单名称建立倒 排序索引;
所述查找模块,用于基于所述倒排序索引从预设名单中查找名单名称 包括所述目标文本中的至少一个关键词的第一名单。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:处 理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如第一方面的任一项实施例中所述 的名单筛查方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介 质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一 方面的任一项实施例中所述的名单筛查方法。
第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程 序产品中的指令由电子设备的处理器执行时,使得所述电子设备能够执行 如第一方面的任一项实施例中所述的名单筛查方法。
本申请实施例的名单筛查方法、装置、设备及计算机存储介质,通过 获取待筛查的目标文本中的关键词,确定关键词的词性、关键词对应的名 词短语以及关键词在目标文本中的位置,从预设名单中获取名单名称包括 目标文本中的至少一个关键词的第一名单,根据关键词在目标文本中的位 置确定关键词在目标文本中对应的匹配串,进而计算第一名单的每个名单 名称与匹配串的相似度,得到第一名单中相似度大于预设阈值的名单名称 对应的第二名单,从而剔除第二名单中只包括一个动词词性的关键词或名 词短语中包括部分关键词的名单名称,得到目标筛查名单。这样,可以对 初步筛查出的第一名单进行相似度计算,得到相似度大于预设阈值的名单 名称对应的第二名单,再对第二名单进行误告警剔除,从而在保证不漏报 的前提下有效降低误告警率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例 中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的名单筛查方法的流程示意图;
图2是本申请另一个实施例提供的名单筛查方法的流程示意图;
图3是本申请一个实施例提供的名单筛查装置的结构示意图;
图4是本申请一个实施例提供的电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本 申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施 例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅 意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请 可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的 描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用 来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者 暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语 “包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而 使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而 且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物 品或者设备所固有的要素。在没有更多限制的情况下,由语句“包 括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者 设备中还存在另外的相同要素。
如背景技术所述,现有技术中进行名单筛查时漏报误报,存在误告警 量大的问题。为了解决上述问题,本申请实施例提供了一种名单筛查方 法、装置、设备及计算机存储介质,通过获取待筛查的目标文本中的关键 词,确定关键词的词性、关键词对应的名词短语以及关键词在目标文本中 的位置,从预设名单中获取名单名称包括目标文本中的至少一个关键词的 第一名单,根据关键词在目标文本中的位置确定关键词在目标文本中对应的匹配串,进而计算第一名单的每个名单名称与匹配串的相似度,得到第 一名单中相似度大于预设阈值的名单名称对应的第二名单,从而剔除第二 名单中只包括一个动词词性的关键词或名词短语中包括部分关键词的名单 名称,得到目标筛查名单。这样,可以对初步筛查出的第一名单进行相似 度计算,得到相似度大于预设阈值的名单名称对应的第二名单,再对第二 名单进行误告警剔除,从而在保证不漏报的前提下有效降低误告警率,如 此避免误告警量大的问题。下面首先对本申请实施例所提供的名单筛查方 法进行介绍。
图1示出了本申请一个实施例提供的名单筛查方法的流程示意图。
如图1所示,该名单筛查方法具体可以包括如下步骤:
S110,获取待筛查的目标文本中的关键词。
其中,待筛查的目标文本可以是SWIFT报文中的自由域文本,关键 词可以是通过预设提词算法进行提词处理后得到的单词。
S120,确定关键词的词性、关键词对应的名词短语以及关键词在目标 文本中的位置。
其中,关键词的词性可以是对关键词以词的特点进行划分词类,例如 可以划分为名词、动词以及形容词等类型。关键词对应的名词短语可以根 据预设提取算法进行提取得到。
在一种实施例中,上述S120:确定关键词的词性、关键词对应的名词 短语以及关键词在目标文本中的位置,具体可以包括:
对目标文本中的关键词进行位置标注与词性标注,得到关键词在目标 文本中的位置以及关键词的词性;
根据预设提取算法以及关键词在目标文本中的位置,提取目标文本中 关键词对应的名词短语。
其中,位置标注可以是为目标文本中的每个关键词中标注一个正确的 位置的程序,词性标注可以是为目标文本中的每个关键词中标注一个正确 的词性的程序,预设提取算法可以是对名词短语进行提取的算法。
由此,通过对目标文本中的关键词进行位置标注与词性标注,得到关 键词在目标文本中的位置以及关键词的词性,并根据预设提取算法以及关 键词在目标文本中的位置,提取目标文本中关键词对应的名词短语,可以 准确的得到关键词的词性、关键词在目标文本中的位置以及关键词对应的 名词短语,提高了词性标注及名词短语提取的准确性。
S130,从预设名单中获取名单名称包括目标文本中的至少一个关键词 的第一名单。
其中,预设名单可以是用户根据需要预先设置的制裁名单,第一名单 可以是预设名单中名单名称包括目标文本中的至少一个关键词的名单,从 预设名单中获取第一名单的方式具体可以通过全文搜索引擎(Elastic Search)的Match查询得到。
在一个具体的例子中,待筛查的目标文本中包含关键词A、B以及 C,通过ElasticSearch的Match查询功能将制裁名单中包含关键词A、B 以及C中至少一个关键词的名单名称筛选出来,得到第一名单。
在一种实施例中,上述S130:从预设名单中获取名单名称包括目标文 本中的至少一个关键词的第一名单,具体可以包括:
对预设名单的名单名称进行分词处理;
对分词处理后的预设名单的名单名称建立倒排序索引;
基于倒排序索引从预设名单中查找名单名称包括目标文本中的至少一 个关键词的第一名单。
其中,倒排序索引可以是用于根据单词获取包含这个单词的文档列表 的一种具体存储形式,可以用于根据关键词从预设名单中查找名单名称包 括目标文本中的至少一个关键词的第一名单。
在一个具体的例子中,采用Elastic Search中间件对制裁名单中所有的 名单名称进行分词,并建立倒排序索引,具体方式为建立索引并设置好名 称栏位的数据类型和分析器,把制裁名单中所有的名单名称导入索引中, Elastic Search中间件自动将名单名称进行分词并创建倒排序索引,为后续 的名单筛查提供基础。
由此,通过对预设名单的名单名称进行分词处理,并对分词处理后的 预设名单的名单名称建立倒排序索引,进而基于倒排序索引从预设名单中 查找名单名称包括目标文本中的至少一个关键词的第一名单,可以通过倒 排序索引准确的查找到关键词对应的名单名称,使第一名单的筛查更加准 确。
S140,根据第一名单的名单名称中的关键词在目标文本中的位置,按 照预设文本间隔对目标文本进行切分,得到第一名单的名单名称中的关键 词在目标文本中对应的匹配串。
其中,预设文本间隔可以是用户根据实际需要任意设置的间隔,例如 可以是以3为最大间隔,根据第一名单的名单名称中的关键词在目标文本 的位置以预设文本间隔对目标文本进行切分,生成与关键词对应的匹配 串。
S150,计算第一名单的每个名单名称与匹配串的相似度,得到第一名 单中相似度大于预设阈值的名单名称对应的第二名单。
本申请实施例中,将第一名单的每个名单名称逐个计算与名单名称中 的关键词对应的匹配串的相似度,计算相似度的具体方式可以通过评分算 法计算,计算出相似度后剔除相似度得分小于预设阈值的名单名称,得到 第二名单,其中,预设阈值可以是用户根据实际需要任意设置的阈值。
S160,确定第二名单中除只包括一个动词词性的关键词或名词短语中 包括部分关键词之外的名单名称对应的目标筛查名单。
本申请实施例中,若第二名单的名单名称中只包括一个动词词性的关 键词或名词短语中包括部分关键词,则剔除该名单名称,得到最终的目标 筛查名单。
在一个具体的例子中,待筛查的目标文本的内容为“Note that a working dayis from Monday to Friday inclusive.”,预设的制裁名单的名单 名称中包含“Daybank”,即该名单名称中包含目标文本中的关键词 “day”,在名单筛查时会命中该名单名称(其中bank为停顿词,一般匹 配时不考虑或者低权重),也就是说,该名单名称包括目标文本中的至少 一个关键词,该名单名称被筛查出并被列入第一名单。而该关键词 “day”对应的提取的名词短语为“working day”,该名单名称中的“Day bank”只命中working day这个名词短语的一部分关键词,按照规则可以 将该名单名称剔除。
由此,通过获取待筛查的目标文本中的关键词,确定关键词的词性、 关键词对应的名词短语以及关键词在目标文本中的位置,从预设名单中获 取名单名称包括目标文本中的至少一个关键词的第一名单,根据关键词在 目标文本中的位置确定关键词在目标文本中对应的匹配串,进而计算第一 名单的每个名单名称与匹配串的相似度,得到第一名单中相似度大于预设 阈值的名单名称对应的第二名单,从而剔除第二名单中只包括一个动词词 性的关键词或名词短语中包括部分关键词的名单名称,得到目标筛查名 单。这样,可以对初步筛查出的第一名单进行相似度计算,得到相似度大 于预设阈值的名单名称对应的第二名单,再对第二名单进行误告警剔除, 从而在保证不漏报的前提下有效降低误告警率。
基于此,在一种实施例中,上述S110:获取待筛查的目标文本中的关 键词,具体可以包括:
获取待筛查的目标文本;
根据预设筛查算法,对待筛查的目标文本进行分词处理,得到待筛查 的目标文本的关键词。
其中,预设筛查算法可以是能够对待筛查的目标文本进行分词处理的 提词算法,在此不作限定。
由此,通过获取待筛查的目标文本,进而根据预设筛查算法,对待筛 查的目标文本进行分词处理,从而得到待筛查的目标文本的关键词,可以 筛选出待筛查的目标文本的关键词,提高名单筛查的准确性。
在一种实施例中,上述根据预设筛查算法,对待筛查的目标文本进行 分词处理,得到待筛查的目标文本的关键词,具体可以包括:
根据预设筛查算法,对待筛查的目标文本进行分词处理,得到待筛查 的目标文本的第一分词结果;
对待筛查的目标文本的第一分词结果进行预处理,得到待筛查的目标 文本的关键词,预处理包括删除分词结果中的无用标签、特殊符号以及停 用词,对分词结果进行标准化处理以及大写转小写处理中的至少一项。
其中,第一分词结果可以是包括待筛查的目标文本的所有单词、标签 以及符号的结果,对待筛查的目标文本的第一分词结果进行预处理,预处 理可以包括删除分词结果中的无用标签、特殊符号以及停用词,对分词结 果进行标准化处理以及大写转小写处理中的至少一项,进而得到待筛查的 目标文本的关键词。
由此,通过根据预设筛查算法,对待筛查的目标文本进行分词处理, 得到待筛查的目标文本的第一分词结果,进而对待筛查的目标文本的第一 分词结果进行删除分词结果中的无用标签、特殊符号以及停用词,对分词 结果进行标准化处理以及大写转小写处理中的至少一项的预处理,最终可 以准确的得到待筛查的目标文本的关键词,进一步提高名单筛查的准确 性。
为了更好地描述整个方案,基于上述各种实施例,举一个具体例子, 如图2所示的名单筛查方法流程示意图,该名单筛查方法包括以下步骤:
首先,进行***初始化准备,用Elastic Search中间件对制裁名单的名 单名称进行分词,并建立倒排序索引,为后续的名单搜索提供基础。
其次,对SWIFT报文中提取的自由域文本进行分词处理,得到分词 结果,对分词结果进行无用标签、特殊符号和停用词的剔除,标准化处理 以及大写转小写的预处理,并基于预处理后的分词结果,进行词性标注和 名词短语提取处理,标注每个词在文本中的位置及对应的词性,提取文本 中所有的名词短语及其在文本的位置信息。通过Elastic Search的Match查 询功能查找制裁名单中包含预处理后的分词结果中任一单词的名单名称, 得到第一名单。
进而,对第一名单的名单名称进行再次分词,查找分词结果中每个单 词在自由域文本中匹配的单词,以3为最大文本间隔对自由域文本中匹配 的单词根据其在文本的位置进行切分,生成匹配串,逐个计算名单名称与 匹配串的相似度,并剔除相似度得分小于阈值的名单名称,得到第二名 单。
最后,循环处理第二名单中每个名单名称,根据单词匹配的单词以及 该单词在输入文本的位置,如果满足以下任一条件则剔除:(1)名单名 称只命中一个单词并且该单词的词性为动词;(2)名单名称命中的单词 属于名词短语的一部分,并未命中全部名词短语。
由此,通过获取待筛查的目标文本中的关键词,确定关键词的词性、 关键词对应的名词短语以及关键词在目标文本中的位置,从预设名单中获 取名单名称包括目标文本中的至少一个关键词的第一名单,根据关键词在 目标文本中的位置确定关键词在目标文本中对应的匹配串,进而计算第一 名单的每个名单名称与匹配串的相似度,得到第一名单中相似度大于预设 阈值的名单名称对应的第二名单,从而剔除第二名单中只包括一个动词词 性的关键词或名词短语中包括部分关键词的名单名称,得到目标筛查名 单。这样,可以对初步筛查出的第一名单进行相似度计算,得到相似度大 于预设阈值的名单名称对应的第二名单,再对第二名单进行误告警剔除, 从而在保证不漏报的前提下有效降低误告警率。
图3是根据一示例性实施例示出的一种名单筛查装置300的结构示意 图。
如图3所示,该名单筛查装置300可以包括:
获取模块301,用于获取待筛查的目标文本中的关键词;
确定模块302,用于确定关键词的词性、关键词对应的名词短语以及 关键词在目标文本中的位置;
获取模块301,还用于从预设名单中获取名单名称包括目标文本中的 至少一个关键词的第一名单;
切分模块303,用于根据第一名单的名单名称中的关键词在目标文本 中的位置,按照预设文本间隔对目标文本进行切分,得到第一名单的名单 名称中的关键词在目标文本中对应的匹配串;
计算模块304,用于计算第一名单的每个名单名称与匹配串的相似 度,得到第一名单中相似度大于预设阈值的名单名称对应的第二名单;
确定模块302,还用于确定第二名单中除只包括一个动词词性的关键 词或名词短语中包括部分关键词之外的名单名称对应的目标筛查名单。
在一种实施例中,名单筛查装置300还可以包括处理模块;
获取模块301,还用于获取待筛查的目标文本;
处理模块,用于根据预设筛查算法,对待筛查的目标文本进行分词处 理,得到待筛查的目标文本的关键词。
在一种实施例中,名单筛查装置300还可以包括预处理模块;
处理模块,还用于根据预设筛查算法,对待筛查的目标文本进行分词 处理,得到待筛查的目标文本的第一分词结果;
预处理模块,用于对待筛查的目标文本的第一分词结果进行预处理, 得到待筛查的目标文本的关键词,预处理包括删除分词结果中的无用标 签、特殊符号以及停用词,对分词结果进行标准化处理以及大写转小写处 理中的至少一项。
在一种实施例中,名单筛查装置300还可以包括标注模块和提取模 块;
标注模块,用于对目标文本中的关键词进行位置标注与词性标注,得 到关键词在目标文本中的位置以及关键词的词性;
提取模块,用于根据预设提取算法以及关键词在目标文本中的位置, 提取目标文本中关键词对应的名词短语。
在一种实施例中,名单筛查装置300还可以包括建立模块和查找模 块;
处理模块,还用于对预设名单的名单名称进行分词处理;
建立模块,用于对分词处理后的预设名单的名单名称建立倒排序索 引;
查找模块,用于基于倒排序索引从预设名单中查找名单名称包括目标 文本中的至少一个关键词的第一名单。
由此,通过获取待筛查的目标文本中的关键词,确定关键词的词性、 关键词对应的名词短语以及关键词在目标文本中的位置,从预设名单中获 取名单名称包括目标文本中的至少一个关键词的第一名单,根据关键词在 目标文本中的位置确定关键词在目标文本中对应的匹配串,进而计算第一 名单的每个名单名称与匹配串的相似度,得到第一名单中相似度大于预设 阈值的名单名称对应的第二名单,从而剔除第二名单中只包括一个动词词 性的关键词或名词短语中包括部分关键词的名单名称,得到目标筛查名 单。这样,可以对初步筛查出的第一名单进行相似度计算,得到相似度大 于预设阈值的名单名称对应的第二名单,再对第二名单进行误告警剔除, 从而在保证不漏报的前提下有效降低误告警率。
图4示出了本申请实施例提供的电子的硬件结构示意图。
在电子设备可以包括处理器401以及存储有计算机程序指令的存储器 402。
具体地,上述处理器401可以包括中央处理器(CPU),或者特定集 成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置 成实施本申请实施例的一个或多个集成电路。
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非 限制,存储器402可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱 动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus, USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储 器402可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储 器402可在综合网关容灾设备的内部或外部。在特定实施例中,存储器 402是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁 盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有 形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计 算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存 储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其 可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器401通过读取并执行存储器402中存储的计算机程序指令,以 实现上述实施例中的任意一种名单筛查方法。
在一个示例中,电子设备还可包括通信接口403和总线410。其中, 如图4所示,处理器401、存储器402、通信接口403通过总线410连接并 完成相互间的通信。
通信接口403,主要用于实现本申请实施例中各模块、装置、单元和/ 或设备之间的通信。
总线410包括硬件、软件或两者,将名单筛查设备的部件彼此耦接在 一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形 总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输 (HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数 (LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连 (PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA) 总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或 更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总 线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该电子设备可以基于待筛查的目标文本中的关键词以及预设名单执行 本申请实施例中的名单筛查方法,从而实现结合图1描述的名单筛查方 法。
另外,结合上述实施例中的名单筛查方法,本申请实施例可提供一种 计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该 计算机程序指令被处理器执行时实现上述实施例中的任意一种名单筛查方 法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配 置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实 施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过 程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申 请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或 者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成 电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时, 本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段 可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质 或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的 任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、 光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网 等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤 或者装置描述一些方法或***。但是,本申请不局限于上述步骤的顺序, 也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例 中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(***)和计算机程序产 品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框 图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指 令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其 它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其 它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的 一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是 通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还 可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的 组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬 件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清 楚地了解到,为了描述的方便和简洁,上述描述的***、模块和单元的具 体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应 理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员 在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修 改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种名单筛查方法,其特征在于,包括:
获取待筛查的目标文本中的关键词;
确定所述关键词的词性、所述关键词对应的名词短语以及所述关键词在所述目标文本中的位置;
从预设名单中获取名单名称包括所述目标文本中的至少一个关键词的第一名单;
根据所述第一名单的名单名称中的关键词在所述目标文本中的位置,按照预设文本间隔对所述目标文本进行切分,得到所述第一名单的名单名称中的关键词在所述目标文本中对应的匹配串;
计算所述第一名单的每个名单名称与所述匹配串的相似度,得到所述第一名单中所述相似度大于预设阈值的名单名称对应的第二名单;
确定所述第二名单中除只包括一个动词词性的关键词或所述名词短语中包括部分关键词之外的名单名称对应的目标筛查名单。
2.根据权利要求1所述的方法,其特征在于,所述获取待筛查的目标文本中的关键词,包括:
获取待筛查的所述目标文本;
根据预设筛查算法,对待筛查的所述目标文本进行分词处理,得到待筛查的所述目标文本的关键词。
3.根据权利要求2所述的方法,其特征在于,所述根据预设筛查算法,对待筛查的所述目标文本进行分词处理,得到待筛查的所述目标文本的关键词,包括:
根据预设筛查算法,对待筛查的所述目标文本进行分词处理,得到待筛查的所述目标文本的第一分词结果;
对待筛查的所述目标文本的第一分词结果进行预处理,得到待筛查的所述目标文本的关键词,所述预处理包括删除所述分词结果中的无用标签、特殊符号以及停用词,对所述分词结果进行标准化处理以及大写转小写处理中的至少一项。
4.根据权利要求1所述的方法,其特征在于,所述确定所述关键词的词性、所述关键词对应的名词短语以及所述关键词在所述目标文本中的位置,包括:
对所述目标文本中的关键词进行位置标注与词性标注,得到所述关键词在所述目标文本中的位置以及所述关键词的词性;
根据预设提取算法以及所述关键词在所述目标文本中的位置,提取所述目标文本中所述关键词对应的名词短语。
5.根据权利要求1所述的方法,其特征在于,所述从预设名单中获取名单名称包括所述目标文本中的至少一个关键词的第一名单,包括:
对所述预设名单的名单名称进行分词处理;
对分词处理后的所述预设名单的名单名称建立倒排序索引;
基于所述倒排序索引从预设名单中查找名单名称包括所述目标文本中的至少一个关键词的第一名单。
6.一种名单筛查装置,其特征在于,所述装置包括:
获取模块,用于获取待筛查的目标文本中的关键词;
确定模块,用于确定所述关键词的词性、所述关键词对应的名词短语以及所述关键词在所述目标文本中的位置;
所述获取模块,还用于从预设名单中获取名单名称包括所述目标文本中的至少一个关键词的第一名单;
切分模块,用于根据所述关键词在所述目标文本中的位置,按照预设文本间隔对所述目标文本进行切分,得到所述关键词在所述目标文本中对应的匹配串;
计算模块,用于计算所述第一名单的每个名单名称与所述匹配串的相似度,得到所述第一名单中所述相似度大于预设阈值的名单名称对应的第二名单;
所述确定模块,还用于确定所述第二名单中除只包括一个动词词性的关键词或所述名词短语中包括部分关键词之外的名单名称对应的目标筛查名单。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括处理模块;
所述获取模块,还用于获取待筛查的所述目标文本;
所述处理模块,用于根据预设筛查算法,对待筛查的所述目标文本进行分词处理,得到待筛查的所述目标文本的关键词。
8.一种电子设备,其特征在于,所述设备包括:处理器,以及存储有计算机程序指令的存储器;所述处理器读取并执行所述计算机程序指令,以实现如权利要求1-5任意一项所述的名单筛查方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-5任意一项所述的名单筛查方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1-5任意一项所述的名单筛查方法。
CN202111470152.4A 2021-12-03 2021-12-03 名单筛查方法、装置、设备及计算机存储介质 Pending CN114117031A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111470152.4A CN114117031A (zh) 2021-12-03 2021-12-03 名单筛查方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111470152.4A CN114117031A (zh) 2021-12-03 2021-12-03 名单筛查方法、装置、设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN114117031A true CN114117031A (zh) 2022-03-01

Family

ID=80366713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111470152.4A Pending CN114117031A (zh) 2021-12-03 2021-12-03 名单筛查方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN114117031A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114900590A (zh) * 2022-03-23 2022-08-12 南京硅基智能科技有限公司 跟踪显示方法及提词器、电子设备、存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114900590A (zh) * 2022-03-23 2022-08-12 南京硅基智能科技有限公司 跟踪显示方法及提词器、电子设备、存储介质
CN114900590B (zh) * 2022-03-23 2023-08-29 南京硅基智能科技有限公司 跟踪显示方法及提词器、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN111177367B (zh) 案件分类方法、分类模型训练方法及相关产品
CN111538823A (zh) 信息处理方法、模型训练方法、装置、设备及介质
CN114861637B (zh) 拼写纠错模型生成方法和装置、拼写纠错方法和装置
CN111985212A (zh) 文本关键字识别方法、装置、计算机设备及可读存储介质
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN116841779A (zh) 异常日志检测方法、装置、电子设备和可读存储介质
CN115858773A (zh) 适用于长文档的关键词挖掘方法、装置及介质
CN114117031A (zh) 名单筛查方法、装置、设备及计算机存储介质
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN110737770B (zh) 文本数据敏感性识别方法、装置、电子设备及存储介质
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
CN112699780A (zh) 对象识别方法、装置、设备及存储介质
CN116029290A (zh) 文本匹配方法、装置、设备、介质及产品
CN115392787A (zh) 企业的风险评估方法、装置、设备、存储介质及程序产品
CN115600592A (zh) 文本内容的关键信息提取方法、装置、设备及介质
CN114863574A (zh) 手写签名识别方法、装置、设备、介质及程序产品
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN114647727A (zh) 应用于实体信息识别的模型训练方法、装置和设备
CN109614621B (zh) 一种校正文本的方法、装置及设备
CN113836297A (zh) 文本情感分析模型的训练方法及装置
CN114186552B (zh) 文本分析方法、装置、设备及计算机存储介质
CN114139541B (zh) 命名实体识别方法、装置、设备及介质
CN113887192B (zh) 文本匹配方法、装置及存储介质
Wang Research on Named Entity Recognition Algorithm in Mechanical Design Domain Based on Logistic Regression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination