CN112069324A - 一种分类标签添加方法、装置、设备及存储介质 - Google Patents

一种分类标签添加方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112069324A
CN112069324A CN202010879905.6A CN202010879905A CN112069324A CN 112069324 A CN112069324 A CN 112069324A CN 202010879905 A CN202010879905 A CN 202010879905A CN 112069324 A CN112069324 A CN 112069324A
Authority
CN
China
Prior art keywords
classified
phrase
event
text
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010879905.6A
Other languages
English (en)
Inventor
郭明坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lynxi Technology Co Ltd
Original Assignee
Beijing Lynxi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lynxi Technology Co Ltd filed Critical Beijing Lynxi Technology Co Ltd
Priority to CN202010879905.6A priority Critical patent/CN112069324A/zh
Publication of CN112069324A publication Critical patent/CN112069324A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例公开了一种分类标签添加方法、装置、设备及存储介质。该方法包括:获取待分类警情文本和至少一个分类标签对应的目标词组,其中,所述目标词组包括:事件词组和所述事件词组的近义词;将所述待分类警情文本与所述目标词组进行匹配;若匹配成功,则将所述待分类警情文本添加所述目标词组对应的分类标签,通过本公开的技术方案,以实现能够对警情文本进行自动分类,提高分类效率。

Description

一种分类标签添加方法、装置、设备及存储介质
技术领域
本公开实施例涉及计算机技术,尤其涉及一种分类标签添加方法、装置、设备及存储介质。
背景技术
面对海量警情文本,通过人工方式实现数据统计分析已经远远不能满足城市公安实际需求,警情分类工作在及时性和准确性上凸现出较大的提高空间。亟需一种能够对警情文本添加分类标签的方法,以便于根据分类标签对警情文本进行自动分类。
发明内容
本公开实施例提供一种分类标签添加方法、装置、设备及存储介质,以实现能够对警情文本进行自动分类,提高分类效率。
第一方面,本公开实施例提供了一种分类标签添加方法,包括:
获取待分类警情文本和至少一个分类标签对应的目标词组,其中,所述目标词组包括:事件词组和所述事件词组的近义词;
将所述待分类警情文本与所述目标词组进行匹配;
若匹配成功,则将所述待分类警情文本添加所述目标词组对应的分类标签。
进一步的,将所述待分类警情文本与所述目标词组进行匹配之后,还包括:
若未匹配成功,则根据所述待分类警情文本和数据库确定所述待分类警情文本对应的目标词,其中,所述数据库是根据所述至少一个分类标签对应的事件词组提炼得到的关键词构建的,所述数据库包括:关键词、关键词的子类词、关键词的近义词以及关键词的子类词的近义词中的至少一种,所述关键词包括:行为类动词、实物类名词以及场所类名词中的至少一种;
将所述目标词输入训练好的神经网络模型,得到所述目标词对应的事件词组;
将所述待分类警情文本添加所述事件词组对应的分类标签。
进一步的,神经网络模型的训练方法包括:
获取样本词和与样本词对应的样本事件词组;
将所述样本词输入待训练神经网络模型,得到预测事件词组;
根据所述预测事件词组和所述样本事件词组形成的目标函数训练所述待训练神经网络模型的模型参数,直至得到训练好的神经网络模型。
进一步的,将所述待分类警情文本与所述目标词组进行匹配包括:
对所述待分类警情文本进行分词处理;
提取所述分词结果的分词向量;
将所述分词向量与所述目标词组进行匹配。
进一步的,所述关键词的子类词包括:所述实物类名词的子类词和/或所述场所类名词的子类词。
进一步的,所述关键词的近义词包括:行为类动词的近义词、实物类名词的近义词以及场所类名词的近义词中的至少一种。
进一步的,所述方法还包括:
根据所述待分类警情文本以及所述待分类警情文本的分类标签,更新所述分类标签对应的目标词组。
进一步的,所述事件词组包括:行为类动词、实物类名词和场所类名词中的至少两种的组合。
第二方面,本公开实施例还提供了一种分类标签添加装置,该装置包括:
获取模块,用于获取待分类警情文本和至少一个分类标签对应的目标词组,其中,所述目标词组包括:事件词组和所述事件词组的近义词;
匹配模块,用于将所述待分类警情文本与所述目标词组进行匹配;
添加模块,用于若匹配成功,则将所述待分类警情文本添加所述目标词组对应的分类标签。
第三方面,本公开实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本公开实施例中任一所述的分类标签添加方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例中任一所述的分类标签添加方法。
本公开实施例提供的分类标签添加方法,获取待分类警情文本和至少一个分类标签对应的目标词组,其中,所述目标词组包括:事件词组和所述事件词组的近义词;将所述待分类警情文本与所述目标词组进行匹配;若匹配成功,则将所述待分类警情文本添加所述目标词组对应的分类标签。本实施例提供的分类标签添加方法,能够自动对警情文本添加分类标签,并根据分类标签进行自动分类,提高分类效率。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本公开一示例性实施例中的一种分类标签添加方法的流程图;
图1a是本公开一示例性实施例中的数据库构建图示;
图1b是本公开一示例性实施例中的对文本添加分类标签的流程图;
图2是本公开一示例性实施例中的一种分类标签添加装置的结构示意图;
图3是本公开一示例性实施例中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分而非全部结构。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本公开的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
随着社会治安问题的日益突出,公安情报中心每天都会收到大量的民众报警信息,为了便于警情文本分类存档,公安人员通过关键词检索提取多条具体信息,然后通过人工筛选、判断案情分类,或者直接逐条手动进行分类。这种方式不但消耗工作人员大量时间,使得工作效率不高,而且,由于警情文本的类别众多,通过人工分类极容易出现分错的现象,准确率不高。
神经网络的训练数据对神经网络识别准确率影响较大,由于每个报警人的表达方式千差万别,在由机器判断时很难定位到实际的问题,面对复杂度高、数量巨大的文本数据资源,通过单一算法模型对文本数据进行分析,得到的识别结果的准确度较低。
传统的知识图谱采用实体-关系-实体的架构进行构建,主要适用于信息检索和问答***。对于主要内容为行为事件类的应用效果较差,在面对警情文本分类时,提取的事件类信息主要以节点之间的关系形式存在,很难作为分析重点,而实体对于警情分类的影响关系不大,会占用大量节点空间。
图1为本公开实示例性实施例提供的一种分类标签添加方法的流程图,本实施例可适用于对警情文本进行添加分类标签的情况,该方法可以由本公开实施例中的分类标签添加装置来执行,该装置可采用软件和/或硬件的方式实现,如图1所示,该方法包括如下步骤:
步骤110,获取待分类警情文本和至少一个分类标签对应的目标词组,其中,所述目标词组包括:事件词组和所述事件词组的近义词。
其中,所述事件词组为从所述分类标签中提取出的用于表征事件的词组,所述事件词组的获取方式可以为将分类标签直接进行拆分;也可以为先将所述分类标签进行分词处理,并将分词处理后的分类标签进行组合,本发明实施例对此不进行限制,例如可以是,若分类标签为“盗销自行车”,则从分类标签“盗销自行车”中提取出“盗”、“销”以及“自行车”三词,并将三词进行组合,例如,分别确定三词的词性,得到“盗”和“销”为动词,“自行车”为名词,将三词按照动宾结构进行扩展组合,得到事件词组包括“盗窃自行车”和“销售盗窃自行车”。
应理解,分类标签可包括各类词性的词语,根据分类标签提取到的事件词组可包括各类词性的词语构成词组,例如,可以为行为类动词、实物类名词和场所类名词中的至少两种的组合的词组。
其中,目标词组还包括事件词组的近义词。事件词组的近义词可以是根据事件词组拓展得到的,也可以是根据待分类警情文本确定并添加的,本公开对此不做限制。
其中,获取所述至少一个分类标签的方式可以为预先构建分类标签的知识图谱框架,获取所述知识图谱框架中的最后一级标签,将所述最后一级标签作为分类标签,最后一级标签可以有多个,因此,分类标签可以存在多个。
其中,所述待分类警情文本为用户输入的需要进行分类的警情文本,所述警情文本为与警情相关的文本。
在一种可能的实现方式中,预先获取用户输入的待分类警情文本和用户输入的多个用于分类的标签,用户输入的多个用于分类的标签分为多个级别,根据多个标签以及标签的级别关系构建分类标签的知识图谱框架,获取所述知识图谱框架中的最后一级标签作为分类标签,从所述分类标签中提炼出目标词组,例如可以是,第一级别包括:公共秩序管理类、行业场所管理类、危险物品管理类、治安打击类、涉犬类以及保安类等,一级标签下有二级标签,例如可以是,保安类下方的二级标签为:投诉类和纠纷类,二级标签下方又会有三级标签,例如可以是,保安投诉类下方的三级标签包括:保安打人、保安盗窃以及保安赌博等,三级标签下面可能有四级标签,甚至五级标签,标签的分级由需求确定,根据标签的级别关系构建分类标签的知识图谱框架。
步骤120,将所述待分类警情文本与所述目标词组进行匹配。
其中,所述目标词组包括:事件词组和所述事件词组的近义词,提取事件词组的方式可以为预先建立关于分类标签和事件词组的对应关系的数据库,根据分类标签查询数据库得到所述标签对应的事件词组,也可以为通过查表的形式得到所述分类标签对应的事件词组,本发明实施例对事件词组的确定方式不进行限制。
举例来说,将所述待分类警情文本与所述目标词组进行匹配的方式可以为预先建立关于警情文本与事件词组的对应关系的数据库,根据所述待分类警情文本查询数据库,将所述待分类警情文本与数据库中的事件词组进行匹配;或者可以为预先建立关于警情文本与事件词组和事件词组的近义词的对应关系的数据库,将所述待分类警情文本与数据库中的事件词组和所述事件词组的近义词进行匹配;或者可以为将所述待分类警情文本进行分词处理,对分词结果通过Word2vec提取分词向量,将所述分词向量与事件词组和事件词组的近义词进行向量匹配,并且将所述待分类文本与事件词组和事件词组的近义词进行字符串匹配;还可以为将所述待分类警情文本进行分词处理,对分词结果通过Word2vec提取分词向量,将所述分词向量与事件词组和事件词组的近义词进行向量匹配,本发明实施例对此不进行限制。
步骤130,若匹配成功,则将所述待分类警情文本添加所述目标词组对应的分类标签。
其中,所述匹配成功指的是,存在与所述待分类警情文本对应的目标词组,需要说明的是,所述匹配成功可以为存在与所述待分类警情文本的匹配度大于匹配度阈值的目标词组;也可以为存在与所述待分类警情文本的匹配度为100%的目标词组,本发明实施例对此不进行限制。例如可以是,若将所述待分类警情文本与所述目标词组进行匹配的方式为预先建立关于警情文本与事件词组的对应关系的数据库,将所述待分类警情文本与数据库中的事件词组进行匹配,则匹配成功指的是,在数据库中查询到与所述待分警情文本对应的事件词组;若将所述待分类警情文本与所述目标词组进行匹配的方式为预先建立关于警情文本与事件词组和事件词组的近义词的对应关系的数据库,将所述待分类警情文本与数据库中的事件词组和所述事件词组的近义词进行匹配,则匹配成功指的是,在数据库中查找到与所述待分类警情文本对应的事件词组和/或事件词组的近义词;若将所述待分类警情文本与所述目标词组进行匹配的方式为将所述待分类警情文本进行分词处理,对分词结果通过Word2vec提取分词向量,将所述分词向量与事件词组和事件词组的近义词进行向量匹配,并且将所述待分类文本与事件词组和事件词组的近义词进行字符串匹配,则匹配成功指的是,存在与所述待分类警情文本的分词向量匹配的事件词组和/或事件词组的近义词,和/或,存在与所述待分类警情文本的字符串匹配的事件词组和/或事件词组的近义词;若将所述待分类警情文本与所述目标词组进行匹配的方式为将所述待分类警情文本进行分词处理,对分词结果通过Word2vec提取分词向量,将所述分词向量与事件词组和事件词组的近义词进行向量匹配,则匹配成功指的是,存在与所述待分类警情文本的分词向量匹配的事件词组和/或事件词组的近义词,本发明实施例对此不进行限制。
举例来说,若匹配成功,则将所述待分类警情文本添加所述目标词组对应的分类标签,进而根据分类标签实现对待分类警情文本的分类。例如可以是,若将所述待分类警情文本与所述目标词组进行匹配的方式为将所述待分类警情文本进行分词处理,对分词结果通过Word2vec提取分词向量,将所述分词向量与事件词组和事件词组的近义词进行向量匹配,并且将所述待分类文本与事件词组和事件词组的近义词进行字符串匹配,存在与所述待分类警情文本的分词向量匹配的事件词组和/或事件词组的近义词,和/或,存在与所述待分类警情文本的字符串匹配的事件词组和/或事件词组的近义词,则将所述待分类警情文本添加事件词组和/或事件词组的近义词对应的分类标签;若将所述待分类警情文本与所述目标词组进行匹配的方式为将所述待分类警情文本进行分词处理,对分词结果通过Word2vec提取分词向量,将所述分词向量与事件词组和事件词组的近义词进行向量匹配,存在与所述待分类警情文本的分词向量匹配的事件词组和/或事件词组的近义词,则将所述待分类警情文本添加事件词组和/或事件词组的近义词对应的分类标签。
在一个可选的例子中,用户提供的标签包括:一级标签:公共秩序管理、行业场所管理类、危险物品管理类、治安打击类、涉犬类、保安类等,一级标签下有二级标签,一级标签公共秩序管理下方又有公共安全类和公共治安类,二级标签下方又会有三级标签,例如:二级公共安全类下方又包括手机盗销和盗销自行车等,三级标签为最后一级标签。获取待分类警情文本和三级标签(手机盗销和盗销自行车)中提炼出的事件词组,格式为名词+动词(例如:手机被盗、被盗手机销售和手机丢失),或者动词+名词(例如偷窃自行车、被盗自行车销售和自行车丢失)的形式,将待分类警情文本进行分词处理,对分词结果通过Word2vec提取分词向量,将所述分词向量与手机被盗、偷窃自行车和偷窃钱包转换后的向量进行向量匹配,若待分类警情文本与偷窃自行车匹配成功,则将所述待分类警情文本添加偷窃自行车标签,进而可以推出待分类警情文本所属的二级标签为公共安全,对应的一级标签为公共秩序管理。
可选的,将所述待分类警情文本与所述目标词组进行匹配之后,还包括:
若未匹配成功,则根据所述待分类警情文本和数据库确定所述待分类警情文本对应的目标词,其中,所述数据库是根据所述至少一个分类标签对应的事件词组提炼得到的关键词构建的,所述数据库包括:关键词、关键词的子类词、关键词的近义词以及关键词的子类词的近义词中的至少一种,所述关键词包括:行为类动词、实物类名词以及场所类名词中的至少一种;
将所述目标词输入训练好的神经网络模型,得到所述目标词对应的事件词组;
将所述待分类警情文本添加所述事件词组对应的分类标签。
其中,所述关键词可以是从分类标签对应的事件词组中提炼出来的,例如,提炼方法可以为对分类标签对应的事件词组进行分词处理,从分词结果中选取关键词;还可以为直接获取所述分类标签对应的事件词组中的关键词,例如可以是,若分类标签为盗销自行车,盗销自行车对应的事件词组为偷盗自行车、销售偷盗的自行车和自行车丢失,则从事件词组中提取关键字:偷盗、自行车、销售、丢失。
其中,所述数据库包括:关键词、关键词的子类词、关键词的近义词和/或关键词的子类词的近义词。例如可以是,若关键词为自行车,则关键词的近义词包括:单车、脚踏车;关键词的子类可以包括品牌A的单车、品牌B的单车、品牌C的单车。若关键词为宾馆又可称为旅馆、旅店、酒店。关键词的子类包括:品牌、种类和型号等,若关键词为手机,则手机的子类可以包括:型号A的手机、型号B的手机、型号C的手机、型号D的手机、品牌X的手机、品牌Y的手机和品牌Z的手机等,若关键词为毒品,则毒品的子类可以包括:***、***和***等种类,若关键词为酒店,则酒店的子类可以包括:品牌A的酒店、品牌B的酒店和品牌C的酒店等,本发明实施例对此不进行限制。
其中,所述目标词包括至少一个词,所述目标词就是匹配成功的关键词。
其中,根据所述待分类警情文本和所述数据库确定所述待分类警情文本对应的目标词的方式可以为,将所述待分类警情文本进行分词处理,对分词结果通过word2vec提取分词向量,根据提取得到的分词向量查询数据库,得到与所述分词向量对应的目标词;也可以为直接将所述待分类警情文本进行分词处理,根据分词处理结果查询数据库,得到所述待分类警情文本对应的目标词,本发明实施例对此不进行限制。
举例来说,若将待分类警情文本与所述目标词组进行匹配,未匹配成功,则可以获取至少一个分类标签对应的事件词组,从所述事件词组中提炼关键词,根据关键词获取关键词的近义词,根据关键词获取关键词的子类,获取关键词的子类的近义词,将所述关键词、关键词的子类、关键词的近义词、关键词的子类的近义词存储至数据库中,根据所述待分类警情文本查询数据库,得到所述待分类警情文本对应的目标词,将所述目标词输入预先训练好的神经网络模型,得到所述目标词对应的事件词组,将所述待分类警情文本添加所述事件词组对应的分类标签,以便于根据所述分类标签进行自动分类。
可选的,神经网络模型的训练方法包括:
获取样本词和与样本词对应的样本事件词组;
将所述样本词输入待训练神经网络模型,得到预测事件词组;
根据所述预测事件词组和所述样本事件词组形成的目标函数训练所述待训练神经网络模型的模型参数,直至得到训练好的神经网络模型。
其中,所述样本词可以仅包括关键词,可以减小复杂度和计算量,提高神经网络的训练速度。
其中,所述目标函数为损失函数。
举例来说,将样本词输入待训练神经网络模型,得到预测事件词组;根据预测事件词组和样本事件词组形成的目标函数训练所述待训练神经网络模型的模型参数;返回执行将样本词输入待训练神经网络模型,得到预测事件词组的操作,直至得到训练好的神经网络模型。
在一种可能的实现方式中,可以根据待分类警情文本以及该待分类警情文本的分类标签,更新该分类标签对应的目标词组。
举例来说,可以在确定待分类警情文本对应的分类标签时,根据待分类警情文本以及分类标签,确定与分类标签相关的词组或者词组的近义词,并将与分类标签相关的词组或者词组的近义词添加到该分类标签对应的目标词组中。
例如,待分类警情文本与分类标签M对应的目标词组的匹配度小于100%,大于或等于匹配度阈值,可以确定待分类警情文本的标签为分类标签M。可以根据待分类警情文本,确定与分类标签M相关的词组或者词组的近义词,例如,将待分类警情文本分词,并将分词得到的词语进行组合,得到与分类标签M相关的词组或者词组的近义词,并将得到词组或者词组的近义词添加到分类标签M对应的目标词组中,以实现对分类标签对应的目标词组的更新。
这样,能够不断丰富分类标签对应的目标词组中的事件词组以及事件词组的近义词,提高后续对待分类警情文本的分类标签添加的准确度以及分类效率。
可选的,将所述待分类警情文本与所述目标词组进行匹配包括:
对所述待分类警情文本进行分词处理;
提取所述分词结果的分词向量;
将所述分词向量与所述目标词组进行匹配。
其中,提取所述分词结果的分词向量的方式可以为通过NLP技术提取所述分词结果的分词向量,例如可以为,对分词结果通过word2vec提取分词向量,本发明实施例对此不进行限制。
可选的,所述关键词的子类词包括:所述实物类名词的子类词和/或所述场所类名词的子类词。
可选的,所述关键词的近义词包括:行为类动词的近义词、实物类名词的近义词以及场所类名词的近义词中的至少一种。
可选的,所述事件词组包括:行为类动词、实物类名词和场所类名词中的至少两种的组合。
举例来说,如图1a所示,用户预先提供分类标签,分为多个级别,先根据标签之间的关系构建标签的知识图谱框架,获取最后一级标签,最后一级标签与上一级标签关联,获取最后一级标签对应的事件词组和事件词组的近义词,从事件词组中提炼关键词,关键词包括:行为关键词、实物关键词和场所关键词,获取行为关键词的近义词、实物关键词的近义词和场所关键词的近义词,获取实物关键词的子类词,和实物关键词的子类词的近义词,获取场所关键词的子类词,和场所关键词的子类词的近义词。
在一个可选的例子中,用户预先提供分类标签,分为多个级别,例如可以是:第一级别包括公共秩序管理类、行业场所管理类、危险物品管理类、治安打击类、涉犬类、保安类等,一级标签下有二级标签,例如保安类下方又有投诉类和纠纷类,二级标签下方又会有三级标签,例如保安投诉类下方又包括保安打人、保安盗窃、保安赌博等,再下面可能有四级标签,甚至五级标签,标签由用户需求确定。根据分类标签构建标签的知识图谱框架,根据知识图谱框架,后一级标签可以推前一级标签,所以在确定出待分类文本是属于最后一级标签的基础上,就可以推断出前一级标签。从最后一级标签中提炼事件词组,格式为名词+动词(例如煤气中毒)或动词+名词(例如偷窃自行车)的形式,对于有些标签例如行业场所大类下的标签,除了动词和名词外,还需要在事件中添加代表地点/场所类信息。将待分类警情文本与事件词组和/或事件词组的近义词进行匹配。若匹配成功,则将待分类警情文本添加目标词组对应的分类标签,若未匹配成功,则根据标签对应的事件词组,提炼核心关键词,分为三个类型:行为类动词、实物类名词和场所类名词,针对不同的标签,关键词类型数量可为1类、2类或3类。基于实物类和场所类关键词,不断扩充子类,例如车又分为机动车和非机动车,通过大量数据样本,不断补充关键词及子类和事件的近义词。近义词例如自行车又可称为单车、脚踏车,宾馆又可称为旅馆、旅店。关键词的子类包括:品牌、种类和型号等,若关键词为手机,则手机的子类可以包括:型号A的手机、型号B的手机、型号C的手机、型号D的手机、品牌X的手机、品牌Y的手机和品牌Z的手机等,若关键词为毒品,则毒品的子类可以包括:***、***和***等种类,若关键词为酒店,则酒店的子类可以包括:品牌A的酒店、品牌B的酒店和品牌C的酒店等。通过大量数据训练深度神经网络模型,输入为关键词,分为行为、实物和场所三类,输出为事件词组,事件词组对应最后一级标签信息。
在一个可选的例子中,如图1b所示,输入待分类警情文本,对待分类警情文本进行分词处理,对分词处理结果通过word2vec提取分词向量,与事件词组和事件词组的近义词进行字符串匹配和向量匹配,若任一匹配成功,则获取待分类警情文本对应的事件词组对应的标签,根据所述标签关联得到多级标签。若未匹配成功,则从标签对应的事件词组中提取关键词,根据关键词、关键词近义词、关键词子类词和关键词子类词的近义词构建关键词库,将所述待分类警情文本处理后与关键词库进行向量匹配和字符串匹,得到匹配的关键词,将所述匹配的关键词输入神经网络,得到所述匹配的关键词对应的事件词组,获取事件词组对应的标签,根据所述标签关联得到多级标签。
本发明实施例能够对警情文本进行自动分类,大大提高分类效率,同时,对于归类、串联串案、深入分析案情都有重要意义。
本实施例提供的分类标签添加方法,通过获取待分类警情文本和至少一个分类标签对应的目标词组,将待分类警情文本与所述目标词组进行匹配;若匹配成功,则将待分类警情文本添加目标词组对应的分类标签,能够自动对警情文本添加分类标签,并根据分类标签进行自动分类,提高分类效率。
图2是本公开一示例性实施例的一种添加分类标签装置的结构示意图,本实施例可适用于对警情文本添加分类标签的情况,该装置可采用软件和/或硬件的方式实现,该装置可集成在任何提供对警情文本添加分类标签功能的设备中,如图2所示,所述添加分类标签装置包括:获取模块210、匹配模块220和添加模块230。
其中,获取模块210,用于获取待分类警情文本和至少一个分类标签对应的目标词组,其中,所述目标词组包括:事件词组和所述事件词组的近义词;
匹配模块220,用于将所述待分类警情文本与所述目标词组进行匹配;
添加模块230,用于若匹配成功,则将所述待分类警情文本添加所述目标词组对应的分类标签。
上述装置可执行本公开前述所有实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本公开前述所有实施例所提供的方法。
图3是本公开一示例性实施例中的一种计算机设备的结构示意图。图3示出了适于用来实现本公开实施方式的示例性计算机设备12的框图。图3显示的计算机设备12仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图3所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory,RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。另外,本实施例中的计算机设备12,显示器24不是作为独立个体存在,而是嵌入镜面中,在显示器24的显示面不予显示时,显示器24的显示面与镜面从视觉上融为一体。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网Wide AreaNetwork,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本公开实施例所提供的分类标签添加方法:
获取待分类警情文本和至少一个分类标签对应的目标词组,其中,所述目标词组包括:事件词组和所述事件词组的近义词;
将所述待分类警情文本与所述目标词组进行匹配;
若匹配成功,则将所述待分类警情文本添加所述目标词组对应的分类标签。
本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现如本申请所有公开实施例提供的分类标签添加方法:
获取待分类警情文本和至少一个分类标签对应的目标词组,其中,所述目标词组包括:事件词组和所述事件词组的近义词;
将所述待分类警情文本与所述目标词组进行匹配;
若匹配成功,则将所述待分类警情文本添加所述目标词组对应的分类标签。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
注意,上述仅为本公开的较佳实施例及所运用技术原理。本领域技术人员会理解,本公开不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本公开的保护范围。因此,虽然通过以上实施例对本公开进行了较为详细的说明,但是本公开不仅仅限于以上实施例,在不脱离本公开构思的情况下,还可以包括更多其他等效实施例,而本公开的范围由所附的权利要求范围决定。

Claims (10)

1.一种分类标签添加方法,其特征在于,包括:
获取待分类警情文本和至少一个分类标签对应的目标词组,其中,所述目标词组包括:事件词组和所述事件词组的近义词;
将所述待分类警情文本与所述目标词组进行匹配;
若匹配成功,则将所述待分类警情文本添加所述目标词组对应的分类标签。
2.根据权利要求1所述的方法,其特征在于,将所述待分类警情文本与所述目标词组进行匹配之后,还包括:
若未匹配成功,则根据所述待分类警情文本和数据库确定所述待分类警情文本对应的目标词,其中,所述数据库是根据所述至少一个分类标签对应的事件词组提炼得到的关键词构建的,所述数据库包括:关键词、关键词的子类词、关键词的近义词以及关键词的子类词的近义词中的至少一种,所述关键词包括:行为类动词、实物类名词以及场所类名词中的至少一种;
将所述目标词输入训练好的神经网络模型,得到所述目标词对应的事件词组;
将所述待分类警情文本添加所述事件词组对应的分类标签。
3.根据权利要求2所述的方法,其特征在于,神经网络模型的训练方法包括:
获取样本词和与样本词对应的样本事件词组;
将所述样本词输入待训练神经网络模型,得到预测事件词组;
根据所述预测事件词组和所述样本事件词组形成的目标函数训练所述待训练神经网络模型的模型参数,直至得到训练好的神经网络模型。
4.根据权利要求1所述的方法,其特征在于,将所述待分类警情文本与所述目标词组进行匹配包括:
对所述待分类警情文本进行分词处理;
提取所述分词结果的分词向量;
将所述分词向量与所述目标词组进行匹配。
5.根据权利要求2所述的方法,其特征在于,所述关键词的子类词包括:所述实物类名词的子类词和/或所述场所类名词的子类词。
6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
根据所述待分类警情文本以及所述待分类警情文本的分类标签,更新所述分类标签对应的目标词组。
7.根据权利要求1所述的方法,其特征在于,所述事件词组包括:行为类动词、实物类名词和场所类名词中的至少两种的组合。
8.一种添加分类标签装置,其特征在于,包括:
获取模块,用于获取待分类警情文本和至少一个分类标签对应的目标词组,其中,所述目标词组包括:事件词组和所述事件词组的近义词;
匹配模块,用于将所述待分类警情文本与所述目标词组进行匹配;
添加模块,用于若匹配成功,则将所述待分类警情文本添加所述目标词组对应的分类标签。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202010879905.6A 2020-08-27 2020-08-27 一种分类标签添加方法、装置、设备及存储介质 Pending CN112069324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010879905.6A CN112069324A (zh) 2020-08-27 2020-08-27 一种分类标签添加方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010879905.6A CN112069324A (zh) 2020-08-27 2020-08-27 一种分类标签添加方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112069324A true CN112069324A (zh) 2020-12-11

Family

ID=73659518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010879905.6A Pending CN112069324A (zh) 2020-08-27 2020-08-27 一种分类标签添加方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112069324A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765357A (zh) * 2021-02-05 2021-05-07 北京灵汐科技有限公司 文本分类方法、装置和电子设备
CN112989050A (zh) * 2021-03-31 2021-06-18 建信金融科技有限责任公司 一种表格分类方法、装置、设备及存储介质
CN113704458A (zh) * 2021-10-29 2021-11-26 江铃汽车股份有限公司 一种车辆仪表文字显示方法、***、存储介质及设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893606A (zh) * 2016-04-25 2016-08-24 深圳市永兴元科技有限公司 文本分类方法和装置
CN108334605A (zh) * 2018-02-01 2018-07-27 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN109284391A (zh) * 2018-12-07 2019-01-29 吉林大学 一种文献自动分类方法
CN109542830A (zh) * 2018-11-21 2019-03-29 北京灵汐科技有限公司 一种数据处理***及数据处理方法
CN109840280A (zh) * 2019-03-05 2019-06-04 百度在线网络技术(北京)有限公司 一种文本分类方法、装置及计算机可读存储介质
WO2019174423A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体情感分析方法及相关装置
CN110580288A (zh) * 2019-08-23 2019-12-17 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法和装置
CN110597988A (zh) * 2019-08-28 2019-12-20 腾讯科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
CN110796160A (zh) * 2019-09-16 2020-02-14 腾讯科技(深圳)有限公司 一种文本分类方法、装置和存储介质
CN110837601A (zh) * 2019-10-25 2020-02-25 杭州叙简科技股份有限公司 一种警情的自动分类与预测方法
CN111191445A (zh) * 2018-11-15 2020-05-22 北京京东金融科技控股有限公司 广告文本分类方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893606A (zh) * 2016-04-25 2016-08-24 深圳市永兴元科技有限公司 文本分类方法和装置
CN108334605A (zh) * 2018-02-01 2018-07-27 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
WO2019174423A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体情感分析方法及相关装置
CN111191445A (zh) * 2018-11-15 2020-05-22 北京京东金融科技控股有限公司 广告文本分类方法及装置
CN109542830A (zh) * 2018-11-21 2019-03-29 北京灵汐科技有限公司 一种数据处理***及数据处理方法
CN109284391A (zh) * 2018-12-07 2019-01-29 吉林大学 一种文献自动分类方法
CN109840280A (zh) * 2019-03-05 2019-06-04 百度在线网络技术(北京)有限公司 一种文本分类方法、装置及计算机可读存储介质
CN110580288A (zh) * 2019-08-23 2019-12-17 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法和装置
CN110597988A (zh) * 2019-08-28 2019-12-20 腾讯科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
CN110796160A (zh) * 2019-09-16 2020-02-14 腾讯科技(深圳)有限公司 一种文本分类方法、装置和存储介质
CN110837601A (zh) * 2019-10-25 2020-02-25 杭州叙简科技股份有限公司 一种警情的自动分类与预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈佳杰,江红,王肃: "基于关键词的云计算语义文本自适应分类", 计算机工程, vol. 40, no. 7, 31 July 2014 (2014-07-31), pages 247 - 253 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765357A (zh) * 2021-02-05 2021-05-07 北京灵汐科技有限公司 文本分类方法、装置和电子设备
CN112989050A (zh) * 2021-03-31 2021-06-18 建信金融科技有限责任公司 一种表格分类方法、装置、设备及存储介质
CN112989050B (zh) * 2021-03-31 2023-05-30 建信金融科技有限责任公司 一种表格分类方法、装置、设备及存储介质
CN113704458A (zh) * 2021-10-29 2021-11-26 江铃汽车股份有限公司 一种车辆仪表文字显示方法、***、存储介质及设备

Similar Documents

Publication Publication Date Title
CN108038183B (zh) 结构化实体收录方法、装置、服务器和存储介质
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
US10025819B2 (en) Generating a query statement based on unstructured input
US20150310096A1 (en) Comparing document contents using a constructed topic model
CN110717049A (zh) 一种面向文本数据的威胁情报知识图谱构建方法
CN112069324A (zh) 一种分类标签添加方法、装置、设备及存储介质
EP3832488A2 (en) Method and apparatus for generating event theme, device and storage medium
CN113158653B (zh) 预训练语言模型的训练方法、应用方法、装置及设备
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN113033198B (zh) 相似文本推送方法、装置、电子设备及计算机存储介质
JP2023519049A (ja) Poi状態情報を取得する方法、及び装置
CN114722137A (zh) 基于敏感数据识别的安全策略配置方法、装置及电子设备
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN115017425B (zh) 地点检索方法、装置、电子设备以及存储介质
CN115129913A (zh) 敏感词挖掘方法及其装置、设备、介质
Shang et al. A framework to construct knowledge base for cyber security
CN113947087A (zh) 一种基于标签的关系构建方法、装置、电子设备及存储介质
US20170140010A1 (en) Automatically Determining a Recommended Set of Actions from Operational Data
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN116776881A (zh) 一种基于主动学习的领域实体识别***及识别方法
CN109446318A (zh) 一种确定汽车维修文档主题的方法及相关设备
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination