CN109145293A - 一种面向案情的关键词提取方法及*** - Google Patents

一种面向案情的关键词提取方法及*** Download PDF

Info

Publication number
CN109145293A
CN109145293A CN201810883678.7A CN201810883678A CN109145293A CN 109145293 A CN109145293 A CN 109145293A CN 201810883678 A CN201810883678 A CN 201810883678A CN 109145293 A CN109145293 A CN 109145293A
Authority
CN
China
Prior art keywords
keyword
merit
description
training pattern
keras
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810883678.7A
Other languages
English (en)
Other versions
CN109145293B (zh
Inventor
康晓军
姚宏
姜江
李新川
李圣文
梁庆中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201810883678.7A priority Critical patent/CN109145293B/zh
Publication of CN109145293A publication Critical patent/CN109145293A/zh
Application granted granted Critical
Publication of CN109145293B publication Critical patent/CN109145293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向案情的关键词提取方法,首先根据用于训练模型的案情描述获取用于训练模型的案情描述的词向量矩阵和词法特征矩阵;然后采用python库中的keras包,将用于训练模型的案情描述的词向量矩阵放入到一个keras的模型中去,用于训练模型的案情描述的词法特征矩阵也放入到一个keras中的模型中去,然后将两个模型利用keras中的merge功能,将两个模型合并为一个模型,然后将这个模型运用keras中的fit功能来训练模型;最后将待预测关键词的案情描述输入到模型中,进行关键词的提取,提取所需的关键词。利用本发明的这种方法可以大大提高关键词提取的准确性,并减少断案工作量。

Description

一种面向案情的关键词提取方法及***
技术领域
本发明具体涉及一种面向案情的关键词提取方法及***。
背景技术
在一段关于犯罪案情描述中,冗余的信息很多,其实大多数时候,只需要知道三个要素就可以来断案了,分别是:犯罪嫌疑人、犯罪类型和程度。假如能利用机器将这三个关键字自动提取出来,那么案情分析的工作量将会大大减少。
当前的关键词提取技术主要是利用TI-IDF方法来提取,该方法的基本思路是,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF并不能准确地提取这三个要素,没有考虑到关键要素的一些特征。利用本发明的这种方法可以大大提高准确性,并减少断案工作量。
发明内容
本发明要解决的技术问题在于,针对上述目前犯罪案情描述关键词提取技术的不足,提供一种面向案情的关键词提取方法及***解决上述问题。
一种面向案情的关键词提取方法,包括以下步骤:
步骤1:对用于训练模型的案情描述进行关键词标注,标注出第一关键词、第二关键词、第三关键词,对用于训练模型的案情描述采用ltp进行分词,然后采用word2vec将用于训练模型的案情描述中的每个分词转换成词向量,每条案情描述的所有分词的词向量拼接起来,构成用于训练模型的案情描述的词向量矩阵;
步骤2:对第三关键词进行词法特征计算,计算第三关键词的七个特征,包括关键词的长度、关键词的词性、在原文档中位于第一关键词和第二关键词的哪个位置、与第一关键词的距离、与第二关键词的距离、与案情描述开头的距离、与案情描述结尾的距离;
步骤3:分别计算用于训练模型的案情描述中除了第一关键词和第二关键词之外其他每个分词的七个特征,计算每个分词的每个特征在第三关键词的七个特征中对应的特征中所占的比例,并将得到的每个分词的七个比例数字组成一个关于该分词词法特征的七维向量,作为每个分词的词法特征向量,第一关键词和第二关键词的词法特征向量全部设置为0,每一条案情描述中所有分词的词法特征向量拼接起来,得到用于训练模型的案情描述的词法特征矩阵;
步骤4:采用python库中的keras包,将用于训练模型的案情描述的词向量矩阵放入到一个keras的模型中去,用于训练模型的案情描述的词法特征矩阵也放入到一个keras中的模型中去,然后将两个模型利用keras中的merge功能,将两个模型合并为一个模型,然后将合并后的模型运用keras中的fit功能来训练模型;
步骤5:对待预测第三关键词的案情描述进行分词和运用word2vec转换成词向量矩阵,并且和标注出的另外两个关键词一起输入到步骤4训练完成的模型中,利用keras中的predict功能得到待预测第三关键词的案情描述的每个分词是第三关键词犯罪程度的概率,概率最大的就作为提取的第三关键词。
进一步的,关键词的长度就是关键词包含的字数。
进一步的,关键词的词性用ltp进行词性标注。
进一步的,在原文档中位于第一关键词和第二关键词的哪个位置的确定方法是,假如第三关键词犯罪程度在另外两个关键词之前出现在原句中时关键词该特征就标注为1,在另外两个关键词中间出现在原句中时该特征就为2,在原句中位于另外两个关键词后面时该特征就标注为3。
进一步的,与第一关键词的距离是指与第一关键词中间的字数。
进一步的,与第二关键词的距离是指与第二关键词中间的字数。
进一步的,与案情描述开头的距离是指距离案情描述开头的字数。
进一步的,与案情描述结尾的距离是指距离案情描述结尾的字数。
一种面向案情的关键词提取***,能够实现以下功能:
预处理模块:对用于训练模型的案情描述进行关键词标注,标注出第一关键词、第二关键词、第三关键词,对用于训练模型的案情描述采用ltp进行分词,然后采用word2vec将用于训练模型的案情描述中的每个分词转换成词向量,每条案情描述的所有分词的词向量拼接起来,构成用于训练模型的案情描述的词向量矩阵;
特征计算模块:对第三关键词进行词法特征计算,计算第三关键词的七个特征,包括关键词的长度、关键词的词性、在原文档中位于第一关键词和第二关键词的哪个位置、与第一关键词的距离、与第二关键词的距离、与案情描述开头的距离、与案情描述结尾的距离;
特征拼接模块:分别计算用于训练模型的案情描述中除了第一关键词和第二关键词之外其他每个分词的七个特征,计算每个分词的每个特征在第三关键词的七个特征中对应的特征中所占的比例,并将得到的每个分词的七个比例数字组成一个关于该分词词法特征的七维向量,作为每个分词的词法特征向量,第一关键词和第二关键词的词法特征向量全部设置为0,每一条案情描述中所有分词的词法特征向量拼接起来,得到用于训练模型的案情描述的词法特征矩阵;
模型训练模块:采用python库中的keras包,将用于训练模型的案情描述的词向量矩阵放入到一个keras的模型中去,用于训练模型的案情描述的词法特征矩阵也放入到一个keras中的模型中去,然后将两个模型利用keras中的merge功能,将两个模型合并为一个模型,然后将合并后的模型运用keras中的fit功能来训练模型;
结果获取模块:对待预测第三关键词的案情描述进行分词和运用word2vec转换成词向量矩阵,并且和手工标注的另外两个关键词一起输入到步骤4训练完成的模型中,利用keras中的predict功能得到待预测第三关键词的案情描述的每个分词是第三关键词犯罪程度的概率,概率最大的就作为提取的第三关键词。
本发明针对传统的关键词提取只是利用词频和逆文件频率(TF-IDF)来对文中的关键词进行提取,而没有考虑词语的特征。本发明方案是对案情描述进行关键词提取,利用本发明的这种方法可以大大提高关键词提取的准确性,并减少断案工作量。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明的一种面向案情的关键词提取方法结构图;
图2为本发明的提取受贿犯罪程度关键词建立模型过程的结构图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
一种面向案情的关键词提取方法,以提取第三关键词犯罪程度为例,包括以下步骤:
步骤1:对用于训练模型的案情描述手动进行关键词标注,标注出第一关键词犯罪嫌疑人、第二关键词犯罪类型、第三关键词犯罪程度,对案情描述采用ltp进行分词,然后采用word2vec将案情描述中的每个分词转换成词向量,然后每条案情描述的所有分词的词向量拼接起来,构成了案情描述的词向量矩阵。
步骤2:对第三关键词犯罪程度进行词法特征计算,计算第三关键词犯罪程度的关键词的长度、关键词的词性、在原文档中位于第一关键词犯罪嫌疑人和第二关键词犯罪类型的哪个位置、与第一关键词的距离、与第二关键词的距离、与案情描述开头的距离、与案情描述结尾的距离,得到第三关键词犯罪程度的七个特征。
其中,(1)关键词的长度就是看关键词包含多少个字;(2)关键词的词性用ltp可以自动对词语进行词性标注;(3)在原文档中位于第一关键词犯罪嫌疑人和第二关键词犯罪类型的哪个位置指的是,假如第三关键词犯罪程度在另外两个关键词之前出现在原句中时关键词该特征就标注为1,在另外两个关键词中间出现在原句中时该特征就为2,在原句中位于另外两个关键词后面时该特征就标注为3;(4)与第一关键词的距离指的是,要提取的犯罪程度关键词与犯罪嫌疑人中间有多少个字;(5)与第二关键词的距离指的是,犯罪程度关键词与第二关键词(犯罪类型)中间有多少个字;(6)与案情描述开头的距离是,要提取的犯罪程度关键词距离案情描述开头有多少个字;(7)与案情描述结尾的距离是,犯罪程度关键词距离案情描述结尾有多少个字。
步骤3:分别计算案情描述中除了第一关键词犯罪嫌疑人和第二关键词犯罪类型之外其他每个分词的七个特征:长度、词性、在原文档中位于第一关键词犯罪嫌疑人和第二关键词犯罪类型的哪个位置、与第一关键词的距离、与第二关键词的距离、与案情描述开头的距离、与案情描述结尾的距离。计算每个分词的每个特征在第三关键词犯罪程度的七个特征中对应的特征中所占的比例,并将得到的每个分词的七个比例数字组成一个关于该分词词法特征的七维向量,作为每个分词的词法特征向量,第一关键词犯罪嫌疑人和第二关键词犯罪类型的词法特征向量全部设置为0,每一条案情描述中所有分词的词法特征向量拼接起来,得到该条案情描述的词法特征矩阵。
步骤4:安装python库中的keras包。将案情描述的词向量矩阵放入到一个keras的模型中去,案情描述的词法特征矩阵也放入到一个keras中的模型中去,然后将两个模型利用keras中的merge功能,将两个模型合并为一个模型,然后将合并后的模型运用keras中的fit功能来训练模型。
步骤5:对待预测第三关键词犯罪程度的案情描述进行分词和运用word2vec转换成词向量矩阵,并且和已标注的另外两个关键词一起输入到步骤4训练完成的模型中,利用keras中的predict功能来预测在待预测第三关键词的案情描述的分词结果中哪一个词是要提取的第三关键词犯罪程度,得到每个分词是第三关键词犯罪程度的概率,概率最大的就作为提取的第三关键词犯罪程度。
如图2所示,展示了一个关于提取受贿犯罪程度关键词建立模型过程的具体实例。提取第三关键词犯罪类型时将犯罪嫌疑人和犯罪程度分别作为第一关键词和第二关键词,过程与提取犯罪程度是相同的。
本发明针对传统的关键词提取只是利用词频和逆文件频率(TF-IDF)来对文中的关键词进行提取,而没有考虑词语的特征。本发明方案是对犯罪案情描述进行关键词提取,主要提取犯罪嫌疑人、犯罪类型和犯罪程度。犯罪嫌疑人通过ltp命名实体识别功能找出,通常实体识别出来的第一个名词就是犯罪嫌疑人。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (9)

1.一种面向案情的关键词提取方法,其特征在于,包括以下步骤:
步骤1:对用于训练模型的案情描述进行关键词标注,标注出第一关键词、第二关键词、第三关键词,对用于训练模型的案情描述采用ltp进行分词,然后采用word2vec将用于训练模型的案情描述中的每个分词转换成词向量,每条案情描述的所有分词的词向量拼接起来,构成用于训练模型的案情描述的词向量矩阵;
步骤2:对第三关键词进行词法特征计算,计算第三关键词的七个特征,包括关键词的长度、关键词的词性、在原文档中位于第一关键词和第二关键词的哪个位置、与第一关键词的距离、与第二关键词的距离、与案情描述开头的距离、与案情描述结尾的距离;
步骤3:分别计算用于训练模型的案情描述中除了第一关键词和第二关键词之外其他每个分词的七个特征,计算每个分词的每个特征在第三关键词的七个特征中对应的特征中所占的比例,并将得到的每个分词的七个比例数字组成一个关于该分词词法特征的七维向量,作为每个分词的词法特征向量,第一关键词和第二关键词的词法特征向量全部设置为0,每一条案情描述中所有分词的词法特征向量拼接起来,得到用于训练模型的案情描述的词法特征矩阵;
步骤4:采用python库中的keras包,将用于训练模型的案情描述的词向量矩阵放入到一个keras的模型中去,用于训练模型的案情描述的词法特征矩阵也放入到一个keras中的模型中去,然后将两个模型利用keras中的merge功能,将两个模型合并为一个模型,然后将合并后的模型运用keras中的fit功能来训练模型;
步骤5:对待预测第三关键词的案情描述进行分词和运用word2vec转换成词向量矩阵,并且和标注出的另外两个关键词一起输入到步骤4训练完成的模型中,利用keras中的predict功能得到待预测第三关键词的案情描述的每个分词是第三关键词犯罪程度的概率,概率最大的就作为提取的第三关键词。
2.根据权利要求1所述的一种面向案情的关键词提取方法,其特征在于,关键词的长度就是关键词包含的字数。
3.根据权利要求1所述的一种面向案情的关键词提取方法,其特征在于,关键词的词性用ltp进行词性标注。
4.根据权利要求1所述的一种面向案情的关键词提取方法,其特征在于,在原文档中位于第一关键词和第二关键词的哪个位置的确定方法是,假如第三关键词犯罪程度在另外两个关键词之前出现在原句中时关键词该特征就标注为1,在另外两个关键词中间出现在原句中时该特征就为2,在原句中位于另外两个关键词后面时该特征就标注为3。
5.根据权利要求1所述的一种面向案情的关键词提取方法,其特征在于,与第一关键词的距离是指与第一关键词中间的字数。
6.根据权利要求1所述的一种面向案情的关键词提取方法,其特征在于,与第二关键词的距离是指与第二关键词中间的字数。
7.根据权利要求1所述的一种面向案情的关键词提取方法,其特征在于,与案情描述开头的距离是指距离案情描述开头的字数。
8.根据权利要求1所述的一种面向案情的关键词提取方法,其特征在于,与案情描述结尾的距离是指距离案情描述结尾的字数。
9.一种面向案情的关键词提取***,其特征在于,能够实现以下功能:
预处理模块:对用于训练模型的案情描述进行关键词标注,标注出第一关键词、第二关键词、第三关键词,对用于训练模型的案情描述采用ltp进行分词,然后采用word2vec将用于训练模型的案情描述中的每个分词转换成词向量,每条案情描述的所有分词的词向量拼接起来,构成用于训练模型的案情描述的词向量矩阵;
特征计算模块:对第三关键词进行词法特征计算,计算第三关键词的七个特征,包括关键词的长度、关键词的词性、在原文档中位于第一关键词和第二关键词的哪个位置、与第一关键词的距离、与第二关键词的距离、与案情描述开头的距离、与案情描述结尾的距离;
特征拼接模块:分别计算用于训练模型的案情描述中除了第一关键词和第二关键词之外其他每个分词的七个特征,计算每个分词的每个特征在第三关键词的七个特征中对应的特征中所占的比例,并将得到的每个分词的七个比例数字组成一个关于该分词词法特征的七维向量,作为每个分词的词法特征向量,第一关键词和第二关键词的词法特征向量全部设置为0,每一条案情描述中所有分词的词法特征向量拼接起来,得到用于训练模型的案情描述的词法特征矩阵;
模型训练模块:采用python库中的keras包,将用于训练模型的案情描述的词向量矩阵放入到一个keras的模型中去,用于训练模型的案情描述的词法特征矩阵也放入到一个keras中的模型中去,然后将两个模型利用keras中的merge功能,将两个模型合并为一个模型,然后将合并后的模型运用keras中的fit功能来训练模型;
结果获取模块:对待预测第三关键词的案情描述进行分词和运用word2vec转换成词向量矩阵,并且和标注出的另外两个关键词一起输入到步骤4训练完成的模型中,利用keras中的predict功能得到待预测第三关键词的案情描述的每个分词是第三关键词犯罪程度的概率,概率最大的就作为提取的第三关键词。
CN201810883678.7A 2018-08-06 2018-08-06 一种面向案情的关键词提取方法及*** Active CN109145293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810883678.7A CN109145293B (zh) 2018-08-06 2018-08-06 一种面向案情的关键词提取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810883678.7A CN109145293B (zh) 2018-08-06 2018-08-06 一种面向案情的关键词提取方法及***

Publications (2)

Publication Number Publication Date
CN109145293A true CN109145293A (zh) 2019-01-04
CN109145293B CN109145293B (zh) 2021-05-28

Family

ID=64791654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810883678.7A Active CN109145293B (zh) 2018-08-06 2018-08-06 一种面向案情的关键词提取方法及***

Country Status (1)

Country Link
CN (1) CN109145293B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459973A (zh) * 2020-06-16 2020-07-28 四川大学 一种基于案情三元组信息的类案检索方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902743A (zh) * 2012-09-14 2013-01-30 广东电子工业研究院有限公司 一种应急预案的检索和重构方法
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN106095749A (zh) * 2016-06-03 2016-11-09 杭州量知数据科技有限公司 一种基于深度学习的文本关键词提取方法
US20170017635A1 (en) * 2015-07-17 2017-01-19 Fido Labs Inc. Natural language processing system and method
CN106503101A (zh) * 2016-10-14 2017-03-15 五邑大学 电商客服自动问答***语句关键词提取方法
CN108133436A (zh) * 2017-11-23 2018-06-08 科大讯飞股份有限公司 自动判案方法及***
CN108280064A (zh) * 2018-02-28 2018-07-13 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902743A (zh) * 2012-09-14 2013-01-30 广东电子工业研究院有限公司 一种应急预案的检索和重构方法
US20170017635A1 (en) * 2015-07-17 2017-01-19 Fido Labs Inc. Natural language processing system and method
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN106095749A (zh) * 2016-06-03 2016-11-09 杭州量知数据科技有限公司 一种基于深度学习的文本关键词提取方法
CN106503101A (zh) * 2016-10-14 2017-03-15 五邑大学 电商客服自动问答***语句关键词提取方法
CN108133436A (zh) * 2017-11-23 2018-06-08 科大讯飞股份有限公司 自动判案方法及***
CN108280064A (zh) * 2018-02-28 2018-07-13 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GAURAV KUMAR 等: "A Bayesian Approach to Script Independent Multilingual Keyword Spotting", 《2014 14TH INTERNATIONAL CONFERENCE ON FRONTIERS IN HANDWRITING RECOGNITION》 *
向李兴: "基于自然语义处理的裁判文书推荐***设计与实现", 《中国优秀硕士学位论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459973A (zh) * 2020-06-16 2020-07-28 四川大学 一种基于案情三元组信息的类案检索方法及***

Also Published As

Publication number Publication date
CN109145293B (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN109255113B (zh) 智能校对***
CN103838864B (zh) 一种视觉显著性与短语相结合的图像检索方法
Cussens Part-of-speech tagging using Progol
CN110175246B (zh) 一种从视频字幕中提取概念词的方法
CN108959242A (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
WO2017177809A1 (zh) 语言文本的分词方法和***
Lison et al. Automatic turn segmentation for movie & tv subtitles
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN113707125A (zh) 一种多语言语音合成模型的训练方法及装置
CN107093422A (zh) 一种语音识别方法和语音识别***
CN113344036A (zh) 一种基于动态词嵌入的多模态Transformer的图像描述方法
WO2021118072A1 (ko) 음성 및 영상 정보를 활용한 의미있는 구간을 검출하기 위한 방법 및 이를 위한 장치
CN109086255A (zh) 一种基于深度学习的参考文献自动标注方法及***
CN111091009A (zh) 一种基于语义分析的文档关联审核方法
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN107894976A (zh) 一种基于Bi‑LSTM的混合语料分词方法
KR102147582B1 (ko) 속성 지식 확장 시스템 및 속성 지식 확장 방법
CN109145293A (zh) 一种面向案情的关键词提取方法及***
Tündik et al. Assessing the Semantic Space Bias Caused by ASR Error Propagation and its Effect on Spoken Document Summarization.
Dwivedi et al. Beyond Word2Vec: Embedding words and phrases in same vector space
CN109344233A (zh) 一种中文人名识别方法
CN112949284A (zh) 一种基于Transformer模型的文本语义相似度预测方法
CN109325159A (zh) 一种微博热点事件挖掘方法
CN115203429A (zh) 一种用于构建审计领域本体框架的知识图谱自动扩充方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant