CN114912445A - 识别案源线索文本数据的方法、装置、存储介质和电子设备 - Google Patents
识别案源线索文本数据的方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN114912445A CN114912445A CN202210399116.1A CN202210399116A CN114912445A CN 114912445 A CN114912445 A CN 114912445A CN 202210399116 A CN202210399116 A CN 202210399116A CN 114912445 A CN114912445 A CN 114912445A
- Authority
- CN
- China
- Prior art keywords
- text data
- recognized
- word vector
- word
- case
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请实施例提供一种识别案源线索文本数据的方法、装置、存储介质和电子设备,该方法包括:获取案源线索文本数据;对案源线索文本数据进行预处理,得到待识别的词向量;将待识别的词向量输入到预先训练好的基于转换器的双向编码表征BERT模型中,以便于BERT模型对待识别的词向量进行识别,得到案源线索文本数据对应的至少一种违法业务中每种违法业务的概率;将概率最大的违法业务确定为案源线索文本数据的最终违法业务。本申请实施例能够提高审核效率。
Description
技术领域
本申请涉及文本分类技术领域,更具体的,涉及一种识别案源线索文本数据的方法、装置、存储介质和电子设备。
背景技术
目前,现有的确定案源线索的业务类别的方法是通过人工的方式来确定的。
在实现本发明的过程中,发明人发现现有技术中存在如下问题:现有的确定案源线索的业务类别的方法至少存在着审核效率不高的问题。
发明内容
本申请实施例的目的在于提供一种识别案源线索文本数据的方法、装置、存储介质和电子设备,以提高审核效率。
第一方面,本申请实施例提供了一种识别案源线索文本数据的方法,该方法包括:获取案源线索文本数据;对案源线索文本数据进行预处理,得到待识别的词向量;将待识别的词向量输入到预先训练好的基于转换器的双向编码表征BERT模型中,以便于BERT模型对待识别的词向量进行识别,得到案源线索文本数据对应的至少一种违法业务中每种违法业务的概率;将概率最大的违法业务确定为案源线索文本数据的最终违法业务。
因此,本申请实施例借助于BERT模型的强大的自动特征提取能力,可以有效地优化人工分类方法存在的弊端,减轻人工分类的压力,还能够提高审核效率,进而推进社会治理能力现代化。
在一个可能的实施例中,对案源线索文本数据进行预处理,得到待识别的词向量,包括:对案源线索文本数据进行分词处理,得到分词结果;对分词结果进行去除数字、去除标点符号和去除停用词的处理,得到处理结果;在处理结果中***开始标志和结束标志,得到待识别的词向量。
在一个可能的实施例中,在待识别的词向量的字符长度大于预设字符长度的情况下,将待识别的词向量输入到预先训练好的基于转换器的双向编码表征BERT模型中,包括:从待识别的词向量中截取预设字符长度的目标词向量;将目标词向量输入到预先训练好的BERT模型中。
在一个可能的实施例中,预设字符长度为256。
第二方面,本申请实施例提供了一种识别案源线索文本数据的装置,该装置包括:获取模块,用于获取案源线索文本数据;预处理模块,用于对案源线索文本数据进行预处理,得到待识别的词向量;输入模块,用于将待识别的词向量输入到预先训练好的基于转换器的双向编码表征BERT 模型中,以便于BERT模型对待识别的词向量进行识别,得到案源线索文本数据对应的至少一种违法业务中每种违法业务的概率;确定模块,用于将概率最大的违法业务确定为案源线索文本数据的最终违法业务。
在一个可能的实施例中,预处理模块,具体用于:对案源线索文本数据进行分词处理,得到分词结果;对分词结果进行去除数字、去除标点符号和去除停用词的处理,得到处理结果;在处理结果中***开始标志和结束标志,得到待识别的词向量。
在一个可能的实施例中,输入模块,具体用于在待识别的词向量的字符长度大于预设字符长度的情况下,从待识别的词向量中截取预设字符长度的目标词向量;将目标词向量输入到预先训练好的BERT模型中。
在一个可能的实施例中,预设字符长度为256。
第三方面,本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第四方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。
为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种识别案源线索文本数据的方法的流程图;
图2示出了本申请实施例提供的一种BERT模型的结构示意图;
图3示出了本申请实施例提供的一种Transformer模块的编码层的结构示意图;
图4示出了本申请实施例提供的一种BERT模型的输入层的结构示意图;
图5示出了本申请实施例提供的一种识别案源线索文本数据的装置的结构框图;
图6是本申请实施例提供的一种电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
案源线索的违法业务种类的自动识别属于一个多分类的问题,在文本分类领域内,其实现方法大致可以分为两类:基于传统的文本分类算法和基于深度学习的文本分类算法。以及,传统的文本分类算法包括朴素贝叶斯等,但是由于传统的文本分类方法存在一定的弊端,其特征表达能力还有待提高,在文本分类领域中虽然广泛使用,但是分类效果不能达到最优。随着深度学习的推进,许多深度学习算法也被广泛应用与文本分类任务中,比如TextRNN、FastText等模型,通过使词语进行向量化操作来解决文本表示,例如word2vec等方法,然后再自动获取特征表达能力,不需要再人工地进行繁杂的特征工程,使得文本分类任务效果得到了提升。近年来,大规模通用的预训练模型陆续出现,比如BERT、GPT等,预训练语言模型能够从海量的数据中学习到更多的内容,以参数的形式存储在模型中,经过适当的微调就能在下游任务中取得SOTA表现。
以及,现有的关于案源线索的违法业务种类的自动识别分类任务多为基于传统的分类算法,虽然其能够实现分类任务,但是准确率有待提高。而且案源线索相关的信息文本多为长文本,传统的文本分类并不能很好地表示原有文本的语义。
基于此,本申请实施例提供了一种基于BERT(Bidirectional EncoderRepresentation from Transformers,基于转换器的双向编码表征)模型的案源线索违法业务种类的自动识别方案,其借助于BERT模型的强大的自动特征提取能力,可以有效地优化人工分类方法存在的弊端,减轻人工分类的压力,推进社会治理能力现代化。
请参见图1,图1示出了本申请实施例提供的一种识别案源线索文本数据的方法的流程图。如图1所示的方法可以由识别案源线索文本数据的装置执行,并且该装置还可以为如图5所示的识别案源线索文本数据的装置。以及,该装置的具体装置可根据实际需求来进行设置,本申请实施例并不局限于此。例如,该装置可以是计算机,也可以是服务器等。具体地,如图1所示的方法包括:
步骤S110,获取案源线索文本数据。
应理解,案源线索文本数据的获取方式可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,可从存储有案源线索文本数据的数据库中获取案源线索文本数据。
步骤S120,对案源线索文本数据进行预处理,得到待识别的词向量。
应理解,对案源线索文本数据进行预处理,得到待识别的词向量的具体方式可根据实际需求来进行设置,本申请实施例并不局限于此。
可选地,对案源线索文本数据进行分词处理,得到分词结果,以及对分词结果进行去除数字、去除标点符号和去除停用词的处理,得到处理结果,以及在处理结果中***开始标志CLS和结束标志SEP,得到待识别的词向量。
这里需要说明的是,若分词结果对应的语句中不包含数字、标点符号和停用词,则可省略对分词结果进行去除数字、去除标点符号和去除停用词的处理,得到处理结果的过程,直接在分词结果中***开始标志CLS和结束标志SEP,得到待识别的词向量。
例如,在案源线索文本数据(或者输入文本)为“纤维含量不符合标准,判不合格”的情况下,首先对案源线索文本数据进行分词处理,在分词之后,将开始标志“[CLS]”***到句子的开头,结束标志[SEP]***到句子的结尾,得到(“[CLS]”,“纤”,“维”,“含”,“量”,“不”,“符”,“合”,“标”,“准”,“[SEP]”,“判”,“不”,“合”,“格”,“[SEP]”)。
步骤S130,将待识别的词向量输入到预先训练好的基于转换器的双向编码表征BERT模型中,以便于BERT模型对待识别的词向量进行识别,得到案源线索文本数据对应的至少一种违法业务中每种违法业务的概率。
应理解,将待识别的词向量输入到预先训练好的基于转换器的双向编码表征BERT模型中的具体过程可根据实际需求来进行设置,本申请实施例并不局限于此。
可选地,因为案源线索的识别是基于违法事实的,所以违法事实的描述要能够提供足够多的信息,并且构建的BERT模型对于文本长度也存在一定的要求,不能超过512个字符,长度设置不能过长或过短,过长会使模型过拟合,同时浪费算力等资源,过短会无法获取足够多的信息,所以可先确定待识别的词向量的字符长度,以及在待识别的词向量的字符长度大于预设字符长度的情况下,可从待识别的词向量中截取所述预设字符长度的目标词向量,并可将目标词向量输入到预先训练好的BERT模型中;以及,在待识别的词向量的字符长度小于预设字符长度的情况下,可在编码时用0补足,以得到目标词向量,并可将目标词向量输入到预先训练好的BERT模型中。
应理解,至少一种违法业务中所有违法业务的具体种类可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,首先要对训练数据集进行数据清洗,因为是对案源线索的违法种类进行识别,所以要保证每种类别的案源线索都有足够的样本,以及根据提供的案源线索权责清单,可以将案源线索的类别合并划分为11大类。
这里需要说明的是,11个案源线索的类别可以包含食品业务、以及广告业务、以及质量业务、以及药品、医疗器械、化妆品业务、以及许可审批业务、以及市场建设业务、以及知识产权保护业务、以及计量和认证业务、以及特设业务、以及价格业务和其他业务。
这里需要说明的是,虽然上面是以11类为例来进行描述的,但本领域的技术人应当理解,还可根据实际需求对案源线索的类别进行具体划分,本申请实施例并不局限于此。
还应理解,BERT模型的具体结构可根据实际需求来进行设置,本申请实施例并不局限于此。
可选地,请参见图2,图2示出了本申请实施例提供的一种BERT模型的结构示意图。如图2所示的BERT模型包括多个变压器Transformer模块 (即图2中的Trm模块)。以及,图2中的E1至EN用于表示待识别的词向量,以及T1至TN用于待识别的词向量中对应的至少一种违法业务中每种违法业务的概率。
此外,还可构建BERT模型的全连接层,输出维度为最终的案源线索的违法种类个数,使用softmax函数来计算各案源线索种类的概率,选取概率最大的类别作为最终识别结果,即确定案源线索文本数据的最终违法业务。
还应理解,Transformer模块的具体结构可根据实际需求来进行设置,本申请实施例并不局限于此。
可选地,请参见图3,图3示出了本申请实施例提供的一种Transformer 模块的编码层的结构示意图。如图3所示,构建基于BERT模型的分类模型,借助于传统Transformer架构中的编码层,通过多头注意力机制(Multi-head Self-Attention)模块来提取多重语义的含义,增强模型的学习能力,即通过Multi-head Self-Attention得到其输入向量中每一个字在不一样语义空间下的加强语义向量。此外,该Transformer模块的编码层还引入了块用于对某一层神经网络节点做0均值1方差的标准化的层标准化详解 (LayerNormalization,LN)模块,并且该LN模块和输入Input模块残差连接。其中,残差连接是将模块的输入与输出直接相加,做为最后的输出。以及,在层标准化详解模块输出后,对每一个字的加强语义向量再作两次线性变换,以加强整个模型的表达能力。这里,变换后的向量与原向量保持长度相同。
这里需要说明的是,在将输入向量输入到Transformer模块的编码层之前,需要对案源线索文本数据进行相关处理,具体可参见图4的相关描述。
具体地,请参见图4,图4示出了本申请实施例提供的一种BERT模型的输入层的结构示意图。如图4所示,对输入模型的案源线索文本数据进行向量化,将案源线索文本数据中的每个字所对应的词向量(Token Embenddings向量)、句子向量(Segment Embeddings向量)和位置向量 (Position Embeddings向量)线性相加,构成一个新的向量,同时包含上面三类信息,以生成Transformer层的输入向量。其中,Token Embenddings 层将文本的所有词表示成一个具有固定维度的向量;Segment Embeddings 层是输入层中另一个向量表示,用来区分句子对中的句子关系,输入文本的第一个句子表示为0,第二个句子表示为1;Position Embeddings向量为表示位置的向量。
例如,假如输入文本为“纤维含量不符合标准,判不合格”,首先对文本进行分词处理,在分词之后,将开始标志“[CLS]”***到句子的开头,结束标志[SEP]***到句子的结尾,得到(“[CLS]”,“纤”,“维”,“含”,“量”,“不”,“符”,“合”,“标”,“准”,“[SEP]”,“判”,“不”,“合”,“格”,“[SEP]”),然后再将处理之后的分词向量转化成词向量。以及,输入文本为“纤维含量不符合标准,判不合格”的句子向量是(“0”,“0”,“0”,“0”,“0”,“0”,“0”,“0”,“0”,“0”,“0”,“1”,“1”,“1”,“1”,“1”)。以及,因为Transformer模型不能记住时序,所以人为加入表示位置的位置向量。
由此,最初输入模型的文本“纤维含量不符合标准,判不合格”会得到三种不同的向量表示,三个向量的维度是相同的,将这三种表示向量按照相对应的顺序相加,就会得到模型最终的输入向量,这个最终的输入向量包含了输入文本的三种不同信息,最后输入到模型的编码层。
还应理解,BERT模型的训练过程也可根据实际需求来进行设置,本申请实施例并不局限于此。
可选地,可将转换成为词向量的训练数据,传递给未训练完成的BERT 模型,以便进行模型训练。以及,该BERT模型的损失函数可使用交叉熵损失函数,优化器选择adam,训练轮数设定N轮。其中,N为预设的正整数(例如,N为30)。以及,在模型训练结束后,将测试集输入模型中进行测试。
待测试结束后观察测试集总体的准确率,并且观察各类别的精确率、召回率和F1值,达到较高性能后,将模型存储起来。
因此,借助于上述技术方案,本申请实施例借助于BERT模型的强大的自动特征提取能力,可以有效地优化人工分类方法存在的弊端,减轻人工分类的压力,推进社会治理能力现代化。
应理解,上述识别案源线索文本数据的方法仅是示例性的,本领域技术人员根据上述的方法可以进行各种变形,修改或变形之后的内容也在本申请保护范围内。
请参见图5,图5示出了本申请实施例提供的一种识别案源线索文本数据的装置500的结构框图。应理解,该装置500与上述方法实施例对应,能够执行上述方法实施例涉及的各个步骤,具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置500包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在该装置500的操作***(operating system,OS)中的软件功能模块。具体地,该装置500 包括:
获取模块510,用于获取案源线索文本数据;
预处理模块520,用于对案源线索文本数据进行预处理,得到待识别的词向量;
输入模块530,用于将待识别的词向量输入到预先训练好的基于转换器的双向编码表征BERT模型中,以便于BERT模型对待识别的词向量进行识别,得到案源线索文本数据对应的至少一种违法业务中每种违法业务的概率;
确定模块540,用于将概率最大的违法业务确定为案源线索文本数据的最终违法业务。
在一个可能的实施例中,预处理模块520,具体用于:对案源线索文本数据进行分词处理,得到分词结果;对分词结果进行去除数字、去除标点符号和去除停用词的处理,得到处理结果;在处理结果中***开始标志和结束标志,得到待识别的词向量。
在一个可能的实施例中,输入模块530,具体用于在待识别的词向量的字符长度大于预设字符长度的情况下,从待识别的词向量中截取预设字符长度的目标词向量;将目标词向量输入到预先训练好的BERT模型中。
在一个可能的实施例中,预设字符长度为256。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
请参见图6,图6是本申请实施例提供的一种电子设备600的结构框图。电子设备600可以包括处理器610、通信接口620、存储器630和至少一个通信总线640。其中,通信总线640用于实现这些组件直接的连接通信。其中,本申请实施例中的通信接口620用于与其他设备进行信令或数据的通信。处理器610可以是一种集成电路芯片,具有信号的处理能力。上述的处理器610可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器610也可以是任何常规的处理器等。
存储器630可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器630中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器610执行时,电子设备600可以执行上述方法实施例中的各个步骤。
电子设备600还可以包括存储控制器、输入输出单元、音频单元、显示单元。
所述存储器630、存储控制器、处理器610、外设接口、输入输出单元、音频单元、显示单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线640 实现电性连接。所述处理器610用于执行存储器630中存储的可执行模块。并且,电子设备600用于执行下述方法:获取案源线索文本数据;对所述案源线索文本数据进行预处理,得到待识别的词向量;将所述待识别的词向量输入到预先训练好的基于转换器的双向编码表征BERT模型中,以便于所述BERT模型对所述待识别的词向量进行识别,得到所述案源线索文本数据对应的至少一种违法业务中每种违法业务的概率;将概率最大的违法业务确定为所述案源线索文本数据的最终违法业务。
输入输出单元用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元可以是,但不限于,鼠标和键盘等。
音频单元向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元在所述电子设备与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。
可以理解,图6所示的结构仅为示意,所述电子设备600还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。图6 中所示的各组件可以采用硬件、软件或其组合实现。
本申请还提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行方法实施例所述的方法。
本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种识别案源线索文本数据的方法,其特征在于,包括:
获取案源线索文本数据;
对所述案源线索文本数据进行预处理,得到待识别的词向量;
将所述待识别的词向量输入到预先训练好的基于转换器的双向编码表征BERT模型中,以便于所述BERT模型对所述待识别的词向量进行识别,得到所述案源线索文本数据对应的至少一种违法业务中每种违法业务的概率;
将概率最大的违法业务确定为所述案源线索文本数据的最终违法业务。
2.根据权利要求1所述的方法,其特征在于,所述对所述案源线索文本数据进行预处理,得到待识别的词向量,包括:
对所述案源线索文本数据进行分词处理,得到分词结果;
对所述分词结果进行去除数字、去除标点符号和去除停用词的处理,得到处理结果;
在所述处理结果中***开始标志和结束标志,得到所述待识别的词向量。
3.根据权利要求1所述的方法,其特征在于,在所述待识别的词向量的字符长度大于预设字符长度的情况下,所述将所述待识别的词向量输入到预先训练好的基于转换器的双向编码表征BERT模型中,包括:
从所述待识别的词向量中截取所述预设字符长度的目标词向量;
将所述目标词向量输入到预先训练好的BERT模型中。
4.根据权利要求3所述的方法,其特征在于,所述预设字符长度为256。
5.一种识别案源线索文本数据的装置,其特征在于,包括:
获取模块,用于获取案源线索文本数据;
预处理模块,用于对所述案源线索文本数据进行预处理,得到待识别的词向量;
输入模块,用于将所述待识别的词向量输入到预先训练好的基于转换器的双向编码表征BERT模型中,以便于所述BERT模型对所述待识别的词向量进行识别,得到所述案源线索文本数据对应的至少一种违法业务中每种违法业务的概率;
确定模块,用于将概率最大的违法业务确定为所述案源线索文本数据的最终违法业务。
6.根据权利要求5所述的装置,其特征在于,所述预处理模块,具体用于:对所述案源线索文本数据进行分词处理,得到分词结果;对所述分词结果进行去除数字、去除标点符号和去除停用词的处理,得到处理结果;在所述处理结果中***开始标志和结束标志,得到所述待识别的词向量。
7.根据权利要求5所述的装置,其特征在于,所述输入模块,具体用于在所述待识别的词向量的字符长度大于预设字符长度的情况下,从所述待识别的词向量中截取所述预设字符长度的目标词向量;将所述目标词向量输入到预先训练好的BERT模型中。
8.根据权利要求7所述的装置,其特征在于,所述预设字符长度为256。
9.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至4任一所述的识别案源线索文本数据的方法。
10.一种电子设备,其特征在于,所述电子设备包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的识别案源线索文本数据的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210399116.1A CN114912445A (zh) | 2022-04-15 | 2022-04-15 | 识别案源线索文本数据的方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210399116.1A CN114912445A (zh) | 2022-04-15 | 2022-04-15 | 识别案源线索文本数据的方法、装置、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114912445A true CN114912445A (zh) | 2022-08-16 |
Family
ID=82764797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210399116.1A Pending CN114912445A (zh) | 2022-04-15 | 2022-04-15 | 识别案源线索文本数据的方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114912445A (zh) |
-
2022
- 2022-04-15 CN CN202210399116.1A patent/CN114912445A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705301B (zh) | 实体关系抽取方法及装置、存储介质、电子设备 | |
CN109408824B (zh) | 用于生成信息的方法和装置 | |
CN109522552B (zh) | 一种医疗信息的归一化方法、装置、介质及电子设备 | |
CN116629275B (zh) | 一种基于大数据的智能决策支持***及方法 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN112632226A (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN115310443A (zh) | 模型训练方法、信息分类方法、装置、设备及存储介质 | |
CN111858942A (zh) | 一种文本抽取方法、装置、存储介质和电子设备 | |
CN113204956B (zh) | 多模型训练方法、摘要分段方法、文本分段方法及装置 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及*** | |
CN113609865A (zh) | 文本情感的识别方法、装置、电子设备及可读存储介质 | |
CN114036921A (zh) | 一种政策信息匹配方法和装置 | |
CN111783424A (zh) | 一种文本分句方法和装置 | |
CN114254109B (zh) | 用于确定行业类别的方法及装置 | |
CN112883735B (zh) | 一种表单图像的结构化处理方法、装置、设备及存储介质 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN114912445A (zh) | 识别案源线索文本数据的方法、装置、存储介质和电子设备 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及*** | |
CN113626587A (zh) | 一种文本类别识别方法、装置、电子设备及介质 | |
CN111209724A (zh) | 文本的校验方法、装置、存储介质以及处理器 | |
CN111191095A (zh) | 网页数据获取方法、装置、设备及介质 | |
CN113850085B (zh) | 企业的等级评估方法、装置、电子设备及可读存储介质 | |
CN111402012B (zh) | 一种基于迁移学习的电商缺陷产品识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |