CN108664473A - 文本关键信息的识别方法、电子装置及可读存储介质 - Google Patents
文本关键信息的识别方法、电子装置及可读存储介质 Download PDFInfo
- Publication number
- CN108664473A CN108664473A CN201810449138.8A CN201810449138A CN108664473A CN 108664473 A CN108664473 A CN 108664473A CN 201810449138 A CN201810449138 A CN 201810449138A CN 108664473 A CN108664473 A CN 108664473A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- participle
- identified
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种文本关键信息的识别方法、电子装置及可读存储介质,该方法包括:在收到待识别文本后,对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词;其中,所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型;基于所述待识别文本中各个分词的词频、位置及词跨度,并根据预设评分公式计算得到每个分词的评分,按评分从高到低的顺序对所述待识别文本中各个分词进行排序,提取出排序靠前的分词作为关键词,根据提取出的关键词获取所述待识别文本的关键信息。本发明能使用户快速准确地获取待识别文本中的关键信息。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本关键信息的识别方法、电子装置及可读存储介质。
背景技术
用户经常需要从各种文本中快速获取到关键内容如文本的核心观点,然而,一些文本例如证券研究报告内容繁多且主旨不够清晰,特别是对于长达十几页甚至更多的深度报告,需要花费较多的时间去理清分析师的逻辑及相应结论。这既对看报告的用户的专业能力有较高要求,又需要花费用户较长的工作时间,导致用户获取文本中关键内容的效率较低且准确率不高。
发明内容
本发明的目的在于提供一种文本关键信息的识别方法、电子装置及可读存储介质,旨在快速准确地获取文本中的关键信息。
为实现上述目的,本发明提供一种电子装置,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的文本关键信息的识别***,所述文本关键信息的识别***被所述处理器执行时实现如下步骤:
在收到待识别文本后,对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词;其中,所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型;
基于所述待识别文本中各个分词的词频、位置及词跨度,并根据预设评分公式计算得到每个分词的评分,按评分从高到低的顺序对所述待识别文本中各个分词进行排序,提取出排序靠前的分词作为关键词,根据提取出的关键词获取所述待识别文本的关键信息。
优选地,所述预先确定的分词模型的训练过程如下:
获取预设数量的样本语句,其中,所述样本语句中的词语为预设语料库中采用预设序列标注规则标注好的词语;
将所述样本语句经过word2vec模型词向量化后得到相应的样本向量信息;将预设数量的样本语句按照预设比例分为训练集和评估集;
将所述训练集对应的样本向量信息送入长短期记忆循环神经网络模型进行模型训练,每隔预设时间,使用训练得到的模型对所述评估集的样本语句各个词语中每个字的标注进行识别,并将识别出的标注与该样本语句中采用预设序列标注规则的标注进行比对,以评估模型识别标注的误差;
若训练得到的模型识别标注的误差出现发散,则调整预设的训练参数并重新训练,直至使得训练得到的模型识别标注的误差能够收敛;
若训练得到的模型识别标注的误差收敛,则结束模型训练,将生成的模型作为训练好的所述预先确定的分词模型。
优选地,所述预设序列标注规则为按照每个字在词语中的位置进行标注,标注类型包括:首字标注、中间字标注、尾字标注、单字标注。
优选地,所述根据预设评分公式计算得到每个分词的评分包括:
对所述待识别文本中的各个分词按照如下公式计算得到每个分词的评分P值:
P=a1*X1+a2*X2+a3*X3
其中,X1为分词在所述待识别文本中出现频率的词频评分,a1为预设的词频权重;X2为分词在所述待识别文本中出现位置的位置评分,a2为预设的位置权重;X3为分词在所述待识别文本中的词跨度评分,a3为预设的词跨度权重。
此外,为实现上述目的,本发明还提供一种文本关键信息的识别方法,所述文本关键信息的识别方法包括:
在收到待识别文本后,对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词;其中,所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型;
基于所述待识别文本中各个分词的词频、位置及词跨度,并根据预设评分公式计算得到每个分词的评分,按评分从高到低的顺序对所述待识别文本中各个分词进行排序,提取出排序靠前的分词作为关键词,根据提取出的关键词获取所述待识别文本的关键信息。
优选地,所述预先确定的分词模型的训练过程如下:
获取预设数量的样本语句,其中,所述样本语句中的词语为预设语料库中采用预设序列标注规则标注好的词语;
将所述样本语句经过word2vec模型词向量化后得到相应的样本向量信息;将预设数量的样本语句按照预设比例分为训练集和评估集;
将所述训练集对应的样本向量信息送入长短期记忆循环神经网络模型进行模型训练,每隔预设时间,使用训练得到的模型对所述评估集的样本语句各个词语中每个字的标注进行识别,并将识别出的标注与该样本语句中采用预设序列标注规则的标注进行比对,以评估模型识别标注的误差;
若训练得到的模型识别标注的误差出现发散,则调整预设的训练参数并重新训练,直至使得训练得到的模型识别标注的误差能够收敛;
若训练得到的模型识别标注的误差收敛,则结束模型训练,将生成的模型作为训练好的所述预先确定的分词模型。
优选地,所述预设序列标注规则为按照每个字在词语中的位置进行标注,标注类型包括:首字标注、中间字标注、尾字标注、单字标注。
优选地,所述对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词包括:
利用预先确定的分词模型识别出所述待识别文本中各个字的标注得到标注序列,并根据预设序列标注规则将所述待识别文本中各个字按标注序列还原成对应的分词。
优选地,所述根据预设评分公式计算得到每个分词的评分包括:
对所述待识别文本中的各个分词按照如下公式计算得到每个分词的评分P值:
P=a1*X1+a2*X2+a3*X3
其中,X1为分词在所述待识别文本中出现频率的词频评分,a1为预设的词频权重;X2为分词在所述待识别文本中出现位置的位置评分,a2为预设的位置权重;X3为分词在所述待识别文本中的词跨度评分,a3为预设的词跨度权重。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有文本关键信息的识别***,所述文本关键信息的识别***可被至少一个处理器执行,以使所述至少一个处理器执行如上述的文本关键信息的识别方法的步骤。
本发明提出的文本关键信息的识别方法、***及可读存储介质,通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型来对收到的待识别文本进行分词,并基于所述待识别文本中各个分词的词频、位置及词跨度来利用预设评分公式计算得到每个分词的评分,对各个分词按评分高低进行排序,根据排序靠前的分词来获取所述待识别文本的关键信息。由于能利用训练好的长短期记忆循环神经网络模型对待识别文本进行自动分词,且能综合考虑各个分词的词频、位置及词跨度来提取出所述待识别文本中的关键信息,无需用户自身花费较多的时间去理清待识别文本的核心内容,能使用户快速准确地获取待识别文本中的关键信息。
附图说明
图1为本发明文本关键信息的识别***10较佳实施例的运行环境示意图;
图2为本发明文本关键信息的识别方法一实施例的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种文本关键信息的识别***。请参阅图1,是本发明文本关键信息的识别***10较佳实施例的运行环境示意图。
在本实施例中,所述的文本关键信息的识别***10安装并运行于电子装置1中。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器11为至少一种类型的可读计算机存储介质,所述存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括所述电子装置1的内部存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装置1的应用软件及各类数据,例如所述文本关键信息的识别***10的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或处理数据,例如执行所述文本关键信息的识别***10等。
所述显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器13用于显示在所述电子装置1中处理的信息以及用于显示可视化的用户界面,例如待识别文本、分词结果、最终识别出的关键词、关键信息等。所述电子装置1的部件11-13通过***总线相互通信。
文本关键信息的识别***10包括至少一个存储在所述存储器11中的计算机可读指令,该至少一个计算机可读指令可被所述处理器12执行,以实现本申请各实施例。
其中,上述文本关键信息的识别***10被所述处理器12执行时实现如下步骤:
步骤S1,在收到待识别文本后,对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词;其中,所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型。
本实施例中,文本关键信息的识别***接收用户发出的包含待识别文本的关键信息识别请求,例如,接收用户通过手机、平板电脑、自助终端设备等终端发送的关键信息识别请求,如接收用户在手机、平板电脑、自助终端设备等终端中预先安装的客户端上发送来的关键信息识别请求,或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器***上发送来的关键信息识别请求。
在一种可选的实施方式中,本实施例中的待识别文本为国内各券商、机构发布的研究报告,由于中文不像英语等拉丁语系,除了标点符号之外,字之间紧密相连,没有明显的词边界,因此很难将词简单准确的提取出来。在中文中,单字作为最基本的语义单位,虽然也有自己的意义,但表意能力较差,意义较分散,而词的表意能力更强,能更加准确的描述一个事物,在自然语言处理中,通常情况下词(包括单字成词)是最基本的处理单位,因此必须对研究报告进行准确的分词处理。本实施例中采用序列标注法训练一个长短期记忆循环神经网络(Long Short-Term Memory,简称LSTM)模型来进行分词,该长短期记忆循环神经网络模型的训练过程如下:
获取预设数量(例如,10万)的样本语句,其中,样本语句中的词语为预设语料库中采用预设序列标注规则标注好的词语。其中,该预设序列标注规则为按照每个字在词中的位置进行标注,标注类型包括:首字标注、中间字标注、尾字标注、单字标注。例如,在一段文字中,可以将每个字按照在词中的位置进行标注,常用的标记有以下四个label:B,Begin,表示这个字是一个词的首字;M,Middle,表示这是一个词中间的字;E,End,表示这是一个词的尾字;S,Single,表示这是单字成词。分词的过程就是将一段字符输入模型,然后得到相应的标记序列,再根据标记序列进行分词。举例来说:“达观数据是企业大数据服务商”,经过模型后得到的理想标注序列是:“BMMESBEBMEBME”,最终还原的分词结果是“达观数据/是/企业/大数据/服务商”。该预设语料库使用的是经典的bakeoff2005中的微软研究院的切分语料,可将其中的train部分拿过来做训练,将test作为最终的测试。
将样本语句经过word2vec模型词向量化后得到相应的样本向量信息。其中,word2vec是2013年末***发布的word2vec工具,可以看做是深度学习在NLP领域的一个重要应用,虽然word2vec只有三层神经网络,但是已经取得非常好的效果。通过word2vec,可以将一个词表示为词向量,将文字数字化,更好的让计算机理解。使word2vec模型,可以方便的找到同义词或联系紧密的词,或者意义相反的词等。
将预设数量的样本语句按照预设比例(例如,9:1)分为训练集和评估集。在使用训练集对参数进行训练的时候,通常会将一整个训练集分为三个部分。一般分为:训练集(train_set),评估集(valid_set),测试集(test_set)这三个部分。这其实是为了保证训练效果而特意设置的。其中测试集其实就是完全不参与训练的数据,仅仅用来观测测试效果的数据。在实际的训练中,训练的结果对于训练集的拟合程度通常还行,但是对于训练集之外的数据的拟合程度通常就不行了。因此通常并不会把所有的数据集都拿来训练,而是分出一部分来(这一部分不参加训练)对训练集生成的参数进行测试,相对客观的判断这些参数对训练集之外的数据的符合程度。本实施例中即采用这种交叉验证(Cross Validation)的方式。K-fold cross-validation即K折交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据即本实施例中将预设数量的样本语句按照预设比例划分的评估集,其他K-1个样本用来训练即本实施例中将预设数量的样本语句按照预设比例划分的训练集。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测。同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10折交叉验证是最常用的。
具体的,可将所述训练集对应的样本向量信息送入长短期记忆循环神经网络模型进行模型训练,每隔预设时间(例如每进行1000次迭代),使用训练得到的模型对所述评估集中样本语句的各个词语的每个字的标注进行识别,并将识别字符与该样本语句中采用预设序列标注规则的标注进行比对,以评估模型识别标注的误差;具体地,在计算误差时,可采用编辑距离作为计算标准。若训练得到的模型识别标注的误差出现发散,则调整预设的训练参数(如activation函数、LSTM层数、输入输出的变量维度等)并重新训练,直至使得训练得到的模型识别标注的误差能够收敛;若训练得到的模型识别标注的误差收敛,则结束模型训练,将生成的模型作为训练好的模型。
本实施例中采用的是序列标注法来评判模型的误差,目的是最小化这个误差(最大化预测标注的精度)来更新模型的参数,训练模型采用的是反向传播算法,反向传播算法(Backpropagation)是目前用来训练人工神经网络(Artificial Neural Network,ANN)的最常用且最有效的算法。其主要思想是:
(1)将训练集数据输入到ANN的输入层,经过隐藏层,最后达到输出层并输出结果,这是ANN的前向传播过程;
(2)由于ANN的输出结果与实际结果有误差,则计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层;
(3)在反向传播的过程中,根据误差调整各种参数的值;不断迭代上述过程,直至收敛。
本实施例中在模型训练过程中关注的是标注的准确性,而在训练结束后实际应用时是根据模型得到的标注来还原得到最终的分词结果。即利用预先确定的分词模型识别出所述待识别文本中各个字的标注得到标注序列,并根据预设序列标注规则将所述待识别文本中各个字按标注序列还原成对应的分词。例如,在对文本中句子‘今天是个好日子’进行词向量化后,再通入训练好的分词模型(长短期记忆循环神经网络模型),得到相应的标注label“BESSBME”,然后即可根据预先设定好的序列标注规则(例如“BE”、“S”、“BME”形式均作为分词)得到根据预测的label得到最终的分词结果“今天”、“是”、“个”、“好日子”。
步骤S2,基于所述待识别文本中各个分词的词频、位置及词跨度,并根据预设评分公式计算得到每个分词的评分,按评分从高到低的顺序对所述待识别文本中各个分词进行排序,提取出排序靠前的分词作为关键词,根据提取出的关键词获取所述待识别文本的关键信息。
本实施例中,在得到待识别文本的各个分词后,可根据无监督的统计类方法对各个分词进行排序打分来提取出关键词或关键内容。具体的,先去除得到的各个分词中的重复词汇及无意义词汇,如将得到的分词文本中的所有词汇提取成一个大的集合(集合中词汇不重复,即每个词在这个集合中只出现一次),得到文本词汇集合后,删除一些无意义的词如“我、你、的、是”等。将这些代词、介词等无具体意义的词汇预先按经验组成一个list,然后删除这些无意义的词。接下来在词汇集合中,筛选出的是一些比较专业、有具体意义的词汇。对筛选出的各个分词按照如下公式计算得到P值:
P=a1*X1+a2*X2+a3*X3
其中,X1为分词的词频评分,a1为预设的词频权重;X2为分词出现位置的位置评分,a2为预设的位置权重;X3为分词的词跨度评分,a3为预设的词跨度权重;将各个分词按评分P值高低进行排序,排序靠前的预设数量分词作为文本的关键词。可根据词频、位置、词跨度的不同影响或重要性分配不同的权重。
本实施例中考虑词频、位置、词跨度来对不同分词进行评分排序,如可按照词频大小进行排序,然后按照词的位置对每个词进行打分,再进行排序,再用词跨度进行排序,最后在获取其中排序靠前的TopK(K的范围是个可自选的范围,根据需求来设定)个词作为关键词,再去提取文本中与关键词有关的句子,即可最终提取出文本的关键信息,也是整篇文章的主要内容及重要观点。
具体地,对于词频,词频表示一个词在文本中出现的频率。一般认为,如果一个词在文本中出现的越是频繁,那么这个词就越有可能作为文章的核心词。词频简单地统计了词在文本中出现的次数,但是,只依靠词频所得到的关键词有很大的不确定性,对于长度比较长的文本,这个方法会有很大的噪音,因此,还综合考虑位置和词跨度。
对于位置信息,一般情况下,词出现的位置对于词来说有着很大的价值。例如,标题、摘要本身就是作者概括出的文章的中心思想,因此出现在这些地方的词具有一定的代表性,更可能成为关键词。但是,因为每个作者的习惯不同,写作方式不同,关键句子的位置也会有所不同,所以这也是一种很宽泛的得到关键词的方法,一般情况下不会单独使用。本实施例中采用的比例是5:5:1的方式设定为词位置在开头、结尾、中间的重要性程度,开头、结尾、中间的划分比例为10%、10%、80%。例如,如果一个待识别文本一共由一万个词有序组成,位于前百分之十位置的词划分为开头位置,位于最后百分之十位置的词划分为结尾位置,其余作为中间位置,重要程度为5:5:1。例如,假设“试验区”一词一共在待识别文本中出现过5次,2次在开头,1次在结尾,其余在中间,于是‘试验区’一词关于位置的分数为:5×2+5*1+1*2=17。
对于词跨度,词跨度是指一个词或者短语在待识别文本中首次出现和末次出现之间的距离,词跨度越大说明这个词对文本越重要,可以反映文本的主题。一个词的跨度计算公式如下:
其中,lasti表示词在文本中最后出现的位置,firsti表示词在文本中第一次出现的位置,sum表示文本中词的总数。在实际应用中,文本中总是有很多噪声(指不是关键词的那些词),使用词跨度来参考可以减少这些噪声。
本实施例通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型来对收到的待识别文本进行分词,并基于所述待识别文本中各个分词的词频、位置及词跨度来利用预设评分公式计算得到每个分词的评分,对各个分词按评分高低进行排序,根据排序靠前的分词来获取所述待识别文本的关键信息。由于能利用训练好的长短期记忆循环神经网络模型对待识别文本进行自动分词,且能综合考虑各个分词的词频、位置及词跨度来提取出所述待识别文本中的关键信息,无需用户自身花费较多的时间去理清待识别文本的核心内容,能使用户快速准确地获取待识别文本中的关键信息。
如图2所示,图2为本发明文本关键信息的识别方法一实施例的流程示意图,该文本关键信息的识别方法包括以下步骤:
步骤S10,在收到待识别文本后,对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词;其中,所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型。
本实施例中,文本关键信息的识别***接收用户发出的包含待识别文本的关键信息识别请求,例如,接收用户通过手机、平板电脑、自助终端设备等终端发送的关键信息识别请求,如接收用户在手机、平板电脑、自助终端设备等终端中预先安装的客户端上发送来的关键信息识别请求,或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器***上发送来的关键信息识别请求。
在一种可选的实施方式中,本实施例中的待识别文本为国内各券商、机构发布的研究报告,由于中文不像英语等拉丁语系,除了标点符号之外,字之间紧密相连,没有明显的词边界,因此很难将词简单准确的提取出来。在中文中,单字作为最基本的语义单位,虽然也有自己的意义,但表意能力较差,意义较分散,而词的表意能力更强,能更加准确的描述一个事物,在自然语言处理中,通常情况下词(包括单字成词)是最基本的处理单位,因此必须对研究报告进行准确的分词处理。本实施例中采用序列标注法训练一个长短期记忆循环神经网络(Long Short-Term Memory,简称LSTM)模型来进行分词,该长短期记忆循环神经网络模型的训练过程如下:
获取预设数量(例如,10万)的样本语句,其中,样本语句中的词语为预设语料库中采用预设序列标注规则标注好的词语。其中,该预设序列标注规则为按照每个字在词中的位置进行标注,标注类型包括:首字标注、中间字标注、尾字标注、单字标注。例如,在一段文字中,可以将每个字按照在词中的位置进行标注,常用的标记有以下四个label:B,Begin,表示这个字是一个词的首字;M,Middle,表示这是一个词中间的字;E,End,表示这是一个词的尾字;S,Single,表示这是单字成词。分词的过程就是将一段字符输入模型,然后得到相应的标记序列,再根据标记序列进行分词。举例来说:“达观数据是企业大数据服务商”,经过模型后得到的理想标注序列是:“BMMESBEBMEBME”,最终还原的分词结果是“达观数据/是/企业/大数据/服务商”。该预设语料库使用的是经典的bakeoff2005中的微软研究院的切分语料,可将其中的train部分拿过来做训练,将test作为最终的测试。
将样本语句经过word2vec模型词向量化后得到相应的样本向量信息。其中,word2vec是2013年末***发布的word2vec工具,可以看做是深度学习在NLP领域的一个重要应用,虽然word2vec只有三层神经网络,但是已经取得非常好的效果。通过word2vec,可以将一个词表示为词向量,将文字数字化,更好的让计算机理解。使word2vec模型,可以方便的找到同义词或联系紧密的词,或者意义相反的词等。
将预设数量的样本语句按照预设比例(例如,9:1)分为训练集和评估集。在使用训练集对参数进行训练的时候,通常会将一整个训练集分为三个部分。一般分为:训练集(train_set),评估集(valid_set),测试集(test_set)这三个部分。这其实是为了保证训练效果而特意设置的。其中测试集其实就是完全不参与训练的数据,仅仅用来观测测试效果的数据。在实际的训练中,训练的结果对于训练集的拟合程度通常还行,但是对于训练集之外的数据的拟合程度通常就不行了。因此通常并不会把所有的数据集都拿来训练,而是分出一部分来(这一部分不参加训练)对训练集生成的参数进行测试,相对客观的判断这些参数对训练集之外的数据的符合程度。本实施例中即采用这种交叉验证(Cross Validation)的方式。K-fold cross-validation即K折交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据即本实施例中将预设数量的样本语句按照预设比例划分的评估集,其他K-1个样本用来训练即本实施例中将预设数量的样本语句按照预设比例划分的训练集。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测。同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10折交叉验证是最常用的。
具体的,可将所述训练集对应的样本向量信息送入长短期记忆循环神经网络模型进行模型训练,每隔预设时间(例如每进行1000次迭代),使用训练得到的模型对所述评估集中样本语句的各个词语的每个字的标注进行识别,并将识别字符与该样本语句中采用预设序列标注规则的标注进行比对,以评估模型识别标注的误差;具体地,在计算误差时,可采用编辑距离作为计算标准。若训练得到的模型识别标注的误差出现发散,则调整预设的训练参数(如activation函数、LSTM层数、输入输出的变量维度等)并重新训练,直至使得训练得到的模型识别标注的误差能够收敛;若训练得到的模型识别标注的误差收敛,则结束模型训练,将生成的模型作为训练好的模型。
本实施例中采用的是序列标注法来评判模型的误差,目的是最小化这个误差(最大化预测标注的精度)来更新模型的参数,训练模型采用的是反向传播算法,反向传播算法(Backpropagation)是目前用来训练人工神经网络(Artificial Neural Network,ANN)的最常用且最有效的算法。其主要思想是:
(1)将训练集数据输入到ANN的输入层,经过隐藏层,最后达到输出层并输出结果,这是ANN的前向传播过程;
(2)由于ANN的输出结果与实际结果有误差,则计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层;
(3)在反向传播的过程中,根据误差调整各种参数的值;不断迭代上述过程,直至收敛。
本实施例中在模型训练过程中关注的是标注的准确性,而在训练结束后实际应用时是根据模型得到的标注来还原得到最终的分词结果。即利用预先确定的分词模型识别出所述待识别文本中各个字的标注得到标注序列,并根据预设序列标注规则将所述待识别文本中各个字按标注序列还原成对应的分词。例如,在对文本中句子‘今天是个好日子’进行词向量化后,再通入训练好的分词模型(长短期记忆循环神经网络模型),得到相应的标注label“BESSBME”,然后即可根据预先设定好的序列标注规则(例如“BE”、“S”、“BME”形式均作为分词)得到根据预测的label得到最终的分词结果“今天”、“是”、“个”、“好日子”。
步骤S20,基于所述待识别文本中各个分词的词频、位置及词跨度,并根据预设评分公式计算得到每个分词的评分,按评分从高到低的顺序对所述待识别文本中各个分词进行排序,提取出排序靠前的分词作为关键词,根据提取出的关键词获取所述待识别文本的关键信息。
本实施例中,在得到待识别文本的各个分词后,可根据无监督的统计类方法对各个分词进行排序打分来提取出关键词或关键内容。具体的,先去除得到的各个分词中的重复词汇及无意义词汇,如将得到的分词文本中的所有词汇提取成一个大的集合(集合中词汇不重复,即每个词在这个集合中只出现一次),得到文本词汇集合后,删除一些无意义的词如“我、你、的、是”等。将这些代词、介词等无具体意义的词汇预先按经验组成一个list,然后删除这些无意义的词。接下来在词汇集合中,筛选出的是一些比较专业、有具体意义的词汇。对筛选出的各个分词按照如下公式计算得到P值:
P=a1*X1+a2*X2+a3*X3
其中,X1为分词的词频评分,a1为预设的词频权重;X2为分词出现位置的位置评分,a2为预设的位置权重;X3为分词的词跨度评分,a3为预设的词跨度权重;将各个分词按评分P值高低进行排序,排序靠前的预设数量分词作为文本的关键词。可根据词频、位置、词跨度的不同影响或重要性分配不同的权重。
本实施例中考虑词频、位置、词跨度来对不同分词进行评分排序,如可按照词频大小进行排序,然后按照词的位置对每个词进行打分,再进行排序,再用词跨度进行排序,最后在获取其中排序靠前的TopK(K的范围是个可自选的范围,根据需求来设定)个词作为关键词,再去提取文本中与关键词有关的句子,即可最终提取出文本的关键信息,也是整篇文章的主要内容及重要观点。
具体地,对于词频,词频表示一个词在文本中出现的频率。一般认为,如果一个词在文本中出现的越是频繁,那么这个词就越有可能作为文章的核心词。词频简单地统计了词在文本中出现的次数,但是,只依靠词频所得到的关键词有很大的不确定性,对于长度比较长的文本,这个方法会有很大的噪音,因此,还综合考虑位置和词跨度。
对于位置信息,一般情况下,词出现的位置对于词来说有着很大的价值。例如,标题、摘要本身就是作者概括出的文章的中心思想,因此出现在这些地方的词具有一定的代表性,更可能成为关键词。但是,因为每个作者的习惯不同,写作方式不同,关键句子的位置也会有所不同,所以这也是一种很宽泛的得到关键词的方法,一般情况下不会单独使用。本实施例中采用的比例是5:5:1的方式设定为词位置在开头、结尾、中间的重要性程度,开头、结尾、中间的划分比例为10%、10%、80%。例如,如果一个待识别文本一共由一万个词有序组成,位于前百分之十位置的词划分为开头位置,位于最后百分之十位置的词划分为结尾位置,其余作为中间位置,重要程度为5:5:1。例如,假设“试验区”一词一共在待识别文本中出现过5次,2次在开头,1次在结尾,其余在中间,于是‘试验区’一词关于位置的分数为:5×2+5*1+1*2=17。
对于词跨度,词跨度是指一个词或者短语在待识别文本中首次出现和末次出现之间的距离,词跨度越大说明这个词对文本越重要,可以反映文本的主题。一个词的跨度计算公式如下:
其中,lasti表示词在文本中最后出现的位置,firsti表示词在文本中第一次出现的位置,sum表示文本中词的总数。在实际应用中,文本中总是有很多噪声(指不是关键词的那些词),使用词跨度来参考可以减少这些噪声。
本实施例通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型来对收到的待识别文本进行分词,并基于所述待识别文本中各个分词的词频、位置及词跨度来利用预设评分公式计算得到每个分词的评分,对各个分词按评分高低进行排序,根据排序靠前的分词来获取所述待识别文本的关键信息。由于能利用训练好的长短期记忆循环神经网络模型对待识别文本进行自动分词,且能综合考虑各个分词的词频、位置及词跨度来提取出所述待识别文本中的关键信息,无需用户自身花费较多的时间去理清待识别文本的核心内容,能使用户快速准确地获取待识别文本中的关键信息。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有文本关键信息的识别***,所述文本关键信息的识别***可被至少一个处理器执行,以使所述至少一个处理器执行如上述实施例中的文本关键信息的识别方法的步骤,该文本关键信息的识别方法的步骤S10、S20等具体实施过程如上文所述,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。
Claims (10)
1.一种电子装置,其特征在于,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的文本关键信息的识别***,所述文本关键信息的识别***被所述处理器执行时实现如下步骤:
在收到待识别文本后,对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词;其中,所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型;
基于所述待识别文本中各个分词的词频、位置及词跨度,并根据预设评分公式计算得到每个分词的评分,按评分从高到低的顺序对所述待识别文本中各个分词进行排序,提取出排序靠前的分词作为关键词,根据提取出的关键词获取所述待识别文本的关键信息。
2.如权利要求1所述的电子装置,其特征在于,所述预先确定的分词模型的训练过程如下:
获取预设数量的样本语句,其中,所述样本语句中的词语为预设语料库中采用预设序列标注规则标注好的词语;
将所述样本语句经过word2vec模型词向量化后得到相应的样本向量信息;将预设数量的样本语句按照预设比例分为训练集和评估集;
将所述训练集对应的样本向量信息送入长短期记忆循环神经网络模型进行模型训练,每隔预设时间,使用训练得到的模型对所述评估集的样本语句各个词语中每个字的标注进行识别,并将识别出的标注与该样本语句中采用预设序列标注规则的标注进行比对,以评估模型识别标注的误差;
若训练得到的模型识别标注的误差出现发散,则调整预设的训练参数并重新训练,直至使得训练得到的模型识别标注的误差能够收敛;
若训练得到的模型识别标注的误差收敛,则结束模型训练,将生成的模型作为训练好的所述预先确定的分词模型。
3.如权利要求2所述的电子装置,其特征在于,所述预设序列标注规则为按照每个字在词语中的位置进行标注,标注类型包括:首字标注、中间字标注、尾字标注、单字标注。
4.如权利要求1-3中任一项所述的电子装置,其特征在于,所述根据预设评分公式计算得到每个分词的评分包括:
对所述待识别文本中的各个分词按照如下公式计算得到每个分词的评分P值:
P=a1*X1+a2*X2+a3*X3
其中,X1为分词在所述待识别文本中出现频率的词频评分,a1为预设的词频权重;X2为分词在所述待识别文本中出现位置的位置评分,a2为预设的位置权重;X3为分词在所述待识别文本中的词跨度评分,a3为预设的词跨度权重。
5.一种文本关键信息的识别方法,其特征在于,所述文本关键信息的识别方法包括:
在收到待识别文本后,对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词;其中,所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型;
基于所述待识别文本中各个分词的词频、位置及词跨度,并根据预设评分公式计算得到每个分词的评分,按评分从高到低的顺序对所述待识别文本中各个分词进行排序,提取出排序靠前的分词作为关键词,根据提取出的关键词获取所述待识别文本的关键信息。
6.如权利要求5所述的文本关键信息的识别方法,其特征在于,所述预先确定的分词模型的训练过程如下:
获取预设数量的样本语句,其中,所述样本语句中的词语为预设语料库中采用预设序列标注规则标注好的词语;
将所述样本语句经过word2vec模型词向量化后得到相应的样本向量信息;将预设数量的样本语句按照预设比例分为训练集和评估集;
将所述训练集对应的样本向量信息送入长短期记忆循环神经网络模型进行模型训练,每隔预设时间,使用训练得到的模型对所述评估集的样本语句各个词语中每个字的标注进行识别,并将识别出的标注与该样本语句中采用预设序列标注规则的标注进行比对,以评估模型识别标注的误差;
若训练得到的模型识别标注的误差出现发散,则调整预设的训练参数并重新训练,直至使得训练得到的模型识别标注的误差能够收敛;
若训练得到的模型识别标注的误差收敛,则结束模型训练,将生成的模型作为训练好的所述预先确定的分词模型。
7.如权利要求6所述的文本关键信息的识别方法,其特征在于,所述预设序列标注规则为按照每个字在词语中的位置进行标注,标注类型包括:首字标注、中间字标注、尾字标注、单字标注。
8.如权利要求7所述的文本关键信息的识别方法,其特征在于,所述对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词包括:
利用预先确定的分词模型识别出所述待识别文本中各个字的标注得到标注序列,并根据预设序列标注规则将所述待识别文本中各个字按标注序列还原成对应的分词。
9.如权利要求5-8中任一项所述的文本关键信息的识别方法,其特征在于,所述根据预设评分公式计算得到每个分词的评分包括:
对所述待识别文本中的各个分词按照如下公式计算得到每个分词的评分P值:
P=a1*X1+a2*X2+a3*X3
其中,X1为分词在所述待识别文本中出现频率的词频评分,a1为预设的词频权重;X2为分词在所述待识别文本中出现位置的位置评分,a2为预设的位置权重;X3为分词在所述待识别文本中的词跨度评分,a3为预设的词跨度权重。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本关键信息的识别***,所述文本关键信息的识别***被处理器执行时实现如权利要求5至9中任一项所述的文本关键信息的识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810449138.8A CN108664473A (zh) | 2018-05-11 | 2018-05-11 | 文本关键信息的识别方法、电子装置及可读存储介质 |
PCT/CN2018/108219 WO2019214149A1 (zh) | 2018-05-11 | 2018-09-28 | 文本关键信息的识别方法、电子装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810449138.8A CN108664473A (zh) | 2018-05-11 | 2018-05-11 | 文本关键信息的识别方法、电子装置及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108664473A true CN108664473A (zh) | 2018-10-16 |
Family
ID=63778665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810449138.8A Pending CN108664473A (zh) | 2018-05-11 | 2018-05-11 | 文本关键信息的识别方法、电子装置及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108664473A (zh) |
WO (1) | WO2019214149A1 (zh) |
Cited By (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558593A (zh) * | 2018-11-30 | 2019-04-02 | 北京字节跳动网络技术有限公司 | 用于处理文本的方法和装置 |
CN109656554A (zh) * | 2018-11-27 | 2019-04-19 | 天津字节跳动科技有限公司 | 用户界面生成方法及装置 |
CN109710759A (zh) * | 2018-12-17 | 2019-05-03 | 北京百度网讯科技有限公司 | 文本切分方法、装置、计算机设备和可读存储介质 |
CN109800417A (zh) * | 2018-12-14 | 2019-05-24 | 平安普惠企业管理有限公司 | 应用软件体验的分析方法、装置、设备及计算机存储介质 |
CN109815500A (zh) * | 2019-01-25 | 2019-05-28 | 杭州绿湾网络科技有限公司 | 非结构化公文的管理方法、装置、计算机设备及存储介质 |
CN109902271A (zh) * | 2019-01-23 | 2019-06-18 | 平安科技(深圳)有限公司 | 基于迁移学习的文本数据标注方法、装置、终端及介质 |
CN109977422A (zh) * | 2019-04-18 | 2019-07-05 | 中国石油大学(华东) | 一种基于分词技术的病历关键信息提取模型 |
CN109992776A (zh) * | 2019-03-26 | 2019-07-09 | 北京博瑞彤芸文化传播股份有限公司 | 一种中文分词方法 |
CN110008466A (zh) * | 2019-01-30 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种数据的处理方法、装置及设备 |
CN110019758A (zh) * | 2019-04-11 | 2019-07-16 | 北京百度网讯科技有限公司 | 一种核心要素提取方法、装置及电子设备 |
CN110046342A (zh) * | 2019-02-19 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种文本质量检测方法 |
CN110059185A (zh) * | 2019-04-03 | 2019-07-26 | 天津科技大学 | 一种医学文档专业词汇自动化标注方法 |
CN110069776A (zh) * | 2019-03-19 | 2019-07-30 | 上海拍拍贷金融信息服务有限公司 | 客户满意度评估方法及装置、计算机可读存储介质 |
CN110232112A (zh) * | 2019-05-31 | 2019-09-13 | 北京创鑫旅程网络技术有限公司 | 文章中关键词提取方法及装置 |
CN110287492A (zh) * | 2019-06-26 | 2019-09-27 | 拉扎斯网络科技(上海)有限公司 | 数据处理及主类别识别方法、装置、电子设备及存储介质 |
CN110287493A (zh) * | 2019-06-28 | 2019-09-27 | 中国科学技术信息研究所 | 风险短语识别方法、装置、电子设备及存储介质 |
CN110298028A (zh) * | 2019-05-21 | 2019-10-01 | 浙江省北大信息技术高等研究院 | 一种文本段落的关键句提取方法和装置 |
CN110334331A (zh) * | 2019-05-30 | 2019-10-15 | 重庆金融资产交易所有限责任公司 | 基于排序模型筛选表格的方法、装置和计算机设备 |
CN110377725A (zh) * | 2019-07-12 | 2019-10-25 | 深圳新度博望科技有限公司 | 数据生成方法、装置、计算机设备及存储介质 |
CN110377699A (zh) * | 2019-06-21 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 基于nlp的手机短信识别方法及相关设备 |
CN110414819A (zh) * | 2019-07-19 | 2019-11-05 | 中国电信集团工会上海市委员会 | 一种工单评分方法 |
CN110442516A (zh) * | 2019-07-12 | 2019-11-12 | 上海陆家嘴国际金融资产交易市场股份有限公司 | 信息处理方法、设备及计算机可读存储介质 |
CN110555372A (zh) * | 2019-07-22 | 2019-12-10 | 深圳壹账通智能科技有限公司 | 数据录入方法、装置、设备及存储介质 |
CN110795942A (zh) * | 2019-09-18 | 2020-02-14 | 平安科技(深圳)有限公司 | 基于语义识别的关键词确定方法、装置和存储介质 |
CN110837737A (zh) * | 2019-11-11 | 2020-02-25 | 中国电子科技集团公司信息科学研究院 | 能力词实体识别方法 |
CN110852064A (zh) * | 2019-10-31 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 关键句提取方法及装置 |
CN110968666A (zh) * | 2019-11-22 | 2020-04-07 | 掌阅科技股份有限公司 | 基于相似度的标题生成模型的训练方法及计算设备 |
CN110992501A (zh) * | 2019-10-30 | 2020-04-10 | 平安科技(深圳)有限公司 | 数据监测方法、装置、设备及计算机可读存储介质 |
CN111026851A (zh) * | 2019-10-18 | 2020-04-17 | 平安科技(深圳)有限公司 | 模型预测能力优化方法、装置、设备及可读存储介质 |
CN111046657A (zh) * | 2019-12-04 | 2020-04-21 | 东软集团股份有限公司 | 一种实现文本信息标准化的方法、装置及设备 |
CN111062221A (zh) * | 2019-12-13 | 2020-04-24 | 北京欧珀通信有限公司 | 数据处理方法、装置、电子设备以及存储介质 |
CN111104798A (zh) * | 2018-10-27 | 2020-05-05 | 北京智慧正安科技有限公司 | 法律文书中的量刑情节的解析方法、***及计算机可读存储介质 |
CN111104791A (zh) * | 2019-11-14 | 2020-05-05 | 北京金堤科技有限公司 | 行业信息获取方法和装置、电子设备和介质 |
CN111144127A (zh) * | 2019-12-25 | 2020-05-12 | 科大讯飞股份有限公司 | 文本语义识别方法及其模型的获取方法及相关装置 |
CN111159417A (zh) * | 2020-04-07 | 2020-05-15 | 北京泰迪熊移动科技有限公司 | 文本内容关键信息的提取方法、装置、设备及存储介质 |
CN111177326A (zh) * | 2020-04-10 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
CN111192692A (zh) * | 2020-01-02 | 2020-05-22 | 上海联影智能医疗科技有限公司 | 一种实体关系的确定方法、装置、电子设备及存储介质 |
CN111199170A (zh) * | 2018-11-16 | 2020-05-26 | 长鑫存储技术有限公司 | 配方文件识别方法及装置、电子设备、存储介质 |
CN111221975A (zh) * | 2018-11-26 | 2020-06-02 | 珠海格力电器股份有限公司 | 一种字段提取方法、装置及计算机存储介质 |
CN111274815A (zh) * | 2020-01-15 | 2020-06-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
CN111339250A (zh) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN111428496A (zh) * | 2020-03-24 | 2020-07-17 | 北京小米松果电子有限公司 | 文本分词模型的训练方法、分词处理方法及装置、介质 |
CN111597799A (zh) * | 2019-02-01 | 2020-08-28 | 北京国双科技有限公司 | 基于深度学习的文本处理方法及相关设备 |
CN111611801A (zh) * | 2020-06-02 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 一种识别文本地域属性的方法、装置、服务器及存储介质 |
CN111738791A (zh) * | 2020-01-20 | 2020-10-02 | 北京沃东天骏信息技术有限公司 | 一种文本处理方法、装置、设备和存储介质 |
CN111832282A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
CN111931480A (zh) * | 2020-07-03 | 2020-11-13 | 北京新联财通咨询有限公司 | 文本主要内容的确定方法、装置、存储介质及计算机设备 |
CN111984851A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 医学资料搜索方法、装置、电子装置及存储介质 |
CN112052646A (zh) * | 2020-08-27 | 2020-12-08 | 安徽聚戎科技信息咨询有限公司 | 一种文本数据标注方法 |
CN112134920A (zh) * | 2020-08-12 | 2020-12-25 | 新华三技术有限公司 | 一种文件识别方法及装置 |
CN112364136A (zh) * | 2021-01-12 | 2021-02-12 | 平安国际智慧城市科技股份有限公司 | 关键词生成方法、装置、设备及存储介质 |
CN112446210A (zh) * | 2020-11-27 | 2021-03-05 | 广州三七互娱科技有限公司 | 用户性别预测方法、装置及电子设备 |
CN112668321A (zh) * | 2020-12-29 | 2021-04-16 | 竹间智能科技(上海)有限公司 | 关键词提取方法及装置、电子设备、存储介质 |
CN112800465A (zh) * | 2021-02-09 | 2021-05-14 | 第四范式(北京)技术有限公司 | 待标注文本数据的处理方法、装置、电子设备及介质 |
CN112818996A (zh) * | 2021-01-29 | 2021-05-18 | 青岛海尔科技有限公司 | 指令识别方法和装置、存储介质及电子设备 |
CN113111175A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型极端行为识别方法与装置、设备及介质 |
CN113282763A (zh) * | 2021-06-28 | 2021-08-20 | 深圳平安智汇企业信息管理有限公司 | 文本关键信息提取、装置、设备及存储介质 |
CN113496118A (zh) * | 2020-04-07 | 2021-10-12 | 北京中科闻歌科技股份有限公司 | 一种新闻主体识别方法、设备和计算机可读存储介质 |
KR20210129605A (ko) * | 2020-04-17 | 2021-10-28 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 텍스트 핵심정보 추출방법, 장치, 전자기기 및 기록매체 |
CN113569839A (zh) * | 2021-08-31 | 2021-10-29 | 重庆紫光华山智安科技有限公司 | 证件识别方法、***、设备及介质 |
CN113592534A (zh) * | 2021-06-30 | 2021-11-02 | 深圳市东信时代信息技术有限公司 | 竞品词确定方法、装置、计算机设备及存储介质 |
CN113806510A (zh) * | 2021-09-22 | 2021-12-17 | 中国科学院深圳先进技术研究院 | 一种法律条文检索方法、终端设备及计算机存储介质 |
CN114065759A (zh) * | 2021-11-19 | 2022-02-18 | 深圳视界信息技术有限公司 | 一种模型失效检测方法、装置、电子设备及介质 |
CN114547087A (zh) * | 2022-04-27 | 2022-05-27 | 湖南正宇软件技术开发有限公司 | 提案自动识别并生成报告的方法、装置、设备和介质 |
CN114785410A (zh) * | 2022-04-25 | 2022-07-22 | 贵州电网有限责任公司 | 一种基于光纤编码的精准识别*** |
CN113806510B (zh) * | 2021-09-22 | 2024-06-28 | 中国科学院深圳先进技术研究院 | 一种法律条文检索方法、终端设备及计算机存储介质 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859100B (zh) * | 2019-12-26 | 2023-11-03 | 北京嘀嘀无限科技发展有限公司 | 一种检索意图转移识别方法及装置 |
CN111209724A (zh) * | 2019-12-31 | 2020-05-29 | 智慧神州(北京)科技有限公司 | 文本的校验方法、装置、存储介质以及处理器 |
CN113312898B (zh) * | 2020-02-26 | 2024-03-01 | 深信服科技股份有限公司 | 语料处理方法、设备、存储介质及装置 |
CN111382563B (zh) * | 2020-03-20 | 2023-09-08 | 腾讯科技(深圳)有限公司 | 文本相关性的确定方法及装置 |
CN111680634B (zh) * | 2020-06-10 | 2023-08-01 | 平安科技(深圳)有限公司 | 公文文件处理方法、装置、计算机设备及存储介质 |
CN111859924B (zh) * | 2020-07-21 | 2024-04-05 | 浪潮云信息技术股份公司 | 一种基于word2vec模型构建词网的方法和装置 |
CN111881297A (zh) * | 2020-07-31 | 2020-11-03 | 龙马智芯(珠海横琴)科技有限公司 | 语音识别文本的校正方法及装置 |
CN111914538B (zh) * | 2020-07-31 | 2024-05-31 | 长江航道测量中心 | 一种航道通告信息智能空间匹配方法及*** |
CN112399201B (zh) * | 2020-10-09 | 2023-11-14 | 腾讯科技(深圳)有限公司 | 一种视频时效确定方法、装置、电子设备和介质 |
CN113392651B (zh) * | 2020-11-09 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 训练词权重模型及提取核心词的方法、装置、设备和介质 |
CN112101359B (zh) * | 2020-11-11 | 2021-02-12 | 广州华多网络科技有限公司 | 文本公式的定位方法、模型训练方法及相关装置 |
CN114626375A (zh) * | 2021-04-21 | 2022-06-14 | 亚信科技(南京)有限公司 | 文本分词方法、装置、电子设备及计算机可读存储介质 |
CN113268419B (zh) * | 2021-05-19 | 2024-04-09 | 北京金山云网络技术有限公司 | 测试用例优化信息的生成方法、装置、设备和存储介质 |
CN113486649B (zh) * | 2021-06-24 | 2023-07-04 | 竹间智能科技(上海)有限公司 | 文本评论的生成方法以及电子设备 |
CN113823274B (zh) * | 2021-08-16 | 2023-10-27 | 华南理工大学 | 基于检测错误加权编辑距离的语音关键词样本筛选方法 |
CN113806311B (zh) * | 2021-09-17 | 2023-08-29 | 深圳市深可信科学技术有限公司 | 基于深度学习的文件分类方法、装置、电子设备及介质 |
CN116522908B (zh) * | 2023-07-04 | 2023-12-05 | 西安羚控电子科技有限公司 | 指挥控制***消息管理方法及装置 |
CN116961907B (zh) * | 2023-09-19 | 2023-12-29 | 广州市艾索技术有限公司 | 一种分布式无纸化会议数据加密传输保护方法 |
CN117216280B (zh) * | 2023-11-09 | 2024-02-09 | 闪捷信息科技有限公司 | 敏感数据识别模型的增量学习方法、识别方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170052945A1 (en) * | 2014-10-30 | 2017-02-23 | International Business Machines Corporation | Generation apparatus, generation method, and program |
CN106557508A (zh) * | 2015-09-28 | 2017-04-05 | 北京神州泰岳软件股份有限公司 | 一种文本关键词提取方法和装置 |
CN106682149A (zh) * | 2016-12-22 | 2017-05-17 | 湖南科技学院 | 一种基于元搜索引擎的标签自动生成方法 |
CN107544956A (zh) * | 2016-06-24 | 2018-01-05 | 科大讯飞股份有限公司 | 一种文本要点检测方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562718B (zh) * | 2017-07-24 | 2020-12-22 | 科大讯飞股份有限公司 | 文本规整方法及装置、存储介质、电子设备 |
-
2018
- 2018-05-11 CN CN201810449138.8A patent/CN108664473A/zh active Pending
- 2018-09-28 WO PCT/CN2018/108219 patent/WO2019214149A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170052945A1 (en) * | 2014-10-30 | 2017-02-23 | International Business Machines Corporation | Generation apparatus, generation method, and program |
CN106557508A (zh) * | 2015-09-28 | 2017-04-05 | 北京神州泰岳软件股份有限公司 | 一种文本关键词提取方法和装置 |
CN107544956A (zh) * | 2016-06-24 | 2018-01-05 | 科大讯飞股份有限公司 | 一种文本要点检测方法及*** |
CN106682149A (zh) * | 2016-12-22 | 2017-05-17 | 湖南科技学院 | 一种基于元搜索引擎的标签自动生成方法 |
Non-Patent Citations (3)
Title |
---|
战学刚 等: "基于TF统计和语法分析的关键词提取算法", 《计算机应用与软件》 * |
朱巧明 等: "《中文信息处理实验教程》", 30 June 2016, 苏州大学出版社 * |
金宸 等: "基于双向LSTM神经网络模型的中文分词", 《中文信息学报》 * |
Cited By (104)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104798B (zh) * | 2018-10-27 | 2023-04-21 | 北京智慧正安科技有限公司 | 法律文书中的量刑情节的解析方法、***及计算机可读存储介质 |
CN111104798A (zh) * | 2018-10-27 | 2020-05-05 | 北京智慧正安科技有限公司 | 法律文书中的量刑情节的解析方法、***及计算机可读存储介质 |
CN111199170A (zh) * | 2018-11-16 | 2020-05-26 | 长鑫存储技术有限公司 | 配方文件识别方法及装置、电子设备、存储介质 |
CN111199170B (zh) * | 2018-11-16 | 2022-04-01 | 长鑫存储技术有限公司 | 配方文件识别方法及装置、电子设备、存储介质 |
CN111221975B (zh) * | 2018-11-26 | 2021-12-14 | 珠海格力电器股份有限公司 | 一种字段提取方法、装置及计算机存储介质 |
CN111221975A (zh) * | 2018-11-26 | 2020-06-02 | 珠海格力电器股份有限公司 | 一种字段提取方法、装置及计算机存储介质 |
CN109656554A (zh) * | 2018-11-27 | 2019-04-19 | 天津字节跳动科技有限公司 | 用户界面生成方法及装置 |
CN109656554B (zh) * | 2018-11-27 | 2022-04-15 | 天津字节跳动科技有限公司 | 用户界面生成方法及装置 |
CN109558593A (zh) * | 2018-11-30 | 2019-04-02 | 北京字节跳动网络技术有限公司 | 用于处理文本的方法和装置 |
CN109800417A (zh) * | 2018-12-14 | 2019-05-24 | 平安普惠企业管理有限公司 | 应用软件体验的分析方法、装置、设备及计算机存储介质 |
CN109710759B (zh) * | 2018-12-17 | 2021-06-08 | 北京百度网讯科技有限公司 | 文本切分方法、装置、计算机设备和可读存储介质 |
CN109710759A (zh) * | 2018-12-17 | 2019-05-03 | 北京百度网讯科技有限公司 | 文本切分方法、装置、计算机设备和可读存储介质 |
CN109902271B (zh) * | 2019-01-23 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于迁移学习的文本数据标注方法、装置、终端及介质 |
CN109902271A (zh) * | 2019-01-23 | 2019-06-18 | 平安科技(深圳)有限公司 | 基于迁移学习的文本数据标注方法、装置、终端及介质 |
CN109815500A (zh) * | 2019-01-25 | 2019-05-28 | 杭州绿湾网络科技有限公司 | 非结构化公文的管理方法、装置、计算机设备及存储介质 |
CN110008466A (zh) * | 2019-01-30 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种数据的处理方法、装置及设备 |
CN111597799A (zh) * | 2019-02-01 | 2020-08-28 | 北京国双科技有限公司 | 基于深度学习的文本处理方法及相关设备 |
CN110046342A (zh) * | 2019-02-19 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种文本质量检测方法 |
CN110069776A (zh) * | 2019-03-19 | 2019-07-30 | 上海拍拍贷金融信息服务有限公司 | 客户满意度评估方法及装置、计算机可读存储介质 |
CN109992776A (zh) * | 2019-03-26 | 2019-07-09 | 北京博瑞彤芸文化传播股份有限公司 | 一种中文分词方法 |
CN110059185A (zh) * | 2019-04-03 | 2019-07-26 | 天津科技大学 | 一种医学文档专业词汇自动化标注方法 |
CN110059185B (zh) * | 2019-04-03 | 2022-10-04 | 天津科技大学 | 一种医学文档专业词汇自动化标注方法 |
CN110019758A (zh) * | 2019-04-11 | 2019-07-16 | 北京百度网讯科技有限公司 | 一种核心要素提取方法、装置及电子设备 |
CN110019758B (zh) * | 2019-04-11 | 2021-07-06 | 北京百度网讯科技有限公司 | 一种核心要素提取方法、装置及电子设备 |
CN109977422A (zh) * | 2019-04-18 | 2019-07-05 | 中国石油大学(华东) | 一种基于分词技术的病历关键信息提取模型 |
CN110298028B (zh) * | 2019-05-21 | 2023-08-18 | 杭州未名信科科技有限公司 | 一种文本段落的关键句提取方法和装置 |
CN110298028A (zh) * | 2019-05-21 | 2019-10-01 | 浙江省北大信息技术高等研究院 | 一种文本段落的关键句提取方法和装置 |
CN110334331A (zh) * | 2019-05-30 | 2019-10-15 | 重庆金融资产交易所有限责任公司 | 基于排序模型筛选表格的方法、装置和计算机设备 |
CN110232112A (zh) * | 2019-05-31 | 2019-09-13 | 北京创鑫旅程网络技术有限公司 | 文章中关键词提取方法及装置 |
CN110232112B (zh) * | 2019-05-31 | 2022-06-21 | 北京创鑫旅程网络技术有限公司 | 文章中关键词提取方法及装置 |
CN110377699A (zh) * | 2019-06-21 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 基于nlp的手机短信识别方法及相关设备 |
CN110287492A (zh) * | 2019-06-26 | 2019-09-27 | 拉扎斯网络科技(上海)有限公司 | 数据处理及主类别识别方法、装置、电子设备及存储介质 |
CN110287493A (zh) * | 2019-06-28 | 2019-09-27 | 中国科学技术信息研究所 | 风险短语识别方法、装置、电子设备及存储介质 |
CN110442516A (zh) * | 2019-07-12 | 2019-11-12 | 上海陆家嘴国际金融资产交易市场股份有限公司 | 信息处理方法、设备及计算机可读存储介质 |
CN110377725A (zh) * | 2019-07-12 | 2019-10-25 | 深圳新度博望科技有限公司 | 数据生成方法、装置、计算机设备及存储介质 |
CN110377725B (zh) * | 2019-07-12 | 2021-09-24 | 深圳新度博望科技有限公司 | 数据生成方法、装置、计算机设备及存储介质 |
CN110442516B (zh) * | 2019-07-12 | 2024-02-09 | 未鲲(上海)科技服务有限公司 | 信息处理方法、设备及计算机可读存储介质 |
CN110414819A (zh) * | 2019-07-19 | 2019-11-05 | 中国电信集团工会上海市委员会 | 一种工单评分方法 |
CN110414819B (zh) * | 2019-07-19 | 2023-05-26 | 中国电信集团工会上海市委员会 | 一种工单评分方法 |
CN110555372A (zh) * | 2019-07-22 | 2019-12-10 | 深圳壹账通智能科技有限公司 | 数据录入方法、装置、设备及存储介质 |
CN110795942A (zh) * | 2019-09-18 | 2020-02-14 | 平安科技(深圳)有限公司 | 基于语义识别的关键词确定方法、装置和存储介质 |
CN110795942B (zh) * | 2019-09-18 | 2022-10-14 | 平安科技(深圳)有限公司 | 基于语义识别的关键词确定方法、装置和存储介质 |
CN111026851B (zh) * | 2019-10-18 | 2023-09-15 | 平安科技(深圳)有限公司 | 模型预测能力优化方法、装置、设备及可读存储介质 |
WO2021073408A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 模型预测能力优化方法、装置、设备及可读存储介质 |
CN111026851A (zh) * | 2019-10-18 | 2020-04-17 | 平安科技(深圳)有限公司 | 模型预测能力优化方法、装置、设备及可读存储介质 |
CN110992501A (zh) * | 2019-10-30 | 2020-04-10 | 平安科技(深圳)有限公司 | 数据监测方法、装置、设备及计算机可读存储介质 |
CN110852064A (zh) * | 2019-10-31 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 关键句提取方法及装置 |
CN110852064B (zh) * | 2019-10-31 | 2021-10-26 | 腾讯科技(深圳)有限公司 | 关键句提取方法及装置 |
CN110837737A (zh) * | 2019-11-11 | 2020-02-25 | 中国电子科技集团公司信息科学研究院 | 能力词实体识别方法 |
CN111104791B (zh) * | 2019-11-14 | 2024-02-20 | 北京金堤科技有限公司 | 行业信息获取方法和装置、电子设备和介质 |
CN111104791A (zh) * | 2019-11-14 | 2020-05-05 | 北京金堤科技有限公司 | 行业信息获取方法和装置、电子设备和介质 |
CN110968666A (zh) * | 2019-11-22 | 2020-04-07 | 掌阅科技股份有限公司 | 基于相似度的标题生成模型的训练方法及计算设备 |
CN111046657B (zh) * | 2019-12-04 | 2023-10-13 | 东软集团股份有限公司 | 一种实现文本信息标准化的方法、装置及设备 |
CN111046657A (zh) * | 2019-12-04 | 2020-04-21 | 东软集团股份有限公司 | 一种实现文本信息标准化的方法、装置及设备 |
CN111062221A (zh) * | 2019-12-13 | 2020-04-24 | 北京欧珀通信有限公司 | 数据处理方法、装置、电子设备以及存储介质 |
CN111144127A (zh) * | 2019-12-25 | 2020-05-12 | 科大讯飞股份有限公司 | 文本语义识别方法及其模型的获取方法及相关装置 |
CN111192692B (zh) * | 2020-01-02 | 2023-12-08 | 上海联影智能医疗科技有限公司 | 一种实体关系的确定方法、装置、电子设备及存储介质 |
CN111192692A (zh) * | 2020-01-02 | 2020-05-22 | 上海联影智能医疗科技有限公司 | 一种实体关系的确定方法、装置、电子设备及存储介质 |
CN111274815B (zh) * | 2020-01-15 | 2024-04-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
CN111274815A (zh) * | 2020-01-15 | 2020-06-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
US11775761B2 (en) | 2020-01-15 | 2023-10-03 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for mining entity focus in text |
CN111738791A (zh) * | 2020-01-20 | 2020-10-02 | 北京沃东天骏信息技术有限公司 | 一种文本处理方法、装置、设备和存储介质 |
CN111738791B (zh) * | 2020-01-20 | 2024-05-24 | 北京沃东天骏信息技术有限公司 | 一种文本处理方法、装置、设备和存储介质 |
CN111339250A (zh) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN111339250B (zh) * | 2020-02-20 | 2023-08-18 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
US11755654B2 (en) | 2020-02-20 | 2023-09-12 | Beijing Baidu Netcom Science Technology Co., Ltd. | Category tag mining method, electronic device and non-transitory computer-readable storage medium |
CN111428496B (zh) * | 2020-03-24 | 2023-08-15 | 北京小米松果电子有限公司 | 文本分词模型的训练方法、分词处理方法及装置、介质 |
CN111428496A (zh) * | 2020-03-24 | 2020-07-17 | 北京小米松果电子有限公司 | 文本分词模型的训练方法、分词处理方法及装置、介质 |
CN113496118B (zh) * | 2020-04-07 | 2024-05-31 | 北京中科闻歌科技股份有限公司 | 一种新闻主体识别方法、设备和计算机可读存储介质 |
CN113496118A (zh) * | 2020-04-07 | 2021-10-12 | 北京中科闻歌科技股份有限公司 | 一种新闻主体识别方法、设备和计算机可读存储介质 |
CN111159417A (zh) * | 2020-04-07 | 2020-05-15 | 北京泰迪熊移动科技有限公司 | 文本内容关键信息的提取方法、装置、设备及存储介质 |
CN111177326A (zh) * | 2020-04-10 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
KR102521586B1 (ko) * | 2020-04-17 | 2023-04-12 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 텍스트 핵심정보 추출방법, 장치, 전자기기 및 기록매체 |
KR20210129605A (ko) * | 2020-04-17 | 2021-10-28 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 텍스트 핵심정보 추출방법, 장치, 전자기기 및 기록매체 |
CN113111175A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型极端行为识别方法与装置、设备及介质 |
CN111611801B (zh) * | 2020-06-02 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种识别文本地域属性的方法、装置、服务器及存储介质 |
CN111611801A (zh) * | 2020-06-02 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 一种识别文本地域属性的方法、装置、服务器及存储介质 |
CN111931480A (zh) * | 2020-07-03 | 2020-11-13 | 北京新联财通咨询有限公司 | 文本主要内容的确定方法、装置、存储介质及计算机设备 |
CN111832282A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
CN112134920A (zh) * | 2020-08-12 | 2020-12-25 | 新华三技术有限公司 | 一种文件识别方法及装置 |
CN112052646A (zh) * | 2020-08-27 | 2020-12-08 | 安徽聚戎科技信息咨询有限公司 | 一种文本数据标注方法 |
CN112052646B (zh) * | 2020-08-27 | 2024-03-29 | 安徽聚戎科技信息咨询有限公司 | 一种文本数据标注方法 |
CN111984851A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 医学资料搜索方法、装置、电子装置及存储介质 |
CN111984851B (zh) * | 2020-09-03 | 2023-11-14 | 深圳平安智慧医健科技有限公司 | 医学资料搜索方法、装置、电子装置及存储介质 |
CN112446210B (zh) * | 2020-11-27 | 2024-01-09 | 广州三七互娱科技有限公司 | 用户性别预测方法、装置及电子设备 |
CN112446210A (zh) * | 2020-11-27 | 2021-03-05 | 广州三七互娱科技有限公司 | 用户性别预测方法、装置及电子设备 |
CN112668321A (zh) * | 2020-12-29 | 2021-04-16 | 竹间智能科技(上海)有限公司 | 关键词提取方法及装置、电子设备、存储介质 |
CN112668321B (zh) * | 2020-12-29 | 2023-11-07 | 竹间智能科技(上海)有限公司 | 关键词提取方法及装置、电子设备、存储介质 |
CN112364136A (zh) * | 2021-01-12 | 2021-02-12 | 平安国际智慧城市科技股份有限公司 | 关键词生成方法、装置、设备及存储介质 |
CN112818996A (zh) * | 2021-01-29 | 2021-05-18 | 青岛海尔科技有限公司 | 指令识别方法和装置、存储介质及电子设备 |
CN112800465A (zh) * | 2021-02-09 | 2021-05-14 | 第四范式(北京)技术有限公司 | 待标注文本数据的处理方法、装置、电子设备及介质 |
CN113282763B (zh) * | 2021-06-28 | 2023-03-10 | 深圳平安智汇企业信息管理有限公司 | 文本关键信息提取、装置、设备及存储介质 |
CN113282763A (zh) * | 2021-06-28 | 2021-08-20 | 深圳平安智汇企业信息管理有限公司 | 文本关键信息提取、装置、设备及存储介质 |
CN113592534A (zh) * | 2021-06-30 | 2021-11-02 | 深圳市东信时代信息技术有限公司 | 竞品词确定方法、装置、计算机设备及存储介质 |
CN113569839A (zh) * | 2021-08-31 | 2021-10-29 | 重庆紫光华山智安科技有限公司 | 证件识别方法、***、设备及介质 |
CN113569839B (zh) * | 2021-08-31 | 2024-02-09 | 重庆紫光华山智安科技有限公司 | 证件识别方法、***、设备及介质 |
CN113806510A (zh) * | 2021-09-22 | 2021-12-17 | 中国科学院深圳先进技术研究院 | 一种法律条文检索方法、终端设备及计算机存储介质 |
CN113806510B (zh) * | 2021-09-22 | 2024-06-28 | 中国科学院深圳先进技术研究院 | 一种法律条文检索方法、终端设备及计算机存储介质 |
CN114065759B (zh) * | 2021-11-19 | 2023-10-13 | 深圳数阔信息技术有限公司 | 一种模型失效检测方法、装置、电子设备及介质 |
CN114065759A (zh) * | 2021-11-19 | 2022-02-18 | 深圳视界信息技术有限公司 | 一种模型失效检测方法、装置、电子设备及介质 |
CN114785410B (zh) * | 2022-04-25 | 2024-02-27 | 贵州电网有限责任公司 | 一种基于光纤编码的精准识别*** |
CN114785410A (zh) * | 2022-04-25 | 2022-07-22 | 贵州电网有限责任公司 | 一种基于光纤编码的精准识别*** |
CN114547087A (zh) * | 2022-04-27 | 2022-05-27 | 湖南正宇软件技术开发有限公司 | 提案自动识别并生成报告的方法、装置、设备和介质 |
CN114547087B (zh) * | 2022-04-27 | 2022-07-26 | 湖南正宇软件技术开发有限公司 | 提案自动识别并生成报告的方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019214149A1 (zh) | 2019-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108664473A (zh) | 文本关键信息的识别方法、电子装置及可读存储介质 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN108717406A (zh) | 文本情绪分析方法、装置及存储介质 | |
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN108804512A (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN109325165A (zh) | 网络舆情分析方法、装置及存储介质 | |
CN108733675B (zh) | 基于大量样本数据的情感评价方法及装置 | |
Yuan et al. | Revisiting out-of-distribution robustness in nlp: Benchmarks, analysis, and LLMs evaluations | |
CN107679075B (zh) | 网络监控方法和设备 | |
Van der Poel et al. | Mutual information alleviates hallucinations in abstractive summarization | |
Mountassir et al. | A cross-study of Sentiment Classification on Arabic corpora | |
CN107368489A (zh) | 一种资讯数据处理方法及装置 | |
Mittal et al. | A hybrid approach for twitter sentiment analysis | |
Islam et al. | Deep learning for multi-labeled cyberbully detection: Enhancing online safety | |
Farhoodi et al. | N-gram based text classification for Persian newspaper corpus | |
CN110347806A (zh) | 原创文本甄别方法、装置、设备与计算机可读存储介质 | |
CN104572613A (zh) | 数据处理装置、数据处理方法和程序 | |
Villagracia Octaviano | Fake news detection using machine learning | |
Filippova et al. | Using linguistically motivated features for paragraph boundary identification | |
Kapočiūtė-Dzikienė et al. | The effect of author set size in authorship attribution for Lithuanian | |
CN113051396B (zh) | 文档的分类识别方法、装置和电子设备 | |
CN107590163B (zh) | 文本特征选择的方法、装置和*** | |
CN113051869B (zh) | 一种结合语义识别实现标识文本差异内容的方法及*** | |
Munot et al. | Conceptual framework for abstractive text summarization | |
Mir et al. | Movie aspects identification model for aspect based sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181016 |