CN109388806B - 一种基于深度学习及遗忘算法的中文分词方法 - Google Patents

一种基于深度学习及遗忘算法的中文分词方法 Download PDF

Info

Publication number
CN109388806B
CN109388806B CN201811258651.5A CN201811258651A CN109388806B CN 109388806 B CN109388806 B CN 109388806B CN 201811258651 A CN201811258651 A CN 201811258651A CN 109388806 B CN109388806 B CN 109388806B
Authority
CN
China
Prior art keywords
word
words
deep learning
word segmentation
stock
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811258651.5A
Other languages
English (en)
Other versions
CN109388806A (zh
Inventor
卢学裕
王安
杨大海
杨利军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Botbrain Intelligent Technology Co ltd
Original Assignee
Beijing Botbrain Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Botbrain Intelligent Technology Co ltd filed Critical Beijing Botbrain Intelligent Technology Co ltd
Priority to CN201811258651.5A priority Critical patent/CN109388806B/zh
Publication of CN109388806A publication Critical patent/CN109388806A/zh
Application granted granted Critical
Publication of CN109388806B publication Critical patent/CN109388806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习及遗忘算法的中文分词方法,包括以下步骤:一:逐字扫描句子获取自然语言,采用深度学习分词方法对扫描的自然语言划分成词语序列收入至第一词库;二:逐字扫描句子获取自然语言,采用遗忘算法分词方法对获取的自然语言进行断字划分成候选词收入至第二词库,三:将第一词库中的词语序列与第二词库中的候选词融合获取最终分词结果,融合方法为:第二词库中的连续单字,若对应深度学习中为词,则合并为词;第二词库中的单个单字,若对应深度学习中为词,则向前或向后合并为词。本发明的分词方法,通过将深度学习分词方法和遗忘算法分词方法的融合,可以自动侦测领域知识,完成无监督领域新词发现功能,提高分词效果。

Description

一种基于深度学习及遗忘算法的中文分词方法
技术领域
本发明涉及分词技术领域,具体涉及一种基于深度学习及遗忘算法的中文分词方法。
背景技术
中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
1、基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词***,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。
2、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子***、句法语义子***、总控部分。在总控部分的协调下,分词子***可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词***还处在试验阶段。
3、基于统计的分词方法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词***都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
1、歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面的”和“表面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆和服装”或者“化妆和服装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
2、新词识别
新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?
新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词***中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词***好坏的重要标志之一。现有分词算法基于词库的,在词库没有出现的词无法完成分词。
发明内容
本发明针对上述技术问题,提供一种基于深度学习及遗忘算法的中文分词方法,通过将深度学习分词方法和遗忘算法分词方法的融合,可以自动侦测领域知识,完成无监督领域新词发现功能,提高分词效果。
为解决上述技术问题,本发明采用的技术方案是:一种基于深度学习及遗忘算法的中文分词方法,包括以下步骤:
步骤一:逐字扫描句子获取自然语言,采用深度学习分词方法对扫描的自然语言划分成词语序列收入至第一词库;
步骤二:逐字扫描句子获取自然语言,采用遗忘算法分词方法对获取的自然语言进行断字划分成候选词收入至第二词库,
步骤三:将第一词库中的词语序列与第二词库中的候选词融合获取最终分词结果,其中,融合方法为:
第一词库与第二词库均为词,则合并为词;第一词库与第二词库均为单字,则合并为字;第二词库中的连续单字,若对应深度学习中为词,则合并为词;第二词库中的单个单字,若对应深度学习中为词,则向前或向后合并为词。
其中,步骤一深度学习分词方法采用RNN方法。
其中,步骤一深度学习分词方法采用RNN方法中的LSTM模型。
其中,步骤二遗忘算法分词方法采用判断公式为:
P(WnWn+1)<P(Wn)*P(Wn+1)
其中,Wn为在扫描句子中第n个字
Figure GDA0004231208350000051
Figure GDA0004231208350000052
其中,步骤二中遗忘算法采用的遗忘曲线为牛顿冷却曲线。
本发明的有益效果是:
本发明的分词方法具有以下优点:
(1)无监督学习,可以使用大量的语料进行训练;
(2)O(N)级时间复杂度,对于大规模分词可以用相对比较短的时间进行完成;
(3)词库自维护,程序可无需人工参与的情况下,自行发现并添加新词、调整词频、清理错词、移除生僻词,保持词典大小适当;
(4)领域自适应:领域变化时,词条、词频自适应的随之调整;
(5)可以支持冷僻艺人姓名,节目名称等专有词库的分词。
附图说明
图1是本发明的一种基于深度学习及遗忘算法的中文分词方法中遗忘系数采用的遗忘曲线图;
图2是本发明的一种基于深度学习及遗忘算法的中文分词方法中LSTM模型逻辑图。
具体实施方式
在以下优选的实施例的具体描述中,将参考构成本发明一部分的所附的附图。所附的附图通过示例的方式示出了能够实现本发明的特定的实施例。示例的实施例并不旨在穷尽根据本发明的所有实施例。可以理解,在不偏离本发明的范围的前提下,可以利用其他实施例,也可以进行结构性或者逻辑性的修改。因此,以下的具体描述并非限制性的,且本发明的范围由所附的权利要求所限定。
一种基于深度学习及遗忘算法的中文分词方法,包括以下步骤:
步骤一:逐字扫描句子获取自然语言,采用深度学习分词方法对扫描的自然语言划分成词语序列收入至第一词库;
步骤二:逐字扫描句子获取自然语言,采用遗忘算法分词方法对获取的自然语言进行断字划分成候选词收入至第二词库,
步骤三:将第一词库中的词语序列与第二词库中的候选词融合获取最终分词结果,其中,融合方法为:
第一词库与第二词库均为词,则合并为词;第一词库与第二词库均为单字,则合并为字;第二词库中的连续单字,若对应深度学习中为词,则合并为词;第二词库中的单个单字,若对应深度学习中为词,则向前或向后合并为词。
本发明采用深度学习和遗忘算法的结合,可以自动侦测领域知识,完成无监督领域新词发现功能,提高分词的效果。
遗忘算法的主要步骤如下:
使用下面的步骤可以O(N)级时间,单遍扫描完成分词:
逐字扫描句子,从词库中查出限定字长内以该字结尾的所有词,分别计算其中的词与该词之前各词的概率乘积,取结果值最大的词,分别缓存下当前字所在位置的最大概率积,以及对应的分词结果。重复上面的步骤,直到句子扫描完毕,最后一字位置所得到即为整句分词结果。
如果相邻两字无关,就可以将两字中间断开。逐字扫描句子,如果相邻两字满足下面的公式,则将两字断开,如此可将句子切成若干子串,从而获得“候选词”集,判断公式如下图所示:
P(WnWn+1)<P(Wn)*P(Wn+1)
其中,Wn为在扫描句子中第n个字
Figure GDA0004231208350000061
Figure GDA0004231208350000062
公式中所需的参数可以通过统计获得:遍历一次语料,即可获得公式中所需的“单字的频数”、“相邻两字共现的频数”,以及“所有单字的频数总和”。
其中的遗忘系数使用的遗忘曲线如图1:
深度学习方法采用的是RNN方法,具体采用的是LSTM模型。
中文分词是将自然语言文本划分成词语序列,优选序列标注,即用BMES这个四个标签去标注句子中的每一个字(B是词首,M是词中,E是词尾,S是单字词)。
对于{京东搜索与大数据平台数据挖掘算法部}
其标注为{BE BE S BME BE BMME BME}
针对原始输入序列和输出序列用以标记语料进行训练,最终产生分词序列,LSTM模型逻辑图见图2。图2中,X为输入序列,H为输出序列,分词的基础思想还是使用序列标注问题,将一个句子中的每个字标记成BEMS四种label。模型整的输入是字符序列,输出是一个标注序列,因此这是一个标准的sequenceto sequence问题。
组合的分词方法通过对两种方法结果的融合,提升分词的效果,以遗忘算法为主题,因为
·综艺,艺人名等对于在推荐占据重要地位
·遗忘算法作为无监督学习,训练语料获取途径成本低
·深度学习算法训练语料稀缺,训练时间长
合并方案
·遗忘算法结果中的连续单字,若对应深度学习中为词,则合并为词
·遗忘算法结果中的单个单字,若对应深度学习中为词,则向前或向后合并为词
·参考词性进行合并
实施例1:
通过扫描句子获取自然语言,然后通过遗忘算法分词和深度学习分词,并融合后的分词结果:
以下是两种算法分别分词的结果:
遗忘算法改进分词结果;
<实拍><男子><地铁><猥亵><女><乘客><><被><热心><乘客><扭><获>
<口袋妖怪><网络><版><的><注册><下载><教学><视频>
<霍><某><某><雪夜><觅><真爱><超><浪漫><表白><女生><感动><痛哭><161105><非常><完美>
<微微一笑很倾城><郑某><杨某><吻戏><玩><游戏><谈><恋爱>
<姜某某><调侃><麻将><应><进><奥运><笑称><可><与><体操><结合>
<周><某><某><守><备><站><左><外><野><球><场><喇叭><声><超大><自><备><妙招><防><敌><军>;
深度学习算法分词结果:
<实><拍><男子><地铁><猥亵女><乘客><被><热心><乘客><扭获>
<口袋><妖怪><网络版><的><注册><下载><教学><视频>
<霍某某><雪><夜觅><真爱><超><浪漫><表白><女生><感动痛><哭><161105><非常><完美>
<微微><一笑><很><倾城><郑某><杨某><吻><戏><玩><游戏><谈恋爱>
<姜><某><某><调侃><麻将><应><进奥运><笑称><可><与><体操><结合>
<周某某><守备><站><左><外><野球场><喇叭><声超大><自备><妙><招防><敌军>;
通过以上方案合并之后的结果:
<实拍><男子><地铁><猥亵女><乘客><被><热心><乘客><扭获>
<口袋妖怪><网络版><的><注册><下载><教学><视频>
<霍某某><雪夜><觅><真爱><超><浪漫><表白><女生><感动><痛哭><161105><非常><完美>
<微微一笑很倾城><郑某><杨某><吻戏><玩><游戏><谈恋爱>
<姜某某><调侃><麻将><应><进><奥运><笑称><可><与><体操><结合>
<周某某><守备><站><左><外><野球场><喇叭><声超大><自备><妙招><防><敌军>。

Claims (3)

1.一种基于深度学习及遗忘算法的中文分词方法,其特征在于,包括以下步骤:
步骤一:逐字扫描句子获取自然语言,采用深度学习分词方法对扫描的自然语言划分成词语序列收入至第一词库;
步骤二:逐字扫描句子获取自然语言,采用遗忘算法分词方法对获取的自然语言进行断字划分成候选词收入至第二词库,
步骤三:将第一词库中的词语序列与第二词库中的候选词融合获取最终分词结果,其中,融合方法为:
第一词库与第二词库均为词,则合并为词;第一词库与第二词库均为单字,则合并为字;第二词库中的连续单字,若对应深度学习中为词,则合并为词;第二词库中的单个单字,若对应深度学习中为词,则向前或向后合并为词;
所述步骤二遗忘算法分词方法采用判断公式为:
P(Wn Wn+1)<P(Wn)*P(Wn+1)
其中,Wn为在扫描句子中第n个字
P(Wn):
Figure QLYQS_1
P(Wn Wn+1):
Figure QLYQS_2
所述步骤二中遗忘算法采用的遗忘曲线为牛顿冷却曲线。
2.根据权利要求1所述的一种基于深度学习及遗忘算法的中文分词方法,其特征在于,所述步骤一深度学习分词方法采用RNN方法。
3.根据权利要求1或2所述的一种基于深度学习及遗忘算法的中文分词方法,其特征在于,所述步骤一深度学习分词方法采用RNN方法中的LSTM模型。
CN201811258651.5A 2018-10-26 2018-10-26 一种基于深度学习及遗忘算法的中文分词方法 Active CN109388806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811258651.5A CN109388806B (zh) 2018-10-26 2018-10-26 一种基于深度学习及遗忘算法的中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811258651.5A CN109388806B (zh) 2018-10-26 2018-10-26 一种基于深度学习及遗忘算法的中文分词方法

Publications (2)

Publication Number Publication Date
CN109388806A CN109388806A (zh) 2019-02-26
CN109388806B true CN109388806B (zh) 2023-06-27

Family

ID=65427965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811258651.5A Active CN109388806B (zh) 2018-10-26 2018-10-26 一种基于深度学习及遗忘算法的中文分词方法

Country Status (1)

Country Link
CN (1) CN109388806B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414002B (zh) * 2019-07-19 2023-06-09 山东科技大学 基于统计和深度学习的智能中文分词方法
CN110751234B (zh) * 2019-10-09 2024-04-16 科大讯飞股份有限公司 Ocr识别纠错方法、装置及设备

Citations (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN105740226A (zh) * 2016-01-15 2016-07-06 南京大学 使用树形神经网络和双向神经网络实现中文分词
CN106528738A (zh) * 2016-10-28 2017-03-22 华北理工大学 一种自然语言分析智能交互方法及装置
CN106776562A (zh) * 2016-12-20 2017-05-31 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取***
CN107122479A (zh) * 2017-05-03 2017-09-01 西安交通大学 一种基于深度学习的用户密码猜测***
CN107145483A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于嵌入式表示的自适应中文分词方法
CN107145484A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于隐多粒度局部特征的中文分词方法
CN107423288A (zh) * 2017-07-05 2017-12-01 达而观信息科技(上海)有限公司 一种基于无监督学习的中文分词***及方法
CN107590196A (zh) * 2017-08-15 2018-01-16 中国农业大学 一种社交网络中地震应急信息筛选评价方法及***
CN107622049A (zh) * 2017-09-06 2018-01-23 国家电网公司 一种供电服务专用词库生成方法
CN107622050A (zh) * 2017-09-14 2018-01-23 武汉烽火普天信息技术有限公司 基于Bi‑LSTM和CRF的文本序列标注***及方法
CN107665254A (zh) * 2017-09-30 2018-02-06 济南浪潮高新科技投资发展有限公司 一种基于深度学习的菜谱推荐方法
CN107798140A (zh) * 2017-11-23 2018-03-13 北京神州泰岳软件股份有限公司 一种对话***构建方法、语义受控应答方法及装置
CN107807964A (zh) * 2017-10-11 2018-03-16 咪咕互动娱乐有限公司 数字内容排序方法、装置和计算机可读存储介质
CN107818130A (zh) * 2017-09-15 2018-03-20 深圳市电陶思创科技有限公司 一种搜索引擎的建立方法及***
CN107885853A (zh) * 2017-11-14 2018-04-06 同济大学 一种基于深度学习的组合式文本分类方法
CN107894976A (zh) * 2017-10-12 2018-04-10 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的混合语料分词方法
CN107944014A (zh) * 2017-12-11 2018-04-20 河海大学 一种基于深度学习的中文文本情感分析方法
CN107943783A (zh) * 2017-10-12 2018-04-20 北京知道未来信息技术有限公司 一种基于lstm‑cnn的分词方法
CN107943937A (zh) * 2017-11-23 2018-04-20 杭州源诚科技有限公司 一种基于司法***息分析的债务人资产监控方法及***
CN107967318A (zh) * 2017-11-23 2018-04-27 北京师范大学 一种采用lstm神经网络的中文短文本主观题自动评分方法和***
CN108038103A (zh) * 2017-12-18 2018-05-15 北京百分点信息科技有限公司 一种对文本序列进行分词的方法、装置和电子设备
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN108304364A (zh) * 2017-02-23 2018-07-20 腾讯科技(深圳)有限公司 关键词提取方法和装置
CN108304506A (zh) * 2018-01-18 2018-07-20 腾讯科技(深圳)有限公司 检索方法、装置及设备
CN108320740A (zh) * 2017-12-29 2018-07-24 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108415953A (zh) * 2018-02-05 2018-08-17 华融融通(北京)科技有限公司 一种基于自然语言处理技术的不良资产经营知识管理方法
CN108536667A (zh) * 2017-03-06 2018-09-14 ***通信集团广东有限公司 中文文本识别方法及装置
CN108536756A (zh) * 2018-03-16 2018-09-14 苏州大学 基于双语信息的情绪分类方法及***
CN108563725A (zh) * 2018-04-04 2018-09-21 华东理工大学 一种中文症状体征构成识别方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004737A (zh) * 2007-01-24 2007-07-25 贵阳易特软件有限公司 基于关键词的个性化文档处理***
CN100504851C (zh) * 2007-06-27 2009-06-24 腾讯科技(深圳)有限公司 一种中文分词方法及***
US8311973B1 (en) * 2011-09-24 2012-11-13 Zadeh Lotfi A Methods and systems for applications for Z-numbers
CN106874292B (zh) * 2015-12-11 2020-05-05 北京国双科技有限公司 话题处理方法及装置
CN105426539B (zh) * 2015-12-23 2018-12-18 成都云数未来信息科学有限公司 一种基于词典的lucene中文分词方法
CN107291684B (zh) * 2016-04-12 2021-02-09 华为技术有限公司 语言文本的分词方法和***
CN106668985A (zh) * 2016-12-22 2017-05-17 山东大学 输液实时监测***
US10255269B2 (en) * 2016-12-30 2019-04-09 Microsoft Technology Licensing, Llc Graph long short term memory for syntactic relationship discovery
US10565492B2 (en) * 2016-12-31 2020-02-18 Via Alliance Semiconductor Co., Ltd. Neural network unit with segmentable array width rotator
CN107153640A (zh) * 2017-05-08 2017-09-12 成都准星云学科技有限公司 一种面向初等数学领域的分词方法
CN107391486B (zh) * 2017-07-20 2020-10-27 南京云问网络技术有限公司 一种基于统计信息和序列标注的领域新词识别方法
CN107844475A (zh) * 2017-10-12 2018-03-27 北京知道未来信息技术有限公司 一种基于lstm的分词方法
CN107992467A (zh) * 2017-10-12 2018-05-04 北京知道未来信息技术有限公司 一种基于lstm的混合语料分词方法

Patent Citations (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN105740226A (zh) * 2016-01-15 2016-07-06 南京大学 使用树形神经网络和双向神经网络实现中文分词
CN106528738A (zh) * 2016-10-28 2017-03-22 华北理工大学 一种自然语言分析智能交互方法及装置
CN106776562A (zh) * 2016-12-20 2017-05-31 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取***
CN108304364A (zh) * 2017-02-23 2018-07-20 腾讯科技(深圳)有限公司 关键词提取方法和装置
CN108536667A (zh) * 2017-03-06 2018-09-14 ***通信集团广东有限公司 中文文本识别方法及装置
CN107145484A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于隐多粒度局部特征的中文分词方法
CN107145483A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于嵌入式表示的自适应中文分词方法
CN107122479A (zh) * 2017-05-03 2017-09-01 西安交通大学 一种基于深度学习的用户密码猜测***
CN107423288A (zh) * 2017-07-05 2017-12-01 达而观信息科技(上海)有限公司 一种基于无监督学习的中文分词***及方法
CN107590196A (zh) * 2017-08-15 2018-01-16 中国农业大学 一种社交网络中地震应急信息筛选评价方法及***
CN107622049A (zh) * 2017-09-06 2018-01-23 国家电网公司 一种供电服务专用词库生成方法
CN107622050A (zh) * 2017-09-14 2018-01-23 武汉烽火普天信息技术有限公司 基于Bi‑LSTM和CRF的文本序列标注***及方法
CN107818130A (zh) * 2017-09-15 2018-03-20 深圳市电陶思创科技有限公司 一种搜索引擎的建立方法及***
CN107665254A (zh) * 2017-09-30 2018-02-06 济南浪潮高新科技投资发展有限公司 一种基于深度学习的菜谱推荐方法
CN107807964A (zh) * 2017-10-11 2018-03-16 咪咕互动娱乐有限公司 数字内容排序方法、装置和计算机可读存储介质
CN107894976A (zh) * 2017-10-12 2018-04-10 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的混合语料分词方法
CN107943783A (zh) * 2017-10-12 2018-04-20 北京知道未来信息技术有限公司 一种基于lstm‑cnn的分词方法
CN107885853A (zh) * 2017-11-14 2018-04-06 同济大学 一种基于深度学习的组合式文本分类方法
CN107943937A (zh) * 2017-11-23 2018-04-20 杭州源诚科技有限公司 一种基于司法***息分析的债务人资产监控方法及***
CN107967318A (zh) * 2017-11-23 2018-04-27 北京师范大学 一种采用lstm神经网络的中文短文本主观题自动评分方法和***
CN107798140A (zh) * 2017-11-23 2018-03-13 北京神州泰岳软件股份有限公司 一种对话***构建方法、语义受控应答方法及装置
CN107944014A (zh) * 2017-12-11 2018-04-20 河海大学 一种基于深度学习的中文文本情感分析方法
CN108038103A (zh) * 2017-12-18 2018-05-15 北京百分点信息科技有限公司 一种对文本序列进行分词的方法、装置和电子设备
CN108320740A (zh) * 2017-12-29 2018-07-24 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN108304506A (zh) * 2018-01-18 2018-07-20 腾讯科技(深圳)有限公司 检索方法、装置及设备
CN108415953A (zh) * 2018-02-05 2018-08-17 华融融通(北京)科技有限公司 一种基于自然语言处理技术的不良资产经营知识管理方法
CN108536756A (zh) * 2018-03-16 2018-09-14 苏州大学 基于双语信息的情绪分类方法及***
CN108563725A (zh) * 2018-04-04 2018-09-21 华东理工大学 一种中文症状体征构成识别方法

Also Published As

Publication number Publication date
CN109388806A (zh) 2019-02-26

Similar Documents

Publication Publication Date Title
Laina et al. Towards unsupervised image captioning with shared multimodal embeddings
Alzantot et al. Generating natural language adversarial examples
Kiros et al. Skip-thought vectors
CN105957518B (zh) 一种蒙古语大词汇量连续语音识别的方法
US20190129947A1 (en) Neural machine translation method and apparatus
CN100536532C (zh) 自动加配字幕的方法和***
CN107608960B (zh) 一种命名实体链接的方法和装置
CN112818694A (zh) 一种基于规则和改进预训练模型的命名实体识别方法
CN108052499A (zh) 基于人工智能的文本纠错方法、装置及计算机可读介质
CN111709242A (zh) 一种基于命名实体识别的中文标点符号添加方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN105893354A (zh) 一种基于双向递归神经网络的分词方法
KR102010343B1 (ko) 분절 인터넷 강의 제공 방법 및 장치
CN113553429A (zh) 一种规范化标签体系构建及文本自动标注方法
CN109388806B (zh) 一种基于深度学习及遗忘算法的中文分词方法
JP2018033048A (ja) メタデータ生成システム
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN109684928A (zh) 基于互联网检索的中文文档识别方法
Song et al. LSTM-in-LSTM for generating long descriptions of images
CN111552801A (zh) 基于语义对齐的神经网络自动摘要模型
CN107590121B (zh) 文本规整方法及***
Zou et al. To be an artist: automatic generation on food image aesthetic captioning
Andra et al. Automatic lecture video content summarizationwith attention-based recurrent neural network
CN107507627B (zh) 语音数据热度分析方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant