CN110222329B - 一种基于深度学习的中文分词方法和装置 - Google Patents

一种基于深度学习的中文分词方法和装置 Download PDF

Info

Publication number
CN110222329B
CN110222329B CN201910322127.8A CN201910322127A CN110222329B CN 110222329 B CN110222329 B CN 110222329B CN 201910322127 A CN201910322127 A CN 201910322127A CN 110222329 B CN110222329 B CN 110222329B
Authority
CN
China
Prior art keywords
data
neural network
convolutional neural
random field
conditional random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910322127.8A
Other languages
English (en)
Chinese (zh)
Other versions
CN110222329A (zh
Inventor
陈闽川
马骏
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910322127.8A priority Critical patent/CN110222329B/zh
Publication of CN110222329A publication Critical patent/CN110222329A/zh
Priority to SG11202111464WA priority patent/SG11202111464WA/en
Priority to PCT/CN2019/118259 priority patent/WO2020215694A1/zh
Priority to JP2021563188A priority patent/JP7178513B2/ja
Application granted granted Critical
Publication of CN110222329B publication Critical patent/CN110222329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
CN201910322127.8A 2019-04-22 2019-04-22 一种基于深度学习的中文分词方法和装置 Active CN110222329B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910322127.8A CN110222329B (zh) 2019-04-22 2019-04-22 一种基于深度学习的中文分词方法和装置
SG11202111464WA SG11202111464WA (en) 2019-04-22 2019-11-14 Method, device, storage medium, and computing device for segmenting chinese word based on deep learning
PCT/CN2019/118259 WO2020215694A1 (zh) 2019-04-22 2019-11-14 一种基于深度学习的中文分词方法、装置、存储介质及计算机设备
JP2021563188A JP7178513B2 (ja) 2019-04-22 2019-11-14 ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910322127.8A CN110222329B (zh) 2019-04-22 2019-04-22 一种基于深度学习的中文分词方法和装置

Publications (2)

Publication Number Publication Date
CN110222329A CN110222329A (zh) 2019-09-10
CN110222329B true CN110222329B (zh) 2023-11-24

Family

ID=67819927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910322127.8A Active CN110222329B (zh) 2019-04-22 2019-04-22 一种基于深度学习的中文分词方法和装置

Country Status (4)

Country Link
JP (1) JP7178513B2 (ja)
CN (1) CN110222329B (ja)
SG (1) SG11202111464WA (ja)
WO (1) WO2020215694A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222329B (zh) * 2019-04-22 2023-11-24 平安科技(深圳)有限公司 一种基于深度学习的中文分词方法和装置
US10817665B1 (en) * 2020-05-08 2020-10-27 Coupang Corp. Systems and methods for word segmentation based on a competing neural character language model
CN112528648A (zh) * 2020-12-10 2021-03-19 平安科技(深圳)有限公司 多音字发音的预测方法、装置、设备及存储介质
CN112884087A (zh) * 2021-04-07 2021-06-01 山东大学 一种生物增强子及其类型的识别方法
CN113341919B (zh) * 2021-05-31 2022-11-08 中国科学院重庆绿色智能技术研究院 一种基于时序数据长度优化的计算***故障预测方法
CN114863995B (zh) * 2022-03-30 2024-05-07 安徽大学 一种基于双向门控循环神经网络的沉默子预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182423A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于条件随机场的中文人名自动识别方法
CN107977354A (zh) * 2017-10-12 2018-05-01 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的混合语料分词方法
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN109255119A (zh) * 2018-07-18 2019-01-22 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001071448A2 (en) * 2000-03-20 2001-09-27 Freeman Robert J Natural-language processing system using a large corpus
JP2008140117A (ja) 2006-12-01 2008-06-19 National Institute Of Information & Communication Technology 中国語の文字シーケンスを中国語の単語シーケンスにセグメント化するための装置
CN103020034A (zh) 2011-09-26 2013-04-03 北京大学 中文分词方法和装置
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN107291684B (zh) * 2016-04-12 2021-02-09 华为技术有限公司 语言文本的分词方法和***
WO2018081089A1 (en) * 2016-10-26 2018-05-03 Deepmind Technologies Limited Processing text sequences using neural networks
CN108536679B (zh) * 2018-04-13 2022-05-20 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109086267B (zh) * 2018-07-11 2022-07-26 南京邮电大学 一种基于深度学习的中文分词方法
CN110222329B (zh) * 2019-04-22 2023-11-24 平安科技(深圳)有限公司 一种基于深度学习的中文分词方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182423A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于条件随机场的中文人名自动识别方法
CN107977354A (zh) * 2017-10-12 2018-05-01 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的混合语料分词方法
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN109255119A (zh) * 2018-07-18 2019-01-22 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及***

Also Published As

Publication number Publication date
WO2020215694A1 (zh) 2020-10-29
CN110222329A (zh) 2019-09-10
JP2022530447A (ja) 2022-06-29
JP7178513B2 (ja) 2022-11-25
SG11202111464WA (en) 2021-11-29

Similar Documents

Publication Publication Date Title
CN110222329B (zh) 一种基于深度学习的中文分词方法和装置
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN107145483B (zh) 一种基于嵌入式表示的自适应中文分词方法
CN107168955B (zh) 利用基于词上下文的字嵌入与神经网络的中文分词方法
CN109271521B (zh) 一种文本分类方法及装置
CN110263325B (zh) 中文分词***
CN107203511A (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN110765775A (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
WO2021051574A1 (zh) 英文文本序列标注方法、***及计算机设备
CN107832458A (zh) 一种字符级的基于嵌套深度网络的文本分类方法
CN112434131B (zh) 基于人工智能的文本错误检测方法、装置、计算机设备
CN113326380B (zh) 基于深度神经网络的设备量测数据处理方法、***及终端
CN113449489B (zh) 标点符号标注方法、装置、计算机设备和存储介质
CN110826298B (zh) 一种智能辅助定密***中使用的语句编码方法
CN111859964A (zh) 一种语句中命名实体的识别方法及装置
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111160000A (zh) 作文自动评分方法、装置终端设备及存储介质
CN110245332B (zh) 基于双向长短时记忆网络模型的中文编码方法和装置
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113160917B (zh) 一种电子病历实体关系抽取方法
CN110610006A (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
CN114266252A (zh) 命名实体识别方法、装置、设备及存储介质
US11941360B2 (en) Acronym definition network
CN113609819A (zh) 标点符号确定模型及确定方法
CN114626378A (zh) 命名实体识别方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant