CN107025219A - 一种基于内部语义层次结构的词嵌入表示方法 - Google Patents

一种基于内部语义层次结构的词嵌入表示方法 Download PDF

Info

Publication number
CN107025219A
CN107025219A CN201710256916.7A CN201710256916A CN107025219A CN 107025219 A CN107025219 A CN 107025219A CN 201710256916 A CN201710256916 A CN 201710256916A CN 107025219 A CN107025219 A CN 107025219A
Authority
CN
China
Prior art keywords
word
character
embedded
carried out
hierarchical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710256916.7A
Other languages
English (en)
Other versions
CN107025219B (zh
Inventor
苏劲松
杨静
阮志伟
张祥文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201710256916.7A priority Critical patent/CN107025219B/zh
Publication of CN107025219A publication Critical patent/CN107025219A/zh
Application granted granted Critical
Publication of CN107025219B publication Critical patent/CN107025219B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种基于内部语义层次结构的词嵌入表示方法,涉及基于深度学习的自然语言处理。使用开源工具获得输入文本中每个词语的内部层次结构:该结构类似于传统短语树结构,不同的是以字符为基本单位,并且标注每个字符在该结构中的层次位置和类别信息;根据层次结构不变性原则对上述结构进行序列化操作,得到保持词内部的层次位置、类别信息的文本序列;将双向GRU网络作用于上述序列进行嵌入表示编码,然后将前向和后向GRU网络得到的两个嵌入表示向量进行拼接,最后通过非线性变换,ReLU操作,得到词语的最终嵌入表示向量。框架结构清晰简洁、方法直观,有助于学习内涵更为丰富的词嵌入表示,更好地为后续的自然语言处理任务服务。

Description

一种基于内部语义层次结构的词嵌入表示方法
技术领域
本发明涉及基于深度学习的自然语言处理,尤其是涉及一种基于内部语义层次结构的词嵌入表示方法。
背景技术
自然语言处理作为计算机科学和语言学的交叉分支,是眼下十分热门的学科。它主要探讨处理和运用自然语言使其能与计算机***进行有效通信的各种理论和方法。近年来,基于深度学习的自然语言处理研究已经成为该学科发展的主要趋势。
词嵌入表示是指利用分布式向量来表示词的语义信息。通过将自然语言中的词汇映射成低维、稠密的向量,使词处于同一个向量空间中,由此引入“距离”的概念对词汇间的语义相似性进行衡量,有助于获得语义信息更为充分表达的向量表示。目前各种基于深度学习的自然语言处理多以词嵌入表示为基础。
传统的词嵌入表示学习方法主要分为两大类:一类方法以词为基本单位,将词嵌入表示向量作为面向其它任务的神经网络的副产物,例如:Word2vec[1][2][3],语言模型[4]等等。这类方法的不足在于有限的词表使得神经网络模型无法很好地处理未登陆词;一类方法将字符为基本单位,将词包含的字符序列化,然后使用神经网络来学习词的双向嵌入表示向量。这类方法通过字符来构建词,解决了未登陆词的处理问题。其在英语等形态学信息较为丰富的语言上取得了很好的效果,然而并不完全适用于中文等语言。近年来,针对中文词汇嵌入表示的学习,许多研究者根据中文的特点提出了一系列方法。例如:利用中文偏旁部首[5][6][7],利用中文拼音[8]等等。然而,这些方法都忽视了由字符构成中文词汇内部蕴涵的以字符为基本单元的丰富语义信息。因此,当前对词嵌入表示学习的方法仍存在不足,如何获得更好的词嵌入表示仍十分具有研究价值。
参考文献:
[1]Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean.2013.EfficientEstimation of Word Representations in Vector Space.In Proceedings of the2013Conference on International Conference on Learning Representations.
[2]Tomas Mikolov,Ilya Sutskever,Kai Chen,Greg Corrado,JeffreyDean.2013.Distributed Representations of Words and Phrases and theirCompositionality.In Proceedings of the 2013Conference on Neural InformationProcessing Systems.
[3]Mikolov,Tomas and Yih,Wen-tau and Zweig,Geoffrey.2013.LinguisticRegularities in Continuous Space Word Representations.In Proceedings of the2013Conference on the North American Chapter of the Association forComputational Linguistics:Human Language Technologies.
[4]Yoshua Bengio,Réjean Ducharme,Pascal Vincent,ChristianJauvin.2003.A neural probabilistic language model.Journal of Machine LearningResearch,2003,3(6):1137-1155.
[5]Shi,Xinlei and Zhai,Junjie and Yang,Xudong and Xie,Zehua and Liu,Chao.2015.Radical Embedding:Delving Deeper to Chinese Radicals.In Proceedingsof the 53rd Annual Meeting of the Association for Computational Linguisticsand the 7th International Joint Conference on Natural Language Processing(Volume 2:Short Papers).
[6]Sun,Yaming and Lin,Lei and Tang,Duyu and Yang,Nan and Ji,Zhenzhouand Wang,Xiaolong.2014.Radical-Enhanced Chinese Character Embedding.Journalof Computer Science,2014,8835:279-286.
[7]Li,Yanran and Li,Wenjie and Sun,Fei and Li,Sujian.2015.Component-Enhanced Chinese Character Embeddings.In Proceedings of the 2015Conference onEmpirical Methods in Natural Language Processing
[8]Zhang,Xiang and Zhao,Junbo and LeCun,Yann.2015.Character-levelconvolutional networks for text classification.In Proceedings of the2015Conference on Neural Information Processing Systems.
[9]Zhang,Meishan and Zhang,Yue and Che,Wanxiang and Liu,Ting.2013.Chinese Parsing Exploiting Characters.In Proceedings of the 51stAnnual Meeting of the Association for Computational Linguistics(Volume 1:LongPapers).
发明内容
本发明的目的在于提供一种基于内部语义层次结构的词嵌入表示方法。
本发明包括以下步骤:
1)使用开源工具获得输入文本中每个词语的内部层次结构:该结构类似于传统短语树(Constituency Tree)结构,不同的是以字符为基本单位,并且标注每个字符在该结构中的层次位置和类别信息;
2)根据层次结构不变性原则对上述结构进行序列化操作,得到保持词内部的层次位置、类别信息的文本序列;
3)将双向GRU网络作用于上述序列进行嵌入表示编码,然后将前向和后向GRU网络得到的两个嵌入表示向量进行拼接,最后通过非线性变换,ReLU操作,得到词语的最终嵌入表示向量。
本发明利用中文词汇内部的语义层次结构来建模学习由细粒度的字符信息组合成更高层次词表示的过程,使得模型既能克服无法学习未登录词的嵌入表示的缺陷,也能够充分利用词汇内部语义信息学习到更为准确的词嵌入表示向量,以进一步提升其他以词嵌入表示为基础的自然语言处理任务的效果,例如情感分类、机器翻译及问答***等。
本发明的具体思想如下:
中文作为基于字符的语言,其词汇具有内部结构。在这种内部结构中,字符作为更细粒度的信息,其与词相互作用的方式同词与短语间相互作用的方式相类似。本发明将中文词汇的内部结构用于提供更为丰富的字符级别信息,进而改善词嵌入表示的学习。通过开源工具获得词的字符级别树结构后,通过序列化操作将词内部字符的顺序信息保留在序列中。在循环地将序列输送到GRU网络中进行建模时,采用双向GRU网络来同时编码历史信息和未来信息,进行词嵌入表示的学习。
本发明以学习更好的词嵌入表示为目标,针对传统方法中缺乏考虑词汇内部语义信息的缺陷,提出了一种基于内部语义层次结构的词嵌入表示学习方法。本发明框架结构清晰简洁、方法直观,有助于学习内涵更为丰富的词嵌入表示,更好地为后续的自然语言处理任务服务。
附图说明
图1为本发明中字符级别树结构及其序列化结果举例。在图1中,IP为字符级别短语树的根节点,NP为名词短语标记,VP为动词短语标记,NR为专有名词标记,NN为常用名词标记,VV为动词标记,ADJP为形容词短语标记,JJ为名词修饰标记。“-t”表示与其连接的标记为当前词的词性标签,“-r”表示当前词中中心字符的方向为右,“-c”表示当前词中字符属于并列关系,无中心偏向。“-b”表示当前字符在词中为起始字符,“-i”表示当前字符在词中为非起始字符。
图2为本发明中模型框架示例图。在图2中,其中hf为前向GRU所得到的词的隐层表示,hb为后向GRU所得到的词的隐层表示,最终二者拼接得到最终的嵌入表示。
图3为本发明中使用的神经网络语言模型框架示意图。在图3中,其中vec(wt|1),I,vec(wt|n+1)为句子中当前词wt的n-1个上下文词的嵌入表示,由本发明公开的词嵌入表示方法得到;tanh函数为非线性函数变换,用于模型中隐藏层信息的计算;softmax函数用于计算由输入层提供的上下文词集合预测当前词的概率。
具体实施方式
本发明具体实施方式如下:
第一步,根据词内部字符的层次结构不变性对树形结构进行序列化操作;
第二步,将上述序列作为双向GRU网络的输入进行嵌入表示编码;
第三步,以最大化语言模型概率为目标进行参数训练。
下面介绍关键步骤的实现细节:
1.对树形结构进行序列化操作
本发明中,利用开源工具[9]来获得字符级别树形式的词内部层次结构。基于此树形结构,可以抽取序列化的词结构信息。
图1给出了通过开源工具获得的字符级别树结构。其中句子“中国建筑业呈现新格局”的字符级别树结构,包含词语“中国”、“建筑业”、“呈现”、“新”和“格局”;对上述树结构采用“深度优先遍历”得到的序列化结果如下:
其中,IP为字符级别短语树的根节点,NP为名词短语标记,VP为动词短语标记,NR为专有名词标记,NN为常用名词标记,VV为动词标记,ADJP为形容词短语标记,JJ为名词修饰标记。“-t”表示与其连接的标记为当前词的词性标签,“-r”表示当前词中中心字符的方向为右,“-c”表示当前词中字符属于并列关系,无中心偏向。“-b”表示当前字符在词中为起始字符,“-i”表示当前字符在词中为非起始字符。
从上述序列化结果中抽取出的各个词的序列信息如下:
(NR(NR-b中)(NR-i国))
(NN(NN-c(NN-b建)(NN-i筑))(NN-i业))
(VV(VV-b呈)(VV-i现))
(JJ(JJ-b新))
(NN(NN-b格)(NN-i局))
其中,IP为字符级别短语树的根节点,NP为名词短语标记,VP为动词短语标记,NR为专有名词标记,NN为常用名词标记,VV为动词标记,ADJP为形容词短语标记,JJ为名词修饰标记。“-t”表示与其连接的标记为当前词的词性标签,“-r”表示当前词中中心字符的方向为右,“-c”表示当前词中字符属于并列关系,无中心偏向。“-b”表示当前字符在词中为起始字符,“-i”表示当前字符在词中为非起始字符。
深度优先遍历的过程如下所述:
假设由开源工具所得到的树形结构中,各类别信息(如图1中的“NN-t”标记)所在的节点构成当前树的节点集合V={v1,v2,...,vk},k为节点个数。选定树的根节点(即图1中的节点IP)作为起始节点,先对其左子树进行遍历,再对其右子树进行遍历。对于子树遍历过程中遇到的节点,若其不是叶子节点(以图1为例,叶子节点即为句子中的各字符所在的节点,例如“中”所在的节点),则继续对其左右子树进行遍历。如此递归进行,直至遍历至树中的最后一个叶子节点为止。至此,得到了该树形结构的序列化结果。
上述序列化操作遵循词内部字符的层次结构不变形,即序列化后的结果中仍保持字符在树中例如左右分支顺序、类别标记等信息的不变。
如所示序列化结果,通过对序列中“-t”标记的识别(即当前词的词性标签,亦是当前词的层次结构子树的根节点),得到各词对应的序列信息。值得注意的是,在最终结果中省略了分支中直连结构涉及的标记信息,因为认为这些信息已经蕴含在其上层标记中。
融入词内部层次结构信息的词嵌入表示
假设经过序列化操作后,词汇的内部层次结构(包含字符和层次结构各种标签)构成的序列为x={x1,x2,x3,...,xm},其中m为序列长度。将其作为双向GRU网络的输入,在时刻t时,对应的隐层状态ht的计算公式如下:
zt=σ(Wzxt+Uzht-1+bz)
rt=σ(Wrxt+Urht-1+br)
其中,zt是t时刻更新门向量,rt是t时刻重置门向量,ht为t时刻的隐层状态向量,各W,U分别为参数矩阵,各b为偏置项。⊙为向量的逐元素乘操作。
表示前向GRU网络建模文本得到的隐层表示,同样地,用表示后向GRU网络建模文本得到的隐层表示,它们分别是网络中最后一个单元的隐层表示。将它们拼接后得到当前词的嵌入表示,计算公式如下:
其中“[]”为向量拼接操作,函数f为非线性变换函数,例如ReLU操作。
2.模型的目标函数和训练方法
本发明使用神经网络语言模型进行参数训练,其目标函数如下所示:
详细解释如下:
对于语料库C,对于其中的句子其中ls为当前句子s中词的个数。要计算其作为一个自然语言句子的概率,需要计算
即以句子中当前词wt的前个词wt-1,wt-2,...,wt-n+1作为其上下文,对当前词出现的概率进行预测,n为指定的用作上下文词的个数,θ为模型的参数集合。
图2给出本发明中模型框架示例图。
最终句中每个词预测概率的乘积即为该句子作为自然语言句子的概率。
图3给出了神经网络语言模型的框架,模型的输出即为上式P的结果。
经过上述模型的训练,本发明公开的这种嵌入表示涵盖了字符构成词的层次结构中所蕴涵的丰富内部层次语义信息,包括字符构成词的顺序信息,从而得到更好的词嵌入表示,可更好地服务于后续自然语言处理任务。

Claims (1)

1.一种基于内部语义层次结构的词嵌入表示方法,其特征在于包括以下步骤:
1)使用开源工具获得输入文本中每个词语的内部层次结构:该结构类似于传统短语树结构,不同的是以字符为基本单位,并且标注每个字符在该结构中的层次位置和类别信息;
2)根据层次结构不变性原则对上述结构进行序列化操作,得到保持词内部的层次位置、类别信息的文本序列;
3)将双向GRU网络作用于上述序列进行嵌入表示编码,然后将前向和后向GRU网络得到的两个嵌入表示向量进行拼接,最后通过非线性变换,ReLU操作,得到词语的最终嵌入表示向量。
CN201710256916.7A 2017-04-19 2017-04-19 一种基于内部语义层次结构的词嵌入表示方法 Expired - Fee Related CN107025219B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710256916.7A CN107025219B (zh) 2017-04-19 2017-04-19 一种基于内部语义层次结构的词嵌入表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710256916.7A CN107025219B (zh) 2017-04-19 2017-04-19 一种基于内部语义层次结构的词嵌入表示方法

Publications (2)

Publication Number Publication Date
CN107025219A true CN107025219A (zh) 2017-08-08
CN107025219B CN107025219B (zh) 2019-07-26

Family

ID=59528027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710256916.7A Expired - Fee Related CN107025219B (zh) 2017-04-19 2017-04-19 一种基于内部语义层次结构的词嵌入表示方法

Country Status (1)

Country Link
CN (1) CN107025219B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729329A (zh) * 2017-11-08 2018-02-23 苏州大学 一种基于词向量连接技术的神经机器翻译方法及装置
CN108171283A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于结构化语义嵌入的图像内容自动描述方法
US10204289B2 (en) 2017-06-14 2019-02-12 International Business Machines Corporation Hieroglyphic feature-based data processing
CN109615006A (zh) * 2018-12-10 2019-04-12 北京市商汤科技开发有限公司 文字识别方法及装置、电子设备和存储介质
CN110399614A (zh) * 2018-07-26 2019-11-01 北京京东尚科信息技术有限公司 用于真产品词识别的***和方法
CN110598206A (zh) * 2019-08-13 2019-12-20 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN111476036A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种基于中文单词特征子串的词嵌入学习方法
CN111602133A (zh) * 2017-08-24 2020-08-28 微软技术许可有限责任公司 针对自然语言处理***的词嵌入的压缩
WO2020244475A1 (zh) * 2019-06-05 2020-12-10 腾讯科技(深圳)有限公司 用于语言序列标注的方法、装置、存储介质及计算设备
CN112116092A (zh) * 2020-08-11 2020-12-22 浙江师范大学 可解释性知识水平追踪方法、***和存储介质
US20210042603A1 (en) * 2018-09-04 2021-02-11 Tencent Technology (Shenzhen) Company Limited Method, apparatus, and storage medium for generating network representation for neural network
CN113342932A (zh) * 2021-05-31 2021-09-03 北京明略软件***有限公司 目标词向量的确定方法、装置、存储介质和电子装置
WO2021174874A1 (zh) * 2020-09-27 2021-09-10 平安科技(深圳)有限公司 一种基于韵律边界的语音合成方法及装置、介质、设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114291A (zh) * 2007-08-24 2008-01-30 西安交通大学 一种基于多样性xml文档近似查询方法
US20130346443A1 (en) * 2011-03-02 2013-12-26 Fujitsu Limited Computer product, searching apparatus, and searching method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114291A (zh) * 2007-08-24 2008-01-30 西安交通大学 一种基于多样性xml文档近似查询方法
US20130346443A1 (en) * 2011-03-02 2013-12-26 Fujitsu Limited Computer product, searching apparatus, and searching method

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MEISHAN ZHANG ET AL.: "Chinese Parsing Exploiting Character", 《PROCEEDINGS OF THE 51ST ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
XINLEI SHI ET AL.: "Radical Embedding: Delving Deeper to Chinese Radicals", 《PROCEEDINGS OF THE 53RD ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS AND THE 7TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING》 *
YANRAN LI ET AL.: "Component-Enhanced Chinese Character Embeddings", 《PROCEEDINGS OF THE 2015 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *
张开旭 等: "基于自动编码器的中文词汇特征无监督学习", 《中文信息学报》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10204289B2 (en) 2017-06-14 2019-02-12 International Business Machines Corporation Hieroglyphic feature-based data processing
US10217030B2 (en) 2017-06-14 2019-02-26 International Business Machines Corporation Hieroglyphic feature-based data processing
CN111602133B (zh) * 2017-08-24 2024-03-22 微软技术许可有限责任公司 针对自然语言处理***的词嵌入的压缩
CN111602133A (zh) * 2017-08-24 2020-08-28 微软技术许可有限责任公司 针对自然语言处理***的词嵌入的压缩
CN107729329A (zh) * 2017-11-08 2018-02-23 苏州大学 一种基于词向量连接技术的神经机器翻译方法及装置
CN107729329B (zh) * 2017-11-08 2021-03-26 苏州大学 一种基于词向量连接技术的神经机器翻译方法及装置
CN108171283A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于结构化语义嵌入的图像内容自动描述方法
CN108171283B (zh) * 2017-12-31 2020-06-16 厦门大学 一种基于结构化语义嵌入的图像内容自动描述方法
CN110399614A (zh) * 2018-07-26 2019-11-01 北京京东尚科信息技术有限公司 用于真产品词识别的***和方法
CN110399614B (zh) * 2018-07-26 2023-05-30 北京京东尚科信息技术有限公司 用于真产品词识别的***、方法和计算机可读介质
US20210042603A1 (en) * 2018-09-04 2021-02-11 Tencent Technology (Shenzhen) Company Limited Method, apparatus, and storage medium for generating network representation for neural network
CN109615006A (zh) * 2018-12-10 2019-04-12 北京市商汤科技开发有限公司 文字识别方法及装置、电子设备和存储介质
WO2020244475A1 (zh) * 2019-06-05 2020-12-10 腾讯科技(深圳)有限公司 用于语言序列标注的方法、装置、存储介质及计算设备
US11681872B2 (en) 2019-06-05 2023-06-20 Tencent Technology (Shenzhen) Company Limited Language sequence labeling method and apparatus, storage medium, and computing device
CN110598206A (zh) * 2019-08-13 2019-12-20 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN111476036A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种基于中文单词特征子串的词嵌入学习方法
CN112116092A (zh) * 2020-08-11 2020-12-22 浙江师范大学 可解释性知识水平追踪方法、***和存储介质
WO2021174874A1 (zh) * 2020-09-27 2021-09-10 平安科技(深圳)有限公司 一种基于韵律边界的语音合成方法及装置、介质、设备
CN113342932A (zh) * 2021-05-31 2021-09-03 北京明略软件***有限公司 目标词向量的确定方法、装置、存储介质和电子装置
CN113342932B (zh) * 2021-05-31 2024-04-19 北京明略软件***有限公司 目标词向量的确定方法、装置、存储介质和电子装置

Also Published As

Publication number Publication date
CN107025219B (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN107025219B (zh) 一种基于内部语义层次结构的词嵌入表示方法
CN110334361B (zh) 一种面向小语种语言的神经机器翻译方法
CN110825881B (zh) 一种建立电力知识图谱的方法
CN106776581B (zh) 基于深度学习的主观性文本情感分析方法
CN107291693B (zh) 一种改进词向量模型的语义计算方法
Zhang et al. Deep Neural Networks in Machine Translation: An Overview.
CN108280064B (zh) 分词、词性标注、实体识别及句法分析的联合处理方法
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN110110061B (zh) 基于双语词向量的低资源语种实体抽取方法
CN110688394B (zh) 面向新型供电城轨列车大数据运维的nl生成sql方法
CN109408812A (zh) 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN107562792A (zh) 一种基于深度学习的问答匹配方法
CN107633079B (zh) 一种基于数据库与神经网络的车机自然语言人机交互算法
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和***
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN111651557A (zh) 一种自动化文本生成方法、装置及计算机可读存储介质
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN106844327B (zh) 文本编码方法及***
CN115309915B (zh) 知识图谱构建方法、装置、设备和存储介质
Dethlefs Domain transfer for deep natural language generation from abstract meaning representations
CN112765983A (zh) 一种基于结合知识描述的神经网络的实体消歧的方法
CN116401376A (zh) 一种面向工艺性检查的知识图谱构建方法及***
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
CN109885841B (zh) 基于结点表示法的指代消解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190726

Termination date: 20200419