CN109783801A - 一种电子装置、多标签分类方法及存储介质 - Google Patents

一种电子装置、多标签分类方法及存储介质 Download PDF

Info

Publication number
CN109783801A
CN109783801A CN201811529912.2A CN201811529912A CN109783801A CN 109783801 A CN109783801 A CN 109783801A CN 201811529912 A CN201811529912 A CN 201811529912A CN 109783801 A CN109783801 A CN 109783801A
Authority
CN
China
Prior art keywords
sentence
zero pronoun
candidate
language
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811529912.2A
Other languages
English (en)
Other versions
CN109783801B (zh
Inventor
刘俊
肖龙源
***
李稀敏
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Corp ltd
Original Assignee
Xiamen Kuaishangtong Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Corp ltd filed Critical Xiamen Kuaishangtong Technology Corp ltd
Priority to CN201811529912.2A priority Critical patent/CN109783801B/zh
Publication of CN109783801A publication Critical patent/CN109783801A/zh
Application granted granted Critical
Publication of CN109783801B publication Critical patent/CN109783801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种电子装置、多标签分类方法及存储介质,该方法包括:零代词的识别与消解步骤:将待分类语句进行零代词的识别与消解以获得扩充语句;语句拆分步骤:将所述扩充语句进行句法分析,提取所述扩充语句中的并列关系项;通过替换或者标记训练将所述扩充语句进行拆分形成若干个拆句;或者针对性地设计语料标注,人工标记指代消解后的扩充语句中的并列关系项以及其他项,训练一个句子拆分的Bi‑LSTM‑CRF模型,使用训练后的分Bi‑LSTM‑CRF模型对所述扩充语句进行分类拆分形成若干个拆句。本发明可以有效拆分复杂多标签语句为多个简单的单标签语句。

Description

一种电子装置、多标签分类方法及存储介质
技术领域
本发明涉及多标签分类技术领域,具体涉及一种电子装置、多标签分类方法及存储介质。
背景技术
现有深度学习语句多标签分类技术有两大方向:一是采用多标签分类指标,如:hamming loss直接预测标签集合;二是将语句转变为多个单标签二分类问题,分别预测每个标签符合的概率。这二者深度学习语句多标签分类技术均有其缺点,前者标签集合自由度高,训练难度大,需要大量独立训练样本,无法共享单标签训练样本等缺点;后者预测结果会受到非当次预测标签信息的干扰,或者说因为单标签的训练样本与多标签的测试样本分布不一致,其预测结果会存在可预见的偏差。
发明内容
本发明的目的在于,克服针对现有技术的不足之处,提出一种电子装置、多标签分类方法及存储介质。
为了实现上述目的,本发明提供了一种电子装置,包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的处理***,所述处理***被所述处理器执行时实现如下步骤:
零代词的识别与消解步骤:
将待分类语句进行零代词的识别与消解以获得扩充语句,所述零代词是待分类语句中可识别的短语或词的空位;
语句拆分步骤:
将所述扩充语句进行句法分析,提取所述扩充语句中的并列关系项;通过替换或者标记训练将所述扩充语句进行拆分形成若干个拆句;
或者针对性地设计语料标注,人工标记指代消解后的扩充语句中的并列关系项以及其他项,训练一个句子拆分的Bi-LSTM-CRF模型,使用训练后的分Bi-LSTM-CRF模型对所述扩充语句进行分类拆分形成若干个拆句;所述其他项包含共享项与删除项。
进一步的,上述电子装置的所述处理***被所述处理器执行时还实现意图识别步骤,所述意图识别步骤:将语句拆分步骤获得的若干个拆句分别作为单意图识别的模型输入,获得多个意图。
上述电子装置,优选地,所述零代词的识别与消解步骤,具体包括:
采用全模式的结巴分词将待分类语句切分获得候选先行语集合;
利用第一循环神经网络,根据零代词的上文进行特征学***均得到候选先行语的表示,将候选先行语的表示与零代词的上文向量表示拼接在一起,通过第一前馈神经网络来计算该候选先行语是否是该零代词先行语的概率;
利用第二循环神经网络,根据零代词的下文进行特征学***均得到候选先行语的表示,将候选先行语的表示与零代词的下文向量表示拼接在一起,通过第二前馈神经网络来计算该候选先行语是否是该零代词先行语的概率。
所述处理***被所述处理器执行时实现步骤中,所述扩充语句进行句法分析是采用Stanford NLP工具中的句法分析功能,对零代词消解后得到的扩充语句进行句法分析得到句法结构树,提取所述扩充语句中的并列关系项。
相应的,本发明还提供了一种多标签分类方法,包括:
零代词的识别与消解步骤:
将待分类语句进行零代词的识别与消解以获得扩充语句,所述零代词是待分类语句中可识别的短语或词的空位;
语句拆分步骤:
将所述扩充语句进行句法分析,提取所述扩充语句中的并列关系项;通过替换或者标记训练将所述扩充语句进行拆分形成若干个拆句;
或者针对性地设计语料标注,人工标记指代消解后的扩充语句中的并列关系项以及其他项,训练一个句子拆分的Bi-LSTM-CRF模型,使用训练后的分Bi-LSTM-CRF模型对所述扩充语句进行分类拆分形成若干个拆句;所述其他项包含共享项与删除项。
进一步的,所述多标签分类方法还包括,
意图识别步骤:将语句拆分步骤获得的若干个拆句分别作为单意图识别的模型输入,获得多个意图。
进一步的,由选地,所述零代词的识别与消解步骤,具体包括:
采用全模式的结巴分词将待分类语句切分获得候选先行语集合;
利用第一循环神经网络,根据零代词的上文进行特征学***均得到候选先行语的表示,将候选先行语的表示与零代词的上文向量表示拼接在一起,通过第一前馈神经网络来计算该候选先行语是否是该零代词先行语的概率;
利用第二循环神经网络,根据零代词的下文进行特征学***均得到候选先行语的表示,将候选先行语的表示与零代词的下文向量表示拼接在一起,通过第二前馈神经网络来计算该候选先行语是否是该零代词先行语的概率。
进一步的,所述多标签分类方法中,所述扩充语句进行句法分析是采用StanfordNLP工具中的句法分析功能,对零代词消解后得到的扩充语句进行句法分析得到句法结构树,提取所述扩充语句中的并列关系项。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有处理***,所述处理***被处理器执行时实现上述的多标签分类方法的步骤。
本发明的有益效果是:通过将多标签的待分类语句样本拆分成有效的单标签语句样本集合,从而可以有效利用已训练好的单标签分类模型在不损害预测精度的前提下进行多标签预测,无需担心预测样本与训练样本的分布不一致问题。有利于工业应用上节省大量多标签分类算法的开发成本与训练成本,有效整合已有资源,最大限度发挥已有单标签训练数据与模型的用处。另外,本发明具备可扩展性,可以满足工业应用中对快速变化的市场迅速反馈的需求。比如说市场上新出现一种需求标签,只需要搜集该需求标签相应的单标签数据进行建模训练即可添加到该多标签分类***中,而无需重新训练一个多标签模型。也可以方便快速地“移植”他人优秀的开源分类模型,而无需待研究透彻后方可“嫁接”到本模型中。
附图说明
此处所说明的附图用来提供对发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的电子装置的原理示意图;
图2为本发明的多标签分类方法的流程示意图。
图3一实施例中,零代词消解后得到的扩充语句进行句法分析得到句法结构树示意图;
图4本发明一实施例的通过Bi-LSTM-CRF模型进行分类拆分的示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
本发明提供了一种电子装置,电子装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备。本发明所指的电子装置包括电子计算机、单个服务器、多个服务器组成的服务器组或者基于云计算的大量主机或者服务器构成的云服务器。如附图1所示,本发明实施例中,所述电子装置,包括但不限于包括存储器2及与所述存储器2连接的处理器1,所述存储器2中存储有可在所述处理器1上运行的处理***。
本发明所指的存储器1包括内存以及至少一种类型的可读存储介质。其中,内存为电子装置的运行提供缓存,可读存储介质包括但不限于包括但不限于U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明所指的处理器1可以是中央处理器或者其他数据处理芯片。所述处理器1用于控制所述电子装置的总体操作,用于运行所述存储器2中存储的程序代码或者处理数据,如运行处理***等。
所述处理***被所述处理器1执行时实现如下步骤:
零代词的识别与消解步骤:
将待分类语句进行零代词的识别与消解以获得扩充语句,所述零代词是待分类语句中可识别的短语或词的空位;
语句拆分步骤:
将所述扩充语句进行句法分析,提取所述扩充语句中的并列关系项;通过替换或者标记训练将所述扩充语句进行拆分形成若干个拆句;
或者针对性地设计语料标注,人工标记指代消解后的扩充语句中的并列关系项以及其他项,训练一个句子拆分的Bi-LSTM-CRF模型,使用训练后的分Bi-LSTM-CRF模型对所述扩充语句进行分类拆分形成若干个拆句;所述其他项包含共享项与删除项。
进一步的,上述电子装置的所述处理***被所述处理器1执行时还实现意图识别步骤,所述意图识别步骤:将语句拆分步骤获得的若干个拆句分别作为单意图识别的模型输入,获得多个意图。
上述所述处理***被所述处理器1执行时实现如下步骤中,在一实施例中,优选地,所述零代词的识别与消解步骤,具体包括:
采用全模式的结巴分词将待分类语句切分获得候选先行语集合;
利用第一循环神经网络,根据零代词的上文进行特征学***均得到候选先行语的表示,将候选先行语的表示与零代词的上文向量表示拼接在一起,通过第一前馈神经网络来计算该候选先行语是否是该零代词先行语的概率;
利用第二循环神经网络,根据零代词的下文进行特征学***均得到候选先行语的表示,将候选先行语的表示与零代词的下文向量表示拼接在一起,通过第二前馈神经网络来计算该候选先行语是否是该零代词先行语的概率,将获得最大的消解概率的候选先行语放入原句中相应零代词的空位,即可得到零代消解后的句子。
所述处理***被所述处理器执行时实现步骤中,所述扩充语句进行句法分析是采用Stanford NLP工具中的句法分析功能,对零代词消解后得到的扩充语句进行句法分析得到句法结构树,提取所述扩充语句中的并列关系项。
另外,本发明还提供了一种多标签分类方法,如附图2所示,包括:
步骤S1,零代词的识别与消解步骤:
将待分类语句进行零代词的识别与消解以获得扩充语句,所述零代词是待分类语句中可识别的短语或词的空位;
例如,待分类语句:“我想和女朋友一起去北京故宫博物院参观和闲逛。”切分获得候选先行语集合:我,想,和,女朋友,朋友,一起,去,北京,北京故宫,北京故宫博物院,故宫,故宫博物院,博物,博物院,参观,和,闲逛
步骤S2,语句拆分步骤:
将所述扩充语句进行句法分析,提取所述扩充语句中的并列关系项;通过替换或者标记训练将所述扩充语句进行拆分形成若干个拆句;
需要说明的是,传统零代词是指代一个可识别的名词短语的语法空位,但在本发明中,出于实际需求考虑,本发明所指的零代词不仅仅指代名词短语,也可以是各种词性的字词或者短语。比如待分类语句:“请问现在您们唇部和腋下脱毛什么价位?”在这句待分类语句中零代词在“唇部”后,它指代的是“脱毛”这个动词短语。零代词指代的词“脱毛”便是该零代词的先行词。由此可见,先行词有可能出现在零代词之后。
进一步的,所述多标签分类方法还包括,
步骤S3,意图识别步骤:将语句拆分步骤获得的若干个拆句分别作为单意图识别的模型输入,获得多个意图。
进一步的,由选地,所述零代词的识别与消解步骤,具体包括:
采用全模式的结巴分词将待分类语句切分获得候选先行语集合;
利用第一循环神经网络,根据零代词的上文进行特征学***均得到候选先行语的表示,将候选先行语的表示与零代词的上文向量表示拼接在一起,通过第一前馈神经网络来计算该候选先行语是否是该零代词先行语的概率;
利用第二循环神经网络,根据零代词的下文进行特征学***均得到候选先行语的表示,将候选先行语的表示与零代词的下文向量表示拼接在一起,通过第二前馈神经网络来计算该候选先行语是否是该零代词先行语的概率。
本发明的候选先行语是指将待分类语句切分后得到的词,本发明采用的技术方案并不确定候选先行语的粒度,因此,本发明优选地采用全模式的切分方式,全模式充分地考虑了待分类语句切分的各种粒度,尽可能多地考虑候选先行语的可能性。
进一步的,所述多标签分类方法中,所述扩充语句进行句法分析是采用StanfordNLP工具中的句法分析功能,对零代词消解后得到的扩充语句进行句法分析得到句法结构树,提取所述扩充语句中的并列关系项。
例如:待分类语句:“请问现在您们唇部和腋下脱毛什么价位?”,所述扩充语句进行句法分析是采用Stanford NLP工具中的句法分析功能,对零代词消解后得到的扩充语句进行句法分析得到句法结构树如附图3所示,
该待分类语句中并列关系指示词是“和”,并列关系项是“唇部”和“腋下”。接下来将并列关系项分别替换并列关系指示词与相应的所有并列关系项部分,得到拆句1和拆句2,其中,拆句1:请问现在您们唇部脱毛什么价位?拆句2:请问现在您们腋下脱毛什么价位?
在本发明的另一实施例中,提供了另外,本发明还提供了一种多标签分类方法,包括:
零代词的识别与消解步骤:将待分类语句进行零代词的识别与消解以获得扩充语句,所述零代词是待分类语句中可识别的短语或词的空位;
语句拆分步骤:针对性地设计语料标注,人工标记指代消解后的扩充语句中的并列关系项以及其他项,训练一个句子拆分的Bi-LSTM-CRF模型,使用训练后的分Bi-LSTM-CRF模型对所述扩充语句进行分类拆分形成若干个拆句;所述其他项包含共享项与删除项。所述共享项是两个拆句中都会保留下来的原始句部分,所述删除项是两个拆句中都不会保留下来的原始句部分,所述并列关系项是两个拆句中分别会保留下来的原始句部分。待分类语句:“我想要手臂和小腿脱毛。”通过人工标记指代消解后的扩充语句中的并列关系项:“手臂”、“小腿”以及其共享项:“我”、“想要”、“脱毛”、“。”与删除项“和”。再通过使用训练后的Bi-LSTM-CRF模型对所述扩充语句进行分类拆分形成拆句1:“我想要手臂脱毛。”、拆句2:“我想要小腿脱毛。”其中,Bi-LSTM-CRF模型如附图4所示,将字向量(word embedding)传入一个双向长短时记忆模型(Bi-LSTM)。li表征字i和它的下文内容,ri表征字i和它的上文内容,将这两个表征向量拼接生成表征字i和它的上下文内容的向量ci。根据ci通过全连接层得到每个字映射到相应标记的非归一化概率,最后通过CRF层选出一个相应于每句话概率最大的标记序列。
另外,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有处理***,所述处理***被处理器执行时实现上述的多标签分类方法的步骤,所述多标签分类方法的步骤,在此不再赘述。
本发明通过将多标签的待分类语句样本拆分成有效的单标签语句样本集合,从而可以有效利用已训练好的单标签分类模型在不损害预测精度的前提下进行多标签预测,无需担心预测样本与训练样本的分布不一致问题。有利于工业应用上节省大量多标签分类算法的开发成本与训练成本,有效整合已有资源,最大限度发挥已有单标签训练数据与模型的用处。另外,本发明具备可扩展性,可以满足工业应用中对快速变化的市场迅速反馈的需求。比如说市场上新出现一种需求标签,只需要搜集该需求标签相应的单标签数据进行建模训练即可添加到该多标签分类***中,而无需重新训练一个多标签模型。也可以方便快速地“移植”他人优秀的开源分类模型,而无需待研究透彻后方可“嫁接”到本模型中。
上述说明描述了本发明的优选实施例,但应当理解本发明并非局限于上述实施例,且不应看作对其他实施例的排除。在不脱离本发明的原理和宗旨的情况下,本领域技术人员结合公知或现有技术、知识对这些实施例进行多种变化、修改、替换和变型也应视为在本发明的保护范围内。

Claims (9)

1.一种电子装置,其特征在于,
所述电子装置包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的处理***,所述处理***被所述处理器执行时实现如下步骤:
零代词的识别与消解步骤:
将待分类语句进行零代词的识别与消解以获得扩充语句,所述零代词是待分类语句中可识别的短语或词的空位;
语句拆分步骤:
将所述扩充语句进行句法分析,提取所述扩充语句中的并列关系项;通过替换或者标记训练将所述扩充语句进行拆分形成若干个拆句;
或者针对性地设计语料标注,人工标记指代消解后的扩充语句中的并列关系项以及其他项,训练一个句子拆分的Bi-LSTM-CRF模型,使用训练后的分Bi-LSTM-CRF模型对所述扩充语句进行分类拆分形成若干个拆句;所述其他项包含共享项与删除项。
2.根据权利要求1所述的电子装置,其特征在于,
所述处理***被所述处理器执行时还实现意图识别步骤,
所述意图识别步骤:将语句拆分步骤获得的若干个拆句分别作为单意图识别的模型输入,获得多个意图。
3.根据权利要求1所述的电子装置,其特征在于,
所述零代词的识别与消解步骤,具体包括:
采用全模式的结巴分词将待分类语句切分获得候选先行语集合;
利用第一循环神经网络,根据零代词的上文进行特征学***均得到候选先行语的表示,将候选先行语的表示与零代词的上文向量表示拼接在一起,通过第一前馈神经网络来计算该候选先行语是否是该零代词先行语的概率;
利用第二循环神经网络,根据零代词的下文进行特征学***均得到候选先行语的表示,将候选先行语的表示与零代词的下文向量表示拼接在一起,通过第二前馈神经网络来计算该候选先行语是否是该零代词先行语的概率。
4.根据权利要求1所述的电子装置,其特征在于,
所述扩充语句进行句法分析是采用Stanford NLP工具中的句法分析功能,对零代词消解后得到的扩充语句进行句法分析得到句法结构树,提取所述扩充语句中的并列关系项。
5.一种多标签分类方法,其特征在于,所述多标签分类方法包括:
零代词的识别与消解步骤:
将待分类语句进行零代词的识别与消解以获得扩充语句,所述零代词是待分类语句中可识别的短语或词的空位;
语句拆分步骤:
将所述扩充语句进行句法分析,提取所述扩充语句中的并列关系项;通过替换或者标记训练将所述扩充语句进行拆分形成若干个拆句;
或者针对性地设计语料标注,人工标记指代消解后的扩充语句中的并列关系项以及其他项,训练一个句子拆分的Bi-LSTM-CRF模型,使用训练后的分Bi-LSTM-CRF模型对所述扩充语句进行分类拆分形成若干个拆句;所述其他项包含共享项与删除项。
6.根据权利要求5所述的多标签分类方法,其特征在于,
所述多标签分类方法还包括,
意图识别步骤:将语句拆分步骤获得的若干个拆句分别作为单意图识别的模型输入,获得多个意图。
7.根据权利要求5所述的多标签分类方法,其特征在于,
所述零代词的识别与消解步骤,具体包括:
采用全模式的结巴分词将待分类语句切分获得候选先行语集合;
利用第一循环神经网络,根据零代词的上文进行特征学***均得到候选先行语的表示,将候选先行语的表示与零代词的上文向量表示拼接在一起,通过第一前馈神经网络来计算该候选先行语是否是该零代词先行语的概率;
利用第二循环神经网络,根据零代词的下文进行特征学***均得到候选先行语的表示,将候选先行语的表示与零代词的下文向量表示拼接在一起,通过第二前馈神经网络来计算该候选先行语是否是该零代词先行语的概率。
8.根据权利要求5所述的多标签分类方法,其特征在于,
所述扩充语句进行句法分析是采用Stanford NLP工具中的句法分析功能,对零代词消解后得到的扩充语句进行句法分析得到句法结构树,提取所述扩充语句中的并列关系项。
9.一种计算机可读存储介质,其特征在于,
所述计算机可读存储介质上存储有处理***,所述处理***被处理器执行时实现如权利要求4至6中任一项所述的多标签分类方法的步骤。
CN201811529912.2A 2018-12-14 2018-12-14 一种电子装置、多标签分类方法及存储介质 Active CN109783801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811529912.2A CN109783801B (zh) 2018-12-14 2018-12-14 一种电子装置、多标签分类方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811529912.2A CN109783801B (zh) 2018-12-14 2018-12-14 一种电子装置、多标签分类方法及存储介质

Publications (2)

Publication Number Publication Date
CN109783801A true CN109783801A (zh) 2019-05-21
CN109783801B CN109783801B (zh) 2023-08-25

Family

ID=66496196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811529912.2A Active CN109783801B (zh) 2018-12-14 2018-12-14 一种电子装置、多标签分类方法及存储介质

Country Status (1)

Country Link
CN (1) CN109783801B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674630A (zh) * 2019-09-24 2020-01-10 北京明略软件***有限公司 指代消解方法和装置、电子设备及存储介质
CN111400438A (zh) * 2020-02-21 2020-07-10 镁佳(北京)科技有限公司 用户多意图的识别方法及装置,存储介质及车辆
CN112214992A (zh) * 2020-10-14 2021-01-12 哈尔滨福涛科技有限责任公司 一种基于深度学习和规则结合的记叙文结构分析方法
CN112256868A (zh) * 2020-09-30 2021-01-22 华为技术有限公司 零指代消解方法、训练零指代消解模型的方法及电子设备
CN113392629A (zh) * 2021-06-29 2021-09-14 哈尔滨工业大学 基于预训练模型的人称代词消解方法
CN113850078A (zh) * 2021-09-29 2021-12-28 平安科技(深圳)有限公司 基于机器学习的多意图识别方法、设备及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025659A (ja) * 2003-07-01 2005-01-27 Nippon Telegr & Teleph Corp <Ntt> ゼロ代名詞解消方法、解消装置、解消プログラムおよびプログラムを記録した記録媒体
CN102880645A (zh) * 2012-08-24 2013-01-16 上海云叟网络科技有限公司 语义化的智能搜索方法
CN103440252A (zh) * 2013-07-25 2013-12-11 北京师范大学 一种中文句子中并列信息提取方法及装置
JP2015049545A (ja) * 2013-08-29 2015-03-16 株式会社ジャストシステム プロモーテッドアンケートプログラムおよびアンケートシステム
CN105988990A (zh) * 2015-02-26 2016-10-05 索尼公司 用于汉语中的零指代消解的装置和方法以及模型训练方法
CN106294322A (zh) * 2016-08-04 2017-01-04 哈尔滨工业大学 一种基于lstm的汉语零指代消解方法
CN107885844A (zh) * 2017-11-10 2018-04-06 南京大学 基于分类检索的自动问答方法及***
CN108563790A (zh) * 2018-04-28 2018-09-21 科大讯飞股份有限公司 一种语义理解方法及装置、设备、计算机可读介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025659A (ja) * 2003-07-01 2005-01-27 Nippon Telegr & Teleph Corp <Ntt> ゼロ代名詞解消方法、解消装置、解消プログラムおよびプログラムを記録した記録媒体
CN102880645A (zh) * 2012-08-24 2013-01-16 上海云叟网络科技有限公司 语义化的智能搜索方法
CN103440252A (zh) * 2013-07-25 2013-12-11 北京师范大学 一种中文句子中并列信息提取方法及装置
JP2015049545A (ja) * 2013-08-29 2015-03-16 株式会社ジャストシステム プロモーテッドアンケートプログラムおよびアンケートシステム
CN105988990A (zh) * 2015-02-26 2016-10-05 索尼公司 用于汉语中的零指代消解的装置和方法以及模型训练方法
CN106294322A (zh) * 2016-08-04 2017-01-04 哈尔滨工业大学 一种基于lstm的汉语零指代消解方法
CN107885844A (zh) * 2017-11-10 2018-04-06 南京大学 基于分类检索的自动问答方法及***
CN108563790A (zh) * 2018-04-28 2018-09-21 科大讯飞股份有限公司 一种语义理解方法及装置、设备、计算机可读介质

Non-Patent Citations (15)

* Cited by examiner, † Cited by third party
Title
QINGYU YIN ETC.: "Zero Pronoun Resolution with Attention-based Neural Network", 《PROCEEDING OF THE 27TH INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS》 *
QINGYU YIN ETC.: "Zero Pronoun Resolution with Attention-based Neural Network", 《PROCEEDING OF THE 27TH INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS》, 31 August 2018 (2018-08-31), pages 1 - 4 *
何保荣等: "基于句式与句模对应规则的语义角色标注", 《中文信息学报》 *
何保荣等: "基于句式与句模对应规则的语义角色标注", 《中文信息学报》, no. 04, 15 April 2018 (2018-04-15) *
刘慧慧;王素格;赵策力;: "观点句中评价对象/属性的缺省项识别方法研究", 中文信息学报, no. 06 *
曹军,周经野,肖赤心: "基于语义结构分析的汉语零代词消解", 湘潭大学自然科学学报, no. 04 *
李正华等: "短语结构树库向依存结构树库转化研究", 《中文信息学报》 *
李正华等: "短语结构树库向依存结构树库转化研究", 《中文信息学报》, no. 06, 15 November 2008 (2008-11-15) *
王衡军等: "结合全局向量特征的神经网络依存句法分析模型", 《通信学报》 *
王衡军等: "结合全局向量特征的神经网络依存句法分析模型", 《通信学报》, no. 02, 25 February 2018 (2018-02-25) *
秦越等: "基于栈式降噪自编码和词嵌入表示的维吾尔语零指代消解", 《中文信息学报》 *
秦越等: "基于栈式降噪自编码和词嵌入表示的维吾尔语零指代消解", 《中文信息学报》, no. 05, 15 May 2018 (2018-05-15) *
钱伟中;王娟;傅;秦志光;: "融合浅层句法分析的蛋白质互作用信息抽取方法", 计算机应用研究, no. 03 *
陈鑫等: "基于词语相关度的微博新情感词自动识别", 《计算机应用》 *
陈鑫等: "基于词语相关度的微博新情感词自动识别", 《计算机应用》, no. 02, 10 February 2016 (2016-02-10) *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674630A (zh) * 2019-09-24 2020-01-10 北京明略软件***有限公司 指代消解方法和装置、电子设备及存储介质
CN110674630B (zh) * 2019-09-24 2023-03-21 北京明略软件***有限公司 指代消解方法和装置、电子设备及存储介质
CN111400438A (zh) * 2020-02-21 2020-07-10 镁佳(北京)科技有限公司 用户多意图的识别方法及装置,存储介质及车辆
CN112256868A (zh) * 2020-09-30 2021-01-22 华为技术有限公司 零指代消解方法、训练零指代消解模型的方法及电子设备
CN112214992A (zh) * 2020-10-14 2021-01-12 哈尔滨福涛科技有限责任公司 一种基于深度学习和规则结合的记叙文结构分析方法
CN113392629A (zh) * 2021-06-29 2021-09-14 哈尔滨工业大学 基于预训练模型的人称代词消解方法
CN113850078A (zh) * 2021-09-29 2021-12-28 平安科技(深圳)有限公司 基于机器学习的多意图识别方法、设备及可读存储介质
CN113850078B (zh) * 2021-09-29 2024-06-18 平安科技(深圳)有限公司 基于机器学习的多意图识别方法、设备及可读存储介质

Also Published As

Publication number Publication date
CN109783801B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN109783801A (zh) 一种电子装置、多标签分类方法及存储介质
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
CN108733837B (zh) 一种病历文本的自然语言结构化方法及装置
Argyrou et al. Topic modelling on Instagram hashtags: An alternative way to Automatic Image Annotation?
CN108182175B (zh) 一种文本质量指标获取方法及装置
CN108717408A (zh) 一种敏感词实时监控方法、电子设备、存储介质及***
CN105279264B (zh) 一种文档的语义相关度计算方法
Lee Unsupervised and supervised learning to evaluate event relatedness based on content mining from social-media streams
CN110008463A (zh) 用于事件抽取的方法、装置和计算机可读介质
CN109308323A (zh) 一种因果关系知识库的构建方法、装置及设备
CN103268346B (zh) 半监督分类方法及***
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN112000929A (zh) 一种跨平台数据分析方法、***、设备及可读存储介质
Bartol et al. Nano language and distribution of article title terms according to power laws
CN114579695A (zh) 一种事件抽取方法、装置、设备及存储介质
CN109657052A (zh) 一种论文摘要蕴含细粒度知识元的抽取方法及装置
Abbasi et al. Organizing resources on tagging systems using t-org
Schirmer et al. A new dataset for topic-based paragraph classification in genocide-related court transcripts
Rabin et al. Development of the formal model for the presentation of poorly structured and unstructured information
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
Lai et al. An unsupervised approach to discover media frames
Mahalakshmi et al. Context based retrieval of scientific publications via reader lens
Vollset et al. Making use of external company data to improve the classification of bank transactions
Mohemad et al. Ontological-based information extraction of construction tender documents
Li et al. An entity linking model based on candidate features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant