CN108897857A - 面向领域的中文文本主题句生成方法 - Google Patents

面向领域的中文文本主题句生成方法 Download PDF

Info

Publication number
CN108897857A
CN108897857A CN201810696452.6A CN201810696452A CN108897857A CN 108897857 A CN108897857 A CN 108897857A CN 201810696452 A CN201810696452 A CN 201810696452A CN 108897857 A CN108897857 A CN 108897857A
Authority
CN
China
Prior art keywords
theme
text
sentence
domain
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810696452.6A
Other languages
English (en)
Other versions
CN108897857B (zh
Inventor
宋晖
刘栩彤
戴龙其
叶长晖
岳万琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
National Dong Hwa University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN201810696452.6A priority Critical patent/CN108897857B/zh
Publication of CN108897857A publication Critical patent/CN108897857A/zh
Application granted granted Critical
Publication of CN108897857B publication Critical patent/CN108897857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种面向领域的中文文本主题句生成方法,其特征在于,包括以下步骤:面向领域文本数据集,建立相应的领域知识图谱,应用深度神经网络模型对文本进行语义信息抽取,按照主题句式对文本进行分类,最终生成文本的主题句。本发明通过创建领域知识图谱的方法获得数据集概念模型和内容叙述模式特性,并利用深度学习模型对文本数据进行标注和分类训练,进而生成出文本的主题句,实现基于知识的查询和统计。该方法具有较强的应用适用性,对于限定领域数据集,具有较好的主题句生成效果。

Description

面向领域的中文文本主题句生成方法
技术领域
本发明涉及一种对中文文本进行主题提取的方法,特别是基于领域数据集概括领域文本描述特征,为文本生成主题句的方法。
背景技术
近年来,随着人工智能技术的发展,计算机在自然语言理解中取得许多有应用价值的成果。主题提取是文本挖掘领域的一个重要分支,在搜索引擎,文本分类,信息统计等方面有着非常重要的作用。如何从文本中精炼准确地提取出其中的主题信息是理解语言表达内容的关键,一直是该领域的研究热点。
由于中文语义与句式结构的多样性与复杂性,直接对文本进行主题提取存在一定困难。为了获得文本的主要信息,目前已有方法多以在文本中提取主题关键词为主,主要分为基于统计分析和基于语义分析的方法。
基于统计的方法通常通过计算词频,词语共现度或词语权重等统计量找出文本中的主题关键词。该类方法由于忽略了文本的语义特征,提取出的结果中容易包含噪声数据,准确率不高。基于语义的方法通常依赖人类的先验知识,通过使用预先定义好的语义模版,或引入外部知识库的方式提取文本中的关键信息。相对于统计方法而言,基于语义的方法在准确率上有了很大提升,但实现过程十分繁琐,可迁移性相对较差。
使用主题词表示文本信息,忽略了主题词之间的联系,无法准确捕捉文本陈述的事实性知识。
随着知识图谱概念的提出和神经网络模型的发展,很多研究者开始尝试以(实体,关系,实体)或(实体,属性,属性值)等三元组的方式表示知识,构建图谱表达模型,使用监督或半监督的学习方法从文本中抽取知识实例。例如将实体,关系或属性等表示成向量形式,利用神经网络模型训练得到对应的分类或其他相关信息。目前,这些技术已在知识问答***或智能机器人等中广泛应用。
发明内容
本发明要解决的技术问题是:现有主题提取方法无法得到完整的主题内容叙述,主要通过主题关键词描述文本。针对领域性较强的文本数据,面向开放领域的知识图谱结构很难准确反应不同领域知识的描述方式,概括出文本中包含的主题信息。
为了解决上述技术问题,本发明的技术方案是提供了一种自动面向领域构建知识图谱,为中文文本生成主题句的方法,实施基于知识的查询和统计。为清楚论述本发明,兹以优选实施例的领域:城市管理案事件描述版本方法特征在于,包括以下步骤:
步骤1:创建领域知识图谱
城市管理案事件数据集中每一条数据以一个中文句子的形式描述案件具体信息,对城市管理案事件信息数据集进行词性标注、词频统计与权重排序的处理,对处理后的城市管理案事件信息数据集应用LDA主题聚类算法,按层次进行迭代的主题聚类,逐层发现实体类别、描述以及层次所属关系得到一系列包含实例以及其对应描述词的主题词条,并获得不同内容主题词条间的层次结构,随后应用K-means算法对通过LDA主题聚类算法得到的所有词汇进行聚类操作,根据聚类结果抽象出实体概念,组成以(实体,状态描述)和(实体,行为动作描述)为基本组成单位的领域知识图谱;
步骤2:语义信息抽取
依据领域知识图谱为每一类实体和描述定义语义标签,并将这些语义标签标注于训练集之中,利用训练集训练BLSTM-CRF模型实现语义标签的预测,BLSTM-CRF模型包括输入层、BLSTM层、CRF层和输出层,其中:
在输入层中,句子被表示成向量列表,向量列表中的每一个向量即为句子中每个词对应的词向量;
BLSTM层为双向LSTM神经网络,由前向LSTM和后向LSTM两部分组成,BLSTM层的输出是一个概率矩阵,概率矩阵中的每一个值表示句子中对应的词被标注为对应语义标签的概率;
CRF层为无向图模型;
对于句子,输出层输出的是句子中每个词所对应的语义标签的序号;
步骤3:主题陈述句生成
基于Bi-LSTM训练主题句式的分类模型,在主题陈述的句式层面上对已预测过语义标签的文本进行分类,进一步确定每条数据在所属的主题句式,根据领域知识图谱内容,语义信息抽取结果和分类结果,最终确定文本中须提取的词语序列以及词语序列的排列句式,生成完整的文本主题句。
优选地,所述步骤1中,对预处理后的城市管理案事件信息数据集应用LDA主题聚类算法包括以下步骤:
步骤101、在城市管理案事件信息数据集上进行LDA操作,生成n个主题词条,2≤n≤10,每个主题词条中包含10个主题词,并且按照TF-IDF权重排序降序排列;
步骤102、根据步骤101中得到的主题词条,在城市管理案事件信息数据集中筛选出包含上述主题词条组合的事件;
步骤103、在每个主题词条所对应的事件信息中,再次进行LDA主题聚类操作,挖掘该大类下具体的事件内容类型;
步骤104、将步骤102筛选出的事件从当前城市管理案事件信息数据集中移除,重复步骤101以发现当前城市管理案事件信息数据集中隐藏的主题词条;
步骤105、在得到新的主题词条后,重复步骤102、103及104直到通过LDA主题聚类操作不再出现新的主题词条。
优选地,所述步骤1中,应用K-means算法包括以下步骤:将所有主题词条两两组合,计算共现度,如果两个主题词条之间的共现度高,则证明两个主题词条之间存在关联,结合之前词频统计和词性标注的结果,可确定其中的实例词和描述词,最终确定图谱基本组成单元之间的连接结构。
优选地,步骤2中,所述训练集的组成方法为:
人工标注N条数据,并将其中有语义标签的词汇筛选出来,组成标注词集ws,然后,对未标注过的训练数据集进行检索,并找出那些包含在标注词集ws中的词,为这些词自动标注上对应的语义标签,将自动标注获得的大量数据人工矫正后与手工标注的数据合并,组成最终的训练集。
本发明克服了现有文本主题提取方法的不足,通过创建领域知识图谱的方法获得数据集概念模型和内容叙述模式特性,并利用深度学习模型对文本数据进行标注和分类训练,进而生成出文本的主题句。该方法具有较强的应用适用性,对于限定领域数据集,具有较好的主题句生成效果,能在文本集上实现基于知识图谱的查询和统计。
附图说明
图1为本发明提供的方法流程示意图;
图2为本实施例提供的领域知识图谱结构图;
图3为本发明中语义信息抽取部分BLSTM-CRF模型示意图;
图4为本实施例提供的语义信息抽取部分应用不同深度神经网络模型训练所得的模型效果对比折线图;
图5为本实施例提供的主题句式分类部分应用不同深度神经网络模型训练所得的模型效果对比折线图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
提取出文本的主题陈述,不仅需要提取出文本中的关键词,还要将这些关键词以正确的句式组织成短句。例如,对于城市社区管理领域的句子:“幸福小区草坪上有白色垃圾。”生成的主题短句应是:“草坪有白色垃圾。”
为完成这一目标,本发明提供的一种面向领域的中文文本主题句生成方法将整个主题陈述生成过程分为3个步骤:(1)建立领域知识图谱(2)语义信息抽取(3)句式分类并生成主题。图1为此过程实现的流程图。
步骤1:创建领域知识图谱
城市管理案事件信息数据集中每一条数据以一个中文句子的形式描述案件具体信息,一条数据代表一个案件,数据集中共63890条案件信息描述,涉及城市社区管理案事件的各个范畴,包括公共设施安全,公共环境维护,公共事务咨询,城市安全检查等多个种类。
由于城市管理案事件描述数据的领域局限性强,且在概念分布上,对于某些热门类别,案件描述重复率和相似性高,在本实例中,应用统计分析和主题概率模型相结合的方式对数据中实体信息及关系属性信息的提取。
一般情况下,文本数据会根据其表达的内容不同,拥有不同的领域特性。对某一特定数据集而言,数据集中包含的实体,关系,属性或其他描述通常在同一领域范围内,具有较强的领域特性。为了准确计算数据集中文本的概念和主题句式分布,本发明以知识图谱原有概念为基础,应用统计,文本主题聚类,词汇聚类等方法,提出该领域知识描述的知识图谱结构。在创建过程中,依据迭代的文本主题聚类的结果,在原数据集中对文本进行分层,在不同层次的数据子集中,反复进行主题聚类,以发现文本中隐含的主题内容,实例及描述。
作为一种结构化的语义知识库,知识图谱以符号化形式描述物理世界中的概念及其相互关系。面向开放域的知识图谱一般以(实体,关系,实体)或(实体,属性,属性值)作为基本组成单元。城市管理案事件描述数据更注重描述实体与其相关的行为和状态,在本发明中,为了能够更好的对数据进行描述,针对数据集中知识叙述的领域特性,改变一般图谱中(实体,关系,实体)和(实体,属性,属性值)的三元组的形式,将提出适应性的图谱知识单元与关联结构,以便更好的描述领域知识,概括为(实体,行为描述)和(实体,状态描述)。通过对数据集中的实体,关系和属性实例进行抽象,提炼出对应的概念,组成领域知识图谱。
在完成数据预处理后,首先对数据集进行了词性标注、词频统计与权重排序的操作。应用LDA主题聚类算法,对数据集按层次进行迭代的主题聚类,逐层发现实体类别、描述以及层次所属关系,具体过程如下。
1)在城市管理案事件信息数据集上进行LDA操作,使其生成n(2≤n≤10)个主题词条,每个主题词条中包含10个主题词,并且按照TF-IDF权重排序降序排列。
2)根据步骤1)中得到的主题词条,在城市管理案事件信息数据集中筛选出包含上述主题词条组合的事件。
3)在每个主题词条所对应的事件信息中,再次进行LDA主题聚类操作,挖掘该大类下具体的事件内容类型。
4)将步骤2)筛选出的事件从当前数据集中移除,重复步骤1),以发现当前城市管理案事件信息数据集中隐藏的主题词条。
5)在得到新的主题词条后,重复步骤2)、3)、4)直到LDA操作的结果中不再出现新的主题词条。
通过上述层次主题聚类的方式,可以得到一系列包含实例以及其对应描述词的主题词条,并获得不同内容主题词条间的层次结构。
应用K-means对LDA得到的所有词汇进行聚类操作,根据聚类结果抽象出实体概念。
为发现概念之间的关系,将每个词条中两两组合,计算共现度,如果两个词之间的共现度高,则证明两词之间存在关联,结合之前词频统计和词性标注的结果,可确定其中的实例词和描述词。最终确定图谱基本组成单元之间的连接结构。
图2为城市社区管理领域知识图谱,该图谱中包括公共设施、普通物品、证件类、活动类、组织机构、公职人员等13个实体类别,和“占用”,“损坏”“检查”等十余种行为或状态描述类别。不同于一般(实体,关系,实体)和(实体,属性,属性值)的三元组形式,在本图谱中,知识表示形式一般以(实体,状态描述)和(实体,行为动作描述)为主。
步骤2:语义信息抽取。
根据知识图谱的组成单元,为不同类型的文本创建语义标签,并对训练数据集进行标注。在标注过程中,为了获得大量标注样本,在人工标注的基础上,应用了远程监督技术。获得标注数据后,基于BLSTM-CRF神经网络模型进行序列标注训练以便在未被标注的数据集上预测词语对应的语义标签,从而达到语义信息抽取的目的。在本实施例中,具体步骤如下:
为了在文本数据中抽取领域知识图谱所对应的实体或与实体相关的行为描述和状态描述,需要依据领域知识图谱为每一类实体和描述方式定义语义标签,并据此标注训练集。标签内容如表1所示:
表1语义标签及其含义
将此语义信息抽取过程视作序列标注过程,训练BLSTM-CRF模型实现标签的预测。该BLSTM-CRF模型结合Collobert在2011年和Huang在2015年提出的模型实现。
训练BLSTM-CRF模型需要大量标注数据,纯粹依靠手工标注过于耗时,本发明在标注过程中引入远程监督的方法,自动标注一部分数据。远程监督过程如下:
首先,人工标注5000条数据,并将其中有语义标签的词汇筛选出来,组成标注词集ws。然后,对未标注过的训练数据集进行检索,并找出那些包含在标注词集ws中的词,为它们自动标注上对应的标签。将自动标注获得的大量数据人工矫正后与手工标注的数据合并,组成最终的训练集。
训练模型前,需将训练集中的每一个句子s分成若干个词w1,w2,:::wn,并将这些词按照{w1/tag1,w2/tag2:::wn/tagn}的格式进行标注,其中wi代表句子中的每个词,tagi代表词wi对应的语义标签。一个实体或描述短语可能由多个词语组成,采用IOBE模式对文本进行标注。其中:
‘B-’:表示一个实体或描述词的开始;
‘I-’:表示实体或描述词的中间;
‘E-’:表示实体或描述词的结尾;
‘O’:表示当前词不属于其他任何一个标签。
模型标签由IOBE标签和表1中的语义标签共同构成,如“B-OCCUPY”表示当前词是类型为“OCCUPY”的短语的开始。
BLSTM-CRF模型由输入层、BLSTM、CRF和输出层几部分组成,如图3所示。
在输入层中,句子s将被表示成向量列表s=(w1,w2,w3:::wn)的形式,列表中的每一个向量即为句子s中每个词对应的词向量。
BLSTM即双向LSTM神经网络,由前向LSTM和后向LSTM两部分组成。LSTM的单元结构在RNN结构的基础上加入了长短时记忆模块。此模块包含输入门,输出门和遗忘门。通过双向传播形式,BLSTM网络可以很好地捕捉到句子的上下文特征,表达句子的语义特征。
BLSTM的输出是一个概率矩阵An*k,矩阵中的每一个值Aij表示句子s中的第i个词被标注为第j个语义标签的概率。
条件随机场模型(CRF)是一种无向图模型,结合了最大熵模型(MEMMs)和隐马尔科夫模型(HMM)的特性,在词性标注和命名实体识别等序列标注问题上取得了比较好的效果。它通过在全局范围内计算条件状态转移概率矩阵,找出最符合当前句子的标注序列。
对于句子s,模型的最终输出为其中每个词wi所对应的语义标签的序号。
步骤3:主题陈述句生成
基于Bi-LSTM训练主题句式的分类模型,在主题陈述的句式层面上对已预测过语义标签的文本进行分类,进一步确定每条数据在所属的主题句式,根据领域知识图谱内容,语义信息抽取结果和分类结果,最终确定文本中须提取的词语序列以及词语序列的排列句式,生成完整的文本主题句。在本实施例中,具体包括以下步骤:
建立BLSTM模型对数据集中的句子在主题句式结构层面上进行分类,以确定需要从句子中抽取具有哪些语义标签的短语,并以何种形式组织成句。主题句式结构如表2所示:
表2主题句式结构
对于给定的句子s,将其表示为s={w1/tag1,w2/tag2:::wn/tagn}的形式,其中wi代表s中的词,tagi代表wi的语义标签,对于每个句子{s|{w1/tag1,w2/tag2:::wn/tagn}},都有一个ti与其对应,表示句子所属的主题句式结构。
在BLSTM模型的输入层中,句子s将被表示成向量列表s=(w1,w2,w3:::wn)的形式,列表中的每一个向量由两部分组成,一部分是词向量,另一部分是该词所对应的语义标签的向量表示。
每个句子s对应的主题句式结构序号ti即为模型的输出。
例如句子“幸福/B-ORG小区/E-ORG草坪/B-PUBLIC上/E-PUBLIC有/B-OCCUPY白色/B-OBJECTS垃圾/E-OBJECTS。”,属于主题句式结构1:“OBJECTS/AD_CER OCCUPYPUBLIC”,该文本的主题句为:“草坪上有白色垃圾。”。
以上所述,仅为本发明的较佳实施例,并非对本发明任何形式上和实质上的限制,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还将可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员,在不脱离本发明的精神和范围的情况下,当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变,均仍属于本发明的技术方案的范围内。
验证实验:为评估本发明方法的有效性,分别从模型结构,参数调校和生成主题准确率3个方面对模型进行验证。
模型结构:使用BLSTM模型,LSTM-CRF模型与语义信息抽取部分中的BLSTM-CRF模型作对比,使用LSTM模型与主题句式结构分类部分的BLSTM模型做对比。得到的结果如表3所示:
表3不同模型的F1信对比
相较于BLSTM-CRF模型,LSTM-CRF模型除去了向后传播的LSTM部分,而BLSTM模型直接在概率矩阵后连接SoftMax层得到最终的序列标注结果。与LSTM-CRF和BLSTM相比,BLSTM-CRF模型的Fl值为0.913275,具有最好的效果。
而在主题句式结构分类模型中,BLSTM相较于LSTM则具有更好的表现效果,其F1值为0.916465。
参数调校:在实验中,对模型中的几个重要参数进行调节,以使模型达到最好的表现效果。
在语义信息标注模型中,使用Adam优化器并依据控制变量法分别对模型的Keepprob,学习速率(Learning rate)和隐藏层节点数(Hidden nodes)进行调节,得到的数据如表4所示:
表4不同参数值与对应的模型F1值
根据实验数据,最终将语义信息抽取模型中的Keep prob值,Learning rate值和Hidden nodes值设为0.6、0.003、320。
在主题句式结构分类模型中应用同样的方法调节参数,最终将模型的Keep prob值,Learning rate值和Hidden nodes值设为0.7、0.002和128。
将不同的参数组合应用到不同的模型结构中,得到的结果统计如图4和图5所示,其中,横轴的参数分别表示模型的Keep prob、Learning rate和Hidden nodes。
生成的主题句准确率:应用本发明在测试集上自动生成主题句,并在测试集中自动筛选出一部分数据进行人工统计,得到表5中不同事件类型的主题陈述准确率和总体主题陈述准确率。
表5不同类型数据生成主题准确率
由表中统计数据可以看出,本发明在事件类型“物品堆放”和“物品损坏”中,主题生成准确率最好,可达85%。在事件类型为“其他”的数据中表现略差。但总体的主题生成准确率仍可达70.5%。由此可见,本发明在主题句生成方面可以取得比较好的效果。

Claims (4)

1.一种面向领域的中文文本主题句生成方法,其特征在于,包括以下步骤:
步骤1:创建领域知识图谱
城市管理案事件数据集中每一条数据以一个中文句子的形式描述案件具体信息,对城市管理案事件信息数据集进行词性标注、词频统计与权重排序的处理,对处理后的城市管理案事件信息数据集应用LDA主题聚类算法,按层次进行迭代的主题聚类,逐层发现实体类别、描述以及层次所属关系得到一系列包含实例以及其对应描述词的主题词条,并获得不同内容主题词条间的层次结构,随后应用K-means算法对通过LDA主题聚类算法得到的所有词汇进行聚类操作,根据聚类结果抽象出实体概念,组成以(实体,状态描述)和(实体,行为动作描述)为基本组成单位的领域知识图谱;
步骤2:语义信息抽取
依据领域知识图谱为每一类实体和描述定义语义标签,并将这些语义标签标注于训练集之中,利用训练集训练BLSTM-CRF模型实现语义标签的预测,BLSTM-CRF模型包括输入层、BLSTM层、CRF层和输出层,其中:
在输入层中,句子被表示成向量列表,向量列表中的每一个向量即为句子中每个词对应的词向量;
BLSTM层为双向LSTM神经网络,由前向LSTM和后向LSTM两部分组成,BLSTM层的输出是一个概率矩阵,概率矩阵中的每一个值表示句子中对应的词被标注为对应语义标签的概率;
CRF层为无向图模型;
对于句子,输出层输出的是句子中每个词所对应的语义标签的序号;
步骤3:主题陈述句生成
基于Bi-LSTM训练主题句式的分类模型,在主题陈述的句式层面上对已预测过语义标签的文本进行分类,进一步确定每条数据在所属的主题句式,根据领域知识图谱内容,语义信息抽取结果和分类结果,最终确定文本中须提取的词语序列以及词语序列的排列句式,生成完整的文本主题句。
2.如权利要求1所述的一种面向领域的中文文本主题句生成方法,其特征在于,所述步骤1中,对预处理后的城市管理案事件信息数据集应用LDA主题聚类算法包括以下步骤:
步骤101、在城市管理案事件信息数据集上进行LDA操作,生成n个主题词条,2≤n≤10,每个主题词条中包含10个主题词,并且按照TF-IDF权重排序降序排列;
步骤102、根据步骤101中得到的主题词条,在城市管理案事件信息数据集中筛选出包含上述主题词条组合的事件;
步骤103、在每个主题词条所对应的事件信息中,再次进行LDA主题聚类操作,挖掘该大类下具体的事件内容类型;
步骤104、将步骤102筛选出的事件从当前城市管理案事件信息数据集中移除,重复步骤101以发现当前城市管理案事件信息数据集中隐藏的主题词条;
步骤105、在得到新的主题词条后,重复步骤102、103及104直到通过LDA主题聚类操作不再出现新的主题词条。
3.如权利要求1所述的一种面向领域的中文文本主题句生成方法,其特征在于,所述步骤1中,应用K-means算法包括以下步骤:将所有主题词条两两组合,计算共现度,如果两个主题词条之间的共现度高,则证明两个主题词条之间存在关联,结合之前词频统计和词性标注的结果,可确定其中的实例词和描述词,最终确定图谱基本组成单元之间的连接结构。
4.如权利要求1所述的一种面向领域的中文文本主题句生成方法,其特征在于,步骤2中,所述训练集的组成方法为:
人工标注N条数据,并将其中有语义标签的词汇筛选出来,组成标注词集ws,然后,对未标注过的训练数据集进行检索,并找出那些包含在标注词集ws中的词,为这些词自动标注上对应的语义标签,将自动标注获得的大量数据人工矫正后与手工标注的数据合并,组成最终的训练集。
CN201810696452.6A 2018-06-28 2018-06-28 面向领域的中文文本主题句生成方法 Active CN108897857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810696452.6A CN108897857B (zh) 2018-06-28 2018-06-28 面向领域的中文文本主题句生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810696452.6A CN108897857B (zh) 2018-06-28 2018-06-28 面向领域的中文文本主题句生成方法

Publications (2)

Publication Number Publication Date
CN108897857A true CN108897857A (zh) 2018-11-27
CN108897857B CN108897857B (zh) 2021-08-27

Family

ID=64347150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810696452.6A Active CN108897857B (zh) 2018-06-28 2018-06-28 面向领域的中文文本主题句生成方法

Country Status (1)

Country Link
CN (1) CN108897857B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543089A (zh) * 2018-11-30 2019-03-29 南方电网科学研究院有限责任公司 一种网络安全情报数据的分类方法、***及相关装置
CN109684394A (zh) * 2018-12-13 2019-04-26 北京百度网讯科技有限公司 文本生成方法、装置、设备和存储介质
CN109684483A (zh) * 2018-12-11 2019-04-26 平安科技(深圳)有限公司 知识图谱的构建方法、装置、计算机设备及存储介质
CN109697679A (zh) * 2018-12-27 2019-04-30 厦门智融合科技有限公司 知识产权服务导引方法及***
CN109800419A (zh) * 2018-12-18 2019-05-24 武汉西山艺创文化有限公司 一种游戏对话台词生成方法和***
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和***
CN110134792A (zh) * 2019-05-22 2019-08-16 北京金山数字娱乐科技有限公司 文本识别方法、装置、电子设备以及存储介质
CN110245234A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种基于本体和语义相似度的多源数据样本关联方法
CN110705255A (zh) * 2019-10-12 2020-01-17 京东数字科技控股有限公司 检测语句之间的关联关系的方法和装置
CN110852068A (zh) * 2019-10-15 2020-02-28 武汉工程大学 一种基于BiLSTM-CRF的体育新闻主题词提取方法
CN110888991A (zh) * 2019-11-28 2020-03-17 哈尔滨工程大学 一种弱标注环境下的分段式语义标注方法
CN111050266A (zh) * 2019-12-20 2020-04-21 朱凤邹 一种基于耳机检测动作进行功能控制的方法及***
CN111191039A (zh) * 2019-09-30 2020-05-22 腾讯科技(深圳)有限公司 知识图谱创建方法、装置和计算机可读存储介质
CN111209389A (zh) * 2019-12-31 2020-05-29 天津外国语大学 一种电影故事生成方法
CN111291205A (zh) * 2020-01-22 2020-06-16 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备和介质
CN111597328A (zh) * 2020-05-27 2020-08-28 青岛大学 一种新事件主题提取方法
CN111814482A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本关键数据的提取方法、***和计算机设备
CN111897914A (zh) * 2020-07-20 2020-11-06 杭州叙简科技股份有限公司 用于综合管廊领域的实体信息抽取及知识图谱构建方法
CN111897921A (zh) * 2020-08-04 2020-11-06 广西财经学院 基于词向量学习和模式挖掘融合扩展的文本检索方法
CN112487306A (zh) * 2020-12-07 2021-03-12 华东师范大学 基于知识图谱的自动化事件标记与分类方法
CN112541359A (zh) * 2020-11-27 2021-03-23 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN112597285A (zh) * 2020-12-10 2021-04-02 太极计算机股份有限公司 一种基于知识图谱的人机交互方法及***
CN112836482A (zh) * 2021-02-09 2021-05-25 浙江工商大学 一种基于模板的序列生成模型生成问题的方法及装置
CN113127610A (zh) * 2019-12-31 2021-07-16 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN113407716A (zh) * 2021-05-14 2021-09-17 桂林电子科技大学 一种基于众包的人类行为文本数据集的构造以及处理方法
CN114722158A (zh) * 2022-06-01 2022-07-08 中科航迈数控软件(深圳)有限公司 一种基于主题词聚类的数控机床制造工艺匹配方法及***
CN114792246A (zh) * 2022-03-02 2022-07-26 西安邮电大学 一种基于主题集成聚类的产品典型性特质挖掘方法及***
WO2023093372A1 (zh) * 2021-11-24 2023-06-01 北京有竹居网络技术有限公司 生成文本的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
CN102096633A (zh) * 2010-12-10 2011-06-15 东华大学 一种面向应用领域的软件质量基准测评方法
US20150154193A1 (en) * 2013-12-02 2015-06-04 Qbase, LLC System and method for extracting facts from unstructured text
CN106919674A (zh) * 2017-02-20 2017-07-04 广东省中医院 一种基于Wiki语义网络构建的知识问答***及智能检索方法
CN107463607A (zh) * 2017-06-23 2017-12-12 昆明理工大学 结合词向量和自举学习的领域实体上下位关系获取与组织方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
CN102096633A (zh) * 2010-12-10 2011-06-15 东华大学 一种面向应用领域的软件质量基准测评方法
US20150154193A1 (en) * 2013-12-02 2015-06-04 Qbase, LLC System and method for extracting facts from unstructured text
CN106919674A (zh) * 2017-02-20 2017-07-04 广东省中医院 一种基于Wiki语义网络构建的知识问答***及智能检索方法
CN107463607A (zh) * 2017-06-23 2017-12-12 昆明理工大学 结合词向量和自举学习的领域实体上下位关系获取与组织方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
盛美伦: "开放领域下复杂文本的关系抽取", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543089A (zh) * 2018-11-30 2019-03-29 南方电网科学研究院有限责任公司 一种网络安全情报数据的分类方法、***及相关装置
CN109684483A (zh) * 2018-12-11 2019-04-26 平安科技(深圳)有限公司 知识图谱的构建方法、装置、计算机设备及存储介质
CN109684394A (zh) * 2018-12-13 2019-04-26 北京百度网讯科技有限公司 文本生成方法、装置、设备和存储介质
CN109684394B (zh) * 2018-12-13 2021-05-18 北京百度网讯科技有限公司 文本生成方法、装置、设备和存储介质
CN109800419A (zh) * 2018-12-18 2019-05-24 武汉西山艺创文化有限公司 一种游戏对话台词生成方法和***
CN109697679A (zh) * 2018-12-27 2019-04-30 厦门智融合科技有限公司 知识产权服务导引方法及***
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和***
CN109902145B (zh) * 2019-01-18 2021-04-20 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和***
CN110245234A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种基于本体和语义相似度的多源数据样本关联方法
CN110134792A (zh) * 2019-05-22 2019-08-16 北京金山数字娱乐科技有限公司 文本识别方法、装置、电子设备以及存储介质
CN110134792B (zh) * 2019-05-22 2022-03-08 北京金山数字娱乐科技有限公司 文本识别方法、装置、电子设备以及存储介质
CN111191039A (zh) * 2019-09-30 2020-05-22 腾讯科技(深圳)有限公司 知识图谱创建方法、装置和计算机可读存储介质
CN110705255A (zh) * 2019-10-12 2020-01-17 京东数字科技控股有限公司 检测语句之间的关联关系的方法和装置
CN110852068A (zh) * 2019-10-15 2020-02-28 武汉工程大学 一种基于BiLSTM-CRF的体育新闻主题词提取方法
CN110888991A (zh) * 2019-11-28 2020-03-17 哈尔滨工程大学 一种弱标注环境下的分段式语义标注方法
CN110888991B (zh) * 2019-11-28 2023-12-01 哈尔滨工程大学 一种弱标注环境下的分段式语义标注方法
CN111050266B (zh) * 2019-12-20 2021-07-30 朱凤邹 一种基于耳机检测动作进行功能控制的方法及***
CN111050266A (zh) * 2019-12-20 2020-04-21 朱凤邹 一种基于耳机检测动作进行功能控制的方法及***
CN111209389A (zh) * 2019-12-31 2020-05-29 天津外国语大学 一种电影故事生成方法
CN111209389B (zh) * 2019-12-31 2023-08-11 天津外国语大学 一种电影故事生成方法
CN113127610A (zh) * 2019-12-31 2021-07-16 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN113127610B (zh) * 2019-12-31 2024-04-19 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN111291205B (zh) * 2020-01-22 2023-06-13 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备和介质
CN111291205A (zh) * 2020-01-22 2020-06-16 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备和介质
CN111597328A (zh) * 2020-05-27 2020-08-28 青岛大学 一种新事件主题提取方法
CN111897914B (zh) * 2020-07-20 2023-09-19 杭州叙简科技股份有限公司 用于综合管廊领域的实体信息抽取及知识图谱构建方法
CN111897914A (zh) * 2020-07-20 2020-11-06 杭州叙简科技股份有限公司 用于综合管廊领域的实体信息抽取及知识图谱构建方法
CN111897921A (zh) * 2020-08-04 2020-11-06 广西财经学院 基于词向量学习和模式挖掘融合扩展的文本检索方法
CN111814482B (zh) * 2020-09-03 2020-12-11 平安国际智慧城市科技股份有限公司 文本关键数据的提取方法、***和计算机设备
CN111814482A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本关键数据的提取方法、***和计算机设备
CN112541359A (zh) * 2020-11-27 2021-03-23 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN112541359B (zh) * 2020-11-27 2024-02-02 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN112487306A (zh) * 2020-12-07 2021-03-12 华东师范大学 基于知识图谱的自动化事件标记与分类方法
CN112597285B (zh) * 2020-12-10 2021-08-10 太极计算机股份有限公司 一种基于知识图谱的人机交互方法及***
CN112597285A (zh) * 2020-12-10 2021-04-02 太极计算机股份有限公司 一种基于知识图谱的人机交互方法及***
CN112836482A (zh) * 2021-02-09 2021-05-25 浙江工商大学 一种基于模板的序列生成模型生成问题的方法及装置
CN112836482B (zh) * 2021-02-09 2024-02-23 浙江工商大学 一种基于模板的序列生成模型生成问题的方法及装置
CN113407716A (zh) * 2021-05-14 2021-09-17 桂林电子科技大学 一种基于众包的人类行为文本数据集的构造以及处理方法
WO2023093372A1 (zh) * 2021-11-24 2023-06-01 北京有竹居网络技术有限公司 生成文本的方法和装置
CN114792246A (zh) * 2022-03-02 2022-07-26 西安邮电大学 一种基于主题集成聚类的产品典型性特质挖掘方法及***
CN114722158A (zh) * 2022-06-01 2022-07-08 中科航迈数控软件(深圳)有限公司 一种基于主题词聚类的数控机床制造工艺匹配方法及***

Also Published As

Publication number Publication date
CN108897857B (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN108897857A (zh) 面向领域的中文文本主题句生成方法
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN110825881B (zh) 一种建立电力知识图谱的方法
Dong et al. Towards interpretable deep neural networks by leveraging adversarial examples
CN109271530A (zh) 一种疾病知识图谱构建方法和平台***、设备、存储介质
CN104268197B (zh) 一种行业评论数据细粒度情感分析方法
CN110502749A (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN110377686A (zh) 一种基于深度神经网络模型的地址信息特征抽取方法
CN108874878A (zh) 一种知识图谱的构建***及方法
CN108073569A (zh) 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN109271529A (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN110298032A (zh) 文本分类语料标注训练***
CN109934261A (zh) 一种知识驱动参数传播模型及其少样本学习方法
CN108875809A (zh) 联合attention机制与神经网络的生物医学实体关系分类方法
CN109255359A (zh) 一种基于复杂网络分析方法的视觉问答问题解决方法
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及***
CN106055560A (zh) 一种基于统计机器学习方法的分词字典数据采集方法
CN112463981A (zh) 一种基于深度学习的企业内部经营管理风险识别提取方法及***
CN113239208A (zh) 一种基于知识图谱的标注训练模型
CN116127084A (zh) 基于知识图谱的微电网调度策略智能检索***及方法
CN114741519A (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN113220878A (zh) 一种基于知识图谱的ocr识别结果分类方法
Yu et al. Policy text classification algorithm based on BERT
CN115292490A (zh) 一种用于政策解读语义的分析算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant