CN113918708B - 一种摘要抽取方法 - Google Patents

一种摘要抽取方法 Download PDF

Info

Publication number
CN113918708B
CN113918708B CN202111532196.5A CN202111532196A CN113918708B CN 113918708 B CN113918708 B CN 113918708B CN 202111532196 A CN202111532196 A CN 202111532196A CN 113918708 B CN113918708 B CN 113918708B
Authority
CN
China
Prior art keywords
words
level
word
semantic
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111532196.5A
Other languages
English (en)
Other versions
CN113918708A (zh
Inventor
胡为民
郑喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dib Enterprise Risk Management Technology Co ltd
Original Assignee
Shenzhen Dib Enterprise Risk Management Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dib Enterprise Risk Management Technology Co ltd filed Critical Shenzhen Dib Enterprise Risk Management Technology Co ltd
Priority to CN202111532196.5A priority Critical patent/CN113918708B/zh
Publication of CN113918708A publication Critical patent/CN113918708A/zh
Application granted granted Critical
Publication of CN113918708B publication Critical patent/CN113918708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,具体涉及一种摘要抽取方法,包括如下步骤:S1、预处理,将公告文本中的数值、时间类型数据进行泛化处理;S2、构建第一词表;S3、构建第一词表的词语共现矩阵;S4、词语共现矩阵降维,提取第一词表内所有词语的语义表征;S5、重复S2至S4,提取公告文本中所有词语的语义表征;S6、以语句为单位,将语义表征进行累加合并,形成语句上下文语义表征;S7、用户输入关键词组,提取关键词组语义表征;S8、判断关键词组语义表征与语句上下文语义表征的相似度,关键词组的相似度大于设定值,则将包括该关键词组的公告文本语句抽取为公共文本摘要。抽取摘要的内容与用户输入关键词的关联度高。

Description

一种摘要抽取方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种摘要抽取方法。
背景技术
目前,上市企业的数量日渐增多,上市公司公告,即临时或按照年度披露的上市公司财务、业务等相关经营情况,包含的信息量大;但公告文本缺少标准的撰写规范且篇幅较长,不利于阅读以及数据分析,数据分析及审计人员需要从公告文本中人工提取关键语句和其他信息,造成工作效率低。因此,需提供一种上市公司公告文本摘要抽取方法,压缩公告文本篇幅,去掉分析和审计人员不关注的“冗余”信息,提升分析和审计人员工作效率。
目前已有相关摘要抽取方法,但主要通过全文检索包含关键词或者包含与关键词语义相似的词语的语句,并进行抽取合成摘要。主要采用的技术为词向量相似度计算。然而,现有摘要抽取方法应用于上市公司公告本文时存在一些问题,主要体现在仅考虑关键词之间的语义关联,未考虑关键词与段落、篇章的语义关联,且部分关键词贯穿整个公告文本,导致摘要抽取内容不够精准。
发明内容
本发明针对现有的摘要抽取方法抽取的摘要内容不够精准的问题,提供一种抽取摘要的内容与用户输入关键词的关联度高的摘要抽取方法。
一种摘要抽取方法,包括如下步骤:
S1、预处理,将公告文本中的数值、时间类型数据进行泛化处理;
S2、构建第一词表;
S3、构建第一词表的词语共现矩阵;
S4、词语共现矩阵降维,提取第一词表内所有词语的语义表征;
S5、重复S2至S4,提取公告文本中所有词语的语义表征;
S6、以语句为单位,将语义表征进行累加合并,形成语句上下文语义表征;
S7、用户输入关键词组,提取关键词组语义表征;
S8、判断关键词组语义表征与语句上下文语义表征的相似度,关键词组的相似度大于设定值,则将包括该关键词组的公告文本语句抽取为公共文本摘要。
此方法中,通过提取词语的语义表征,判断语句上下文语义表征与关键词组语义表征的相似度,抽取相似度大于设定值的语句组成公告文本摘要,摘要内容与用户输入关键词关联度高;
进一步的,替换公告文本Text中的数值为汉字数值,替换公告文本Text中的时间为汉字时间;
剔除标点符号中的标号,以及点号中的顿号和冒号,利用保留的点号作为分隔符将公告文本分解为语句;采用jieba分词法对公告文本Text进行中文分词,剔除其中的停用词后,采用TFIDF对词语进行加权,并将词语按照权值从大到小进行排列;
进一步的,所述S2构建第一词表包括,获取权值排列前2000的词语构建第一词表Words
Figure 480129DEST_PATH_IMAGE001
,其中w i 表示第i个词语,w j 表示第j个词语,n为词语的数量
Figure DEST_PATH_IMAGE002
进一步的,所述S3包括,
对出现在同一语句中、同一段落中、同一篇章中的任意两词语w i w j 建立关联,构建词语共现矩阵
Figure 232185DEST_PATH_IMAGE003
Figure 523489DEST_PATH_IMAGE004
为语句级词语共现矩阵;
Figure 993784DEST_PATH_IMAGE005
为段落级词语共现矩阵;
Figure 864789DEST_PATH_IMAGE006
为篇章级共现矩阵;矩阵行索引i、列索引j分别表示两共现词语w i w j 的索引;矩阵中的元素表示行、列索引指向的两词语的联合概率
Figure 2509DEST_PATH_IMAGE007
进一步的,所述S4包括,采用主成分分析法分别对语句级词语共现矩阵、段落级词语共现矩阵、篇章级词语共现矩阵进行降维,降维后的维度为2000*100,其中2000表示词语的数量,100表示每个词语语义向量的维度;降维后词语共现矩阵的三级向量即为三级语义表征;所述三级语义表征即词语的语句级、段落级、篇章级语义表征;提取第一词表内所有词语的三级语义表征。
进一步的,降维计算公式如下:
Figure 464714DEST_PATH_IMAGE008
其中
Figure 100002_DEST_PATH_IMAGE009
表示第k个行向量标准差;
Figure 357059DEST_PATH_IMAGE010
表示
Figure 562913DEST_PATH_IMAGE011
中的第k个行向量;
Figure 555139DEST_PATH_IMAGE012
表示协方差矩阵;
Figure 453825DEST_PATH_IMAGE013
表示协方差矩阵的前100列特征列向量;
Figure 633134DEST_PATH_IMAGE014
表示词语共现矩阵中第k个词语的三级语义表征。
进一步的,所述S5,每次重复,S2分别构建词表,直至包括公告文本中的所有词语,所述词表依次为权值排列前2000的词语;
进一步的,所述语句上下文三级语义表征为
Figure 377099DEST_PATH_IMAGE015
式中t为语句中第t个词语。
所述S7包括用户输入关键词组,提取关键词组所有关键词的三级语义表征;将所有关键词的三级语义表征进行累加合并,形成关键词组三级语义表征;所述关键词组三级语义表征为
Figure 223832DEST_PATH_IMAGE016
式中t为关键词组中第t个词语。
进一步的,构建基于孪生神经网络的语义相似度计算模型,基于孪生神经网络的语义相似度计算模型包括两组同构的反馈式神经网络,基于孪生神经网络的语义相似度计算模型的输入为语句上下文三级语义表征和用户关键词组的三级语义表征,输出为相似度;
输入语句上下文三级语义表征和用户关键词组三级语义表征,当相似度大于设定值时,将输入的语句上下文三级语义表征对应的语句抽取出来;
重复上述步骤,依次输入公告文本中所有语句上下文三级语义表征,直至将公告文本中语句上下文三级语义表征与用户关键词组三级语义表征相似度大于设定值的所有语句抽取出来,组成公告文本摘要。
有益效果:通过提取词语的语义表征,判断语句上下文语义表征与关键词组语义表征的相似度,抽取相似度大于设定值的语句组成公告文本摘要,摘要内容与用户输入关键词关联度高;可有效去除用户不关注的“冗余”信息,提高用户工作效率。
附图说明
下面结合附图和具体实施例对本发明作出进一步详细说明。
图1为本实施例的流程图。
图2为本实施孪生神经网络的架构图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例
本实施例以上市公司公告文本为例,提供一种摘要抽取方法,具体包括如下步骤。
S1、预处理,将公告文本中的数值、时间类型数据进行泛化处理;包括,
替换公告文本Text中的数值为汉字【数值】,替换公告文本Text中的时间为汉字【时间】;
剔除标点符号中的标号,以及点号中的顿号和冒号,利用保留的点号作为分隔符将公告文本分解为语句;采用jieba分词法对公告文本Text进行中文分词,剔除其中的停用词后,获得公告文本Text的词语;
采用TFIDF对词语进行加权,并将词语按照权值从大到小进行排列。
S2、构建第一词表,包括,
获取权值排列前2000的词语构建第一词表Words
Figure DEST_PATH_IMAGE017
, 其中w i 表示第i个词语,w j 表示第j个词语,n为词语的数量
Figure 496682DEST_PATH_IMAGE018
S3、构建第一词表的词语共现矩阵;
对出现在同一语句中、同一段落中、同一篇章中的任意两词语w i w j 建立关联,构建词语共现矩阵
Figure DEST_PATH_IMAGE019
Figure 960024DEST_PATH_IMAGE020
为语句级词语共现矩阵;
Figure DEST_PATH_IMAGE021
为段落级词语共现矩阵;
Figure 976522DEST_PATH_IMAGE022
为篇章级共现矩阵;
矩阵行索引i、列索引j分别表示两共现词语w i w j 的索引;矩阵中的元素表示行、列索引指向的两词语的联合概率
Figure 943341DEST_PATH_IMAGE023
S4、词语共现矩阵降维,提取第一词表内所有词语的语义表征;包括,
采用主成分分析法对语句级词语共现矩阵、段落级词语共现矩阵、篇章级词语共现矩阵进行降维,降维后的维度为2000*100,其中2000表示词语的数量,100表示每个词语语义向量的维度;降维后词语共现矩阵的三级向量即为三级语义表征;所述三级语义表征即词语的语句级、段落级、篇章级语义表征;所述降维计算公式如下:
Figure 918250DEST_PATH_IMAGE024
其中
Figure 337730DEST_PATH_IMAGE009
表示第k个行向量标准差;
Figure 680288DEST_PATH_IMAGE010
表示
Figure 501613DEST_PATH_IMAGE011
中的第k个行向量;
Figure 709741DEST_PATH_IMAGE025
表示协方差矩阵;
Figure 616517DEST_PATH_IMAGE026
表示协方差矩阵的前100列特征列向量;
Figure 505975DEST_PATH_IMAGE027
表示词语共现矩阵中第k个词语的三级语义表征。
S2—S4形成三级语义编码方法,利用这种三级语义编码方法提取公告文本中所有词语的三级语义表征。以语句为单位进行拆分,将语句上下文词语的三级语义表征进行累加合并,形成语句上下文的三级语义表征。
S5、重复S2至S4,提取公告文本中所有词语的语义表征;每次重复,S2分别构建词表,直至包括公告文本中的所有词语,所述词表依次为权值排列前2000的词语;
S6、以语句为单位,将语义表征进行累加合并,形成语句上下文三级语义表征;
语句上下文三级语义表征为:
Figure 447387DEST_PATH_IMAGE028
式中t为语句中第t个词语。
S7、用户输入关键词组,提取关键词组语义表征,包括
用户输入关键词组,提取关键词组所有关键词的三级语义表征;将所有关键词的三级语义表征进行累加合并,形成关键词组三级语义表征;
关键词组三级语义表征为:
Figure DEST_PATH_IMAGE029
,式中t为关键词组中第t个词语。
S8、判断语句上下文语义表征与关键词组语义表征的相似度,抽取相似度大于设定值的语句组成公告文本摘要;包括,
构建基于孪生神经网络的语义相似度计算模型为:
Figure 232940DEST_PATH_IMAGE030
基于孪生神经网络的语义相似度计算模型包括两组同构的反馈式神经网络,其输入为语句上下文三级语义表征和用户关键词组的三级语义表征,输出为相似度;基于孪生神经网络的语义相似度计算模型具体包括两个独立并列的输入层,两个独立并列的隐含层和一个输出层;所述输入层维度为1*100;所述隐含层维度为1*10;所述两个独立并列的输入层分别采用Sigmoid()函数连接两个独立并列的隐含层,两个独立并列的隐含层采用Sigmoid()函数共同连接输出层;所述输出层为交叉熵损失函数;输出层输出为相似度;
采用语句上下文三级语义表征和用户关键词组的三级语义表征作为基于孪生神经网络的语义相似度计算模型的输入,训练基于孪生神经网络的语义相似度计算模型,并通过基于孪生神经网络的语义相似度计算模型计算语句上下文三级语义表征和用户关键词组的三级语义表征的相似度Similarity(Text,key-words)
具体的,所述语句上下文三级语义表征采用Sigmoid()函数连接两个独立并列的输入层中的其中一个输入层,所述关键词组三级语义表征采用Sigmoid()函数连接另一个输入层;
判断关键词组语义表征与语句上下文语义表征的相似度,设定值为0.7,当相似度
Figure 627012DEST_PATH_IMAGE031
时,则将包括该关键词组的公告文本语句抽取为公共文本摘要。
S6-S8形成上下文语义相似性计算的摘要抽取方法,抽取公告文本中包含关键信息的语句形成摘要。
此实施例提供的摘要抽取方法,通过三级语义编码方法提取词语的语句级、段落级、篇章级三级语义表征;通过上下文语义相似性计算的摘要抽取方法判断语句上下文语义表征与关键词组语义表征的相似度,抽取相似度大于设定值的语句组成公告文本摘要。
此实施提供的摘要抽取方法考虑了用户输入的关键词与语句、段落、篇章的关联,精准的抽取与用户输入关键词关联度高的语句组成摘要文本;可有效去除用户不关注的“冗余”信息,提高用户工作效率。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (7)

1.一种摘要抽取方法,其特征在于,包括如下步骤:
S1、预处理,将公告文本中的数值、时间类型数据进行泛化处理;
S2、构建第一词表;
S3、构建第一词表的词语共现矩阵;
S4、词语共现矩阵降维,提取第一词表内所有词语的语义表征;
S5、重复S2至S4,提取公告文本中所有词语的语义表征;
S6、以语句为单位,将语义表征进行累加合并,形成语句上下文语义表征;
S7、用户输入关键词组,提取关键词组语义表征;
S8、判断关键词组语义表征与语句上下文语义表征的相似度,关键词组的相似度大于设定值,则将包括该关键词组的公告文本语句抽取为公共文本摘要;
所述S1包括,
替换公告文本Text中的数值为汉字数值,替换公告文本Text中的时间为汉字时间;
剔除标点符号中的标号,以及点号中的顿号和冒号,利用保留的点号作为分隔符将公告文本分解为语句;采用jieba分词法对公告文本Text进行中文分词,剔除其中的停用词后,采用TFIDF对词语进行加权,并将词语按照权值从大到小进行排列;
所述S2构建第一词表包括,获取权值排列前2000的词语构建第一词表Words
Figure DEST_PATH_IMAGE001
其中w i 表示第i个词语,w j 表示第j个词语,n为词语的数量
Figure 997326DEST_PATH_IMAGE002
所述S3包括,
对出现在同一语句中、同一段落中、同一篇章中的任意两词语w i w j 建立关联,构建词语共现矩阵
Figure DEST_PATH_IMAGE003
Figure 976783DEST_PATH_IMAGE004
为语句级词语共现矩阵;
Figure DEST_PATH_IMAGE005
为段落级词语共现矩阵;
Figure 366308DEST_PATH_IMAGE006
为篇章级共现矩阵;
矩阵行索引i、列索引j分别表示两共现词语w i w j 的索引;矩阵中的元素表示行、列索引指向的两词语的联合概率
Figure DEST_PATH_IMAGE007
2.根据权利要求1所述的摘要抽取方法,其特征在于,所述S4包括,采用主成分分析法分别对语句级词语共现矩阵、段落级词语共现矩阵、篇章级词语共现矩阵进行降维,降维后的维度为2000*100,其中2000表示词语的数量,100表示每个词语语义向量的维度;降维后词语共现矩阵的三级向量即为三级语义表征;所述三级语义表征即词语的语句级、段落级、篇章级语义表征;提取第一词表内所有词语的三级语义表征。
3.根据权利要求2所述的摘要抽取方法,其特征在于,降维计算公式如下:
Figure 840145DEST_PATH_IMAGE008
其中
Figure DEST_PATH_IMAGE009
表示第k个行向量标准差;
Figure 716834DEST_PATH_IMAGE010
表示
Figure DEST_PATH_IMAGE011
中的第k个行向量;
Figure 352346DEST_PATH_IMAGE012
表示协方差矩阵;
Figure DEST_PATH_IMAGE013
表示协方差矩阵的前100列特征列向量;
Figure 947276DEST_PATH_IMAGE014
表示词语共现矩阵中第k个词语的三级语义表征。
4.根据权利要求3所述的摘要抽取方法,其特征在于,所述S5,每次重复,S2分别构建词表,直至包括公告文本中的所有词语,所述词表依次为权值排列前2000的词语。
5.根据权利要求4所述的摘要抽取方法,其特征在于,以语句为单位,将语义表征进行累加合并,形成语句上下文三级语义表征;所述语句上下文三级语义表征为
Figure DEST_PATH_IMAGE015
式中t为语句中第t个词语。
6.根据权利要求5所述的摘要抽取方法,其特征在于,所述S7包括用户输入关键词组,提取关键词组所有关键词的三级语义表征;将所有关键词的三级语义表征进行累加合并,形成关键词组三级语义表征;所述关键词组三级语义表征为
Figure 349438DEST_PATH_IMAGE016
式中t为关键词组中第t个词语。
7.根据权利要求6所述的摘要抽取方法,其特征在于,所述S8包括,
构建基于孪生神经网络的语义相似度计算模型,基于孪生神经网络的语义相似度计算模型包括两组同构的反馈式神经网络,基于孪生神经网络的语义相似度计算模型的输入为语句上下文三级语义表征和用户关键词组的三级语义表征,输出为相似度;
输入语句上下文三级语义表征和用户关键词组三级语义表征,当相似度大于设定值时,将输入的语句上下文三级语义表征对应的语句抽取出来;
重复上述步骤,依次输入公告文本中所有语句上下文三级语义表征,直至将公告文本中语句上下文三级语义表征与用户关键词组三级语义表征相似度大于设定值的所有语句抽取出来,组成公告文本摘要。
CN202111532196.5A 2021-12-15 2021-12-15 一种摘要抽取方法 Active CN113918708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111532196.5A CN113918708B (zh) 2021-12-15 2021-12-15 一种摘要抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111532196.5A CN113918708B (zh) 2021-12-15 2021-12-15 一种摘要抽取方法

Publications (2)

Publication Number Publication Date
CN113918708A CN113918708A (zh) 2022-01-11
CN113918708B true CN113918708B (zh) 2022-03-22

Family

ID=79248937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111532196.5A Active CN113918708B (zh) 2021-12-15 2021-12-15 一种摘要抽取方法

Country Status (1)

Country Link
CN (1) CN113918708B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12008332B1 (en) 2023-08-18 2024-06-11 Anzer, Inc. Systems for controllable summarization of content

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646114A (zh) * 2012-02-17 2012-08-22 清华大学 一种基于突破点的新闻话题时间线摘要生成方法
CN104679730A (zh) * 2015-02-13 2015-06-03 刘秀磊 网页摘要抽取方法及其装置
CN110069622A (zh) * 2017-08-01 2019-07-30 武汉楚鼎信息技术有限公司 一种个股公告摘要智能提取方法
CN110188349A (zh) * 2019-05-21 2019-08-30 清华大学深圳研究生院 一种基于抽取式多文档摘要方法的自动化写作方法
CN110851598B (zh) * 2019-10-30 2023-04-07 深圳价值在线信息科技股份有限公司 文本分类方法、装置、终端设备及存储介质
CN111259136B (zh) * 2020-01-09 2024-03-22 信阳师范学院 一种基于用户偏好自动生成主题评价摘要的方法
CN111460131A (zh) * 2020-02-18 2020-07-28 平安科技(深圳)有限公司 公文摘要提取方法、装置、设备及计算机可读存储介质
US11586829B2 (en) * 2020-05-01 2023-02-21 International Business Machines Corporation Natural language text generation from a set of keywords using machine learning and templates

Also Published As

Publication number Publication date
CN113918708A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
Daud et al. Urdu language processing: a survey
CN113704451B (zh) 一种电力用户诉求筛选方法、***、电子设备和存储介质
JP2008033931A (ja) テキストを追補する方法、クエリーに応答してテキストを取得する方法、およびシステム
CN108319583B (zh) 从中文语料库提取知识的方法与***
Murthy et al. Language identification from small text samples
Golpar-Rabooki et al. Feature extraction in opinion mining through Persian reviews
CN113918708B (zh) 一种摘要抽取方法
Singkul et al. Parsing thai social data: A new challenge for thai nlp
Melero et al. Holaaa!! writin like u talk is kewl but kinda hard 4 NLP
CN111597810A (zh) 一种半监督解耦的命名实体识别方法
CN115952794A (zh) 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法
JP6168057B2 (ja) 不具合発生原因抽出装置、不具合発生原因抽出方法および不具合発生原因抽出プログラム
CN113836941B (zh) 一种合同导航方法及装置
Liu et al. Keyword extraction using PageRank on synonym networks
Akhtar et al. A machine learning approach for Urdu text sentiment analysis
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
CN115908027A (zh) 一种金融长文本复核***的金融数据一致性审核模块
CN115619443A (zh) 一种基于上市公司年度报告进行情感分析的公司经营预测方法及***
Cui Converting taxonomic descriptions to new digital formats
Das et al. An improvement of Bengali factoid question answering system using unsupervised statistical methods
Hamza et al. Text mining: A survey of Arabic root extraction algorithms
Worke INFORMATION EXTRACTION MODEL FROM GE’EZ TEXTS
Modrzejewski Improvement of the Translation of Named Entities in Neural Machine Translation
Feijó Summarizing legal rulings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20220111

Assignee: Shenzhen Mingji Agricultural Development Co.,Ltd.

Assignor: SHENZHEN DIB ENTERPRISE RISK MANAGEMENT TECHNOLOGY CO.,LTD.

Contract record no.: X2023980049635

Denomination of invention: A Summary Extraction Method

Granted publication date: 20220322

License type: Common License

Record date: 20231204

EE01 Entry into force of recordation of patent licensing contract