CN110717044A - 一种研报正文的文本分类方法 - Google Patents
一种研报正文的文本分类方法 Download PDFInfo
- Publication number
- CN110717044A CN110717044A CN201910949643.3A CN201910949643A CN110717044A CN 110717044 A CN110717044 A CN 110717044A CN 201910949643 A CN201910949643 A CN 201910949643A CN 110717044 A CN110717044 A CN 110717044A
- Authority
- CN
- China
- Prior art keywords
- research
- text
- report
- paragraphs
- classifying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种研报正文的文本分类方法,过程为:首先收集一定数量的研报,对收集的研报段落进行标注形成样本;然后将标注好的样本交给机器学习框架进行训练、得到一个综合的训练模型;最后将需要识别的原始研报文件经过内容提取、文本降噪处理后,由综合训练模型完成对研报内容的提取分类。本方法有效提高对研报段落进行提取与分类的准确度,提高对研报的文本分析能力。
Description
技术领域
本专利申请属于机器学习技术领域,更具体地说,是涉及一种研报正文的文本分类方法。
背景技术
目前现有成熟的自然语言处理技术能够识别出研报中的实体,可以将研报进行分类,比如分成个股研报、行业研报、期货研报等等,但是如果需要对研报中的每个段落进行分类的话,比如个股研报包括核心观点、客观论述、盈利预测、风险提示,那么现有的文本分类技术显然是满足不了需求的。
同时目前的深度学习模型主要包括TextCnn、LSTM、FastText等模型,这些模型都是基于神经网络的深度学习模型,擅长单文本分类,但是对段落提取与分类准确度非常的低。
发明内容
本发明需要解决的技术问题是提供一种研报正文的文本分类方法,有效提高对研报段落进行提取与分类的准确度。
为了解决上述问题,本发明所采用的技术方案是:
一种研报正文的文本分类方法,过程为:
a、收集一定数量的研报,对收集的研报段落进行标注形成样本;
b、将标注好的样本交给机器学习框架进行训练、从而得到综合训练模型;
c、最后将需要识别的原始研报文件经过内容提取、文本降噪处理后,由综合训练模型完成对研报内容的提取分类。
本发明技术方案的进一步改进在于:a中,对收集的研报段落通过手工进行标注。
本发明技术方案的进一步改进在于:b中,综合训练模型包括若干个神经网络训练模型,神经网络训练模型包括FastText、LSTM、TextCnn的一种或多种。
本发明技术方案的进一步改进在于:c中,通过文本解析工具将需要识别的原始研报文件的内容提取出来,文本解析工具为pdf解析工具。
本发明技术方案的进一步改进在于:降噪处理包括文本文字格式统一、标点符号全角半角统一、文本查漏补缺、灰度处理的一种或多种。
本发明技术方案的进一步改进在于:综合训练模型通过文章段落规则对需要识别的原始研报文件进行段落提取和分类,文章段落规则为按照段落内容将段落分成若干个子内容,子内容包括摘要、核心观点、客观论述、盈利预测或风险提示的一种或多种。
由于采用了上述技术方案,本发明取得的有益效果是:本发明对段落提取与分类准确度高,研报的解析效率较高,同时准确率得到提升,进而提高对研报的文本分析能力,为研报的深度解析处理提供依据。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合实施例对本发明做进一步详细说明。
如图1所示,本发明公开了一种研报正文的文本分类方法,过程为:
a、收集一定数量的研报,对收集的研报段落进行标注形成样本;
b、将标注好的样本交给机器学习框架进行训练、从而得到综合训练模型;
c、最后将需要识别的原始研报文件经过内容提取、文本降噪处理后,由综合训练模型完成对研报内容的提取分类。
a中,对收集的研报段落通过手工进行标注,工作量为几千至上万条。
b中,综合训练模型包括若干个神经网络训练模型,神经网络训练模型包括FastText、LSTM、TextCnn的一种或多种,也可以为其他模型。
c中,通过文本解析工具将需要识别的原始研报文件的内容提取出来,文本解析工具为pdf解析工具。降噪处理包括文本文字格式统一、标点符号全角半角统一、文本查漏补缺、灰度处理的一种或多种。综合训练模型通过文章段落规则对需要识别的原始研报文件进行段落提取和分类,文章段落规则为按照段落内容将段落分成若干个子内容,子内容包括摘要、核心观点、客观论述、盈利预测或风险提示的一种或多种。
通过上述操作,可以有效完成对研报内容段落的提取与分类,文本输出后便于后续的处理操作。
Claims (6)
1.一种研报正文的文本分类方法,其特征在于过程为:
a、收集一定数量的研报,对收集的研报段落进行标注形成样本;
b、将标注好的样本交给机器学习框架进行训练、从而得到综合训练模型;
c、最后将需要识别的原始研报文件经过内容提取、文本降噪处理后,由综合训练模型完成对研报内容的提取分类。
2.根据权利要求1所述的研报正文的文本分类方法,其特征在于:a中,对收集的研报段落通过手工进行标注。
3.根据权利要求1所述的研报正文的文本分类方法,其特征在于:b中,综合训练模型包括若干个神经网络训练模型,神经网络训练模型包括FastText、LSTM、TextCnn的一种或多种。
4.根据权利要求1所述的研报正文的文本分类方法,其特征在于:c中,通过文本解析工具将需要识别的原始研报文件的内容提取出来,文本解析工具为pdf解析工具。
5.根据权利要求4所述的研报正文的文本分类方法,其特征在于:降噪处理包括文本文字格式统一、标点符号全角半角统一、文本查漏补缺、灰度处理的一种或多种。
6.根据权利要求5所述的研报正文的文本分类方法,其特征在于:综合训练模型通过文章段落规则对需要识别的原始研报文件进行段落提取和分类,文章段落规则为按照段落内容将段落分成若干个子内容,子内容包括摘要、核心观点、客观论述、盈利预测或风险提示的一种或多种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910949643.3A CN110717044A (zh) | 2019-10-08 | 2019-10-08 | 一种研报正文的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910949643.3A CN110717044A (zh) | 2019-10-08 | 2019-10-08 | 一种研报正文的文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110717044A true CN110717044A (zh) | 2020-01-21 |
Family
ID=69212206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910949643.3A Pending CN110717044A (zh) | 2019-10-08 | 2019-10-08 | 一种研报正文的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717044A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990110A (zh) * | 2021-04-20 | 2021-06-18 | 数库(上海)科技有限公司 | 从研报中进行关键信息提取方法及相关设备 |
CN113127595A (zh) * | 2021-04-26 | 2021-07-16 | 数库(上海)科技有限公司 | 研报摘要的观点详情提取方法、装置、设备和存储介质 |
CN113191886A (zh) * | 2021-05-26 | 2021-07-30 | 中国工商银行股份有限公司 | 基于投研报告的投资交易监控方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677764A (zh) * | 2015-12-30 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
CN107808011A (zh) * | 2017-11-20 | 2018-03-16 | 北京大学深圳研究院 | 信息的分类抽取方法、装置、计算机设备和存储介质 |
CN108804591A (zh) * | 2018-05-28 | 2018-11-13 | 杭州依图医疗技术有限公司 | 一种病历文本的文本分类方法及装置 |
CN109657058A (zh) * | 2018-11-29 | 2019-04-19 | 东莞理工学院 | 一种公告信息的抽取方法 |
-
2019
- 2019-10-08 CN CN201910949643.3A patent/CN110717044A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677764A (zh) * | 2015-12-30 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
CN107808011A (zh) * | 2017-11-20 | 2018-03-16 | 北京大学深圳研究院 | 信息的分类抽取方法、装置、计算机设备和存储介质 |
CN108804591A (zh) * | 2018-05-28 | 2018-11-13 | 杭州依图医疗技术有限公司 | 一种病历文本的文本分类方法及装置 |
CN109657058A (zh) * | 2018-11-29 | 2019-04-19 | 东莞理工学院 | 一种公告信息的抽取方法 |
Non-Patent Citations (2)
Title |
---|
王佳敏 等: "多层次融合的学术文本结构功能识别研究", 《图书情报工作》 * |
黄永 等: "学术文本的结构功能识别一基于段落的识别", 《情报学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990110A (zh) * | 2021-04-20 | 2021-06-18 | 数库(上海)科技有限公司 | 从研报中进行关键信息提取方法及相关设备 |
CN113127595A (zh) * | 2021-04-26 | 2021-07-16 | 数库(上海)科技有限公司 | 研报摘要的观点详情提取方法、装置、设备和存储介质 |
CN113127595B (zh) * | 2021-04-26 | 2022-08-16 | 数库(上海)科技有限公司 | 研报摘要的观点详情提取方法、装置、设备和存储介质 |
CN113191886A (zh) * | 2021-05-26 | 2021-07-30 | 中国工商银行股份有限公司 | 基于投研报告的投资交易监控方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807328B (zh) | 面向法律文书多策略融合的命名实体识别方法及*** | |
CN110717044A (zh) | 一种研报正文的文本分类方法 | |
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和***及设备 | |
CN105550269A (zh) | 一种有监督学习的产品评论分析方法及*** | |
CN110232439B (zh) | 一种基于深度学习网络的意图识别方法 | |
CN107273295B (zh) | 一种基于文本混乱度的软件问题报告分类方法 | |
CN107766371A (zh) | 一种文本信息分类方法及其装置 | |
CN111709244B (zh) | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 | |
CN108664474A (zh) | 一种基于深度学习的简历解析方法 | |
CN106202584A (zh) | 一种基于标准词典和语义规则的微博情感分析方法 | |
CN110134934A (zh) | 文本情感分析方法和装置 | |
CN113495959B (zh) | 一种基于文本数据的金融舆情识别方法及*** | |
CN107145573A (zh) | 人工智能客服机器人的问题解答方法及*** | |
CN110750978A (zh) | 情感倾向分析方法、装置、电子设备及存储介质 | |
CN103530286A (zh) | 一种跨语言情感分类方法 | |
CN112966111A (zh) | 一种基于ai的对象化属性文本自动分类方法及*** | |
CN107730158A (zh) | 电网项目智能化评审方法及*** | |
CN112417893A (zh) | 一种基于语义层次聚类的软件功能需求分类方法及*** | |
CN114239579A (zh) | 基于正则表达式和crf模型的电力可研文档提取方法及装置 | |
CN112036179B (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
CN110110326A (zh) | 一种基于主题信息的文本切割方法 | |
CN101989261A (zh) | 统计机器翻译短语抽取方法 | |
CN111522913A (zh) | 一种适用于长文本和短文本的情感分类方法 | |
CN106874262A (zh) | 一种实现领域自适应的统计机器翻译方法 | |
CN111079528A (zh) | 一种基于深度学习的图元图纸校核方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200121 |
|
RJ01 | Rejection of invention patent application after publication |