CN111125312A - 一种文本标注方法及*** - Google Patents

一种文本标注方法及*** Download PDF

Info

Publication number
CN111125312A
CN111125312A CN201911354042.4A CN201911354042A CN111125312A CN 111125312 A CN111125312 A CN 111125312A CN 201911354042 A CN201911354042 A CN 201911354042A CN 111125312 A CN111125312 A CN 111125312A
Authority
CN
China
Prior art keywords
text
data
module
labeling
emotions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911354042.4A
Other languages
English (en)
Inventor
刘宝强
肖云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Skieer Information Technology Co ltd
Original Assignee
Shenzhen Skieer Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Skieer Information Technology Co ltd filed Critical Shenzhen Skieer Information Technology Co ltd
Priority to CN201911354042.4A priority Critical patent/CN111125312A/zh
Publication of CN111125312A publication Critical patent/CN111125312A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于自然语言处理技术领域,公开了一种文本标注方法及***,使用自定义规则过滤无效文本;对有效文本进行拆分,具体细化到词、短句;根据细化的词、短语划分相应的属性标签、情感;对相似的属性标签进行;使属性标签、情感形成一种关联关系,从而生成供模型进行有监督学习的有效数据。文本标注***包括数据过滤模块、标注模块、数据跟踪统计模块、数据审阅模块、用户配置模块及自启动模型训练模块。本发明提供的文本标注方法及***,可适用于各种文本标注场景,提供更加简便、高效的标注方式;本发明简化了用户的操作与信息过滤过程;在文本输入到生成模型的过程上中,形成流水线作业,提升整体工作效率。

Description

一种文本标注方法及***
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种文本标注方法及***。
背景技术
目前,最接近的现有技术:近年来,在搜索、信息抽取、机器翻译等技术和需求的推动下,自然语言处理技术迅速发展成为一门独立的学科,并倍受关注。但是,通过自然语言与计算机交互仍然十分困难,其中不仅要教会计算机如何识别自然语言,还要纠正计算机的错误识别。如何让机器更好地理解自然语言,一直都是专家学者们致力于解决的问题。
通俗来讲,计算机理解自然语言,其实是理解语料的含义。但语料有很多,而且一样含义的语料可以有不同的表达方式,计算机理解难度也随之提高。因此,在计算理解语料之前,人工标注文本形成标准化的语料显得尤为重要。在标注好的语料下,计算机学习难度下降,效果也就越好。
而在当前文字中,人们更多的是表达自己对事物某一方面的情感倾向。例如:“隔音效果不是特别好,不过在同价位的车中应该能算是比较好的了。”这名话中,表达了对汽车隔音效果的关注,而且通过两个方面的对比分别表达了对隔音效果的负面、正面情感。在标注时,把属性标签、情感之间的关联关系抽出来,计算机能更好的推断出属性标签的好坏程度。因此,更能体现出文本标注在自然语言处理技术领域内的重要性。
综上所述,现有技术存在的问题是:
现有技术中,不能有效标明文本中所有的属性标签及其情感,形成标准化的语料库;在标注时,不能简化用户的操作与信息过滤过程,在文本输入到生成模型的过程上中,不能形成流水线作业,提升整体工作效率。
发明内容
针对现有技术存在的问题,本发明提供了一种文本标注方法及***。本发明针对文本处理提供一种高效的、可视化的标注方法,为自然语言处理模型生成有效的训练、测试、验证数据集,为数据处理、模型训练、模型验证提供一站式解决方案。
本发明是这样实现的,一种文本标注方法,包括:
步骤一,自定义文本过滤规则,对文本进行筛选,获取有效的文本数据;
步骤二,对文本进行拆分,细化到词、短句;
步骤三,词、短句划分属性标签、情感,然后抽取属性标签与情感之间的关系。
进一步,步骤一中,所述文本过滤规则由用户自定义,用户根据不同文本数据来源定义不同的规则,提供自主可控的数据过滤方案。
进一步,步骤三中,属性标签、情感存在关联关系,用于明确属性标签的情感倾向。
进一步,步骤三中,同一短句中拥有不同的属性标签、情感及其相应的关联关系。
进一步,步骤三中,所述属性标签、情感存在跨词、短句的关联关系,所述关联关系包括多个词、短句形容同一属性标签的相同或不同的情感倾向。
本发明的另一目的在于提供一种文本标注***包括:
数据过滤模块,由用户自定义过滤规则,用户设置好规则后,根据过滤规则筛选出有效的文本数据;
标注模块,与数据过滤模块连接,用于从数据过滤模块筛选出的有效中文本数据中取出文本并展示,用户根据预先定义好的指标,给文本标注相应的属性标签、情感及之间的关系,最后保存所有标注结果;
数据跟踪统计模块,与标注模块连接,用于对在标注模块中不同用户进行的文本数据标注进行筛选,用户从筛选后的有效文本数据标注中取文本、保存标注结果,记录相应的用户标注编号,并进行统计用户标注的工作量及数据跟踪;
数据审阅模块,与数据跟踪统计模块连接,经过标注模块、数据跟踪统计模块处理的数据,用户标注后,进行查看数据及数据量,并且对标注后的结果按比例随机抽查,对于错误、无效的标注结果进行退回,最终根据标注结果质量判定数据是否可用。
进一步,数据审阅模块还用于针对某一种属性标签、情感或某一用户标注的数据进行抽查,以验证数据是否达到标准。
进一步,所述的文本标注***进一步包括:
用户配置模块,与数据过滤模块连接,用于接收用户自定义的文本过滤规则,并进行管理;
自启动模型训练模块,与数据审阅模块连接,用于在有效的标注数据达到标准后,可启动模型训练,并输出训练后的验证报告。
本发明的另一目的在于提供一种实现所述文本标注方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的文本标注方法。
综上所述,本发明的优点及积极效果为:本发明提供了一种高效的、可视化的文本标注方法及***,不仅适用于各种文本标注场景,提供更加简便、高效的标注方式,而且能更好的标明文本中所有的属性标签及其情感,形成标准化的语料库。
通过本发明提供的文本标注方法及***,根据用户的预先设定的文本过滤规则,自动过滤无效文本,对文本进行拆分,细化到词、短句的粒度,并在词、短句的基础上标注属性标签、情感及两者之间的关联关系。简化用户的操作与信息过滤过程。在文本输入到生成模型的过程上中,形成流水线作业,提升整体工作效率。
附图说明
图1是本发明实施例提供的文本标注方法流程图。
图2是本发明实施例提供的文本标注***示意图。
图中:1、数据过滤模块;2、标注模块;3、数据跟踪统计模块;4、数据审阅模块;5、用户配置模块;6、自启动模型训练模块。
图3是本发明实施例提供的文本标注方法实施原理图。
图4是本发明实施例提供的文本标注方法一应用实例示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术中,不能有效标明文本中所有的属性标签及其情感,形成标准化的语料库;在标注时,不能简化用户的操作与信息过滤过程。在文本输入到生成模型的过程上中,不能形成流水线作业,提升整体工作效率。
针对现有技术存在的问题,本发明提供了一种文本标注方法及***,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的文本标注方法包括:
S101,自定义文本过滤规则,对文本进行筛选,获取有效的文本数据。
S102,对文本进行拆分,细化到词、短句。
S103,词、短句划分属性标签、情感,然后抽取属性标签与情感之间的关系。
在本发明实施例中,步骤S101中,所述文本过滤规则由用户自定义,用户可根据不同文本数据来源定义不同的规则,实现完全自主可控的过滤方案。
在本发明实施例中,步骤S103中,对属性标签、情感两者进行关系抽取,明确属性标签的情感倾向。
对于同一短句中存在多个属性标签或情感的情况,可将短句所有的属性标签、情感都标注出来。
对于属性标签、情感存在跨词、短句的关联关系的情况下,可跨词、短句标注属性标签和情感的关联关系。
如图2所示,本发明实施例提供的文本标注包括:
数据过滤模块1,根据自定过滤规则,筛选出有效的文本数据。
标注模块2,对于过滤后的有效文本数据标注属性标签、情感及两者之间的关系。
数据跟踪统计模块3,跟踪每个文本数据的流转,并且按不同指标进行统计。
数据审阅模块4,根据不同属性标签,按比例随机抽取标注好的数据进行审阅,并对错误、无效标注数据退回。还用于对某一属性标签、情感或某一用户标注的数据进行抽查,以验证数据是否达到标准。
用户配置模块5,用于接收用户自定义的文本过滤规则,并对规则进行管理。
自启动模型训练模块6,在标注数据达到标准后,自启动模型训练,并在训练后输出验证报告。
下面结合具体实施例对本发明作进一步描述。
实施例
如图3所示,本发明实施例提供的文本标注方法包括:
S01:根据文本过滤规则,筛选出有效的文本数据。
当数据导入后,先执行过滤清洗,筛选出有效的文本数据。相关无效文本不删除,依然会保留,只是不用于标注。
另外,文本过滤规则会预置一部分规则,用于处理一些常见的无效文本数据。例如:整句都是“666”、“23333”、“不错”、“还好”、“一般”等等。
S02:文本拆分,细化到词、短句。根据步骤S01筛选出来的效,按照语法规则把文本拆分成多个词或短句。同一文本拆分的多个词、短句,在标注阶段仍会一同展示,因为词句之间可能存在上下文依赖关系。
S03:划分属性标签、情感。
对步骤S02的数据分类。把词、短句相关的关键词标记为某一属性标签或某一种情感。同一短句中可能存在多个关键词,或是属于同一属性标签,或是不同,都会标记出来;情感也是如此。
对于属性标签、情感,会预先设置好,规范各个指标的含义,避免在标注过程出现用户的理解偏差。
S04:关系抽取。
根据步骤S03的属性标签、情感划分结果,找出属性标签与情感之间的关系。一个标签属性可以对应多个情感词,也可以多个标签属性对应一个情感词。属性标签与情感,或许不存在任何关系,此时将会直接跳转到步骤S05,将标注好的数据保存入库。
图4是本发明实施例提供的文本标注方法一应用实例示意图。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本标注方法,其特征在于,所述文本标注方法包括:
步骤一,利用文本过滤规则对文本进行筛选,获取有效的文本数据;
步骤二,对文本进行拆分,细化到词、短句;
步骤三,词、短句划分属性标签、情感,然后抽取属性标签与情感之间的关系。
2.如权利要求1所述的文本标注方法,其特征在于,步骤一中,所述文本过滤规则为根据不同文本数据来源不同的规则,用于提供自主可控的数据过滤方案。
3.如权利要求1所述的文本标注方法,其特征在于,步骤三中,属性标签、情感存在关联关系,用于明确属性标签的情感倾向。
4.如权利要求1所述的文本标注方法,其特征在于,步骤三中,同一短句中拥有不同的属性标签、情感及相应的关联关系。
5.如权利要求1所述的文本标注方法,其特征在于,步骤三中,所述属性标签、情感存在跨词、短句的关联关系,所述关联关系包括多个词、短句形容同一属性标签的相同或不同的情感倾向。
6.一种实施权利要求1所述文本标注方法的文本标注***,其特征在于,所述文本标注***包括:
数据过滤模块,用于通过过滤规则筛选出有效的文本数据;
标注模块,与数据过滤模块连接,用于从数据过滤模块筛选出的有效中文本数据中取出文本并展示,根据预先定义的指标,给文本标注相应的属性标签、情感及之间的关系,最后保存所有标注结果;
数据跟踪统计模块,与标注模块连接,用于对筛选后的有效文本数据进行取文本、保存标注结果,记录相应的标注编号,并进行统计标注的工作量及数据跟踪;
数据审阅模块,与数据跟踪统计模块连接,对经过标注模块、数据跟踪统计模块处理的数据进行查看数据及数据量,并且对标注后的结果按比例随机抽查,对于错误、无效的标注结果进行退回,最终根据标注结果质量判定数据是否可用。
7.如权利要求6所述的文本标注***,其特征在于,数据审阅模块还用于针对某一种属性标签、情感或某一标注的数据进行抽查,验证数据是否达到标准。
8.如权利要求6所述的文本标注***,其特征在于,所述的文本标注***进一步包括:
用户配置模块,与数据过滤模块连接,用于接收文本过滤规则,并进行管理;
自启动模型训练模块,与数据审阅模块连接,用于在有效的标注数据达到标准后,启动模型训练,并输出训练后的验证报告。
9.一种实现权利要求1~5任意一项所述文本标注方法的信息数据处理终端。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-5任意一项所述的文本标注方法。
CN201911354042.4A 2019-12-24 2019-12-24 一种文本标注方法及*** Pending CN111125312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911354042.4A CN111125312A (zh) 2019-12-24 2019-12-24 一种文本标注方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911354042.4A CN111125312A (zh) 2019-12-24 2019-12-24 一种文本标注方法及***

Publications (1)

Publication Number Publication Date
CN111125312A true CN111125312A (zh) 2020-05-08

Family

ID=70502867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911354042.4A Pending CN111125312A (zh) 2019-12-24 2019-12-24 一种文本标注方法及***

Country Status (1)

Country Link
CN (1) CN111125312A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492310A (zh) * 2022-02-16 2022-05-13 平安科技(深圳)有限公司 文本标注方法、文本标注装置、电子设备和存储介质
CN117194615A (zh) * 2023-11-02 2023-12-08 国网浙江省电力有限公司 企业合规数据处理方法及平台

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN105117428A (zh) * 2015-08-04 2015-12-02 电子科技大学 一种基于词语对齐模型的web评论情感分析方法
CN107102980A (zh) * 2016-02-19 2017-08-29 北京国双科技有限公司 情感信息的提取方法及装置
CN110298033A (zh) * 2019-05-29 2019-10-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 关键词语料标注训练提取工具
CN110362822A (zh) * 2019-06-18 2019-10-22 中国平安财产保险股份有限公司 用于模型训练的文本标注方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN105117428A (zh) * 2015-08-04 2015-12-02 电子科技大学 一种基于词语对齐模型的web评论情感分析方法
CN107102980A (zh) * 2016-02-19 2017-08-29 北京国双科技有限公司 情感信息的提取方法及装置
CN110298033A (zh) * 2019-05-29 2019-10-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 关键词语料标注训练提取工具
CN110362822A (zh) * 2019-06-18 2019-10-22 中国平安财产保险股份有限公司 用于模型训练的文本标注方法、装置、计算机设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492310A (zh) * 2022-02-16 2022-05-13 平安科技(深圳)有限公司 文本标注方法、文本标注装置、电子设备和存储介质
CN114492310B (zh) * 2022-02-16 2023-06-23 平安科技(深圳)有限公司 文本标注方法、文本标注装置、电子设备和存储介质
CN117194615A (zh) * 2023-11-02 2023-12-08 国网浙江省电力有限公司 企业合规数据处理方法及平台
CN117194615B (zh) * 2023-11-02 2024-02-20 国网浙江省电力有限公司 企业合规数据处理方法及平台

Similar Documents

Publication Publication Date Title
CN113807098B (zh) 模型训练方法和装置、电子设备以及存储介质
US10664505B2 (en) Method for deducing entity relationships across corpora using cluster based dictionary vocabulary lexicon
JP6667504B2 (ja) オーファン発話検出システム及び方法
US10831796B2 (en) Tone optimization for digital content
US9575936B2 (en) Word cloud display
US10515125B1 (en) Structured text segment indexing techniques
US11954140B2 (en) Labeling/names of themes
US20160299955A1 (en) Text mining system and tool
US10860566B1 (en) Themes surfacing for communication data analysis
US10180988B2 (en) Persona-based conversation
US20230350929A1 (en) Method and system for generating intent responses through virtual agents
WO2013088287A1 (en) Generation of natural language processing model for information domain
CN106383814B (zh) 一种英文社交媒体短文本分词方法
US11908477B2 (en) Automatic extraction of conversation highlights
CN112699645B (zh) 语料标注方法、装置及设备
US20150169676A1 (en) Generating a Table of Contents for Unformatted Text
CN111178079A (zh) 一种三元组抽取方法及装置
US11423219B2 (en) Generation and population of new application document utilizing historical application documents
CN111125312A (zh) 一种文本标注方法及***
Sam et al. A robust methodology for building an artificial intelligent (ai) virtual assistant for payment processing
CN109992651B (zh) 一种问题目标特征自动识别和抽取方法
US20160171900A1 (en) Determining the Correct Answer in a Forum Thread
US20210319481A1 (en) System and method for summerization of customer interaction
US20160034509A1 (en) 3d analytics
CN111046168A (zh) 用于生成专利概述信息的方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518000 1st floor, building 10, new material port, high tech middle first road, science and Technology Park community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Shukuo Information Technology Co.,Ltd.

Address before: 518000 1st floor, building 10, new material port, high tech middle first road, science and Technology Park community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: SHENZHEN SKIEER INFORMATION TECHNOLOGY CO.,LTD.