CN113655933B - 文本标注方法及装置、存储介质及电子设备 - Google Patents

文本标注方法及装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113655933B
CN113655933B CN202110942753.4A CN202110942753A CN113655933B CN 113655933 B CN113655933 B CN 113655933B CN 202110942753 A CN202110942753 A CN 202110942753A CN 113655933 B CN113655933 B CN 113655933B
Authority
CN
China
Prior art keywords
text
marked
labeled
annotated
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110942753.4A
Other languages
English (en)
Other versions
CN113655933A (zh
Inventor
冯哲荟子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202110942753.4A priority Critical patent/CN113655933B/zh
Publication of CN113655933A publication Critical patent/CN113655933A/zh
Application granted granted Critical
Publication of CN113655933B publication Critical patent/CN113655933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0483Interaction with page-structured environments, e.g. book metaphor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0486Drag-and-drop

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开涉及自然语言处理技术领域,具体涉及一种文本标注方法及装置、计算机可读存储介质及电子设备,方法包括:响应用户对待标注文本的标注操作,为待标注文本配置文本标识,并确定待标注文本与已标注文本是否存在重叠对象;将与对待标注文本存在重叠对象的已标注文本确定为目标文本,并为目标文本和待标注文本配置边框;根据目标文本以及重叠对象更新待标注文本中的各个对象的文本标识,并为重叠对象配置不同的显示样式。本公开实施例的技术方案克服了相关技术难以区分具有重叠对象的两个标注文本内容的问题。

Description

文本标注方法及装置、存储介质及电子设备
技术领域
本公开涉及自然语言处理技术领域,具体而言,涉及一种文本标注方法及装置、计算机可读存储介质及电子设备。
背景技术
自然语言理解(NLU:Natural Language Understanding)领域内,训练模型前往往需要能够适用于现有业务的标注好的数据,即需要人工对源数据中的文本进行标注。
现有技术中,在人工对文本进行标注时,在两个标注文本具有重叠对象时,标注审核人员难以区分两个标注文本中的内容。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种文本标注方法、文本标注装置、计算机可读介质和电子设备,进而至少在一定程度上克服了相关技术难以区分具有重叠对象的两个标注文本内容的问题。
根据本公开的第一方面,提供一种文本标注方法,对已标注文本进行差异化显示,包括:
响应用户对待标注文本的标注操作,为所述待标注文本配置文本标识,并确定所述待标注文本与所述已标注文本是否存在重叠对象;
将与所述对待标注文本存在重叠对象的已标注文本确定为目标文本,并为所述目标文本和所述待标注文本配置边框;
根据所述目标文本以及所述重叠对象更新所述待标注文本中的各个对象的文本标识,并为所述重叠对象配置不同的显示样式。
根据本公开的第二方面,提供一种文本标注装置,对已标注文本进行差异化显示,所述装置包括:
判断模块,用于响应用户对待标注文本的标注操作,为所述待标注文本配置文本标识,并确定所述待标注文本与所述已标注文本是否存在重叠对象;
确定模块,用于将与所述对待标注文本存在重叠对象的已标注文本确定为目标文本,并为所述和所述待标注文本配置边框;
配置模块,用于根根据所述目标文本以及所述重叠对象更新所述待标注文本中的各个对象的文本标识,并为所述重叠对象配置不同的显示样式。
根据本公开的第三方面,提供一种计算机可读介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的方法。
根据本公开的第四方面,提供一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的方法。
本公开的一种实施例所提供的文本标注方法,响应用户对待标注文本的标注操作,为待标注文本配置文本标识,并确定待标注文本与已标注文本是否存在重叠对象;将与对待标注文本存在重叠对象的已标注文本确定为目标文本,并为目标文本和待标注文本配置边框;根据目标文本以及重叠对象更新待标注文本中的各个对象的文本标识,并为重叠对象配置不同的显示样式。相较于现有技术,一方面,为具有重叠对象的已标注文本和待标注文本均设置了边框,以使得用户点击时,能够较为清晰的区分已标注文本以及待标注文本。另一方面,为重叠对象重新设置了文本标识,且为重叠对象配置了不同的显示样式,能够使得用户较为容易的发现重叠对象的位置,便于用户区分标注文本的内容。
进一步的,为重叠对象重新设置了文本标识,在用户点击上述重叠对象时,能够根据重叠对象的文本标识,同时生成目标文本的标注结果以及待标注文本的标注结果,进一步的降低用户对具有重叠区域的标注文本的区分的难度,提升了用户体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本公开实施例的一种示例性***架构的示意图;
图2示出了可以应用本公开实施例的一种电子设备的示意图;
图3示意性示出了相关技术标注结果展示界面的示意图;
图4示意性示出本公开示例性实施例中一种文本标注方法的流程图;
图5示意性示出本公开示例性实施例中一种标注结果展示界面的示意图;
图6示意性示出本公开示例性实施例中一种文本标注方法的总体流程图;
图7示意性示出本公开示例性实施例中文本标注装置的组成示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本公开实施例的一种文本标注方法及装置的示例性应用环境的***架构的示意图。
如图1所示,***架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是各种具有自然语言处理功能的电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本公开实施例所提供的文本标注方法一般由终端设备101、102、103中执行,相应地,文本标注装置一般设置于终端设备101、102、103中。但本领域技术人员容易理解的是,本公开实施例所提供的文本标注方法也可以由服务器105执行,相应的,文本标注装置也可以设置于服务器105中,本示例性实施例中对此不做特殊限定。
本公开的示例性实施方式提供一种用于实现文本标注方法的电子设备,其可以是图1中的终端设备101、102、103或服务器105。该电子设备至少包括处理器和存储器,存储器用于存储处理器的可执行指令,处理器配置为经由执行可执行指令来执行文本标注方法。
下面以图2中的移动终端200为例,对电子设备的构造进行示例性说明。本领域技术人员应当理解,除了特别用于移动目的的部件之外,图2中的构造也能够应用于固定类型的设备。在另一些实施方式中,移动终端200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。各部件间的接口连接关系只是示意性示出,并不构成对移动终端200的结构限定。在另一些实施方式中,移动终端200也可以采用与图2不同的接口连接方式,或多种接口连接方式的组合。
如图2所示,移动终端200具体可以包括:处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus,USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(subscriber identification module,SIM)卡接口295等。其中传感器模块280可以包括深度传感器2801、压力传感器2802、陀螺仪传感器2803等。
处理器210可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(Application Processor,AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit,GPU)、图像信号处理器(Image Signal Processor,ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor,DSP)、基带处理器和/或神经网络处理器(Neural-Network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
NPU为神经网络(Neural-Network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现移动终端200的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
处理器210中设置有存储器。存储器可以存储用于实现六个模块化功能的指令:检测指令、连接指令、信息管理指令、分析指令、数据传输指令和通知指令,并由处理器210来控制执行。
充电管理模块240用于从充电器接收充电输入。电源管理模块241用于连接电池242、充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入,为处理器210、内部存储器221、显示屏290、摄像模组291和无线通信模块260等供电。
移动终端200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。其中,天线1和天线2用于发射和接收电磁波信号;移动通信模块250可以提供应用在移动终端200上的包括2G/3G/4G/5G等无线通信的解决方案;调制解调处理器可以包括调制器和解调器;无线通信模块260可以提供应用在移动终端200上的包括无线局域网(Wireless Local Area Networks,WLAN)(如无线保真(Wireless Fidelity,Wi-Fi)网络)、蓝牙(Bluetooth,BT)等无线通信的解决方案。在一些实施例中,移动终端200的天线1和移动通信模块250耦合,天线2和无线通信模块260耦合,使得移动终端200可以通过无线通信技术与网络以及其他设备通信。
移动终端200通过GPU、显示屏290及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏290和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器210可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
移动终端200可以通过ISP、摄像模组291、视频编解码器、GPU、显示屏290及应用处理器等实现拍摄功能。其中,ISP用于处理摄像模组291反馈的数据;摄像模组291用于捕获静态图像或视频;数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号;视频编解码器用于对数字视频压缩或解压缩,移动终端200还可以支持一种或多种视频编解码器。
外部存储器接口222可以用于连接外部存储卡,例如Micro SD卡,实现扩展移动终端200的存储能力。外部存储卡通过外部存储器接口222与处理器210通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器221可以用于存储计算机可执行程序代码,可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。其中,存储程序区可存储操作***,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储移动终端200使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器221可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(Universal Flash Storage,UFS)等。处理器210通过运行存储在内部存储器221的指令和/或存储在设置于处理器中的存储器的指令,执行移动终端200的各种功能应用以及数据处理。
移动终端200可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及应用处理器等实现音频功能。例如音乐播放、录音等。
深度传感器2801用于获取景物的深度信息。在一些实施例中,深度传感器可以设置于摄像模组291。
压力传感器2802用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器2802可以设置于显示屏290。压力传感器2802的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。
陀螺仪传感器2803可以用于确定移动终端200的运动姿态。在一些实施方式中,可以通过陀螺仪传感器2803确定移动终端200围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器2803可以用于拍摄防抖、导航、体感游戏场景等。
此外,还可以根据实际需要在传感器模块280中设置其他功能的传感器,例如气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器、骨传导传感器等。
移动终端200中还可包括其它提供辅助功能的设备。例如,按键294包括开机键,音量键等,用户可以通过按键输入,产生与移动终端200的用户设置以及功能控制有关的键信号输入。再如,指示器292、马达293、SIM卡接口295等。
自然语言理解(NLU:Natural Language Understanding)领域内,训练模型前往往需要能够适用于现有业务的标注好的数据,即需要人工对源数据进行标注。在人工标注过程中,文本槽位是指在一段文字中提取需要的内容,人工选择出这些槽位,并打上标签,添加说明等。
在网页上对文字进行槽位提取,通常会将提取的文本槽位增加与原文本不同的背景颜色(background-color),即对文本槽位进行高亮显示,即对已标注的文本进行高亮显示,并且在鼠标点击对应的文字槽位时,显示文本槽位对应的标签等。
由于现有的文本提槽高亮显示方法仅针对了当前鼠标选中的文本进行高亮显示,而未结合该段文字中已经标注的且高亮显示的文字,故当两个文本提槽出现部分文字重叠的情况时,由于相邻文字提槽和文字提槽重叠部分均显示高亮且为相同颜色,标注人员或者标注审核人员难以区分两个文字提槽内容;即两个已标注文本中包括了重叠对象,即重叠的文字,导致标注审核人员难以区分两个已标注文本的具体内容。其次,由于每次文字提槽都按照鼠标拖动生成新的标签,当文本重叠时会在原有的标签中再创建新的标签再添加点击事件监听,故当点击前一提槽的文字时,不能正确显示该文本提槽的边框;
参照图3所示的文本标注方案,首先获取鼠标拖动区域,并对鼠标拖动区域的文字创建新的标签和唯一文本标识,增加显示属性,以显示不同的背景色,并添加点击事件监听,当该区域的文字被点击时,整个区域增加边框,显示相应的标签。没有待标注文本与已标注文本存在重叠对象时的情况,在两个标注文本具有重叠对象时,标注审核人员难以区分两个标注文本中的内容
下面对本公开示例性实施方式的文本标注方法和文本标注装置进行具体说明。
图4示出了本示例性实施方式中一种文本标注方法的流程,包括以下步骤:
步骤S410,响应用户对待标注文本的标注操作,为所述待标注文本配置文本标识,并确定所述待标注文本与所述已标注文本是否存在重叠对象;
步骤S420,将与所述对待标注文本存在重叠对象的已标注文本确定为目标文本,并为所述和所述待标注文本配置边框;
步骤S430,根据所述目标文本以及所述重叠对象更新所述待标注文本中的各个对象的文本标识,并为所述重叠对象配置不同的显示样式。
相较于现有技术,一方面,为具有重叠对象的已标注文本和待标注文本均设置了边框,以使得用户点击时,能够较为清晰的区分已标注文本以及待标注文本。另一方面,为重叠对象重新设置了文本标识,且为重叠对象配置了不同的显示样式,能够使得用户较为容易的发现重叠对象的位置,便于用户区分标注文本的内容。
进一步的,为重叠对象重新设置了文本标识,在用户点击上述重叠对象时,能够根据重叠对象的文本标识,同时生成目标文本的标注结果以及待标注文本的标注结果,进一步的降低用户对具有重叠区域的标注文本的区分的难度,提升了用户体验。
下面对上述各个步骤进行详细说明。
在步骤S410中,响应用户对待标注文本的标注操作,为所述待标注文本配置文本标识,并确定所述待标注文本与所述已标注文本是否存在重叠对象。
在本公开的一种示例实施方式中,在用户对需要标注的文章进行标注时,处理器可以响应用户对文章中的待标注文本的标注操作,确定上述待标注文本是否与文章中的已标注文本具有重叠对象,其中,上述重叠对象可以是待标注文本与已标注文本中重复的文字。
在本示例实施方式中,处理器可以对上述已标注文本进行差异化显示,例如,对上述已标注文本进行高亮显示,其中高亮显示颜色可以是黄色、绿色等,也可以根据用户需求进行自定义,在本示例实施方式中,不做具体限定。
在本公开的一种示例实施方式中,可以根据已标注文本和上述带编著文本的文本类型,可以根据与上述文本类型来配置不同的高亮显示颜色,例如,相同的文本类型配置相同的显示颜色,不同的文本类型配置不同的高亮显示颜色。
具体而言,上述文本类型可以是上述文本中文字的类型,例如,文本类型可以是动物、植物等,可以为动物和植物对应的文本配置不同的高亮显示颜色。
在本示例实施方式中,在确定上述待标注文本与已标注文本是否存在重叠对象时,可以首先确定待标注文本的起点和终点;确定各已标注文本的起点和终点;根据待标注文本的起点和终点以及各已标注文本的起点和终点确定待标注文本与已标注文本是否存在重叠对象。
具体而言,可以根据上述已标注文本的起点和终点按照起点的大小排列建立已标注文本列表;根据待标注文本的起点和终点遍历已标注文本列表确定待标注文本与已标注文本是否存在重叠对象。
在本示例实施方式中,在确定上述待标注文本的起点和终点够,可以删除所有已标注文本的差异化显示效果,即对所有以标注文本不进行高亮显示。在完成对上述待标注文本的标注之后,对上述各个已标注文本以及待标注文本进行的显示区域进行渲染,以实现对已标注文本以及待标注文本的差异化显示。
在本示例实施方式中,在进行渲染时,可以根据上述各个已标注文本的文本类型来去顶上述各个以便煮文本的高量显示颜色,并对其进行渲染。
在本公开的一种示例实施方式中,在确定上述待标注文本时,即可生成上述待标注文本的文本标识。
在步骤S420中,将与所述对待标注文本存在重叠对象的已标注文本确定为目标文本,并为所述和所述待标注文本配置边框。
在本示例实施方式中,在上述待标注文本与已标注文本存在重叠对象时,可以将上述与待标注文本存在重叠对象的已标注文本定义为目标文本,然后为上述目标文本和上述待标注文本均配置一边框,以使得用户在点击到待标注文本或者目标文本时,显示上述边框,使得用户能够较为容易的区分目标文本与待标注文本的内容。
其中,上述带标注文本的边框与目标文本的边框的显示方式可以相同,也可以不同,在本示例实施方式中不做具体限定。
在本示例实施方式中,在对上述待标注文本配置边框时,可以对上述待标注文本的起点的对象添加左边框、上边框以及下边框,终点的对象添加右边框、上边框以及下边框,位于起点和终点之间的对象添加上边框和下边框。
在步骤S430中,根据所述目标文本以及所述重叠对象更新所述待标注文本中的各个对象的文本标识,并为所述重叠对象配置不同的显示样式。
在本示例实施方式中,可以根据上述目标文本以及重叠对象,对待标注文本进行最小不重复划分,以得到多个对象区域,然后,根据目标文本和重叠对象更新各对象区域的文本标识。举例而言,若上述待标注文本包括字符1-10,其中,待标注文本中的重叠对象包括1、2、3、9、10。此时,即可将上述待标注文本划分为1-3、4-8、9-10三个对象区域,然后根据上述待标注文本以及目标文本的文本标识确定上述各个对象区域的文本标识。
举例而言,目标文本可以包括多个,第一目标文本与待标注文本的重叠对象为上述1、2、3;第二目标文本与上述待标注文本的重叠对象包括9、10,若待标注文本的文本标识为A,第一目标文本的文本标识为B,第二目标文本的文本标识为C,此时,可以将上述对象区域1-3的文本标识配置为A和B,可以将上述对象区域9-10的文本标识配置为A和C。本技术方案对上述待标注文本进行了区域划分,避免了对重叠区域中的每一个对象的文本标识的确定,加快了标注效率,较少了计算量。
需要说明的是,在本示例实施方式中,上述目标文本的可以是两个,三个、四个等,也可以更具用户需求及进行自定义,在本示例实施方式中不做具体限定。
在本示例实施方式中,上述文本标注方法还可以包括响应用户对文本展示界面中已标注文本中的任一对象的触发操作,显示上述已标注文本对应的边框并在标注结果展示界面显示已标注文本对应的标注结果。进一步的,参照图5所示,处理器还可以响应用户对文本展示界面501中重叠对象的触发操作,显示待标注文本对应的边框,并生成一标注结果展示界面502,在上述标注结果展示界面显示目标文本和待标注结果的标注结果。其中,上述触发操作可以是用户通过鼠标对上述重叠对象进行点击,或者用户通过触控面板对上述重叠对象的点击操作,在本示例实施方式中不做具体限定。
在本示例实施方式中,还可以包括一选择界面503,选择界面503展示了待标注文本和目标文本的选择框,可以响应用户对选择框的选择操作,在标注结果展示界面502对选择操作对应的文本进行突出显示。
在本公开的一种示例实施方式中,标注结果展示区域包括标注文本的标注内容、文本位置、标签选择框,以及操作界面。其中操作界面可以响应用户对删除标识的触发操作,删除对上述待标注文本或者目标文本的标注。
在本公开的一种示例实施方式中,处理器可以确定重叠对象对应的多个已标注文本的优先级顺序,其中优先级顺序根据上述已标注文本的标注时间来确定,例如,可以将标注时间距离当前时间最近的已标注文本的优先级设置为最高,即用户点击上述重叠对象时,显示重叠对象对应的已标注文本中优先级最高的已标注文本的边框。
在本示例实施方式中,在目标文本与待标注文本的高亮显示颜色不同时,即上述目标文本与待标注文本的文本类型不同时,将目标文本的高亮显示颜色和待标注文本的高亮显示颜色的融合色作为重叠对象的目标显示颜色,在目标文本与待标注文本的高亮显示颜色相同时,即上述目标文本和上述待标注文本的文本类型相同时,为重叠对象配置与待标注文本的高亮显示颜色不同的目标显示颜色。
下面可以参照图6对上述文本标注方法据详细介绍,可以首先执行步骤S610,首先确定待标注文本,具体而言,在文章中选取需要标注的文本作为上述待标注文本,然后执行步骤S620,对待标注文本配置文本标识,具体而言,为上述待标注文本中的每一个文本均配置相同的文本标识,然后执行步骤S630,确定以待标注文本具有重叠对象的目标文本,并根据目标文本和重叠对象对待标注文本进行分段;之后执行步骤S640,更新上述待标注文本的文本标识,然后执行步骤S650,确定上述待标注的显示样式。
上述各个步骤的具体细节上述已近进行了详细说明,因此每次出不再赘述。
综上所述,本示例性实施方式中,为具有重叠对象的已标注文本和待标注文本均设置了边框,以使得用户点击时,能够较为清晰的区分已标注文本以及待标注文本。另一方面,为重叠对象重新设置了文本标识,且为重叠对象配置了不同的显示样式,能够使得用户较为容易的发现重叠对象的位置,便于用户区分标注文本的内容。
进一步的,为重叠对象重新设置了文本标识,在用户点击上述重叠对象时,能够根据重叠对象的文本标识,同时生成目标文本的标注结果以及待标注文本的标注结果,进一步的降低用户对具有重叠区域的标注文本的区分的难度,提升了用户体验。
需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
进一步的,参考图7所示,本示例的实施方式中还提供一种文本标注装置700,包括判断模块710、确定模块720以及配置模块730。其中:
判断模块710可以用于响应用户对待标注文本的标注操作,确定所述待标注文本与所述已标注文本是否存在重叠对象。
具体而言,判断模块710可以确定所述待标注文本的起点和终点;确定各所述已标注文本的起点和终点;根据所述待标注文本的起点和终点以及各所述已标注文本的起点和终点确定所述待标注文本与所述已标注文本是否存在重叠对象。
在执行根据所述待标注文本的起点和终点以及各所述已标注文本的起点和终点确定所述待标注文本与所述已标注文本是否存在重叠对象时,可以根据各所述已标注文本的起点和终点按照起点的大小排列建立已标注文本列表;根据所述待标注文本的起点和终点遍历所述已标注文本列表确定所述待标注文本与所述已标注文本是否存在重叠对象。
确定模块720可以用于将与所述对待标注文本存在重叠对象的已标注文本确定为目标文本,并为所述和所述待标注文本配置边框。
其中,上述确定模块720还可以用于为各已标注文本配置边框;响应用户对已标注文本中的任一对象的触发操作,显示已标注文本对应的边框。
配置模块730可以用于根据所述目标文本以及所述重叠对象为所述待标注文本中的各个对象配置文本标识,并为所述重叠对象配置不同的显示样式。
具体而言,对已标注文本进行差异化显示包括对已标注文本进行高亮显示,为重叠对象配置不同的显示样式,包括在目标文本与待标注文本的高亮显示颜色不同时,将目标文本的高亮显示颜色和待标注文本的高亮显示颜色的融合色作为重叠对象的目标显示颜色。
在目标文本与待标注文本的高亮显示颜色相同时,为重叠对象配置与待标注文本的高亮显示颜色不同的目标显示颜色。
在本示例实施方式中,可以首先确定已标注文本和待标注文本的文本类型;然后根据文本类型为已标注文本和待标注文本配置高亮显示颜色。
在本示例实施方式中,上述文本标注装置,还可以把可以包括响应模块,用于响应用户对重叠对象的触发操作,显示待标注文本对应的边框;并生成标注结果展示界面,在标注结果展示界面显示目标文本的待标注文本的标注结果以及目标文本的标注结果。
上述装置中各模块的具体细节在方法部分实施方式中已经详细说明,未披露的细节内容可以参见方法部分的实施方式内容,因而不再赘述。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为***、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
本公开的示例性实施方式还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
此外,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims (11)

1.一种文本标注方法,其特征在于,所述方法包括:
对已标注文本进行差异化显示;
响应用户对待标注文本的标注操作,为所述待标注文本配置文本标识,并确定所述待标注文本与所述已标注文本是否存在重叠对象;
将与所述待标注文本存在重叠对象的已标注文本确定为目标文本,并为所述目标文本和所述待标注文本配置边框;
根据所述目标文本以及所述重叠对象,对所述待标注文本进行最小不重复划分得到多个对象区域,根据所述目标文本和所述重叠对象更新各所述对象区域的文本标识,并为所述重叠对象配置不同的显示样式。
2.根据权利要求1所述的方法,其特征在于,对已标注文本进行差异化显示包括对已标注文本进行高亮显示,所述为所述重叠对象配置不同的显示样式,包括:
在所述目标文本与所述待标注文本的高亮显示颜色不同时,将所述目标文本的高亮显示颜色和所述待标注文本的高亮显示颜色的融合色作为所述重叠对象的目标显示颜色。
3.根据权利要求2所述的方法,其特征在于,在所述目标文本与所述待标注文本的高亮显示颜色相同时,为所述重叠对象配置与所述待标注文本的高亮显示颜色不同的目标显示颜色。
4.根据权利要求2或3任一项所述的方法,其特征在于,所述方法还包括:
确定所述已标注文本和所述待标注文本的文本类型;
根据所述文本类型为所述已标注文本和所述待标注文本配置高亮显示颜色。
5.根据权利要求1所述的方法,其特征在于,所述确定所述待标注文本与所述已标注文本是否存在重叠对象,包括:
确定所述待标注文本的起点和终点;
确定各所述已标注文本的起点和终点;
根据所述待标注文本的起点和终点以及各所述已标注文本的起点和终点确定所述待标注文本与所述已标注文本是否存在重叠对象。
6.根据权利要求5所述的方法,其特征在于,所述根据所述待标注文本的起点和终点以及各所述已标注文本的起点和终点确定所述待标注文本与所述已标注文本是否存在重叠对象,包括:
根据各所述已标注文本的起点和终点按照起点的大小排列建立已标注文本列表;
根据所述待标注文本的起点和终点遍历所述已标注文本列表确定所述待标注文本与所述已标注文本是否存在重叠对象。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
为各所述已标注文本配置边框;
响应用户对所述已标注文本中的任一对象的触发操作,显示所述已标注文本对应的边框。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
响应用户对所述重叠对象的触发操作,显示所述待标注文本对应的边框;
并生成标注结果展示界面,在所述标注结果展示界面显示所述待标注文本的标注结果以及所述目标文本的标注结果。
9.一种文本标注装置,其特征在于,所述装置包括:
用于对已标注文本进行差异化显示的模块;
判断模块,用于响应用户对待标注文本的标注操作,为所述待标注文本配置文本标识,并确定所述待标注文本与所述已标注文本是否存在重叠对象;
确定模块,用于将与所述对待标注文本存在重叠对象的已标注文本确定为目标文本,并为所述目标文本和所述待标注文本配置边框;
配置模块,用于根据所述目标文本以及所述重叠对象,对所述待标注文本进行最小不重复划分得到多个对象区域,根据所述目标文本和所述重叠对象更新各所述对象区域的文本标识,并为所述重叠对象配置不同的显示样式。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至8中任一项所述的文本标注方法。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至8中任一项所述的文本标注方法。
CN202110942753.4A 2021-08-17 2021-08-17 文本标注方法及装置、存储介质及电子设备 Active CN113655933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110942753.4A CN113655933B (zh) 2021-08-17 2021-08-17 文本标注方法及装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110942753.4A CN113655933B (zh) 2021-08-17 2021-08-17 文本标注方法及装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN113655933A CN113655933A (zh) 2021-11-16
CN113655933B true CN113655933B (zh) 2024-05-31

Family

ID=78479947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110942753.4A Active CN113655933B (zh) 2021-08-17 2021-08-17 文本标注方法及装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113655933B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113919287B (zh) * 2021-12-06 2022-02-25 北京来也网络科技有限公司 结合rpa及ai的实体关系标注方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040236A (ja) * 1996-07-19 1998-02-13 Nec Corp コメント付きハイパーテキスト文書処理装置
KR100765781B1 (ko) * 2006-04-13 2007-10-12 삼성전자주식회사 Xhtml 데이터 생성 방법 및 장치
CN104298714A (zh) * 2014-09-16 2015-01-21 北京航空航天大学 一种基于异常处理的海量文本自动标注方法
CN111666735A (zh) * 2020-07-07 2020-09-15 腾讯科技(深圳)有限公司 图像文本标注显示方法和装置、存储介质
CN111898411A (zh) * 2020-06-16 2020-11-06 华南理工大学 文本图像标注***、方法、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040236A (ja) * 1996-07-19 1998-02-13 Nec Corp コメント付きハイパーテキスト文書処理装置
KR100765781B1 (ko) * 2006-04-13 2007-10-12 삼성전자주식회사 Xhtml 데이터 생성 방법 및 장치
CN101410789A (zh) * 2006-04-13 2009-04-15 三星电子株式会社 用于产生xhtml数据的方法和设备
CN104298714A (zh) * 2014-09-16 2015-01-21 北京航空航天大学 一种基于异常处理的海量文本自动标注方法
CN111898411A (zh) * 2020-06-16 2020-11-06 华南理工大学 文本图像标注***、方法、计算机设备和存储介质
CN111666735A (zh) * 2020-07-07 2020-09-15 腾讯科技(深圳)有限公司 图像文本标注显示方法和装置、存储介质

Also Published As

Publication number Publication date
CN113655933A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
US20220405986A1 (en) Virtual image generation method, device, terminal and storage medium
US11875437B2 (en) Image drawing method based on target template image, apparatus, readable medium and electronic device
US20230308730A1 (en) Subtitle editing method and apparatus, and electronic device
US20190012527A1 (en) Method and apparatus for inputting emoticon
US10789474B2 (en) System, method and apparatus for displaying information
CN110070496B (zh) 图像特效的生成方法、装置和硬件装置
WO2021082885A1 (zh) 语义分割模型的训练样本的生成方法、装置、存储介质及电子设备
CN112181576A (zh) 表单处理方法、装置、终端及存储介质
US12019669B2 (en) Method, apparatus, device, readable storage medium and product for media content processing
WO2023197648A1 (zh) 截图处理方法及装置、电子设备和计算机可读介质
WO2020078050A1 (zh) 评论信息处理方法和装置、服务器、终端及可读介质
CN111176533A (zh) 壁纸切换方法、装置、存储介质以及终端
US20240040069A1 (en) Image special effect configuration method, image recognition method, apparatus and electronic device
CN112188461A (zh) 近场通信装置的控制方法及装置、介质和电子设备
CN113238727A (zh) 屏幕切换方法及装置、计算机可读介质和电子设备
JP7261732B2 (ja) 文字の色を決定する方法および装置
CN113655933B (zh) 文本标注方法及装置、存储介质及电子设备
CN115729534A (zh) 低代码页面的创建方法、展示方法、装置、设备及介质
CN115209215B (zh) 视频处理方法、装置及设备
CN109949793A (zh) 用于输出信息的方法和装置
WO2024046360A1 (zh) 媒体内容处理方法、装置、设备、可读存储介质及产品
WO2024037557A1 (zh) 特效道具处理方法、装置、电子设备及存储介质
CN117632109A (zh) 虚拟数字助手构建方法、装置、电子设备以及存储介质
CN109871465B (zh) 一种时间轴计算方法、装置、电子设备及存储介质
WO2023098576A1 (zh) 图像处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant