CN108959248A - 一种实体标注方法和装置、计算机可读存储介质 - Google Patents

一种实体标注方法和装置、计算机可读存储介质 Download PDF

Info

Publication number
CN108959248A
CN108959248A CN201810643729.9A CN201810643729A CN108959248A CN 108959248 A CN108959248 A CN 108959248A CN 201810643729 A CN201810643729 A CN 201810643729A CN 108959248 A CN108959248 A CN 108959248A
Authority
CN
China
Prior art keywords
segmentation
rule
text
word
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810643729.9A
Other languages
English (en)
Inventor
徐安华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201810643729.9A priority Critical patent/CN108959248A/zh
Publication of CN108959248A publication Critical patent/CN108959248A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种实体标注方法和装置、计算机可读存储介质,所述方法包括:按照预设的规则,对待标注的文本进行分段;监听并接收用户的鼠标操作,如果接收的鼠标操作为预定义的选词操作,则检测当前鼠标所在文本的偏移位置是否在已分好的一个分段内;如果当前鼠标所在文本的偏移位置在已分好的一个分段内,则选中该分段并将该分段显示为被选中的状态。本申请通过按照预设的规则对待标注的文本进行分段,并通过预定义的选词操作选中已分好的分段,解决了原本的实体标注需要很多的鼠标选中并移动的标签内容选择的问题,大大提高了选中标签文本时的效率。

Description

一种实体标注方法和装置、计算机可读存储介质
技术领域
本发明涉及自然语言处理(Natural Language Processing,NLP)技术领域,尤其涉及一种实体标注方法和装置、计算机可读存储介质。
背景技术
随着大数据以及人工智能(Artificial Intelligence,AI)的普及,企业级应用中将越来越多使用自然语言处理相关的技术。当前,虽然很多大公司提供词性识别、实体识别、关系识别等模型的超文本传输协议(Hyper Text Transfer Protocol,HTTP)服务,但这些服务背后的自然语言处理模型绝大多数都是由互联网数据训练得到的。而互联网中的文字内容来源广泛:既有来自于专业媒体的内容,也有网民个人产生的内容。互联网文本跟企业内部文本内容相比,用词与写作风格存在较大差异。因此,自然语言处理技术想要在企业级应用中达到较好的效果,一般需要将企业内文本做标注之后,重新训练成适合于企业自身需要的自然语言处理模型。
对于NLP中最重要任务:实体提取,也需要使用企业中的文本数据进行标注,然后训练模型。实体标注一般是指人工对文本数据进行标记的过程,例如,在“北京是中国的首都”这句话中,“北京”这两个字被标记为地名(简称Loc),“中国”这两个字被标记为国家(简称Country)。一般使用鼠标选中上述内容中的“北京”或“中国”这两个字,然后将其标记为Loc或者Country。
目前,通过鼠标划选文本中的实体需要先通过鼠标选中一个地方,然后摁住鼠标左键开始继续移动,直到选择完相应的标签内容,这种标签文本选中方式具有较差的用户体验,特别是当单个人标注的数据量较多时,标注速度明显降低。
发明内容
为了解决上述技术问题,本发明提供了一种实体标注方法和装置、计算机可读存储介质,能够提高标注速度。
为了解决上述技术问题,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种实体标注方法,包括:
按照预设的规则,对待标注的文本进行分段;
监听并接收用户的鼠标操作,如果接收的鼠标操作为预定义的选词操作,则检测当前鼠标所在文本的偏移位置是否在已分好的一个分段内;
如果当前鼠标所在文本的偏移位置在已分好的一个分段内,则选中该分段并将该分段显示为被选中的状态。
进一步地,所述预设的规则包括以下至少之一:
规则1:数字与以下三者至少之一:年、月、日组成的内容,为一个所述分段;
规则2:长度小于或等于预设字符串长度的括号中的内容,为一个所述分段;
规则3:长度小于或等于预设字符串长度的引号内的内容,为一个所述分段;
规则4:预设的词典中的词,为一个所述分段;
规则5:通过预设的分词器分出的词,为一个所述分段。
进一步地,所述规则i的优先级高于或等于规则i+1的优先级,所述各规则不能切分比自身优先级高的规则切分出的所述分段,其中,i为1至4之间的自然数。
进一步地,所述预定义的选词操作为鼠标左键双击、鼠标左键单击或者鼠标右键单击。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如以上任一项所述的实体标注方法的步骤。
本发明实施例还提供了一种实体标注装置,包括处理器及存储器,其中:
所述处理器用于执行存储器中存储的实体标注程序,以实现如以上任一项所述的实体标注方法的步骤。
本发明实施例还提供了一种实体标注装置,包括分段模块、监听模块和选中模块,其中:
分段模块,用于按照预设的规则,对待标注的文本进行分段;
监听模块,用于监听并接收用户的鼠标双击操作,如果接收的鼠标操作为预定义的选词操作,则通知选中模块;
选中模块,用于接收到选中模块的通知,检测当前鼠标所在文本的偏移位置是否在已分好的一个分段内,如果当前鼠标所在文本的偏移位置在已分好的一个分段内,则选中该分段并将该分段显示为被选中的状态。
进一步地,所述预设的规则包括以下至少之一:
规则1:数字与以下三者至少之一:年、月、日组成的内容,为一个所述分段;
规则2:长度小于或等于预设字符串长度的括号中的内容,为一个所述分段;
规则3:长度小于或等于预设字符串长度的引号内的内容,为一个所述分段;
规则4:预设的词典中的词,为一个所述分段;
规则5:通过预设的分词器分出的词,为一个所述分段。
进一步地,所述规则i的优先级高于或等于规则i+1的优先级,所述各规则不能切分比自身优先级高的规则切分出的所述分段,其中,i为1至4之间的自然数。
进一步地,所述预定义的选词操作为鼠标左键双击、鼠标左键单击或者鼠标右键单击。
本发明的技术方案,具有如下有益效果:
本发明提供的实体标注方法和装置、计算机可读存储介质,通过按照预设的规则对待标注的文本进行分段,并通过预定义的选词操作选中已分好的分段,解决了原本的实体标注需要很多的鼠标选中并移动的标签内容选择的问题,大大提高了选中标签文本时的效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例的一种实体标注方法的流程示意图;
图2为本发明实施例的一种经过实体标注的文本结构示意图;
图3为本发明实施例的一种实体标注装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
自然语言处理,是对语音、文本等数据进行处理、转换、抽取信息的一大类问题的总称。实体,这里重点指自然语言处理领域中的命名实体识别(Named EntityRecognition,NER),但不限于命名实体。关系,这里重点是指自然语言处理领域中的实体与实体之间的关系。实体识别,从输入文本中提取出具有一定语义信息的实体,如姓名、日期、地点、组织机构等。关系识别,从输入文本中提取具有一定语义信息的实体与实体之间的关系,如父母与子女、雇佣、任职、地缘关系等。训练,指机器学习领域中,机器根据训练数据以及损失函数来更新模型参数的过程。中文分词(Chinese Word Segmentation,CWS)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
参考图1,根据本发明实施例的一种实体标注方法,包括如下步骤:
步骤101:按照预设的规则,对待标注的文本进行分段;
需要说明的是,待标注的文本在呈现到前端之前,已经在后台被预设的规则切分成多段内容,前端正常连续显示切分好的多段内容。
本实施例中,所述预设的规则包括以下至少之一:
规则1:数字与以下三者至少之一:年、月、日组成的内容,为一个所述分段;
规则2:长度小于或等于预设字符串长度的括号中的内容,为一个所述分段;
规则3:长度小于或等于预设字符串长度的引号内的内容,为一个所述分段;
规则4:预设的词典中的词,为一个所述分段;
规则5:通过预设的分词器分出的词,为一个所述分段。
本实施例中,规则i的优先级高于或等于规则i+1的优先级,各规则不能切分比自身优先级高的规则切分出的分段,其中,i为1至4之间的自然数。
需要说明的是,谷歌浏览器(Google Chrome)等浏览器模型内部具有自己的词库以及一些规则,使得用户通过双击自动选择在词库内的词(例如“中国”这个词)或者符合预设规则的内容(例如一个11位数字组成的手机号),但Chrome等浏览器内置的词库与规则并不能帮助实际标注任务提升标注效率。因此我们需要重新设计浏览器(本发明的应用场景也可以不限于浏览器,在其它的文本显示与操作应用中同样适用)的内置词库和规则来达到我们希望的通过双击标注的内容,例如:
(1)只有数字、年、月、日组成的内容,应该通过鼠标双击整体被选中,如图2中的①所示;
(2)括号中的内容(长度在预设的字符串长度范围内,例如10个汉字以内),通过双击,全部被选中,如图2中的③所示;
(3)引号内的内容(长度在预设的字符串长度范围内,例如10个汉字以内),通过双击,全部被选中,如图2中的②所示;
(4)某些词典中的词,通过双击,直接被选中,如图2中的④所示;
(5)使用分词器得到的词。
本申请的规则并不限于以上的五条文本分段规则。以上文本分段规则,优先级依次降低,优先级低的规则只能在优先级高的切分以外进行切分,不能再切分优先级高的规则切分出来的文本字段。
步骤102:监听并接收用户的鼠标操作,如果接收的鼠标操作为预定义的选词操作,则检测当前鼠标所在文本的偏移位置是否在已分好的一个分段内;
本实施例中,如果接收的鼠标操作不是预定义的选词操作,则返回步骤102继续监听并接收用户的鼠标操作。
本实施例中,所述预定义的选词操作为鼠标左键双击、鼠标左键单击或者鼠标右键单击。
步骤103:如果当前鼠标所在文本的偏移位置在已分好的一个分段内,则选中该分段并将该分段显示为被选中的状态。
具体地,当用户通过鼠标左键进行双击操作时,双击事件被预置的脚本(例如,javascript脚本)监听并处理;具体处理方法为,获取当前鼠标所在文本的偏移位置p,查询p是否在某一个预切分好的段s之内,如果在段s之内,则将段s显示为被选中的状态。
需要说明的是,使用鼠标左键双击选中一段文本具有极高的效率,对于标注数据的效率提升具有显著的帮助。通过这种自定义浏览器双击操作行为的方法,可以将原本需要很多的鼠标选中并移动的标签内容选择,转化为简单的双击操作。将会大大降低选中标签文本时的效率。
本实施例中,如果当前鼠标所在文本的偏移位置不在已分好的一个分段内,则返回步骤102继续监听并接收用户的鼠标操作。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如以上任一项所述的实体标注方法的步骤。
本发明实施例还公开了一种实体标注装置,包括处理器及存储器,其中:所述处理器用于执行存储器中存储的实体标注程序,以实现如以上任一项所述的实体标注方法的步骤。
参考图3,根据本发明实施例的一种实体标注装置,包括分段模块301、监听模块302和选中模块303,其中:
分段模块301,用于按照预设的规则,对待标注的文本进行分段;
监听模块302,用于监听并接收用户的鼠标双击操作,如果接收的鼠标操作为预定义的选词操作,则通知选中模块303;
选中模块303,用于接收到选中模块303的通知,检测当前鼠标所在文本的偏移位置是否在已分好的一个分段内,如果当前鼠标所在文本的偏移位置在已分好的一个分段内,则选中该分段并将该分段显示为被选中的状态。
需要说明的是,待标注的文本在呈现到前端之前,已经在后台被分段模块301按照预设的规则切分成多段内容,前端正常连续显示切分好的多段内容。
本实施例中,所述预设的规则包括以下至少之一:
规则1:数字与以下三者至少之一:年、月、日组成的内容,为一个所述分段;
规则2:长度小于或等于预设字符串长度的括号中的内容,为一个所述分段;
规则3:长度小于或等于预设字符串长度的引号内的内容,为一个所述分段;
规则4:预设的词典中的词,为一个所述分段;
规则5:通过预设的分词器分出的词,为一个所述分段。
本实施例中,规则i的优先级高于或等于规则i+1的优先级,各规则不能切分比自身优先级高的规则切分出的分段,其中,i为1至4之间的自然数。
需要说明的是,谷歌浏览器(Google Chrome)等浏览器模型内部具有自己的词库以及一些规则,使得用户通过双击自动选择在词库内的词(例如“中国”这个词)或者符合预设规则的内容(例如一个11位数字组成的手机号),但Chrome等浏览器内置的词库与规则并不能帮助实际标注任务提升标注效率。因此我们需要重新设计浏览器(本发明的应用场景也可以不限于浏览器,在其它的文本显示与操作应用中同样适用)的内置词库和规则来达到我们希望的通过双击标注的内容,例如:
(1)只有数字、年、月、日组成的内容,应该通过鼠标双击整体被选中,如图2中的①所示;
(2)括号中的内容(长度在预设的字符串长度范围内,例如10个汉字以内),通过双击,全部被选中,如图2中的③所示;
(3)引号内的内容(长度在预设的字符串长度范围内,例如10个汉字以内),通过双击,全部被选中,如图2中的②所示;
(4)某些词典中的词,通过双击,直接被选中,如图2中的④所示;
(5)使用分词器得到的词。
本申请的规则并不限于以上的五条文本分段规则。以上文本分段规则,优先级依次降低,优先级低的规则只能在优先级高的切分以外进行切分,不能再切分优先级高的规则切分出来的文本字段。
本实施例中,如果接收的鼠标操作不是预定义的选词操作,则监听模块302继续监听并接收用户的鼠标操作。
本实施例中,所述预定义的选词操作为鼠标左键双击、鼠标左键单击或者鼠标右键单击。
例如,当用户通过鼠标左键进行双击操作时,双击事件被预置的脚本(例如,javascript脚本)监听并处理;具体处理方法为,获取当前鼠标所在文本的偏移位置p,查询p是否在某一个预切分好的段s之内,如果在段s之内,则将段s显示为被选中的状态。
需要说明的是,使用鼠标左键双击选中一段文本具有极高的效率,对于标注数据的效率提升具有显著的帮助。通过这种自定义浏览器双击操作行为的方法,可以将原本需要很多的鼠标选中并移动的标签内容选择,转化为简单的双击操作。将会大大降低选中标签文本时的效率。
本实施例中,如果当前鼠标所在文本的偏移位置不在已分好的一个分段内,则选中模块303不选中任何分段,监听模块302继续监听并接收用户的鼠标操作。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
以上仅为本发明的优选实施例,当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种实体标注方法,其特征在于,包括:
按照预设的规则,对待标注的文本进行分段;
监听并接收用户的鼠标操作,如果接收的鼠标操作为预定义的选词操作,则检测当前鼠标所在文本的偏移位置是否在已分好的一个分段内;
如果当前鼠标所在文本的偏移位置在已分好的一个分段内,则选中该分段并将该分段显示为被选中的状态。
2.根据权利要求1所述的方法,其特征在于,所述预设的规则包括以下至少之一:
规则1:数字与以下三者至少之一:年、月、日组成的内容,为一个所述分段;
规则2:长度小于或等于预设字符串长度的括号中的内容,为一个所述分段;
规则3:长度小于或等于预设字符串长度的引号内的内容,为一个所述分段;
规则4:预设的词典中的词,为一个所述分段;
规则5:通过预设的分词器分出的词,为一个所述分段。
3.根据权利要求2所述的方法,其特征在于,所述规则i的优先级高于或等于规则i+1的优先级,所述各规则不能切分比自身优先级高的规则切分出的所述分段,其中,i为1至4之间的自然数。
4.根据权利要求1所述的方法,其特征在于,所述预定义的选词操作为鼠标左键双击、鼠标左键单击或者鼠标右键单击。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至4中任一项所述的实体标注方法的步骤。
6.一种实体标注装置,其特征在于,包括处理器及存储器,其中:
所述处理器用于执行存储器中存储的实体标注程序,以实现如权利要求1至4中任一项所述的实体标注方法的步骤。
7.一种实体标注装置,其特征在于,包括分段模块、监听模块和选中模块,其中:
分段模块,用于按照预设的规则,对待标注的文本进行分段;
监听模块,用于监听并接收用户的鼠标双击操作,如果接收的鼠标操作为预定义的选词操作,则通知选中模块;
选中模块,用于接收到选中模块的通知,检测当前鼠标所在文本的偏移位置是否在已分好的一个分段内,如果当前鼠标所在文本的偏移位置在已分好的一个分段内,则选中该分段并将该分段显示为被选中的状态。
8.根据权利要求7所述的装置,其特征在于,所述预设的规则包括以下至少之一:
规则1:数字与以下三者至少之一:年、月、日组成的内容,为一个所述分段;
规则2:长度小于或等于预设字符串长度的括号中的内容,为一个所述分段;
规则3:长度小于或等于预设字符串长度的引号内的内容,为一个所述分段;
规则4:预设的词典中的词,为一个所述分段;
规则5:通过预设的分词器分出的词,为一个所述分段。
9.根据权利要求8所述的装置,其特征在于,所述规则i的优先级高于或等于规则i+1的优先级,所述各规则不能切分比自身优先级高的规则切分出的所述分段,其中,i为1至4之间的自然数。
10.根据权利要求7所述的装置,其特征在于,所述预定义的选词操作为鼠标左键双击、鼠标左键单击或者鼠标右键单击。
CN201810643729.9A 2018-06-21 2018-06-21 一种实体标注方法和装置、计算机可读存储介质 Pending CN108959248A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810643729.9A CN108959248A (zh) 2018-06-21 2018-06-21 一种实体标注方法和装置、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810643729.9A CN108959248A (zh) 2018-06-21 2018-06-21 一种实体标注方法和装置、计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN108959248A true CN108959248A (zh) 2018-12-07

Family

ID=64492042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810643729.9A Pending CN108959248A (zh) 2018-06-21 2018-06-21 一种实体标注方法和装置、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108959248A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829167A (zh) * 2019-02-22 2019-05-31 维沃移动通信有限公司 一种分词处理方法和移动终端
US11954439B2 (en) 2019-08-30 2024-04-09 Boe Technology Group Co., Ltd. Data labeling method and device, and storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126052A (zh) * 2016-06-23 2016-11-16 北京小米移动软件有限公司 文本选择方法及装置
CN106202004A (zh) * 2016-07-13 2016-12-07 上海轻维软件有限公司 基于正则表达及分隔符的组合式数据切割方法
CN106484266A (zh) * 2016-10-18 2017-03-08 北京锤子数码科技有限公司 一种文本处理方法及装置
CN106951168A (zh) * 2017-03-03 2017-07-14 宇龙计算机通信科技(深圳)有限公司 一种文字处理方法及移动终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126052A (zh) * 2016-06-23 2016-11-16 北京小米移动软件有限公司 文本选择方法及装置
CN106202004A (zh) * 2016-07-13 2016-12-07 上海轻维软件有限公司 基于正则表达及分隔符的组合式数据切割方法
CN106484266A (zh) * 2016-10-18 2017-03-08 北京锤子数码科技有限公司 一种文本处理方法及装置
CN106951168A (zh) * 2017-03-03 2017-07-14 宇龙计算机通信科技(深圳)有限公司 一种文字处理方法及移动终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中国标准出版社编: "《字符集和信息编码国家标准汇编 下》", 31 October 1998 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829167A (zh) * 2019-02-22 2019-05-31 维沃移动通信有限公司 一种分词处理方法和移动终端
CN109829167B (zh) * 2019-02-22 2023-11-21 维沃移动通信有限公司 一种分词处理方法和移动终端
US11954439B2 (en) 2019-08-30 2024-04-09 Boe Technology Group Co., Ltd. Data labeling method and device, and storage medium

Similar Documents

Publication Publication Date Title
EP2570974B1 (en) Automatic crowd sourcing for machine learning in information extraction
Anthony Visualisation in corpus-based discourse studies
Kaur et al. A survey of named entity recognition in English and other Indian languages
WO2020233386A1 (zh) 基于aiml的智能问答方法、装置、计算机设备及存储介质
JP2009026195A (ja) 商品分類装置、商品分類方法及びプログラム
WO2021174864A1 (zh) 基于少量训练样本的信息抽取方法及装置
CN113220836A (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
CN103678412A (zh) 一种文档检索的方法及装置
CN112269862B (zh) 文本角色标注方法、装置、电子设备和存储介质
CN114861677B (zh) 信息抽取方法、装置、电子设备以及存储介质
CN111160041A (zh) 语义理解方法、装置、电子设备和存储介质
CN111737623A (zh) 网页信息提取方法及相关设备
CN112115252A (zh) 智能辅助写作处理方法、装置、电子设备及存储介质
CN110442730A (zh) 一种基于deepdive的知识图谱构建方法
CN114970502B (zh) 一种应用于数字政府的文本纠错方法
CN109086274A (zh) 基于约束模型的英文社交媒体短文本时间表达式识别方法
CN109062871B (zh) 一种文本标注方法和装置、计算机可读存储介质
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN108959248A (zh) 一种实体标注方法和装置、计算机可读存储介质
Rao et al. ESM-IL: Entity Extraction from Social Media Text for Indian Languages@ FIRE 2015-An Overview.
CN114064913A (zh) 一种基于知识图谱的文档检索方法及***
CN111597302A (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN109062890B (zh) 一种标签切换方法和装置、计算机可读存储介质
CN110147358B (zh) 自动问答知识库的建设方法及建设***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181207

RJ01 Rejection of invention patent application after publication