CN113723073A - 语料的处理方法及装置、电子设备、存储介质 - Google Patents
语料的处理方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN113723073A CN113723073A CN202110786655.6A CN202110786655A CN113723073A CN 113723073 A CN113723073 A CN 113723073A CN 202110786655 A CN202110786655 A CN 202110786655A CN 113723073 A CN113723073 A CN 113723073A
- Authority
- CN
- China
- Prior art keywords
- corpus
- sub
- time
- target
- corpora
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种语料的处理方法及装置、电子设备、存储介质,该方法包括:将目标语料拆分成多个子语料;选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取所述目标子语料中的时间信息;关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。通过本发明,解决了现有的实体识别方案无法识别出各个实体之间与时间的对应关系的技术问题。
Description
技术领域
本发明涉及大数据领域,具体而言,涉及一种语料的处理方法及装置、电子设备、存储介质。
背景技术
目前,随着大数据技术的发展以及数据的快速增长,产生了大规模的网络文本数据,文本数据其数据量大、更新速度快,针对数据长度为5-100字符的大规模网络文本,其中包含了大量的时间、地点、人物等重要信息。在网络文本的实体识别应用中,传统的实体识别技术仅能识别文本中的实体,比如文本中的人名、地名、机构名等,无法识别出文本中的时间以及时间与各实体之间的对应关系,无法应用于需要捕捉人员于何时何地行动或何时去往何地等领域。
针对上述相关技术中存在的技术问题,目前没有提出有效的解决方案。
发明内容
鉴于上述问题,本发明提出了一种语料的处理方法及装置、电子设备、存储介质,以至少解决了现有的实体识别方案无法识别出各个实体之间与时间的对应关系的技术问题。
第一方面,本发明提供了一种语料的处理方法,包括:将目标语料拆分成多个子语料;选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取所述目标子语料中的时间信息;关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。
可选的,在将目标语料拆分成多个子语料之后,所述方法还包括:根据时间关键词库从所述多个子语料中筛选出与时间有关的第一子语料,其中,所述时间关键词库包括用于表达时间的时间关键词以及时间正则表达式;检测与所述第一子语料相邻的第二子语料中是否含有与时间有关的语料;若检测到所述第二子语料中没有与时间有关的语料,则将所述第一子语料和所述第二子语料进行组合,得到第三子语料。
可选的,在得到所述第三子语料之后,所述方法还包括:更新目标列表,以使所述第三子语料的存储位置替换所述第一子语料和第二子语料的存储位置;其中,所述目标列表为在将所述目标语料拆分成所述多个子语料之后,通过基于所述多个子语料的上下文顺序存储所述多个子语料生成的。
可选的,所述提取所述目标子语料中的时间信息包括:对所述目标子语料进行清洗,得到第四子语料;基于时间正则库从所述第四子语料中提取时间关键词;对所述时间关键词的时间格式进行标准化,得到所述目标子语料中的时间信息。
可选的,所述目标语料包括文本语料,所述对所述目标子语料进行清洗包括以下至少之一:删除所述目标子语料中的空格或语气助词;修改所述目标子语料中的汉字数字为***数字;将所述目标子语料中汉字格式的时间关键词转换成时间格式的时间关键词。
可选的,所述关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料,包括:利用命名实体识别模型提取所述目标子语料中的多个实体关键词;按照预先设定的语料组合规则将所述目标子语料中的所述时间信息与所述多个实体关键词进行组合,得到所述关联语料。
可选的,所述目标语料包括文本语料,所述将目标语料拆分成多个子语料包括:利用字符串切分方法将所述文本语料拆分成多个文本子语料。
第二方面,本发明还提供了一种语料的处理装置,包括:拆分模块,用于将目标语料拆分成多个子语料;提取模块,用于选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取所述目标子语料中的时间信息;关联模块,用于关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。
可选的,所述装置还包括:筛选模块,用于在将目标语料拆分成多个子语料之后,根据时间关键词库从所述多个子语料中筛选出与时间有关的第一子语料,其中,所述时间关键词库包括用于表达时间的时间关键词以及时间正则表达式;检测模块,用于检测与所述第一子语料相邻的第二子语料中是否含有与时间有关的语料;组合模块,用于若检测到所述第二子语料中没有与时间有关的语料,则将所述第一子语料和所述第二子语料进行组合,得到第三子语料。
可选的,所述装置还包括:更新模块,用于在得到所述第三子语料之后,更新目标列表,以使所述第三子语料的存储位置替换所述第一子语料和第二子语料的存储位置;其中,所述目标列表为在将所述目标语料拆分成所述多个子语料之后,通过基于所述多个子语料的上下文顺序存储所述多个子语料生成的。
可选的,所述提取模块包括:清洗单元,用于对所述目标子语料进行清洗,得到第四子语料;第一提取单元,用于基于时间正则库从所述第四子语料中提取时间关键词;标准化单元,用于对所述时间关键词的时间格式进行标准化,得到所述目标子语料中的时间信息。
可选的,所述目标语料包括文本语料,所述清洗单元包括以下至少之一:删除子单元,用于删除所述目标子语料中的空格或语气助词;修改子单元,用于修改所述目标子语料中的汉字数字为***数字;转换子单元,用于将所述目标子语料中汉字格式的时间关键词转换成时间格式的时间关键词。
可选的,所述关联模块包括:第二提取单元,用于利用命名实体识别模型提取所述目标子语料中的多个实体关键词;组合单元,用于按照预先设定的语料组合规则将所述目标子语料中的所述时间信息与所述多个实体关键词进行组合,得到所述关联语料。
可选的,所述目标语料包括文本语料,所述拆分模块包括:拆分单元,用于利用字符串切分方法将所述文本语料拆分成多个文本子语料。
第三方面,本发明还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
第四方面,本发明还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项装置实施例中的步骤。
本发明实施例提供的语料的处理方法,先将目标语料拆分成多个子语料,有利于提取目标语料中的时间、各实体等语料;选定多个子语料中任一与时间有关的子语料为目标子语料,提取目标子语料中的时间信息,精确地定位出目标语料中的时间语料;通过关联时间信息和目标子语料中包含的多个实体关键词,得到目标子语料中的时间信息和多个实体关键词之间的对应关系,从而提取相关联的时间和实体,解决了现有的实体识别方案无法识别出各个实体之间与时间的对应关系的技术问题,进而能够准确且高效地将语料中的相关联的时间、地点、人物等重要要素提取出来。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的一种语料的处理方法应用于计算机终端的硬件结构框图;
图2是根据本发明实施例提供的一种语料的处理方法的流程图;
图3是根据本发明一具体实施例提供的语料处理方法的流程图;
图4是根据本发明实施例提供的一种语料的处理装置的结构框图;
图5是根据本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。
下面以具体地实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
本发明实施例所提供的方法实施例可以在移动终端、服务器、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例提供的一种语料的处理方法应用于计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102 可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的语料的处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器,也可以包括易失性存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输设备106 包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
图2是根据本发明实施例提供的一种语料的处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,将目标语料拆分成多个子语料;
在本实施例的一种可能的实现方式中,目标语料包括文本语料,将目标语料拆分成多个子语料包括:利用字符串切分方法将文本语料拆分成多个文本子语料。
在本实施例中,可通过标点符号将整段数据切分成多个独立的短句,例如输入的网络文本为“新闻社称,当地时间14日下午1时40分,一架军用直升机在某地被一枚恶意飞弹击中,飞机坠毁,机上所有人员丧生。报道记者XXX,报道于2020年2月14日15时30分。”利用标点符号切分得到的切分结果为:‘新闻社称’,‘当地时间14日下午1时40分’,‘一架军用直升机在某地被一枚恶意飞弹击中’,‘飞机坠毁’,‘机上所有人员丧生’,‘报道记者XXX’,‘报道于2020年2月14日15时30分’。通过将文本进行分割,在后续有利于提取文本中的人物、时间、地点等语料,提取时不会混杂在一起。
在本实施例的另一种可能的实现方式中,还包括:根据时间关键词库从多个子语料中筛选出与时间有关的第一子语料,其中,时间关键词库包括用于表达时间的时间关键词以及时间正则表达式;检测与第一子语料相邻的第二子语料中是否含有与时间有关的语料;若检测到第二子语料中没有与时间有关的语料,则将第一子语料和第二子语料进行组合,得到第三子语料。
在本实施例中,通过将日常时间表达的词语(即上述时间关键词)和规则 (即上述时间正则表达式)搜集起来,整理成文件列表,形成时间关键词库,上传至数据库中保存,用来在目标语料中筛选出与时间有关的语料,例如,与有时间有关的语料为:XXX于5月6日登陆XXX大剧院。
进一步地,利用时间关键词库筛选出与时间有关的子文本;再检测该子文本的上一句或下一句中是否含有与时间有关的语料,如果检测到该子文本上一句或下一句中含有与时间有关的语料,则不作处理;若是检测到该子文本的上一句或下一句没有与时间有关的语料,则使用python列表操作的相关函数,将上一句或下一句与该子文本按照文本的上下文顺序进行组合,组合成一个子语料。
根据上述示例,切分结果为‘新闻社称’,‘当地时间14日下午1时40 分’,‘一架军用直升机在某地被一枚恶意飞弹击中’,‘飞机坠毁’,‘机上所有人员丧生’,‘报道记者XXX’,‘报道于2020年2月14日15时30分’;其中,含有与时间有关的子语料为‘当地时间14日下午1时40分’以及‘报道于2020年2月14日15时30分’。针对子文本“当地时间14日下午1时40分”,检测到其上一句和下一句中均没有与时间有关的语料,则将上述子文本组合的结果为‘新闻社称,当地时间14日下午1时40分,一架军用直升机在某地被一枚恶意飞弹击中’;针对子文本“报道于2020年2月14日15时30分”,其上一句没有与时间有关的语料,则组合结果为‘报道记者XXX,报道于2020年2月14日15时30分’。
根据上述实施例,在通过围绕时间对子语料中的各个实体进行提取时,能够提取出更精确的时间、人物、地点、机构等组合语料。
优选地,在得到第三子语料之后,还包括:更新目标列表,以使第三子语料的存储位置替换第一子语料和第二子语料的存储位置;其中,目标列表为在将目标语料拆分成多个子语料之后,通过基于多个子语料的上下文顺序存储多个子语料生成的。
在本实施例中,将目标语料划分成多个子语料之后,将多个子语料按照上下文顺序存储在目标列表中(比如字符串数组);在得到组合语料后,将组合语料在列表中的存储位置替换之前的子语料的位置,保存在计算机存储中。例如,目标列表更新的结果为[‘新闻社称,当地时间14日下午1时40分,一架军用直升机在某地被一枚恶意飞弹击中’,‘飞机坠毁’,‘机上所有人员丧生’,‘报道记者XXX,报道于2020年2月14日。’],从而方便程序计算。
步骤S204,选定多个子语料中任一与时间有关的子语料为目标子语料,提取目标子语料中的时间信息;
在本实施例的一种可能的实现方式中,提取目标子语料中的时间信息包括:对目标子语料进行清洗,得到第四子语料;基于时间正则库从第四子语料中提取时间关键词;对时间关键词的时间格式进行标准化,得到目标子语料中的时间信息。
优选地,目标语料包括文本语料,对目标子语料进行清洗包括以下至少之一:删除目标子语料中的空格或语气助词;修改目标子语料中的汉字数字为***数字;将目标子语料中汉字格式的时间关键词转换成时间格式的时间关键词。
在本实施例中,首先对目标子语料进行清洗,即对句子进行预处理,其中,预处理包括:1)、删除空格、语气组词等;2)、汉字数字转换为***数字,因为汉字数字对于计算机程序来说不好识别,转为数字后更容易识别和计算; 3)、对不规则表达进行转换。例如,将九点半转换为09:30。
进一步地,使用时间正则库提取文本中包含的时间。以上述子文本“当地时间14日下午1时40分”为例,根据时间正则组合:数字(两位数字,第一位为1或2或3)开头+日+上午或下午或中午或晚上或早上等+数字+时+数字+ 分,则可提取时间14日下午1时40分。再比如子文本“报道记者XXX,报道于2020年2月14日15时30分”,根据时间正则组合:数字(四位)+年+数字+月+数字+日+数字+时+数字+分,可提取子文本中的时间,其中,时间正则库对数字位数和大小进行限制。
接着,根据网络文本的发表时间作为基准时间,将时间格式标准化。例如,网络文本的发表时间的格式为2020年02月14日08:44:41,则将“当地时间 14日下午1时40分”标准化为“2020年02月14日13:40”。
步骤S206,关联时间信息和目标子语料中包含的多个实体关键词,得到关联语料;其中,关联语料用于表征目标子语料中的时间信息和多个实体关键词之间的对应关系。
在本案的一个可能的实现方式中,关联时间信息和目标子语料中包含的多个实体关键词,得到关联语料,包括:利用命名实体识别模型提取目标子语料中的多个实体关键词;按照预先设定的语料组合规则将目标子语料中的时间信息与多个实体关键词进行组合,得到关联语料。
在一个示例中,基于Bert-BiLSTM-CRF实体识别算法将语句中的人名、机构名、地名进行识别并提取。以[‘新闻社称,当地时间14日下午1时40分,一架军用直升机在某地被一枚恶意飞弹击中’,‘飞机坠毁’,‘机上所有人员丧生’,‘报道记者XXX,报道于2020年2月14日15时30分。’]为例,识别结果如下:[[‘人名’:‘无’,‘地址’:‘某地’,‘机构’:‘新闻社’],[‘人名’:‘XXX’,‘地址’:‘无’,‘机构’:‘无’]]‘飞机坠毁’,‘机上所有人员丧生’这两句未识别出实体。
进一步地,将时间、人名、地点、机构名按照预先设定的语料组合规则进行整理,进行输出。基于上述示例,输出组合结果为:[‘2020年02月14日 13:40:00’,‘2020年02月14日15:30:00’];中间两节文本无时间;[[‘人名’:‘无’,‘地址’:‘某地’,‘机构’:‘新闻社’],[‘人名’:‘XXX’, ‘地址’:‘无’,‘机构’:‘无’]]。
借由上述技术方案,本发明实施例提供的语料的处理方法,先将目标语料拆分成多个子语料,有利于提取目标语料中的时间、各实体等语料;选定多个子语料中任一与时间有关的子语料为目标子语料,提取目标子语料中的时间信息,精确地定位出目标语料中的时间语料;通过关联时间信息和目标子语料中包含的多个实体关键词,得到目标子语料中的时间信息和多个实体关键词之间的对应关系,从而提取相关联的时间和实体,解决了现有的实体识别方案无法识别出各个实体之间与时间的对应关系的技术问题,进而能够准确且高效地将语料中的相关联的时间、地点、人物等重要要素提取出来。
下面结合一具体实施例对本发明实施例做进一步地说明:
图3是根据本发明一具体实施例提供的语料处理方法的流程图,如图3所示,包括以下流程步骤:
步骤S301,输入文本(即上述目标语料);
步骤S302,语句切分;利用标点符号等(即上述字符串分割)将语句切分成独立句子,并建立时间关键词库;
步骤S303,筛选带有时间节点的语句;根据时间关键词库筛选包含时间的语句。
步骤S304,检测语句下一句是否包含时间;
步骤S305,提取上一句和本句组合或提取下一句和本句组合;如果上一句或下一句不包含时间,则提取上一句或下一句与该语句组合;若是包含,则不做处理。
步骤S306,将需要提取的语句整理到列表中;
步骤S307,预处理,其中,预处理包括:删除空格、语气组词等;汉字数字转换为***数字;对不规则表达进行转换等,然后将网络文本发表时间作为基准时间,将时间点进行转换,以筛选出有用时间;同时,进行实体命名识别,识别出人名(人名再次全语句识别)、机构名、地名。
步骤S308,输出人名、时间、地点、机构。
通过上述实施例,使用时间关键词库、时间正则库对时间进行识别、提取,也包括语句切分和上下语句组合等方法,精确定位出时间文本,再围绕时间文本进行语句组合,从而提取相关联的时间和实体。
基于上文各个实施例提供的语料的处理方法,基于同一发明构思,在本实施例中还提供了一种语料的处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例提供的一种语料的处理装置的结构框图,如图4 所示,该装置包括:拆分模块40,用于将目标语料拆分成多个子语料;提取模块42,连接至上述拆分模块40,用于选定多个子语料中任一与时间有关的子语料为目标子语料,提取目标子语料中的时间信息;关联模块44,连接至上述提取模块42,用于关联时间信息和目标子语料中包含的多个实体关键词,得到关联语料;其中,关联语料用于表征目标子语料中的时间信息和多个实体关键词之间的对应关系。
可选的,上述装置还包括:筛选模块,用于在将目标语料拆分成多个子语料之后,根据时间关键词库从多个子语料中筛选出与时间有关的第一子语料,其中,时间关键词库包括用于表达时间的时间关键词以及时间正则表达式;检测模块,用于检测与第一子语料相邻的第二子语料中是否含有与时间有关的语料;组合模块,用于若检测到第二子语料中没有与时间有关的语料,则将第一子语料和第二子语料进行组合,得到第三子语料。
可选的,上述装置还包括:更新模块,用于在得到第三子语料之后,更新目标列表,以使第三子语料的存储位置替换第一子语料和第二子语料的存储位置;其中,目标列表为在将目标语料拆分成多个子语料之后,通过基于多个子语料的上下文顺序存储多个子语料生成的。
可选的,提取模块42包括:清洗单元,用于对目标子语料进行清洗,得到第四子语料;第一提取单元,用于基于时间正则库从第四子语料中提取时间关键词;标准化单元,用于对时间关键词的时间格式进行标准化,得到目标子语料中的时间信息。
可选的,目标语料包括文本语料,清洗单元包括以下至少之一:删除子单元,用于删除目标子语料中的空格或语气助词;修改子单元,用于修改目标子语料中的汉字数字为***数字;转换子单元,用于将目标子语料中汉字格式的时间关键词转换成时间格式的时间关键词。
可选的,关联模块44包括:第二提取单元,用于利用命名实体识别模型提取目标子语料中的多个实体关键词;组合单元,用于按照预先设定的语料组合规则将目标子语料中的时间信息与多个实体关键词进行组合,得到关联语料。
可选的,目标语料包括文本语料,拆分模块40包括:拆分单元,用于利用字符串切分方法将文本语料拆分成多个文本子语料。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
基于上文各个实施例提供的语料的处理方法,基于同一发明构思,在本实施例中还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,将目标语料拆分成多个子语料;
S2,选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取所述目标子语料中的时间信息;
S3,关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
基于上述图2所示方法和图4所示装置的实施例,为了实现上述目的,本发明实施例还提供了一种电子设备,如图5所示,包括存储器52和处理器51,其中存储器52和处理器51均设置在总线53上存储器52存储有计算机程序,处理器51执行计算机程序时实现图2所示的语料的处理方法。
基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个存储器(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施场景所述的方法。
可选地,该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种电子设备的结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语料的处理方法,其特征在于,包括:
将目标语料拆分成多个子语料;
选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取所述目标子语料中的时间信息;
关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。
2.根据权利要求1所述的方法,其特征在于,在将目标语料拆分成多个子语料之后,所述方法还包括:
根据时间关键词库从所述多个子语料中筛选出与时间有关的第一子语料,其中,所述时间关键词库包括用于表达时间的时间关键词以及时间正则表达式;
检测与所述第一子语料相邻的第二子语料中是否含有与时间有关的语料;
若检测到所述第二子语料中没有与时间有关的语料,则将所述第一子语料和所述第二子语料进行组合,得到第三子语料。
3.根据权利要求2所述的方法,其特征在于,在得到所述第三子语料之后,所述方法还包括:
更新目标列表,以使所述第三子语料的存储位置替换所述第一子语料和第二子语料的存储位置;其中,所述目标列表为在将所述目标语料拆分成所述多个子语料之后,通过基于所述多个子语料的上下文顺序存储所述多个子语料生成的。
4.根据权利要求1所述的方法,其特征在于,所述提取所述目标子语料中的时间信息包括:
对所述目标子语料进行清洗,得到第四子语料;
基于时间正则库从所述第四子语料中提取时间关键词;
对所述时间关键词的时间格式进行标准化,得到所述目标子语料中的时间信息。
5.根据权利要求4所述的方法,其特征在于,所述目标语料包括文本语料,所述对所述目标子语料进行清洗包括以下至少之一:
删除所述目标子语料中的空格或语气助词;
修改所述目标子语料中的汉字数字为***数字;
将所述目标子语料中汉字格式的时间关键词转换成时间格式的时间关键词。
6.根据权利要求1所述的方法,其特征在于,所述关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料,包括:
利用命名实体识别模型提取所述目标子语料中的多个实体关键词;
按照预先设定的语料组合规则将所述目标子语料中的所述时间信息与所述多个实体关键词进行组合,得到所述关联语料。
7.根据权利要求1所述的方法,其特征在于,所述目标语料包括文本语料,所述将目标语料拆分成多个子语料包括:
利用字符串切分方法将所述文本语料拆分成多个文本子语料。
8.一种语料的处理装置,其特征在于,包括:
拆分模块,用于将目标语料拆分成多个子语料;
提取模块,用于选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取所述目标子语料中的时间信息;
关联模块,用于关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786655.6A CN113723073A (zh) | 2021-07-12 | 2021-07-12 | 语料的处理方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786655.6A CN113723073A (zh) | 2021-07-12 | 2021-07-12 | 语料的处理方法及装置、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113723073A true CN113723073A (zh) | 2021-11-30 |
Family
ID=78673209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110786655.6A Pending CN113723073A (zh) | 2021-07-12 | 2021-07-12 | 语料的处理方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723073A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140372102A1 (en) * | 2013-06-18 | 2014-12-18 | Xerox Corporation | Combining temporal processing and textual entailment to detect temporally anchored events |
CN105718447A (zh) * | 2014-12-05 | 2016-06-29 | 中兴通讯股份有限公司 | 一种时间信息提取方法及装置、智能问答*** |
CN108304375A (zh) * | 2017-11-13 | 2018-07-20 | 广州腾讯科技有限公司 | 一种信息识别方法及其设备、存储介质、终端 |
CN109766549A (zh) * | 2018-12-29 | 2019-05-17 | 贵州小爱机器人科技有限公司 | 时间信息提取方法、装置以及计算机存储介质 |
CN110298029A (zh) * | 2019-05-22 | 2019-10-01 | 平安科技(深圳)有限公司 | 基于用户语料的好友推荐方法、装置、设备及介质 |
CN111221983A (zh) * | 2020-01-15 | 2020-06-02 | 北京百度网讯科技有限公司 | 时序知识图谱生成方法、装置、设备和介质 |
US20200410292A1 (en) * | 2019-06-28 | 2020-12-31 | International Business Machines Corporation | Machine learned historically accurate temporal classification of objects |
US20210056131A1 (en) * | 2019-08-22 | 2021-02-25 | International Business Machines Corporation | Methods and systems for generating timelines for entities |
-
2021
- 2021-07-12 CN CN202110786655.6A patent/CN113723073A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140372102A1 (en) * | 2013-06-18 | 2014-12-18 | Xerox Corporation | Combining temporal processing and textual entailment to detect temporally anchored events |
CN105718447A (zh) * | 2014-12-05 | 2016-06-29 | 中兴通讯股份有限公司 | 一种时间信息提取方法及装置、智能问答*** |
CN108304375A (zh) * | 2017-11-13 | 2018-07-20 | 广州腾讯科技有限公司 | 一种信息识别方法及其设备、存储介质、终端 |
CN109766549A (zh) * | 2018-12-29 | 2019-05-17 | 贵州小爱机器人科技有限公司 | 时间信息提取方法、装置以及计算机存储介质 |
CN110298029A (zh) * | 2019-05-22 | 2019-10-01 | 平安科技(深圳)有限公司 | 基于用户语料的好友推荐方法、装置、设备及介质 |
US20200410292A1 (en) * | 2019-06-28 | 2020-12-31 | International Business Machines Corporation | Machine learned historically accurate temporal classification of objects |
US20210056131A1 (en) * | 2019-08-22 | 2021-02-25 | International Business Machines Corporation | Methods and systems for generating timelines for entities |
CN111221983A (zh) * | 2020-01-15 | 2020-06-02 | 北京百度网讯科技有限公司 | 时序知识图谱生成方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334533B (zh) | 关键词提取方法和装置、存储介质及电子装置 | |
CN109147767B (zh) | 语音中的数字识别方法、装置、计算机设备及存储介质 | |
CN110968684B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
Warnow | Mathematical approaches to comparative linguistics | |
CN102542042A (zh) | 一种在移动设备上搜索应用程序的方法及*** | |
CN112861527A (zh) | 一种事件抽取方法、装置、设备及存储介质 | |
KR102368188B1 (ko) | 인공지능 기반 직업 매칭 시스템 | |
CN109740159B (zh) | 用于命名实体识别的处理方法及装置 | |
CN109190119B (zh) | 时间提取方法和装置、存储介质及电子装置 | |
CN111353014A (zh) | 职位关键词提取、岗位需求更新的方法和装置 | |
CN111144102B (zh) | 用于识别语句中实体的方法、装置和电子设备 | |
CN109299233A (zh) | 文本数据处理方法、装置、计算机设备及存储介质 | |
CN112883730B (zh) | 相似文本匹配方法、装置、电子设备及存储介质 | |
CN111523324A (zh) | 命名实体识别模型的训练方法及装置 | |
CN110929520A (zh) | 非命名实体对象抽取方法、装置、电子设备及存储介质 | |
CN111369980A (zh) | 语音检测方法、装置、电子设备及存储介质 | |
CN114818689A (zh) | 一种域名检测方法、装置、设备、存储介质 | |
JP2020106880A (ja) | 情報処理装置、モデル作成方法及びプログラム | |
CN110209781A (zh) | 一种文本处理方法、装置以及相关设备 | |
CN111325019A (zh) | 词库的更新方法及装置、电子设备 | |
CN113010593B (zh) | 非结构化文本的事件抽取方法、***及装置 | |
CN112560425A (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN114842982B (zh) | 一种面向医疗信息***的知识表达方法、装置及*** | |
CN113723073A (zh) | 语料的处理方法及装置、电子设备、存储介质 | |
CN109299439B (zh) | 数字提取方法和装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |