CN113987118A - 语料的获取方法、装置、设备及存储介质 - Google Patents

语料的获取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113987118A
CN113987118A CN202111154517.2A CN202111154517A CN113987118A CN 113987118 A CN113987118 A CN 113987118A CN 202111154517 A CN202111154517 A CN 202111154517A CN 113987118 A CN113987118 A CN 113987118A
Authority
CN
China
Prior art keywords
corpus
word
information text
words
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111154517.2A
Other languages
English (en)
Inventor
张�浩
应森辞
董宇
霍承富
周凯
任卫军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202111154517.2A priority Critical patent/CN113987118A/zh
Publication of CN113987118A publication Critical patent/CN113987118A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Manufacturing & Machinery (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例涉及一种语料的获取方法、装置、设备及存储介质,其中,该方法通过获取对象的多个信息文本,分别对每个信息文本进行处理,得到每个信息文本的中间语料,中间语料中包括信息文本中的至少部分词语,之后可以针对每个中间语料,对中间语料中的词语进行组合,并基于组合得到的组合词在多个信息文本中的词频和词频逆向文件频率TFIDF值,确定对象的目标语料。本方案避免了相关技术中仅依赖词频造成的语料倾向于出现更多的词的问题,能够解决重要但是词频不高的语料发现问题,提升了语料确定的准确性和全面性,并且不需要构建数据量非常大的词典,节省了资源。

Description

语料的获取方法、装置、设备及存储介质
技术领域
本公开实施例涉及文本处理技术领域,尤其涉及一种语料的获取方法、装置、设备及存储介质。
背景技术
用户直连制造(Customer-to-Manufacturer,简称C2M)模式,是一种用户直连制造商的商业模式。在C2M模式下,制造商可以根据商品的历史表现企划出符合消费者需求和市场的商品。在对商品的历史表现进行分析时,通常采用的是实体发现技术,而在实体发现技术中如何从信息文本中获取足够准确、全面,且符合商品特性的语料是本领域技术人员长期致力于解决的技术问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种语料的获取方法、装置、设备及存储介质。
本公开实施例的第一方面提供了一种语料的获取方法,包括:
获取对象的多个信息文本;
分别对每个信息文本进行处理,得到每个信息文本的中间语料,所述中间语料中包括所述信息文本中的至少部分词语;
针对每个中间语料,对所述中间语料中的词语进行组合,并基于组合得到的组合词在所述多个信息文本中的词频和词频逆向文件频率TFIDF值,确定所述对象的目标语料。
本公开实施例的第二方面提供了一种语料的获取装置,包括:
获取模块,用于获取对象的多个信息文本;
处理模块,用于分别对每个信息文本进行处理,得到每个信息文本的中间语料,所述中间语料中包括所述信息文本中的至少部分词语;
确定模块,用于针对每个中间语料,对所述中间语料中的词语进行组合,并基于组合得到的组合词在所述多个信息文本中的词频和词频逆向文件频率TFIDF值,确定所述对象的目标语料。
本公开实施例的第三方面提供了一种计算机设备,该计算机设备包括存储器和处理器,其中,存储器中存储有计算机程序,当该计算机程序被处理器执行时,可以实现上述第一方面的方法。
本公开实施例的第四方面提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,当该计算机程序被处理器执行时,可以实现上述第一方面的方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例,通过获取对象的多个信息文本,分别对每个信息文本进行处理,得到每个信息文本的中间语料,中间语料中包括信息文本中的至少部分词语,之后可以针对每个中间语料,对中间语料中的词语进行组合,并基于组合得到的组合词在多个信息文本中的词频和词频逆向文件频率TFIDF值,确定对象的目标语料。由于在对象的信息文本中确定语料时先获取中间语料,再针对中间语料基于词频和TFIDF值确定最终的语料,避免了相关技术中仅依赖词频造成的语料倾向于出现更多的词的问题,能够解决重要但是词频不高的语料发现问题,提升了语料确定的准确性和全面性,并且不需要构建数据量非常大的词典,节省了资源。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种语料的获取场景的示意图;
图2是本公开实施例提供的一种语料的获取方法的流程图;
图3是本公开实施例提供的另一种语料的获取方法的流程图;
图4是本公开实施例提供的一种语料的获取装置的结构示意图;
图5是本公开实施例中的一种计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
在对商品的历史表现进行分析时,如果要在标准化产品单元(Standard ProductUnit,SPU)的粒度上分析,实体发现技术是其中重要的关键技术,而在实体发现技术中如何从信息文本中获取足够准确、全面,且符合商品特性的语料是本领域技术人员长期致力于解决的技术问题。
相关技术中通常先得到文本中的单个字,然后两个相邻字组成词,再三个字组成词,假设预设的词长是4,则再四个字组成词,最终,将以上得到的词组成一个词典,再进行筛选得到语料。示例性的,相关技术中确定语料的过程可以包括:首先对于未分词的文本设置两个参数,最大词长度,最小词频,然后将所有文本在上述两个参数的条件下进行分词;基于上述过程构建了一个超级的大的top词典,然后统计上述top词典中每个词的词频和出现概率,使用词的出现概率计算文本中每个句子的所有组合概率,使用最大期望算法(Expectation-maximization algorithm,EM算法)选择每个句子概率最大的可能,并迭代更新词典的词的出现概率,更新整个语料库后删除概率较小的词以精简词典。但是相关技术中需要构建一个超级大的词典,非常耗费资源;EM算法中每个词的初始概率是词频除以文本中的总词数,这样会让算法倾向于选择出现次数更多的词而不是有特色的新词,进而使得语料的准确性和全面性不能满足要求。
针对相关技术中如何从信息文本中获取足够准确、全面,且符合商品特性的语料的技术问题,本公开实施例提供了一种语料的获取方案,示例性的,图1是本公开实施例提供的一种语料的获取场景的示意图,如图1所示,计算机设备可以获取对象的多个信息文本,之后分别对每个信息文本进行处理,得到每个信息文本的中间语料,该中间语料中可以包括信息文本中的至少部分词语;然后计算机设备可以针对每个中间语料,对中间语料中的词语进行组合,并基于组合得到的组合词在多个信息文本中的词频和词频逆向文件频率TFIDF值,确定对象的目标语料。由于在对象的信息文本中确定语料时先获取中间语料,再针对中间语料基于词频和TFIDF值确定最终的语料,避免了相关技术中仅依赖词频造成的语料倾向于出现更多的词的问题,能够解决重要但是词频不高的语料发现问题,提升了语料确定的准确性和全面性,并且不需要构建数据量非常大的词典,节省了资源。
为了更好的理解本公开实施例的发明构思,下面结合示例性的实施例对本公开实施例的技术方案进行说明。
图2是本公开实施例提供的一种语料的获取方法的流程图,该方法可以由一种计算机设备来执行。如图2所示,本实施例提供的方法包括如下步骤:
步骤101、获取对象的多个信息文本。
其中,对象可以理解为需要对历史表现进行分析的实体,例如对象在电商场景中可以是商品,对象的数量不限,可以包括一个或多个。信息文本可以是与对象相关的未经处理的原始文本,一个对象可以对应多个信息文本。
在本公开实施例中,计算机设备可以针对需要分析的对象,获取其对应的多个信息文本,信息文本的来源不限,例如可以获取用户输入的信息文本,也可以获取其他计算机设备发送的信息文本,还可以从互联网中获取信息文本。
步骤102、分别对每个信息文本进行处理,得到每个信息文本的中间语料。
其中,中间语料可以是对上述信息文本进行预处理之后得到语料,预处理可以理解为进行变换(transform)处理以生成易于后续算法处理使用的结构,也即生成中间语料。
在本公开实施例中,计算机设备可以分别对每个信息文本进行分词处理,得到每个信息文本对应的第一分词结果,之后可以基于每个信息文本对应的第一分词处理结果生成每个信息文本的中间语料,其中,第一分词结果中包括信息文本拆分得到的单个文字和/或单词。
上述第一分词结果可以理解为被打散的单个结构,并且考虑中英文情况不同,中文会被拆分为单个文字,而英文则保留整个单词。具体的,计算机设备可以针对每个信息文本采用分词算法进行分词,得到对应的第一分词结果,上述分词算法可以根据实际情况设置,例如分词算法可以采用SubWord算法,SubWord算法可以将文本划分为最小的单元,而这些单元可以组合得到新的词语。示例性的,“open编织线”会被分词为“open”、“编”、“织”和“线””。然后,计算机设备可以针对每个信息文本对应的第一分词处理结果进行进一步的预处理,得到每个信息文本的中间语料。
上述对每个信息文本对应的第一分词处理结果的进一步的预处理可以是基于预设规则删除部分词语,因此本公开实施例的中间语料中可以包括信息文本中的至少部分词语。预设规则可以包括删除无效字符、替换数字等,仅为示例,具体可以根据实际情况设置。
上述方案中,计算机设备可以对每个信息文本进行语料预处理,将原始的文本变换得到易于后续处理的中间语料,有助于后续目标语料的生成。
步骤103、针对每个中间语料,对中间语料中的词语进行组合,并基于组合得到的组合词在多个信息文本中的词频和词频逆向文件频率TFIDF值,确定对象的目标语料。
其中,组合词可以是两个词组合得到词,词语可以是对能够进行组合的结构的统称,词语可以包括上述单个文字、单词,也可以包括组合词。词频可以是一个词在文本中出现的次数。词频逆向文件频率(Term FrequencyInverse Document Frequency,TFIDF)值可以用于评估一个词对于一个文本的重要程度,该重要程度与词频成正比,但与出现该词的文本的数量成反比。目标语料可以是最终生成的符合对象特性的语料。
示例性的,图3是本公开实施例提供的另一种语料的获取方法的流程图,如图3所示,在一种可行的实施方式中,针对每个中间语料,对中间语料中的词语进行组合,并基于组合得到的组合词在多个信息文本中的词频和词频逆向文件频率TFIDF值,确定对象的目标语料,可以包括如下步骤:
步骤301、将中间语料中相邻的两个词进行组合,得到多个组合词。
其中,组合的过程可以是两个字符构建一个词的过程,例如可以采用二元语法(bigram)实现上述组合。
具体的,计算机设备得到中间语料之后,由于初始的中间语料中包括单个文字和/或单词,可以针对每个中间语料,将其中相邻的两个词分别进行组合,得到多个组合词,也即每个中间语料均得到多个组合词。
步骤302、针对每个组合词,将组合词的词频与组合词的TFIDF值进行乘积运算,得到第一运算值。
计算机设备获得多个组合词之后,针对每个组合词,可以确定该组合词在其对应的信息文本中的出现次数,也即该组合词的词频,并且确定上述多个信息文本中出现该组合词的目标信息文本的数量。由于上述信息文本中句子数量庞大,串行程序时间代价过高,本公开实施例中可以采用Mapreduce的编程模型,针对每个信息文本可以将句子随机分配到不同的映射(Mapper)程序中并行计算上述组合词的词频,最后在归约(Reducer)程序中将相同的组合词的词频累加得到组合词在一个信息文本中的总词频。
之后计算机设备可以计算每个组合词的词频除以包含该组合词的目标信息文本的数量的商,并将商确定为组合词的TFIDF值,示例性的,假设组合词“激动”在对应信息文本中出现了5次,出现该组合词“激动”的信息文本的数量为7,则“激动”的TFIDF值为5/7。然后,计算机设备可以针对每个组合词,将组合词的词频与组合词的TFIDF值进行乘积运算,得到第一运算值,每个组合词均计算得到一个第一运算值。
步骤303、将第一运算值最大的目标组合词加入中间语料,并删除中间语料中组合得到目标组合词的词。
具体的,计算机设备针对每个组合词得到对应的第一运算值之后,可以确定多个第一运算值中第一运算值最大的的组合词为目标组合词,并将该目标组合词添加入上述中间语料中,适应性地删除中间语料中组合成该目标组合词的两个词。
在此步骤中计算机设备完成了新词发现和模版生成两个部分,在新词发现过程,可以采用字节对编码(Byte Pair Encoding,BPE)算法对全部组合词根据上述第一运算值进行排序,之后使用贪心算法选择第一运算值最高的目标组合词作为新词;在模版生成过程,可以采用WP(Word Piece)算法在发现上述新词之后遍历一遍中间语料将第一运算值最大的两个词合并生成目标组合词,算法迭代生成的新词作为中间语料中的一个添加进去。
上述BPE算法倾向于确定语料中最高频出现的实体,例如在T恤类目中经常出现的尺码实体“数字”或“尺码”,而WP算法倾向于合并语料中最大概率成为一个新词的两个词,也即将两个常组合在一起的词合并,例如将“硅”和“胶”合并为“硅胶”,将“编”和“织”合并为“编织”等。
步骤304、跳转到将中间语料中相邻的两个词进行组合,得到多个组合词的步骤继续执行,直到基于中间语料得到的组合词的词频均小于预设词频为止,将中间语料中的词确定为对象的目标语料。
具体的,计算机设备在将目标组合词加入中间语料并删除中间语料中组合得到目标组合词的词之后,可以针对包括目标组合词的中间语料,跳转回步骤301,判断生成的组合词的词频是否均小于预设词频,若是,则停止,并将当前中间语料中的词确定为对象的目标语料;如果生成的组合词中任意一个词频大于或等于预设词频,则再次执行步骤302-步骤303,不断进行迭代,直到某次迭代在步骤301之后基于中间语料得到的组合词的词频均小于预设词频时,则停止迭代。
在本步骤中,计算机设备可以将基于中间语料得到的组合词的词频均小于预设词频作为约束条件,之后将上一轮生成的目标组合词作为一个整体参加到下一轮的处理中,进行迭代,并采用上一轮的目标组合词与相邻的词进行组合,重复上述过程,直到满足约束条件时则停止迭代,并且可以确定对象的最终的目标语料。
本方案提供的语料的获取方案,可以基于词概率编码(Word ProbabilityEncoding,WPE)算法实现,WPE算法是一种基于SubWord算法思想的新词发现算法,通过词频统计的方法找出信息文本中满足条件的新词,并将其作为语料提取出来。示例性的,针对信息文本“p30mate20”,WPE算法会将“mate”提取出来,而“30m”不会被提取出来。
本方案属于一种自上而下(top-down)的处理方案,首先将文本在最细粒度上分词,然后合并相邻词块,基于贪心算法和TFIDF值确定语料,不需要构建非常大的词典,能够节省内存,避免资源消耗;并且相较于相关技术中倾向于选择出现更多的词而不是有特色的新词,本方案中贪心算法能够保证句子被分词后的效果更合理,TFIDF值可以解决重要但是出现频次不高的新词发现问题,进而提升了语料确定的准确性和全面性。
本公开实施例,通过获取对象的多个信息文本,分别对每个信息文本进行处理,得到每个信息文本的中间语料,中间语料中包括信息文本中的至少部分词语,之后可以针对每个中间语料,对中间语料中的词语进行组合,并基于组合得到的组合词在多个信息文本中的词频和词频逆向文件频率TFIDF值,确定对象的目标语料。由于在对象的信息文本中确定语料时先获取中间语料,再针对中间语料基于词频和TFIDF值确定最终的语料,避免了相关技术中仅依赖词频造成的语料倾向于出现更多的词的问题,能够解决重要但是词频不高的语料发现问题,提升了语料确定的准确性和全面性,并且不需要构建数据量非常大的词典,节省了资源。
在一种可行的实施方式中,基于每个信息文本对应的第一分词处理结果生成每个信息文本的中间语料时,可以针对每个信息文本的第一分词处理结果,从第一分词处理结果中删除第一预设字符,得到信息文本的第二分词处理结果;基于信息文本的第二分词处理结果生成信息文本的中间语料;其中第一预设字符包括标点符号和/或空格。
上述第一预设字符可以理解为无效特殊字符,例如该第一预设字符可以包括各种标点符号以及空格等。具体的,计算机设备在基于每个信息文本对应的第一分词处理结果生成每个信息文本的中间语料时,可以将各第一分词处理结果中的第一预设字符删除,得到第二分词处理结果,之后基于第二分词处理结果生成信息文本的中间语料。
在一种可行的实施方式中,基于信息文本的第二分词处理结果生成信息文本的中间语料时,可以将第二分词处理结果中具有数字含义的词替换为第二预设字符,得到第三分词处理结果;将第三分词处理结果作为中间语料。
上述具有数字含义的词可以理解为各种语言表征的数字,例如中文数字、***数字等。第二预设字符可以是一种统一的特殊标记符号,具体可以根据实际情况设置,例如第二预设字符可以为“$”。
具体的,计算机设备在基于信息文本的第二分词处理结果生成信息文本的中间语料时,可以采用统一的第二预设字符替换第二分词处理结果中具有数字含义的词,针对中文数字,可以先通过数字转换单元转换成***数字之后再替换为第二预设字符。
上述方案中,在生成中间语料的过程中融入了对特殊字符和具有数字含义的词的处理,有助于在后续确定语料时方便找到更加统一的模式,提升了语料的丰富性和全面性,进而使后续提取的属性实体模版不仅仅是一个词而是一种模版。
本公开实施例生成的准确、全面,且符合商品特性的语料可以应用于电商领域的多语言混合文本的商品属性实体提取中,可以提取到的属性中包括相应商品所特有的特性,属性实体比较丰富。进而基于生成的实体模版以及用户的信息可以实现制定商品企划、推荐策略和搜索推荐等服务功能,有助于在上述服务场景中取得较好的服务效果。
图4是本公开实施例提供的一种语料的获取装置的结构示意图,该处理装置可以被理解为上述计算机设备或者上述计算机设备中的部分功能模块。如图4所示,该语料的获取装置40包括:
获取模块41,用于获取对象的多个信息文本;
处理模块42,用于分别对每个信息文本进行处理,得到每个信息文本的中间语料,所述中间语料中包括所述信息文本中的至少部分词语;
确定模块43,用于针对每个中间语料,对所述中间语料中的词语进行组合,并基于组合得到的组合词在所述多个信息文本中的词频和词频逆向文件频率TFIDF值,确定所述对象的目标语料。
在一种实施方式中,所述处理模块42,包括:
处理子模块,用于分别对每个信息文本进行分词处理,得到每个信息文本对应的第一分词结果;
生成子模块,用于基于每个信息文本对应的第一分词处理结果生成每个信息文本的中间语料;
其中,所述第一分词结果中包括所述信息文本拆分得到的单个文字和/或单词。
在一种实施方式中,所述生成子模块,用于:
针对每个信息文本的第一分词处理结果,从所述第一分词处理结果中删除第一预设字符,得到所述信息文本的第二分词处理结果;
基于所述信息文本的第二分词处理结果生成所述信息文本的中间语料;
其中所述第一预设字符包括标点符号和/或空格。
在一种实施方式中,所述生成子模块,进一步用于:
将所述第二分词处理结果中具有数字含义的词替换为第二预设字符,得到第三分词处理结果;
将所述第三分词处理结果作为中间语料。
在一种实施方式中,所述确定模块43,用于:
将所述中间语料中相邻的两个词进行组合,得到多个组合词;
针对每个组合词,将所述组合词的词频与所述组合词的TFIDF值进行乘积运算,得到第一运算值;
将所述第一运算值最大的目标组合词加入所述中间语料,并删除所述中间语料中组合得到所述目标组合词的词;
跳转到所述将所述中间语料中相邻的两个词进行组合,得到多个组合词的步骤继续执行,直到基于所述中间语料得到的组合词的词频均小于预设词频为止,将所述中间语料中的词确定为所述对象的目标语料。
本实施例提供的装置能够执行上述图1-图3中任一实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
本公开实施例还提供一种计算机设备,该计算机设备包括处理器和存储器,其中,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时可以实现上述图1-图3中任一实施例的方法。
示例的,图5是本公开实施例中的一种计算机设备的结构示意图。下面具体参考图5,其示出了适于用来实现本公开实施例中的计算机设备500的结构示意图。本公开实施例中的计算机设备500可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的计算机设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有计算机设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许计算机设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的计算机设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述计算机设备中所包含的;也可以是单独存在,而未装配入该计算机设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该计算机设备执行时,使得该计算机设备:获取对象的多个信息文本;分别对每个信息文本进行处理,得到每个信息文本的中间语料,所述中间语料中包括所述信息文本中的至少部分词语;针对每个中间语料,对所述中间语料中的词语进行组合,并基于组合得到的组合词在所述多个信息文本中的词频和词频逆向文件频率TFIDF值,确定所述对象的目标语料。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
本公开实施例还提供一种计算机可读存储介质,所述存储介质中存储有计算机程序,当所述计算机程序被处理器执行时可以实现上述图1-图2中任一实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种语料的获取方法,其特征在于,包括:
获取对象的多个信息文本;
分别对每个信息文本进行处理,得到每个信息文本的中间语料,所述中间语料中包括所述信息文本中的至少部分词语;
针对每个中间语料,对所述中间语料中的词语进行组合,并基于组合得到的组合词在所述多个信息文本中的词频和词频逆向文件频率TFIDF值,确定所述对象的目标语料。
2.根据权利要求1所述的方法,其特征在于,所述分别对每个信息文本进行处理,得到每个信息文本的中间语料,包括:
分别对每个信息文本进行分词处理,得到每个信息文本对应的第一分词结果;
基于每个信息文本对应的第一分词处理结果生成每个信息文本的中间语料;
其中,所述第一分词结果中包括所述信息文本拆分得到的单个文字和/或单词。
3.根据权利要求2所述的方法,其特征在于,所述基于每个信息文本对应的第一分词处理结果生成每个信息文本的中间语料,包括:
针对每个信息文本的第一分词处理结果,从所述第一分词处理结果中删除第一预设字符,得到所述信息文本的第二分词处理结果;
基于所述信息文本的第二分词处理结果生成所述信息文本的中间语料;
其中所述第一预设字符包括标点符号和/或空格。
4.根据权利要求3所述的方法,其特征在于,所述基于所述信息文本的第二分词处理结果生成所述信息文本的中间语料,包括:
将所述第二分词处理结果中具有数字含义的词替换为第二预设字符,得到第三分词处理结果;
将所述第三分词处理结果作为中间语料。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述针对每个中间语料,对所述中间语料中的词语进行组合,并基于组合得到的组合词在所述多个信息文本中的词频和词频逆向文件频率TFIDF值,确定所述对象的目标语料,包括:
将所述中间语料中相邻的两个词进行组合,得到多个组合词;
针对每个组合词,将所述组合词的词频与所述组合词的TFIDF值进行乘积运算,得到第一运算值;
将所述第一运算值最大的目标组合词加入所述中间语料,并删除所述中间语料中组合得到所述目标组合词的词;
跳转到所述将所述中间语料中相邻的两个词进行组合,得到多个组合词的步骤继续执行,直到基于所述中间语料得到的组合词的词频均小于预设词频为止,将所述中间语料中的词确定为所述对象的目标语料。
6.一种语料的获取装置,其特征在于,包括:
获取模块,用于获取对象的多个信息文本;
处理模块,用于分别对每个信息文本进行处理,得到每个信息文本的中间语料,所述中间语料中包括所述信息文本中的至少部分词语;
确定模块,用于针对每个中间语料,对所述中间语料中的词语进行组合,并基于组合得到的组合词在所述多个信息文本中的词频和词频逆向文件频率TFIDF值,确定所述对象的目标语料。
7.根据权利要求6所述的装置,其特征在于,所述处理模块,包括:
处理子模块,用于分别对每个信息文本进行分词处理,得到每个信息文本对应的第一分词结果;
生成子模块,用于基于每个信息文本对应的第一分词处理结果生成每个信息文本的中间语料;
其中,所述第一分词结果中包括所述信息文本拆分得到的单个文字和/或单词。
8.根据权利要求7所述的装置,其特征在于,所述生成子模块,用于:
针对每个信息文本的第一分词处理结果,从所述第一分词处理结果中删除第一预设字符,得到所述信息文本的第二分词处理结果;
基于所述信息文本的第二分词处理结果生成所述信息文本的中间语料;
其中所述第一预设字符包括标点符号和/或空格。
9.一种计算机设备,其特征在于,包括:
存储器和处理器,其中,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,实现如权利要求1-5中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-5中任一项所述的方法。
CN202111154517.2A 2021-09-29 2021-09-29 语料的获取方法、装置、设备及存储介质 Pending CN113987118A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111154517.2A CN113987118A (zh) 2021-09-29 2021-09-29 语料的获取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111154517.2A CN113987118A (zh) 2021-09-29 2021-09-29 语料的获取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113987118A true CN113987118A (zh) 2022-01-28

Family

ID=79737291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111154517.2A Pending CN113987118A (zh) 2021-09-29 2021-09-29 语料的获取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113987118A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117910467A (zh) * 2024-03-15 2024-04-19 成都启英泰伦科技有限公司 一种离线语音识别过程中的分词处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117910467A (zh) * 2024-03-15 2024-04-19 成都启英泰伦科技有限公司 一种离线语音识别过程中的分词处理方法
CN117910467B (zh) * 2024-03-15 2024-05-10 成都启英泰伦科技有限公司 一种离线语音识别过程中的分词处理方法

Similar Documents

Publication Publication Date Title
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN111314388B (zh) 用于检测sql注入的方法和装置
CN115221191A (zh) 一种基于数据湖的虚拟列构建方法以及数据查询方法
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN113987118A (zh) 语料的获取方法、装置、设备及存储介质
CN114036921A (zh) 一种政策信息匹配方法和装置
CN115186738B (zh) 模型训练方法、装置和存储介质
CN113946648B (zh) 结构化信息生成方法、装置、电子设备和介质
CN108664535B (zh) 信息输出方法和装置
CN111737572B (zh) 搜索语句生成方法、装置和电子设备
CN110895655A (zh) 提取文本核心短语的方法和装置
CN113807056A (zh) 一种文档名称序号纠错方法、装置和设备
CN115146070A (zh) 键值生成方法、知识图谱生成方法、装置、设备及介质
CN111338621A (zh) 显示数据方法、装置、电子设备和计算机可读介质
CN116737762B (zh) 结构化查询语句生成方法、装置和计算机可读介质
CN111626044A (zh) 文本生成方法、装置、电子设备及计算机可读存储介质
CN114385781B (zh) 基于语句模型的接口文件推荐方法、装置、设备和介质
CN113609309B (zh) 知识图谱构建方法、装置、存储介质及电子设备
CN115374320B (zh) 文本匹配方法、装置、电子设备、计算机介质
CN117172220B (zh) 文本相似信息生成方法、装置、设备和计算机可读介质
CN116881997B (zh) 城市规划界面展示方法、装置、电子设备和介质
CN116303529A (zh) 一种对象获取方法、装置、电子设备、计算机可读介质
CN116340591A (zh) 一种表格数据的处理方法、装置、设备及存储介质
CN115422907A (zh) 一种多维度科技项目立项查重的方法、装置和电子设备
CN114925684A (zh) 变量名称生成方法、装置、电子设备以及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination