CN110196905A - 一种生成词表示的方法、装置及计算机可读存储介质 - Google Patents

一种生成词表示的方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110196905A
CN110196905A CN201810162364.8A CN201810162364A CN110196905A CN 110196905 A CN110196905 A CN 110196905A CN 201810162364 A CN201810162364 A CN 201810162364A CN 110196905 A CN110196905 A CN 110196905A
Authority
CN
China
Prior art keywords
word
biu
basic information
information unit
indicates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810162364.8A
Other languages
English (en)
Inventor
孟茜
童毅轩
董滨
姜珊珊
李一韩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN201810162364.8A priority Critical patent/CN110196905A/zh
Priority to JP2019030347A priority patent/JP2019149161A/ja
Publication of CN110196905A publication Critical patent/CN110196905A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种生成词表示的方法、装置及计算机可读存储介质。本发明实施例提供的生成词表示的方法,基于语义相似度,对目标基本信息单元进行聚类处理,得到多个聚类结果,并将目标基本信息单元与聚类结果相集成,生成目标基本信息单元多个义项的词表示。本发明实施例可以生成多义词的不同义项的词表示,并且具有计算量小和效率高的优点。

Description

一种生成词表示的方法、装置及计算机可读存储介质
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种生成词表示的方法、装置及计算机可读存储介质。
背景技术
在自然语言中,多义词被广泛使用。例如,在不同的上下文与领域中,一个单词可能会有多种义项,每个义项对应于一种定义或词义。区分不同上下文中多义词的词义有着重要意义,如在机器翻译、文本自动摘要、信息检索***和其它众多的自然语言处理的***中都有着广泛的应用。
在自然语言处理中,单词语义的一种表示方式是使用词向量进行表示。该表示方式本身难以对多义词进行表示。一种改进方案则是将每个词在不同上下文中转换为不同表示,并相应的训练多个词向量,以实现多义词的表示。但是该改进方案存在着计算量大以及耗时长等缺点。
发明内容
本发明实施例要解决的技术问题是提供一种生成词表示的方法、装置及计算机可读存储介质,用以生成多义词的不同义项的词表示,并且具有计算量小、效率高的优点。
为解决上述技术问题,本发明实施例提供的生成词表示的方法,包括:
从预先收集的文本数据中获取语料数据;
将所述语料数据中的基本信息单元,转换成预定语言模型定义的词形式,所述基本信息单元包括单词、短语和词序列中的至少一种;
基于语义相似度,对目标基本信息单元进行聚类处理,得到多个聚类结果,所述聚类结果包括目标基本信息单元的上下文中出现的多个基本信息单元;
将所述目标基本信息单元分别与每个聚类结果进行集成,得到多个集成结果,并将所述集成结果中的基本信息单元,替换为所述预定语言模型定义的词形式,得到目标基本信息单元的多个扩展词表示。
优选的,上述方法中,在生成目标基本信息单元的多个扩展词表示的步骤之后,利用降维算法,对所述目标基本信息单元的扩展词表示进行降维处理,生成最终词表示。
优选的,上述方法中,所述从预先收集的文本数据中获取语料数据的步骤,包括:将所述文本数据转换成同一种编码格式;对所述文本数据进行数据清洗;将数据清洗后的所述文本数据切分为基本信息单元,并去除停用词,得到所述语料数据。
优选的,上述方法中,所述预定语言模型定义的词形式包括:独热式词表示和分布式词表示。
优选的,上述方法中,所述基于语义相似度,对目标基本信息单元进行聚类处理,得到多个聚类结果的步骤,包括:从目标基本信息单元所在的语料的上下文中,提取语义特征;针对提取的语义特征进行聚类,获得多个聚类结果。
优选的,上述方法中,将所述目标基本信息单元分别与每个聚类结果进行集成的步骤,包括:针对每个聚类结果,分别将目标基本信息单元与该聚类结果中的基本信息单元相集成,得到一个集成结果。
本发明实施例还提供了一种词表示生成装置,包括:
语料获得单元,用于从预先收集的文本数据中获取语料数据;
词表示转换单元,用于将所述语料数据中的基本信息单元,转换成预定语言模型定义的词形式,所述基本信息单元包括单词、短语和词序列中的至少一种;
聚类单元,用于基于语义相似度,对目标基本信息单元进行聚类处理,得到多个聚类结果,所述聚类结果包括目标基本信息单元的上下文中出现的多个基本信息单元;
词表示生成单元,用于将所述目标基本信息单元分别与每个聚类结果进行集成,得到多个集成结果,并将所述集成结果中的基本信息单元,替换为所述预定语言模型定义的词形式,得到目标基本信息单元的多个扩展词表示。
优选的,上述词表示生成装置还包括:
降维处理单元,用于利用降维算法,对所述目标基本信息单元的扩展词表示进行降维处理,生成最终词表示。
优选的,上述词表示生成装置中,所述词表示生成单元,具体用于针对每个聚类结果,分别将目标基本信息单元与该聚类结果中的基本信息单元相集成,得到一个集成结果。
本发明实施例还提供了一种词表示生成装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的生成词表示的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的生成词表示的方法的步骤。
与现有技术相比,本发明实施例提供的生成词表示的方法、装置及计算机可读存储介质,基于语义相似度,对目标基本信息单元进行聚类处理,得到多个聚类结果,并将目标基本信息单元与聚类结果相集成,生成目标基本信息单元多个义项的扩展词表示。本发明实施例可以生成多义词的不同义项的词表示,并且具有计算量小、效率高的优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的生成词表示的方法的一种应用场景示意图;
图2为本发明实施例的生成词表示的方法的一种流程示意图;
图3为本发明实施例中聚类处理的一种示例图;
图4为本发明实施例中的集成聚类特征与词表示的一种示例图;
图5为本发明实施例的词表示生成装置的一种结构示意图;
图6为本发明实施例的词表示生成装置的另一种结构示意图;
图7为本发明实施例的词表示生成装置的又一种结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
如前文所述的,多义词具有多个不同的义项,区分不同上下文中多义词的词义有着重要意义。因此,本发明实施例提出了一种词表示的方法,可以为多义词生成对应于不同义项的词表示,并且该方法的计算量相对较小,耗时较短,从而可以提高词表示的生成效率。
图1给出了可以应用本申请的生成词表示的方法的实施例的示例性***架构100。如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以发送文本数据等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如文件编辑应用、信息搜索类应用、信息传输应用等。终端设备101、102、103可以是具有显示屏并且信息、文件发送的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是进行词表示的服务器。具体的,服务器可以通过网络104收集文本数据并生成词表示,例如从因特网中的网站收集文本数据。当然,也可以终端设备101、102、103收集文本数据并发送给服务器105。需要说明的是,本申请实施例所提供的词表示的方法一般由服务器105执行,相应地,词表示装置可以设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
请参照图2,给出了本发明实施例提供的生成词表示的方法的一种流程示意图,如图2所示,该词表示的方法,可以包括:
步骤201,从预先收集的文本数据中获取语料数据。
在本实施例中,该生成词表示的方法可以运行于电子设备(例如图1所示的服务器105中),该电子设备可以通过有线连接方式或者无线连接方式从网络(如因特网中的网站)收集文本数据,或由终端设备101、102、103等收集文本数据并发送给该电子设备。需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(Ultra WideBand)连接、以及其他现在已知或将来开发的无线连接方式。
通常,从网络中收集到的文本数据可能采用了多种编码方式,因此在201中需要对文本数据进行预处理,以生成用于后续步骤的语料数据。具体的,预处理可以包括:
1)统一编码:将所述文本数据转换成同一种编码格式。例如,将所有全角字符转换为半角字符,并将文本数据转换为同一编码,如utf-8格式。
2)数据清洗:对所述文本数据进行数据清洗。数据清洗是指从文本数据中移除文本解析所不需要的噪音,只保留包含实际语义信息的内容。这里的噪音通常包括特殊符号、链接、邮箱、绘文字、颜文字、HTML标签(例如:<html>、<title>和<body>、<br>、<span>等)以及其他符号,如:&lt、&gt、@、#、$、%、^、&、*、()、<>、{}、[]等。
3)数据切分:将数据清洗后的所述文本数据切分为基本信息单元,并去除停用词,得到所述语料数据。例如,按句切分,再根据不同的***应用场景进一步切分为基本信息单元,并去除其中的停用词,从而获得语料数据。这里,所述基本信息单元包括单词、短语和词序列中的至少一种。停用词通常包括助词、介词、副词等不携带实际语义的词,以及一部分高频词和低频词。短语通常包括2个或者更多的单词,词序列可以包括2个或更多的短语。具体的,可以使用自然语言处理工具包(NLTK,Natural Language Tool Kit)将文本切分为句,再将句通过分词器等工具切分为单词。另外,可选的,根据后续聚类处理等的需要,本发明实施例还可以针对每一个单词进行词性标注(如动词、名词等的标注)。
步骤202,将所述语料数据中的基本信息单元,转换成预定语言模型定义的词形式,所述基本信息单元包括单词、短语和词序列中的至少一种。
这里,所述预定语言模型定义的词形式包括:独热式词表示(one-hotrepresentation)和分布式词表示(distributed representation)。
在自然语言处理领域中,需要将词转换为计算机中的表示形式。通常,有两种表示形式:one-hot representation和distribution representation。独热式词表示(one-hotrepresentation)把每个词表示为一个one-hot向量,one-hot向量的维度是词表大小。分布式词表示(distributed representation)将词转换成一种分布式表示(定长的连续的稠密向量),又称词向量(word embedding)。具体的,可以针对所述语料数据,利用分布式词表示生成工具,如单词到向量(word2vec)工具,将词转换成词向量,每个向量都由连续的浮点数值构成。
步骤203,基于语义相似度,对目标基本信息单元进行聚类处理,得到多个聚类结果,所述聚类结果包括目标基本信息单元的上下文中出现的多个基本信息单元。
这里,聚类处理的步骤,可以包括:从目标基本信息单元所在的语料的上下文中,提取语义特征;针对提取的语义特征进行聚类,获得多个聚类结果。作为一种实现方式,本发明实施例可以利用潜在狄利克雷分布(LDA,Latent Dirichlet Allocation)模型进行上述聚类处理,具体的,可以根据所述预定语言模型定义的词形式,将所述基本信息单元转换成向量,以及,将所述语料数据转换为向量矩阵;将所述向量矩阵输入至LDA模型中,对所述目标基本信息单元进行聚类,输出多个聚类结果。
例如,可以将步骤201中所得的语料数据中的基本信息单元转换成one-hot向量表示。每一个one-hot向量都包含W维,每个维度都为这个单词在语料数据中的出现频次。W表示语料数据的词汇表大小。全部词汇的集合可由one-hot矩阵的形式构成语料数据的表示。然后,可以利用genism实体实现基于词义的聚类,例如,将上述one-hot矩阵,输入到LDA模型中,获取由该LDA模型输出的基于语义的聚类。聚类的数量可以预先设置。这些聚类通常由单词ID构成。图3提供了一个通过上下文构建基于语义聚类的示例。其中,虚线方框选中部分为前文所述的方式计算后所选出的基本信息单元,基本信息单元组成的集合301和302则分别表示目标单词的一个聚类结果,即对应于目标单词的一种词义的聚类。
步骤204,将所述目标基本信息单元分别与每个聚类结果进行集成,得到多个集成结果,并将所述集成结果中的基本信息单元,替换为所述预定语言模型定义的词形式,得到目标基本信息单元的多个扩展词表示。
本发明实施例中,针对每个聚类结果,分别将目标基本信息单元与该聚类结果中的基本信息单元相集成,得到一个集成结果,该集成结果包括目标基本信息单元以及该聚类结果中的基本信息单元。然后,将集成结果中的基本信息单元,均替换为所述预定语言模型定义的词形式,从而生成目标基本信息单元的多个扩展词表示,每个扩展词表示分别对应于目标基本信息单元的一种词义。
具体的,本发明实施例可以将集成结果中的基本信息单元转换为分布式词表示或独热式词表示。例如,假设针对目标基本信息单元,获得了n+1个聚类(cluster),每个聚类结果包含有K个单词,每个单词转换成的分布式词表示为128维。通过使用单词的词表示(如分布式词表示或独热式词表示),替换聚类结果中的相应词向量ID,可以将每个聚类结果都表示成一个高维(K*128)的聚类特征,从而获得n+1个聚类特征,如图4中的方框402中所示的cluster-0~cluster-n。将每个聚类特征分别与对应的目标单词的词表示(如图4中的方框401中所示的词表示)相集成,可以获得n+1个词向量,如方框403中所示,每个词向量均为K*128+128维,这n+1个词向量为目标基本信息单元的扩展词表示,每个扩展词表示分别对应于目标基本信息单元的一种义项。
通过以上步骤,本发明实施例基于语义相似度,对目标基本信息单元进行聚类处理,得到多个聚类结果,并将目标基本信息单元与聚类结果相集成,生成目标基本信息单元多个义项的扩展词表示。本发明实施例将单一的目标基本信息单元扩展为针对不同上下文可分别表示不同义项的多个基本信息单元,由于本发明实施例是将单词聚类后再与词向量集成的方式生成词表示,避免了现有技术的分别训练多个词向量的训练过程,因此具有计算量小和生成效率高等优点。
考虑到步骤204中所获得的词表示的维度较高,本发明实施例在上述步骤204之后,还可以进一步利用降维算法,对所述目标基本信息单元的扩展词表示进行降维处理,生成最终词表示。具体的,可以采用主成分分析(PCA,Principal Component Analysis)算法进行降维处理,输出结果为针对目标基本信息单元的每一种义项的最终词表示。通过上述降维处理,本发明实施例可以减少扩展词表示可能存在的数据稀疏的问题,提升高维向量的运算性能。
基于以上实施例所提供的词表示的方法,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的生成词表示的方法中的步骤。
基于以上方法,本发明实施例还提供了实施上述方法的装置,请参考图5,本发明实施例提供的词表示生成装置500,包括:
语料获得单元501,用于从预先收集的文本数据中获取语料数据;
词表示转换单元502,用于将所述语料数据中的基本信息单元,转换成预定语言模型定义的词形式,所述基本信息单元包括单词、短语和词序列中的至少一种;
聚类单元503,用于基于语义相似度,对目标基本信息单元进行聚类处理,得到多个聚类结果,所述聚类结果包括目标基本信息单元的上下文中出现的多个基本信息单元;
词表示生成单元504,用于将所述目标基本信息单元分别与每个聚类结果进行集成,得到多个集成结果,并将所述集成结果中的基本信息单元,替换为所述预定语言模型定义的词形式,得到目标基本信息单元的多个扩展词表示。
这里,所述预定语言模型定义的词形式可以包括:独热式词表示one-hotrepresentation和分布式词表示distributed representation。
通过以上单元,本发明实施例的词表示生成装置500,可以将目标基本信息单元与聚类结果相集成,进而生成对应于目标基本信息单元不同义项的多个扩展词表示,具有计算量小和生成效率高的优点。
请参照图6,本发明实施例提供的另一种词表示生成装置600,除了包括图5中的类似单元外,还包括:
降维处理单元505,用于利用降维算法,对所述目标基本信息单元的扩展词表示进行降维处理,生成最终词表示。
通过上述降维处理单元505,本发明实施例可以减少扩展词表示可能存在的数据稀疏的问题,提升高维向量的运算性能。
作为一种实现方式,以上实施例提供的词表示生成装置500或词表示生成装置600中,所述语料获得单元501,具体用于:将所述文本数据转换成同一种编码格式;对所述文本数据进行数据清洗;以及,将数据清洗后的所述文本数据切分为基本信息单元,并去除停用词,得到所述语料数据。
这里,以上实施例提供的词表示生成装置500或词表示生成装置600中,所述聚类单元503,具体用于从目标基本信息单元所在的语料的上下文中,提取语义特征;针对提取的语义特征进行聚类,获得多个聚类结果。
作为一种实现方式,本发明实施例可以利用LDA模型进行上述聚类处理,此时,所述聚类单元503可以根据所述预定语言模型定义的词形式,将所述基本信息单元转换成向量,以及,将所述语料数据转换为向量矩阵;将所述向量矩阵输入至LDA模型中,对所述目标基本信息单元进行聚类,输出多个聚类结果。
作为一种实现方式,以上实施例提供的词表示生成装置500或词表示生成装置600中,所述词表示生成单元504,具体用于针对每个聚类结果,分别将目标基本信息单元与该聚类结果中的基本信息单元相集成,得到一个集成结果。
请参考图7,本发明实施例还提供了词表示生成装置的一种硬件结构框图,如图7所示,该词表示生成装置700包括:
处理器702;和
存储器704,在所述存储器704中存储有计算机程序指令,
其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器702执行以下步骤:
从预先收集的文本数据中获取语料数据;
将所述语料数据中的基本信息单元,转换成预定语言模型定义的词形式,所述基本信息单元包括单词、短语和词序列中的至少一种;
基于语义相似度,对目标基本信息单元进行聚类处理,得到多个聚类结果,所述聚类结果包括目标基本信息单元的上下文中出现的多个基本信息单元;
将所述目标基本信息单元分别与每个聚类结果进行集成,得到多个集成结果,并将所述集成结果中的基本信息单元,替换为所述预定语言模型定义的词形式,得到目标基本信息单元的多个扩展词表示。
进一步地,如图7所示,该词表示生成装置700还包括网络接口701、输入设备703、硬盘705、和显示设备706。
上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器702代表的一个或者多个中央处理器(CPU),以及由存储器704代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。
所述网络接口701,可以连接至网络(如因特网、局域网等),从网络中接收信息,并可以将接收到的信息保存在硬盘705中,例如,将接收到的用于生成语料数据的文本数据保存在硬盘705中。
所述输入设备703,可以接收操作人员输入的各种指令,并发送给处理器702以供执行。所述输入设备703可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
所述显示设备706,可以将处理器702执行指令获得的结果进行显示,例如显示所生成的目标基本信息单元的扩展词表示等。
所述存储器704,用于存储操作***运行所必须的程序和数据,以及处理器42计算过程中的中间结果等数据。
可以理解,本发明实施例中的存储器704可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。本文描述的装置和方法的存储器704旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器704存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作***7041和应用程序7042。
其中,操作***7041,包含各种***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序7042,包含各种应用程序,例如浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序7042中。
本发明上述实施例揭示的方法可以应用于处理器702中,或者由处理器702实现。处理器702可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器702中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器702可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器704,处理器702读取存储器704中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
具体地,所述计算机程序被处理器702执行时还可实现如下步骤:
在生成目标基本信息单元的多个扩展词表示的步骤之后,利用降维算法,对所述目标基本信息单元的扩展词表示进行降维处理,生成最终词表示。
具体地,所述计算机程序被处理器702执行时还可实现如下步骤:
将所述文本数据转换成同一种编码格式;对所述文本数据进行数据清洗;以及,将数据清洗后的所述文本数据切分为基本信息单元,并去除停用词,得到所述语料数据。
具体地,所述计算机程序被处理器702执行时还可实现如下步骤:
从目标基本信息单元所在的语料的上下文中,提取语义特征;
针对提取的语义特征进行聚类,获得多个聚类结果。
具体地,所述计算机程序被处理器702执行时还可实现如下步骤:
针对每个聚类结果,分别将目标基本信息单元与该聚类结果中的基本信息单元相集成,得到一个集成结果。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种生成词表示的方法,其特征在于,包括:
从预先收集的文本数据中获取语料数据;
将所述语料数据中的基本信息单元,转换成预定语言模型定义的词形式,所述基本信息单元包括单词、短语和词序列中的至少一种;
基于语义相似度,对目标基本信息单元进行聚类处理,得到多个聚类结果,所述聚类结果包括目标基本信息单元的上下文中出现的多个基本信息单元;
将所述目标基本信息单元分别与每个聚类结果进行集成,得到多个集成结果,并将所述集成结果中的基本信息单元,替换为所述预定语言模型定义的词形式,得到目标基本信息单元的多个扩展词表示。
2.如权利要求1所述的方法,其特征在于,在生成目标基本信息单元的多个扩展词表示的步骤之后,所述方法还包括:
利用降维算法,对所述目标基本信息单元的扩展词表示进行降维处理,生成最终词表示。
3.如权利要求1所述的方法,其特征在于,所述从预先收集的文本数据中获取语料数据的步骤,包括:
将所述文本数据转换成同一种编码格式;
对所述文本数据进行数据清洗;
将数据清洗后的所述文本数据切分为基本信息单元,并去除停用词,得到所述语料数据。
4.如权利要求1所述的方法,其特征在于,所述预定语言模型定义的词形式包括:独热式词表示和分布式词表示。
5.如权利要求1所述的方法,其特征在于,所述基于语义相似度,对目标基本信息单元进行聚类处理,得到多个聚类结果的步骤,包括:
从目标基本信息单元所在的语料的上下文中,提取语义特征;
针对提取的语义特征进行聚类,获得多个聚类结果。
6.如权利要求1所述的方法,其特征在于,将所述目标基本信息单元分别与每个聚类结果进行集成的步骤,包括:
针对每个聚类结果,分别将目标基本信息单元与该聚类结果中的基本信息单元相集成,得到一个集成结果。
7.一种词表示生成装置,其特征在于,包括:
语料获得单元,用于从预先收集的文本数据中获取语料数据;
词表示转换单元,用于将所述语料数据中的基本信息单元,转换成预定语言模型定义的词形式,所述基本信息单元包括单词、短语和词序列中的至少一种;
聚类单元,用于基于语义相似度,对目标基本信息单元进行聚类处理,得到多个聚类结果,所述聚类结果包括目标基本信息单元的上下文中出现的多个基本信息单元;
词表示生成单元,用于将所述目标基本信息单元分别与每个聚类结果进行集成,得到多个集成结果,并将所述集成结果中的基本信息单元,替换为所述预定语言模型定义的词形式,得到目标基本信息单元的多个扩展词表示。
8.如权利要求7所述的词表示生成装置,其特征在于,还包括:
降维处理单元,用于利用降维算法,对所述目标基本信息单元的扩展词表示进行降维处理,生成最终词表示。
9.如权利要求7所述的词表示生成装置,其特征在于,所述词表示生成单元,具体用于针对每个聚类结果,分别将目标基本信息单元与该聚类结果中的基本信息单元相集成,得到一个集成结果。
10.一种词表示生成装置,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的生成词表示的方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的生成词表示的方法的步骤。
CN201810162364.8A 2018-02-27 2018-02-27 一种生成词表示的方法、装置及计算机可读存储介质 Pending CN110196905A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810162364.8A CN110196905A (zh) 2018-02-27 2018-02-27 一种生成词表示的方法、装置及计算机可读存储介质
JP2019030347A JP2019149161A (ja) 2018-02-27 2019-02-22 単語表現を生成する方法、装置及びコンピュータ読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810162364.8A CN110196905A (zh) 2018-02-27 2018-02-27 一种生成词表示的方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110196905A true CN110196905A (zh) 2019-09-03

Family

ID=67750831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810162364.8A Pending CN110196905A (zh) 2018-02-27 2018-02-27 一种生成词表示的方法、装置及计算机可读存储介质

Country Status (2)

Country Link
JP (1) JP2019149161A (zh)
CN (1) CN110196905A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091915A (zh) * 2019-12-24 2020-05-01 医渡云(北京)技术有限公司 医疗数据处理方法及装置、存储介质、电子设备
CN111599354A (zh) * 2020-06-28 2020-08-28 北京字节跳动网络技术有限公司 用于转换信息的方法、装置、电子设备和计算机可读介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021149613A (ja) * 2020-03-19 2021-09-27 株式会社野村総合研究所 自然言語処理装置およびプログラム
CN111916165A (zh) * 2020-08-18 2020-11-10 泰康保险集团股份有限公司 用于评估量表的相似性评估方法及装置
CN112800183B (zh) * 2021-02-25 2023-09-26 国网河北省电力有限公司电力科学研究院 内容名称数据处理方法及终端设备
CN113822038B (zh) * 2021-06-03 2024-06-25 腾讯科技(深圳)有限公司 一种摘要生成方法和相关装置
CN116306649B (zh) * 2023-02-20 2023-10-31 中国科学院自动化研究所 词向量的生成方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030074186A1 (en) * 2001-08-21 2003-04-17 Wang Yeyi Method and apparatus for using wildcards in semantic parsing
CN103970729A (zh) * 2014-04-29 2014-08-06 河海大学 一种基于语义类的多主题提取方法
CN106649783A (zh) * 2016-12-28 2017-05-10 上海智臻智能网络科技股份有限公司 一种同义词挖掘方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030074186A1 (en) * 2001-08-21 2003-04-17 Wang Yeyi Method and apparatus for using wildcards in semantic parsing
CN103970729A (zh) * 2014-04-29 2014-08-06 河海大学 一种基于语义类的多主题提取方法
CN106649783A (zh) * 2016-12-28 2017-05-10 上海智臻智能网络科技股份有限公司 一种同义词挖掘方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091915A (zh) * 2019-12-24 2020-05-01 医渡云(北京)技术有限公司 医疗数据处理方法及装置、存储介质、电子设备
CN111599354A (zh) * 2020-06-28 2020-08-28 北京字节跳动网络技术有限公司 用于转换信息的方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
JP2019149161A (ja) 2019-09-05

Similar Documents

Publication Publication Date Title
CN110196905A (zh) 一种生成词表示的方法、装置及计算机可读存储介质
Shang et al. Unsupervised abstractive meeting summarization with multi-sentence compression and budgeted submodular maximization
CN103971677B (zh) 一种声学语言模型训练方法和装置
WO2020224219A1 (zh) 中文分词方法、装置、电子设备及可读存储介质
WO2021068339A1 (zh) 文本分类方法、装置及计算机可读存储介质
US10755048B2 (en) Artificial intelligence based method and apparatus for segmenting sentence
US9311282B2 (en) Enriching website content with extracted feature multi-dimensional vector comparison
US20220318275A1 (en) Search method, electronic device and storage medium
CN109376234A (zh) 一种训练摘要生成模型的方法和装置
CN111177532A (zh) 一种垂直搜索方法、装置、计算机***及可读存储介质
WO2017198031A1 (zh) 解析语义的方法和装置
CN108319586B (zh) 一种信息提取规则的生成和语义解析方法及装置
CN109558583A (zh) 一种自动生成文摘的方法、装置及设备
CN110275963A (zh) 用于输出信息的方法和装置
Zvonarev et al. A Comparison of Machine Learning Methods of Sentiment Analysis Based on Russian Language Twitter Data.
CN109491652A (zh) 程序代码文件的生成方法和装置、电子设备
CN104699473B (zh) 时序约束文件的生成方法、装置以及rtl仿真设备
CN111460797A (zh) 关键字抽取方法、装置、电子设备及可读存储介质
CN112784589A (zh) 一种训练样本的生成方法、装置及电子设备
CN107330111A (zh) 基于通用形式化本体的领域本体的检索方法及装置
CN110704608A (zh) 文本主题生成方法、装置和计算机设备
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN114970553B (zh) 基于大规模无标注语料的情报分析方法、装置及电子设备
TWI636370B (zh) Establishing chart indexing method and computer program product by text information
WO2017201904A1 (zh) 搜索方法、装置、设备及非易失性计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190903