CN104778158B - 一种文本表示方法及装置 - Google Patents
一种文本表示方法及装置 Download PDFInfo
- Publication number
- CN104778158B CN104778158B CN201510096570.XA CN201510096570A CN104778158B CN 104778158 B CN104778158 B CN 104778158B CN 201510096570 A CN201510096570 A CN 201510096570A CN 104778158 B CN104778158 B CN 104778158B
- Authority
- CN
- China
- Prior art keywords
- term vector
- word
- text
- vector
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本表示方法及装置,用以提高文本表示的准确性,从而提高文本处理的准确性。所述方法包括:确定构成当前文本的各词语,确定各词语的词向量,对各词向量进行聚类,根据聚类结果在各词语中确定出当前文本的特征词以及该特征词的权重,根据各特征词的词向量和权重确定当前文本的文本向量。这样,通过聚类确定特征词的过程已经考虑了词语在句子中的语义以及句子之间的相关性,确定出的特征词的词向量可准确的表达文本的内涵,从而可提高文本表达的准确性,进而可提高文本处理的准确性。
Description
技术领域
本发明涉及信息处理技术,尤其涉及一种文本表示方法及装置。
背景技术
在信息处理技术领域,往往会涉及到文本处理。文本处理是指对经过文本表示后的文本内容,进行文本检索、文本分类、文本分析等处理,其中,文本表示是指将原始的文本内容变成计算机内部表示结构,该内部表示结构是计算机程序可分析的结构,例如,可以用文本内容中的词语、短语等形成计算机可分析的向量结构。
文本表示的准确性越高,就越能准确表达当前文本的内涵,文本处理的效果越好、效率就越高,反之,文本表示的准确性越低,表达出的文本的内涵就越偏离文本的实际内涵,文本处理的效果就越差、效率也就越低。
在现有技术中,文本表示方法主要基于向量空间模型。向量空间模型表示文本的方法为:针对某一个文本,首先对该文本进行分词,得到多个词语,然后再根据这些词语在文本中出现的频率,选取频率大于预设值的词语作为表达该文本的特征词,并计算每一个特征词的权重,最后将这些特征词和对应的权重构成文本向量,该文本向量就是该文本的表示形式。例如,对于某一个文本,第i个特征词为fi,该特征词的权重为wi,则文本表示形式为:{<f1:w1>、<f2:w2>、……、<fi:wi>、……},其中,i=1、2、3、……。
上述现有技术提供的文本表示方法中,在选取特征词时,并没有考虑特征词在句子中的语义,也没有考虑句子之间的相关性,只是机械的从文本中提取频率大于预设值的词语作为特征词,此外,由于文本向量中的特征词为文本中的词语,由于独立的词语可能存在多层含义,无法准确表达文本的内涵,因此,文本向量表达文本的准确性就较低,相应的,文本处理的准确性也就较低。
发明内容
本发明实施例提供一种文本表示方法及装置,用以提高文本表示的准确性,从而还可提高文本处理的准确性。
本发明实施例提供的一种文本表示方法,包括:
确定构成当前文本的各词语;
确定各词语的词向量;
对各词向量进行聚类;
根据聚类结果,在各词语中确定出当前文本的特征词以及该特征词的权重;
根据各特征词的词向量和权重确定当前文本的文本向量。
本发明实施例提供的一种文本表示装置,包括:
第一确定模块,用于确定构成当前文本的各词语;
第二确定模块,用于确定各词语的词向量;
聚类模块,用于对各词向量进行聚类;
第三确定模块,用于根据聚类结果,在各词语中确定出当前文本的特征词以及该特征词的权重;
第四确定模块,用于根据各特征词的词向量和权重确定当前文本的文本向量。
本发明实施例提供的一种文本表示方法及装置,该方法确定构成当前文本的各词语,确定每个词语的词向量,对各词向量进行聚类,根据聚类结果确定当前文本的特征词和该特征词的权重,根据每个词语的特征词对应的词向量和权重确定当前文本的文本向量。可见,本发明中的词语是由词向量来表示的,词向量相比较词语可以从多个维度对该词语进行描述,可更加准确的表示词语的语义信息,此外,聚类的过程已经考虑了特征词在句子中的语义以及句子之间的相关性,因此,本发明通过对词向量进行聚类确定特征词,可有效提高确定当前文本的特征词的准确性,进而可有效提高文本处理的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例提供的一种文本表示方法流程示意图;
图2为本发明实施例提供的一种预设词向量库的方法流程示意图;
图3为本发明实施例提供的一种文本表示装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,为本发明实施例提供的一种文本表示方法流程示意图,包括:
S101:确定构成当前文本的各词语。
在本发明实施例中,所述的当前本文是服务器获取的需要进行文本表示的文本,该文本可以是中文形式的句子、段落或篇章等,该文本可以是txt、doc、pdf、wps等格式的文本。
在本发明实施例中,服务器可以但不限于从预设存储区域(如语料库)中获取文本,或者在线获取用户当前上传的文本,并将获取的文本作为当前文本。
本发明实施例在获取当前文本之后,可以对该当前文本进行分词,得到构成当前文本的各词语。在分词过程中,采用的分词方法可包括但不限于:逐词遍历法、机械分词法等。例如,假设服务器获取一篇文章,将该文章作为当前文本后,对该文章内容进行预处理,然后对预处理后的文章内容进行分词,分词后得到的各词语包括:显示、平板、液晶、照明、器件这五个词语,可将这五个词语确定为构成当前文本的各词语。
为了降低分词时服务器的计算量并避免一些词语的干扰,本发明实施例在分词之前,可以对当前文本进行预处理,比如,去除当前文本中的超文本标记语言(HypertextMarkup Language,HTML)、将当前文本中的繁体字转化为简体字、将全角字符转化为半角字符等等。
考虑到在实际应用场景中,分词后得到的各词语中除了包含具有实际意义的词语之外,还可能包含一些无实际意义的词语,而特征词一般均为具有实际意义的词语,因此,本发明实施例在确定构成当前文本的各词语时,具体的,对当前文本进行分词,得到多个词语之后,还可以在各词语中确定出指定类型的词语,为了避免筛选出相同的词语,还可以进一步对指定类型的词语进行去重处理,将去重处理后的各词语作为构成当前文本的各词语;其中,所述的指定类型的词语具体可以是具有实际意义的词语,具有实际意义的词语可包括但不限于:名词、动词、形容词等,则不具有实际意义的词语通常为助词、副词、虚词等。
S102:确定各词语的词向量。
在本发明实施例中,为了更详细地表达一个词语的含义(即语义信息),可采用包括N个元素的N维向量来表示一个词语,该N维向量为该词语的词向量。该词向量的N个元素中,每个元素为该词语对应的文本类别的权重值,其中文本类别可包括:计算机、交通、教育、经济、军事、体育、医药、艺术、政治、环境等。
例如,假设词向量的文本类别可表示为N维向量{计算机、交通、教育、经济}4,其中,N=4。假设显示、平板、液晶、照明、器件这五个词语为构成当前文本的各词语,则“液晶”这一词语的词向量可以表示为:{0.175、0.095、0.185、0.041}4,其中,该词向量表示的含义为:“液晶”对应于计算机、交通、教育、经济这四个文本类别的权重值分别为0.175、0.095、0.185、0.041。
在本发明实施例中,服务器在确定各词语的词向量时,可以根据词向量确定工具直接在线确定词向量。可选的,服务器可采用word2vec计算工具,来确定各词语的词向量。
为了提高确定各词语的词向量的效率,优选的,在本发明实施例中,还可以预先确定各词语的词向量,在需要确定各词语的词向量时,在预设的词向量库中,确定(如,查找)与各词语对应的词向量。可见,在预设的词向量库中确定与各词语对应的词向量,方便快捷,可有效提高服务器的处理效率。
在本发明实施例中,预先确定各词语的词向量时,也可以采用word2vec计算工具,来确定各词语的词向量。
S103:对各词向量进行聚类。
在本发明实施例中,通过步骤S102确定各词语的词向量之后,可以对各词向量进行聚类。
聚类的基本原则是同一类的词向量之间具有较大的相似性,不同类的词向量之间差异较大,因此,通过对词向量之间进行相似性度量,就可以实现对各向量进行聚类。具体的,可通过计算两个词向量之间的余弦距离(cosine)来确定词向量之间的相似度,cosine值越大,词向量之间相似度就越大,反之,cosine值越小,词向量之间的相似度就越小。
在本发明实施例中,可采用的聚类算法包括但不限于:ChineseRestaurantProcess(CRP)算法、K-均值聚类算法、K-中心点聚类算法、CLARANS算法、BIRCH算法、CLIQUE算法、DBSCAN算法等。
在本发明实施例中,通过对各词向量进行聚类得到多类词向量集合,所述多类词向量集合为对各词向量进行聚类的聚类结果;其中,每一类词向量集合中包含若干个词向量。
沿用上例,假设对显示、平板、液晶、照明、器件这五个词语分别对应的词向量进行聚类,得到三类词向量集合。第一类词向量集合包括液晶、显示、器件这三个词语对应的词向量,第二类词向量集合仅包括平板对应的词向量,第三类词向量集合仅包括照明对应的词向量,这说明液晶、显示、器件这三个词语对应的词向量相互之间的相似度最大、相关性最高。平板和照明分别对应的词向量之间相关性较低,平板和照明分别与液晶、显示、器件这些词语的相关性较低。也就是说,这三类词向量中,第一类词向量对应的词语最能体现当前文本的特征,第二类和第三类次之。
S104:根据聚类结果,在各词语中确定出当前文本的特征词以及该特征词的权重。
在本发明实施例中,根据聚类结果,在各词语中确定出当前文本的特征词,具体可在各类词向量集合中,确定出包含的词向量的数量超过预设阈值的词向量集合。
沿用上例,假设预设阈值为2,根据第一类、第二类和第三类词向量集合(聚类结果),在显示、平板、液晶、照明、器件这些词语中确定出当前文本的特征词,具体可在第一类、第二类和第三类词向量集合中,确定出包含的词向量的数量超过预设阈值2的词向量集合,由于第一类词向量集合包含的词向量的数量为3,第二类和第三类词向量集合包含的词向量的数量分别为1,则确定包含的词向量的数量超过预设阈值2的词向量集合为第一类词向量集合,将确定出的第一类词向量集合中的各词向量对应的词语作为特征词,也即,将液晶、显示、器件这三个词语作为当前文本的特征词。
在本发明实施例中,根据聚类结果,在各词语中确定出当前文本的特征词,具体还可将各类词向量集合按照包含词向量的数量由大到小的顺序排序,确定出前m个词向量集合,其中,m为预设数值;将确定出的词向量集合中的各词向量对应的词语作为特征词。
沿用上例,假设预设数值m=1,将第一类、第二类和第三类词向量集合按照包含词向量的数量由大到小的顺序排序,由于第一类词向量集合包含的词向量的数量为3,第二类和第三类词向量集合包含的词向量的数量分别为1,则各类词向量集合顺序排序依次为:第一类、第二类和第三类词向量集合,确定第1(m=1)个词向量集合(即第一类词向量集合)中的各词向量对应的词语(液晶、显示、器件)作为特征词。
在本发明实施例中,根据聚类结果,在各词语中确定出当前文本的特征词的权重wi,具体可通过公式(1-1)确定。
wi=log(1+ni/nm) (1-1)
其中,wi为当前文本中的第i个特征词的权重,ni是第i个特征词在当前文本中出现的次数(以下称为词频),nm是各特征词对应的词频中,数值最大的词频。
比如,各特征词:液晶、显示、器件的词频分别为10、30、20,则显示这一词语的词频最大,即nm=30。则液晶这一词语的权重w1=log(1+10/30);显示这一词语的权重w2=log(1+30/30);器件这一词语的权重w3=log(1+20/30)。
S105:根据各特征词的词向量和权重确定当前文本的文本向量。
具体的,根据各特征词的词向量和权重,确定由多个元素构成的多维向量,将该多维向量作为当前文本的文本向量;其中,所述多维向量中的一个元素由一个特征词的词向量和该特征词的权重构成。
比如,当前文本的文本向量可以表示为:{<F1:w1>、<F2:w2>、……、<Fi:wi>、……},其中,i=1、2、3、……。Fi为第i个特征词对应的词向量。
上述图1所示的方法中,该方法确定构成当前文本的各词语,确定每个词语的词向量,对各词向量进行聚类,根据聚类结果确定当前文本的特征词和该特征词的权重,根据每个词语的特征词对应的词向量和权重确定当前文本的文本向量。可见,本发明中的词语是由词向量来表示的,词向量相比较词语可以从多个维度对该词语进行描述,可更加准确的表示词语的语义信息,此外,聚类的过程已经考虑了特征词在句子中的语义以及句子之间的相关性,因此,本发明通过对词向量进行聚类确定特征词,可有效提高确定当前文本的特征词的准确性,进而可提高文本处理的准确性。
上述在预设的词向量库中确定(如,查找)与各词语对应的词向量时,需要预设词向量库。
参见图2,在本发明实施例中,预设词向量库的方法,具体可包括以下步骤:
S201:获取多个历史文本。
在获取多个历史文本时,可以从语料库中获取多个文本,作为历史文本,获取文本的数量可以是几百个、几千个等,这里不做具体限制。
S202:确定构成各历史文本的多个词语。
在确定构成各历史文本的各词语时,与上述确定构成当前文本的各词语的方法类似,比如,可以通过分词方法对每一个历史文本进行分词,得到各词语。
可选的,为了降低服务器的计算量并避免一些词语的干扰,在对每一个历史文本进行分词之前,可以对该历史文本进行预处理。预处理可包括但不限于:对历史文本进行去HTML、繁体字转化为简体字、全角字符转化为半角字符、对各历史文本进行去重处理。
在对各历史文本进行去重处理时,可以通过信息摘要算法计算每一个历史文本的信息摘要,例如,可通过第五版本的信息摘要算法(Message-Digest Algorithm 5,MD5)对获取的每一个历史文本进行计算,得到各历史文本对应的MD5值之后,相同MD5值对应的历史文本,仅保留一份(即实现去重处理)。
考虑到在实际应用场景中,用于表示文本的特征词一般为具有实际意义的词,因此,可选的,在对每一个历史文本进行分词之后,可确定构成各历史文本的多个指定类型的词语;其中该指定类型的词语具体可以是具有实际意义的词语。这样,可进一步降低服务器的计算量。
S203:将历史文本中的每个词语表示成一个多维向量,将该多维向量作为该词语的初始词向量。在本发明实施例中,同样可采用word2vec计算工具来确定每个词语的词向量,这里不再赘述。
S204:将各初始词向量分别进行数字指纹处理,得到数字指纹处理后的词向量。
对初始词向量进行数字指纹处理,也即对初始词向量进行数字化处理,例如,将初始词向量转化成一定长度(如64位bit)的“0”、“1”数值串。本发明实施例可通过局部敏感哈希(LSH)算法将词向量转化成“0”、“1”数值串。
例如,“液晶”这一词语的词向量表示为:{0.175、0.095、0.185、0.041}4,则对该词向量进行数字指纹处理,得到数字指纹处理后的词向量可以为<000000000010>;
若“显示”这一词语的词向量表示为:{0.123、0.195、0.085、0.441}4,则对该词向量进行数字指纹处理,得到数字指纹处理后的词向量可以为<100101010010>。
S205:采用数字指纹处理后的词向量构成预设词向量库。
在本发明实施例中,采用数字指纹处理后的词向量构成预设词向量库,在确定当前文本对应的各词语后,从预设词向量库中查找到的与各词语对应的词向量为数字指纹处理后的词向量。对各词向量进行聚类时,就是对数字指纹处理后的词向量进行聚类,则聚类过程中计算词向量之间的相似性时,可以计算两个词向量之间的汉明距离,通过汉明距离可以确定词向量之间的相似度,两个词向量之间的汉明距离越大说明这两个词向量之间的相关性较小,反之,两个词向量之间的汉明距离越小,两词向量之间的相似性越大。在对数字化后的词向量进行聚类时,可以大大减少服务器的计算量,可有效提高服务器的处理效率。
在本发明实施例中,为了进一步避免初始词向量中还存在无实际意义的词语对应的词向量,则可以对初始词向量进行筛选,具体的,根据词性、词频、停用词表等属性,从各初始词向量中去除无实际意义的词语,仅保留具有实际意义的词语,从而可有效降低无实际意义的词语的干扰,进而可有效降低服务器的计算量。
在本发明实施例中,根据各特征词的词向量和权重确定当前文本的文本向量之后,就可以基于该文本向量进行文本处理,例如,进行文本检索、文本分类、文本分析、文本相似度计算等处理。
为了减少文本处理过程中,服务器的计算量,从而有效提高服务器的处理效率,则在本发明实施例中,所述方法还包括:根据各特征词的词向量和权重确定当前文本的文本向量之后,对当前文本的文本向量进行数字指纹处理。
所述的数字指纹处理也即进行数字化处理,可选的,本发明可以采用LSH算法中的其中一种算法simhash来对文本向量进行数字指纹处理。
例如,设特征词:液晶、显示和器件分别对应的数字化后的词向量为<010>、<001>和<110>,液晶、显示和器件的权重分别为0.1、0.2、0.4,则文本向量表示为:{<液晶词向量:0.1>、<显示词向量:0.2>、<器件词向量:0.4>}。
则对文本向量{<液晶词向量:0.1>、<显示词向量:0.2>、<器件词向量:0.4>}进行数字化处理具体为:
将每一个词向量中的“0”替换为“-1”,“1”替换为“1”,将每一个词向量乘以权重,得到新的词向量;各词向量中的第一个数值累加得到第一个值,将各词向量中的第二个数值累加得到第二个值,将各词向量中的第三个数值累加得到第三个值。
所述第一个值~第三个值中,将正值替换为1,将负值替换为0,则得到由0和1构成的向量为数字化处理后的向量。
例如,<010>、<001>和<110>中的“0”替换为“-1”,“1”替换为“1”,并乘以各词向量对应的权重,得到的向量分别如下:
词向量<010>对应于向量1<-0.1、0.1、-0.1>;
词向量<001>对应于向量2<-0.2、-0.2、0.2>;
词向量<110>对应于向量3<0.4、0.4、-0.4>;
将向量1~向量3的第一个元素-0.1、-0.2和0.4相加,得到的第一个值为0.1,该值为正;
将向量1~向量3的第二个元素0.1、-0.2和0.4相加,得到的第二个值为0.3,该值为正;
将向量1~向量3的第三个元素-0.1、0.2和-0.4相加,得到的第三个值为-0.3,该值为负;
则第一个值~第三个值中,将正值替换为1,将负值替换为0,则得到由0和1构成的向量<110>为数字化处理后的向量。
以上为本发明实施例提供的文本表示方法,基于同样的思路,本发明实施例还提供了一种文本表示装置,如图3所示,包括:
第一确定模块31,用于确定构成当前文本的各词语;
第二确定模块32,用于确定各词语的词向量;
聚类模块33,用于对各词向量进行聚类;
第三确定模块34,用于根据聚类结果,在各词语中确定出当前文本的特征词和该特征词的权重;
第四确定模块35,用于根据各特征词的词向量和权重确定当前文本的文本向量。
可选的,所述装置还包括:
处理模块36,用于对所述当前文本的文本向量进行数字指纹处理。
可选的,第二确定模块32具体用于,
在预设的词向量库中,确定与各词语对应的词向量。
可选的,所述装置还包括:
预设词向量库模块37,用于预设词向量库;
所述预设词向量库模块37具体用于,获取多个历史文本,确定构成各历史文本的多个词语,将所述历史文本中的每个词语表示成一个多维向量,将该多维向量作为所述词语的初始词向量,将各初始词向量分别进行数字指纹处理,得到数字指纹处理后的词向量,采用所述数字指纹处理后的词向量构成预设词向量库。
可选的,所述预设词向量库模块37具体用于,确定构成各历史文本的多个指定类型的词语。
可选的,所述第一确定模块31具体用于,对所述当前文本进行分词,得到多个词语,在各词语中,确定出指定类型的词语,对所述指定类型的词语进行去重处理,将去重处理后的各词语作为构成当前文本的各词语。
可选的,所述聚类结果包括多类词向量集合,每一类词向量集合中包含若干个词向量;
所述第三确定模块34具体用于,在各类词向量集合中,确定出包含的词向量的数量超过预设阈值的词向量集合,或者,将各类词向量集合按照包含词向量的数量由大到小的顺序排序,确定出前m个词向量集合,其中,m为预设数值;将确定出的词向量集合中的各词向量对应的词语作为特征词。
可选的,所述第四确定模块35具体用于,根据各特征词的词向量和权重,确定由多个元素构成的多维向量,将该多维向量作为当前文本的文本向量;其中,所述多维向量中的一个元素由一个特征词的词向量和该特征词的权重构成。
本发明实施例提供的一种文本表示方法及装置,该方法确定构成当前文本的各词语,确定每个词语的词向量,对各词向量进行聚类,根据聚类结果确定当前文本的特征词和该特征词的权重,根据每个词语的特征词对应的词向量和权重确定当前文本的文本向量。可见,本发明中的词语是由词向量来表示的,词向量相比较词语可以从多个维度对该词语进行描述,可更加准确的表示词语的语义信息,此外,聚类的过程已经考虑了特征词在句子中的语义以及句子之间的相关性,因此,本发明通过对词向量进行聚类确定特征词,可有效提高确定当前文本的特征词的准确性,进而可提高文本处理的准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、***或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种文本表示方法,其特征在于,包括:
确定构成当前文本的各词语;
确定各词语的词向量;
对各词向量进行聚类得到多类词向量集合;
根据聚类结果,在各词语中确定出当前文本的特征词以及该特征词的权重,其中,所述特征词的权重,是该特征词在当前文本中出现的频次与该文本中最大频次之和,与特征词在当前文本中出现的频次的比值的对数;
根据各特征词的词向量和权重确定当前文本的文本向量。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
对所述当前文本的文本向量进行数字指纹处理。
3.如权利要求1所述的方法,其特征在于,所述确定各词语的词向量,具体包括:在预设的词向量库中,确定与各词语对应的词向量;
其中,预设词向量库的方法,具体包括:
获取多个历史文本;
确定构成各历史文本的多个词语;
将所述历史文本中的每个词语表示成一个多维向量,将该多维向量作为所述词语的初始词向量;
将各初始词向量分别进行数字指纹处理,得到数字指纹处理后的词向量;
采用所述数字指纹处理后的词向量构成预设词向量库。
4.如权利要求1所述的方法,其特征在于,所述聚类结果包括多类词向量集合,每一类词向量集合中包含若干个词向量;
所述根据聚类结果,在各词语中确定出当前文本的特征词,具体包括:
在各类词向量集合中,确定出包含的词向量的数量超过预设阈值的词向量集合,或者,将各类词向量集合按照包含词向量的数量由大到小的顺序排序,确定出前m个词向量集合,其中,m为预设数值;
将确定出的词向量集合中的各词向量对应的词语作为特征词。
5.如权利要求1所述的方法,其特征在于,所述确定构成当前文本的各词语,具体包括:对所述当前文本进行分词,得到多个词语;在各词语中,确定出指定类型的词语;对所述指定类型的词语进行去重处理,将去重处理后的各词语作为构成当前文本的各词语;
和/或,
所述根据各特征词的词向量和权重确定当前文本的文本向量,具体包括:根据各特征词的词向量和权重,确定由多个元素构成的多维向量,将该多维向量作为当前文本的文本向量;其中,所述多维向量中的一个元素由一个特征词的词向量和该特征词的权重构成。
6.一种文本表示装置,其特征在于,包括:
第一确定模块,用于确定构成当前文本的各词语;
第二确定模块,用于确定各词语的词向量;
聚类模块,用于对各词向量进行聚类得到多类词向量集合;
第三确定模块,用于根据聚类结果,在各词语中确定出当前文本的特征词以及该特征词的权重,其中,所述特征词的权重,是该特征词在当前文本中出现的频次与该文本中最大频次之和,与特征词在当前文本中出现的频次的比值的对数;
第四确定模块,用于根据各特征词的词向量和权重确定当前文本的文本向量。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
处理模块,用于对所述当前文本的文本向量进行数字指纹处理。
8.如权利要求6所述的装置,其特征在于,所述第二确定模块具体用于,在预设的词向量库中,确定与各词语对应的词向量;
所述装置还包括:预设词向量库模块,用于预设词向量库;
所述预设词向量库模块具体用于,获取多个历史文本,确定构成各历史文本的多个词语,将所述历史文本中的每个词语表示成一个多维向量,将该多维向量作为所述词语的初始词向量,将各初始词向量分别进行数字指纹处理,得到数字指纹处理后的词向量,采用所述数字指纹处理后的词向量构成预设词向量库。
9.如权利要求6所述的装置,其特征在于,所述聚类结果包括多类词向量集合,每一类词向量集合中包含若干个词向量;
所述第三确定模块具体用于,在各类词向量集合中,确定出包含的词向量的数量超过预设阈值的词向量集合,或者,将各类词向量集合按照包含词向量的数量由大到小的顺序排序,确定出前m个词向量集合,其中,m为预设数值;将确定出的词向量集合中的各词向量对应的词语作为特征词。
10.如权利要求6所述的装置,其特征在于,所述第一确定模块具体用于,对所述当前文本进行分词,得到多个词语,在各词语中,确定出指定类型的词语,对所述指定类型的词语进行去重处理,将去重处理后的各词语作为构成当前文本的各词语;和/或,
所述第四确定模块具体用于,根据各特征词的词向量和权重,确定由多个元素构成的多维向量,将该多维向量作为当前文本的文本向量;其中,所述多维向量中的一个元素由一个特征词的词向量和该特征词的权重构成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510096570.XA CN104778158B (zh) | 2015-03-04 | 2015-03-04 | 一种文本表示方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510096570.XA CN104778158B (zh) | 2015-03-04 | 2015-03-04 | 一种文本表示方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104778158A CN104778158A (zh) | 2015-07-15 |
CN104778158B true CN104778158B (zh) | 2018-07-17 |
Family
ID=53619632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510096570.XA Active CN104778158B (zh) | 2015-03-04 | 2015-03-04 | 一种文本表示方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104778158B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345605A (zh) * | 2017-01-24 | 2018-07-31 | 苏宁云商集团股份有限公司 | 一种文本搜索方法及装置 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095444A (zh) * | 2015-07-24 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
CN106484681B (zh) | 2015-08-25 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
CN106484682B (zh) | 2015-08-25 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
CN105426356B (zh) * | 2015-10-29 | 2019-05-21 | 杭州九言科技股份有限公司 | 一种目标信息识别方法和装置 |
CN105426354B (zh) * | 2015-10-29 | 2019-03-22 | 杭州九言科技股份有限公司 | 一种句向量的融合方法和装置 |
CN106446264B (zh) * | 2016-10-18 | 2019-08-27 | 哈尔滨工业大学深圳研究生院 | 文本表示方法及*** |
CN106503184B (zh) * | 2016-10-24 | 2019-09-20 | 海信集团有限公司 | 确定目标文本所属业务类别的方法及装置 |
CN107357895B (zh) * | 2017-01-05 | 2020-05-19 | 大连理工大学 | 一种基于词袋模型的文本表示的处理方法 |
CN107247704B (zh) * | 2017-06-09 | 2020-09-08 | 阿里巴巴集团控股有限公司 | 词向量处理方法、装置以及电子设备 |
CN109408797A (zh) * | 2017-08-18 | 2019-03-01 | 普天信息技术有限公司 | 一种文本句向量表示方法及*** |
US11823013B2 (en) * | 2017-08-29 | 2023-11-21 | International Business Machines Corporation | Text data representation learning using random document embedding |
CN107862620A (zh) * | 2017-12-11 | 2018-03-30 | 四川新网银行股份有限公司 | 一种基于社交数据的相似用户挖掘方法 |
CN108304480B (zh) * | 2017-12-29 | 2020-08-04 | 东软集团股份有限公司 | 一种文本相似度确定方法、装置及设备 |
CN110362815A (zh) * | 2018-04-11 | 2019-10-22 | 北京京东尚科信息技术有限公司 | 文本向量生成方法和装置 |
CN109033307B (zh) * | 2018-07-17 | 2021-08-31 | 华北水利水电大学 | 基于crp聚类的词语多原型向量表示及词义消歧方法 |
CN109101620B (zh) * | 2018-08-08 | 2022-07-05 | 阿里巴巴(中国)有限公司 | 相似度计算方法、聚类方法、装置、存储介质及电子设备 |
CN110874528B (zh) * | 2018-08-10 | 2020-11-10 | 珠海格力电器股份有限公司 | 文本相似度的获取方法及装置 |
CN109710845A (zh) * | 2018-12-25 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 资讯推荐方法、装置、计算机设备和可读存储介质 |
CN110083828A (zh) * | 2019-03-29 | 2019-08-02 | 珠海远光移动互联科技有限公司 | 一种文本聚类方法及装置 |
CN110147449A (zh) * | 2019-05-27 | 2019-08-20 | 中国联合网络通信集团有限公司 | 文本分类方法和装置 |
CN110309515B (zh) * | 2019-07-10 | 2023-08-11 | 北京奇艺世纪科技有限公司 | 实体识别方法及装置 |
CN111428180B (zh) * | 2020-03-20 | 2022-02-08 | 创优数字科技(广东)有限公司 | 一种网页去重方法、装置和设备 |
CN111913912A (zh) * | 2020-07-16 | 2020-11-10 | 北京字节跳动网络技术有限公司 | 文件处理方法、文件匹配方法、装置、电子设备和介质 |
CN112527971A (zh) * | 2020-12-25 | 2021-03-19 | 华戎信息产业有限公司 | 一种相似文章的检索方法和*** |
CN113536763A (zh) * | 2021-07-20 | 2021-10-22 | 北京中科闻歌科技股份有限公司 | 一种信息处理方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101620596A (zh) * | 2008-06-30 | 2010-01-06 | 东北大学 | 一种面向查询的多文档自动摘要方法 |
CN101853486A (zh) * | 2010-06-08 | 2010-10-06 | 华中科技大学 | 一种基于局部数字指纹的图像拷贝检测方法 |
CN103049569A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 基于向量空间模型的文本相似性匹配方法 |
CN103744905A (zh) * | 2013-12-25 | 2014-04-23 | 新浪网技术(中国)有限公司 | 垃圾邮件判定方法和装置 |
CN104008090A (zh) * | 2014-04-29 | 2014-08-27 | 河海大学 | 一种基于概念向量模型的多主题提取方法 |
CN104182388A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义分析的文本聚类***及方法 |
-
2015
- 2015-03-04 CN CN201510096570.XA patent/CN104778158B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101620596A (zh) * | 2008-06-30 | 2010-01-06 | 东北大学 | 一种面向查询的多文档自动摘要方法 |
CN101853486A (zh) * | 2010-06-08 | 2010-10-06 | 华中科技大学 | 一种基于局部数字指纹的图像拷贝检测方法 |
CN103049569A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 基于向量空间模型的文本相似性匹配方法 |
CN103744905A (zh) * | 2013-12-25 | 2014-04-23 | 新浪网技术(中国)有限公司 | 垃圾邮件判定方法和装置 |
CN104008090A (zh) * | 2014-04-29 | 2014-08-27 | 河海大学 | 一种基于概念向量模型的多主题提取方法 |
CN104182388A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义分析的文本聚类***及方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345605A (zh) * | 2017-01-24 | 2018-07-31 | 苏宁云商集团股份有限公司 | 一种文本搜索方法及装置 |
CN108345605B (zh) * | 2017-01-24 | 2022-04-05 | 苏宁易购集团股份有限公司 | 一种文本搜索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104778158A (zh) | 2015-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104778158B (zh) | 一种文本表示方法及装置 | |
US11599714B2 (en) | Methods and systems for modeling complex taxonomies with natural language understanding | |
Negara et al. | Topic modelling twitter data with latent dirichlet allocation method | |
US11243993B2 (en) | Document relationship analysis system | |
US11573996B2 (en) | System and method for hierarchically organizing documents based on document portions | |
US9542477B2 (en) | Method of automated discovery of topics relatedness | |
US8457950B1 (en) | System and method for coreference resolution | |
KR20180011254A (ko) | 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기 | |
US20140207782A1 (en) | System and method for computerized semantic processing of electronic documents including themes | |
US20170344822A1 (en) | Semantic representation of the content of an image | |
US11886515B2 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof | |
CN111090731A (zh) | 基于主题聚类的电力舆情摘要提取优化方法及*** | |
CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN110674297B (zh) | 舆情文本分类模型构建和舆情文本分类方法、装置及设备 | |
Barua et al. | Multi-class sports news categorization using machine learning techniques: resource creation and evaluation | |
CN114416926A (zh) | 关键词匹配方法、装置、计算设备及计算机可读存储介质 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN110222179B (zh) | 一种通讯录文本分类方法、装置及电子设备 | |
US20220309276A1 (en) | Automatically classifying heterogenous documents using machine learning techniques | |
CN115129890A (zh) | 回馈数据图谱生成方法、生成设备、问答设备及冰箱 | |
US20180260476A1 (en) | Expert stance classification using computerized text analytics | |
CN114461809A (zh) | 中文文摘语义知识图谱自动生成方法和设备 | |
CN106484724A (zh) | 信息处理装置和信息处理方法 | |
US20240168999A1 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof | |
Nagrale et al. | Document theme extraction using named-entity recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230315 Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193 Patentee after: Sina Technology (China) Co.,Ltd. Address before: 100080, International Building, No. 58 West Fourth Ring Road, Haidian District, Beijing, 20 floor Patentee before: Sina.com Technology (China) Co.,Ltd. |
|
TR01 | Transfer of patent right |