CN102063460A

CN102063460A - 信息处理方法和装置

Info

Publication number: CN102063460A
Application number: CN 201010518927
Authority: CN
Inventors: 蔡亮华; 庞然; 郭晓丹
Original assignee: Individual
Current assignee: Individual
Priority date: 2010-10-19
Filing date: 2010-10-19
Publication date: 2011-05-18

Abstract

本发明提供一种信息处理方法，通过对目标信息进行切词获取一个以上切词结果数据，在预先存储的词语语义库中查询一个以上切词结果数据，获取每个切词结果数据对应的一个以上类别标识，根据目标信息和一个以上切词结果数据对应的一个以上类别标识生成信息内涵字符串。本发明还提供一种信息处理装置。采用本发明提供的信息处理方法和装置，获取的信息内涵字符串中不仅包括目标信息，而且还包括与该目标信息中的词语相关的类别，因此能够准确完整地获得目标信息的内涵。

Description

信息处理方法和装置

技术领域

本发明涉及网络技术，尤其涉及一种信息处理方法和装置。

背景技术

互联网技术当前已经进入了海量信息时代，为了使互联网用户能够从海量信息中快速准确地获取所需的信息，网络设备采用智能化方式向用户提供信息。作为智能化提供信息的基础，网络设备需要预先采用信息处理方法获取信息的内涵。

目前，网络设备采用的信息处理方法是，对信息的标题和/或内容进行切词，获得该信息的标题和/或内容中的词语，以该信息的标题和/或内容中的词语作为该信息的内涵。例如，信息为一条关于合格的境外机构投资者(Qualified Foreign Institutional Investors，简称QFII)的新闻，具体为：“***：上半年3家外资机构获得Q FII资格”，通过对该信息进行切词，获得以下6个词语：“***”、“上半年”、“外资”、“机构”、“QFII”、“资格”，网络设备获取到的该信息的内涵以字符串形式表示，该字符串为：“***”“上半年”“外资”“机构”“QFII”“资格”。

采用现有的信息处理方法，网络设备获取的内涵只能包括该信息的标题和/或内容中出现的词语，而信息内涵中除了该信息的标题和/或内容中出现的词语以外，还有可能包括与上述词语相近或相关的其它词语，采用现有的信息处理方法则无法获取这些与标题和/或内容中词语相近或相关的其它词语，因而使得大量内涵被遗漏。仍以信息为“***：上半年3家外资机构获得QFII资格”为例，与该信息相关的内涵除了通过对该信息进行切词获得的“***”、“上半年”、“外资”、“机构”、“QFII”、“资格”以外，还可以包括“证券”、“金融”、“经济机构”、“国际资产组合投资”等相关或相近的词语。因此，采用现有的信息处理方法，网络设备无法全面地获取到信息的完整内涵，获取到的信息内涵的准确度低。

发明内容

本发明实施例提供一种信息处理方法，用以解决现有技术中的缺陷，准全完整地获取信息内涵。

本发明实施例还提供一种信息处理装置，用以解决现有技术中的缺陷，准确完整地获取信息内涵。

本发明实施例提供一种信息处理方法，包括：

获取目标信息；

对所述目标信息进行切词，获取一个以上切词结果数据；

在预先存储的词语语义库中查询所述一个以上切词结果数据，获取每个切词结果数据对应的一个以上类别标识；

根据所述目标信息和所述一个以上切词结果数据对应的一个以上类别标识，生成信息内涵字符串。

如上所述的信息处理方法，其中，所述在预先存储的词语语义库中查询所述一个以上切词结果数据之前还包括：

通过获取并分析一个以上参考信息，获取并存储词语语义库。

如上所述的信息处理方法，其中，所述通过获取并分析一个以上参考信息，获取并存储词语语义库包括：

采用爬虫技术从互联网获取一个以上参考信息；根据所述一个以上参考信息生成一个以上标准化数据；对所述一个以上标准化数据进行切词，获取对应的一个以上标准化切词结果数据；对所述一个以上标准化切词结果数据进行聚类分析；根据聚类分析结果，分类存储所述一个以上标准化切词结果数据，生成词语语义库。

如上所述的信息处理方法，其中，所述获取每个切词结果数据对应的一个以上类别标识之后还包括：

获取目标信息的属性标识；所述根据所述目标信息和所述一个以上切词结果数据对应的一个以上类别标识，生成信息内涵字符串包括：将所述一个以上切词结果数据对应的一个以上类别标识和所述目标信息的属性标识附加在所述目标信息之后，生成信息内涵字符串。

如上所述的信息处理方法，其中，所述在预先存储的词语语义库中查询所述一个以上切词结果数据，获取每个切词结果数据对应的一个以上类别标识包括：

根据每个切词结果数据，遍历所述词语语义库中的类别，查询并获取该切词结果数据的一个以上匹配项；根据所述一个以上匹配项在所述词语语义库中所属的类别，标识该切词结果数据。

本发明实施例还提供一种信息处理装置，包括：

信息获取单元，用于获取目标信息；

切词单元，用于对所述目标信息进行切词，获取一个以上切词结果数据；

词语语义库单元，用于存储词语语义库；

类别标识单元，用于在存储的词语语义库中查询所述一个以上切词结果数据，获取每个切词结果数据对应的一个以上类别标识；

内涵字符串生成单元，用于根据所述目标信息和所述一个以上切词结果数据对应的一个以上类别标识，生成信息内涵字符串。

如上所述的信息处理装置，其中，所述信息获取单元还用于获取一个以上参考信息；所述词语语义库单元还用于通过分析所述一个以上参考信息，获取词语语义库。

如上所述的信息处理装置，其中，所述词语语义库单元包括：

格式处理子单元，用于根据所述一个以上参考信息生成一个以上标准化数据；聚类分析子单元，用于对所述一个以上标准化切词结果数据进行聚类分析；词语语义库生成子单元，用于根据聚类分析结果，分类存储所述一个以上标准化切词结果数据，生成词语语义库；所述切词单元还用于对所述一个以上标准化数据进行切词，获取对应的一个以上标准化切词结果数据。

如上所述的信息处理装置，其中，还包括：属性标识单元，用于获取目标信息的属性标识；所述内涵字符串生成单元，用于将所述一个以上切词结果数据对应的一个以上类别标识和所述目标信息的属性标识附加在所述目标信息之后，生成信息内涵字符串。

如上所述的信息处理装置，其中，

所述类别标识单元具体用于根据每个切词结果数据，遍历所述词语语义库中的类别，查询并获取该切词结果数据的一个以上匹配项，根据所述一个以上匹配项在所述词语语义库中所属的类别，标识该切词结果数据。

由上述技术方案可知，在对目标信息进行切词之后，通过在预先存储的词语语义库中查找切词结果数据来获取切词结果数据所属的类别标识，根据该类别标识和目标信息生成信息内涵字符串，从而使得信息内涵字符串中，不仅包括该目标信息，而且还包括与该目标信息中的词语相关的类别，因此网络设备能够准确完整地获得目标信息的内涵。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的信息处理方法的流程图；

图2为本发明实施例二提供的信息处理方法的流程图；

图3为本发明实施例三提供的信息处理装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一提供的信息处理方法的流程图。如图1所示，该方法至少包括以下过程。

步骤101：获取目标信息。

步骤102：对上述目标信息进行切词，获取一个以上切词结果数据。

步骤103：在预先存储的词语语义库中查询上述一个以上切词结果数据，获取每个切词结果数据对应的一个以上类别标识。

步骤104：根据上述目标信息和上述一个以上切词结果数据对应的一个以上类别标识，生成信息内涵字符串。

在本发明实施例一中，在对目标信息进行切词之后，通过在词语语义库中查找切词结果数据来获取切词结果数据所属的类别标识，根据该类别标识和目标信息生成信息内涵字符串，从而使得网络设备所获得的信息内涵字符串中，不仅包括现有信息处理方法得到的该目标信息的标题和/或内容中的词语，而且还包括与该目标信息中的词语相关的类别，从而准确完整地获得目标信息的内涵。

图2为本发明实施例二提供的信息处理方法的流程图。如图2所示，该方法包括以下过程。

步骤201：通过获取并分析一个以上参考信息，获取并存储词语语义库。

在此步骤中，通过获取并分析一个以上参考信息获取并存储词语语义库的具体方法不受限制，现有的获取词语语义库的方法均可适用。以下仅以一个较佳实施例说明此步骤的具体过程。首先，采用爬虫技术从互联网获取一个以上参考信息；然后，根据上述一个以上参考信息生成一个以上标准化数据；然后，对上述一个以上标准化数据进行切词，获取对应的一个以上标准化切词结果数据；然后，对上述一个以上标准化切词结果数据进行聚类分析，具体可以采用K均值聚类(K-Means)方法或科赫嫩(Kohonen)神经网络聚类方法，或者上述两种聚类方法结合使用；最后，根据聚类分析结果，分类存储上述一个以上标准化切词结果数据，生成词语语义库。

步骤202：获取目标信息。

在本步骤中，获取目标信息的具体方式不受限制，现有的获取信息的方法均可适用。一种较佳的实施方式是，采用爬虫技术从互联网上获取目标信息。

步骤203：对上述目标信息进行切词，获取一个以上切词结果数据。

在本步骤中，仍以目标信息为“***：上半年3家外资机构获得QFII资格”为例，对该目标信息进行切词，获取到的一个以上切词结果数据包括：“***”、“上半年”、“外资”、“机构”、“QFII”、“资格”。

上述步骤201可以在步骤202和步骤203之前执行，也可以在步骤202和步骤203的执行过程中同时执行。

步骤204：在预先存储的词语语义库中查询上述一个以上切词结果数据，获取每个切词结果数据对应的一个以上类别标识。

具体地，在此步骤中，根据每个切词结果数据，遍历所述词语语义库中的类别，查询并获取该切词结果数据的一个以上匹配项，根据上述一个以上匹配项在上述词语语义库中所属的类别标识该切词结果数据。仍以目标信息为“***：上半年3家外资机构获得QFII资格”为例，针对切词获得的每一个切词结果数据，均遍历查询词语语义库中的类别。其中，以切词结果数据为“***”为例，遍历词语语义库中的所有类别，查询与“***”相匹配的匹配项，则在词语语义库中的名称分别为“证券”、“金融”和“经济机构”的三个类别中均查找到词语“***”，则以包含了词语“***”的上述三个类别对切词结果数据“***”进行标识，获取到的切词结果数据“***”对应的一个以上类别标识包括：“证券”、“金融”、“经济机构”、“经济学”、“投资”等。对该目标信息的所有切词结果数据，均采用上述同样的方法，获取每一个切词结果数据对应的一个以上类别标识。例如，获取到“外资”对应的类别标识包括：“资本”、“国际金融”、“贸易”等；获取到“QFII”对应的类别标识包括：“国际资产组合投资”、“组织”、“经济机构”等。

步骤205：获取目标信息的属性标识。

在本步骤中，目标信息的属性可以包括：该信息出现的时间、该信息出现的媒体、该信息的作者、文体等等。具体地，网络设备可以通过从网页中提取来获取目标信息的属性标识，一种较佳的实施方式是，仍采用爬虫技术从互联网的网页中获取目标信息的属性标识。并且，步骤205可以在执行步骤201至步骤204的过程中的任意时刻执行，一种较佳的实施方式是，在获取目标信息的同时获取该目标信息的属性标识。例如，上述内容为“***：上半年3家外资机构获得QFII资格”的目标信息出现在2010年7月7日的新浪网新闻版网页上，则通过提取该网页，获取到该目标信息的属性标识包括：“新浪网”、“新闻”。

步骤206：根据上述目标信息和上述一个以上切词结果数据对应的一个以上类别标识，生成信息内涵字符串。

具体地，在此步骤中，将上述一个以上切词结果数据对应的一个以上类别标识和上述目标信息的属性标识附加在上述目标信息之后，生成信息内涵字符串。仍以上述目标信息为例，最终生成的信息内涵字符串为：“***：上半年3家外资机构获得QFII资格”“证券”“金融”“理财”“政府机构”“经济机构”“资本”“组织”“经济学”“国际金融”“投资”“贸易”“国际资产组合投资”“2010年7月7日”“新浪”“新闻”。

在本发明实施例二中，通过获取并分析参考信息来生成用于查询的词语语义库，并且在获取到切词结果数据所属的类别标识之后，进一步获取目标信息的属性标识，根据目标信息、该类别标识和该属性标识生成信息内涵字符串，从而使得信息内涵字符串在包括了目标信息和与该目标信息中的词语相关的类别标识的基础上，还包括该目标信息出现的时间、媒体等属性标识，进一步丰富了目标信息的内涵，使得网络设备获取的目标信息的内涵更加准确、完整。

图3为本发明实施例三提供的信息处理装置的结构示意图。该信息处理装置可以设置于网络设备中，也可以作为一个独立的装置设置在网络设备外。如图3所示，该信息处理装置至少包括：信息获取单元31、切词单元32、词语语义库单元33、类别标识单元34和内涵字符串生成单元35。

其中，信息获取单元31获取目标信息并传送给切词单元32和内涵字符串生成单元35。具体地，信息获取单元31可以采用爬虫技术获取目标信息。进一步地，信息获取单元31还采用爬虫技术从互联网获取一个以上参考信息并传送给词语语义库单元33。

切词单元32对目标信息进行切词，获取一个以上切词结果数据并传送给类别标识单元34。进一步地，切词单元32还接收来自词语语义库单元33的一个以上标准化数据，对上述一个以上标准化数据进行切词，获取对应的一个以上标准化切词结果数据并传送给词语语义库单元33。

词语语义库单元33存储词语语义库。进一步地，词语语义库单元33还通过获取并分析一个以上参考信息，获取词语语义库。具体地，词语语义库单元33包括：格式处理子单元331、聚类分析子单元332和词语语义库生成子单元333。其中，格式处理子单元331接收来自信息获取单元31的一个以上参考信息，根据上述一个以上参考信息生成一个以上标准化数据，并传送给切词单元32。聚类分析子单元332接收来自切词单元32的一个以上标准化切词结果数据，对上述一个以上标准化切词结果数据进行聚类分析，并将聚类分析结果发送给词语语义库生成子单元333。词语语义库生成子单元333根据聚类分析结果，分类存储上述一个以上标准化切词结果数据，生成词语语义库。

类别标识单元34接收来自切词单元32的一个以上切词结果数据，在词语语义库单元33存储的词语语义库中查询上述一个以上切词结果数据，获取每个切词结果数据对应的一个以上类别标识并发送给内涵字符串生成单元35。具体地，类别标识单元34根据每个切词结果数据，遍历上述词语语义库中的类别，查询并获取该切词结果数据的一个以上匹配项，根据上述一个以上匹配项在上述词语语义库中所属的类别，标识该切词结果数据。

内涵字符串生成单元35接收来自信息获取单元31的目标信息和来自类别标识单元34的一个以上切词结果数据对应的一个以上类别标识，根据上述目标信息和上述一个以上切词结果数据对应的一个以上类别标识，生成信息内涵字符串。

在包括上述信息获取单元31、切词单元32、词语语义库单元33、类别标识单元34和内涵字符串生成单元35的基础上，该信息处理装置还可以包括：属性标识单元36。属性标识单元36接收来自信息获取单元31的目标信息，获取目标信息的属性标识并发送给内涵字符串生成单元35。在信息处理装置包括属性标识单元36的情况下，则内涵字符串生成单元35将上述一个以上切词结果数据对应的一个以上类别标识和上述目标信息的属性标识附加在上述目标信息之后，生成信息内涵字符串。

在本发明实施例三中，词语语义库单元33存储词语语义库，类别标识单元34通过查找词语语义库来获取切词结果数据所属的类别标识，内涵字符串生成单元35根据目标信息和切词结果数据所属的类别标识生成内涵字符串。进一步地，属性标识单元36获取目标信息的属性标识，内涵字符串生成单元35根据目标信息、切词结果数据所属的类别标识和目标信息的属性标识生成内涵字符串。采用该信息处理装置获取的目标信息的内涵中包括切词结果数据所属的类别标识和目标信息的属性标识，从而使得网络设备准确完整地获取到目标信息的内涵。

需要说明的是：对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种信息处理方法，其特征在于，包括：

获取目标信息；

对所述目标信息进行切词，获取一个以上切词结果数据；

2.根据权利要求1所述的信息处理方法，其特征在于，所述在预先存储的词语语义库中查询所述一个以上切词结果数据之前还包括：

3.根据权利要求2所述的信息处理方法，其特征在于，所述通过获取并分析一个以上参考信息，获取并存储词语语义库包括：

采用爬虫技术从互联网获取一个以上参考信息；

根据所述一个以上参考信息生成一个以上标准化数据；

对所述一个以上标准化数据进行切词，获取对应的一个以上标准化切词结果数据；

对所述一个以上标准化切词结果数据进行聚类分析；

根据聚类分析结果，分类存储所述一个以上标准化切词结果数据，生成词语语义库。

4.根据权利要求1所述的信息处理方法，其特征在于，

所述获取每个切词结果数据对应的一个以上类别标识之后还包括：获取目标信息的属性标识；

所述根据所述目标信息和所述一个以上切词结果数据对应的一个以上类别标识，生成信息内涵字符串包括：将所述一个以上切词结果数据对应的一个以上类别标识和所述目标信息的属性标识附加在所述目标信息之后，生成信息内涵字符串。

5.根据权利要求1至4中任意一项所述的信息处理方法，其特征在于，所述在预先存储的词语语义库中查询所述一个以上切词结果数据，获取每个切词结果数据对应的一个以上类别标识包括：

根据每个切词结果数据，遍历所述词语语义库中的类别，查询并获取该切词结果数据的一个以上匹配项；

根据所述一个以上匹配项在所述词语语义库中所属的类别，标识该切词结果数据。

6.一种信息处理装置，其特征在于，包括：

信息获取单元，用于获取目标信息；

词语语义库单元，用于存储词语语义库；

7.根据权利要求6所述的信息处理装置，其特征在于，

所述信息获取单元还用于获取一个以上参考信息；

所述词语语义库单元还用于通过分析所述一个以上参考信息，获取词语语义库。

8.根据权利要求7所述的信息处理装置，其特征在于，所述词语语义库单元包括：

格式处理子单元，用于根据所述一个以上参考信息生成一个以上标准化数据；

聚类分析子单元，用于对所述一个以上标准化切词结果数据进行聚类分析；

词语语义库生成子单元，用于根据聚类分析结果，分类存储所述一个以上标准化切词结果数据，生成词语语义库；

所述切词单元还用于对所述一个以上标准化数据进行切词，获取对应的一个以上标准化切词结果数据。

9.根据权利要求6所述的信息处理装置，其特征在于，

还包括：属性标识单元，用于获取目标信息的属性标识；

所述内涵字符串生成单元，用于将所述一个以上切词结果数据对应的一个以上类别标识和所述目标信息的属性标识附加在所述目标信息之后，生成信息内涵字符串。

10.根据权利要求6至9中任意一项所述的信息处理装置，其特征在于，