CN102063460A - 信息处理方法和装置 - Google Patents

信息处理方法和装置 Download PDF

Info

Publication number
CN102063460A
CN102063460A CN 201010518927 CN201010518927A CN102063460A CN 102063460 A CN102063460 A CN 102063460A CN 201010518927 CN201010518927 CN 201010518927 CN 201010518927 A CN201010518927 A CN 201010518927A CN 102063460 A CN102063460 A CN 102063460A
Authority
CN
China
Prior art keywords
result data
information
speech
speech result
cut
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010518927
Other languages
English (en)
Inventor
蔡亮华
庞然
郭晓丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 201010518927 priority Critical patent/CN102063460A/zh
Publication of CN102063460A publication Critical patent/CN102063460A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种信息处理方法,通过对目标信息进行切词获取一个以上切词结果数据,在预先存储的词语语义库中查询一个以上切词结果数据,获取每个切词结果数据对应的一个以上类别标识,根据目标信息和一个以上切词结果数据对应的一个以上类别标识生成信息内涵字符串。本发明还提供一种信息处理装置。采用本发明提供的信息处理方法和装置,获取的信息内涵字符串中不仅包括目标信息,而且还包括与该目标信息中的词语相关的类别,因此能够准确完整地获得目标信息的内涵。

Description

信息处理方法和装置
技术领域
本发明涉及网络技术,尤其涉及一种信息处理方法和装置。
背景技术
互联网技术当前已经进入了海量信息时代,为了使互联网用户能够从海量信息中快速准确地获取所需的信息,网络设备采用智能化方式向用户提供信息。作为智能化提供信息的基础,网络设备需要预先采用信息处理方法获取信息的内涵。
目前,网络设备采用的信息处理方法是,对信息的标题和/或内容进行切词,获得该信息的标题和/或内容中的词语,以该信息的标题和/或内容中的词语作为该信息的内涵。例如,信息为一条关于合格的境外机构投资者(Qualified Foreign Institutional Investors,简称QFII)的新闻,具体为:“***:上半年3家外资机构获得Q FII资格”,通过对该信息进行切词,获得以下6个词语:“***”、“上半年”、“外资”、“机构”、“QFII”、“资格”,网络设备获取到的该信息的内涵以字符串形式表示,该字符串为:“***”“上半年”“外资”“机构”“QFII”“资格”。
采用现有的信息处理方法,网络设备获取的内涵只能包括该信息的标题和/或内容中出现的词语,而信息内涵中除了该信息的标题和/或内容中出现的词语以外,还有可能包括与上述词语相近或相关的其它词语,采用现有的信息处理方法则无法获取这些与标题和/或内容中词语相近或相关的其它词语,因而使得大量内涵被遗漏。仍以信息为“***:上半年3家外资机构获得QFII资格”为例,与该信息相关的内涵除了通过对该信息进行切词获得的“***”、“上半年”、“外资”、“机构”、“QFII”、“资格”以外,还可以包括“证券”、“金融”、“经济机构”、“国际资产组合投资”等相关或相近的词语。因此,采用现有的信息处理方法,网络设备无法全面地获取到信息的完整内涵,获取到的信息内涵的准确度低。
发明内容
本发明实施例提供一种信息处理方法,用以解决现有技术中的缺陷,准全完整地获取信息内涵。
本发明实施例还提供一种信息处理装置,用以解决现有技术中的缺陷,准确完整地获取信息内涵。
本发明实施例提供一种信息处理方法,包括:
获取目标信息;
对所述目标信息进行切词,获取一个以上切词结果数据;
在预先存储的词语语义库中查询所述一个以上切词结果数据,获取每个切词结果数据对应的一个以上类别标识;
根据所述目标信息和所述一个以上切词结果数据对应的一个以上类别标识,生成信息内涵字符串。
如上所述的信息处理方法,其中,所述在预先存储的词语语义库中查询所述一个以上切词结果数据之前还包括:
通过获取并分析一个以上参考信息,获取并存储词语语义库。
如上所述的信息处理方法,其中,所述通过获取并分析一个以上参考信息,获取并存储词语语义库包括:
采用爬虫技术从互联网获取一个以上参考信息;根据所述一个以上参考信息生成一个以上标准化数据;对所述一个以上标准化数据进行切词,获取对应的一个以上标准化切词结果数据;对所述一个以上标准化切词结果数据进行聚类分析;根据聚类分析结果,分类存储所述一个以上标准化切词结果数据,生成词语语义库。
如上所述的信息处理方法,其中,所述获取每个切词结果数据对应的一个以上类别标识之后还包括:
获取目标信息的属性标识;所述根据所述目标信息和所述一个以上切词结果数据对应的一个以上类别标识,生成信息内涵字符串包括:将所述一个以上切词结果数据对应的一个以上类别标识和所述目标信息的属性标识附加在所述目标信息之后,生成信息内涵字符串。
如上所述的信息处理方法,其中,所述在预先存储的词语语义库中查询所述一个以上切词结果数据,获取每个切词结果数据对应的一个以上类别标识包括:
根据每个切词结果数据,遍历所述词语语义库中的类别,查询并获取该切词结果数据的一个以上匹配项;根据所述一个以上匹配项在所述词语语义库中所属的类别,标识该切词结果数据。
本发明实施例还提供一种信息处理装置,包括:
信息获取单元,用于获取目标信息;
切词单元,用于对所述目标信息进行切词,获取一个以上切词结果数据;
词语语义库单元,用于存储词语语义库;
类别标识单元,用于在存储的词语语义库中查询所述一个以上切词结果数据,获取每个切词结果数据对应的一个以上类别标识;
内涵字符串生成单元,用于根据所述目标信息和所述一个以上切词结果数据对应的一个以上类别标识,生成信息内涵字符串。
如上所述的信息处理装置,其中,所述信息获取单元还用于获取一个以上参考信息;所述词语语义库单元还用于通过分析所述一个以上参考信息,获取词语语义库。
如上所述的信息处理装置,其中,所述词语语义库单元包括:
格式处理子单元,用于根据所述一个以上参考信息生成一个以上标准化数据;聚类分析子单元,用于对所述一个以上标准化切词结果数据进行聚类分析;词语语义库生成子单元,用于根据聚类分析结果,分类存储所述一个以上标准化切词结果数据,生成词语语义库;所述切词单元还用于对所述一个以上标准化数据进行切词,获取对应的一个以上标准化切词结果数据。
如上所述的信息处理装置,其中,还包括:属性标识单元,用于获取目标信息的属性标识;所述内涵字符串生成单元,用于将所述一个以上切词结果数据对应的一个以上类别标识和所述目标信息的属性标识附加在所述目标信息之后,生成信息内涵字符串。
如上所述的信息处理装置,其中,
所述类别标识单元具体用于根据每个切词结果数据,遍历所述词语语义库中的类别,查询并获取该切词结果数据的一个以上匹配项,根据所述一个以上匹配项在所述词语语义库中所属的类别,标识该切词结果数据。
由上述技术方案可知,在对目标信息进行切词之后,通过在预先存储的词语语义库中查找切词结果数据来获取切词结果数据所属的类别标识,根据该类别标识和目标信息生成信息内涵字符串,从而使得信息内涵字符串中,不仅包括该目标信息,而且还包括与该目标信息中的词语相关的类别,因此网络设备能够准确完整地获得目标信息的内涵。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的信息处理方法的流程图;
图2为本发明实施例二提供的信息处理方法的流程图;
图3为本发明实施例三提供的信息处理装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的信息处理方法的流程图。如图1所示,该方法至少包括以下过程。
步骤101:获取目标信息。
步骤102:对上述目标信息进行切词,获取一个以上切词结果数据。
步骤103:在预先存储的词语语义库中查询上述一个以上切词结果数据,获取每个切词结果数据对应的一个以上类别标识。
步骤104:根据上述目标信息和上述一个以上切词结果数据对应的一个以上类别标识,生成信息内涵字符串。
在本发明实施例一中,在对目标信息进行切词之后,通过在词语语义库中查找切词结果数据来获取切词结果数据所属的类别标识,根据该类别标识和目标信息生成信息内涵字符串,从而使得网络设备所获得的信息内涵字符串中,不仅包括现有信息处理方法得到的该目标信息的标题和/或内容中的词语,而且还包括与该目标信息中的词语相关的类别,从而准确完整地获得目标信息的内涵。
图2为本发明实施例二提供的信息处理方法的流程图。如图2所示,该方法包括以下过程。
步骤201:通过获取并分析一个以上参考信息,获取并存储词语语义库。
在此步骤中,通过获取并分析一个以上参考信息获取并存储词语语义库的具体方法不受限制,现有的获取词语语义库的方法均可适用。以下仅以一个较佳实施例说明此步骤的具体过程。首先,采用爬虫技术从互联网获取一个以上参考信息;然后,根据上述一个以上参考信息生成一个以上标准化数据;然后,对上述一个以上标准化数据进行切词,获取对应的一个以上标准化切词结果数据;然后,对上述一个以上标准化切词结果数据进行聚类分析,具体可以采用K均值聚类(K-Means)方法或科赫嫩(Kohonen)神经网络聚类方法,或者上述两种聚类方法结合使用;最后,根据聚类分析结果,分类存储上述一个以上标准化切词结果数据,生成词语语义库。
步骤202:获取目标信息。
在本步骤中,获取目标信息的具体方式不受限制,现有的获取信息的方法均可适用。一种较佳的实施方式是,采用爬虫技术从互联网上获取目标信息。
步骤203:对上述目标信息进行切词,获取一个以上切词结果数据。
在本步骤中,仍以目标信息为“***:上半年3家外资机构获得QFII资格”为例,对该目标信息进行切词,获取到的一个以上切词结果数据包括:“***”、“上半年”、“外资”、“机构”、“QFII”、“资格”。
上述步骤201可以在步骤202和步骤203之前执行,也可以在步骤202和步骤203的执行过程中同时执行。
步骤204:在预先存储的词语语义库中查询上述一个以上切词结果数据,获取每个切词结果数据对应的一个以上类别标识。
具体地,在此步骤中,根据每个切词结果数据,遍历所述词语语义库中的类别,查询并获取该切词结果数据的一个以上匹配项,根据上述一个以上匹配项在上述词语语义库中所属的类别标识该切词结果数据。仍以目标信息为“***:上半年3家外资机构获得QFII资格”为例,针对切词获得的每一个切词结果数据,均遍历查询词语语义库中的类别。其中,以切词结果数据为“***”为例,遍历词语语义库中的所有类别,查询与“***”相匹配的匹配项,则在词语语义库中的名称分别为“证券”、“金融”和“经济机构”的三个类别中均查找到词语“***”,则以包含了词语“***”的上述三个类别对切词结果数据“***”进行标识,获取到的切词结果数据“***”对应的一个以上类别标识包括:“证券”、“金融”、“经济机构”、“经济学”、“投资”等。对该目标信息的所有切词结果数据,均采用上述同样的方法,获取每一个切词结果数据对应的一个以上类别标识。例如,获取到“外资”对应的类别标识包括:“资本”、“国际金融”、“贸易”等;获取到“QFII”对应的类别标识包括:“国际资产组合投资”、“组织”、“经济机构”等。
步骤205:获取目标信息的属性标识。
在本步骤中,目标信息的属性可以包括:该信息出现的时间、该信息出现的媒体、该信息的作者、文体等等。具体地,网络设备可以通过从网页中提取来获取目标信息的属性标识,一种较佳的实施方式是,仍采用爬虫技术从互联网的网页中获取目标信息的属性标识。并且,步骤205可以在执行步骤201至步骤204的过程中的任意时刻执行,一种较佳的实施方式是,在获取目标信息的同时获取该目标信息的属性标识。例如,上述内容为“***:上半年3家外资机构获得QFII资格”的目标信息出现在2010年7月7日的新浪网新闻版网页上,则通过提取该网页,获取到该目标信息的属性标识包括:“新浪网”、“新闻”。
步骤206:根据上述目标信息和上述一个以上切词结果数据对应的一个以上类别标识,生成信息内涵字符串。
具体地,在此步骤中,将上述一个以上切词结果数据对应的一个以上类别标识和上述目标信息的属性标识附加在上述目标信息之后,生成信息内涵字符串。仍以上述目标信息为例,最终生成的信息内涵字符串为:“***:上半年3家外资机构获得QFII资格”“证券”“金融”“理财”“政府机构”“经济机构”“资本”“组织”“经济学”“国际金融”“投资”“贸易”“国际资产组合投资”“2010年7月7日”“新浪”“新闻”。
在本发明实施例二中,通过获取并分析参考信息来生成用于查询的词语语义库,并且在获取到切词结果数据所属的类别标识之后,进一步获取目标信息的属性标识,根据目标信息、该类别标识和该属性标识生成信息内涵字符串,从而使得信息内涵字符串在包括了目标信息和与该目标信息中的词语相关的类别标识的基础上,还包括该目标信息出现的时间、媒体等属性标识,进一步丰富了目标信息的内涵,使得网络设备获取的目标信息的内涵更加准确、完整。
图3为本发明实施例三提供的信息处理装置的结构示意图。该信息处理装置可以设置于网络设备中,也可以作为一个独立的装置设置在网络设备外。如图3所示,该信息处理装置至少包括:信息获取单元31、切词单元32、词语语义库单元33、类别标识单元34和内涵字符串生成单元35。
其中,信息获取单元31获取目标信息并传送给切词单元32和内涵字符串生成单元35。具体地,信息获取单元31可以采用爬虫技术获取目标信息。进一步地,信息获取单元31还采用爬虫技术从互联网获取一个以上参考信息并传送给词语语义库单元33。
切词单元32对目标信息进行切词,获取一个以上切词结果数据并传送给类别标识单元34。进一步地,切词单元32还接收来自词语语义库单元33的一个以上标准化数据,对上述一个以上标准化数据进行切词,获取对应的一个以上标准化切词结果数据并传送给词语语义库单元33。
词语语义库单元33存储词语语义库。进一步地,词语语义库单元33还通过获取并分析一个以上参考信息,获取词语语义库。具体地,词语语义库单元33包括:格式处理子单元331、聚类分析子单元332和词语语义库生成子单元333。其中,格式处理子单元331接收来自信息获取单元31的一个以上参考信息,根据上述一个以上参考信息生成一个以上标准化数据,并传送给切词单元32。聚类分析子单元332接收来自切词单元32的一个以上标准化切词结果数据,对上述一个以上标准化切词结果数据进行聚类分析,并将聚类分析结果发送给词语语义库生成子单元333。词语语义库生成子单元333根据聚类分析结果,分类存储上述一个以上标准化切词结果数据,生成词语语义库。
类别标识单元34接收来自切词单元32的一个以上切词结果数据,在词语语义库单元33存储的词语语义库中查询上述一个以上切词结果数据,获取每个切词结果数据对应的一个以上类别标识并发送给内涵字符串生成单元35。具体地,类别标识单元34根据每个切词结果数据,遍历上述词语语义库中的类别,查询并获取该切词结果数据的一个以上匹配项,根据上述一个以上匹配项在上述词语语义库中所属的类别,标识该切词结果数据。
内涵字符串生成单元35接收来自信息获取单元31的目标信息和来自类别标识单元34的一个以上切词结果数据对应的一个以上类别标识,根据上述目标信息和上述一个以上切词结果数据对应的一个以上类别标识,生成信息内涵字符串。
在包括上述信息获取单元31、切词单元32、词语语义库单元33、类别标识单元34和内涵字符串生成单元35的基础上,该信息处理装置还可以包括:属性标识单元36。属性标识单元36接收来自信息获取单元31的目标信息,获取目标信息的属性标识并发送给内涵字符串生成单元35。在信息处理装置包括属性标识单元36的情况下,则内涵字符串生成单元35将上述一个以上切词结果数据对应的一个以上类别标识和上述目标信息的属性标识附加在上述目标信息之后,生成信息内涵字符串。
在本发明实施例三中,词语语义库单元33存储词语语义库,类别标识单元34通过查找词语语义库来获取切词结果数据所属的类别标识,内涵字符串生成单元35根据目标信息和切词结果数据所属的类别标识生成内涵字符串。进一步地,属性标识单元36获取目标信息的属性标识,内涵字符串生成单元35根据目标信息、切词结果数据所属的类别标识和目标信息的属性标识生成内涵字符串。采用该信息处理装置获取的目标信息的内涵中包括切词结果数据所属的类别标识和目标信息的属性标识,从而使得网络设备准确完整地获取到目标信息的内涵。
需要说明的是:对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种信息处理方法,其特征在于,包括:
获取目标信息;
对所述目标信息进行切词,获取一个以上切词结果数据;
在预先存储的词语语义库中查询所述一个以上切词结果数据,获取每个切词结果数据对应的一个以上类别标识;
根据所述目标信息和所述一个以上切词结果数据对应的一个以上类别标识,生成信息内涵字符串。
2.根据权利要求1所述的信息处理方法,其特征在于,所述在预先存储的词语语义库中查询所述一个以上切词结果数据之前还包括:
通过获取并分析一个以上参考信息,获取并存储词语语义库。
3.根据权利要求2所述的信息处理方法,其特征在于,所述通过获取并分析一个以上参考信息,获取并存储词语语义库包括:
采用爬虫技术从互联网获取一个以上参考信息;
根据所述一个以上参考信息生成一个以上标准化数据;
对所述一个以上标准化数据进行切词,获取对应的一个以上标准化切词结果数据;
对所述一个以上标准化切词结果数据进行聚类分析;
根据聚类分析结果,分类存储所述一个以上标准化切词结果数据,生成词语语义库。
4.根据权利要求1所述的信息处理方法,其特征在于,
所述获取每个切词结果数据对应的一个以上类别标识之后还包括:获取目标信息的属性标识;
所述根据所述目标信息和所述一个以上切词结果数据对应的一个以上类别标识,生成信息内涵字符串包括:将所述一个以上切词结果数据对应的一个以上类别标识和所述目标信息的属性标识附加在所述目标信息之后,生成信息内涵字符串。
5.根据权利要求1至4中任意一项所述的信息处理方法,其特征在于,所述在预先存储的词语语义库中查询所述一个以上切词结果数据,获取每个切词结果数据对应的一个以上类别标识包括:
根据每个切词结果数据,遍历所述词语语义库中的类别,查询并获取该切词结果数据的一个以上匹配项;
根据所述一个以上匹配项在所述词语语义库中所属的类别,标识该切词结果数据。
6.一种信息处理装置,其特征在于,包括:
信息获取单元,用于获取目标信息;
切词单元,用于对所述目标信息进行切词,获取一个以上切词结果数据;
词语语义库单元,用于存储词语语义库;
类别标识单元,用于在存储的词语语义库中查询所述一个以上切词结果数据,获取每个切词结果数据对应的一个以上类别标识;
内涵字符串生成单元,用于根据所述目标信息和所述一个以上切词结果数据对应的一个以上类别标识,生成信息内涵字符串。
7.根据权利要求6所述的信息处理装置,其特征在于,
所述信息获取单元还用于获取一个以上参考信息;
所述词语语义库单元还用于通过分析所述一个以上参考信息,获取词语语义库。
8.根据权利要求7所述的信息处理装置,其特征在于,所述词语语义库单元包括:
格式处理子单元,用于根据所述一个以上参考信息生成一个以上标准化数据;
聚类分析子单元,用于对所述一个以上标准化切词结果数据进行聚类分析;
词语语义库生成子单元,用于根据聚类分析结果,分类存储所述一个以上标准化切词结果数据,生成词语语义库;
所述切词单元还用于对所述一个以上标准化数据进行切词,获取对应的一个以上标准化切词结果数据。
9.根据权利要求6所述的信息处理装置,其特征在于,
还包括:属性标识单元,用于获取目标信息的属性标识;
所述内涵字符串生成单元,用于将所述一个以上切词结果数据对应的一个以上类别标识和所述目标信息的属性标识附加在所述目标信息之后,生成信息内涵字符串。
10.根据权利要求6至9中任意一项所述的信息处理装置,其特征在于,
所述类别标识单元具体用于根据每个切词结果数据,遍历所述词语语义库中的类别,查询并获取该切词结果数据的一个以上匹配项,根据所述一个以上匹配项在所述词语语义库中所属的类别,标识该切词结果数据。
CN 201010518927 2010-10-19 2010-10-19 信息处理方法和装置 Pending CN102063460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010518927 CN102063460A (zh) 2010-10-19 2010-10-19 信息处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010518927 CN102063460A (zh) 2010-10-19 2010-10-19 信息处理方法和装置

Publications (1)

Publication Number Publication Date
CN102063460A true CN102063460A (zh) 2011-05-18

Family

ID=43998739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010518927 Pending CN102063460A (zh) 2010-10-19 2010-10-19 信息处理方法和装置

Country Status (1)

Country Link
CN (1) CN102063460A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104469002A (zh) * 2014-12-02 2015-03-25 科大讯飞股份有限公司 确定手机联系人的方法和装置
CN104572955A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种基于聚类确定poi名称的***及方法
CN104572957A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种基于聚类的poi名称确定***及方法
WO2016107352A1 (zh) * 2014-12-29 2016-07-07 北京奇虎科技有限公司 确定poi名称、确定poi信息有效性的***和方法
CN106446717A (zh) * 2016-10-14 2017-02-22 深圳天珑无线科技有限公司 一种信息处理方法、装置及终端
CN106899495A (zh) * 2017-03-06 2017-06-27 维沃移动通信有限公司 一种通信信息的词义询问方法及移动终端
CN107430544A (zh) * 2015-03-09 2017-12-01 三菱电机株式会社 信息处理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030028520A1 (en) * 2001-06-20 2003-02-06 Alpha Shamim A. Method and system for response time optimization of data query rankings and retrieval
CN101788989A (zh) * 2009-01-22 2010-07-28 蔡亮华 词汇信息处理方法及***
CN101788988A (zh) * 2009-01-22 2010-07-28 蔡亮华 信息抓取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030028520A1 (en) * 2001-06-20 2003-02-06 Alpha Shamim A. Method and system for response time optimization of data query rankings and retrieval
CN101788989A (zh) * 2009-01-22 2010-07-28 蔡亮华 词汇信息处理方法及***
CN101788988A (zh) * 2009-01-22 2010-07-28 蔡亮华 信息抓取方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104469002A (zh) * 2014-12-02 2015-03-25 科大讯飞股份有限公司 确定手机联系人的方法和装置
CN104572955A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种基于聚类确定poi名称的***及方法
CN104572957A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种基于聚类的poi名称确定***及方法
WO2016107352A1 (zh) * 2014-12-29 2016-07-07 北京奇虎科技有限公司 确定poi名称、确定poi信息有效性的***和方法
CN104572957B (zh) * 2014-12-29 2016-08-24 北京奇虎科技有限公司 一种基于聚类的poi名称确定***及方法
CN104572955B (zh) * 2014-12-29 2016-08-24 北京奇虎科技有限公司 一种基于聚类确定poi名称的***及方法
CN107430544A (zh) * 2015-03-09 2017-12-01 三菱电机株式会社 信息处理装置
CN107430544B (zh) * 2015-03-09 2020-06-26 三菱电机株式会社 信息处理装置以及信息处理***
CN106446717A (zh) * 2016-10-14 2017-02-22 深圳天珑无线科技有限公司 一种信息处理方法、装置及终端
CN106899495A (zh) * 2017-03-06 2017-06-27 维沃移动通信有限公司 一种通信信息的词义询问方法及移动终端
CN106899495B (zh) * 2017-03-06 2019-02-15 维沃移动通信有限公司 一种通信信息的词义询问方法及移动终端

Similar Documents

Publication Publication Date Title
US20180053107A1 (en) Aspect-based sentiment analysis
CN102063460A (zh) 信息处理方法和装置
CN103530282A (zh) 语料标注方法及设备
CN107943786B (zh) 一种中文命名实体识别方法及***
CN104572625A (zh) 命名实体的识别方法
Alshutayri et al. Exploring Twitter as a source of an Arabic dialect corpus
CN113779358B (zh) 一种事件检测方法和***
CN111061882A (zh) 一种知识图谱构建方法
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN114004694A (zh) 一种基于舆情信息的企业风险预警方法、设备及介质
CN111831803A (zh) 一种敏感信息检测方法、装置及存储介质
Shekhawat Sentiment classification of current public opinion on BREXIT: Naïve Bayes classifier model vs Python’s TextBlob approach
CN116151233A (zh) 数据标注、生成方法、模型训练方法、设备和介质
Zhang et al. Semi-supervised URL segmentation with recurrent neural networks pre-trained on knowledge graph entities
CN112395407B (zh) 企业实体关系的抽取方法、装置及存储介质
CN110188340B (zh) 一种研报文本实体名词自动识别方法
JP2011028638A (ja) 要約文作成装置、要約文作成方法、プログラム
CN109558580B (zh) 一种文本分析方法及装置
CN113743118B (zh) 基于融合关系信息编码的法律文书中的实体关系抽取方法
CN112488593B (zh) 一种用于招标的辅助评标***及方法
Qu et al. Sentence dependency tagging in online question answering forums
Chakraborty et al. Automating the process of taxonomy creation and comparison of taxonomy structures
CN113515949A (zh) 使用一般和目标领域知识的弱监督语义实体识别
CN115730064A (zh) 一种关键词处理方法、装置、电子设备和存储介质
CN110019831B (zh) 一种产品属性的分析方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110518