CN107423304A - 检索词分类方法及装置 - Google Patents

检索词分类方法及装置 Download PDF

Info

Publication number
CN107423304A
CN107423304A CN201610350036.1A CN201610350036A CN107423304A CN 107423304 A CN107423304 A CN 107423304A CN 201610350036 A CN201610350036 A CN 201610350036A CN 107423304 A CN107423304 A CN 107423304A
Authority
CN
China
Prior art keywords
term
retrieval result
grader
data
data characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610350036.1A
Other languages
English (en)
Inventor
马守玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610350036.1A priority Critical patent/CN107423304A/zh
Priority to PCT/CN2016/097351 priority patent/WO2017201907A1/zh
Publication of CN107423304A publication Critical patent/CN107423304A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种检索词分类方法及装置。该方法包括:接收用户输入的检索词,并根据检索词获取对应的检索结果;获取检索结果的点击数据,并根据点击数据提取对应的数据特征;训练数据特征,以生成分类器;以及根据分类器对检索词进行分类。本发明实施例提供的检索词分类方法及装置,通过接收用户输入的检索词,并根据检索词获取对应的检索结果,再获取检索结果的点击数据,并根据点击数据提取对应的数据特征,训练数据特征,以生成分类器,以及根据分类器对检索词进行分类,能够丰富检索结果,提高检索结果的多样性和扩展性。

Description

检索词分类方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种检索词分类方法及装置。
背景技术
随着互联网的迅速发展,智能手机等移动终端越来越普及,在使用智能手机的过程中,用户可根据需求安装具有各种功能的应用程序(APP,Application)。
目前,用户可以通过应用商店,输入检索词来搜索所需的APP。但是,通过该方式获取的结果仅与检索词相关,比较单一,不够丰富。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种检索词分类方法,该方法能够丰富检索结果,提高检索结果的多样性和扩展性。
本发明的第二个目的在于提出一种检索词分类装置。
为达上述目的,本发明第一方面实施例提出了一种检索词分类方法,包括:接收用户输入的检索词,并根据所述检索词获取对应的检索结果;获取所述检索结果的点击数据,并根据所述点击数据提取对应的数据特征;训练所述数据特征,以生成分类器;以及根据所述分类器对所述检索词进行分类。
本发明实施例的检索词分类方法,通过接收用户输入的检索词,并根据所述检索词获取对应的检索结果,再获取所述检索结果的点击数据,并根据所述点击数据提取对应的数据特征,训练所述数据特征,以生成分类器,以及根据所述分类器对所述检索词进行分类,能够丰富检索结果,提高检索结果的多样性和扩展性。
为达上述目的,本发明第二方面实施例提出了一种检索词分类装置,包括:获取模块,用于接收用户输入的检索词,并根据所述检索词获取对应的检索结果;提取模块,用于获取所述检索结果的点击数据,并根据所述点击数据提取对应的数据特征;训练模块,用于训练所述数据特征,以生成分类器;以及分类模块,用于根据所述分类器对所述检索词进行分类。
本发明实施例的检索词分类装置,通过接收用户输入的检索词,并根据所述检索词获取对应的检索结果,再获取所述检索结果的点击数据,并根据所述点击数据提取对应的数据特征,训练所述数据特征,以生成分类器,以及根据所述分类器对所述检索词进行分类,能够丰富检索结果,提高检索结果的多样性和扩展性。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明一个实施例的检索词分类方法的流程图。
图2是本发明一个实施例的检索词分类装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的检索词分类方法及装置。
图1是本发明一个实施例的检索词分类方法的流程图。该实施例的检索词分类方法可以应用在移动终端中,其中,该实施例中所说的移动终端可以是手机、平板电脑、智能便携式设备等具有各种操作系的硬件设备。如图1所示,该检索词分类方法可以包括以下几个步骤:
S1,接收用户输入的检索词,并根据检索词获取对应的检索结果。
举例来说,用户可进入应用商店,在应用商店的搜索栏中输入检索词“鲜花”,则可根据检索词“鲜花”对应用商店进行搜索,从而获取与“鲜花”相关的应用程序APP,如鲜花网、鲜花连连看等。
S2,获取检索结果的点击数据,并根据点击数据提取对应的数据特征。
在获取检索结果后,可接收用户对检索结果的点击操作,记录下点击操作对应的点击数据。然后可根据点击数据提取对应的数据特征。其中,数据特征可包括检索结果的名称、类别、关键字、版本、文件大小、下载次数、开发者姓名等。例如:被点击的APP是鲜花连连看,则可提取出鲜花连连看APP对应的名称“鲜花连连看”,类别“游戏”,版本“6.0”,文件大小“30M”,下载次数500次等。
S3,训练数据特征,以生成分类器。
在提取数据特征之后,可采用机器学习模型对数据特征进行训练,以生成分类器。其中,机器学习模型可包括朴素贝叶斯模型、支持向量机模型、神经网络等。举例来说,可使用APP的类别这一数据特征,采用朴素贝叶斯模型进行训练,从而生成分类器。或者,可使用APP的类别和关键字,采用支持向量机模型进行训练,从而生成分类器。
S4,根据分类器对检索词进行分类。
在训练好分类器后,可利用分类器对检索词进行分类。例如:检索词“鲜花”,可利用分类器将其分类为游戏类。
当用户再次以检索词“鲜花”进行搜索时,可向用户推荐更多属于游戏类的APP,从而丰富检索结果。
当然,检索词的分类不仅限于一类,可以属于多个类别。可优先向用户推荐点击次数多的类别。
本发明实施例的检索词分类方法,通过接收用户输入的检索词,并根据检索词获取对应的检索结果,再获取检索结果的点击数据,并根据点击数据提取对应的数据特征,训练数据特征,以生成分类器,以及根据分类器对检索词进行分类,能够丰富检索结果,提高检索结果的多样性和扩展性。
为了实现上述实施例,本发明还提出了一种检索词分类装置。
图2是本发明一个实施例的检索词分类装置的结构示意图。
如图2所示,该检索词分类装置包括获取模块110、提取模块120、训练模块130和分类模块140,其中:
获取模块110用于接收用户输入的检索词,并根据检索词获取对应的检索结果。举例来说,用户可进入应用商店,在应用商店的搜索栏中输入检索词“鲜花”,则可根据检索词“鲜花”对应用商店进行搜索,从而获取与“鲜花”相关的应用程序APP,如鲜花网、鲜花连连看等。
提取模块120用于获取检索结果的点击数据,并根据点击数据提取对应的数据特征。在获取检索结果后,可接收用户对检索结果的点击操作,记录下点击操作对应的点击数据。然后可根据点击数据提取对应的数据特征。其中,数据特征可包括检索结果的名称、类别、关键字、版本、文件大小、下载次数、开发者姓名等。例如:被点击的APP是鲜花连连看,则可提取出鲜花连连看APP对应的名称“鲜花连连看”,类别“游戏”,版本“6.0”,文件大小“30M”,下载次数500次等。
训练模块130用于训练数据特征,以生成分类器。在提取数据特征之后,可采用机器学习模型对数据特征进行训练,以生成分类器。其中,机器学习模型可包括朴素贝叶斯模型、支持向量机模型、神经网络等。举例来说,可使用APP的类别这一数据特征,采用朴素贝叶斯模型进行训练,从而生成分类器。或者,可使用APP的类别和关键字,采用支持向量机模型进行训练,从而生成分类器。
分类模块140用于根据分类器对检索词进行分类。在训练好分类器后,可利用分类器对检索词进行分类。例如:检索词“鲜花”,可利用分类器将其分类为游戏类。
当用户再次以检索词“鲜花”进行搜索时,可向用户推荐更多属于游戏类的APP,从而丰富检索结果。
当然,检索词的分类不仅限于一类,可以属于多个类别。可优先向用户推荐点击次数多的类别。
本发明实施例的检索词分类装置,通过接收用户输入的检索词,并根据检索词获取对应的检索结果,再获取检索结果的点击数据,并根据点击数据提取对应的数据特征,训练数据特征,以生成分类器,以及根据分类器对检索词进行分类,能够丰富检索结果,提高检索结果的多样性和扩展性。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种检索词分类方法,包括:
接收用户输入的检索词,并根据所述检索词获取对应的检索结果;
获取所述检索结果的点击数据,并根据所述点击数据提取对应的数据特征;
训练所述数据特征,以生成分类器;以及
根据所述分类器对所述检索词进行分类。
2.如权利要求1所述的方法,其中,所述数据特征包括所述检索结果的名称、类别、关键字、版本、文件大小、下载次数、开发者姓名中的一种或多种。
3.如权利要求1所述的方法,其中,训练所述数据特征,以生成分类器,包括:
采用机器学习模型对所述数据特征进行训练,以生成分类器。
4.如权利要求3所述的方法,其中,所述机器学习模型包括朴素贝叶斯模型、支持向量机模型、神经网络中的一种。
5.一种检索词分类装置,包括:
获取模块,用于接收用户输入的检索词,并根据所述检索词获取对应的检索结果;
提取模块,用于获取所述检索结果的点击数据,并根据所述点击数据提取对应的数据特征;
训练模块,用于训练所述数据特征,以生成分类器;以及
分类模块,用于根据所述分类器对所述检索词进行分类。
6.如权利要求5所述的装置,其中,所述数据特征包括所述检索结果的名称、类别、关键字、版本、文件大小、下载次数、开发者姓名中的一种或多种。
7.如权利要求5所述的装置,其中,所述训练模块,用于:
采用机器学习模型对所述数据特征进行训练,以生成分类器。
8.如权利要求7所述的装置,其中,所述机器学习模型包括朴素贝叶斯模型、支持向量机模型、神经网络中的一种。
CN201610350036.1A 2016-05-24 2016-05-24 检索词分类方法及装置 Pending CN107423304A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610350036.1A CN107423304A (zh) 2016-05-24 2016-05-24 检索词分类方法及装置
PCT/CN2016/097351 WO2017201907A1 (zh) 2016-05-24 2016-08-30 检索词分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610350036.1A CN107423304A (zh) 2016-05-24 2016-05-24 检索词分类方法及装置

Publications (1)

Publication Number Publication Date
CN107423304A true CN107423304A (zh) 2017-12-01

Family

ID=60410990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610350036.1A Pending CN107423304A (zh) 2016-05-24 2016-05-24 检索词分类方法及装置

Country Status (2)

Country Link
CN (1) CN107423304A (zh)
WO (1) WO2017201907A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019808A (zh) * 2017-12-28 2019-07-16 北京京东尚科信息技术有限公司 一种预测信息属性的方法和装置
TWI689825B (zh) * 2017-12-29 2020-04-01 大陸商中國銀聯股份有限公司 一種文件品質指標獲取方法及裝置
CN111177521A (zh) * 2018-10-24 2020-05-19 北京搜狗科技发展有限公司 一种查询词分类模型的确定方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875781B (zh) * 2018-05-07 2022-08-19 腾讯科技(深圳)有限公司 一种标签分类方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211368A (zh) * 2007-12-25 2008-07-02 北京搜狗科技发展有限公司 一种对查询词分类的方法、装置及搜索引擎***
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和***
US20110314011A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Automatically generating training data

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020066B (zh) * 2011-09-21 2016-09-07 北京百度网讯科技有限公司 一种识别搜索需求的方法和装置
CN104050240A (zh) * 2014-05-26 2014-09-17 北京奇虎科技有限公司 一种确定搜索查询词类别属性的方法和装置
CN104199822B (zh) * 2014-07-11 2018-05-18 五八同城信息技术有限公司 一种识别搜索对应的需求分类的方法和***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211368A (zh) * 2007-12-25 2008-07-02 北京搜狗科技发展有限公司 一种对查询词分类的方法、装置及搜索引擎***
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和***
US20110314011A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Automatically generating training data

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019808A (zh) * 2017-12-28 2019-07-16 北京京东尚科信息技术有限公司 一种预测信息属性的方法和装置
TWI689825B (zh) * 2017-12-29 2020-04-01 大陸商中國銀聯股份有限公司 一種文件品質指標獲取方法及裝置
CN111177521A (zh) * 2018-10-24 2020-05-19 北京搜狗科技发展有限公司 一种查询词分类模型的确定方法和装置

Also Published As

Publication number Publication date
WO2017201907A1 (zh) 2017-11-30

Similar Documents

Publication Publication Date Title
KR101657495B1 (ko) 딥러닝 분석을 위한 모듈화시스템 및 이를 이용한 영상 인식 방법
CN106874248A (zh) 基于人工智能的文章生成方法和装置
CN105023165A (zh) 社交网络平台中投放任务的控制方法、装置及***
CN110472082B (zh) 数据处理方法、装置、存储介质及电子设备
CN107423304A (zh) 检索词分类方法及装置
CN106777229A (zh) 一种个性化推荐实时性测试方法、装置及电子设备
CN104216965A (zh) 信息推荐方法和装置
CN103440243B (zh) 一种教学资源推荐方法及其装置
CN111062964B (zh) 图像分割方法及相关装置
CN105589913A (zh) 一种提取页面信息的方法及装置
CN108132887A (zh) 用户界面校验方法、装置、软件测试***、终端及介质
CN110598095B (zh) 一种识别包含指定信息文章的方法、装置及存储介质
CN108255999A (zh) 内容推荐方法及装置
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN105787133A (zh) 广告信息过滤方法及装置
CN117093699B (zh) 智能问答方法、装置、设备及介质
CN107864405A (zh) 一种收视行为类型的预测方法、装置及计算机可读介质
CN107748898A (zh) 文件分类方法、装置、计算设备及计算机存储介质
CN104504108A (zh) 信息搜索方法及装置
CN108574669A (zh) 用户行为树构建方法及装置
CN108153719A (zh) 合并电子表格的方法和装置
CN104750791A (zh) 一种图像检索方法及装置
WO2015085404A1 (en) Method, system and apparatus for configuring a chatbot
CN105959403A (zh) 一种壁纸的推荐方法、服务器及移动终端
CN104731936A (zh) 信息搜索方法和信息搜索装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171201

RJ01 Rejection of invention patent application after publication