CN103631963B

CN103631963B - 一种基于大数据的关键词优化处理方法及装置

Info

Publication number: CN103631963B
Application number: CN201310696077.2A
Authority: CN
Inventors: 裴向宇; 田传钊; 王汉生; 李红波; 常莹
Original assignee: Learned Cube Of Beijing Science And Technology Ltd
Current assignee: Learned Cube Of Beijing Science And Technology Ltd
Priority date: 2013-12-18
Filing date: 2013-12-18
Publication date: 2017-10-17
Anticipated expiration: 2033-12-18
Also published as: CN103631963A

Abstract

本发明公开了一种基于大数据的关键词优化处理方法及装置，所述方法包括：将待处理的各文本信息顺序排列，且拆分为单字；根据每个单字的频率将设定频率的单字去除，且将剩余的单字合并为字符串；从合并的各字符串中提取核心关键词。通过本发明公开的一种基于大数据的关键词优化处理方法及装置，可以解决确定关键词的正确率低，且确定关键词的成本高问题，实现提高确定关键词的正确率，且降低确定关键词的成本的技术效果。

Description

一种基于大数据的关键词优化处理方法及装置

技术领域

本发明实施例涉及计算机数据处理技术，尤其涉及一种基于大数据的关键词优化处理方法及装置。

背景技术

付费搜索广告是目前互联网上最重要的广告投放方式。若将所有企业在互联网上的广告预算记作100%，则付费搜索广告方面投入占据50%以上的份额。在国内，主要的投放平台例如有百度推广平台等。

付费搜索广告的实现机制是由广告投放者确定待投放的关键词，以及关键词对应的创意推荐信息和链接广告网页等。广告投放者从付费搜索广告服务商处购买待投放的关键词，当浏览用户输入检索式时，就会通过与关键词匹配而搜索到相应的创意推荐信息和链接广告网页，供用户浏览和点击。搜索引擎***会记录展现量、点击量等数据，用于按照设定规则进行计费。

基于上述机制，对于广告投放者而言，一个成功的付费搜索广告需要完成以下几个重要的步骤：

第一、选取正确的关键词。例如一个机票代理机构，应该购买“航空客票”，“电子客票”等能够匹配其业务的关键词，类似“婴儿奶粉”这样与其从事的行业完全无关的关键词是不适用的。第二、为购买的关键词写作简明而富有吸引力的创意推荐信息，以吸引客户关注，提升广告点击率，进而提升关键词质量度。第三、为每个关键词设定合理的最高出价及匹配方式等。

其中，选取正确的关键词尤为重要，待投放的关键词可以不断的修改和新增，现有技术对推广关键词的新增方式是人工通过经验的判断等进行更新。主要依靠对行业和付费广告推广都比较了解的人员，或者经验丰富的咨询师提取行业核心关键词进行拓词，对拓词结果进行人工过滤、分组，然后上线推广，用效果对关键词做进一步的筛选。具体地说，一个典型的优化过程可概括如下：首先，咨询师会根据自己的经验和相关业务知识为挑选核心关键词进行拓词；然后，根据相关业务知识对拓词结果进行人工过滤，删除掉自身认为不相关的关键词；接下来，将关键词分组上线，如果关键词带来大量无效花费，则删除该关键词。

但是，现有的基于人工方式处理关键词过程有如下缺点：

第一、由于这种方法主要依赖人的主观判断，很容易出现对于同一个关键词，不同咨询师对行业核心关键词、拓词结果的过滤以及分组的意见不相一致。这使得推广的质量严重受限于咨询师的专业技能水平及对行业的了解，如果咨询师对行业了解不够，很容易造成大量无效花费。

第二、通过语义的方式挑选核心关键词、进行关键词过滤和分组，结果比较准确，因为这是对真实语义分析的结果。但是却要消耗大量的时间成本：

(1)咨询师需要根据经验和对相关行业的了解，根据账户已有关键词提取行业核心关键词，这会花费咨询师很多时间；

(2)根据核心关键词进行拓词，拓词结果一般较多，咨询师对逐个关键词进行分析过滤、分组，会花费咨询师大量宝贵的时间。

（3）大型企业的推广账户中包含的关键词可能达到十万或百万量级，当账户规模超过一定程度时挑选账户核心词工作已经超越人力可及的范围，当账户需要增加的关键词超过一定量时，人工对关键词进行过滤和分组也会显得力不从心。

发明内容

本发明实施例提供一种基于大数据的关键词优化处理方法和装置，以提高所确定关键词的正确率，且降低确定关键词的成本。

一方面，本发明实施例提供了一种基于大数据的关键词优化处理方法，包括：

将待处理的各文本信息顺序排列，且拆分为单字；

根据每个单字的频率将设定频率的单字去除，且将剩余的单字合并为字符串；

从合并的各字符串中提取核心关键词。

另一方面，本发明实施例还提供了一种基于大数据的关键词优化处理装置，包括：

单字拆分模块，用于将待处理的各文本信息顺序排列，且拆分为单字；

字符串合并模块，用于根据每个单字的频率将设定频率的单字去除，且将剩余的单字合并为字符串；

关键词提取模块，用于从合并的各字符串中提取核心关键词。

本发明实施例通过将待处理的各文本信息顺序排列，且拆分为单字；根据每个单字的频率将设定频率的单字去除，且将剩余的单字合并为字符串；从合并的各字符串中提取核心关键词，解决确定关键词的正确率低，且确定关键词的成本高问题，实现提高确定关键词的正确率，且降低确定关键词的成本的技术效果。

附图说明

图1是本发明实施例一中提供的一种基于大数据的关键词优化处理方法的流程示意图；

图2是本发明实施例二中提供的一种基于大数据的关键词优化处理方法的流程示意图；

图3是本发明实施例三中提供的一种基于大数据的关键词优化处理方法的流程示意图；

图4是本发明实施例四中提供的一种基于大数据的关键词优化处理方法的流程示意图；

图5是本发明实施例五中提供的一种基于大数据的关键词优化处理装置的结构示意图；

图6是本发明实施例六中提供的一种基于大数据的关键词优化处理装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中提供的一种基于大数据的关键词优化处理方法的流程示意图，该处理方法可以由基于大数据的关键词优化处理装置来执行，如图1所示，包括以下步骤：

步骤S101，将待处理的各文本信息顺序排列，且拆分为单字。

待处理的各文本信息可以是在初始投放关键词时初定的多个文本信息，也可以是在后续添加关键词时，账户中原有投放的关键词。

本步骤中将文本信息首先拆分为单字，以便后续处理。将待处理的各文本信息顺序排列，且拆分为单字的操作优选包括：将待处理的各文本信息顺序排列，每个文本信息之间设置间隔符；依据间隔符，将每个文本信息拆分为单字。

需要进行说明的是，各文本信息可以是包括字母、数字、汉字和符号任意组合的字符串。具体的，单字可以包括一个字母、一个数字、一个汉字或一个符号。

步骤S102，根据每个单字的频率将设定频率的单字去除，且将剩余的单字合并为字符串；

本步骤按照单字的频率进行去除，单字的频率即每个单字在所有单字中的出现比例，例如共出现100个单字，而其中10个出现的单字是相同的，则该单字的频率为10%。本步骤可以将出现频率过高或过低的单字去除，具体的设定频率值可以根据需要或经验进行设置。剩余的单字合并为符合一定规律的字符串，从而筛选掉一些过于生僻或冗余的单字。在步骤S102中，根据每个单字的频率将设定频率的单字去除，且将剩余的单字合并为字符串可以具体包括：

首先，根据每个单字的频率将设定频率的单字去除，去除的单字以间隔符替换。然后，在剩余的单字中，将间隔符之间的连续单字合并为一个字符串。

步骤S103，从合并的各字符串中提取核心关键词。

提取核心关键词的操作可按照设定规则来进行，由于剩余的字符串已经经过了单字的过滤筛选，所以剩余的字符串本身已经是出现频率较高的字符串，特殊情况下可以全部提取作为核心关键词。

优选的提取操作，从合并的各字符串中提取核心关键词具体可包括：

从合并的各字符串中，将字符的数量小于设定阈值的字符串删除；从而可以保留字符数量大于设定阈值的字符串，其中，设定阈值可以是正整数，例如1，从而可以删除字符数量为1的字符串。该操作实际上将只有一个单字的字符串进行了删除。

在剩余的字符串中，提取频率最高的一个字符串作为核心关键词。

从待处理的各文本信息中以间隔符替换核心关键词，重复执行上述拆分单字、合并字符串和提取核心关键词的操作。

需要进行说明的是，也可以是在剩余的字符串中，一次提取满足设定最高频率的多个核心关键词。但是，采用上述循环提取的操作，可以使得每次提取一个核心关键词，剩余文本信息就不再受到此核心关键词的干扰，而可在其中继续提取其他核心关键词，这样的准确率更高。

通过本发明实施例一公开的一种基于大数据的关键词优化处理方法，其中以对单字的筛选处理来自动过滤文本信息，减少甚至无需人工的干预，自动完成，也能适用于海量文本信息的处理。可以提高针对大量、复杂数据来确定关键词的正确率，且降低确定关键词的成本。

实施例二

本发明实施例二基于本发明实施例一公开的一种基于大数据的关键词优化处理方法，提供了一种关键词优化处理方法的优选实例，如图2所示，包括如下步骤：

步骤S201、假设在文本信息中具体包括以下词组，将各文本信息顺序排列，且在各文本信息之间设置间隔符“!”，如下：

诺基亚手机!三星手机!苹果手机!诺基亚手机怎么样!IPHONE5s!智能手机!IPHONE4!IPHONE5!IPHONE4s!三星S4!三星S3!三星S2!苹果手机怎么样!三星手机好用吗!诺基亚手机好用吗!智能大屏手机

步骤S202、将上述文本信息中的所有词组拆成单字，拆分结果为：

步骤S203、将单字的频率低于平均值的字符用间隔符“!”替换，该平均值是所有单字频率的平均值，替换结果为：

!!!手机!三星手机!!!手机!!!!手机!!!!IPHONE!!!手机!IPHONE!!IPHONE!!IPHONE!!!三星!!!三星!!!三星!!!!!手机!!!!三星手机!!!!!!!手机!!!!!!!!手机

步骤S204、保留上述词组中字符数大于1的词组，结果为：

手机!三星手机!手机!手机!IPHONE!手机!IPHONE!IPHONE!IPHONE!三星!三星!三星!手机!三星手机!手机!手机

步骤S205、提取出现频率最高的字符串，其中出现频数最高的词语为“手机”，出现7次，此处提取核心关键词“手机”。

步骤S206、在原始文本信息中去掉“手机”，以间隔符替换，结果为：

诺基亚!三星!苹果!诺基亚!怎么样!IPHONE5s!智能!IPHONE4!IPHONE5!IPHONE4s!三星S4!三星S3!三星S2!苹果!怎么样!三星!好用吗!诺基亚!好用吗!智能大屏!

步骤S207、重复上述步骤S202-S206，提取频数最高的字符串为“三星”，出现5次，此处提取核心关键词“三星”。

步骤S208、在原文本信息中去掉“三星”,以间隔符替换，结果为：

诺基亚!苹果!诺基亚!怎么样!IPHONE5s!智能!IPHONE4!IPHONE5!IPHONE4s!S4!S3!S2!苹果!怎么样!好用吗!诺基亚!好用吗!智能大屏!

步骤S209、提取其中频数最高的为IPHONE，出现4次，此处提取核心关键词“IPHONE”。

可重复执行上述操作，直至获得设定数量的核心关键词，或者最高频率设定阈值。本实例中，核心关键词提取结果为：手机、三星、IPHONE、诺基亚。

通过本发明实施例二提供的一种基于大数据的关键词优化处理方法，能够正确从词组中提取到关键词，提高确定关键词的正确率，且降低确定关键词的成本。

实施例三

图3为本发明实施例三提供的基于大数据的关键词优化处理方法的流程图，本实施例以前述实施例为基础，提供了一种核心关键词提取后的应用场景。在付费搜索广告的应用过程中，会根据广告效果来更新投放的关键词，则需要先确定新增的文本信息，再从中筛选关键字来投放，本实施例可以基于账户中已投放的核心关键词来确定新增关键词。如图3所示，在前述实施例基础上，从合并的各字符串中提取核心关键词之后，还包括以下步骤：

步骤S301、从新增文本信息中删除未包含核心关键词的文本信息；

步骤S302、在剩余的每个文本信息中，确定非核心关键词与核心关键词的出现比例，且删除比例低于设定比例值的文本信息，以得到过滤后的文本信息。

举例说明如下，新增的文本信息为：

三星、诺基亚手机贵吗、三星手机好不好、移动手机号码、诺基亚手机如何、三星大屏手机。

从新增文本信息中删除核心关键词，前述实例确定的核心关键词为手机、三星、IPHONE、诺基亚，均包含核心关键词。但是，其中可见，“移动手机号码”中出现的核心关键词的比例较低，若低于设定比例值，则将其删除过滤。过滤后的结果为：三星、诺基亚手机贵吗、三星手机好不好、诺基亚手机如何、三星大屏手机。过滤后的结果可作为投放新增关键词的依据，或者直接作为投放关键词。

上述方案中，优选是在得到过滤后的文本信息之后，还包括：

步骤S303、提取每个过滤后文本信息中的核心关键词，确定为文本信息的标签；

步骤S304、根据标签将各过滤后的文本信息进行分组。

仍通过上述实例来说明，过滤后文本信息的标签对应情况如下：

三星——三星

诺基亚手机贵吗——诺基亚+手机

三星手机好不好——三星+手机

诺基亚手机如何——诺基亚+手机

三星大屏手机——三星+手机

上述的标签有三种：三星、诺基亚+手机、三星+手机，可据此将文本信息分为三组。分组后的关键词更易于进行分组投放。

新增关键词的过程可以多次执行，当新增关键词被投放到账户中，则下次增加关键词时，可以对账户中的关键词重新进行核心关键词的提取，而后再根据核心关键词进行新增关键词的筛选。

实施例四

图4为本发明实施例四提供的基于大数据的关键词优化处理方法的流程图，本实施例以前述实施例为基础，提供了另一种核心关键词提取后的应用场景，即可对关键词与属性之间的敏感度进行识别。在将待处理的各文本信息顺序排列，且拆分为单字之前还包括：

步骤S401、根据待处理文本信息的属性将文本信息进行分类，形成至少两组待处理的文本信息；

属性的设置可以按照需求来完成，文本信息的属性可以是文本信息所对应的技术领域、地域、时限、人物和事件。优选是按照创意推荐信息来分类。其中一个实例为，可以从广告服务商反馈的展现量和点击量等数据中确定各个创意推荐信息的优先级排序，或分类为较优和较差的创意推荐信息。分类后的创意推荐信息所对应的关键词，即为符合该属性的待处理文本信息。

步骤S402、将待处理的各文本信息顺序排列，且拆分为单字；

步骤S403、根据每个单字的频率将设定频率的单字去除，且将剩余的单字合并为字符串；

步骤S404、从合并的各字符串中提取核心关键词。

上述步骤S402-404可参照前述实施例来执行，对每组的待处理文本信息分别执行。

步骤S405、比较各组待处理文本信息的核心关键词是否相同，将不同的核心关键词确定为该组待处理文本信息所对应属性的核心关键词。

如果每组属性对应的核心关键词不同，则说明该不同的核心关键词更能代表两组属性的差异。例如，可能是使创意推荐信息差异更敏感的关键词，则可以设置这些关键词的权重值，以做投放的参考依据。

通过本发明实施例公开的基于大数据的关键词优化处理方法，可以自动实现属性核心关键词的提取，且提取成本低，可靠性高。

实施例五

本发明实施例五提供了一种基于大数据的关键词优化处理装置，如图5所示，具体包括：单字拆分模块51、字符串合并模块52和关键词提取模块53。

其中，单字拆分模块51用于将待处理的各文本信息顺序排列，且拆分为单字；字符串合并模块52用于根据每个单字的频率将设定频率的单字去除，且将剩余的单字合并为字符串；关键词提取模块53用于从合并的各字符串中提取核心关键词。

上述方案中，单字拆分模块51可具体包括：间隔符设置单元511和拆分单元512。间隔符设置单元511用于将待处理的各文本信息顺序排列，每个文本信息之间设置间隔符；拆分单元512，用于依据间隔符将每个文本信息拆分为单字。

字符串合并模块52可具体包括：间隔符替换单元521和合并单元522。间隔符替换单元521，用于根据每个单字的频率将设定频率的单字去除，去除的单字以间隔符替换；合并单元522，用于在剩余的单字中，将间隔符之间的连续单字合并为一个字符串。

关键字提取模块53可具体包括：字符串删除单元531和提取单元532。其中，字符串删除单元531，用于从合并的各字符串中，将字符的数量小于设定阈值的字符串删除；提取单元532，用于在剩余的字符串中，提取频率最高的一个字符串作为核心关键词。

所述装置还可包括：重复执行模块533，用于在提取频率最高的一个字符串作为核心关键词之后，从待处理的各文本信息中以间隔符替换核心关键词，触发重复执行上述拆分单字、合并字符串和提取核心关键词的操作。

通过本发明实施例五公开的一种基于大数据的关键词优化处理装置，可以提高确定关键词的正确率，且降低确定关键词的成本。

实施例六

本发明实施例六提供了一种基于大数据的关键词优化处理装置，如图6所示，包括：单字拆分模块61、字符串合并模块62和关键词提取模块63，还包括：文本信息删除模块64，用于在从合并的各字符串中提取核心关键词之后，从新增文本信息中删除未包含核心关键词的文本信息；

过滤文本信息模块65，用于在剩余的每个文本信息中，确定非核心关键词与核心关键词的出现比例，且删除比例低于设定比例值的文本信息，以得到过滤后的文本信息。

标签确定模块66，用于在得到过滤后的文本信息之后，提取每个过滤后文本信息中的核心关键词，确定为文本信息的标签；

分组模块67，用于根据标签将各过滤后的文本信息进行分组。

上述装置可实现对于投放关键词的新增功能。

或者，该装置中，还可以包括文本信息处理模块，用于在将待处理的各文本信息顺序排列，且拆分为单字之前，根据待处理文本信息的属性将文本信息进行分类，形成至少两组待处理的文本信息；

核心关键词确定模块，用于在从合并的各字符串中提取核心关键词之后，比较各组待处理文本信息的核心关键词是否相同，将不同的核心关键词确定为该组待处理文本信息所对应属性的核心关键词。

通过本发明实施例五提供的一种基于大数据的关键词优化处理装置，可以将新增文本信息中正确的提取关键字，添加到原有的关键字组中。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

本发明实施例的技术方案，结合统计知识和文本挖掘知识，选定一定频数的单字复原原文本信息中，简化了考虑词语组成机构等的复杂程度，为该方法的实现提供了基础；在词语发现过程中，兼顾了文本的频率和简单的位置信息，为词语发现的准确行提供了保证；在词语选择过程中，每次只取出现频率最高的词语，采取循环机制不间断的选取，将不可控因素的干扰降到最低，提高了词语发现的准确度。

本发明实施例方案相较于现有的人工方式处理关键词过程，优势和好处在于:

第一、对于核心关键词的提取、关键词的过滤和分组标准是统一的，不存在因人而异的情况。算法会针对每个推广账户相关的文本信息进行分析，提取的核心关键词与推广账户紧密相关，很大程度上减小了对推广行业等不了解带来的偏差，统一的过滤和分组方式对推广账户的后续优化也带来的很大的便利；

第二、在处理关键词过程中，人工比较费时费力甚至不能完成的核心词提取、过滤、分组过程均由算法自动学习完成，节省了咨询师宝贵的时间。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于大数据的关键词优化处理方法，其特征在于，包括：

将待处理的各文本信息顺序排列，且拆分为单字；

所述将待处理的各文本信息顺序排列，且拆分为单字具体包括：

将待处理的各文本信息顺序排列，每个文本信息之间设置间隔符；

依据所述间隔符，将每个文本信息拆分为单字；

所述根据每个单字的频率将设定频率的单字去除，且将剩余的单字合并为字符串具体包括：

根据每个单字的频率将设定频率的单字去除，去除的单字以间隔符替换；

在剩余的单字中，将间隔符之间的连续单字合并为一个字符串；

从合并的各字符串中提取核心关键词。

2.根据权利要求1所述的方法，其特征在于，所述从合并的各字符串中提取核心关键词具体包括：

从合并的各字符串中，将字符的数量小于设定阈值的字符串删除；

在剩余的字符串中，提取频率最高的一个字符串作为核心关键词；

在提取频率最高的一个字符串作为核心关键词之后，所述方法还包括：

从待处理的各文本信息中以间隔符替换所述核心关键词，重复执行上述拆分单字、合并字符串和提取核心关键词的操作。

3.根据权利要求1-2任一项所述的方法，其特征在于，在所述从合并的各字符串中提取核心关键词之后，还包括：

从新增文本信息中删除未包含核心关键词的文本信息；

在剩余的每个文本信息中，确定非核心关键词与核心关键词的出现比例，且删除比例低于设定比例值的文本信息，以得到过滤后的文本信息。

4.根据权利要求3所述的方法，其特征在于，在所述得到过滤后的文本信息之后，还包括：

提取每个过滤后文本信息中的核心关键词，确定为所述文本信息的标签；

根据标签将各过滤后的文本信息进行分组。

5.根据权利要求1所述的方法，其特征在于，在所述将待处理的各文本信息顺序排列，且拆分为单字之前还包括：

根据待处理文本信息的属性将文本信息进行分类，形成至少两组待处理的文本信息；

在所述从合并的各字符串中提取核心关键词之后，还包括：

比较各组待处理文本信息的核心关键词是否相同，将不同的核心关键词确定为该组待处理文本信息所对应属性的核心关键词。

6.一种基于大数据的关键词优化处理装置，其特征在于，包括：

所述单字拆分模块包括：

间隔符设置单元，用于将待处理的各文本信息顺序排列，每个文本信息之间设置间隔符；

拆分单元，用于依据所述间隔符将每个文本信息拆分为单字；

所述字符串合并模块包括：

间隔符替换单元，用于根据每个单字的频率将设定频率的单字去除，去除的单字以间隔符替换；

合并单元，用于在剩余的单字中，将间隔符之间的连续单字合并为一个字符串；

关键词提取模块，用于从合并的各字符串中提取核心关键词；

所述关键字提取模块包括：

字符串删除单元，用于从合并的各字符串中，将字符的数量小于设定阈值的字符串删除；

提取单元，用于在剩余的字符串中，提取频率最高的一个字符串作为核心关键词；

所述装置还包括：重复执行模块，用于在提取频率最高的一个字符串作为核心关键词之后，从待处理的各文本信息中以间隔符替换所述核心关键词，触发重复执行上述拆分单字、合并字符串和提取核心关键词的操作；

所述装置还包括：文本信息删除模块，用于在从合并的各字符串中提取核心关键词之后，从新增文本信息中删除未包含核心关键词的文本信息；

过滤文本信息模块，用于在剩余的每个文本信息中，确定非核心关键词与核心关键词的出现比例，且删除比例低于设定比例值的文本信息，以得到过滤后的文本信息。

7.根据权利要求6所述的装置，其特征在于，还包括：

标签确定模块，用于在得到过滤后的文本信息之后，提取每个过滤后文本信息中的核心关键词，确定为所述文本信息的标签；

分组模块，用于根据标签将各过滤后的文本信息进行分组。

8.根据权利要求6所述的装置，其特征在于，还包括：

文本信息处理模块，用于在所述将待处理的各文本信息顺序排列，且拆分为单字之前，根据待处理文本信息的属性将文本信息进行分类，形成至少两组待处理的文本信息；

核心关键词确定模块，用于在所述从合并的各字符串中提取核心关键词之后，比较各组待处理文本信息的核心关键词是否相同，将不同的核心关键词确定为该组待处理文本信息所对应属性的核心关键词。