CN113032683A - 一种网络推广中快速分词的方法 - Google Patents

一种网络推广中快速分词的方法 Download PDF

Info

Publication number
CN113032683A
CN113032683A CN202110469657.2A CN202110469657A CN113032683A CN 113032683 A CN113032683 A CN 113032683A CN 202110469657 A CN202110469657 A CN 202110469657A CN 113032683 A CN113032683 A CN 113032683A
Authority
CN
China
Prior art keywords
words
word segmentation
keywords
effective
roots
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110469657.2A
Other languages
English (en)
Other versions
CN113032683B (zh
Inventor
李勤义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maize Society Shenzhen Network Technology Co ltd
Original Assignee
Maize Society Shenzhen Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maize Society Shenzhen Network Technology Co ltd filed Critical Maize Society Shenzhen Network Technology Co ltd
Priority to CN202110469657.2A priority Critical patent/CN113032683B/zh
Publication of CN113032683A publication Critical patent/CN113032683A/zh
Application granted granted Critical
Publication of CN113032683B publication Critical patent/CN113032683B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络推广中快速分词的方法,包括用户输入关键词,分词***根据用户输入的关键词自动挖掘所有包含该关键词的长尾词,保存为txt文件;分词***从txt文件中读取所有长尾词,进行分词,打散所有长尾词,提取出现频率比较高的关键词和汇总高频词根,返回给用户;用户根据高频词根,保留有效词;根据保留的有效词,筛选出有效词根;分词***根据筛选出的有效词根,进行分词,导出xls分词表。本发明通过分词***导出对同一类关键词时,根据字符长度自动分组,做更好的推广,通过一键导出分词结果至xls文件至本地,解决分词速度慢、遗漏关键词的问题,提高企业在从大量关键词中筛选有效词并进行分类整合的时间效率,提高工作效率及结果。

Description

一种网络推广中快速分词的方法
技术领域
本发明涉及计算机技术领域,具体来说,涉及一种网络推广中快速分词的方法。
背景技术
随着越来越多的企业转型互联网进行网络营销推广,企业在进行网络推广时的方法以及做付费推广时的关键词需要越来越精准有效,怎么从几万、几十万以及几百万的关键词中筛选有效的关键词是企业在做网络推广时首先需要考虑的问题,筛选出有效关键词后,如何进行关键词分类组合,也是企业比较头疼的问题,如果不能筛选有效词以及根据不同词的属性进行分词,那么企业在推广过程中就会造成很大的浪费。
目前分词基本上都是通过传统的人工分词,传统的人工分词一开始就需要从所有长尾词中,找出来有哪些共性词,比如厂家词,价格词,型号词,场景词等,一方面不同行业需要很精通才能清楚要分的长尾词有哪些词根,繁琐耗时耗精力,并且容易遗漏关键词,需要一种更便捷,更能提高分词速度的一种方法,而分词***,根据中文分词词根技术,自动打散所有长尾词,进行整合统计出现频次比较高的词根,直接分析出常见词根和出现的次数,供用户分析使用。
传统的人工分词在操作过程中,需要一个词一个词的进行分类,如果一个核心关键词有几十万个长尾词, 那么在分词过程中需要耗费大量的时间一个词一个词的进行查找分类,并且容易遗漏关键词,如果要分厂家词,那么需要从这几十万个长尾词里面一个一个的把包含厂家的词找出来,归类到一起,这样分一类词,就需要从几十万个词中人工筛选一次,那么如果要把所有的词分出来,就需要重复人工提取好多次。而通过分词***,只需要输入词根“厂家”***就会自动把含厂家的长尾词,全部提取出来,并且按照厂家在头部、中间、尾部的结构分类。因此,传统的人工分词在操作过程中还是存在许多弊端。
发明内容
针对相关技术中的上述技术问题,本发明提出一种网络推广中快速分词的方法,能够克服现有技术方法的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种网络推广中快速分词的方法,包括以下步骤:
S1:用户输入关键词,分词***根据用户输入的关键词自动挖掘所有包含该关键词的长尾词,保存为txt文件;
S2:分词***从txt文件中读取所有长尾词,根据中文进行分词,打散所有长尾词,提取出现频率比较高的关键词,提取汇总高频词根,返回给用户;
S3:用户根据分词***提取的高频词根,保留有效词;
S4:根据剩余保留的有效词,筛选出有效词根;
S5:分词***根据筛选出的有效词根,进行分词,导出xls分词表。
进一步地,保留有效词是通过分词***提取高频词根,剔除无效词,重复此操作,直至剔除完所有的无效词为止。
进一步地,筛选有效词根是通过高频词根在剩余有效词中,根据词性相近,结构相同的原则,筛选出有效词,直至剩余有效词中无可提取的有效词为止。
进一步地,分词阶段,在选择有效词根后,分词***根据用户选择的所有有效词根,从所有长尾词中,按照词根顺序提取同类关键词进行分类,并且在同类关键词中,根据字符长度,把同长度的关键词进行分列,最终生成xls分词表。
进一步地,关键词进行分列是通过把同一类有效词根的词分成一列以后,根据每一列中关键词字符的长度,把关键词字符长度一致的词再细化分成一列,然后再每列中提取地域词,再分成一列,循环操作每一列的内容。
本发明的有益效果:通过***导出对同一类关键词时,根据字符长度自动分组,来更好的推广,通过一键导出分词结果至xls文件至本地,解决分词速度慢、遗漏关键词的问题,提高企业在从大量关键词中筛选有效词并进行分类整合的时间效率,提高工作效率及结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的网络推广中快速分词的方法的关键词在分词***中的流程示意图。
图2是根据本发明实施例所述的网络推广中快速分词的方法的实现流程示意图。
图3是根据本发明实施例所述的网络推广中快速分词的方法的实现流程示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1-2所示,根据本发明实施例所述的网络推广中快速分词的方法,包括用户输入关键词,分词***根据用户输入关键词自动挖掘所有包含该关键词的长尾词,保存为txt长尾词文件;分词***从txt长尾词文件中读取所有长尾词,根据中文分词词根技术打散所有长尾词,进行整合统计出现频次比较高的词根,直接分析出常见的词根和出现的次数,也就是提取出现频率比较高的关键词,提取汇总高频词根,返回给用户分析使用。
用户根据分词***自动提取的高频词根,剔除无效词,重复操作,直至剔除完所有的无效词为止,保留剩余有效词至下一步骤。
然后高频词根在剩余保留的有效词中,根据词性相近,结构相同的原则,筛选出有效词,直至剩余关键词中无可提取的关键词为止。
分词***在所有关键词中根据用户选择的所有有效词根,筛选出的有效词根,从所有长尾词中,按照词根顺序提取同类关键词进行分类,并在同类关键词中,根据字符长度,把同长度的关键词分到一列,根据每一列中关键词字符长度,把关键词字符长度一致的词再细化分成一列,然后再每一列中提取地域词,再分成一列,这样循环操作每一列内容,最后生成xls分词表。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
如图3所示,首先,输入核心词:FFU,***自动进行长尾词挖掘,共挖掘出FFU所有长尾词13649个。***根据中文分词原理,打散全部关键词进行组合,共可筛选出出现频次较高的词根220个:山东,节能,格式,检漏,夹层,售后,洁净度,阻力,达到,应用,百科,介绍,德国,推荐,郑州,材料,评测,问题,天花,富泰,排名,选型,昆山,滴度,出风,比较,实验室,洁净车间,点检,距离,除甲醛,原理图,示意图,专业,吊装,原因,管道,改装,正压,效率,次数,武汉,技术,开关,下载,对比,十万,直流电机,玻璃纤维,清洗,说明书,回收,广东,处理,换气……。
根据以上列出来的一部分词根,筛选出有效词根以及无效词根;然后过滤掉无效词根,***自动按照所有词根进行分组排序,首选根据字符长度进行排序,然后自动筛选出地域词进行排序,如:节能,格式,检漏,夹层,售后,阻力,达到,应用,百科,介绍, 推荐, 材料,评测,问题,天花,富泰,排名,选型, 滴度,出风,比较,点检,距离,专业,吊装,原因,管道,改装,正压,效率,次数, 技术,开关,下载,对比,十万,清洗,回收,处理,换气,说明书,除甲醛,原理图,示意图,洁净度, 实验室,洁净车间,直流电机,玻璃纤维……。
最后根据分好的关键词,最终导出xls表。如表1分词表。
ffu+特性:9字符 ffu+应用:9字符 ffu+应用:9字符 ffu+特性:8字符 ffu+地域:8字符
ffu自动化 ffu食品厂 ffu层流台 ffu静音 ffu重庆
ffu侧进风 ffu洁净室 ffu静音罩 ffu新风 ffu深圳
ffu工业级 ffu风淋室 ffu洁净房 ffu苏州
ffu进出口 ffu超净台 ffu净化室
表1分词表
综上所述,借助于本发明的上述技术方案,通过***导出对同一类关键词时,根据字符长度自动分组,来更好的推广,通过一键导出分词结果至xls文件至本地,解决分词速度慢、遗漏关键词的问题,提高企业在从大量关键词中筛选有效词并进行分类整合的时间效率,提高工作效率及结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种网络推广中快速分词的方法,其特征在于,包括以下步骤:
S1:首先,用户输入关键词,分词***根据用户输入的关键词自动挖掘所有包含该关键词的长尾词,保存为txt文件;
S2:分词***从txt文件中读取所有长尾词,根据中文进行分词,并打散所有长尾词,提取出现频率比较高的关键词,然后提取汇总高频词根,返回给用户;
S3:用户根据分词***提取的高频词根,保留有效词;
S4:根据剩余保留的有效词,筛选出有效词根;
S5:分词***根据筛选出的有效词根,进行分词,导出xls分词表。
2.根据权利要求1所述的网络推广中快速分词的方法,其特征在于,保留有效词是通过分词***提取高频词根,剔除无效词,重复此操作,直至剔除完所有的无效词为止。
3.根据权利要求1所述的网络推广中快速分词的方法,其特征在于,筛选有效词根是通过高频词根在剩余有效词中,根据词性相近,结构相同的原则,进行筛选出有效词根,直至剩余有效词中无可提取的有效词为止。
4.根据权利要求1所述的网络推广中快速分词的方法,其特征在于,分词阶段,在选择有效词根后,分词***根据用户选择的所有有效词根,从所有长尾词中,按照词根顺序提取同类关键词进行分类,并且在同类关键词中,根据字符长度,把同长度的关键词进行分列,最终生成xls分词表。
5.根据权利要求4所述的网络推广中快速分词的方法,其特征在于,关键词进行分列是通过把同一类有效词根的词分成一列以后,根据每一列中关键词字符的长度,把关键词字符长度一致的词再细化分成一列,然后再每列中提取地域词,再分成一列,循环操作每一列的内容。
CN202110469657.2A 2021-04-28 2021-04-28 一种网络推广中快速分词的方法 Expired - Fee Related CN113032683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110469657.2A CN113032683B (zh) 2021-04-28 2021-04-28 一种网络推广中快速分词的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110469657.2A CN113032683B (zh) 2021-04-28 2021-04-28 一种网络推广中快速分词的方法

Publications (2)

Publication Number Publication Date
CN113032683A true CN113032683A (zh) 2021-06-25
CN113032683B CN113032683B (zh) 2021-12-24

Family

ID=76454838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110469657.2A Expired - Fee Related CN113032683B (zh) 2021-04-28 2021-04-28 一种网络推广中快速分词的方法

Country Status (1)

Country Link
CN (1) CN113032683B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101008864A (zh) * 2006-01-28 2007-08-01 北京优耐数码科技有限公司 一种数字键盘多功能、多语种输入***和方法
CN101315624A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
US20100332475A1 (en) * 2009-06-25 2010-12-30 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
CN103942347A (zh) * 2014-05-19 2014-07-23 焦点科技股份有限公司 一种基于多维度综合词库的分词方法
CN104408173A (zh) * 2014-12-11 2015-03-11 焦点科技股份有限公司 一种基于b2b平台的核心关键词自动提取方法
CN205878370U (zh) * 2016-06-06 2017-01-11 深圳市亿鼎达科技有限公司 一种家用空气净化器
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法
CN108304377A (zh) * 2017-12-28 2018-07-20 东软集团股份有限公司 一种长尾词的提取方法及相关装置
US20190179965A1 (en) * 2017-12-13 2019-06-13 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating information
CN110032722A (zh) * 2018-01-12 2019-07-19 北京京东尚科信息技术有限公司 文本纠错方法和装置
CN110717104A (zh) * 2019-10-11 2020-01-21 广州市丰申网络科技有限公司 关键词广告投放自动化否定关键词方法及装置
CN111831786A (zh) * 2020-07-24 2020-10-27 刘秀萍 完善主题词的全文数据库精准高效检索方法
CN112148886A (zh) * 2020-09-04 2020-12-29 上海晏鼠计算机技术股份有限公司 一种内容知识图谱的构建方法及***
CN112257439A (zh) * 2020-10-30 2021-01-22 上海明略人工智能(集团)有限公司 一种通过舆情数据挖掘热度词根的方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101008864A (zh) * 2006-01-28 2007-08-01 北京优耐数码科技有限公司 一种数字键盘多功能、多语种输入***和方法
CN101315624A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
US20100332475A1 (en) * 2009-06-25 2010-12-30 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
CN103942347A (zh) * 2014-05-19 2014-07-23 焦点科技股份有限公司 一种基于多维度综合词库的分词方法
CN104408173A (zh) * 2014-12-11 2015-03-11 焦点科技股份有限公司 一种基于b2b平台的核心关键词自动提取方法
CN205878370U (zh) * 2016-06-06 2017-01-11 深圳市亿鼎达科技有限公司 一种家用空气净化器
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法
US20190179965A1 (en) * 2017-12-13 2019-06-13 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating information
CN108304377A (zh) * 2017-12-28 2018-07-20 东软集团股份有限公司 一种长尾词的提取方法及相关装置
CN110032722A (zh) * 2018-01-12 2019-07-19 北京京东尚科信息技术有限公司 文本纠错方法和装置
CN110717104A (zh) * 2019-10-11 2020-01-21 广州市丰申网络科技有限公司 关键词广告投放自动化否定关键词方法及装置
CN111831786A (zh) * 2020-07-24 2020-10-27 刘秀萍 完善主题词的全文数据库精准高效检索方法
CN112148886A (zh) * 2020-09-04 2020-12-29 上海晏鼠计算机技术股份有限公司 一种内容知识图谱的构建方法及***
CN112257439A (zh) * 2020-10-30 2021-01-22 上海明略人工智能(集团)有限公司 一种通过舆情数据挖掘热度词根的方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AHMED EL-KISHKY 等: "Parsimonious Morpheme Segmentation with an Application to Enriching Word Embeddings", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIG DATA》 *
CHIGUSA KURUMADA 等: "Zipfian frequency distributions facilitate word segmentation in context", 《COGNITION》 *
奚宁: "统计机器翻译中的中文分词策略研究", 《中国优秀博硕士学位论文全文数据库(信息科技辑)》 *
张勇勇: "基于Hadoop自动文本分类的研究与实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Also Published As

Publication number Publication date
CN113032683B (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN109189901B (zh) 一种智能客服***中自动发现新分类以及对应语料的方法
CN105426539B (zh) 一种基于词典的lucene中文分词方法
CN109710947B (zh) 电力专业词库生成方法及装置
CN101136020A (zh) 自动扩展参考数据的***和方法
CN112699246A (zh) 基于知识图谱的领域知识推送方法
CN103377249B (zh) 关键词投放方法及***
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
AU2015204283A1 (en) Text mining system and tool
CN103226576A (zh) 基于语义相似度的垃圾评论过滤方法
CN101751386B (zh) 一种未登录词的识别方法
CN107194617B (zh) 一种app软件工程师软技能分类***及方法
CN110781315A (zh) 一种食品安全知识图谱及相关智能问答***的构建方法
CN106909669B (zh) 一种推广信息的检测方法及装置
CN103440315B (zh) 一种基于主题的Web页面清洗方法
CN108287911A (zh) 一种基于约束化远程监督的关系抽取方法
CN104820724A (zh) 文本类教育资源知识点预测模型获得方法及模型应用方法
CN109783815A (zh) 一种多维度网络舆情大数据对比分析方法
CN101751425A (zh) 文档集摘要获取方法及装置
CN111429184A (zh) 一种基于文本信息的用户画像抽取方法
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及***
CN113032683B (zh) 一种网络推广中快速分词的方法
CN111859962A (zh) 一种提取汽车口碑词云所需数据的方法及装置
CN111931499A (zh) 模型训练方法及***、垃圾邮件识别方法及***和设备
CN107577713A (zh) 基于电力词典的文本处理方法
CN101794308A (zh) 一种面向有意义串挖掘的重复串提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211224