CN106484660A - 标题处理方法和装置 - Google Patents

标题处理方法和装置 Download PDF

Info

Publication number
CN106484660A
CN106484660A CN201610921230.0A CN201610921230A CN106484660A CN 106484660 A CN106484660 A CN 106484660A CN 201610921230 A CN201610921230 A CN 201610921230A CN 106484660 A CN106484660 A CN 106484660A
Authority
CN
China
Prior art keywords
content
title
error correction
submodule
pending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610921230.0A
Other languages
English (en)
Inventor
吴迎宾
林紫妍
杜战
单明辉
王高林
王建宇
顾思斌
潘柏宇
王冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
1Verge Internet Technology Beijing Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201610921230.0A priority Critical patent/CN106484660A/zh
Publication of CN106484660A publication Critical patent/CN106484660A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种标题处理方法和装置。其中,该方法包括:对原始标题进行营销内容清除处理、用语规范化处理、冗余内容处理和智能纠错处理中的至少一项操作;采用处理后的标题替换所述原始标题。通过本发明实施例,对大量标题自动进行美化,时间延迟短,美化效率高,保证美化质量。此外,有利于得到多样化的美化结果,不受限于人工的知识。进一步地,还有利于使得标题的发布规范化,提高用户观看各种多媒体资源的数量。

Description

标题处理方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种标题处理方法和装置。
背景技术
目前,对互联网视频标题中的美化,通常的做法有两种:1.采用人工编辑的方式,逐一手工修改已有的内容标题。2.采用用户协同编辑的社会化模式,人人可以修改其标题。
但是,这些标题美化方法存在美化时机滞后、美化方式趋同、美化效率较低、无法保证基本美化质量等问题:
发明内容
技术问题
有鉴于此,本发明要解决的技术问题是,如何提高对标题进行美化的效率,提高美化质量。
解决方案
为了解决上述技术问题,根据本发明的一实施例,提供了一种标题处理方法,包括:
对原始标题进行营销内容清除处理、用语规范化处理、冗余内容处理和智能纠错处理中的至少一项操作;
采用处理后的标题替换所述原始标题。
对于上述方法,在一种可能的实现方式中,所述营销内容清除处理包括:
从待处理标题中提取候选内容;
提取所述候选内容的关联特征;
根据所述候选内容的关联特征,计算所述候选内容的营销评分;
根据所述营销评分和判定阈值,确定所述候选内容是否是所述营销内容;
在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。
对于上述方法,在一种可能的实现方式中,所述用语规范化处理包括以下至少一种处理方式:
清除待处理标题结尾处不规范或无意义的标点符号;
清除所述待处理标题结尾处无意义的数字;
对所述待处理标题中的非常规网络用语进行替换;
对所述待处理标题结尾处的资源属性进行识别替换。
对于上述方法,在一种可能的实现方式中,所述冗余内容处理包括:清除待处理标题中具有冗余标志的内容。
对于上述方法,在一种可能的实现方式中,所述智能纠错处理包括:
对待处理标题进行分词处理,得到各待纠错分词;
对所述待纠错分词进行音字转换,以获取所述待纠错分词对应的待纠错字符串;
根据所述待纠错字符串查找各候选字符串;
计算所述待纠错字符串与各所述候选字符串之间的编辑距离;
根据所述编辑距离确定所述待纠错字符串与各所述候选字符串之间的相似度;
根据各所述相似度,从各所述候选字符串中筛选出所述待纠错字符串的纠错结果。
为了解决上述技术问题,根据本发明的另一实施例,提供了一种标题处理装置,包括:
处理模块,用于对原始标题进行营销内容清除处理、用语规范化处理、冗余内容处理和智能纠错处理中的至少一项操作;
替换模块,用于采用处理后的标题替换所述原始标题。
对于上述装置,在一种可能的实现方式中,所述处理模块包括营销内容清除处理模块,所述营销内容清除处理模块包括:
内容提取子模块,用于从待处理标题中提取候选内容;
特征提取子模块,用于提取所述候选内容的关联特征;
第一评分子模块,用于根据所述候选内容的关联特征,计算所述候选内容的营销评分;
内容确定子模块,用于根据所述营销评分和判定阈值,确定所述候选内容是否是所述营销内容;
内容删除子模块,用于在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。
对于上述装置,在一种可能的实现方式中,所述处理模块还包括用语规范化处理模块,所述用语规范化处理模块包括以下至少一个子模块:
第一清除子模块,用于清除待处理标题结尾处不规范或无意义的标点符号;
第二清除子模块,用于清除所述待处理标题结尾处无意义的数字;
第一替换子模块,用于对所述待处理标题中的非常规网络用语进行替换;
第二替换子模块,用于对所述待处理标题结尾处的资源属性进行识别替换。
对于上述装置,在一种可能的实现方式中,所述处理模块还包括冗余内容处理模块,用于清除待处理标题中具有冗余标志的内容。
对于上述装置,在一种可能的实现方式中,所述处理模块还包括智能纠错处理模块,所述智能纠错处理模块包括:
分词子模块,用于对待处理标题进行分词处理,得到各待纠错分词;
音字转换子模块,用于对所述待纠错分词进行音字转换,以获取所述待纠错分词对应的待纠错字符串;
查找子模块,用于根据所述待纠错字符串查找各候选字符串;
编辑距离计算子模块,用于计算所述待纠错字符串与各所述候选字符串之间的编辑距离;
相似度确定子模块,用于根据所述编辑距离确定所述待纠错字符串与各所述候选字符串之间的相似度;
筛选子模块,用于根据各所述相似度,从各所述候选字符串中筛选出所述待纠错字符串的纠错结果。
有益效果
本发明实施例能够对大量标题自动进行美化,时间延迟短,效率高,有利于提高美化质量。此外,有利于得到多样化的美化结果,不受限于人工的知识。进一步地,还有利于使得标题的发布规范化,提高用户观看各种多媒体资源的数量。
根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清除。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面,并且用于解释本发明的原理。
图1示出根据本发明一实施例的标题处理方法的流程图;
图2a和图2b示出根据本发明一实施例的标题处理方法中营销内容清除处理的流程图;
图3示出根据本发明一实施例的标题处理方法中用语规范化处理的流程图;
图4示出根据本发明一实施例的标题处理方法中智能纠错处理的流程图;
图5示出根据本发明一实施例的标题处理装置的结构框图;
图6示出根据本发明另一实施例的标题处理装置的结构框图;
图7示出根据本发明另一实施例的标题处理装置的结构框图;
图8示出根据本发明另一实施例的标题处理装置中智能纠错处理模块执行智能纠错处理的流程图;
图9示出根据本发明另一实施例的标题处理装置中双数组数据结构的示例图;
图10示出根据本发明另一实施例的标题处理装置的结构框图。
具体实施方式
以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。
实施例1
图1示出根据本发明一实施例的标题处理方法的流程图。如图1所示,该标题处理方法可以包括:
步骤101、服务器对原始标题进行营销内容清除处理、用语规范化处理、冗余内容处理和智能纠错处理中的至少一项操作;
步骤102、服务器采用处理后的标题替换所述原始标题。
在本发明实施例中,服务器可以自动对资源例如视频、音频等的原始标题进行营销内容清除处理、用语规范化处理、冗余内容处理和智能纠错处理等美化处理。其中,营销内容清除处理、用语规范化处理、冗余内容处理和智能纠错处理的操作可以采用并行方式执行,也可以采用串行方式执行。在采用并行方式时,可以对于每种处理的结果进行综合,采用综合处理后输出的标题替换原始标题。在采用串行方式时,可以预先设置这几种操作的执行顺序,并按照所设定的执行顺序,进行处理。
例如,设定的串行执行顺序为:营销内容清除处理、用语规范化处理、冗余内容处理和智能纠错处理。这种情况下,服务器可以先对原始标题进行营销内容清除处理。再将营销内容清除处理所输出的结果作为用语规范化处理的输入。接着,将用语规范化处理所输出的结果作为冗余内容处理的输入。然后,将冗余内容处理所输出的结果作为智能纠错处理的输入。最后,服务器采用智能纠错处理所输出的结果替换原始标题。如果设定的串行执行顺序为其他的顺序,其原理与本示例类似,在此不再赘述。
此外,本实施例中虽然以执行营销内容清除处理、用语规范化处理、冗余内容处理和智能纠错处理这四个操作为例进行说明,但是,本领域技术人员应能理解,执行这四个操作中的一个、两个或者三个,也能够达到美化标题的效果。
在本实施例中,将对于发布者故意在标题中加入的以网络营销为目的的内容简称为营销内容,这类内容与资源例如视频的内容本身关系不大。对标题进行营销内容清除处理的过程具体可以包括在线部分和离线部分。
在一种可能的实现方式中,如图2a所示,服务器进行营销内容清除处理的在线部分可以包括:
步骤201a、从待处理标题中提取候选内容。
步骤202a、提取所述候选内容的关联特征。
步骤203a、根据所述候选内容的关联特征,计算所述候选内容的营销评分。
步骤204a、根据所述营销评分和判定阈值,确定所述候选内容是否是所述营销内容。
步骤205a、在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。
其中,在本实施例中,待处理标题既可以是原始标题,也可以是经过其他美化处理操作之后的中间状态的标题。此外,
在一种可能的实现方式中,从待处理标题中提取的候选内容包括但不限于以下至少一种:具有社交账号的文本片段、具有通话账号的文本片段、具有价格的文本片段、具有网址的文本片段、具有营销词汇的文本片段。其中,社交账号可以包括但不限于QQ号、微信号、微博号、Facebook号、Twitter号等。通话账号包括但不限于手机号、固定电话号等。营销词汇可以包括营销词典中的各种关键词,营销词典中包括的关键词可以不断更新。
在一种可能的实现方式中,所述候选内容的关联特征包括但不限于以下至少一种:所述候选内容的长度、所述候选内容是否出现营销词汇、所述候选内容是否出现数字、所述候选内容是否出现通话账号、所述候选内容是否出现网址、所述候选内容是否出现社交账号和所述待处理标题的资源发布者的用户是否优质用户。
在一种可能的实现方式中,根据所述候选内容的关联特征,计算所述候选内容的营销评分(步骤203)包括:根据所述候选内容的关联特征对应的特征向量和权重向量,计算所述候选内容的营销评分。
示例性地,根据所述候选内容的关联特征对应的特征向量和权重向量,计算所述候选内容的营销评分,可以包括:
采用式1的S型函数,计算所述候选内容的营销评分,
在式1中,y表示所述候选内容的营销评分,x表示所述候选内容的特征向量,w表示与x具有相同维度的权重向量;
其中,采用下式2所示的向量内积来计算wx的值,
在式2中,wi为所述候选内容的特征向量中的第i个特征的特征值,xi为所述第i个特征对应的权重值,i的取值范围为从0到n的整数,n为x和w的维度。
在一种可能的实现方式中,根据所述营销评分和判定阈值,确定所述候选内容是否是所述营销内容(步骤204)包括:将所述营销评分大于判定阈值的所述候选内容确定为所述营销内容。
其中,上述的权重向量和判定阈值可以通过离线的样本训练学习过程来得到。
在一种可能的实现方式中,如图2b所示,服务器进行营销内容清除处理的离线部分可以包括确定权重向量的过程,具体可以包括:
步骤201b、获取各训练样本,所述训练样本包括待训练标题以及所述待训练标题的营销内容;
步骤202b、根据所述训练样本生成正样本的特征向量和标注结果,所述正样本的特征向量为所述待训练标题的营销内容对应的第一特征向量;
步骤203b、根据所述训练样本生成负样本的特征向量和标注结果,所述负样本的特征向量为所述待训练标题的非营销内容对应的第二特征向量;
步骤204b、从各所述第一特征向量和各所述第二特征向量中选取预定数量的特征向量,代入逻辑回模型或支持向量机模型进行训练,得到权重向量。
在一种可能的实现方式中,如图2b所示,该标题处理方法的离线部分还包括确定判定阈值的过程,具体可以包括:
步骤205b、根据训练得到的权重向量,对各所述第一特征向量和各所述第二特征向量中未参与训练的特征向量进行评分;
步骤206b、选择不同的阈值统计未参与训练的特征向量对应的正样本,以判断准确率;
步骤207b、将准确率最高的阈值确定为判定阈值。
在一种可能的实现方式中,如图3所示,服务器进行用语规范化处理的具体过程可以包括以下至少一种处理方式:
步骤301、清除待处理标题结尾处不规范或无意义的标点符号;
步骤302、清除所述待处理标题结尾处无意义的数字;
步骤303、对所述待处理标题中的非常规网络用语进行替换;
步骤304、对所述待处理标题结尾处的资源属性进行识别替换。
在本实施例中,步骤301、步骤302、步骤303和步骤304之间的时序关系,可以按照如图3中的执行顺序,也可以调整这几个步骤之间的执行顺序,甚至可以多个步骤并行执行。
在一种可能的实现方式中,服务器进行冗余内容处理的具体过程可以包括:清除待处理标题中具有冗余标志的内容。
在一种可能的实现方式中,如图4所示,服务器进行智能纠错处理的具体过程可以包括:
步骤401、对待处理标题进行分词处理,得到各待纠错分词;
步骤402、对所述待纠错分词进行音字转换,以获取所述待纠错分词对应的待纠错字符串;
步骤403、根据所述待纠错字符串查找各候选字符串;
步骤404、计算所述待纠错字符串与各所述候选字符串之间的编辑距离;
步骤405、根据所述编辑距离确定所述待纠错字符串与各所述候选字符串之间的相似度;
步骤406、根据各所述相似度,从各所述候选字符串中筛选出所述待纠错字符串的纠错结果。
本实施例的能够标题处理方法,对大量标题自动进行美化,时间延迟短,美化效率高,保证美化质量。此外,有利于得到多样化的美化结果,不受限于人工的知识。进一步地,还有利于使得标题的发布规范化,提高用户观看各种多媒体资源的数量。
实施例2
图5示出根据本发明一实施例的标题处理装置的结构框图。如图5所示,该标题处理装置可以包括:
处理模块51,用于对原始标题进行营销内容清除处理、用语规范化处理、冗余内容处理和智能纠错处理中的至少一项操作;
替换模块52,用于采用处理后的标题替换所述原始标题。
其中,营销内容清除处理、用语规范化处理、冗余内容处理和智能纠错处理的操作可以采用并行方式执行,也可以采用串行方式执行。在采用并行方式时,可以对于每种处理的结果进行综合,采用综合处理后输出的标题替换原始标题。在采用串行方式时,可以预先设置这几种操作的执行顺序,并按照所设定的执行顺序,进行处理。具体示例可以参见实施例1的相关描述。
实施例3
图6示出根据本发明另一实施例的标题处理装置的结构框图。图6中标号与图5相同的组件具有相同的功能,为简明起见,省略对这些组件的详细说明。
如图6所示,与上一实施例的主要区别在于,所述处理模块51包括营销内容清除处理模块61,所述营销内容清除处理模块包括:
内容提取子模块611,用于从待处理标题中提取候选内容;
特征提取子模块612,用于提取所述候选内容的关联特征;
第一评分子模块613,用于根据所述候选内容的关联特征,计算所述候选内容的营销评分;
内容确定子模块614,用于根据所述营销评分和判定阈值,确定所述候选内容是否是所述营销内容;
内容删除子模块615,用于在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。
在一种可能的实现方式中,所述处理模块51还包括用语规范化处理模块62,所述用语规范化处理模块包括以下至少一个子模块:
第一清除子模块621,用于清除待处理标题结尾处不规范或无意义的标点符号;
第二清除子模块622,用于清除所述待处理标题结尾处无意义的数字;
第一替换子模块623,用于对所述待处理标题中的非常规网络用语进行替换;
第二替换子模块624,用于对所述待处理标题结尾处的资源属性进行识别替换。
在一种可能的实现方式中,所述处理模块51还包括冗余内容处理模块63,用于清除待处理标题中具有冗余标志的内容。
在一种可能的实现方式中,所述处理模块51还包括智能纠错处理模块64,所述智能纠错处理模块64包括:
分词子模块641,用于对待处理标题进行分词处理,得到各待纠错分词;
音字转换子模块642,用于对所述待纠错分词进行音字转换,以获取所述待纠错分词对应的待纠错字符串;
查找子模块643,用于根据所述待纠错字符串查找各候选字符串;
编辑距离计算子模块644,用于计算所述待纠错字符串与各所述候选字符串之间的编辑距离;
相似度确定子模块645,用于根据所述编辑距离确定所述待纠错字符串与各所述候选字符串之间的相似度;
筛选子模块646,用于根据各所述相似度,从各所述候选字符串中筛选出所述待纠错字符串的纠错结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。本发明实施例中的标题处理装置可以设置在服务器中。
实施例4
本实施例的标题处理方法,可以结合人工智能和人工编辑两种优势,对任意资源例如视频的标题进行全自动的实时美化。如图7所示,该标题处理方法对应的标题处理装置可以划分为:营销内容处理模块71、用语规范化处理模块72、冗余内容处理模块73和智能纠错处理模块74。在一种示例中,这些模块在逻辑上可以是串行处理,但是还可以各自独立,每一个模块出错或者处理失败,并不影响后一个模块的处理逻辑。
一个原始标题经过四个模块逐一处理后,输出的标题即是美化后的标题,可用于替换原始标题。下面分别描述各个模块的原理。
一、营销内容处理模块
发布者故意在标题中加入以网络营销为目的的内容,这类内容与视频内容本身关系并不大,营销内容处理模块的主要工作是识别出这类内容并从标题中清除。
营销内容处理模块可以对标题中涉嫌营销的语言片断进行定向清除。营销内容片断定向清除规则包括但不限于下表1中的任意一项或者多项:
表1
规则1:出现QQ号码或微信号等社交账号的文本片段
规则2:出现手机号等通话账号的文本片段
规则3:出现价格的文本片段
规则4:出现网址的文本片段
规则5:出现营销词典中关键词等营销词汇的文本片段
其中,标题中各内容片段边界的定义方法有多种。例如:按照常用标点符号(句号、省略号、感叹号、空格、制表符、结尾等)或者虚词(介词、连词、助词等)等为边界截取。
二、用语规范化处理模块
用语规范化处理模块主要工作是对原始标题中不规范的部分进行清除和纠正。不规范的标准可以预先定义为包括但不限于如下特点中的任意一项或者多项:
1)标题结尾处有不规范或无意义的标点符号;
2)标题结尾处有无意义的数字;
3)标题中的“火星文”等非常规网络用语替换;
4)标题结尾处的视频属性描述文字。
对于不规范的部分的处理示例如下:
1)标题末尾可以去掉的标点符号,示例性的列举如下表2所示:
表2
标点 说明
英文波浪号
全角波浪号
。。。 超过一个句号连续
#@¥%&* 所有非规范的句末符号
2)无意义的数字。例如,可以将标题结尾处的数字一律去掉。
3)标题中的非常规网络用语例如“火星文”的替换。
“火星文”判断方法可以包括:连续三个字符出现在“火星文字列表”中,则认为这是一个“火星文”书写的标题,可以进行规范化替换。
例如:原始标题为“哭嘚侢醜侢莈形潒乜莈亊,岢媞哭綄,誋嘚崾嶶笶。”替换后为“哭得再丑再没形象也没事,可是哭完,记得要微笑。”
4)标题结尾处的视频属性描述文字。对标题中出现视频属性本身的描述文字,进行识别替换。其中,视频属性文字的示例如下表3所示:
表3
三、冗余内容处理模块
冗余内容就是去掉之后不影响整个标题的理解的那部分内容。具体可以根据设定格式识别冗余内容。冗余内容识别的规则示例性列举如下表4所示:
表4
四、智能纠错处理模块
智能纠错处理模块,是纠正原本规范的文字中因为输入法的原因导致的错别字。纠错流程可以包括:分词,音字转换,提取纠错候选,计算候选的编辑距离,选择最相似的结果作为纠错结果。
在智能纠错步骤中,需要离线准备一个音字转换表(下称资源a),一个正确拼写词典(下称资源b)。例如,资源a为汉字的字形及其读音的映射表,允许多音。资源b来自搜索日志的收集并经人工整理,都是正确的书写方式。
其中,资源a的实例如下表5:
表5
luo
luo
ji
资源b的实例如下表6:
表6
罗辑思维
如图8所示,智能纠错处理模块执行智能纠错处理可以包括以下步骤:
步骤801、分词。例如,采用通用分词器对标题进行分词。
分词的一个示例如下:
原始标题为“逻辑思维最有深度的一期”。
分词结果为“逻辑思维”、“最”、“有”、“深度”、“的”、“一”、“期”(得到6个词)。
步骤802、音字转换。从这一步开始,每一步都是针对分词结果中的每一个词进行的。音字转换,输入每一个词,利用资源a,输出词的拼音(不带音调),并将多个字的拼音合成一个字符串。
音字转换的一个示例如下:
输入:逻辑思维
输出:luojisiwei
如果原始标题是英文字符串,也可以省略音字转换的步骤。此外,在分词之后,也可以先判断分词结果中的每一个词是否正确拼写,再对不正确的词继续进行纠错处理。其中,判断分词结果中的每一个词是否正确拼写的方式有多种。例如,如果一个词的拼音和汉字不匹配,或者一个词在常用词典中查不到,可以先将该词判定为不正确拼写,作为待纠错分词进行后续处理。
步骤803、提取候选。从资源b中获取所有“正确拼写”的拼音串前两个字母和当前词拼音串相同的,作为候选。
提取候选的一个示例如下:
待纠错拼音串:luojisiwei(逻辑思维)
候选正确串:luojisiwei(罗辑思维)
其中,资源b每一个词在使用前,可以按照以下步骤读入到内存:
1)从文件中读入一个词;
2)将所读到的词进行音字转换,并将转换得到的拼音拼接成拼音串;
3)用双数组数据结构存储拼音串及其与原始词的映射关系。
其中,双数组数据结构可以参见图9的示例。如图9所示,通过双数组数据结构可以保存“luojisiwei(罗辑思维)”、“luojikexue(罗辑科学)”等的正确拼音和汉字。相关的汉字和拼写,按照一定的通过树状结构进行存储。这样,不仅有利于后续的快速查找,还可以减少存储量。
此外,在查找候选时,步骤如下:
获取原始拼音串的前两个字母,如上例中的lu
在双数组形式的资源b中获取前缀为lu的所有拼音串及其对应原始词作为纠错候选。
步骤804、计算编辑距离。
编辑距离可以是:两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括但不限于:将一个字符替换成另一个字符,***一个字符,删除一个字符。编辑距离也称为Levenshtein距离。如词“kitten”和词“sitting”的编辑距离是3,分别经过以下步骤可以将“kitten”转换成“sitting”:
1)sitten(替换:k→s)
2)sittin(替换:e→i)
3)sitting(***:→g)
其中,定义基于编辑距离的相似度:
在式4中,右边的分子di,j是字符串i和字符串j的编辑距离,分母max(Li,Lj)是字符串i和字符串j的长度较大那个。
计算原始拼音串和每一个候选拼音串的编辑距离相似度。并经过以下规则进行初步筛选:
1)如果原始词的字个数小于3,则只保留编辑距离相似度大于0.95的候选。
2)如果原始词的字个数大于或者等于3,但小于5,则只保留编辑距离相似度在0.9以上的候选
3)其他情况,只保留编辑距离相似度在0.85以上的候选
保留下的候选,按照相似度排序,取相似度最大的候选,作为纠错结果。
例如:luojisiwei(逻辑思维)和luojisiwei(罗辑思维)相似度为100%,成为纠错结果。
步骤805、纠错。对有纠错结果的词,按照纠错结果替换原始标题中的对应词。
采用人工美化标题,存在以下缺点:
1.美化时机滞后。常常在内容被观看了一定次数之后,才可能被美化,而不能在内容生成的同时进行美化;
2.美化方式趋同。由于美化标题依赖少数编辑的经验知识,因此美化后的标题风格有限,用词和句式有限;
3.美化效率较低。由于人工的精力有限,往往只能对少数热门视频内容标题进行美化。
4.无法保证基本美化质量。社会化协同编辑的方式无法保证基本质量,且容易被用于过度营销目的。
与人工美化标题相比,本发明实施例能够对大量标题自动进行美化,时间延迟短,美化效率高。具体而言,本发明实施例具有以下优点:
1.可以实时对每个视频标题进行美化,时间延迟可以忽略(ms级别的延迟)。
2.可以同时大量对每个视频标题进行美化,人工所能美化数量的数十万倍。
3.可以得到多样的美化结果,而不受限于人工的知识。
4.可以保证基本的美化质量。
5.可以示范视频发布者美化标题的基本规范。
6.可以提高用户观看视频的数量。
实施例5
图10示出根据本发明另一实施例的标题处理装置的结构框图。所述标题处理装置1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现做限定。
所述标题处理装置1100包括处理器(processor)1110、通信接口(CommunicationsInterface)1120、存储器(memory)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网络设备通信,其中网络设备包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于存放文件。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。
在一种可能的实施方式中,上述程序可为包括计算机操作指令的程序代码。该程序具体可用于:执行实施例1和实施例4中的标题处理方法。
本领域普通技术人员可以意识到,本文所描述的实施例中的各示例性单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件形式来实现,取决于技术方案的特定应用和设计约束条件。专业技术人员可以针对特定的应用选择不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
如果以计算机软件的形式来实现所述功能并作为独立的产品销售或使用时,则在一定程度上可认为本发明的技术方案的全部或部分(例如对现有技术做出贡献的部分)是以计算机软件产品的形式体现的。该计算机软件产品通常存储在计算机可读取的非易失性存储介质中,包括若干指令用以使得计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各实施例方法的全部或部分步骤。而前述的存储介质包括U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种标题处理方法,其特征在于,包括:
对原始标题进行营销内容清除处理、用语规范化处理、冗余内容处理和智能纠错处理中的至少一项操作;
采用处理后的标题替换所述原始标题。
2.根据权利要求1所述的方法,其特征在于,所述营销内容清除处理包括:
从待处理标题中提取候选内容;
提取所述候选内容的关联特征;
根据所述候选内容的关联特征,计算所述候选内容的营销评分;
根据所述营销评分和判定阈值,确定所述候选内容是否是所述营销内容;
在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。
3.根据权利要求1或2所述的方法,其特征在于,所述用语规范化处理包括以下至少一种处理方式:
清除待处理标题结尾处不规范或无意义的标点符号;
清除所述待处理标题结尾处无意义的数字;
对所述待处理标题中的非常规网络用语进行替换;
对所述待处理标题结尾处的资源属性进行识别替换。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述冗余内容处理包括:清除待处理标题中具有冗余标志的内容。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述智能纠错处理包括:
对待处理标题进行分词处理,得到各待纠错分词;
对所述待纠错分词进行音字转换,以获取所述待纠错分词对应的待纠错字符串;
根据所述待纠错字符串查找各候选字符串;
计算所述待纠错字符串与各所述候选字符串之间的编辑距离;
根据所述编辑距离确定所述待纠错字符串与各所述候选字符串之间的相似度;
根据各所述相似度,从各所述候选字符串中筛选出所述待纠错字符串的纠错结果。
6.一种标题处理装置,其特征在于,包括:
处理模块,用于对原始标题进行营销内容清除处理、用语规范化处理、冗余内容处理和智能纠错处理中的至少一项操作;
替换模块,用于采用处理后的标题替换所述原始标题。
7.根据权利要求6所述的装置,其特征在于,所述处理模块包括营销内容清除处理模块,所述营销内容清除处理模块包括:
内容提取子模块,用于从待处理标题中提取候选内容;
特征提取子模块,用于提取所述候选内容的关联特征;
第一评分子模块,用于根据所述候选内容的关联特征,计算所述候选内容的营销评分;
内容确定子模块,用于根据所述营销评分和判定阈值,确定所述候选内容是否是所述营销内容;
内容删除子模块,用于在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。
8.根据权利要求6或7所述的装置,其特征在于,所述处理模块还包括用语规范化处理模块,所述用语规范化处理模块包括以下至少一个子模块:
第一清除子模块,用于清除待处理标题结尾处不规范或无意义的标点符号;
第二清除子模块,用于清除所述待处理标题结尾处无意义的数字;
第一替换子模块,用于对所述待处理标题中的非常规网络用语进行替换;
第二替换子模块,用于对所述待处理标题结尾处的资源属性进行识别替换。
9.根据权利要求6至8中任一项所述的装置,其特征在于,所述处理模块还包括冗余内容处理模块,用于清除待处理标题中具有冗余标志的内容。
10.根据权利要求6至9中任一项所述的装置,其特征在于,所述处理模块还包括智能纠错处理模块,所述智能纠错处理模块包括:
分词子模块,用于对待处理标题进行分词处理,得到各待纠错分词;
音字转换子模块,用于对所述待纠错分词进行音字转换,以获取所述待纠错分词对应的待纠错字符串;
查找子模块,用于根据所述待纠错字符串查找各候选字符串;
编辑距离计算子模块,用于计算所述待纠错字符串与各所述候选字符串之间的编辑距离;
相似度确定子模块,用于根据所述编辑距离确定所述待纠错字符串与各所述候选字符串之间的相似度;
筛选子模块,用于根据各所述相似度,从各所述候选字符串中筛选出所述待纠错字符串的纠错结果。
CN201610921230.0A 2016-10-21 2016-10-21 标题处理方法和装置 Pending CN106484660A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610921230.0A CN106484660A (zh) 2016-10-21 2016-10-21 标题处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610921230.0A CN106484660A (zh) 2016-10-21 2016-10-21 标题处理方法和装置

Publications (1)

Publication Number Publication Date
CN106484660A true CN106484660A (zh) 2017-03-08

Family

ID=58270393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610921230.0A Pending CN106484660A (zh) 2016-10-21 2016-10-21 标题处理方法和装置

Country Status (1)

Country Link
CN (1) CN106484660A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020378A (zh) * 2018-01-02 2019-07-16 北京小度互娱科技有限公司 视频网站的内容发布方法及装置
CN111401044A (zh) * 2018-12-27 2020-07-10 北京字节跳动网络技术有限公司 一种标题生成方法、装置、终端设备及存储介质
CN112231468A (zh) * 2020-10-15 2021-01-15 平安科技(深圳)有限公司 信息生成方法、装置、电子设备及存储介质
CN112417848A (zh) * 2019-08-19 2021-02-26 阿里巴巴集团控股有限公司 语料生成方法、装置及计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN102591854A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 针对文本特征的广告过滤***及其过滤方法
US20130097482A1 (en) * 2011-10-13 2013-04-18 Microsoft Corporation Search result entry truncation using pixel-based approximation
CN105574175A (zh) * 2015-12-21 2016-05-11 北京奇虎科技有限公司 优化搜索结果标题的处理方法及装置
CN105630909A (zh) * 2015-12-21 2016-06-01 北京奇虎科技有限公司 规范化的标题信息展示方法及装置
CN105869642A (zh) * 2016-03-25 2016-08-17 海信集团有限公司 一种语音文本的纠错方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
US20130097482A1 (en) * 2011-10-13 2013-04-18 Microsoft Corporation Search result entry truncation using pixel-based approximation
CN102591854A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 针对文本特征的广告过滤***及其过滤方法
CN105574175A (zh) * 2015-12-21 2016-05-11 北京奇虎科技有限公司 优化搜索结果标题的处理方法及装置
CN105630909A (zh) * 2015-12-21 2016-06-01 北京奇虎科技有限公司 规范化的标题信息展示方法及装置
CN105869642A (zh) * 2016-03-25 2016-08-17 海信集团有限公司 一种语音文本的纠错方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020378A (zh) * 2018-01-02 2019-07-16 北京小度互娱科技有限公司 视频网站的内容发布方法及装置
CN111401044A (zh) * 2018-12-27 2020-07-10 北京字节跳动网络技术有限公司 一种标题生成方法、装置、终端设备及存储介质
CN112417848A (zh) * 2019-08-19 2021-02-26 阿里巴巴集团控股有限公司 语料生成方法、装置及计算机设备
CN112231468A (zh) * 2020-10-15 2021-01-15 平安科技(深圳)有限公司 信息生成方法、装置、电子设备及存储介质
WO2021174924A1 (zh) * 2020-10-15 2021-09-10 平安科技(深圳)有限公司 信息生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN105608218B (zh) 智能问答知识库的建立方法、建立装置及建立***
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN110297988A (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
WO2019228466A1 (zh) 命名实体识别的方法、装置、设备及存储介质
CN106294320A (zh) 一种面向学术论文的术语抽取方法及***
CN106484660A (zh) 标题处理方法和装置
CN112000815A (zh) 知识图谱补全方法、装置、电子设备及存储介质
CN113961685A (zh) 信息抽取方法及装置
CN111241824B (zh) 一种用于中文隐喻信息识别的方法
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
CN110413972A (zh) 一种基于nlp技术的表名字段名智能补全方法
CN115017903A (zh) 文档层次结构联合全局局部信息抽取关键短语方法及***
CN111353077A (zh) 基于智能创作算法的融媒体采编发***
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
Ma et al. Extractive dialogue summarization without annotation based on distantly supervised machine reading comprehension in customer service
CN117034948B (zh) 基于多特征自适应融合的段落识别方法、***及存储介质
CN112926340B (zh) 一种用于知识点定位的语义匹配模型
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN115017271A (zh) 用于智能生成rpa流程组件块的方法及***
CN107423293A (zh) 数据翻译的方法和装置
CN115238067A (zh) 基于Bert-wwm-Ext模型的摘要自动生成方法及存储介质
CN114970543A (zh) 一种众包设计资源的语义分析方法
CN109727591B (zh) 一种语音搜索的方法及装置
CN113434797A (zh) 一种网页信息提取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170308

RJ01 Rejection of invention patent application after publication