CN111611801A - 一种识别文本地域属性的方法、装置、服务器及存储介质 - Google Patents

一种识别文本地域属性的方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN111611801A
CN111611801A CN202010488420.4A CN202010488420A CN111611801A CN 111611801 A CN111611801 A CN 111611801A CN 202010488420 A CN202010488420 A CN 202010488420A CN 111611801 A CN111611801 A CN 111611801A
Authority
CN
China
Prior art keywords
text
word
determining
region
key words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010488420.4A
Other languages
English (en)
Other versions
CN111611801B (zh
Inventor
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010488420.4A priority Critical patent/CN111611801B/zh
Publication of CN111611801A publication Critical patent/CN111611801A/zh
Application granted granted Critical
Publication of CN111611801B publication Critical patent/CN111611801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种识别文本地域属性的方法、装置、服务器及存储介质,该方法包括:对待识别文本进行分词处理,得到文本词语集;根据文本词语集中词语对于待识别文本的重要程度,确定第一关键词语;将文本词语集中的词语与预置地域特征库中的地域特征进行匹配,确定文本词语集中的第二关键词语;将第一关键词语和第二关键词语作为待识别文本的文本关键词语;根据文本关键词语确定用于表征待识别文本的特征词向量序列;基于地域识别模型对特征词向量序列进行地域识别处理,得到待识别文本的地域属性;其中,地域识别模型是基于训练文本以及训练文本对应的地域属性标签进行机器学习确定的。本发明提高了对于待识别文本地域属性识别的准确性。

Description

一种识别文本地域属性的方法、装置、服务器及存储介质
技术领域
本发明涉及计算机技术领域,特别涉及一种识别文本地域属性的方法、装置、服务器及存储介质。
背景技术
随着互联网技术的快速发展,越来越多的普通大众通过网络等途径向外发布他们本身的事实和新闻资讯,这种资讯的传播方式称为自媒体,自媒体传播方式的发展,使得资讯本身也越来越有地域性特点。目前的很多信息流应用中会进行本地化资讯推荐,也即根据信息流应用用户的地域来推荐具有该地域属性的资讯,因此,对于资讯所属地域分类的准确性将对本地化资讯推荐的准确性产生很大影响。
相关技术中,在识别资讯(如公众号资讯)的地域属性时,如“北京”地区的相关资讯,往往基于资讯匹配到的特定地域词条(如中国区,县,市,省等行政区划词典)的多少进行粗略判定,判定结果的准确性差,进而导致本地化资讯推荐的准确性大大降低。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种识别文本地域属性的方法、装置、服务器及存储介质。所述技术方案如下:
一方面,提供了一种识别文本地域属性的方法,所述方法包括:
对待识别文本进行分词处理,得到文本词语集;
根据所述文本词语集中词语对于所述待识别文本的重要程度,确定所述文本词语集中的第一关键词语;
将所述文本词语集中的词语与预置地域特征库中的地域特征进行匹配,确定所述文本词语集中的第二关键词语;
将所述第一关键词语和第二关键词语作为所述待识别文本的文本关键词语;
根据所述待识别文本的文本关键词语,确定用于表征所述待识别文本的特征词向量序列;
基于地域识别模型对所述特征词向量序列进行地域识别处理,得到所述待识别文本的地域属性;所述地域识别模型是基于训练文本以及所述训练文本对应的地域属性标签进行机器学习确定的。
另一方面,提供了一种识别文本地域属性的装置,所述装置包括:
分词模块,用于对待识别文本进行分词处理,得到文本词语集;
第一关键词语确定模块,用于根据所述文本词语集中词语对于所述待识别文本的重要程度,确定所述文本词语集中的第一关键词语;
第二关键词语确定模块,用于将所述文本词语集中的词语与预置地域特征库中的地域特征进行匹配,确定所述文本词语集中的第二关键词语;
文本关键词语确定模块,用于将所述第一关键词语和第二关键词语作为所述待识别文本的文本关键词语;
特征序列确定模块,用于根据所述待识别文本的文本关键词语,确定用于表征所述待识别文本的特征词向量序列;
地域识别模块,用于基于地域识别模型对所述特征词向量序列进行地域识别处理,得到所述待识别文本的地域属性;所述地域识别模型是基于训练文本以及所述训练文本对应的地域属性标签进行机器学习确定的。
可选的,所述地域特征包括从地域的地理名称、地域包含的标志性地点名称、地域包含的标识机构名称组成的群组中选择的至少一个。
可选的,所述特征序列确定模块包括:
第一转换模块,用于基于预先训练得到的关键词向量模型,将所述待识别文本的文本关键词语转换为词向量,得到所述文本关键词语对应的关键词向量;
第一确定模块,用于根据所述文本关键词语对应的关键词向量,确定所述特征词向量序列;
其中,所述关键词向量模型是基于word2vector算法对包括不同地域属性文本的文本关键词语进行训练得到的。
可选的,所述第一确定模块包括:
第一获取模块,用于获取所述文本关键词语对应的同义词语;
第二转换模块,用于基于预先训练得到的关键词向量模型,将所述同义词语转换为词向量,得到所述文本关键词语对应的同义词向量;
第一确定子模块,用于根据所述文本关键词语对应的关键词向量和所述同义词向量,确定所述特征词向量序列。
可选的,所述第一确定模块包括:
第二确定模块,用于确定所述待识别文本的文本关键词语之间的互信息特征值;
映射模块,用于按照所述关键词向量的维度,将所述互信息特征值映射为互信息特征向量;
第二确定子模块,用于根据所述文本关键词语对应的关键词向量和所述互信息特征向量,确定所述特征词向量序列。
可选的,所述第二确定模块包括:
第一概率确定模块,用于针对任意两个不同的文本关键词语,确定所述两个不同的文本关键词语在所述待识别文本中共同出现的概率,得到共现概率;
第二概率确定模块,用于确定所述两个不同的文本关键词语中每个文本关键词语在所述待识别文本中的出现概率,分别得到第一出现概率和第二出现概率;
计算模块,用于确定所述第一出现概率和第二出现概率的乘积;
互信息特征值确定模块,用于根据所述共现概率与所述乘积结果的比值,确定所述两个不同的文本关键词语之间的互信息特征值。
可选的,所述装置还包括用于训练所述地域识别模型的训练模块;所述训练模块包括:
第二获取模块,用于获取训练文本以及所述训练文本的地域属性标签;所述训练文本包括不同地域频道中的地域频道数据;所述地域属性标签是基于所述训练文本对应的地域频道确定的;
第三确定模块,用于确定所述训练文本对应的文本关键词语;
第四确定模块,用于根据所述训练文本对应的文本关键词语,确定用于表征所述训练文本的特征词向量序列;
模型构建模块,用于构建卷积神经网络模型;
模型训练模块,用于将所述训练文本的特征词向量序列输入所述卷积神经网络模型,对所述卷积神经网络模型进行机器学习训练,直至所述卷积神经网络模型的预测标签与所述训练文本的地域属性标签相匹配;将所述预测标签与所述地域属性标签相匹配时的卷积神经网络模型作为所述地域识别模型。
可选的,所述第一关键词语确定模块包括:
第五确定模块,用于确定所述文本词语集中每个词语的出现次数;
第六确定模块,用于确定所述文本词语集中每个词语的逆向文件频率;
第七确定模块,用于根据每个词语的出现次数和逆向文件频率,确定所述文本词语集中每个词语的重要程度因子;
第八确定模块,用于将所述文本词语集中所述重要程度因子满足预设条件的词语,确定为第一关键词语。
可选的,所述装置还包括:
存储模块,用于将所述待识别文本的地域属性存储至区块链***中。
另一方面,提供了一种服务器,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现上述识别文本地域属性的方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的识别文本地域属性的方法。
本发明实施例分别从词语对于待识别文本的重要程度以及词语与预置地域特征库中地域特征匹配的两个角度来确定待识别文本的文本关键词,并根据文本关键词语确定用于表征待识别文本的特征词向量序列,以及基于地域识别模型对特征词向量序列进行地域识别处理,得到待识别文本的地域属性,其中,地域识别模型是基于训练文本以及训练文本对应的地域属性标签进行机器学习确定的,从而通过多特征融合的地域识别模型提高了对于待识别文本地域属性识别的准确性。当待识别文本为类似公众号资讯时,可以提高该资讯所属地域分类的准确性,进而提高信息流应用中本地化资讯推荐的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是本发明实施例提供的一种实施环境的示意图;
图1B是本发明实施例提供的区块链***的一种可选示意图;
图1C是本发明实施例提供的区块链的一种可选示意图;
图1D是本发明实施例提供的一个新区块的产生过程示意图;
图2是本发明实施例提供的一种识别文本地域属性的方法的流程示意图;
图3是本发明实施例提供的另一种识别文本地域属性的方法的流程示意图;
图4是本发明实施例提供的另一种识别文本地域属性的方法的流程示意图;
图5是本发明实施例提供的信息流应用中某个地域频道的新闻资讯展示界面的可选示意图;
图6是本发明实施例提供的一种识别文本地域属性的装置的结构示意图;
图7是本发明实施例提供的一种服务器的硬件结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1A,其所示为本发明实施例提供的一种实施环境示意图,该实施环境可以包括推荐服务器110、地域识别服务器120、第一终端130和第二终端140。
其中,第一终端130和第二终端140分别与推荐服务器110通过网络连接,该网络可以是无线网络或者有线网络。第一终端130可以是智能手机、台式计算机、平板电脑和膝上型便携计算机等。第二终端140可以是智能手机、台式计算机、平板电脑和膝上型便携计算机等。推荐服务器110和地域识别服务器120均可以是一个独立运行的服务器,也可以是由多个服务器组成的服务器集群。
第一终端130运行有信息流应用(如今日头条、看点快报、微信看一看等),该信息流应用可以向终端用户展示推荐的资讯。第二终端140运行有自媒体平台,如图1A中所示的微信公众号,终端用户可以通过自媒体平台发布相关资讯。可以理解的,图1A中将信息流应用和自媒体平台分别示意在两个不同的终端中,实际应用中,每个终端可以同时配置有信息流应用和自媒体平台,也即,图1A中的第一终端130也可以配置有自媒体平台,第一终端130的用户也可以通过其配置的自媒体平台发布相关资讯。图1A中的第二终端140也可以配置有信息流应用,第二终端140的用户可以通过其配置的信息流应用获取推荐的资讯。
推荐服务器110可以分别为第一终端130和第二终端140提供后台服务。具体的,推荐服务器110可以接收并存储第二终端140发送的资讯,将该资讯转发给地域识别服务器120。地域识别服务器120对接收的资讯进行分词处理得到文本词语集,并根据文本词语集中词语对于该资讯的重要程度确定出第一关键词语,以及将文本词语集中的词语与预置地域特征库中的地域特征进行匹配确定出第二关键词语,将该第一关键词语和第二关键词语作为该资讯的文本关键词语,并根据该文本关键词语确定用于表征该资讯的特征词向量序列,基于地域识别模型对该特征词向量序列进行地域识别处理,得到该资讯的地域属性,其中,地域识别模型是基于训练文本以及训练文本对应的地域属性标签进行机器学习确定的。资讯的地域属性用于表征资讯所属的某一个地域。
地域识别服务器120在识别出资讯的地域属性后,可以将该资讯的地域属性返回给推荐服务器110,推荐服务器110根据该资讯的地域属性对该资讯进行地域标识。当然,推荐服务器110还可以根据该资讯的地域属性将该资讯划分到与其地域属性相匹配的待推荐资讯组中。例如,识别出资讯的地域属性为“北京”,则可以将该资讯划分到北京资讯组中,该北京资讯组中资讯的地域属性均为北京。推荐服务器110在向第一终端130的用户进行本地化资讯推荐时,可以根据第一终端130的当前地域确定地域属性与之相匹配的目标资讯,然后推送该目标资讯,实现了本地化资讯推荐。
虽然图1A中仅仅示意出两个终端即第一终端130和第二终端140,可以理解的,实际应用中,推荐服务器110可以与一个或者更多个终端建立网络连接,本发明对此不作具体限定。
上述实施环境中,地域识别服务器120通过多特征融合的地域识别模型提高了对于待识别资讯地域属性识别的准确性。从而可以提高该资讯所属地域分类的准确性,进而提高信息流应用中本地化资讯推荐的准确性。
在一个可能的实现方式中,推荐服务器110、地域识别服务器120、第一终端130和第二终端140均可以为区块链***中的节点设备,能够将获取到以及生成的信息共享给区块链***中的其他节点设备,实现多个节点设备之间的信息共享。
参见图1B所示的区块链***,区块链***是指用于进行节点与节点之间数据共享的***,该***中可以包括多个节点设备101,多个节点101可以是指区块链***中的各个客户端。每个节点101在进行正常工作时可以接收到输入信息,并基于接收到的输入信息维护该区块链***内的共享数据。为了保证区块链***内的信息互通,区块链***中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。例如,当区块链***中的任意节点接收到输入信息时,区块链***中的其他节点便根据共识算法获取该输入信息,将该输入信息作为共享数据中的数据进行存储,使得区块链***中全部节点上存储的数据均一致。对于区块链***中的每个节点,均具有与其对应的节点标识,而且区块链***中的每个节点均可以存储有区块链***中其他节点的节点标识,以便后续根据其他节点的节点标识,将生成的区块广播至区块链***中的其他节点。
区块链***中的每个节点均存储一条相同的区块链。区块链由多个区块组成,参见图1C,区块链由多个区块组成,创始块中包括区块头和区块主体,区块头中存储有输入信息特征值、版本号、时间戳和难度值,区块主体中存储有输入信息;创始块的下一区块以创始块为父区块,下一区块中同样包括区块头和区块主体,区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值,并以此类推,使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联,保证了区块中输入信息的安全性。在生成区块链中的各个区块时,参见图1D,区块链所在的节点在接收到输入信息时,对输入信息进行校验,完成校验后,将输入信息存储至内存池中,并更新其用于记录输入信息的哈希树;之后,将更新时间戳更新为接收到输入信息的时间,并尝试不同的随机数,多次进行特征值计算,使得计算得到的特征值可以满足下述公式:
SHA256(SHA256(version+prev_hash+merkle_root+ntime+nbits+x))<TARGET
其中,SHA256为计算特征值所用的特征值算法;version(版本号)为区块链中相关区块协议的版本信息;prev_hash为当前区块的父区块的区块头特征值;merkle_root为输入信息的特征值;ntime为更新时间戳的更新时间;nbits为当前难度,在一段时间内为定值,并在超出固定时间段后再次进行确定;x为随机数;TARGET为特征值阈值,该特征值阈值可以根据nbits确定得到。
这样,当计算得到满足上述公式的随机数时,便可将信息对应存储,生成区块头和区块主体,得到当前区块。随后,区块链所在节点根据区块链***中其他节点的节点标识,将新生成的区块分别发送给其所在的区块链***中的其他节点,由其他节点对新生成的区块进行校验,并在完成校验后将新生成的区块添加至其存储的区块链中。
在本说明书实施例中,地域识别服务器120在识别得到待识别文本的地域属性之后,可以将该待识别文本的地域属性存储至区块链***中,以供区块链***中的其他节点获取该识别结果。
本发明实施例基于人工智能技术对待识别文本进行地域属性识别。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术,其中,人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明实施例的地域识别模型是通过机器学习确定的,机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
请参阅图2,其所示为本发明实施例提供的一种识别文本地域属性的方法的流程示意图,该方法的执行主体可以是服务器,以图1A所示实施环境为例,该方法可以应用于地域识别服务器120。
需要说明的是,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的***或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体如图2所示,所述方法可以包括:
S201,对待识别文本进行分词处理,得到文本词语集。
其中,待识别文本为需要进行地域属性识别的文本,地域属性即文本所属的地域分类,地域分类的类别数可以为我国数百个地级以上城市,当然,还可以根据实际需要设置更多、更细划分的城市。
如图1A所示,待识别文本可以为公众号资讯。在一个可能的实现方式中,地域识别服务器可以从推荐服务器获取待识别文本,推荐服务器接收第二终端发送的资讯发布请求,该资讯发布请求中可以携带将要发布的资讯,推荐服务器从资讯发布请求中提取资讯,并将该资讯作为待识别文本发送给地域识别服务器,相应的地域识别服务器接收到待识别文本。
在另一个可能的实现方式中,地域识别服务器也可以直接从发布资讯的终端获取资讯作为待识别文本。具体的,地域识别服务器可以直接接收发布资讯的终端发送的资讯发布请求,并从资讯发布请求中提取资讯,将该资讯作为待识别文本。
发布资讯的终端在发送资讯发布请求之前,需要先获取资讯发布指令。在一种可能的实现方式中,发布资讯的终端可以在自媒体平台的资讯编辑界面显示发布入口,当检测到该发布入口的触发操作时,发布资讯的终端接收到资讯发布指令,并根据资讯编辑界面的资讯内容生成资讯发布请求。
其中,发布入口的形式可以为按钮或者图标等。发布资讯的终端检测到发布入口的触发操作的情况可以根据该终端的类型不同而有所不同,本发明实施例对此不作具体限定。例如,发布资讯的终端检测到发布入口的触发操作的情况可以是该终端检测到发布入口的压力触控操作,也可以是该终端检测到发布入口的点击操作等。其中,点击操作可以是指通过鼠标进行的点击操作,也可以是指通过键盘以输入快捷键的方式进行的点击操作等。
在对待识别文本进行分词处理时,为了防止仅仅基于主题导致的识别不准确,可以对待识别文本的主题以及正文内容都做分词处理,从而得到包含主题和正文内容的文本词语集。具体的分词可以采用如jieba、THULAC、SnowNLP、pynlpir、CoreNLP以及pyLTP等分词工具,也可以采用第三方平台接口,比如人工智能平台(Artificial IntelligenceLaboratory,AiLab)进行分词,本发明实施例对此不作具体限定。
S203,根据所述文本词语集中词语对于所述待识别文本的重要程度,确定所述文本词语集中的第一关键词语。
在一个可能的实现方式中,可以通过词频-逆向文件频率(TermFrequency-Inverse Document Frequency,tf-idf)来表征文本词语集中词语对于待识别文本的重要程度。
一般词语的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。词频-逆向文件频率的主要思想是:如果某个词语在一篇文章中出现的频率tf高,并且在其他文章中很少出现,则认为该词语具有很好的类别区分能力,适合用来分类。而逆向文件频率idf是一个词语普遍重要性的度量,主要是指如果包含某个词语的文档越少,idf越大,则说明该词语具有很好的类别区分能力。由此,使用词频-逆向文件频率可以计算某个词语在某篇文章里面的重要性。
实际应用中,可以确定文本词语集中每个词语的出现次数,将每个词语的出现次数除以文本词语集中所有词语的总出现次数,得到每个词语的词频。具体每个词语的词频可以通过以下公式计算:
Figure BDA0002520115630000121
其中,ni表示词语i在文本词语集中的出现次数;∑knk表示文本词语集中所有词语的总出现次数,也即各个词语的出现次数之和。
确定文本词语集中每个词语的逆向文件频率。本说明书实施例中,可以预先针对语料库,确定语料库对应的词语集合中各个词语的逆向文本频率。在具体进行待识别文本中词语的逆向文件频率确定时,从语料库对应的词语集中匹配待识别文本的文本词语集中的词语,然后将匹配的词语对应的逆向文件频率作为待识别文本的文本词语集中词语的逆向文件频率。其中,针对语料库,确定语料库对应的词语集合中各个词语的逆向文本频率可以通过以下公式计算:
Figure BDA0002520115630000122
其中,|D|表示语料库中的文本总数;|{j:ti∈dj}|表示语料库中包含词语ti的文本数量;idfi表示词语i的逆向文件频率;dj表示语料库中的文本j。
针对文本词语集中的每个词语,计算该词语的词频和逆向文件频率的乘积,得到文本词语集中每个词语的词频-逆向文件频率。具体的,词语i的词频-逆向文件频率=tfi*idfi
将文本词语集中词频-逆向文件频率满足预设条件的词语确定为第一关键词语。其中,预设条件可以是词频-逆向文件频率大于某个预置阈值,也即将文本词语集中词频-逆向文件频率大于预置阈值的所有词语确定为第一关键词语;预设条件还可以是词频-逆向文件频率大于预设阈值的前预设数量个,也即将文本词语集中词频-逆向文件频率大于预置阈值的前预设数量个词语确定为第一关键词语;其中,前预设数量个可以是前10个、前20个等等。
实际应用中,可以根据文本词语集中词语的词频-逆向文件频率对词语进行降序排列,然后获取词频-逆向文件频率大于预置阈值,且排序在前的预设数量个词语作为第一关键词语。其中,预置阈值可以根据实际需要或者历史经验进行设定。
可以理解的,实际应用中还可以采用其他算法来确定文本词语集中各词语对于待识别文本的重要程度,例如还可以采用图关键词选择算法(TextRank)等。
S205,将所述文本词语集中的词语与预置地域特征库中的地域特征进行匹配,确定所述文本词语集中的第二关键词语。
可以理解的,在步骤S205之前还包括构建预置地域特征库,该预置地域特征库中包含了预先收集的大量地域特征。其中,地域特征可以唯一标识一个地理区域,具体的实施中,该地理区域可以为某个城市,该城市所属的行政区等级不受限制,例如,地理区域可以是地级以上的城市,也可以是县级以上的城市等等。
用于唯一标识一个地理区域的地域特征可以包括从地域的地理名称、地域包含的标志性地点名称、地域包含的标识机构名称组成的群组中选择的至少一个。其中,地域的地理名称可以但不限于是城市名称,如“北京”、“上海”、“深圳”等等;地域包含的标志性地点名称可以是标志性的景点名称,如“鼓浪屿”、“山海关”、“八达岭长城”、“凤凰古城”等等,还可以是标志性的建筑物名称,如“世贸大厦”、“广州新电视塔”等等,还可以是标志性的河流、山川的名称等等;地域包含的标识机构名称可以但不限于是公司名称,如“甲骨文”、“华为总部”等等。
需要说明的是,以上名称可以是正式的官方名称,也可以是通用的缩写或者别称,例如,“上海”还可以是“申城”、“沪”,“广州新电视塔”还可以是“小蛮腰”等等。
如图3所示,地域识别服务器将文本词语集中的任一词语与预置地域特征库中的地域特征进行匹配,若某个词语在预置地域特征库中存在相匹配的地域特征,则将该词语确定为第二关键词语;反之,若某个词语在预置地域特征库中不存在相匹配的地域特征,则确定该词语不是第二关键词语,从而可以得到至少一个第二关键词语。
可以理解的,步骤S205也可以在步骤S203之前或者与步骤S203并行执行,本说明书实施例对于步骤S205和步骤S203的执行顺序不作具体限定。
S207,将所述第一关键词语和第二关键词语作为所述待识别文本的文本关键词语。
将第一关键词语和第二关键词语作为待识别文本的文本关键词语,实际该文本关键词语为关键词语的集合,该关键词语的集合中即包括第一关键词语也包括第二关键词语。
可以理解的,第一关键词语和第二关键词语中可能存在相同的词语,因此,在得到文本关键词语时,可以进行去重操作,使得文本关键词语之间不重复。
S209,根据所述待识别文本的文本关键词语,确定用于表征所述待识别文本的特征词向量序列。
在一个可能的实现方式中,可以基于预先训练得到的关键词向量模型,将待识别文本的文本关键词语分别转换为词向量,得到每个文本关键词语对应的关键词向量。然后基于文本关键词语对应的关键词向量,确定用于表征待识别文本的特征词向量序列。
其中,关键词向量模型可以是基于word2vector算法对包括不同地域属性文本的文本关键词语进行训练得到的。其中,不同地域属性文本可以通过爬取网络中各地域频道中的地域频道数据得到,例如,爬取不同地域频道中的新闻,得到不同地域属性的资讯。
具体的,可以先获取海量不同地域属性的文本,然后确定文本的文本关键词语,文本关键词语的确定方法可以参见前述步骤S201至S207;基于word2vector算法对不同地域属性的文本对应的文本关键词语进行学习训练,最终可以得到关键词向量模型。其中,word2vector算法是由Google的Mikolov等人提出的一个词向量计算模型,该算法的具体实现过程在此不再赘述,可以参见现有技术中对该算法的相关描述。
地域识别服务器在基于文本关键词语对应的关键词向量,确定用于表征待识别文本的特征词向量序列时,可以直接将关键词向量序列作为特征词向量序列来表征待识别文本。其中,关键词向量序列可以基于文本关键词在待识别文本中的前后顺序来确定各关键词向量的顺序得到。
为了提高对待识别文本的表征效果,以及提高后续地域属性识别结果的准确性,在另一个可能的实现方式中,如图4所示,根据文本关键词语对应的关键词向量确定特征词向量序列可以包括:
S401,获取所述文本关键词语对应的同义词语。
其中,同义词语是指词义相同或者相近的词语,具体的实施中,可以从同义词语词典中获取文本关键词语对应的同义词语。由于本说明书实施例中文本关键词语包括能够匹配到地域特征的第二关键词语,因此预先形成的同义词语词典中可以包括各个地域特征的同义词语,例如,地域特征“上海”的同义词语可以包括“沪”、“申城”等等。
S403,基于预先训练得到的关键词向量模型,将所述同义词语转换为词向量,得到所述文本关键词语对应的同义词向量。
在该实施方式中,关键词向量模型可以是基于word2vector算法对包括不同地域属性文本的文本关键词语以及文本关键词语对应的同义词语进行训练得到的。
具体的,可以先获取海量不同地域属性的文本,然后确定文本的文本关键词语,文本关键词语的确定方法可以参见前述步骤S201至S207;确定各文本关键词语的同义词语;基于word2vector算法对不同地域属性的文本对应的文本关键词以及相应的同义词语进行学习训练,最终可以得到关键词向量模型,该关键词向量模型即可以实现文本关键词语的向量转换,也可以实现文本关键词语的同义词语的向量转换。可以理解的,同义词向量的维度与关键词向量的维度相一致。
S405,根据所述文本关键词语对应的关键词向量和所述同义词向量,确定所述特征词向量序列。
具体的,可以根据关键词向量得到关键词向量序列,根据同义词向量得到同义词向量序列,然后将关键词向量序列和同义词向量序列拼接得到特征词向量序列。
在另一个可能的实现方式中,继续参见图4,根据文本关键词语对应的关键词向量确定特征词向量序列可以包括:
S407,确定所述待识别文本的文本关键词语之间的互信息特征值。
互信息特征值可以衡量词语间的词义相似度,其基本思想是统计两个词语在文本中同时出现的概率,如果概率越大,则这两个词语的相关性越紧密,关联度越高。互信息特征值具体可以通过以下公式计算:
Figure BDA0002520115630000161
其中,x和y表示待识别文本的任意两个不同的文本关键词语;p(x,y)表示文本关键词语x和文本关键词语y在待识别文本中共同出现的概率即共现概率,其计算方式为文本关键词语x和文本关键词语y在待识别文本中共同出现次数在待识别文本的文本词语集中所有词语总出现次数的比例;p(x)表示文本关键词语x在待识别文本中的出现概率,其计算方式为文本关键词语x在待识别文本中的出现次数与待识别文本的文本词语集中所有词语总出现次数的比值;p(y)表示文本关键词语y在待识别文本中的出现概率,其计算方式为文本关键词语y在待识别文本中的出现次数与待识别文本的文本词语集中所有词语总出现次数的比值;PMI(x,y)表示文本关键词语x和文本关键词语y的互信息特征值。
若PMI(x,y)大于0,则文本关键词语x和文本关键词语y是相关的,PMI(x,y)越大,相关性越强;PMI(x,y)等于0,则文本关键词语x和文本关键词语y是独立的。
举例而言,假设待识别文本有3个文本关键词语(a,b,c),则可以得到3个互信息特征值,分别为PMI(a,b)、PMI(a,c)和PMI(b,c)。
S409,按照所述关键词向量的维度,将所述互信息特征值映射为互信息特征向量。
即采用向量来表征各个互信息特征值得到相应的互信息特征向量,每个互信息特征向量的维度与关键词向量的维度相一致。
S411,根据所述文本关键词语对应的关键词向量和所述互信息特征向量,确定所述特征词向量序列。
具体的,可以根据关键词向量得到关键词向量序列,根据互信息特征向量得到互信息特征向量序列,然后将关键词向量序列和互信息特征向量序列拼接得到特征词向量序列。
假设待识别文本有3个文本关键词语(a,b,c),关键词向量的维度为k,互信息特征向量也是k维度并表示为<PMI(a,b)>、<PMI(a,c)>和<PMI(b,c)>,则拼接得到的特征词向量序列表示为{<ca1,ca2,…,cak>,<cb1,cb2,…,cbk>,<cc1,cc2,…,cck>,<PMI(a,b)>,<PMI(a,c),<PMI(b,c)>}。
可以理解的,在一些实施方式中,还可以同时基于同义词向量、关键词向量和互信息特征向量来确定特征词向量序列,也即将关键词向量序列、同义词向量序列和互信息特征向量序列进行拼接。
S211,基于地域识别模型对所述特征词向量序列进行地域识别处理,得到所述待识别文本的地域属性。
其中,地域识别模型是预先训练好的,该地域识别模型是基于训练文本以及所述训练文本对应的地域属性标签进行机器学习确定的。
在一个可能的实施方式中,地域识别模型可以包括输入层、卷积层、池化层和全连接层。
输入层获取输入的特征词向量序列,根据特征词向量序列得到一个嵌入矩阵,该嵌入矩阵的每一行都是特征词向量,可以理解的,特征词向量可以包括关键词向量、同义词向量和/或互信息特征向量。该嵌入矩阵可以是静态(static)固定的,也可以是非静态(non-static)的,当为非静态时可以根据反向传播进行更新。
卷积层对嵌入矩阵进行卷积操作得到卷积特征,在本说明书实施例中,卷积层采用一维卷积,包括至少一个卷积核,每个卷积核对应一个扫描窗口,该扫描窗口的宽度为特征词向量的维度,高度为超参数,可以根据需要进行设置。在卷积核进行卷积运算的过程中,该扫描窗口可以按照目标步长扫描嵌入矩阵。以一个卷积核为例,该卷积核的扫描窗口是一个宽度为d,高度为h的矩阵w,那么该矩阵w有h*d个参数需要被更新。嵌入矩阵A是一个s行d列的矩阵(即A∈Rs×d),A[i:j]表示A的第i行到底j行,那么卷积操作可以用如下公式表示:Oi=w·A[i:i+h-1],i=1,2,...,s-h+1;为了提高模型的表达能力,还可以在Oi的基础上叠加偏置b,并通过加入激活函数f()来加入非线性因素,最终得到所需的卷积特征(feature map),具体卷积特征Ci=f(Oi+b)。
对于一个卷积核,可以得到卷积特征Ci∈Rs-h+1,总共有s-h+1个卷积特征。当有多个高度不同的卷积核对嵌入矩阵进行上述卷积操作时,可以得到更丰富的卷积特征表达。
池化层对不同尺寸卷积核卷积得到的卷积特征进行池化处理,使得不同尺寸卷积核对应的卷积特征的维度相同。一般可以使用1-max pooling最大值池化,即提取各个卷积核对应卷积特征中的最大值,得到池化特征。
全连接层将所有卷积核对应的池化特征级联为一个特征向量,并将该特征向量送给分类器(如softmax分类器)做分类。分类器可以采用softmax函数进行地域属性输出,softmax函数中包含的是一个非线性分类器,对全连接层送入的特征向量进行地域属性识别训练(即识别出特征向量所对应的地域属性标签)。具体的,可以确定特征向量与各个地域属性标签匹配的概率值,将与特征向量匹配的概率值最高的地域属性标签确定为特征向量的地域属性,得到待识别文本的地域属性。
下面详细描述对上述地域识别模型的训练过程,具体可以包括以下步骤:
(1)获取训练文本以及所述训练文本的地域属性标签;其中,训练文本包括不同地域频道中的地域频道数据,地域属性标签是基于训练文本对应的地域频道确定的。
如图5所示为信息流应用中地域频道“咸阳”的新闻资讯展示界面,其中展示了多条新闻资讯,每条新闻资讯即为地域频道“咸阳”的地域频道数据,也即每条新闻资讯都可以被抓取作为训练文本,该训练文本的地域属性标签即为地域频道“咸阳”。
实际应用中,训练文本包括不同地域频道的地域频道数据,那么可以将对应某个地域频道的所有训练文本作为正样本,而将不是该地域频道的训练文本作为负样本,从而对于每个地域频道可以得到至少一个正样本训练文本和至少一个负样本训练文本。
(2)确定所述训练文本对应的文本关键词语。
具体对文本关键词语的确定可以参见前述步骤S201至步骤S207,在此不再赘述。
(3)根据所述训练文本对应的文本关键词语,确定用于表征所述训练文本的特征词向量序列。
对于训练文本的特征词向量序列的具体确定可以参见前述步骤S209中的相关描述,在此不再赘述。
(4)构建卷积神经网络模型。
在确定了各训练文本的特征词向量序列后,可以构建卷积神经网络模型,其中,卷积神经网络模型可以采用TextCNN模型、浅层学习中的SVM和深度学习的FastText模型等等。
本说明书实施例中,构建的卷积神经网络模型可以包括输入层、卷积层、池化层和全连接层。输入层用于根据训练文本的特征词向量序列构造嵌入矩阵;卷积层用于对输入层的嵌入矩阵进行卷积处理,得到卷积特征,在卷积处理时可以使用一维卷积也即只在垂直方向做卷积。卷积层可以有多个尺寸不同的卷积核,例如有6个卷积核,尺寸分别为(2×5),(3×5)和(4×5),每个尺寸各包含2个卷积核;池化层可以对卷积处理得到的卷积特征进行池化处理,以使得各个卷积核对应的卷积特征的维度相同,一般可以进行最大值池化,池化处理得到各个卷积核对应的池化特征;池化特征可以通过全连接层级联得到一个特征向量,该特征向量被送入分类器进行分类训练,该分类器可以是softmax分类器。
(5)将所述训练文本的特征词向量序列输入所述卷积神经网络模型,对所述卷积神经网络模型进行机器学习训练,直至所述卷积神经网络模型的预测标签与所述训练文本的地域属性标签相匹配。
具体的,对于每个地域频道,根据其对应的至少一个正样本训练文本和至少一个负样本训练文本的分类结果(即预测标签)与训练文本的地域属性标签获取交叉熵函数,并通过交叉熵函数对卷积神经网络模型中的参数进行更新。
本说明书实施例所示的方案,通过交叉熵作为损失函数来衡量卷积神经网络模型的分类结果与标注结果(即地域属性标签)之间的差异,并通过交叉熵损失函数在卷积神经网络模型中进行反向传播,以更新卷积神经网络模型中的各项参数。
在通过该交叉熵损失函数对该卷积神经网络模型中的参数进行更新时,可以在根据该交叉熵损失函数确定该卷积神经网络模型未收敛时,通过该交叉熵损失函数对该卷积神经网络模型中的参数进行更新。
其中,卷积神经网络模型收敛可以是指卷积神经网络模型的预测标签与所述训练文本的地域属性标签相匹配,也即二者之间的差值小于预定阈值,或者之间的差值的变化率趋近于某一个较低值(比如趋近于0)。
(6)将所述预测标签与所述地域属性标签相匹配时的卷积神经网络模型作为所述地域识别模型。
具体的,当预测标签与所述地域属性标签相匹配时表明卷积神经网络模型已收敛,收敛时的参数所对应的卷积神经网络模型即为训练好的地域识别模型。
由本发明实施例的上述技术方案可见,本发明实施例分别从词语对于待识别文本的重要程度以及词语与预置地域特征库中地域特征匹配的两个角度来确定待识别文本的文本关键词,并根据文本关键词语确定用于表征待识别文本的特征词向量序列,以及基于地域识别模型对特征词向量序列进行地域识别处理,得到待识别文本的地域属性,其中,地域识别模型是基于训练文本以及训练文本对应的地域属性标签进行机器学习确定的,从而通过多特征融合的地域识别模型提高了对于待识别文本地域属性识别的准确性。当待识别文本为类似公众号资讯时,可以提高该资讯所属地域分类的准确性,进而提高信息流应用中本地化资讯推荐的准确性。
与上述几种实施例提供的识别文本地域属性的方法相对应,本发明实施例还提供一种识别文本地域属性的装置,由于本发明实施例提供的识别文本地域属性的装置与上述几种实施例提供的识别文本地域属性的方法相对应,因此前述识别文本地域属性的方法的实施方式也适用于本实施例提供的识别文本地域属性的装置,在本实施例中不再详细描述。
请参阅图6,其所示为本发明实施例提供的一种识别文本地域属性的装置的结构示意图,该装置具有实现上述方法实施例中识别文本地域属性的方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。如图6所示,该装置可以包括:
分词模块610,用于对待识别文本进行分词处理,得到文本词语集;
第一关键词语确定模块620,用于根据所述文本词语集中词语对于所述待识别文本的重要程度,确定所述文本词语集中的第一关键词语;
第二关键词语确定模块630,用于将所述文本词语集中的词语与预置地域特征库中的地域特征进行匹配,确定所述文本词语集中的第二关键词语;
文本关键词语确定模块640,用于将所述第一关键词语和第二关键词语作为所述待识别文本的文本关键词语;
特征序列确定模块650,用于根据所述待识别文本的文本关键词语,确定用于表征所述待识别文本的特征词向量序列;
地域识别模块660,用于基于地域识别模型对所述特征词向量序列进行地域识别处理,得到所述待识别文本的地域属性;所述地域识别模型是基于训练文本以及所述训练文本对应的地域属性标签进行机器学习确定的。
在一个可能的实施例中,所述地域特征包括从地域的地理名称、地域包含的标志性地点名称、地域包含的标识机构名称组成的群组中选择的至少一个。
在一个可能的实施例中,特征序列确定模块650可以包括:
第一转换模块,用于基于预先训练得到的关键词向量模型,将所述待识别文本的文本关键词语转换为词向量,得到所述文本关键词语对应的关键词向量;
第一确定模块,用于根据所述文本关键词语对应的关键词向量,确定所述特征词向量序列;
其中,所述关键词向量模型是基于word2vector算法对包括不同地域属性文本的文本关键词语进行训练得到的。
在一个可能的实施例中,第一确定模块可以包括:
第一获取模块,用于获取所述文本关键词语对应的同义词语;
第二转换模块,用于基于预先训练得到的关键词向量模型,将所述同义词语转换为词向量,得到所述文本关键词语对应的同义词向量;
第一确定子模块,用于根据所述文本关键词语对应的关键词向量和所述同义词向量,确定所述特征词向量序列。
在另一个可能的实施例中,第一确定模块可以包括:
第二确定模块,用于确定所述待识别文本的文本关键词语之间的互信息特征值;
映射模块,用于按照所述关键词向量的维度,将所述互信息特征值映射为互信息特征向量;
第二确定子模块,用于根据所述文本关键词语对应的关键词向量和所述互信息特征向量,确定所述特征词向量序列。
在一个可能的实施例中,第二确定模块可以包括:
第一概率确定模块,用于针对任意两个不同的文本关键词语,确定所述两个不同的文本关键词语在所述待识别文本中共同出现的概率,得到共现概率;
第二概率确定模块,用于确定所述两个不同的文本关键词语中每个文本关键词语在所述待识别文本中的出现概率,分别得到第一出现概率和第二出现概率;
计算模块,用于确定所述第一出现概率和第二出现概率的乘积;
互信息特征值确定模块,用于根据所述共现概率与所述乘积结果的比值,确定所述两个不同的文本关键词语之间的互信息特征值。
在另一个可能的实施例中,该装置还包括用于训练所述地域识别模型的训练模块;该训练模块可以包括:
第二获取模块,用于获取训练文本以及所述训练文本的地域属性标签;所述训练文本包括不同地域频道中的地域频道数据;所述地域属性标签是基于所述训练文本对应的地域频道确定的;
第三确定模块,用于确定所述训练文本对应的文本关键词语;
第四确定模块,用于根据所述训练文本对应的文本关键词语,确定用于表征所述训练文本的特征词向量序列;
模型构建模块,用于构建卷积神经网络模型;
模型训练模块,用于将所述训练文本的特征词向量序列输入所述卷积神经网络模型,对所述卷积神经网络模型进行机器学习训练,直至所述卷积神经网络模型的预测标签与所述训练文本的地域属性标签相匹配;将所述预测标签与所述地域属性标签相匹配时的卷积神经网络模型作为所述地域识别模型。
在一个可能的实施例中,第一关键词语确定模块620可以包括:
第五确定模块,用于确定所述文本词语集中每个词语的出现次数;
第六确定模块,用于确定所述文本词语集中每个词语的逆向文件频率;
第七确定模块,用于根据每个词语的出现次数和逆向文件频率,确定所述文本词语集中每个词语的重要程度因子;
第八确定模块,用于将所述文本词语集中所述重要程度因子满足预设条件的词语,确定为第一关键词语。
在另一个可能的实施例中,该装置还可以包括:
存储模块,用于将所述待识别文本的地域属性存储至区块链***中。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例的识别文本地域属性的装置从词语对于待识别文本的重要程度以及词语与预置地域特征库中地域特征匹配的两个角度来确定待识别文本的文本关键词,并根据文本关键词语确定用于表征待识别文本的特征词向量序列,以及基于地域识别模型对特征词向量序列进行地域识别处理,得到待识别文本的地域属性,其中,地域识别模型是基于训练文本以及训练文本对应的地域属性标签进行机器学习确定的,从而通过多特征融合的地域识别模型提高了对于待识别文本地域属性识别的准确性。当待识别文本为类似公众号资讯时,可以提高该资讯所属地域分类的准确性,进而提高信息流应用中本地化资讯推荐的准确性。
本发明实施例提供了一种服务器,该服务器包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的识别文本地域属性的方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及识别文本的地域属性。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图7是本发明实施例提供的运行一种识别文本地域属性的方法的服务器的硬件结构框图,如图7所示,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(Central Processing Units,CPU)710(处理器710可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器730,一个或一个以上存储应用程序723或数据722的存储介质720(例如一个或一个以上海量存储设备)。其中,存储器730和存储介质720可以是短暂存储或持久存储。存储在存储介质720的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器710可以设置为与存储介质720通信,在服务器700上执行存储介质720中的一系列指令操作。服务器700还可以包括一个或一个以上电源760,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口740,和/或,一个或一个以上操作***721,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口740可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器700的通信供应商提供的无线网络。在一个实例中,输入输出接口740包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口740可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器700还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。
本发明的实施例还提供了一种计算机可读存储介质,所述存储介质可设置于服务器之中以保存用于实现一种识别文本地域属性的方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的识别文本地域属性的方法。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种识别文本地域属性的方法,其特征在于,所述方法包括:
对待识别文本进行分词处理,得到文本词语集;
根据所述文本词语集中词语对于所述待识别文本的重要程度,确定所述文本词语集中的第一关键词语;
将所述文本词语集中的词语与预置地域特征库中的地域特征进行匹配,确定所述文本词语集中的第二关键词语;
将所述第一关键词语和第二关键词语作为所述待识别文本的文本关键词语;
根据所述待识别文本的文本关键词语,确定用于表征所述待识别文本的特征词向量序列;
基于地域识别模型对所述特征词向量序列进行地域识别处理,得到所述待识别文本的地域属性;所述地域识别模型是基于训练文本以及所述训练文本对应的地域属性标签进行机器学习确定的。
2.根据权利要求1所述的识别文本地域属性的方法,其特征在于,所述地域特征包括从地域的地理名称、地域包含的标志性地点名称、地域包含的标识机构名称组成的群组中选择的至少一个。
3.根据权利要求1所述的识别文本地域属性的方法,其特征在于,所述根据所述待识别文本的文本关键词语,确定用于表征所述待识别文本的特征词向量序列包括:
基于预先训练得到的关键词向量模型,将所述待识别文本的文本关键词语转换为词向量,得到所述文本关键词语对应的关键词向量;
根据所述文本关键词语对应的关键词向量,确定所述特征词向量序列;
其中,所述关键词向量模型是基于word2vector算法对包括不同地域属性文本的文本关键词语进行训练得到的。
4.根据权利要求3所述的识别文本地域属性的方法,其特征在于,所述根据所述文本关键词语对应的关键词向量,确定所述特征词向量序列包括:
获取所述文本关键词语对应的同义词语;
基于预先训练得到的关键词向量模型,将所述同义词语转换为词向量,得到所述文本关键词语对应的同义词向量;
根据所述文本关键词语对应的关键词向量和所述同义词向量,确定所述特征词向量序列。
5.根据权利要求3所述的识别文本地域属性的方法,其特征在于,所述根据所述文本关键词语对应的关键词向量,确定所述特征词向量序列包括:
确定所述待识别文本的文本关键词语之间的互信息特征值;
按照所述关键词向量的维度,将所述互信息特征值映射为互信息特征向量;
根据所述文本关键词语对应的关键词向量和所述互信息特征向量,确定所述特征词向量序列。
6.根据权利要求5所述的识别文本地域属性的方法,其特征在于,所述确定所述待识别文本的文本关键词语之间的互信息特征值包括:
针对任意两个不同的文本关键词语,确定所述两个不同的文本关键词语在所述待识别文本中共同出现的概率,得到共现概率;
确定所述两个不同的文本关键词语中每个文本关键词语在所述待识别文本中的出现概率,分别得到第一出现概率和第二出现概率;
确定所述第一出现概率和第二出现概率的乘积;
根据所述共现概率与所述乘积结果的比值,确定所述两个不同的文本关键词语之间的互信息特征值。
7.根据权利要求1所述的识别文本地域属性的方法,其特征在于,所述方法还包括训练所述地域识别模型;所述训练所述地域识别模型包括:
获取训练文本以及所述训练文本的地域属性标签;所述训练文本包括不同地域频道中的地域频道数据;所述地域属性标签是基于所述训练文本对应的地域频道确定的;
确定所述训练文本对应的文本关键词语;
根据所述训练文本对应的文本关键词语,确定用于表征所述训练文本的特征词向量序列;
构建卷积神经网络模型;
将所述训练文本的特征词向量序列输入所述卷积神经网络模型,对所述卷积神经网络模型进行机器学习训练,直至所述卷积神经网络模型的预测标签与所述训练文本的地域属性标签相匹配;
将所述预测标签与所述地域属性标签相匹配时的卷积神经网络模型作为所述地域识别模型。
8.根据权利要求1所述的识别文本地域属性的方法,其特征在于,所述根据所述文本词语集中词语对于所述待识别文本的重要程度,确定所述文本词语集中的第一关键词语包括:
确定所述文本词语集中每个词语的出现次数;
确定所述文本词语集中每个词语的逆向文件频率;
根据每个词语的出现次数和逆向文件频率,确定所述文本词语集中每个词语的重要程度因子;
将所述文本词语集中所述重要程度因子满足预设条件的词语,确定为第一关键词语。
9.根据权利要求1所述的识别文本地域属性的方法,其特征在于,在得到所述待识别文本的地域属性之后,所述方法还包括:
将所述待识别文本的地域属性存储至区块链***中。
10.一种识别文本地域属性的装置,其特征在于,所述装置包括:
分词模块,用于对待识别文本进行分词处理,得到文本词语集;
第一关键词语确定模块,用于根据所述文本词语集中词语对于所述待识别文本的重要程度,确定所述文本词语集中的第一关键词语;
第二关键词语确定模块,用于将所述文本词语集中的词语与预置地域特征库中的地域特征进行匹配,确定所述文本词语集中的第二关键词语;
文本关键词语确定模块,用于将所述第一关键词语和第二关键词语作为所述待识别文本的文本关键词语;
特征序列确定模块,用于根据所述待识别文本的文本关键词语,确定用于表征所述待识别文本的特征词向量序列;
地域识别模块,用于基于地域识别模型对所述特征词向量序列进行地域识别处理,得到所述待识别文本的地域属性;所述地域识别模型是基于训练文本以及所述训练文本对应的地域属性标签进行机器学习确定的。
11.一种服务器,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1~9中任一项所述的识别文本地域属性的方法。
12.一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~9任一项所述的识别文本地域属性的方法。
CN202010488420.4A 2020-06-02 2020-06-02 一种识别文本地域属性的方法、装置、服务器及存储介质 Active CN111611801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010488420.4A CN111611801B (zh) 2020-06-02 2020-06-02 一种识别文本地域属性的方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010488420.4A CN111611801B (zh) 2020-06-02 2020-06-02 一种识别文本地域属性的方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN111611801A true CN111611801A (zh) 2020-09-01
CN111611801B CN111611801B (zh) 2021-09-14

Family

ID=72200988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010488420.4A Active CN111611801B (zh) 2020-06-02 2020-06-02 一种识别文本地域属性的方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN111611801B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329469A (zh) * 2020-11-05 2021-02-05 新华智云科技有限公司 一种行政地域实体识别方法及***
CN113837113A (zh) * 2021-09-27 2021-12-24 中国平安财产保险股份有限公司 基于人工智能的文档校验方法、装置、设备及介质
CN115269851A (zh) * 2022-08-04 2022-11-01 腾讯科技(深圳)有限公司 文章分类方法、装置、电子设备、存储介质及程序产品
CN115292620A (zh) * 2022-08-09 2022-11-04 腾讯科技(深圳)有限公司 地域信息识别方法、装置、电子设备和存储介质
CN116151841A (zh) * 2022-12-28 2023-05-23 连连银通电子支付有限公司 一种基于关键词识别的管控方法、装置、电子设备及存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102209299A (zh) * 2011-05-26 2011-10-05 宇龙计算机通信科技(深圳)有限公司 一种服务器筛选本地新闻的方法及服务器
CN104813316A (zh) * 2012-06-04 2015-07-29 苹果公司 具有本地化应用程序推荐的移动设备
CN105589871A (zh) * 2014-10-22 2016-05-18 腾讯科技(深圳)有限公司 资讯处理方法和装置
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机***有限公司 文本标签的提取方法和装置
US20170300511A1 (en) * 2016-04-15 2017-10-19 Google Inc. Providing geographic locations related to user interests
CN108470050A (zh) * 2018-03-09 2018-08-31 吉林农业大学 一种面向农业互联网web资源的时空推荐方法及***
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN108920457A (zh) * 2018-06-15 2018-11-30 腾讯大地通途(北京)科技有限公司 地址识别方法和装置及存储介质
CN109189925A (zh) * 2018-08-16 2019-01-11 华南师范大学 基于点互信息的词向量模型和基于cnn的文本分类方法
CN109271640A (zh) * 2018-11-13 2019-01-25 腾讯科技(深圳)有限公司 文本信息的地域属性识别方法及装置、电子设备
CN109388749A (zh) * 2018-09-29 2019-02-26 武汉烽火普天信息技术有限公司 基于多层级地理的精准高效网络舆情检测及预警方法
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN110334344A (zh) * 2019-06-13 2019-10-15 腾讯科技(深圳)有限公司 一种语义意图识别方法、装置、设备及存储介质
CN110704624A (zh) * 2019-09-30 2020-01-17 武汉大学 一种地理信息服务元数据文本多层级多标签分类方法
CN110825875A (zh) * 2019-11-01 2020-02-21 科大讯飞股份有限公司 文本实体类型识别方法、装置、电子设备和存储介质
CN111177371A (zh) * 2019-12-05 2020-05-19 腾讯科技(深圳)有限公司 一种分类方法和相关装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102209299A (zh) * 2011-05-26 2011-10-05 宇龙计算机通信科技(深圳)有限公司 一种服务器筛选本地新闻的方法及服务器
CN104813316A (zh) * 2012-06-04 2015-07-29 苹果公司 具有本地化应用程序推荐的移动设备
CN105589871A (zh) * 2014-10-22 2016-05-18 腾讯科技(深圳)有限公司 资讯处理方法和装置
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机***有限公司 文本标签的提取方法和装置
US20170300511A1 (en) * 2016-04-15 2017-10-19 Google Inc. Providing geographic locations related to user interests
CN108470050A (zh) * 2018-03-09 2018-08-31 吉林农业大学 一种面向农业互联网web资源的时空推荐方法及***
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN108920457A (zh) * 2018-06-15 2018-11-30 腾讯大地通途(北京)科技有限公司 地址识别方法和装置及存储介质
CN109189925A (zh) * 2018-08-16 2019-01-11 华南师范大学 基于点互信息的词向量模型和基于cnn的文本分类方法
CN109388749A (zh) * 2018-09-29 2019-02-26 武汉烽火普天信息技术有限公司 基于多层级地理的精准高效网络舆情检测及预警方法
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN109271640A (zh) * 2018-11-13 2019-01-25 腾讯科技(深圳)有限公司 文本信息的地域属性识别方法及装置、电子设备
CN110334344A (zh) * 2019-06-13 2019-10-15 腾讯科技(深圳)有限公司 一种语义意图识别方法、装置、设备及存储介质
CN110704624A (zh) * 2019-09-30 2020-01-17 武汉大学 一种地理信息服务元数据文本多层级多标签分类方法
CN110825875A (zh) * 2019-11-01 2020-02-21 科大讯飞股份有限公司 文本实体类型识别方法、装置、电子设备和存储介质
CN111177371A (zh) * 2019-12-05 2020-05-19 腾讯科技(深圳)有限公司 一种分类方法和相关装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329469A (zh) * 2020-11-05 2021-02-05 新华智云科技有限公司 一种行政地域实体识别方法及***
CN112329469B (zh) * 2020-11-05 2023-12-19 新华智云科技有限公司 一种行政地域实体识别方法及***
CN113837113A (zh) * 2021-09-27 2021-12-24 中国平安财产保险股份有限公司 基于人工智能的文档校验方法、装置、设备及介质
CN115269851A (zh) * 2022-08-04 2022-11-01 腾讯科技(深圳)有限公司 文章分类方法、装置、电子设备、存储介质及程序产品
CN115269851B (zh) * 2022-08-04 2024-04-16 腾讯科技(深圳)有限公司 文章分类方法、装置、电子设备、存储介质及程序产品
CN115292620A (zh) * 2022-08-09 2022-11-04 腾讯科技(深圳)有限公司 地域信息识别方法、装置、电子设备和存储介质
CN116151841A (zh) * 2022-12-28 2023-05-23 连连银通电子支付有限公司 一种基于关键词识别的管控方法、装置、电子设备及存储介质
CN116151841B (zh) * 2022-12-28 2023-09-19 连连银通电子支付有限公司 一种基于关键词识别的管控方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111611801B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN111611801B (zh) 一种识别文本地域属性的方法、装置、服务器及存储介质
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN110209808B (zh) 一种基于文本信息的事件生成方法以及相关装置
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN110968684A (zh) 一种信息处理方法、装置、设备及存储介质
CN112559747B (zh) 事件分类处理方法、装置、电子设备和存储介质
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
CN110209809B (zh) 文本聚类方法和装置、存储介质及电子装置
Díaz-Morales Cross-device tracking: Matching devices and cookies
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN111382283A (zh) 资源类别标签标注方法、装置、计算机设备和存储介质
CN112131261B (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
Sun et al. Graph force learning
CN113342944B (zh) 一种语料泛化方法、装置、设备及存储介质
CN112988954B (zh) 文本分类方法、装置、电子设备和计算机可读存储介质
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质
CN114358109A (zh) 特征提取模型训练、样本检索方法、装置和计算机设备
CN112925912A (zh) 文本处理方法、同义文本召回方法及装置
CN111709473A (zh) 对象特征的聚类方法及装置
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
CN115131058A (zh) 账号识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant