CN110263341A

CN110263341A - 一种从文本中挖掘和定位个人能力的方法

Info

Publication number: CN110263341A
Application number: CN201910538161.9A
Authority: CN
Inventors: 吴漾; 王鹏宇; 缪新萍; 杨箴; 周玲; 田钺
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-09-20
Anticipated expiration: 2039-06-20
Also published as: CN110263341B

Abstract

本发明公开了一种从文本中挖掘和定位个人能力的方法，该方法包括步骤：将文档数据和邮件数据入数据库；采用数据库生成人名词库以及***词库文件；根据生成的人名词库以及***词库分词并去掉停用词；提取出所有谓词并生词谓词文件；利用谓词文件人工标注出能力词并形成能力词库文件；利用能力词文件、人名词库和***词库分词并去掉停用词，根据正则和规则判断能力、人名之间是不是并列的关系，若是，生成能力和人员对应关系，否，则根据距离计算最近的，然后将生成对应人员能力并存入数据库。本发明能自动从对应能力查找人员，进而大幅度提高了办公效率。

Description

一种从文本中挖掘和定位个人能力的方法

技术领域

本发明属于挖掘和定位个人能力技术领域，涉及一种从文本中挖掘和定位个人能力的方法。

背景技术

现有的技术中，没有一个对人员能力打标签的方法，无法实现自动从文档描述中提取某个人的能力，只能由员工或者人资进行标注，且需要手动输入。对于体量大的公司操作困难。

发明内容

本发明要解决的技术问题是：提供一种从文本中挖掘和定位个人能力的方法，以解决现有技术中存在的问题。

本发明采取的技术方案为：一种从文本中挖掘和定位个人能力的方法，该方法包括以下步骤：

（1）数据入库：通过将文档数据（word为主）以及多封邮件（eml文件）数据入库，将word等文件生成html然后进行爬取入库，邮件数据直接入库；

（2）利用文档数据和邮件数据生成的数据库生成人名词库以及***词（公司的应用***如自动化办公***等）库文件；

（3）根据生成的人名词库以及***词库分词并去掉停用词；

（4）提取出所有谓词（即动词如“推广”、“采购”等）并生词谓词文件；

（5）利用谓词文件人工标注出能力词并形成能力词库文件（便于jieba分词的词库文件，一般为txt文件每个词是一行，每行用空格隔开，一般三个属性，词名、词频、词性）；

（6）利用能力词文件、人名词库以及***词库分词并去掉停用词，分析文档每句话根据正则和规则判断能力、人名之间是不是并列的关系，若是，则生成能力和所有人员对应关系，不是，则根据距离计算最近的，然后将生成对应人员能力并存入数据库。

本发明的有益效果：与现有技术相比，本发明利用已有往来邮件和办公文档生成词库文件便于准确分词，分词后以人名为语义角色结合了web服务提供企业方便查找对用人员的功能，自动从对应能力查找人员，进而大幅度提高了办公效率。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合附图及具体的实施例对本发明进行进一步介绍。

实施例1：如图1所示，一种从文本中挖掘和定位个人能力的方法，该方法包括以下步骤：

（1）数据入库：通过将文档数据（word为主，日常工作中产生的公司发文、技术文件、项目文件、工单、报表、台账等）以及一万多封邮件（eml文件，日常工作中产生的邮件，带有标题、正文、收发件人、时间、附件等信息）数据入库，将word等文件生成html然后进行爬取入库，邮件数据直接入库；

（2）利用文档数据和邮件数据生成的数据库生成人名词库以及***词（公司的应用***如自动化办公***等）库文件（属于初始化数据，因为邮件里面有人员姓名和***名称等）；

（3）根据生成的人名词库以及***词库分词并去掉停用词（自然语言处理一般需要去掉一些无意义的词，然后再做后续处理）；

（4）提取出所有谓词（即动词如“推广”、“采购”等）并生词谓词文件（通过词性标注，训练词性分析模型得到）；

（6）利用能力词文件、人名词库以及***词库分词并去掉停用词，分析文档每句话（通过正则表达式、语义依存树、句法依存树等判断句子成分之间的关系），根据正则和规则判断能力、人名之间是不是并列的关系，若是，则生成能力和所有人员对应关系，不是，则根据距离计算最近的，然后将生成对应人员能力并存入数据库（如：OA***需要张三、李四推广，这种情况会将推广这个能力对应到张三和李四）。

根据企业的交流文档、邮件等内容，先将利用SQLAlchemy将数据入数据库，方便后面分析，利用入库的数据，找出人名、***名生成词库。利用生成的人名和***词库使用jieba可以比较准确的分词，并将谓词生成词库文件（txt自定义词库文件），根据谓词可以通过人工标注或者训练的模型得出能力词，然后将文档和邮件内容，每句话进行分词并使用正则表达式等技术判断多个语义角色和能力之间的修饰关系，最后生成个人、能力以及***的对应关系，便于应用***的使用。

语义依存分析（步骤2-4） (Semantic Dependency Parsing, SDP)，分析句子各个语言单位之间的语义关联，并将语义关联以依存结构呈现。使用语义依存刻画句子语义，好处在于不需要去抽象词汇本身，而是通过词汇所承受的语义框架来描述该词汇，而论元的数目相对词汇来说数量总是少了很多的。现在语义依存基本只存在学术界，本发明借鉴其思想，仅仅判断能力和人名之间的关系，然后生成能力和人的关系。

本发明利用了大量文档、邮件等内容，将数据入库提取作为分析依据。利用人名、***名生成专有词库。利用词库准确分词，利用谓词标注成能力词库。根据人名、***名以及能力词库对文档再进行细分，利用语义依存树关联得出人员、能力和***间的关系。能快速构建企业的人员专业技能，便于利用并查找相关人员。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种从文本中挖掘和定位个人能力的方法，其特征在于：该方法包括以下步骤：

（1）数据入库：通过将文档数据以及多封邮件数据入库；

（2）利用文档数据和邮件数据生成的数据库生成人名词库以及***词库文件；

（3）根据生成的人名词库以及***词库分词并去掉停用词；

（4）提取出所有谓词并生词谓词文件；

（5）利用谓词文件人工标注出能力词并形成能力词库文件；

（6）利用能力词文件、人名词库以及***词库分词并去掉停用词，分析文档每句话，根据正则和规则判断能力、人名之间是不是并列的关系，若是，则生成能力和所有人员对应关系，不是，则根据距离计算最近的，然后将生成对应人员能力并存入数据库。