CN110263341A - 一种从文本中挖掘和定位个人能力的方法 - Google Patents
一种从文本中挖掘和定位个人能力的方法 Download PDFInfo
- Publication number
- CN110263341A CN110263341A CN201910538161.9A CN201910538161A CN110263341A CN 110263341 A CN110263341 A CN 110263341A CN 201910538161 A CN201910538161 A CN 201910538161A CN 110263341 A CN110263341 A CN 110263341A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- file
- name
- ability
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种从文本中挖掘和定位个人能力的方法,该方法包括步骤:将文档数据和邮件数据入数据库;采用数据库生成人名词库以及***词库文件;根据生成的人名词库以及***词库分词并去掉停用词;提取出所有谓词并生词谓词文件;利用谓词文件人工标注出能力词并形成能力词库文件;利用能力词文件、人名词库和***词库分词并去掉停用词,根据正则和规则判断能力、人名之间是不是并列的关系,若是,生成能力和人员对应关系,否,则根据距离计算最近的,然后将生成对应人员能力并存入数据库。本发明能自动从对应能力查找人员,进而大幅度提高了办公效率。
Description
技术领域
本发明属于挖掘和定位个人能力技术领域,涉及一种从文本中挖掘和定位个人能力的方法。
背景技术
现有的技术中,没有一个对人员能力打标签的方法,无法实现自动从文档描述中提取某个人的能力,只能由员工或者人资进行标注,且需要手动输入。对于体量大的公司操作困难。
发明内容
本发明要解决的技术问题是:提供一种从文本中挖掘和定位个人能力的方法,以解决现有技术中存在的问题。
本发明采取的技术方案为:一种从文本中挖掘和定位个人能力的方法,该方法包括以下步骤:
(1)数据入库:通过将文档数据(word为主)以及多封邮件(eml文件)数据入库,将word等文件生成html然后进行爬取入库,邮件数据直接入库;
(2)利用文档数据和邮件数据生成的数据库生成人名词库以及***词(公司的应用***如自动化办公***等)库文件;
(3)根据生成的人名词库以及***词库分词并去掉停用词;
(4)提取出所有谓词(即动词如“推广”、“采购”等)并生词谓词文件;
(5)利用谓词文件人工标注出能力词并形成能力词库文件(便于jieba分词的词库文件,一般为txt文件每个词是一行,每行用空格隔开,一般三个属性,词名、词频、词性);
(6)利用能力词文件、人名词库以及***词库分词并去掉停用词,分析文档每句话根据正则和规则判断能力、人名之间是不是并列的关系,若是,则生成能力和所有人员对应关系,不是,则根据距离计算最近的,然后将生成对应人员能力并存入数据库。
本发明的有益效果:与现有技术相比,本发明利用已有往来邮件和办公文档生成词库文件便于准确分词,分词后以人名为语义角色结合了web服务提供企业方便查找对用人员的功能,自动从对应能力查找人员,进而大幅度提高了办公效率。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图及具体的实施例对本发明进行进一步介绍。
实施例1:如图1所示,一种从文本中挖掘和定位个人能力的方法,该方法包括以下步骤:
(1)数据入库:通过将文档数据(word为主,日常工作中产生的公司发文、技术文件、项目文件、工单、报表、台账等)以及一万多封邮件(eml文件,日常工作中产生的邮件,带有标题、正文、收发件人、时间、附件等信息)数据入库,将word等文件生成html然后进行爬取入库,邮件数据直接入库;
(2)利用文档数据和邮件数据生成的数据库生成人名词库以及***词(公司的应用***如自动化办公***等)库文件(属于初始化数据,因为邮件里面有人员姓名和***名称等);
(3)根据生成的人名词库以及***词库分词并去掉停用词(自然语言处理一般需要去掉一些无意义的词,然后再做后续处理);
(4)提取出所有谓词(即动词如“推广”、“采购”等)并生词谓词文件(通过词性标注,训练词性分析模型得到);
(5)利用谓词文件人工标注出能力词并形成能力词库文件(便于jieba分词的词库文件,一般为txt文件每个词是一行,每行用空格隔开,一般三个属性,词名、词频、词性);
(6)利用能力词文件、人名词库以及***词库分词并去掉停用词,分析文档每句话(通过正则表达式、语义依存树、句法依存树等判断句子成分之间的关系),根据正则和规则判断能力、人名之间是不是并列的关系,若是,则生成能力和所有人员对应关系,不是,则根据距离计算最近的,然后将生成对应人员能力并存入数据库(如:OA***需要张三、李四推广,这种情况会将推广这个能力对应到张三和李四)。
根据企业的交流文档、邮件等内容,先将利用SQLAlchemy将数据入数据库,方便后面分析,利用入库的数据,找出人名、***名生成词库。利用生成的人名和***词库使用jieba可以比较准确的分词,并将谓词生成词库文件(txt自定义词库文件),根据谓词可以通过人工标注或者训练的模型得出能力词,然后将文档和邮件内容,每句话进行分词并使用正则表达式等技术判断多个语义角色和能力之间的修饰关系,最后生成个人、能力以及***的对应关系,便于应用***的使用。
语义依存分析(步骤2-4) (Semantic Dependency Parsing, SDP),分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。 使用语义依存刻画句子语义,好处在于不需要去抽象词汇本身,而是通过词汇所承受的语义框架来描述该词汇,而论元的数目相对词汇来说数量总是少了很多的。现在语义依存基本只存在学术界,本发明借鉴其思想,仅仅判断能力和人名之间的关系,然后生成能力和人的关系。
本发明利用了大量文档、邮件等内容,将数据入库提取作为分析依据。利用人名、***名生成专有词库。利用词库准确分词,利用谓词标注成能力词库。根据人名、***名以及能力词库对文档再进行细分,利用语义依存树关联得出人员、能力和***间的关系。能快速构建企业的人员专业技能,便于利用并查找相关人员。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (1)
1.一种从文本中挖掘和定位个人能力的方法,其特征在于:该方法包括以下步骤:
(1)数据入库:通过将文档数据以及多封邮件数据入库;
(2)利用文档数据和邮件数据生成的数据库生成人名词库以及***词库文件;
(3)根据生成的人名词库以及***词库分词并去掉停用词;
(4)提取出所有谓词并生词谓词文件;
(5)利用谓词文件人工标注出能力词并形成能力词库文件;
(6)利用能力词文件、人名词库以及***词库分词并去掉停用词,分析文档每句话,根据正则和规则判断能力、人名之间是不是并列的关系,若是,则生成能力和所有人员对应关系,不是,则根据距离计算最近的,然后将生成对应人员能力并存入数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910538161.9A CN110263341B (zh) | 2019-06-20 | 2019-06-20 | 一种从文本中挖掘和定位个人能力的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910538161.9A CN110263341B (zh) | 2019-06-20 | 2019-06-20 | 一种从文本中挖掘和定位个人能力的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110263341A true CN110263341A (zh) | 2019-09-20 |
CN110263341B CN110263341B (zh) | 2023-06-20 |
Family
ID=67920064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910538161.9A Active CN110263341B (zh) | 2019-06-20 | 2019-06-20 | 一种从文本中挖掘和定位个人能力的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110263341B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110131213A1 (en) * | 2009-11-30 | 2011-06-02 | Institute For Information Industry | Apparatus and Method for Mining Comment Terms in Documents |
CN109117872A (zh) * | 2018-07-24 | 2019-01-01 | 贵州电网有限责任公司信息中心 | 一种基于自动最优聚类算法的用户用电行为分析方法 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
CN109271626A (zh) * | 2018-08-31 | 2019-01-25 | 北京工业大学 | 文本语义分析方法 |
-
2019
- 2019-06-20 CN CN201910538161.9A patent/CN110263341B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110131213A1 (en) * | 2009-11-30 | 2011-06-02 | Institute For Information Industry | Apparatus and Method for Mining Comment Terms in Documents |
CN109117872A (zh) * | 2018-07-24 | 2019-01-01 | 贵州电网有限责任公司信息中心 | 一种基于自动最优聚类算法的用户用电行为分析方法 |
CN109271626A (zh) * | 2018-08-31 | 2019-01-25 | 北京工业大学 | 文本语义分析方法 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
Non-Patent Citations (2)
Title |
---|
吴方权等: "异构数据转换技术在电力营销客户档案迁移中的研究及应用", 《信息通信》 * |
张辉等: "基于文本挖掘的搭配词典自动架构探讨", 《上海工程技术大学学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110263341B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291687B (zh) | 一种基于依存语义的中文无监督开放式实体关系抽取方法 | |
Saurí et al. | Evita: a robust event recognizer for QA systems | |
CN108763333A (zh) | 一种基于社会媒体的事件图谱构建方法 | |
CN104615724A (zh) | 知识库的建立以及基于知识库的信息搜索方法和装置 | |
CN104281702A (zh) | 基于电力关键词分词的数据检索方法及装置 | |
CN109947921A (zh) | 一种基于自然语言处理的智能问答*** | |
CN105608232A (zh) | 一种基于图形数据库的bug知识建模方法 | |
CN108665141B (zh) | 一种从突发事件预案中自动抽取应急响应流程模型的方法 | |
CN107562919A (zh) | 一种基于信息检索的多索引集成软件构件检索方法及*** | |
Ghosh et al. | Automated generation of er diagram from a given text in natural language | |
Wang et al. | Natural Language Semantic Construction Based on Cloud Database. | |
CN112434129A (zh) | 一种电网调度领域专业语料库生成方法及*** | |
Kessler et al. | Extraction of terminology in the field of construction | |
CN109670045A (zh) | 基于本体模型和多核支持向量机的情感原因抽取方法 | |
Yasavur et al. | Sentiment analysis using dependency trees and named-entities | |
CN110263341A (zh) | 一种从文本中挖掘和定位个人能力的方法 | |
Nguyen et al. | A vietnamese question answering system | |
Li et al. | Opinion mining of camera reviews based on semantic role labeling | |
Mkrtchyan et al. | Deep parsing at the CLEF2014 IE task (DFKI-Medical) | |
CN104281695B (zh) | 基于组合理论的类自然语言的语义信息抽取方法及其*** | |
Di Buono | Information extraction for ontology population tasks. An application to the Italian archaeological domain | |
Shan et al. | Research on deep learning based dispatching fault disposal robot technology | |
Ahmed et al. | Automated Use Case Diagram Generation with Non-functional Requirements using Neural Network | |
Ionov | APiCS-Ligt: Towards semantic enrichment of interlinear glossed text | |
Guo et al. | Research and development of entity extraction based on information extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |