CN105869056A - 信息处理方法和装置 - Google Patents

信息处理方法和装置 Download PDF

Info

Publication number
CN105869056A
CN105869056A CN201610203247.2A CN201610203247A CN105869056A CN 105869056 A CN105869056 A CN 105869056A CN 201610203247 A CN201610203247 A CN 201610203247A CN 105869056 A CN105869056 A CN 105869056A
Authority
CN
China
Prior art keywords
vocabulary
information
technical ability
user
default
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610203247.2A
Other languages
English (en)
Inventor
王斐
吴勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
With Special Care Online (beijing) Technology Co Ltd
Original Assignee
With Special Care Online (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by With Special Care Online (beijing) Technology Co Ltd filed Critical With Special Care Online (beijing) Technology Co Ltd
Priority to CN201610203247.2A priority Critical patent/CN105869056A/zh
Publication of CN105869056A publication Critical patent/CN105869056A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种信息处理方法和装置,该方法从用户已发表的文章信息中获得包含预设词汇的语句信息,再从语句信息中获得技能词汇,将这些技能词汇存储至该用户的列表中,由于目前对发布的文章的严格研究,所以获得的技能词汇是标准的、专业的,不存在现有技术中用户自己填写的五花八门的情况,且用户发布的文章一般都是该用户钻研过的技术,是比较细化的研究方向,所以咨询者可以通过浏览用户的列表来获知向哪个用户咨询问题,从而提高了交流的效率。

Description

信息处理方法和装置
技术领域
本发明实施例涉及通信技术领域,更具体的涉及一种信息处理方法和装置。
背景技术
随着网络的不断发展,越来越多的用户通过学术社交网络来进行学术交流,学术社交网络上对各个用户都进行了分类,但是目前用户很难找到擅长自己需要咨询的技术领域的用户,下面以医学研究方向为例进行说明。
心脏介入手术是一种新型诊断与治疗心血管疾病技术,它包括冠状动脉造影术、PTCA(Percutaneous transluminal coronary angioplasty,经皮冠状动脉腔内血管成形术)+支架术、二尖瓣球囊扩张术、射频消融术、起搏器植入术、先天性心脏病介入治疗、冠状动脉腔内溶栓术。如果一位咨询者想针对冠状动脉腔内溶栓术询问一些细节上的问题,而目前学术社交网络对于研究上述技术的用户都标明心内科,没有细化的研究方向,更没有标明哪些用户掌握并擅长这项技能,咨询者不知道找哪个用户询问这个学术技能,导致学术交流受阻碍,效率极大的降低。有些学术社交网络让用户自己填写擅长的领域或技能,但是不同的用户填写领域或技能的习惯用语都不同,可能同一个技能或领域不同用户填出来的都会五花八门,不利于学术社交网络精确寻找和匹配。
综上,现有技术中学术社交网络上,对各个用户划分的技术领域范围较大,导致用户咨询问题受阻,降低交流效率。
发明内容
为此本发明提供一种信信息处理方法和装置,以解决现有技术中由于学术社交网络上用户的研究领域范围较大而导致咨询者不知道找哪个用户咨询问题,导致交流效率较低的问题。
为实现上述目的,本发明提供如下技术方案:
一种信息处理方法,包括:
从所述用户已发表的文章信息中,获取所述文章信息中包含预设词汇的语句信息,所述文章信息包括论文信息、专利信息、图书信息中的一种或多种;
获取所述语句信息中的技能词汇;
将所述技能词汇存储至所述用户的列表中。
其中,所述获取所述语句信息中的技能词汇包括:
将所述语句信息切分出所有可能的第一词汇;
将所述第一词汇与智能词汇库中的标准技能词汇进行匹配;
从所述第一词汇中获得与所述标准技能词汇相匹配的技能词汇。
优选地,还包括:
从已确定的包含技能词汇的多个语句信息中获得第二词汇;
计算各个所述第二词汇在所述多个语句信息中出现的频率;
获得出现频率大于预设值的第三词汇;
当预设词汇库不包括所述第三词汇时,将所述第三词汇存储至所述预设词汇库,所述预设词汇库存储有所述预设词汇。
其中,所述从已确定的包含技能词汇的多个语句信息中获得第二词汇包括:
将已确定的包含技能词汇的多个语句信息切分出所有可能的第一候选词汇;
依据无用词列表,去除所述第一候选词汇中的无用词汇,获得第二候选词汇;
从所述第二候选词汇的各个词汇中确定出完整词组,获得第二词汇。
优选的=地,还包括:
接收咨询者的咨询信息;
从所述咨询信息中获取咨询技能词汇;
将所述咨询技能词汇与各个用户的列表中的技能词汇相匹配;
获得与所述咨询技能词汇相匹配的技能词汇对应的第一用户,将所述咨询信息发送至所述第一用户,和/或将所述第一用户的信息发送至所述咨询者。
一种信息处理装置,包括:
第一获取模块,用于从所述用户已发表的文章信息中,获取所述文章信息中包含预设词汇的语句信息,所述文章信息包括论文信息、专利信息、图书信息中的一种或多种;
第二获取模块,用于获取所述语句信息中的技能词汇;
第一存储模块,用于将所述技能词汇存储至所述用户的列表中。
其中,所述第二获取模块包括:
第一切分单元,用于将所述语句信息切分出所有可能的第一词汇;
匹配模块,用于将所述第一词汇与智能词汇库中的标准技能词汇进行匹配;
第一获取单元,用于从所述第一词汇中获得与所述标准技能词汇相匹配的技能词汇。
优选的,还包括:
第三获取模块,用于从已确定的包含技能词汇的多个语句信息中获得第二词汇;
计算模块,用于计算各个所述第二词汇在所述多个语句信息中出现的频率;
第四获取模块,用于获得出现频率大于预设值的第三词汇;
第二存储模块,用于当预设词汇库不包括所述第三词汇时,将所述第三词汇存储至所述预设词汇库,所述预设词汇库存储有所述预设词汇。
其中,所述第三获取模块包括:
第二切分单元,用于将已确定的包含技能词汇的多个语句信息切分出所有可能的第一候选词汇;
去除单元,用于依据无用词列表,去除所述第一候选词汇中的无用词汇,获得第二候选词汇;
第二获取单元,用于从所述第二候选词汇的各个词汇中确定出完整词组,获得第二词汇。
优选的,还包括:
接收模块,用于接收咨询者的咨询信息;
第一获取模块,用于从所述咨询信息中获取咨询技能词汇;
匹配模块,用于将所述咨询技能词汇与各个用户的列表中的技能词汇相匹配;
第二获取模块,用于获得与所述咨询技能词汇相匹配的技能词汇对应的第一用户,将所述咨询信息发送至所述第一用户,和/或将所述第一用户的信息发送至所述咨询者。
经由上述的技术方案可知,与现有技术相比,本发明实施例提供的一种信息处理方法,从用户已发表的文章信息中获得包含预设词汇的语句信息,再从语句信息中获得技能词汇,将这些技能词汇存储至该用户的列表中,由于目前对发布的文章具有严格研究,所以获得的技能词汇是标准的、专业的,不存在现有技术中用户自己填写的五花八门的情况,且用户发布的文章一般都是该用户钻研过的技术,是比较细化的研究方向,所以咨询者可以通过浏览用户的列表来获知向哪个用户咨询问题,从而提高了交流的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供一种应用于学术社交网络的信息处理方法的流程示意图;
图2为本发明实施例提供的一种信息处理方法中获取语句信息中的技能词汇的一种实现方式的方法流程示意图;
图3为本发明实施例提供的一种信息处理方法中对预设词汇进行更新的方法的流程示意图;
图4为本发明实施例提供的一种信息处理方法中从已确定的包含技能词汇的多个语句信息中获得第二词汇一种实现方式的方法流程示意图;
图5为本发明实施例提供的一种信息处理方法的另一实现方式的方法流程示意图;
图6为本发明实施例提供的一种信息处理装置的结构示意图;
图7为本发明实施例提供的一种信息处理装置中第二获取模块的结构示意图;
图8为本发明实施例提供的一种信息处理装置中对预设词汇进行更新的装置的结构示意图;
图9为本发明实施例提供的一种信息处理装置中第三获取模块的结构示意图;
图10为本发明实施例提供的一种信息处理装置的另一实现方式的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,为本发明实施例提供一种信息处理方法的流程示意图,该方法包括:
步骤S101:从所述用户已发表的文章信息中,获取所述文章信息中包含预设词汇的语句信息。
所述文章信息包括论文信息、专利信息、图书信息中的一种或多种。
目前对发布的论文、专利、图书要求比较严格,用户在论文、专利或图书中所描述的技能词汇都是标准的、专业的,对于同一个技能词汇不同的用户的描述是相同的,不存在现有技术中在学术社交网络上用户填写的五花八门的情况。具体的,可以从文章信息中的摘要、全文中获得包含预设词汇的语句信息。
用户已发表的文章信息可以是预先存储在数据库中的,该数据库可以包括海内外各个用户已经发表的文章信息,也可以是利用网络爬虫技术从不同网站、不同数据库中获得的。具体的,可以通过该用户的姓名、工作单位等等信息利用网络爬虫技术获取用户已发表的文章。
预设词汇可以是整理者阅读该用户发表的文章,熟悉该用户的描述方式获得的。例如某一用户经常在摘要中Discussion、use、used、using、employed、employ等词汇的后面描述技能词汇,也就是说Discussion、use、used、using、employed、employ这些词汇与技能词汇一般都同时出现,由于技能词汇种类较多,且可能是由多个字或字符组成,在并不确定当前获得的技能词汇是由几个字或字符组成的情况下,直接从文章信息中获得技能词汇,需要服务器具备强大的数据处理能力,而预设词汇一般情况下的字或字符数比较小,且不同的研究人员的预设词汇也比较统一,因此可以先从文章信息中获得包含预设词汇的语句信息。最初的预设词汇是人为整理的,但是在整个方法运行后,可以通过机器学习,对预设词汇进行更新。
由于已知预设词汇,可以利用词汇搜索功能,对文章信息中包含该预设词汇的语句进行定位。在中文中,每一个语句结尾都有“。”,在英文中,每一个语句的结尾都有“.”可以依据上述两个特征,来截取被定位的包含预设词汇的语句信息。
步骤S102:获取所述语句信息中的技能词汇。
可以通过语义分析识别技术获得语句信息中的技能词汇。
步骤S103:将所述技能词汇存储至所述用户的列表中。
上述列表可以是指与用户的博客显示的内容对应的列表,可以是学术社交网络上用户显示的个人主页对应的列表。也可以是每一个用户对应一个数据库,该列表存储在该数据库中。
本发明实施例提供了一种信息处理方法方法,从用户已发表的文章信息中获得包含预设词汇的语句信息,再从语句信息中获得技能词汇,将这些技能词汇存储至该用户的列表中,由于目前对发布的文章的严格研究,所以获得的技能词汇是标准的、专业的,不存在现有技术中用户自己填写的五花八门的情况,且用户发布的文章一般都是该用户钻研过的技术,是比较细化的研究方向,所以咨询者可以通过浏览用户的列表来获知向哪个用户咨询问题,从而提高了交流的效率。
请参阅图2,为本发明实施例提供的一种信息处理方法中获取语句信息中的技能词汇的一种实现方式的方法流程示意图,该方法包括:
步骤S201:将所述语句信息切分出所有可能的第一词汇。
假设预设词汇为Discussion,语句信息为“Discussion radio frequencyablation technique patient’s nursing method.”
该语句信息且分出所有可能的第一词汇如下:
Discussion、radio、frequency、ablation、technique、patient’s、nursing、method、Discussion radio、radio frequency、frequency ablation、ablationtechnique、technique patient’s、patient’s nursing、nursing method、Discussionradio frequency、radio frequency ablation、frequency ablation technique、ablation technique patient’s、technique patient’s nursing、patient’s nursingmethod、Discussion radio frequency ablation、radio frequency ablationtechnique、frequency ablation technique patient’s、ablation technique patient’snursing、technique patient’s nursing method、Discussion radio frequencyablation technique、radio frequency ablation technique patient’s、frequencyablation technique patient’s nursing、ablation technique patient’s nursingmethod、Discussion radio frequency ablation technique patient’s、radiofrequency ablation technique patient’s nursing、frequency ablation techniquepatient’s nursing method、Discussion radio frequency ablation techniquepatient’s nursing、radio frequency ablation technique patient’s nursingmethod、radio frequency ablation technique patient’s nursing method。
由于每个单词或者几个单词的组合都有可能是技能词汇,因此需要将语句信息中切分出所有可能的第一词汇。
步骤S202:将所述第一词汇与智能词汇库中的标准技能词汇进行匹配。
智能词汇库中存储有所有的标准技能词汇,假设智能词汇库中包括radiofrequency ablation technique,将第一词汇与智能词汇库中的标准技术词汇进行匹配,则就会确定出radio frequency ablation technique。
步骤S203:从所述第一词汇中获得与所述标准技能词汇相匹配的技能词汇。
最初的预设词汇是人为整理的,但是在整个方法运行后,可以通过机器学习,对预设词汇进行更新。请参阅图3,为本发明实施例提供的一种信息处理方法中对预设词汇进行更新的方法的流程示意图,该方法包括:
步骤S301:从已确定的包含技能词汇的多个语句信息中获得第二词汇。
由于人为整理预设词汇是整理者阅读用户的多篇文章获得的,其他整理者未阅读的文章中可能也有预设词汇,为了获得这些预设词汇,可以通过分析已知的包含技能词汇的多个语句信息,获得整理者未发现的预设词汇。
可以将多个语句信息切分为所有可能的第二词汇。例如,已经确定射频消融是一个技能词汇,多个语句信息分别包括:研究射频消融疗效;研究射频消融目的;研究射频消融反应;研究射频消融方法。
第二词汇可能包括:“研究”、“研究”、“研究”、“研究”、“疗效”、“目的”、“反应”、“方法”。
步骤S302:计算各个所述第二词汇在所述多个语句信息中出现的频率。
仍以步骤S301中的例子进行说明,可以计算出第二词汇中各个词汇出现的频率,具体的计算方法可以为:该词汇出现的个数/语句信息个数。
P(研究)=4/4=1,P(疗效)=P(目的)=P(反应)=P(方法)=1/4。
P(*)表示*的出现频率。
步骤S303:获得出现频率大于预设值的第三词汇。
预设值可以根据实际情况而定,在上述例子中,预设值可以为3/4,则第三词汇为“研究”。
步骤S304:当预设词汇库不包括所述第三词汇时,将所述第三词汇存储至所述预设词汇库,所述预设词汇库存储有所述预设词汇。
可以理解的是,如果第三预设词汇已经存储在预设词汇库中,则不用再进行存储,如果未存储在预设词汇库中,则需要存储,从而对预设词汇库进行了更新。
请参阅图4,为本发明实施例提供的一种信息处理方法中从已确定的包含技能词汇的多个语句信息中获得第二词汇一种实现方式的方法流程示意图,该方法包括:
步骤S401:将已确定的包含技能词汇的多个语句信息切分出所有可能的第一候选词汇。
可以将多个语句信息切分为所有可能的词汇。例如,已经确定射频消融是一个技能词汇,多个语句信息分别包括:研究射频消融疗效;研究射频消融目的;研究射频消融反应;研究射频消融方法。
将“研究射频消融的疗效”切分为“研、研究、治、的、效、的辽、的疗效、辽、疗效、”等等;将“研究射频消融目的”切分为“研、研究、目、的、目的”;将“研究射频消融反应”切分为“研、研究、反、应、反应”;将“研究射频消融方法”切分为“研、研究、方、法、方法”。
第一候选词汇包括:研、研究、治、的、效、的辽、的疗效、辽、疗效、研、研究、目、的、目的、研、研究、反、应、反应、研、研究、方、法、方法。
步骤S402:依据无用词列表,去除所述第一候选词汇中的无用词汇,获得第二候选词汇。
第一候选词汇中可能包括很多无用词汇,例如英语中的冠词the,代词和介词,中文中的“的、你、我、他、咱、什么”等,可以将这写无用词进行无用词过滤,可以为这无用词建立无用词列表。
依据无用词列表,去除所述第一候选词汇中的无用词汇,可以是将与无用词列表中相匹配的词汇删除。
去除无用词汇后,第二候选词包括:研、研究、治、效、的辽、的疗效、辽、疗效、研、研究、目、目的、研、研究、反、应、反应、研、研究、方、法、方法。
步骤S403:从所述第二候选词汇的各个词汇中确定出完整词组,获得第二词汇。
第二候选词汇中包括单个字或字符组成的词汇、多个字或字符组成的词汇,但是“的辽”、“的疗效”、“研”等等并不是一个词组,那么需要确定第二候选词汇中到底哪些词组是多个字组成的词组,哪些词组是单个字组成的词组。
需要从第二候选词汇获得能够构成词组的第二词汇。可以通过计算第二候选词汇中各个词汇的离散度获得。离散度是指每一个字与其左侧或与其右侧的字能够组成一个词汇的概率。
具体的,可以根据某一个词汇的左邻字或右邻字在所有语句中整体出现的概率,例如,“的疗”,“的”字右侧出现“疗”的概率=“的”字右侧出现“疗”的词汇个数/所有语句个数=1/4,假设离散度阈值为3/4,显然“的疗”不是一个词汇。按照此种方法,可以确定出“研”不是一个词组,从而确定出第二候选词汇中包括的词组有“研究”、“研究”、“研究”、“研究”、“疗效”、“目的”、“反应”、“方法”。
第二词汇包括:“研究”、“研究”、“研究”、“研究”、“疗效”、“目的”、“反应”、“方法”。
请参阅图5,为本发明实施例提供的一种信息处理方法的另一实现方式的方法流程示意图,该方法包括:
步骤S101:从所述用户已发表的文章信息中,获取所述文章信息中包含预设词汇的语句信息。
步骤S102:获取所述语句信息中的技能词汇。
步骤S103:将所述技能词汇存储至所述用户的列表中。
步骤S501:接收咨询者的咨询信息。
咨询者在向用户咨询问题时,往往会对要咨询的问题进行描述,咨询信息可以为对问题的描述信息。
步骤S502:从所述咨询信息中获取咨询技能词汇。
具体的,可以将咨询信息切分成可能的所有词汇,然后在智能词汇库中匹配出咨询技能词汇。也可以通过语义分析识别技术获得咨询信息中的咨询技能词汇。
步骤S503:将所述咨询技能词汇与各个用户的列表中的技能词汇相匹配。
所述列表中的技能词汇是从所述用户已发表的文章信息中获得的。
步骤S504:获得与所述咨询技能词汇相匹配的技能词汇对应的第一用户,将所述咨询信息发送至所述第一用户,或将所述第一用户的信息发送至所述咨询者。
第一用户可能包括多个人,也可以包括一个人。
步骤S101至步骤S103是步骤S501至步骤S504的准备操作,每次执行步骤S501至步骤S504时,不必都执行步骤S101至S103。
请参阅图6,为本发明实施例提供的一种信息处理装置的结构示意图,该装置包括:第一获取模块601、第二获取模块602和第一存储模块603,其中:
第一获取模块601,用于从所述用户已发表的文章信息中,获取所述文章信息中包含预设词汇的语句信息。
所述文章信息包括论文信息、专利信息、图书信息中的一种或多种。
目前对发布的论文、专利、图书要求比较严格,用户在论文、专利或图书中所描述的技能词汇都是标准的、专业的,对于同一个技能词汇不同的用户的描述是相同的,不存在现有技术中在学术社交网络上用户填写的五花八门的情况。具体的,可以从文章信息中的摘要、全文中获得包含预设词汇的语句信息。
用户已发表的文章信息可以是预先存储在数据库中的,该数据库可以包括海内外各个用户已经发表的文章信息,也可以是利用网络爬虫技术从不同网站、不同数据库中获得的。具体的,可以通过该用户的姓名、工作单位等等信息利用网络爬虫技术获取用户已发表的文章。
预设词汇可以是整理者阅读该用户发表的文章,熟悉该用户的描述方式获得的。例如某一用户经常在摘要中Discussion、use、used、using、employed、employ等词汇的后面描述技能词汇,也就是说Discussion、use、used、using、employed、employ这些词汇与技能词汇一般都同时出现,由于技能词汇种类较多,且可能是由多个字或字符组成,在并不确定当前获得的技能词汇是由几个字或字符组成的情况下,直接从文章信息中获得技能词汇,需要服务器具备强大的数据处理能力,而预设词汇一般情况下的字或字符数比较小,且不同的研究人员的预设词汇也比较统一,因此可以先从文章信息中获得包含预设词汇的语句信息。最初的预设词汇是人为整理的,但是在整个方法运行后,可以通过机器学习,对预设词汇进行更新。
由于已知预设词汇,可以利用词汇搜索功能,对文章信息中包含该预设词汇的语句进行定位。在中文中,每一个语句结尾都有“。”,在英文中,每一个语句的结尾都有“.”可以依据上述两个特征,来截取被定位的包含预设词汇的语句信息。
第二获取模块602,用于获取所述语句信息中的技能词汇。
可以通过语义分析识别技术获得语句信息中的技能词汇。
第一存储模块603,用于将所述技能词汇存储至所述用户的列表中。
上述列表可以是指与用户的博客显示的内容对应的列表,可以是学术社交网络上用户显示的个人主页对应的列表。也可以是每一个用户对应一个数据库,该列表存储在该数据库中。
本发明实施例提供了一种信息处理装置,第一获取模块601从用户已发表的文章信息中获得包含预设词汇的语句信息,第二获取模块602再从语句信息中获得技能词汇,第一存储模块603将这些技能词汇存储至该用户的列表中,由于目前发布的文章的严格研究,所以获得的技能词汇是标准的、专业的,不存在现有技术中用户自己填写的五花八门的情况,且用户发布的文章一般都是该用户钻研过的技术,是比较细化的研究方向,所以咨询者可以通过浏览用户的列表来获知向哪个用户咨询问题,从而提高了交流的效率。
请参阅图7,为本发明实施例提供的一种信息处理装置中第二获取模块的结构示意图,该获取模块包括:第一切分单元701、匹配模块702以及第一获取单元703,其中:
第一切分单元701,用于将所述语句信息切分出所有可能的第一词汇。
假设预设词汇为Discussion,语句信息为“Discussion radio frequencyablation technique patient’s nursing method.”
该语句信息且分出所有可能的第一词汇如下:
Discussion、radio、frequency、ablation、technique、patient’s、nursing、method、Discussion radio、radio frequency、frequency ablation、ablationtechnique、technique patient’s、patient’s nursing、nursing method、Discussionradio frequency、radio frequency ablation、frequency ablation technique、ablation technique patient’s、technique patient’s nursing、patient’s nursingmethod、Discussion radio frequency ablation、radio frequency ablationtechnique、frequency ablation technique patient’s、ablation technique patient’snursing、technique patient’s nursing method、Discussion radio frequencyablation technique、radio frequency ablation technique patient’s、frequencyablation technique patient’s nursing、ablation technique patient’s nursingmethod、Discussion radio frequency ablation technique patient’s、radiofrequency ablation technique patient’s nursing、frequency ablation techniquepatient’s nursing method、Discussion radio frequency ablation techniquepatient’s nursing、radio frequency ablation technique patient’s nursingmethod、radio frequency ablation technique patient’s nursing method。
由于每个单词或者几个单词的组合都有可能是技能词汇,因此需要将语句信息中切分出所有可能的第一词汇。
匹配模块702,用于将所述第一词汇与智能词汇库中的标准技能词汇进行匹配。
智能词汇库中存储有所有的标准技能词汇,假设智能词汇库中包括radiofrequency ablation technique,将第一词汇与智能词汇库中的标准技术词汇进行匹配,则就会确定出radio frequency ablation technique。
第一获取单元703,用于从所述第一词汇中获得与所述标准技能词汇相匹配的技能词汇。
最初的预设词汇是人为整理的,但是在整个装置运行一段时间后,可以通过机器学习,对预设词汇进行更新。请参阅图8,为本发明实施例提供的一种信息处理装置中对预设词汇进行更新的装置的结构示意图,该装置包括:第三获取模块801、计算模块802、第四获取模块803以及第二存储模块804,其中:
第三获取模块801,用于从已确定的包含技能词汇的多个语句信息中获得第二词汇。
由于人为整理预设词汇是整理者阅读用户的多篇文章获得的,其他整理者未阅读的文章中可能也有预设词汇,为了获得这些预设词汇,可以通过分析已知的包含技能词汇的多个语句信息,获得整理者未发现的预设词汇。
可以将多个语句信息切分为所有可能的第二词汇。例如,已经确定射频消融是一个技能词汇,多个语句信息分别包括:研究射频消融疗效;研究射频消融目的;研究射频消融反应;研究射频消融方法。
第二词汇可能包括:“研究”、“研究”、“研究”、“研究”、“疗效”、“目的”、“反应”、“方法”。
计算模块802,用于计算各个所述第二词汇在所述多个语句信息中出现的频率。
仍以上述例子进行说明,可以计算出第二词汇中各个词汇出现的频率,具体的计算方法可以为:该词汇出现的个数/语句信息个数。
P(研究)=4/4=1,P(疗效)=P(目的)=P(反应)=P(方法)=1/4。
P(*)表示*的出现频率。
第四获取模块803,用于获得出现频率大于预设值的第三词汇。
预设值可以根据实际情况而定,在上述例子中,预设值可以为3/4,则第三词汇为“研究”。
第二存储模块804,用于当预设词汇库不包括所述第三词汇时,将所述第三词汇存储至所述预设词汇库,所述预设词汇库存储有所述预设词汇。
可以理解的是,如果第三预设词汇已经存储在预设词汇库中,则不用再进行存储,如果未存储在预设词汇库中,则需要存储,从而对预设词汇库进行了更新。
请参阅图9,为本发明实施例提供的一种信息处理装置中第三获取模块的结构示意图,该第三获取模块包括:第二切分单元901、去除单元902和第二获取单元903,其中:
第二切分单元901,用于将已确定的包含技能词汇的多个语句信息切分出所有可能的第一候选词汇。
可以将多个语句信息切分为所有可能的词汇。例如,已经确定射频消融是一个技能词汇,多个语句信息分别包括:研究射频消融疗效;研究射频消融目的;研究射频消融反应;研究射频消融方法。
将“研究射频消融的疗效”切分为“研、研究、治、的、效、的辽、的疗效、辽、疗效、”等等;将“研究射频消融目的”切分为“研、研究、目、的、目的”;将“研究射频消融反应”切分为“研、研究、反、应、反应”;将“研究射频消融方法”切分为“研、研究、方、法、方法”。
第一候选词汇包括:研、研究、治、的、效、的辽、的疗效、辽、疗效、研、研究、目、的、目的、研、研究、反、应、反应、研、研究、方、法、方法。
去除单元902,用于依据无用词列表,去除所述第一候选词汇中的无用词汇,获得第二候选词汇。
第一候选词汇中可能包括很多无用词汇,例如英语中的冠词the,代词和介词,中文中的“的、你、我、他、咱、什么”等,可以将这写无用词进行无用词过滤,可以为这无用词建立无用词列表。
依据无用词列表,去除所述第一候选词汇中的无用词汇,可以是将与无用词列表中相匹配的词汇删除。
去除无用词汇后,第二候选词包括:研、研究、治、效、的辽、的疗效、辽、疗效、研、研究、目、目的、研、研究、反、应、反应、研、研究、方、法、方法。
第二获取单元903,用于从所述第二候选词汇的各个词汇中确定出完整词组,获得第二词汇。
第二候选词汇中包括单个字或字符组成的词汇、多个字或字符组成的词汇,但是“的辽”、“的疗效”、“研”等等并不是一个词组,那么需要确定第二候选词汇中到底哪些词组是多个字组成的词组,哪些词组是单个字组成的词组。
需要从第二候选词汇获得能够构成词组的第二词汇。可以通过计算第二候选词汇中各个词汇的离散度获得。离散度是指每一个字与其左侧或与其右侧的字能够组成一个词汇的概率。
具体的,可以根据某一个词汇的左邻字或右邻字在所有语句中整体出现的概率,例如,“的疗”,“的”字右侧出现“疗”的概率=“的”字右侧出现“疗”的词汇个数/所有语句个数=1/4,假设离散度阈值为3/4,显然“的疗”不是一个词汇。按照此种方法,可以确定出“研”不是一个词组,从而确定出第二候选词汇中包括的词组有“研究”、“研究”、“研究”、“研究”、“疗效”、“目的”、“反应”、“方法”。
第二词汇包括:“研究”、“研究”、“研究”、“研究”、“疗效”、“目的”、“反应”、“方法”。
请参阅图10,为本发明实施例提供的一种信息处理装置的另一实现方式的结构示意图,该装置包括:第一获取模块601、第二获取模块602和第一存储模块603、接收模块1001、第一获取模块1002、匹配模块1003以及第二获取模块1004,其中:
第一获取模块601,用于从所述用户已发表的文章信息中,获取所述文章信息中包含预设词汇的语句信息。
第二获取模块602,用于获取所述语句信息中的技能词汇。
第一存储模块603,用于将所述技能词汇存储至所述用户的列表中。
接收模块1001,用于接收咨询者的咨询信息。
咨询者在向用户咨询问题时,往往会对要咨询的问题进行描述,咨询信息可以为对问题的描述信息。
第一获取模块1002,用于从所述咨询信息中获取咨询技能词汇。
具体的,可以将咨询信息切分成可能的所有词汇,然后在智能词汇库中匹配出咨询技能词汇。也可以通过语义分析识别技术获得咨询信息中的咨询技能词汇。
匹配模块1003,用于将所述咨询技能词汇与各个用户的列表中的技能词汇相匹配,所述列表中的技能词汇是从所述用户已发表的论文中获得的。
所述列表中的技能词汇是从所述用户已发表的文章信息中获得的。具体的过程可以参见信息处理方法装置实施例。
第二获取模块1004,用于获得与所述咨询技能词汇相匹配的技能词汇对应的第一用户,将所述咨询信息发送至所述第一用户,或将所述第一用户的信息发送至所述咨询者。
第一用户可能包括多个人,也可以包括一个人。
第一获取模块601、第二获取模块602、第一存储模块603是第一获取模块1002、匹配模块1003以及第二获取模块1004准备操作,每次触发执行第一获取模块1002、匹配模块1003以及第二获取模块1004时,不必触发执行第一获取模块601、第二获取模块602、第一存储模块603。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种信息处理方法,其特征在于,包括:
从所述用户已发表的文章信息中,获取所述文章信息中包含预设词汇的语句信息,所述文章信息包括论文信息、专利信息、图书信息中的一种或多种;
获取所述语句信息中的技能词汇;
将所述技能词汇存储至所述用户的列表中。
2.根据权利要求1所述信息处理方法,其特征在于,所述获取所述语句信息中的技能词汇包括:
将所述语句信息切分出所有可能的第一词汇;
将所述第一词汇与智能词汇库中的标准技能词汇进行匹配;
从所述第一词汇中获得与所述标准技能词汇相匹配的技能词汇。
3.根据权利要求1或2所述信息处理方法,其特征在于,还包括:
从已确定的包含技能词汇的多个语句信息中获得第二词汇;
计算各个所述第二词汇在所述多个语句信息中出现的频率;
获得出现频率大于预设值的第三词汇;
当预设词汇库不包括所述第三词汇时,将所述第三词汇存储至所述预设词汇库,所述预设词汇库存储有所述预设词汇。
4.根据权利要求3所述信息处理方法,其特征在于,所述从已确定的包含技能词汇的多个语句信息中获得第二词汇包括:
将已确定的包含技能词汇的多个语句信息切分出所有可能的第一候选词汇;
依据无用词列表,去除所述第一候选词汇中的无用词汇,获得第二候选词汇;
从所述第二候选词汇的各个词汇中确定出完整词组,获得第二词汇。
5.根据权利要求1所述信息处理方法,其特征在于,还包括:
接收咨询者的咨询信息;
从所述咨询信息中获取咨询技能词汇;
将所述咨询技能词汇与各个用户的列表中的技能词汇相匹配;
获得与所述咨询技能词汇相匹配的技能词汇对应的第一用户,将所述咨询信息发送至所述第一用户,和/或将所述第一用户的信息发送至所述咨询者。
6.一种信息处理装置,其特征在于,包括:
第一获取模块,用于从所述用户已发表的文章信息中,获取所述文章信息中包含预设词汇的语句信息,所述文章信息包括论文信息、专利信息、图书信息中的一种或多种;
第二获取模块,用于获取所述语句信息中的技能词汇;
第一存储模块,用于将所述技能词汇存储至所述用户的列表中。
7.根据权利要求6所述信息处理方法装置,其特征在于,所述第二获取模块包括:
第一切分单元,用于将所述语句信息切分出所有可能的第一词汇;
匹配模块,用于将所述第一词汇与智能词汇库中的标准技能词汇进行匹配;
第一获取单元,用于从所述第一词汇中获得与所述标准技能词汇相匹配的技能词汇。
8.根据权利要求6或7所述信息处理装置,其特征在于,还包括:
第三获取模块,用于从已确定的包含技能词汇的多个语句信息中获得第二词汇;
计算模块,用于计算各个所述第二词汇在所述多个语句信息中出现的频率;
第四获取模块,用于获得出现频率大于预设值的第三词汇;
第二存储模块,用于当预设词汇库不包括所述第三词汇时,将所述第三词汇存储至所述预设词汇库,所述预设词汇库存储有所述预设词汇。
9.根据权利要求8所述信息处理装置,其特征在于,所述第三获取模块包括:
第二切分单元,用于将已确定的包含技能词汇的多个语句信息切分出所有可能的第一候选词汇;
去除单元,用于依据无用词列表,去除所述第一候选词汇中的无用词汇,获得第二候选词汇;
第二获取单元,用于从所述第二候选词汇的各个词汇中确定出完整词组,获得第二词汇。
10.根据权利要求6所述信息处理装置,其特征在于,还包括:
接收模块,用于接收咨询者的咨询信息;
第一获取模块,用于从所述咨询信息中获取咨询技能词汇;
匹配模块,用于将所述咨询技能词汇与各个用户的列表中的技能词汇相匹配;
第二获取模块,用于获得与所述咨询技能词汇相匹配的技能词汇对应的第一用户,将所述咨询信息发送至所述第一用户,和/或将所述第一用户的信息发送至所述咨询者。
CN201610203247.2A 2016-03-31 2016-03-31 信息处理方法和装置 Pending CN105869056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610203247.2A CN105869056A (zh) 2016-03-31 2016-03-31 信息处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610203247.2A CN105869056A (zh) 2016-03-31 2016-03-31 信息处理方法和装置

Publications (1)

Publication Number Publication Date
CN105869056A true CN105869056A (zh) 2016-08-17

Family

ID=56627868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610203247.2A Pending CN105869056A (zh) 2016-03-31 2016-03-31 信息处理方法和装置

Country Status (1)

Country Link
CN (1) CN105869056A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815313A (zh) * 2018-12-28 2019-05-28 考拉征信服务有限公司 个性化技术调查数据处理方法、装置、设备及存储介质
CN109857753A (zh) * 2018-12-28 2019-06-07 考拉征信服务有限公司 用户数据验证方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404015A (zh) * 2007-10-05 2009-04-08 富士通株式会社 自动生成词条层次
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN103778243A (zh) * 2014-02-11 2014-05-07 北京信息科技大学 一种领域术语抽取方法
CN104376010A (zh) * 2013-08-14 2015-02-25 腾讯科技(深圳)有限公司 用户推荐方法和装置
CN104573009A (zh) * 2015-01-08 2015-04-29 南通大学 一种领域知识库属性扩展的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404015A (zh) * 2007-10-05 2009-04-08 富士通株式会社 自动生成词条层次
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN104376010A (zh) * 2013-08-14 2015-02-25 腾讯科技(深圳)有限公司 用户推荐方法和装置
CN103778243A (zh) * 2014-02-11 2014-05-07 北京信息科技大学 一种领域术语抽取方法
CN104573009A (zh) * 2015-01-08 2015-04-29 南通大学 一种领域知识库属性扩展的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815313A (zh) * 2018-12-28 2019-05-28 考拉征信服务有限公司 个性化技术调查数据处理方法、装置、设备及存储介质
CN109857753A (zh) * 2018-12-28 2019-06-07 考拉征信服务有限公司 用户数据验证方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Fang et al. Word-sentence co-ranking for automatic extractive text summarization
Rautray et al. An evolutionary framework for multi document summarization using Cuckoo search approach: MDSCSA
Wu et al. A study of neural word embeddings for named entity recognition in clinical text
Allahyari et al. Automatic topic labeling using ontology-based topic models
Endert et al. Semantic interaction for sensemaking: inferring analytical reasoning for model steering
Allahyari et al. A knowledge-based topic modeling approach for automatic topic labeling
Zhang et al. Mining domain knowledge on service goals from textual service descriptions
Quamar et al. An ontology-based conversation system for knowledge bases
CN112885478A (zh) 医疗文献的检索方法、装置、电子设备及存储介质
Hughes et al. Detecting trending terms in cybersecurity forum discussions
Lakshmi et al. Association rule extraction from medical transcripts of diabetic patients
Xu et al. Improve biomedical information retrieval using modified learning to rank methods
Roberts et al. A semantic parsing method for mapping clinical questions to logical forms
CN103559675B (zh) 病历录入装置和病历录入方法
Zamsuri et al. Classification of multiple emotions in Indonesian text using the k-nearest neighbor method
Ibrahim et al. Enriching consumer health vocabulary using enhanced GloVe word embedding
Burkhardt et al. Towards identifying drug side effects from social media using active learning and crowd sourcing
CN105869056A (zh) 信息处理方法和装置
Lu et al. Medical knowledge-enhanced prompt learning for diagnosis classification from clinical text
Schlegel et al. Pulsar at mediqa-sum 2023: Large language models augmented by synthetic dialogue convert patient dialogues to medical records
Al-Smadi DeBERTa-BiLSTM: A multi-label classification model of Arabic medical questions using pre-trained models and deep learning
Hakim et al. Corpus development for indonesian consumer-health question answering system
Li et al. TechWatchTool: Innovation and trend monitoring
Xie et al. An improved approach based on dynamic mixed sampling and transfer learning for topic recognition: A case study on online patient reviews
CN110414757A (zh) 一种技术立项风险把控的管理***及管理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160817

WD01 Invention patent application deemed withdrawn after publication