CN107807915B - 基于纠错平台的纠错模型建立方法、装置、设备和介质 - Google Patents

基于纠错平台的纠错模型建立方法、装置、设备和介质 Download PDF

Info

Publication number
CN107807915B
CN107807915B CN201710890348.6A CN201710890348A CN107807915B CN 107807915 B CN107807915 B CN 107807915B CN 201710890348 A CN201710890348 A CN 201710890348A CN 107807915 B CN107807915 B CN 107807915B
Authority
CN
China
Prior art keywords
error correction
user
module
model
requirement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710890348.6A
Other languages
English (en)
Other versions
CN107807915A (zh
Inventor
肖求根
詹金波
周坤胜
郑利群
付志宏
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710890348.6A priority Critical patent/CN107807915B/zh
Publication of CN107807915A publication Critical patent/CN107807915A/zh
Priority to US16/054,966 priority patent/US20190095447A1/en
Application granted granted Critical
Publication of CN107807915B publication Critical patent/CN107807915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Stored Programmes (AREA)

Abstract

本发明实施例公开了一种基于纠错平台的纠错模型建立方法、装置、设备和介质。所述方法包括:根据用户的纠错需求确定目标纠错级别;根据所述目标纠错级别从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,组合形成纠错模型。通过采用上述技术方案,解决了现有技术中纠错模型与网站的耦合度高、无法适配网址各个发展阶段等问题。随着网站的不断发展,有效资源的不断增加,无需重新开发与当前特定应用场景及发展阶段适配的复用平台化纠错方案,实现了快速、简单地依据用户的实际纠错需求定制与网站的特定应用场景和当前发展阶段对应的纠错模型。

Description

基于纠错平台的纠错模型建立方法、装置、设备和介质
技术领域
本发明实施例涉及基于计算机数据处理技术的纠错模型处理技术,尤其涉及一种基于纠错平台的纠错模型建立方法、装置、设备和介质。
背景技术
目前,人工智能技术已经得到了广泛的应用。人工智能(ArtificialIntelligence,AI),它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。
如当用户进行query(查询)检索时,经常会由于疏忽等原因,输入错误的搜索词,比如将“清华大学”输入成“情华大学”,或者输入成“亲华大学”。再比如,可能将“广播大厦”输入成“广播大夏”。这就要求搜索引擎能够对用户输入的错误的搜索词进行识别,并将错误的部分纠正成为用户真正所需要查询的正确的搜索词。
现有技术中在对用户输入文本进行纠错时,一般是对网站或其他可以进行搜索的智能设备单独开发对应的纠错模型。例如,现有技术针对某个初创期网站的商品搜索需求,会单独开发适用于该场景的纠错模型。然而,上述技术存在的缺陷在于:纠错模型与网站的耦合度高,无法适配网站的各个发展阶段。随着网站的不断发展,需重新组织纠错方案,得到与网站对应的专业领域或目前发展阶段,更为适配的纠错模型。因此,现有技术提供的纠错模型可复用性差,无法适配网站的成长和用户数据的积累。
发明内容
本发明实施例提供一种基于纠错平台的纠错模型建立方法、装置、设备和介质,实现了纠错平台可以适用网站或智能设备发展的不同阶段,且纠错效率高,可复用性强。
第一方面,本发明实施例提供了一种基于纠错平台的纠错模型建立方法,包括:
根据用户的纠错需求确定目标纠错级别;
根据所述目标纠错级别从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,组合形成纠错模型。
第二方面,本发明实施例还提供了一种基于纠错平台的纠错模型建立装置,该装置包括:
纠错级别确定模块,用于根据用户的纠错需求确定目标纠错级别;
纠错模型形成模块,用于根据所述目标纠错级别从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,组合形成纠错模型。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的基于纠错平台的纠错模型建立方法。
第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明任意实施例所提供的基于纠错平台的纠错模型建立方法。
本发明实施例提供了一种基于纠错平台的纠错模型建立方法、设备和介质,通过根据用户的纠错需求确定目标纠错级别,可根据目标纠错级别从纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,组合形成与目标纠错级别对应的纠错模型,解决了现有技术中纠错模型与网站的耦合度高、无法适配网址各个发展阶段等问题。通过采用上述技术方案,随着网站的不断发展,有效资源的不断增加,无需重新开发复用平台化纠错方案,实现了快速、简单地依据用户的实际纠错需求定制与网站的特定应用场景和当前发展阶段对应的纠错模型。
附图说明
图1为本发明实施例一提供的一种基于纠错平台的纠错模型建立方法的流程图;
图2为本发明实施例二提供的一种基于纠错平台的纠错模型建立方法的流程图;
图3为本发明实施例三提供的一种基于纠错平台的纠错模型建立方法的流程图;
图4为本发明实施例四提供的一种基于纠错平台的纠错模型建立装置的结构框图;
图5为本发明实施例五提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种基于纠错平台的纠错模型建立方法的流程图,本实施例的方法可以由基于纠错平台的纠错模型建立装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于提供纠错模型建立的服务器中。本实施例的方法具体包括:
110、根据用户的纠错需求确定目标纠错级别。
示例性的,本实施例中的用户优选为不同网站所属的应用方。其中,用户的纠错需求与网站对应的应用场景以及网站的发展阶段相关联,由于处于不同发展阶段的网站会有不同的数据积累,因此,网站发展阶段的等级越高,对应的目标纠错级别越高,纠错的内容越复杂,所以,目标纠错级别决定了纠错的深度。例如,对于某个初创期网站的商品搜索需求,由于网站没有存储任何用户数据,因此,目标纠错级别等级较低,一般通用的纠错模型即可满足用户的纠错需求。而当网站发展到成熟期时,该网站统计有不同用户的行为日志和标注语料,此时,目标纠错级别等级较高,需要与网站成熟期相匹配的纠错模型才可满足用户的纠错需求。
示例性的,在用户提供的纠错需求中可包含有与网站所属应用方相关的多种资源,例如纠错模型对应的定制场景或者与用户相关的历史数据等信息。通过应用方提供的多种资源,也可确定用户的目标纠错级别。例如,若应用方只提供了一些与应用场景相关的语料,例如与公交***相关的公交车语料或与医疗***相关的医院搜索语料等,则目标纠错级别为初级;若应用方提供了一些网站自定义的词典和规则,例如餐饮网站提供了各大菜系的具体菜名,或者娱乐网站提供了自定义的娱乐项目名等资源,则目标纠错级别进入中级,纠错模型需满足定制条件下的纠错需求;对于某个医疗垂直检索而言,若该网站所属应用方还提供了用户搜索行为相关的等具体用户行为数据,则表明目标纠错级别为高级,则需利用具有更高级别纠错能力的纠错模型适配应用场景的纠错需求。
120、根据目标纠错级别从纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,组合形成纠错模型。
示例性的,本实施例中的纠错平台可应用于不同发展阶段网站的搜索引擎中。在纠错平台中集成有至少两个纠错环节,每个纠错环节都包括至少一个纠错模块,用于作为纠错模型建立的基础。其中,纠错环节及其纠错模块的选择根据目标纠错级别而确定。网站的发展阶段不同,选择的纠错环节及其纠错模块也不同。
在本实施例中,根据所述目标纠错级别从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块的过程具体可以为:从用户的纠错需求中确定定制场景,根据目标纠错级别和定制场景从纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块。
本领域技术人员可以理解的是,纠错平台中一般都存在通用的纠错模型。其中,通用纠错模型包含有一些默认的纠错模块,例如归一化模块、语言模型召回模块等。通用纠错模型对日常用语,常用词组等内容的纠错结果较为准确,但是,对于专业领域的专业词组以及某些特定场景下的特有词汇难以进行准确地纠错。因此,本实施例中通过从纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,使得多种纠错策略相互互补,组合形成纠错模型,进而可对通用纠错模型进行修正,以使修正后的纠错模型可以结合用户纠错需求中的定制场景对文本进行正确的纠错处理。
进一步的,在本实施例中,在根据目标纠错级别从纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块之后,还可以从用户的纠错需求中获取用户历史数据,并采用用户历史数据对纠错模块进行训练。
示例性的,用户的历史数据可包括为用户行为日志和标注语料等信息。其中,用户的历史数据可以文本的形式直接提供,也可以是从用户提供的链接地址下载。当用户的纠错需求中包含有用户历史数据,则说明纠错平台的应用网站已经发展到了成熟期。此时,通过采用用户历史数据对纠错模块进行训练,可得到与网站成熟期相适配的深度定制的纠错模型。
本发明实施例提供了一种基于纠错平台的纠错模型建立方法,通过根据用户的纠错需求确定目标纠错级别,可根据目标纠错级别从纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,组合形成纠错模型,解决了现有技术中纠错模型与网站的耦合度高、无法适配网址各个发展阶段等问题。通过采用上述技术方案,随着网站的不断发展,有效资源的不断增加,无需重新开发与当前应用场景及发展阶段适配的复用平台化纠错方案,实现了快速、简单地依据用户的实际纠错需求定制与网站的特定应用场景和当前发展阶段对应的纠错模型。
实施例二
图2为本发明实施例二提供的一种基于纠错平台的纠错模型建立方法的流程图,本实施例以上述实施例为基础进行优化,在本实施例中,将至少两个纠错环节具体化:归一化环节、纠错需求强度判断环节、候选召回环节以及纠错候选打分和生成环节。相应的,从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,具体化为:从纠错平台中的归一化环节中选择归一化模块;从纠错需求强度判断环节中选择策略白名单模块、片段紧密度熵值模块和用户行为决策模块;从候选召回环节中选择语言模型召回模块、双删除法召回模块和对齐片段召回模块;从纠错候选打分和生成环节中选择基础静态纠错模块和有监督模型纠错模块。相应的,本实施例对上述实施例中从用户的纠错需求中确定定制场景,根据目标纠错级别和定制场景从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块的过程进行了细化,如图2所示,本实施例的方法具体包括:
210、根据用户的纠错需求确定目标纠错级别。
220、从用户的纠错需求中获取用户自定义词典和自定义规则。
示例性的,不同的应用场景具有与其相对应的自定义词典和自定义规则。自定义词典和自定义规则可通过纠错平台的应用方以文本的形式来提供。当然,研发人员也可以从一些正确或错误的案例中总结出与用户的纠错需求对应的自定义词典和自定义规则。其中,自定义词典可以是与应用场景相关的一些专有名词信息。例如,对于公交车纠错***而言,用户可提供全国各地所有的公交车名称以及公交站点信息作为自定义词典。
示例性的,自定义规则是用户根据具体的应用场景定制的是否需要进行纠错的特殊情形。例如,对于正文纠错而言,一般正文中引号内的词汇都具有特殊含义,自定义规则即为对引号内的文本信息不进行纠错处理。
230、根据目标纠错级别和用户自定义词典从纠错平台中的候选召回环节中选择语言模型召回模块。
示例性的,若在语音识别***中,若语音识别***将用户输入的某个关键词A识别为其他错误的关键词B时,基于语言模型召回模块,可通过关键词B的同音字召回与关键词A对应的专有名词词典(或自定义词典),进而可以召回用户输入的关键词A。
240、根据目标纠错级别和用户自定义规则从纠错平台中的纠错需求强度判断环节中选择策略白名单模块。
其中,策略白名单模块主要是针对一些不需要纠错的query、如百科词条等专有名词和用户自定义词典。示例性的,当纠错平台对用户输入的文本信息进行纠错时,如识别出文本中存在上述无需纠错的query、如百科词条等专有名词和用户自定义词典时,则将无纠错需求的query、专有名词和用户自定义词典过滤,不进行纠错处理。
250、将语言模型召回模块和策略白名单模块组合形成纠错模型。
需要说明的是,步骤240和步骤230不存在先后顺序,根据目标纠错级别以及用户自定义词典和自定义规则选择的语言模型召回模块和策略白名单模块相组合形成的纠错模型,与定制场景的适配性更高,纠错结果更加准确。
本实施例二在上述实施例的基础上进行了细化,通过将纠错环节和纠错模块具体化,可以简便、快速的定制出与用户的纠错需求相对应的定制场景的纠错模型,而无需重新开发新的纠错策略。进一步地,通过从用户的纠错需求中获取用户自定义词典和自定义规则,可选择语言模型召回模块和策略白名单模块,并将二者相组合形成与用户的具体应用场景对应的纠错模型,提升了纠错效果。
实施例三
图3为本发明实施例三提供的一种基于纠错平台的纠错模型建立方法的流程图,本实施例以上述实施例为基础进行优化,在本实施例中,从用户的纠错需求中获取用户历史数据,并采用用户历史数据对纠错模块进行训练,具体化为:从用户的纠错需求中获取用户历史数据;从用户历史数据中抽取预设特征;将预设特征作为训练参数对用户行为决策模块和有监督模型纠错模块进行训练。
相应的,如图3所示,本实施例的方法具体包括:
310、根据用户的纠错需求确定目标纠错级别。
320、根据目标纠错级别从纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块。
330、从用户的纠错需求中获取用户历史数据。
其中,用户历史数据为可以为用户的行为日志,不同用户的历史数据不同。通过统计用户的历史行为数据,可以拟合用户的错误行为和正确行为。示例性的,对于医院的药品检索***而言,当医生A第一次输入错误的药品名称P,第二次输入改正后的正确的药品名称Q,都可以作为该医生A的用户历史数据。示例性的,若医生A多次出现将药品名称Q输入成药品名称P时,则可从医生A的用户历史数据中挖掘出这一行为***台纠错的依据,使得纠错的结果更加与用户的行为习惯相符,纠错率更高。
进一步的,随着用户数量的增长,可收集不同用户的历史数据,作为后续纠错模型训练的基础。
340、从用户历史数据中抽取预设特征。
其中,预设特征可以包括用户的输入习惯信息,例如对于某一药品Q,用户是否容易将其输入为药品P,或者用户输入序列的合理性,例如是否将“什么shenme”音节输入成“神恶魔shenem”等。
示例性的,可从用户历史数据中抽取针对每个用户的独有行为特征,也可以统计出多个用户的共有行为特征。例如,若大量用户在输入药品名称Q时,都容易输入成错误的药品名称P,则大量用户的这一行为习惯不仅可以作为用户的行为特征,也可以作为该药品检索***在进行纠错时的候选特征信息。
350、将预设特征作为训练参数对用户行为决策模块和有监督模型纠错模块进行训练,得到纠错模型。
示例性的,将与纠错相关的因素参数化,可采用这些参数对用户行为决策模块和有监督模型纠错模块进行训练,得到纠错模型。其中,纠错模型可根据训练参数的不同得到实时的调整。
示例性的,从用户的纠错需求中获取用户历史数据,并采用用户历史数据对所述纠错模块进行训练,还可以包括:
从用户的纠错需求中获取用户历史数据;从用户历史数据中获取标注语料,并采用标注语料对有监督模型纠错模块和对齐片段召回模块进行训练,得到纠错模型。
其中,标注语料是将用户历史数据中用户输入的正确语料和错误语料进行区分后添加对应的标注信息。采用标注语料对有监督模型纠错模块和对齐片段召回模块进行训练后,得到的纠错模型可对用户输入的语料(或行为习惯特征)进行有效的识别。当用户输入错误的语料时,可将最佳的纠错结果返回给用户。
本实施例在上述实施例的基础上进行了优化,通过获取用户历史数据,并从用户历史数据中获取用户的行为日志或标注语料等信息,可作为纠错模型调整依据中很重要的一部分数据。通过从用户行为日志中抽取预设特征作为训练参数,对用户行为决策模块和有监督模型纠错模块进行训练,或采用标注语料对监督模型纠错模块和齐片段召回模块进行训练,可得到符合用户纠错需求的个性化纠错模型。当网站发展到成熟期存储有大量用户数据时,无需重新开发与当前发展阶段对应的新的纠错模型,通过从用户的历史数据中提取出与用户行为习惯相关的特征,并选择对应的纠错模块即可完成对纠错模型的定制,且定制的纠错模型可以适配网址的发展以及用户数据的不断积累,有效提高了纠错模型的准确率和召回率。
实施例四
图4为本发明实施例四提供的一种基于纠错平台的纠错模型建立装置的结构框图。如图4所示,所述装置包括:纠错级别确定模块410和纠错模型形成模块420。
其中,纠错级别确定模块410,用于根据用户的纠错需求确定目标纠错级别;纠错模型形成模块420,用于根据所述目标纠错级别从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,组合形成纠错模型。
本发明实施例提供了一种基于纠错平台的纠错模型建立装置,通过根据用户的纠错需求确定目标纠错级别,可根据目标纠错级别从纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,组合形成纠错模型,解决了现有技术中纠错模型与网站的耦合度高、无法适配网址各个发展阶段等问题。通过采用上述技术方案,随着网站的不断发展,有效资源的不断增加,无需重新开发与当前应用场景及发展阶段适配的复用平台化纠错方案,实现了快速、简单地依据用户的实际纠错需求组合出与网站的特定应用场景和当前发展阶段对应的纠错模型。
在上述实施例的基础上,所述纠错模型形成模块420包括:
定制场景确定单元,用于从所述用户的纠错需求中确定定制场景;
纠错模块选择单元,用于根据所述目标纠错级别和所述定制场景从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块。
在上述实施例的基础上,该装置还包括:
训练模块,用于在根据所述目标纠错级别从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块之后,从所述用户的纠错需求中获取用户历史数据,并采用所述用户历史数据对所述纠错模块进行训练。
在上述实施例的基础上,所述至少两个纠错环节包括:归一化环节、纠错需求强度判断环节、候选召回环节以及纠错候选打分和生成环节。
在上述实施例的基础上,所述纠错模型形成模块420具体用于:从所述纠错平台中的所述归一化环节中选择归一化模块;从所述纠错需求强度判断环节中选择策略白名单模块、片段紧密度熵值模块和用户行为决策模块;从所述候选召回环节中选择语言模型召回模块、双删除法召回模块和对齐片段召回模块;从所述纠错候选打分和生成环节中选择基础静态纠错模块和有监督模型纠错模块。
在上述实施例的基础上,所述纠错模型形成模块420具体用于:
从所述用户的纠错需求中获取用户自定义词典和自定义规则;
根据所述目标纠错级别和所述用户自定义词典从所述纠错平台中的所述候选召回环节中选择所述语言模型召回模块;
根据所述目标纠错级别和所述用户自定义规则从所述纠错平台中的所述纠错需求强度判断环节中选择所述策略白名单模块。
在上述实施例的基础上,所述训练模块,具体用于从所述用户的纠错需求中获取用户历史数据;
从所述用户历史数据中抽取预设特征;
将所述预设特征作为训练参数对所述用户行为决策模块和有监督模型纠错模块进行训练。
在上述实施例的基础上,所述训练模块,具体用于从所述用户的纠错需求中获取用户历史数据;
从所述用户历史数据中获取标注语料,并采用所述标注语料对所述有监督模型纠错模块和所述对齐片段召回模块进行训练。
本发明实施例所提供的基于纠错平台的纠错模型建立装置可执行本发明任意实施例所提供的基于纠错平台的纠错模型建立方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性设备12的框图。图5显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的基于纠错平台的纠错模型建立方法。
实施例六
本发明实施例六还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明任意实施例所提供的基于纠错平台的纠错模型建立方法,所述基于纠错平台的纠错模型建立方法包括:
根据用户的纠错需求确定目标纠错级别;
根据所述目标纠错级别从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,组合形成纠错模型。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种基于纠错平台的纠错模型建立方法,其特征在于,包括:
根据用户的纠错需求确定目标纠错级别;其中,目标纠错级别用于决定纠错深度;
根据所述目标纠错级别从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,组合形成纠错模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标纠错级别从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,包括:
从所述用户的纠错需求中确定定制场景,根据所述目标纠错级别和所述定制场景从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标纠错级别从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块之后,还包括:
从所述用户的纠错需求中获取用户历史数据,并采用所述用户历史数据对所述纠错模块进行训练。
4.根据权利要求1所述的方法,其特征在于,所述至少两个纠错环节包括:归一化环节、纠错需求强度判断环节、候选召回环节以及纠错候选打分和生成环节。
5.根据权利要求4所述的方法,其特征在于,所述从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,包括:
从所述纠错平台中的所述归一化环节中选择归一化模块;
从所述纠错需求强度判断环节中选择策略白名单模块、片段紧密度熵值模块和用户行为决策模块;
从所述候选召回环节中选择语言模型召回模块、双删除法召回模块和对齐片段召回模块;
从所述纠错候选打分和生成环节中选择基础静态纠错模块和有监督模型纠错模块。
6.根据权利要求5所述的方法,其特征在于,所述从所述用户的纠错需求中确定定制场景,根据所述目标纠错级别和所述定制场景从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,包括:
从所述用户的纠错需求中获取用户自定义词典和自定义规则;
根据所述目标纠错级别和所述用户自定义词典从所述纠错平台中的所述候选召回环节中选择所述语言模型召回模块;
根据所述目标纠错级别和所述用户自定义规则从所述纠错平台中的所述纠错需求强度判断环节中选择所述策略白名单模块。
7.根据权利要求5所述的方法,其特征在于,所述从所述用户的纠错需求中获取用户历史数据,并采用所述用户历史数据对所述纠错模块进行训练,包括:
从所述用户的纠错需求中获取用户历史数据;
从所述用户历史数据中抽取预设特征;
将所述预设特征作为训练参数对所述用户行为决策模块和所述有监督模型纠错模块进行训练。
8.根据权利要求5所述的方法,其特征在于,所述从所述用户的纠错需求中获取用户历史数据,并采用所述用户历史数据对所述纠错模块进行训练,包括:
从所述用户的纠错需求中获取用户历史数据;
从所述用户历史数据中获取标注语料,并采用所述标注语料对所述监督模型纠错模块和所述齐片段召回模块进行训练。
9.一种基于纠错平台的纠错模型建立装置,其特征在于,包括:
纠错级别确定模块,用于根据用户的纠错需求确定目标纠错级别;其中,目标纠错级别用于决定纠错深度;
纠错模型形成模块,用于根据所述目标纠错级别从所述纠错平台中的至少两个纠错环节中各自选择至少一个纠错模块,组合形成纠错模型。
10.一种电子设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的基于纠错平台的纠错模型建立方法。
11.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的基于纠错平台的纠错模型建立方法。
CN201710890348.6A 2017-09-27 2017-09-27 基于纠错平台的纠错模型建立方法、装置、设备和介质 Active CN107807915B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710890348.6A CN107807915B (zh) 2017-09-27 2017-09-27 基于纠错平台的纠错模型建立方法、装置、设备和介质
US16/054,966 US20190095447A1 (en) 2017-09-27 2018-08-03 Method, apparatus, device and storage medium for establishing error correction model based on error correction platform

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710890348.6A CN107807915B (zh) 2017-09-27 2017-09-27 基于纠错平台的纠错模型建立方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN107807915A CN107807915A (zh) 2018-03-16
CN107807915B true CN107807915B (zh) 2021-03-09

Family

ID=61591754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710890348.6A Active CN107807915B (zh) 2017-09-27 2017-09-27 基于纠错平台的纠错模型建立方法、装置、设备和介质

Country Status (2)

Country Link
US (1) US20190095447A1 (zh)
CN (1) CN107807915B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929504B (zh) * 2018-09-20 2023-05-30 阿里巴巴集团控股有限公司 语句诊断方法、装置和***
CN111767709A (zh) * 2019-03-27 2020-10-13 武汉慧人信息科技有限公司 一种对英文文本进行纠错及句法分析的逻辑方法
CN112597754B (zh) * 2020-12-23 2023-11-21 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备和可读存储介质
CN114692639A (zh) * 2020-12-25 2022-07-01 华为技术有限公司 一种文本纠错方法和电子设备
CN113779970B (zh) * 2021-09-24 2023-05-23 北京字跳网络技术有限公司 一种文本纠错方法、装置、设备和计算机可读存储介质
CN116682482B (zh) * 2023-05-24 2024-02-23 珠海妙存科技有限公司 Nand闪存质量分级方法、nand闪存质量分级装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350004A (zh) * 2008-09-11 2009-01-21 北京搜狗科技发展有限公司 形成个性化纠错模型的方法及个性化纠错的输入法***
CN105320748A (zh) * 2015-09-29 2016-02-10 陈飞 一种匹配用户的主观标准的检索方法与检索***
CN106095778A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 搜索引擎的中文搜索词自动纠错方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350040A (zh) * 2008-08-25 2009-01-21 重庆大学 一种新颖分子结构表征方法的设计及应用
US10176168B2 (en) * 2011-11-15 2019-01-08 Microsoft Technology Licensing, Llc Statistical machine translation based search query spelling correction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350004A (zh) * 2008-09-11 2009-01-21 北京搜狗科技发展有限公司 形成个性化纠错模型的方法及个性化纠错的输入法***
CN105320748A (zh) * 2015-09-29 2016-02-10 陈飞 一种匹配用户的主观标准的检索方法与检索***
CN106095778A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 搜索引擎的中文搜索词自动纠错方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
【技术烧脑文】基于语义关联的中文查询纠错框架;yuekuiyang;《腾讯技术工程》;20160620;第1-10页 *

Also Published As

Publication number Publication date
US20190095447A1 (en) 2019-03-28
CN107807915A (zh) 2018-03-16

Similar Documents

Publication Publication Date Title
CN107807915B (zh) 基于纠错平台的纠错模型建立方法、装置、设备和介质
US10402433B2 (en) Method and apparatus for recommending answer to question based on artificial intelligence
US10311146B2 (en) Machine translation method for performing translation between languages
US9373075B2 (en) Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation
US9471874B2 (en) Mining forums for solutions to questions and scoring candidate answers
US9558263B2 (en) Identifying and displaying relationships between candidate answers
US20190392066A1 (en) Semantic Analysis-Based Query Result Retrieval for Natural Language Procedural Queries
CN111898643B (zh) 一种语义匹配方法及装置
US10810215B2 (en) Supporting evidence retrieval for complex answers
CN110276071B (zh) 一种文本匹配方法、装置、计算机设备及存储介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
CN112131881B (zh) 信息抽取方法及装置、电子设备、存储介质
CN111310440A (zh) 文本的纠错方法、装置和***
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
KR20200014047A (ko) 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
CN117787290A (zh) 基于知识图谱的绘图提示方法和装置
US9946765B2 (en) Building a domain knowledge and term identity using crowd sourcing
CN111199148B (zh) 文本相似度确定方法、装置、存储介质和电子设备
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
CN113571196A (zh) 构建医疗训练样本的方法及装置、医疗文本的检索方法
US11087084B2 (en) Confidence models based on error-to-correction mapping
CN117094283B (zh) 文本处理方法、装置、电子设备、存储介质和程序产品
CN112733492B (zh) 基于知识库的辅助设计方法、装置、终端和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant