CN110334177A - 语义相似模型的训练、语义相似识别方法、装置及电子设备 - Google Patents

语义相似模型的训练、语义相似识别方法、装置及电子设备 Download PDF

Info

Publication number
CN110334177A
CN110334177A CN201810215022.8A CN201810215022A CN110334177A CN 110334177 A CN110334177 A CN 110334177A CN 201810215022 A CN201810215022 A CN 201810215022A CN 110334177 A CN110334177 A CN 110334177A
Authority
CN
China
Prior art keywords
data
training
recommending
semantic
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810215022.8A
Other languages
English (en)
Other versions
CN110334177B (zh
Inventor
张建海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810215022.8A priority Critical patent/CN110334177B/zh
Publication of CN110334177A publication Critical patent/CN110334177A/zh
Application granted granted Critical
Publication of CN110334177B publication Critical patent/CN110334177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种语义相似模型的训练、语义相似识别方法、装置及电子设备,其中方法包括:监测用户在键入问题数据后对多个推荐数据的点击行为,并基于点击行为标注所述问题数据与各所述推荐数据之间的关联性,所述推荐数据为从预设的多个知识点数据中选取产生;基于已标注的所述问题数据与各所述推荐数据之间的关联性形成训练数据,并对该训练数据进行相似度训练形成语义相似模型。本发明实施例的方案,可在不依赖人力的情况下,自动进行数据关联性的标注操作,以得到基于用户点击行为的具有更高训练价值的训练数据,从而在节省人力成本的同时,提高训练出的语义相似模型的识别准确率及效率。

Description

语义相似模型的训练、语义相似识别方法、装置及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种语义相似模型的训练、语义相似识别方法、装置及电子设备。
背景技术
在电子商务交易平台的运行过程中,当买家用户遇到某些业务问题,可通过即时通信应用与卖家用户的客服机器人进行交流以寻求解决方案。即时通信应用在接收到买家用户的问题后,可通过客服机器人从对应的通用知识库(也可称为官方知识库)中获取相关的回答内容,以直接回复或者以推荐知识点等方式回复给买家用户。目前,通用知识库包括了大多数通用的买家用户问题及相应的回答内容,但仍然存在与特定应用场景相关的问题、或者没有共性的问题等无法总结到通用知识库中。因此,平台向卖家用户开放了自定义知识库的配置功能,卖家用户可在自定义知识库中根据各自店铺情况自行配置个性化的问题及相应回答内容,以此,在无法通过通用知识库获得相关回答内容时,还可通过自定义知识库获取相关回答内容。
现有从自定义知识库中获取相关回答内容的方式,主要包括基于非监督学习模型或监督学习模型通过学习语义相似性,以从自定义知识库中获得相关回答内容,其中:
在基于非监督学习模型的方式中:一方面,由于语义相似度计算方法主要以词袋特征为基础,无法解决深层语义层面的匹配,因此匹配精度不高;另一方面,虽然可以根据特定应用场景进行特征改进,比如通过语义归一化、多特征融合等,但是,该过程需要大量人工介入,效率较低;
在基于监督学习模型的方式中:虽然其语义相似度计算方法可以解决深层语义层面的匹配,但随着自定义知识库中的数据规模越来越大,此种方式需要大量的人工标注操作,参与的主观因素较多,标注的准确率及效率不高。
发明内容
本发明提供了一种语义相似模型的训练、语义相似识别方法、装置及电子设备,可提高模型训练效率,且提高训练出的模型具有高可用性。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供了一种语义相似模型的训练方法,包括:
监测用户在键入问题数据后对多个推荐数据的点击行为,并基于点击行为标注所述问题数据与各所述推荐数据之间的关联性,所述推荐数据为从预设的多个知识点数据中选取产生;
基于已标注的所述问题数据与各所述推荐数据之间的关联性形成训练数据,并对该训练数据进行相似度训练形成语义相似模型。
第二方面,提供了一种语义相似识别方法,包括:
将用户键入的问题数据与预先设置的知识点数据经语义相似模型进行相似度计算;
识别得到与所述问题数据相关的所述知识点数据。
第三方面,提供了一种语义相似模型的训练装置,包括:
标注模块,用于监测用户在键入问题数据后对多个推荐数据的点击行为,并基于点击行为标注所述问题数据与各所述推荐数据之间的关联性,所述推荐数据为从预设的多个知识点数据中选取产生;
训练模块,用于基于已标注的所述问题数据与各所述推荐数据之间的关联性形成训练数据,并对该训练数据进行相似度训练形成语义相似模型。
第四方面,提供了一种语义相似识别装置,包括:
相似度计算模块,用于将用户键入的问题数据与预先设置的知识点数据经语义相似模型进行相似度计算;
识别模块,用于识别得到与所述问题数据相关的所述知识点数据。
第五方面,提供了一种电子设备,包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于执行所述程序,以用于:
监测用户在键入问题数据后对多个推荐数据的点击行为,并基于点击行为标注所述问题数据与各所述推荐数据之间的关联性,所述推荐数据为从预设的多个知识点数据中选取产生;
基于已标注的所述问题数据与各所述推荐数据之间的关联性形成训练数据,并对该训练数据进行相似度训练形成语义相似模型。
第六方面,提供了另一种电子设备,包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于执行所述程序,以用于:
将用户键入的问题数据与预先设置的知识点数据经语义相似模型进行相似度计算;
识别得到与所述问题数据相关的所述知识点数据。
本发明提供的语义相似模型的训练、语义相似识别方法、装置及电子设备,可通过用户在输入问题数据后对推荐数据的点击行为,将问题数据与推荐数据之间进行关联性标注,并将该些标注的样本数据作为训练数据;然后,基于该些标注的样本数据进行相似性学习以形成语义相似模型。以此,本方案可在不依赖人力的情况下,自动进行数据关联性的标注操作,以得到基于用户点击行为的具有高训练价值的训练数据,从而在节省人力成本的同时,提高训练出的语义相似模型的识别准确率及效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例一的语义相似模型的训练的处理逻辑示意图;
图2为本发明实施例一的语义相似模型的训练方法流程示意图;
图3为本发明实施例一的语义相似模型的训练方法场景示意图;
图4为本发明实施例二的语义相似识别方法流程示意图;
图5为本发明实施例三的语义相似模型的训练装置结构示意图;
图6为本发明实施例四的语义相似识别装置结构示意图;
图7为本发明实施例五的电子设备的结构示意图;
图8为本发明实施例六的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
术语说明:
DSSM:Deep Structured Semantic Model(深度结构语义模型)或,Deep SemanticSimilarity Model(深度语义相似度模型)。
领域:在本实施例中,每个领域可对应一个分类模型,领域可为具体的商品类别,比如手机领域、电脑领域、空调领域等。
场景(业务场景):在本实施例中,可为每个领域中包括的具体描述内容,比如在手机领域中,场景可包括型号、价格、颜色、内存等业务场景。
为了有效解决现有技术中语义相似学习的准确率及相似度识别效率低下的问题,本发明实施例改变了现有技术中,人工标注训练数据进行相似度模型的训练过程,其核心思想在于,在不依赖于人力的情况下通过用户对推荐数据的点击操作自动完成问题数据与推荐数据之间的相关性标注,从而提高相似模型的训练效率以及训练形成的相似模型的识别准确率。一方面,通过确定更具训练价值的训练数据,即通过用户在输入问题数据后对推荐数据的点击行为,将问题数据与推荐数据之间进行关联性标注,并将该些标注的样本数据作为训练数据,然后基于该些标注的样本数据进行相似性学习以形成语义相似模型,以提高模型的可用性。以此,在不依赖人力的情况下,自动进行数据关联性的标注操作,以得到基于用户点击行为的具有高训练价值的训练数据,从而在节省人力成本的同时,提高训练出的语义相似模型的识别准确率及效率。另一方面,可基于通过上述方式训练出的语义相似模型,对待比较的数据(比如用户输入问题与预置知识点)进行语义相似度比较以识别出与问题相关的知识点,可减少无法识别的数据的数量,提高语义相似识别的准确率及效率。
如图1所示,为本发明实施例提供的语义相似模型的训练过程的逻辑架构图,针对图中用于语义相似模型的训练装置10中,首先,可先确定训练数据,比如买家用户通过即时应用向卖家用户咨询某个问题时,基于该问题数据,可从多个知识点数据(比如卖家用户的自定义问题库中预存的知识点)中,通过与问题数据之间的文本相似度等匹配方式选取预定个数的知识点作为推荐数据;然后,可监测用户对该多个推荐数据的点击行为(比如,用户点击某一条最为相关的推荐数据等),根据监测到的用户点击行为对该问题数据与该推荐数据之间进行关联性标注操作,然后可将已标注关联性的问题数据与推荐数据作为训练数据;在确定了训练数据之后,可基于该训练数据进行相似度训练,以形成语义相似模型。在上述训练过程中,首先,在确定训练数据时,可自动进行问题数据与推荐数据之间的关联性标注,可不依赖于人力,以节省人工成本;其次,基于上述用户点击行为而确定的训练数据,可保证该训练数据更有训练价值、更能提高模型的可用性,从而可更好的学习到问题数据与推荐数据之间的相似性,以提高训练出的语义相似模型的识别准确率及效率;再次,基于上述训练出的高准确率且高效率的语义相似模型,对问题数据与推荐数据进行语义相似度比较,可减少无法识别的问题数据的数量,并可准确且高效的找到与问题数据相关的知识点,进而确定与问题数据对应的回答内容以反馈给用户,提升用户体验。
实施例一
参看图2所示,其为本发明实施例示出的语义相似模型的训练方法流程示意图,该方法的执行主体可为图1所示的语义相似模型的训练装置。如图2所示,该语义相似模型的训练方法包括如下步骤:
S210,监测用户在键入问题数据后对多个推荐数据的点击行为,并基于点击行为标注问题数据与各推荐数据之间的关联性,所述推荐数据为从预设的多个知识点数据中选取产生。
在具体实现时,比如买家用户通过即时应用向卖家用户咨询某个问题(比如,用户输入“快递”)时,客服机器人可基于该问题数据从多个知识点数据(比如存在于卖家用户的自定义问题库中,知识点数据可为与问题相关的内容)中,通过文本相似度等匹配方式选取预定个数的知识点作为推荐数据,比如选取3条知识点作为推荐数据,如“1、发什么快递”、“2、能指定快递吗”、“3、顺丰快递”,等等。
在本实施例中,推荐数据比如可包括通用场景数据、领域场景数据、自定义场景数据等。其中,通用场景,比如为发货时间、发什么快递等所有卖家通用的场景;领域场景,比如手机领域可包括内存、屏幕尺寸等场景;自定义场景,可为卖家根据实际需要自己定义的场景,除了通用场景数据基本不变外,领域场景数据及自定义场景数都是会随着卖家业务等实际需要的变化而发生变化。
然后,监测用户对该多个推荐数据(比如上述3个推荐数据)的点击行为(比如,用户点击某一条认为与其问题最为相关的推荐数据,如“1、发什么快递”),可根据监测到的用户点击行为对该问题数据与该条推荐数据(比如,“快递”与“发什么快递”)之间进行关联性标注操作,并可将所有已标注关联性的问题数据与推荐数据确定为训练数据。
另外,在具体实现时,除了上述用户点击某一条最为相关的推荐数据之外,还可能存在如下情况:比如,用户在预定时长内(比如预设为30秒等)未点击多个推荐数据中的任一推荐数据(如点击了用于关闭对话窗口的按钮等),或者用户执行非点击推荐数据的预置操作(如点击了用于转人工服务的按钮等),在上述情况下,也可视为用户产生了点击行为,但此种情况下的点击行为可视为无效点击行为,当监测到类似无效点击行为后可结束本次对用户点击行为的监测,放弃本次训练数据的形成。
根据上述的用户点击行为,可基于该些点击行为对问题数据与各推荐数据之间的关联性进行标注,在本实施例中,具体实现方式可为如下:
可将问题数据与用户点击的推荐数据(比如,“快递”与“发什么快递”)之间标注为彼此关联,比如可标注为label=1;
可将问题数据与用户未点击的推荐数据(比如,“快递”与“能指定快递吗”、“快递”与“顺丰快递”)之间标注为彼此非关联,比如可标注为label=0。
S220,基于已标注的问题数据与各推荐数据之间的关联性形成训练数据,并对该训练数据进行相似度训练形成语义相似模型。
其中,基于已标注的问题数据与各推荐数据之间的关联性形成的训练数据,可包括如下内容:被标注关联性的问题数据、推荐数据以及标注该两个数据是否相关的相关性标识(彼此关联或是彼此非关联)。
在本实施例中,可将上述训练数据中的问题数据以及推荐数据依据对应的相关性标识,采用比如深层结构语义模型(DSSM,Deep Structured Semantic Mode)算法等进行相似度训练,以得到语义相似模型。可替代的,也可采用其他语义相似度算法进行相似度训练,比如卷积神经网络(CNN)、深金字塔匹配模型(Deep Pyramid Match Model)等。
在实际应用中,可将相关性标识为标注数据相关(即彼此关联)的训练数据记为一个正样本,将相关性标识为标注数据非相关(即彼此非关联)的训练数据记为一个负样本,然后针对同一问题数据,可选取该问题数据对应的满足预设比例的正样本和负样本作为训练数据。其中,该预设比例可根据实际需要进行设置,比如正样本与负样本的比例为1:1.5等。因为,在通常情况下,正样本(即相关性标识为标注数据相关的训练数据)会比负样本(即相关性标识为标注数据非相关的训练数据)少很多,两者的分配是不平衡的,由此可将训练数据中正、负样本的数量按比例进行限定以均衡两者的分布,基于该均衡的训练数据进行模型训练,可提高所形成模型的泛化能力。
在本实施例中,训练形成的语义相似模型的结果是问题数据与其关联的推荐数据之间的相似度概率,此后,在采用该训练形成的语义相似模型进行问题数据与知识点数据的语义相似识别时,若输入的任一问题数据与该知识点数据之间的相似度,不小于之前训练结果中确定的与该知识点数据相关的相似度概率,则认为该知识点数据与该问题数据相关,从而可推荐给用户。
本实施例提供的语义相似模型的训练方法,可通过用户在输入问题数据后对推荐数据的点击行为,将问题数据与推荐数据之间进行关联性标注,并将该些标注的样本数据作为训练数据;然后,基于这些标注的样本数据进行相似性学习以形成语义相似模型。以此,本实施例所示方法可在不依赖人力的情况下,自动进行数据关联性的标注操作,以得到基于用户点击行为的具有高训练价值的训练数据,从而在节省人力成本的同时,提高训练出的语义相似模型的识别准确率及效率。
实施例二
如图4所示,其为本发明实施例二的语义相似识别方法流程示意图,该方法的执行主体可为通过图1中语义相似模型的训练方法所训练生成的语义相似模型。如图4所示,该语义相似识别方法包括如下步骤:
S410,将用户键入的问题数据与预先设置的知识点数据经语义相似模型进行相似度计算。
在本实施例中,该语义相似模型,可为通过实施例一中的语义相似模型的训练方法所形成的语义相似模型。
关于实施例一中的语义相似模型的训练方法所对应的处理过程已经在实施例一中进行了详细描述,在此不再赘述。
S420,识别得到与问题数据相关的知识点数据。
其中,上述与问题数据相关的知识点数据,也就是与用户在键入问题数据后针对多个推荐数据所实施的点击行为相关的知识点数据,其中,该推荐数据为从预设的多个知识点数据中选取产生。
此外,我们允许商家对知识点(比如自定义知识库中的知识点)中的指定关键词(比如,“价格”、“退货”等比较重要的关键词)进行增加词权重的设置,比如进行关键词划词等操作,(比如选中某个关键词等),基于用户对某个关键词执行增加权重设置的操作,可以对该关键词进行增加权重的处理,比如可以执行但不局限于将该关键词复制预设倍数,以增加该关键词在知识点数据中所有词中的占比,从而提升指定关键词的相似度匹配率。
本发明实施例的语义相似识别方法,可基于语义相似模型(比如通过实施例一中的方法训练出的语义相似模型),对待比较的数据(比如用户输入问题与预置知识点)进行语义相似度比较以识别出与问题相关的知识点,可减少无法识别的问题数据的数量,提高语义相似识别的准确率及效率。
实施例三
如图5所示,为本发明实施例三的语义相似模型的训练装置结构示意图,该语义相似模型的训练装置可用于执行如图2所示的方法步骤,其可包括:标注模块510及训练模块520,其中:
监测标注模块510,可用于监测用户在键入问题数据后对多个推荐数据的点击行为,并基于点击行为标注问题数据与各推荐数据之间的关联性。
其中,推荐数据可为从预设的多个知识点数据中选取产生,在本实施例中,推荐数据可包括:通用场景数据、行业场景数据和自定义场景数据中的至少一种。
训练模块520,可用于基于已标注的问题数据与各推荐数据之间的关联性形成训练数据,并对该训练数据进行相似度训练形成语义相似模型。
在具体实现时,监测标注模块510,还可用于:如果用户在预定时长内未点击多个推荐数据中的任一推荐数据,或者用户执行非点击推荐数据的预置操作,则结束本次对用户点击行为的监测。
此外,监测标注模块510,可具体用于:
将问题数据与用户点击的推荐数据之间标注为彼此关联;
将问题数据与用户未点击的推荐数据之间标注为彼此非关联。
在实际应用中,训练模块520,可具体用于:
基于已标注的问题数据与各推荐数据之间的关联性形成包括如下内容的训练数据:被标注关联性的所述问题数据、推荐数据以及标注这两个数据是否相关的相关性标识;
将训练数据中问题数据以及推荐数据依据对应的相关性标识经深层结构语义模型进行相似度训练,以得到语义相似模型。
基于此,训练模块520,还可具体用于:
将相关性标识为标注数据相关的训练数据记为一个正样本;
将相关性标识为标注数据非相关的训练数据记为一个负样本;
针对同一问题数据,选取该问题数据对应的正样本和负样本的数量满足预设比例作为训练数据。
本发明实施例的语义相似模型的训练装置,可通过用户在输入问题数据后对推荐数据的点击行为,在问题数据与推荐数据之间进行关联性标注,并将该些标注的样本数据作为训练数据,然后基于这些标注的样本数据进行相似性学习以形成语义相似模型。以此,本实施例所示装置可在不依赖人力的情况下,自动进行数据关联性的标注操作,以得到基于用户点击行为的具有高训练价值的训练数据,从而在节省人力成本的同时,提高训练出的语义相似模型的识别准确率及效率。
实施例四
如图6所示,为本发明实施例四的语义相似识别装置结构示意图,该语义相似识别装置可用于执行如图4所示的方法步骤,其可包括:相似度计算模块610及识别模块620,其中:
相似度计算模块610,可用于将用户键入的问题数据与预先设置的知识点数据经语义相似模型进行相似度计算。
其中,该语义相似模型,可为通过实施例三中的语义相似模型的训练装置所形成的语义相似模型。
识别模块620,可用于识别得到与问题数据相关的知识点数据。
其中,上述与问题数据相关的知识点数据,也就是与用户在键入问题数据后针对多个推荐数据所实施的点击行为相关的知识点数据,其中,所述推荐数据为从预设的多个知识点数据中选取产生。
此外,上述装置还可包括:
权重设置模块,可用于对知识点数据中的指定关键词进行增加词权重的设置,以增加该关键词在知识点数据中的权重。
本发明实施例的语义相似识别装置,可基于语义相似模型(比如通过实施例三中的训练装置训练出的语义相似模型),对待比较的数据(比如用户输入问题与预置知识点)进行语义相似度比较以识别出与问题相关的知识点,可减少无法识别的问题数据的数量,提高语义相似识别的准确率及效率。
实施例五
前面描述了语义相似模型的训练装置的整体架构,该装置的功能可借助一种电子设备实现完成,如图7所示,其为本发明实施例的电子设备的结构示意图,具体包括:存储器710和处理器720。
存储器710,用于存储程序。
除上述程序之外,存储器710还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器710可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器720,耦合至存储器710,用于执行存储器710中的程序,以用于:
监测用户在键入问题数据后对多个推荐数据的点击行为,并基于点击行为标注问题数据与各推荐数据之间的关联性,其中,推荐数据为从预设的多个知识点数据中选取产生;
基于已标注的问题数据与各推荐数据之间的关联性形成训练数据,并对该训练数据进行相似度训练形成语义相似模型。
上述的具体处理操作已经在前面实施例中进行了详细说明,在此不再赘述。
进一步,如图7所示,电子设备还可以包括:通信组件730、电源组件740、音频组件750、显示器760等其它组件。图7中仅示意性给出部分组件,并不意味着电子设备只包括图7所示组件。
通信组件730被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件730经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,通信组件730还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件740,为电子设备的各种组件提供电力。电源组件740可以包括电源管理***,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件750被配置为输出和/或输入音频信号。例如,音频组件750包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器710或经由通信组件730发送。在一些实施例中,音频组件750还包括一个扬声器,用于输出音频信号。
显示器760包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
实施例六
前面描述了语义相似识别装置的整体架构,该装置的功能可借助一种电子设备实现完成,如图8所示,其为本发明实施例的电子设备的结构示意图,具体包括:存储器810和处理器820。
存储器810,用于存储程序。
除上述程序之外,存储器810还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器810可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器820,耦合至存储器810,用于执行存储器810中的程序,以用于:
将用户键入的问题数据与预先设置的知识点数据经语义相似模型进行相似度计算;
识别得到与问题数据相关的知识点数据。
上述的具体处理操作已经在前面实施例中进行了详细说明,在此不再赘述。
进一步,如图8所示,电子设备还可以包括:通信组件830、电源组件840、音频组件850、显示器860等其它组件。图8中仅示意性给出部分组件,并不意味着电子设备只包括图8所示组件。
通信组件830被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件830经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,通信组件830还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件840,为电子设备的各种组件提供电力。电源组件840可以包括电源管理***,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件850被配置为输出和/或输入音频信号。例如,音频组件850包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器810或经由通信组件830发送。在一些实施例中,音频组件850还包括一个扬声器,用于输出音频信号。
显示器860包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (13)

1.一种语义相似模型的训练方法,其特征在于,包括:
监测用户在键入问题数据后对多个推荐数据的点击行为,并基于点击行为标注所述问题数据与各所述推荐数据之间的关联性,所述推荐数据为从预设的多个知识点数据中选取产生;
基于已标注的所述问题数据与各所述推荐数据之间的关联性形成训练数据,并对该训练数据进行相似度训练形成语义相似模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述用户在预定时长内未点击所述多个推荐数据中的任一推荐数据,或者所述用户执行非点击推荐数据的预置操作,则结束本次对用户点击行为的监测。
3.根据权利要求1所述的方法,其特征在于,所述基于点击行为标注所述问题数据与各所述推荐数据之间的关联性,包括:
将所述问题数据与所述用户点击的所述推荐数据之间标注为彼此关联;
将所述问题数据与所述用户未点击的所述推荐数据之间标注为彼此非关联。
4.根据权利要求3所述的方法,其特征在于,所述基于已标注的所述问题数据与各所述推荐数据之间的关联性形成训练数据,并进行相似模型训练,包括:
基于已标注的所述问题数据与各所述推荐数据之间的关联性形成包括如下内容的所述训练数据:被标注关联性的所述问题数据、所述推荐数据以及标注这两个数据是否相关的相关性标识;
将所述训练数据中所述问题数据以及所述推荐数据依据对应的所述相关性标识采用深度语义匹配模型算法进行相似度训练,以得到所述语义相似模型。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将所述相关性标识为标注数据相关的所述训练数据记为一个正样本;
将所述相关性标识为标注数据非相关的所述训练数据记为一个负样本;
针对同一所述问题数据,选取该问题数据对应的满足预设比例的所述正样本和所述负样本作为所述训练数据。
6.根据权利要求1所述的方法,其特征在于,所述推荐数据包括:通用场景数据、领域场景数据和自定义场景数据中的至少一种。
7.一种语义相似识别方法,其特征在于,包括:
将用户键入的问题数据与预先设置的知识点数据经语义相似模型进行相似度计算;
识别得到与所述问题数据相关的所述知识点数据。
8.根据权利要求7所述的方法,其特征在于,所述与所述问题数据相关的所述知识点数据包括:与用户在键入问题数据后针对多个推荐数据所实施的点击行为相关的知识点数据,其中,所述推荐数据为从预设的多个知识点数据中选取产生。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
对所述知识点数据中的指定关键词进行增加词权重的设置,以增加该关键词在所述知识点数据中的权重。
10.一种语义相似模型的训练装置,其特征在于,包括:
监测标注模块,用于监测用户在键入问题数据后对多个推荐数据的点击行为,并基于点击行为标注所述问题数据与各所述推荐数据之间的关联性,所述推荐数据为从预设的多个知识点数据中选取产生;
训练模块,用于基于已标注的所述问题数据与各所述推荐数据之间的关联性形成训练数据,并对该训练数据进行相似度训练形成语义相似模型。
11.一种语义相似识别装置,其特征在于,包括:
相似度计算模块,用于将用户键入的问题数据与预先设置的知识点数据经语义相似模型进行相似度计算;
识别模块,用于识别得到与所述问题数据相关的所述知识点数据。
12.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于执行所述程序,以用于:
监测用户在键入问题数据后对多个推荐数据的点击行为,并基于点击行为标注所述问题数据与各所述推荐数据之间的关联性,所述推荐数据为从预设的多个知识点数据中选取产生;
基于已标注的所述问题数据与各所述推荐数据之间的关联性形成训练数据,并对该训练数据进行相似度训练形成语义相似模型。
13.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于执行所述程序,以用于:
将用户键入的问题数据与预先设置的知识点数据经语义相似模型进行相似度计算;
识别得到与所述问题数据相关的所述知识点数据。
CN201810215022.8A 2018-03-15 2018-03-15 语义相似模型的训练、语义相似识别方法、装置及电子设备 Active CN110334177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810215022.8A CN110334177B (zh) 2018-03-15 2018-03-15 语义相似模型的训练、语义相似识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810215022.8A CN110334177B (zh) 2018-03-15 2018-03-15 语义相似模型的训练、语义相似识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110334177A true CN110334177A (zh) 2019-10-15
CN110334177B CN110334177B (zh) 2023-05-30

Family

ID=68138834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810215022.8A Active CN110334177B (zh) 2018-03-15 2018-03-15 语义相似模型的训练、语义相似识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110334177B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021236323A3 (en) * 2020-05-22 2022-06-30 Microsoft Technology Licensing, Llc Token packing for sequence models

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220380A (zh) * 2017-06-27 2017-09-29 北京百度网讯科技有限公司 基于人工智能的问答推荐方法、装置和计算机设备
CN107609101A (zh) * 2017-09-11 2018-01-19 远光软件股份有限公司 智能交互方法、设备及存储介质
US20180060426A1 (en) * 2016-08-30 2018-03-01 Robert Francis Gluck Systems and methods for issue management

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060426A1 (en) * 2016-08-30 2018-03-01 Robert Francis Gluck Systems and methods for issue management
CN107220380A (zh) * 2017-06-27 2017-09-29 北京百度网讯科技有限公司 基于人工智能的问答推荐方法、装置和计算机设备
CN107609101A (zh) * 2017-09-11 2018-01-19 远光软件股份有限公司 智能交互方法、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石雁等: "基于协同相似计算的查询推荐", 《计算机工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021236323A3 (en) * 2020-05-22 2022-06-30 Microsoft Technology Licensing, Llc Token packing for sequence models
US11928429B2 (en) 2020-05-22 2024-03-12 Microsoft Technology Licensing, Llc Token packing for sequence models

Also Published As

Publication number Publication date
CN110334177B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
US11809829B2 (en) Virtual assistant for generating personalized responses within a communication session
Compeau et al. Research commentary—Generalizability of information systems research using student subjects—A reflection on our practices and recommendations for future research
CN104378441B (zh) 日程创建方法和装置
CN104035995B (zh) 群标签生成方法及装置
CN108596679A (zh) 用户画像的构建方法、装置、终端及计算机可读存储介质
CN108595497B (zh) 数据筛选方法、装置及终端
CN103688521A (zh) 利用上下文在通信设备上呈现内容
US11922443B2 (en) Method for predicting demand using visual schema of product, device therefor and computer program therefor
CN114756122A (zh) 确定用于执行动作的代理的方法、计算设备和存储介质
CN105279672A (zh) 线索推荐
CN110020009A (zh) 在线问答方法、装置及***
CN109543005A (zh) 客服机器人对话状态识别方法及装置、设备、存储介质
CN107230137A (zh) 商品信息获取方法及装置
Feng et al. Intelligent Context‐Aware and Adaptive Interface for Mobile LBS
CN112417121A (zh) 客户意图识别方法、装置、计算机设备及存储介质
CN112508612A (zh) 训练广告创意生成模型、生成广告创意的方法及相关装置
CN111651989A (zh) 命名实体识别方法和装置、存储介质及电子装置
CN108241653A (zh) 数据处理方法及装置
CN114008621A (zh) 确定关于会议中的主题的观察
US20230325944A1 (en) Adaptive wellness collaborative media system
CN109427332A (zh) 使用语音命令执行操作的电子设备及其操作方法
CN108648031A (zh) 产品推荐方法及装置
CN110334177A (zh) 语义相似模型的训练、语义相似识别方法、装置及电子设备
CN111787042A (zh) 用于推送信息的方法和装置
CN111563371B (zh) 一种文本生成的方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant