CN117271752A - 一种数据处理方法、装置及电子设备 - Google Patents
一种数据处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN117271752A CN117271752A CN202311536112.4A CN202311536112A CN117271752A CN 117271752 A CN117271752 A CN 117271752A CN 202311536112 A CN202311536112 A CN 202311536112A CN 117271752 A CN117271752 A CN 117271752A
- Authority
- CN
- China
- Prior art keywords
- data
- core
- word
- user
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000011218 segmentation Effects 0.000 claims description 58
- 238000012417 linear regression Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 238000007619 statistical method Methods 0.000 claims description 5
- 238000009795 derivation Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 9
- 238000012216 screening Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000538804 Lethrinus haematopterus Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种数据处理方法、装置及电子设备,本发明中,在接收用户输出的过程中,获取用户输出的用户数据,对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词,然后基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,以输出所述数据完整度和所述数据核心词。通过本发明,在使用智能***与人工交互时,在接收用户输出的过程中,即在人工输出的数据不完整的情况下,就进行数据核心词的分析,相比于用户输出完整数据以及在检测到结束标识后才开始进行数据处理的方式,提前进行数据核心词分析,以提前进行数据处理,缩短了用户等待时间,从而满足用户的实时性要求,提高用户体验。
Description
技术领域
本发明涉及数据处理领域,更具体的说,涉及一种数据处理方法、装置及电子设备。
背景技术
目前,在使用智能***与人工交互过程中,如在与人工智能对话过程中,智能***需要接收到人工输出的完整数据,如完整语音,并在检测到结束标识后,才开始处理用户输出的数据。
上述这种需要接收完整数据以及检测到结束标识后才开始处理的方式,用户等待时间较长,在某些对实时性要求较高的场景,如智能***与人类进行知识竞赛的场景下,无法满足用户的实时性要求,降低用户体验。
发明内容
有鉴于此,本发明提供一种数据处理方法、装置及电子设备,以解决使用智能***与人工交互过程中,实时性较差的问题。
为解决上述技术问题,本发明采用了如下技术方案:
一种数据处理方法,包括:
在接收用户输出的过程中,获取用户输出的用户数据;
对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词;
确定所述用户数据的关键属性信息;
基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,以输出所述数据完整度和所述数据核心词。
可选地,在接收用户输出的过程中,获取用户输出的用户数据,包括:
在接收用户输出的过程中,对持续接收的用户语音进行语音识别操作,得到当前的语音识别结果;
判断所述当前的语音识别结果与上一次的语音识别结果是否相同;
若不同,则将当前的语音识别结果作为用户数据。
可选地,对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词,包括:
对所述用户数据进行依存句法分析,以得到所述用户数据的依存句法树;
基于所述依存句法树,从所述用户数据中提取出基础核心词和用于推导数据核心词的核心提示词;
确定所述核心提示词对应的核心推导词;
将所述基础核心词和核心推导词作为数据核心词。
可选地,基于所述依存句法树,从所述用户数据中提取出基础核心词和用于推导数据核心词的核心提示词,包括:
获取数据核心词库以及核心提示词库;
将所述依存句法树中,存在于所述数据核心词库中的分词结果作为基础核心词,以及将所述依存句法树中,存在于所述核心提示词库中的分词结果作为用于推导数据核心词的核心提示词。
可选地,获取数据核心词库以及核心提示词库,包括:
获取自然语言数据;
基于所述自然语言数据的依存句法树,对所述自然语言数据进行核心词提取操作,得到多个数据核心词,并将所述多个数据核心词组成数据核心词库;
对所述自然语言数据的依存句法树中的分词结果进行相关性统计分析,以得到与所述数据核心词库中的数据核心词对应的核心提示词;
将得到的核心提示词组成核心提示词库。
可选地,确定所述核心提示词对应的核心推导词,包括:
获取预先构建的核心提示词与数据核心词之间的关联关系;
从所述关联关系中查找得到所述用户数据中的核心提示词对应的数据核心词,并作为核心推导词。
可选地,确定所述用户数据的关键属性信息,包括:
统计所述用户数据的数据长度;
确定所述用户数据包括的特定疑问词的分析结果;
获取所述用户数据对应的依存句法树中的最后一个分词结果的词性以及所述分词结果对应的依存边的类型;
将所述数据长度、所述分析结果、所述最后一个分词结果的词性以及所述分词结果对应的依存边的类型,作为所述用户数据的关键属性信息。
可选地,基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,包括:
调用预先训练的线性回归模型对所述关键属性信息以及所述数据核心词进行完整度分析操作,以得到所述用户数据的数据完整度。
一种数据处理装置,包括:
数据获取模块,用于在接收用户输出的过程中,获取用户输出的用户数据;
核心词分析模块,用于对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词;
属性信息确定模块,用于确定所述用户数据的关键属性信息;
完整度分析模块,用于基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,以输出所述数据完整度和所述数据核心词。
一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于执行上述的数据处理方法。
相较于现有技术,本发明具有以下有益效果:
本发明提供了一种数据处理方法、装置及电子设备,本发明中,在接收用户输出的过程中,获取用户输出的用户数据,对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词,然后基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,以输出所述数据完整度和所述数据核心词。通过本发明,在使用智能***与人工交互时,在接收用户输出的过程中,即在人工输出的数据不完整的情况下,就进行数据核心词的分析,相比于用户输出完整数据以及在检测到结束标识后才开始进行数据处理的方式,提前进行数据核心词分析,以提前进行数据处理,缩短了用户等待时间,从而满足用户的实时性要求,提高用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种数据处理方法的方法流程图;
图2为本发明实施例提供的一种确定关键属性信息的方法流程图;
图3为本发明实施例提供的一种得到数据核心词的方法流程图;
图4为本发明实施例提供的一种生成词库的方法流程图;
图5为本发明实施例提供的一种数据处理方法的场景示意图;
图6为本发明实施例提供的一种数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,在使用智能***与人工交互过程中,如在与人工智能对话过程中,数据内容是顺序到来的,智能***需要接收到人工输出的完整数据,如完整语音,并在检测到结束标识后,才开始处理用户输出的数据。具体处理是提取用户输出的数据中的核心词,并基于核心词进行检索,得到检索结果。
其中,结束标识可以是用户输出的“结束”语音,或者是用户输出完整数据后,检测到停顿预设时长后***输出的结束指令。
也即是说,在接收完全部用户数据后再做后续处理,这种方法造成***反馈延迟较长,用户等待时间较长,在某些对实时性要求较高的场景,如智能***与人类进行知识竞赛的场景下,无法满足用户的实时性要求,降低用户体验。
为此,若是能够提前进行数据处理,则能够降低用户等待时间,满足实时性要求,如可以在用户输出数据的过程中,进行用户输出数据的核心词提取,即通过分析部分输出的数据,理解数据完整意图,从而能够提前进行核心词检索,大幅度提早***反馈的时间,以减少得到检索结果的等待时间。
更具体的,本发明提供了一种数据处理方法、装置及电子设备,本发明中,在接收用户输出的过程中,获取用户输出的用户数据,对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词,然后基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,以输出所述数据完整度和所述数据核心词。通过本发明,在使用智能***与人工交互时,在接收用户输出的过程中,即在人工输出的数据不完整的情况下,就进行数据核心词的分析,相比于用户输出完整数据以及在检测到结束标识后才开始进行数据处理的方式,提前进行数据核心词分析,以提前进行数据处理,缩短了用户等待时间,从而满足用户的实时性要求,提高用户体验。
在上述内容的基础上,本发明的一实施例提供了一种数据处理方法,数据处理方法的应用场景为用户输出的数据为疑问句的场景,如用户输出“中国第一个女皇帝是谁?”的语音。并且,本发明中的用户输出的数据一般为语音,具体应用场景可为智能问答等人工智能交互场景,在该场景下,***实时接收用户输出的语音,并进行语音转文字操作,并在转换为文字后,分析核心词,以分析用户意图,实现了用户意图补全。
另外,本发明中的智能***可以是意图识别***,即通过意图识别***实现本发明中的一种数据处理方法。
参照图1,一种数据处理方法可以包括:
S11、在接收用户输出的过程中,获取用户输出的用户数据。
在实际应用中,意图识别***可以安装在手机、平板、电脑等终端上,用户打开该意图识别***,并开始进行人工交互,用户输出语音,如输出“中国第一个女皇帝是谁?”,用户在输出该语音时,是不断输出的,即顺序输出“中国第一个女皇帝是谁?”的语音,所以,意图识别***在接收该语音时,也是顺序接收该语音的,在不断接收该语音的过程中,实时进行语音转文字操作,具体可以调用语音转文字软件实现。随着接收的语音的内容不断增多,则转换的文字的数量也会增多,且由于更加清楚的了解用户输出,能够修正已转成的文字中的错误部分,如在不断接收“中国第一个女皇帝是谁”的语音时,转换的文字为“中国”、“中国第个”、“中国第一个女”、“中国第一个女皇帝”……。
本发明实施例中,是在用户输出语音的过程中,进行用户意图识别和补全,所以,可以在语音转文字过程中,识别出新的语音识别结果时,开始进行意图识别。即将识别出新的语音识别结果作为意图识别的触发条件。
识别出新的语音识别结果,是指当前的语音识别结果与上一次的语音识别结果是否相同,即识别的语音识别结果的文字内容有变化,变化可以是增加和/或修改。增加可以是“中国”更新为“中国第个”,修改可以为“中国第个”更新为“中国第一个”。
在识别出新的语音识别结果之后,将当前的语音识别结果作为用户数据。
即步骤S11可以包括:
在接收用户输出的过程中,对持续接收的用户语音进行语音识别操作,得到当前的语音识别结果,判断所述当前的语音识别结果与上一次的语音识别结果是否相同,若不同,则将当前的语音识别结果作为用户数据。
即本实施例中,是逐字获取到问题的文本信息,例如完整问题=中国第一位女皇帝是谁,则随着时间我们依次获得的部分问题为:中、中国、中国第、中国第一、中国第一位、中国第一位女、中国第一位女皇、中国第一位女皇帝、中国第一位女皇帝是、中国第一位女皇帝是谁。在每一时刻我们都会对当前获取的问题进行句法分析,并分析当前问题是否完整。
S12、对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词。
在实际应用中,数据核心词是指用户数据中的问题关键字,即能够推导出用户提出的问题的意图的主要文字,以“中国第一个女皇帝是谁?”为了,核心词可以为“皇帝”。
本实施例中的,核心词分析操作,可以采用模型实现,模型可以如贝叶斯模型。
贝叶斯模型需要提前进行预训练。预训练过程为:
首先从各个中文CQA(Community-based Question Answering,问答社区)平台抓取自然语言问答数据,以获取大量的自然语言数据,如问:“25号是星期几”,答:“是周二”;问:“小女孩喜欢什么玩具”,答“芭比娃娃”等。
然后人工从中筛选出一部分自然语言数据,如筛选出一千条数据,进行人工标注,人工标注的内容是自然语言数据中的数据核心词,具体筛选哪个词时数据核心词,是人工基于经验进行标注的。
在人工标注过程中、之前或之后,生成每个自然语言数据对应的依存句法树,具体可以调用开源的依存句法树生成算法实现,具体包括分词,依存句法分析等步骤。
人工标注完成后,将自然语言数据对应的标注结果、以及依存句法树,输入到贝叶斯模型中进行训练,得到训练好的贝叶斯模型。
然后将人工未标注的自然语言数据输入到贝叶斯模型中,得到该自然语言数据的数据核心词,这些数据核心词可以如皇帝、岛屿、山峰、事件、国、花、河等,这些数据核心词组成数据核心词库,即建立了海量的数据核心词LAT库。
后续LAT库中的数据核心词,可以作为筛选依据,只要是用户输出的用户数据中,存在于该LAT库中的分词结果,即为筛选出的基础核心词,该基础核心词即为用户数据对应的数据核心词。
另外,数据核心词还可以基于核心提示词推导得到。核心提示词是指用户数据中能够对推导数据核心词有提示作用的词语,如基于用语习惯,一位人物,即“位”可以推导出“人物”,则“位”为“人物”的核心提示词,在用户数据中包括“位”时,可以推导出用户数据的数据核心词为“人物”。
则本实施例中的用户数据对应的数据核心词包括直接筛选得到的基础核心词,也包括基于核心提示词推导得到的核心推导词。
S13、确定所述用户数据的关键属性信息。
本实施例中的关键属性信息是指能够体现用户数据的特征的信息,可以如数据长度、用户数据包括的特定疑问词的分析结果、用户数据的所述最后一个分词结果的词性以及所述分词结果对应的依存边的类型等,具体关键属性信息包括哪些,可以根据实际情况进行配置。
在实际应用中,参照图2,步骤S13可以包括:
S21、统计所述用户数据的数据长度。
其中,数据长度是指用户数据中的文字长度,可以通过统计文字个数实现。
S22、确定所述用户数据包括的特定疑问词的分析结果。
本实施例中的,特定疑问词为预先配置的疑问词,如什么,在哪,几等。由于疑问词的数量有限,所以可以构建疑问词向量,如(什么,在哪,几……),若是用户数据中包括特定疑问词,则将向量中的相应位置1,其余位置零,如,包括“什么”,则疑问词向量为(1,0,0,0,0……)。
用户数据中是否包括特定疑问词,可以基于用户数据对应的依存句法树中的分词结果,判断分词结果中是否包括特定疑问词,从而得到疑问词向量,该疑问词向量即为用户数据包括的特定疑问词的分析结果。
S23、获取所述用户数据对应的依存句法树中的最后一个分词结果的词性以及所述分词结果对应的依存边的类型。
举例来说,依存句法树中包括分词结果Token。用户输出的问题为“中国第一位女皇帝是谁”。分词后各token为:中国、第一、位、女、皇帝、是、谁。其最后一个分词结果为“谁”,词性为宾语,“谁”对应的依存边为““是”->“谁””,依存边的类型为动宾关系。
S24、将所述数据长度、所述分析结果、所述最后一个分词结果的词性以及所述分词结果对应的依存边的类型,作为所述用户数据的关键属性信息。
具体的,直接将数据长度、所述分析结果、所述最后一个分词结果的词性以及所述分词结果对应的依存边的类型进行汇总,得到用户数据的关键属性信息。
需要说明的是,用户数据的关键属性信息除了可以包括特定疑问词的分析结果,还可以包括特定的量词、谓词的分析结果,具体包括哪些词性的词语,可以基于实际场景设定。
S14、基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,以输出所述数据完整度和所述数据核心词。
本实施例中,也可以采用模型实现数据完整度的分析,模型可以如线性回归模型,线性回归模型的输出为数据完整度,如30%,50%,70%等。
线性回归模型也基于训练得到,在训练时,训练数据为完整的自然语言问句,以及对完整的自然语言问句进行切分得到的部分自然语言问句,此时完整的自然语言问句对应的数据完整度为100%,部分自然语言问句对应的数据完整度为不完整的某一程度,如30%,50%,70%等。
针对完整的自然语言问句和部分自然语言问句,采集其关键属性信息以及数据核心词,然后将其输入到线性回归模型中,即可对线性回归模型进行训练,训练完成后,即可调用预先训练的线性回归模型对本实施例中的所述关键属性信息以及所述数据核心词进行完整度分析操作,以得到所述用户数据的数据完整度。
如,用户输出的问题为“中国第一位女皇帝是谁”。分词后各token为:中国、第一、位、女、皇帝、是、谁。其最后一个分词结果为“谁”,词性为宾语,“谁”对应的依存边为““是”->“谁””,依存边的类型为动宾关系。该类型、数据长度等关键属性信息符合中文的问句语法,因此被认为是完整问题。
又如,用户输出的问题为“中国第一位”。分词后各token为:中国、第一、位,此时最后一个分词结果为“位”,依存边为“第一”->“位”,依存类型为偏正关系,不符合句法结构,且基于数据长度等关键属性信息,认为问题不完整,此时根据核心提示词“位”,可以推导出数据核心词为人物。
在得到数据完整度以及数据核心词之后,可以将其输出到检索***,检索***将根据数据完整度以及数据核心词确定是否进行检索,若不需要,则继续等待新的数据完整度以及数据核心词,直至确定可以进行检索后,进行相应检索,并输出检索结果。
本实施例中,在接收用户输出的过程中,获取用户输出的用户数据,对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词,然后基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,以输出所述数据完整度和所述数据核心词。通过本发明,在使用智能***与人工交互时,在接收用户输出的过程中,即在人工输出的数据不完整的情况下,就进行数据核心词的分析,相比于用户输出完整数据以及在检测到结束标识后才开始进行数据处理的方式,提前进行数据核心词分析,以提前进行数据处理,缩短了用户等待时间,从而满足用户的实时性要求,提高用户体验。
另外,本发明中,如果能够通过分析不完整的问句推导问句关键内容,若是认为问题完整,则可以提前(在输入完整语音前),提早以正确的语义理解内容来和用户交互,如果识别用户的问题不完整,则可以避免在当前时刻和用户进行交互而造成语义理解的错误,使得在与用户进行实时交互过程中,明显提升与用户交流效率,在特定场景下(例如和用户进行知识竞赛时),能明显提升和人类选手胜出的比例。
另外,本发明中引入模型进行数据处理,由于模型基于大量的训练数据训练得到,则能够提高模型处理的准确度,从而提高本发明中的意图识别的准确度。
上述实施例提及了核心词分析操作,现对具体实现进行解释说明,具体的,参照图3,步骤S12可以包括:
S31、对所述用户数据进行依存句法分析,以得到所述用户数据的依存句法树。
本步骤中,可以调用开源的依存句法树生成算法实现。
S32、基于所述依存句法树,从所述用户数据中提取出基础核心词和用于推导数据核心词的核心提示词。
本实施例中的基础核心词,是从数据核心词库中筛选得到,核心提示词,是从核心提示词库中筛选得到。
数据核心词库的具体生成过程参照上述相应说明。
核心提示词库的生成过程为:
在基于贝叶斯模型得到数据核心词库之后,使用贝叶斯模型统计各个数据核心词出现的次数,以及与数据核心词同时出现的其他词语的次数,如果与数据核心词同时出现的其他词语的次数较多,占比较大,如某一数据核心词出现了1000次,有900次,同时有一其他词语出现,则认为占比较大。如,“人物”出现了1000次,有900次是与“位”同时出现的,则认为“位”与“人物”是有相关性的,可以将“位”作为核心提示词。
又如,“人物”出现了1000次,有10次是与“中国”同时出现的,占比较小,则认为“位”与“人物”是不相关的,则不将“中国”作为核心提示词。
经过上述的相关性分析,即可得到大量的核心提示词与数据核心词的关联关系,如位=>人物、艘=>船、篇=>作品、条=>河流|街道、首=>歌曲|诗、位于=>地理、上映=>电影、去世=>人物、坐落=>地理、提出=>地理。
其中,关联关系中的前边词语为核心提示词,如“位”、“艘”等,关联关系中的后边词语为数据核心词,如为“人物”、“船”等。
“位”、“艘”等这些核心提示词组成核心提示词库。
在具体实现中,步骤S32可以包括:
1)获取数据核心词库以及核心提示词库。
具体的,参照图4,获取数据核心词库以及核心提示词库的具体实现可以如下:
S41、获取自然语言数据。
S42、基于所述自然语言数据的依存句法树,对所述自然语言数据进行核心词提取操作,得到多个数据核心词,并将所述多个数据核心词组成数据核心词库。
其中,核心词提取操作使用上述的贝叶斯模型实现。
S43、对所述自然语言数据的依存句法树中的分词结果进行相关性统计分析,以得到与所述数据核心词库中的数据核心词对应的核心提示词。
S44、将得到的核心提示词组成核心提示词库。
具体的,可以获取数据核心词库中的数据核心词,然后筛选出包括该数据核心词的依存句法树,使用贝叶斯模型统计该依存句法树中的除了数据核心词之外的每一分词结果与数据核心词同时出现的次数,将次数较大的分词结果作为核心提示词,从而得到核心提示词库。
需要说明的是,数据核心词库以及核心提示词库的具体实现过程参照上述相应说明。
2)将所述依存句法树中,存在于所述数据核心词库中的分词结果作为基础核心词,以及将所述依存句法树中,存在于所述核心提示词库中的分词结果作为用于推导数据核心词的核心提示词。
具体的,依存句法树中包括用户数据的分词结果,若分词结果存在于数据核心词库中,则将其作为基础核心词,若分词结果存在于核心提示词库中,则将其作为用于推导数据核心词的核心提示词。
S33、确定所述核心提示词对应的核心推导词。
具体的,获取预先构建的核心提示词与数据核心词之间的关联关系,从所述关联关系中查找得到所述用户数据中的核心提示词对应的数据核心词,并作为核心推导词。
本实施例中的关联关系可以参照上述相应说明,在获取到关联关系后,直接从关联关系中查找核心提示词对应的数据核心词即可。
如关联关系为:位=>人物,在核心提示词为“位”时,对应的数据核心词为“人物”。
S34、将所述基础核心词和核心推导词作为数据核心词。
直接组合基础核心词和核心推导词,得到数据核心词。
需要说明的是,基于用户数据得到的数据核心词的数量不做限定,可以为一个,也可以为多个。
参照图5,以问题为“被誉为cd之父的是哪位”为例,“誉为”、“哪位”为核心指示词,对应的核心推导词均为“人物”。后续进行检索得到的答案为“大xxx”。
本实施例中,给出了得到所述用户数据对应的数据核心词的具体实现,从而能够基于本实施例中的方法得到数据核心词,以进行后续的完整度分析,以及数据检索操作。
在上述数据处理方法的实施例的基础上,本发明的另一实施例提供了一种数据处理装置,参照图6,可以包括:
数据获取模块11,用于在接收用户输出的过程中,获取用户输出的用户数据;
核心词分析模块12,用于对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词;
属性信息确定模块13,用于确定所述用户数据的关键属性信息;
完整度分析模块14,用于基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,以输出所述数据完整度和所述数据核心词。
进一步,数据获取模块11具体用于:
在接收用户输出的过程中,对持续接收的用户语音进行语音识别操作,得到当前的语音识别结果,判断所述当前的语音识别结果与上一次的语音识别结果是否相同,若不同,则将当前的语音识别结果作为用户数据。
进一步,核心词分析模块12包括:
依存分析子模块,用于对所述用户数据进行依存句法分析,以得到所述用户数据的依存句法树;
提示词提取子模块,用于基于所述依存句法树,从所述用户数据中提取出基础核心词和用于推导数据核心词的核心提示词;
推导词确定子模块,用于确定所述核心提示词对应的核心推导词;
核心词确定子模块,用于将所述基础核心词和核心推导词作为数据核心词。
进一步,提示词提取子模块包括:
数据获取单元,用于获取数据核心词库以及核心提示词库;
词语确定单元,用于将所述依存句法树中,存在于所述数据核心词库中的分词结果作为基础核心词,以及将所述依存句法树中,存在于所述核心提示词库中的分词结果作为用于推导数据核心词的核心提示词。
进一步,数据获取单元包括:
数据获取子单元,用于获取自然语言数据;
第一词库确定子单元,用于基于所述自然语言数据的依存句法树,对所述自然语言数据进行核心词提取操作,得到多个数据核心词,并将所述多个数据核心词组成数据核心词库;
提示词确定子单元,用于对所述自然语言数据的依存句法树中的分词结果进行相关性统计分析,以得到与所述数据核心词库中的数据核心词对应的核心提示词;
第二词库确定子单元,用于将得到的核心提示词组成核心提示词库。
进一步,推导词确定子模块具体用于:
获取预先构建的核心提示词与数据核心词之间的关联关系,从所述关联关系中查找得到所述用户数据中的核心提示词对应的数据核心词,并作为核心推导词。
进一步,属性信息确定模块13包括:
长度统计子模块,用于统计所述用户数据的数据长度;
疑问词分析子模块,用于确定所述用户数据包括的特定疑问词的分析结果;
分词分析子模块,用于获取所述用户数据对应的依存句法树中的最后一个分词结果的词性以及所述分词结果对应的依存边的类型;
属性确定子模块,用于将所述数据长度、所述分析结果、所述最后一个分词结果的词性以及所述分词结果对应的依存边的类型,作为所述用户数据的关键属性信息。
进一步,完整度分析模块14具体用于:
调用预先训练的线性回归模型对所述关键属性信息以及所述数据核心词进行完整度分析操作,以得到所述用户数据的数据完整度。
本实施例中,在接收用户输出的过程中,获取用户输出的用户数据,对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词,然后基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,以输出所述数据完整度和所述数据核心词。通过本发明,在使用智能***与人工交互时,在接收用户输出的过程中,即在人工输出的数据不完整的情况下,就进行数据核心词的分析,相比于用户输出完整数据以及在检测到结束标识后才开始进行数据处理的方式,提前进行数据核心词分析,以提前进行数据处理,缩短了用户等待时间,从而满足用户的实时性要求,提高用户体验。
需要说明的是,本实施例中的各个模块、子模块、单元和子单元的具体工作过程,请参照上述实施例中的相应说明,在此不再赘述。
在上述数据处理方法及装置的实施例的基础上,本发明的另一实施例提供了一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于执行上述的数据处理方法。
具体的,一种数据处理方法,包括:
在接收用户输出的过程中,获取用户输出的用户数据;
对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词;
确定所述用户数据的关键属性信息;
基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,以输出所述数据完整度和所述数据核心词。
进一步,在接收用户输出的过程中,获取用户输出的用户数据,包括:
在接收用户输出的过程中,对持续接收的用户语音进行语音识别操作,得到当前的语音识别结果;
判断所述当前的语音识别结果与上一次的语音识别结果是否相同;
若不同,则将当前的语音识别结果作为用户数据。
进一步,对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词,包括:
对所述用户数据进行依存句法分析,以得到所述用户数据的依存句法树;
基于所述依存句法树,从所述用户数据中提取出基础核心词和用于推导数据核心词的核心提示词;
确定所述核心提示词对应的核心推导词;
将所述基础核心词和核心推导词作为数据核心词。
进一步,基于所述依存句法树,从所述用户数据中提取出基础核心词和用于推导数据核心词的核心提示词,包括:
获取数据核心词库以及核心提示词库;
将所述依存句法树中,存在于所述数据核心词库中的分词结果作为基础核心词,以及将所述依存句法树中,存在于所述核心提示词库中的分词结果作为用于推导数据核心词的核心提示词。
进一步,获取数据核心词库以及核心提示词库,包括:
获取自然语言数据;
基于所述自然语言数据的依存句法树,对所述自然语言数据进行核心词提取操作,得到多个数据核心词,并将所述多个数据核心词组成数据核心词库;
对所述自然语言数据的依存句法树中的分词结果进行相关性统计分析,以得到与所述数据核心词库中的数据核心词对应的核心提示词;
将得到的核心提示词组成核心提示词库。
进一步,确定所述核心提示词对应的核心推导词,包括:
获取预先构建的核心提示词与数据核心词之间的关联关系;
从所述关联关系中查找得到所述用户数据中的核心提示词对应的数据核心词,并作为核心推导词。
进一步,确定所述用户数据的关键属性信息,包括:
统计所述用户数据的数据长度;
确定所述用户数据包括的特定疑问词的分析结果;
获取所述用户数据对应的依存句法树中的最后一个分词结果的词性以及所述分词结果对应的依存边的类型;
将所述数据长度、所述分析结果、所述最后一个分词结果的词性以及所述分词结果对应的依存边的类型,作为所述用户数据的关键属性信息。
进一步,基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,包括:
调用预先训练的线性回归模型对所述关键属性信息以及所述数据核心词进行完整度分析操作,以得到所述用户数据的数据完整度。
本实施例中,在接收用户输出的过程中,获取用户输出的用户数据,对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词,然后基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,以输出所述数据完整度和所述数据核心词。通过本发明,在使用智能***与人工交互时,在接收用户输出的过程中,即在人工输出的数据不完整的情况下,就进行数据核心词的分析,相比于用户输出完整数据以及在检测到结束标识后才开始进行数据处理的方式,提前进行数据核心词分析,以提前进行数据处理,缩短了用户等待时间,从而满足用户的实时性要求,提高用户体验。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
在接收用户输出的过程中,获取用户输出的用户数据;
对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词;
确定所述用户数据的关键属性信息;
基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,以输出所述数据完整度和所述数据核心词。
2.根据权利要求1所述的数据处理方法,其特征在于,在接收用户输出的过程中,获取用户输出的用户数据,包括:
在接收用户输出的过程中,对持续接收的用户语音进行语音识别操作,得到当前的语音识别结果;
判断所述当前的语音识别结果与上一次的语音识别结果是否相同;
若不同,则将当前的语音识别结果作为用户数据。
3.根据权利要求1所述的数据处理方法,其特征在于,对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词,包括:
对所述用户数据进行依存句法分析,以得到所述用户数据的依存句法树;
基于所述依存句法树,从所述用户数据中提取出基础核心词和用于推导数据核心词的核心提示词;
确定所述核心提示词对应的核心推导词;
将所述基础核心词和核心推导词作为数据核心词。
4.根据权利要求3所述的数据处理方法,其特征在于,基于所述依存句法树,从所述用户数据中提取出基础核心词和用于推导数据核心词的核心提示词,包括:
获取数据核心词库以及核心提示词库;
将所述依存句法树中,存在于所述数据核心词库中的分词结果作为基础核心词,以及将所述依存句法树中,存在于所述核心提示词库中的分词结果作为用于推导数据核心词的核心提示词。
5.根据权利要求4所述的数据处理方法,其特征在于,获取数据核心词库以及核心提示词库,包括:
获取自然语言数据;
基于所述自然语言数据的依存句法树,对所述自然语言数据进行核心词提取操作,得到多个数据核心词,并将所述多个数据核心词组成数据核心词库;
对所述自然语言数据的依存句法树中的分词结果进行相关性统计分析,以得到与所述数据核心词库中的数据核心词对应的核心提示词;
将得到的核心提示词组成核心提示词库。
6.根据权利要求3所述的数据处理方法,其特征在于,确定所述核心提示词对应的核心推导词,包括:
获取预先构建的核心提示词与数据核心词之间的关联关系;
从所述关联关系中查找得到所述用户数据中的核心提示词对应的数据核心词,并作为核心推导词。
7.根据权利要求1所述的数据处理方法,其特征在于,确定所述用户数据的关键属性信息,包括:
统计所述用户数据的数据长度;
确定所述用户数据包括的特定疑问词的分析结果;
获取所述用户数据对应的依存句法树中的最后一个分词结果的词性以及所述分词结果对应的依存边的类型;
将所述数据长度、所述分析结果、所述最后一个分词结果的词性以及所述分词结果对应的依存边的类型,作为所述用户数据的关键属性信息。
8.根据权利要求1所述的数据处理方法,其特征在于,基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,包括:
调用预先训练的线性回归模型对所述关键属性信息以及所述数据核心词进行完整度分析操作,以得到所述用户数据的数据完整度。
9.一种数据处理装置,其特征在于,包括:
数据获取模块,用于在接收用户输出的过程中,获取用户输出的用户数据;
核心词分析模块,用于对所述用户数据进行核心词分析操作,以得到所述用户数据对应的数据核心词;
属性信息确定模块,用于确定所述用户数据的关键属性信息;
完整度分析模块,用于基于所述关键属性信息以及所述数据核心词,分析所述用户数据的数据完整度,以输出所述数据完整度和所述数据核心词。
10.一种电子设备,其特征在于,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于执行如权利要求1-8任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311536112.4A CN117271752B (zh) | 2023-11-17 | 2023-11-17 | 一种数据处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311536112.4A CN117271752B (zh) | 2023-11-17 | 2023-11-17 | 一种数据处理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117271752A true CN117271752A (zh) | 2023-12-22 |
CN117271752B CN117271752B (zh) | 2024-02-27 |
Family
ID=89208394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311536112.4A Active CN117271752B (zh) | 2023-11-17 | 2023-11-17 | 一种数据处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117271752B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090228468A1 (en) * | 2008-03-04 | 2009-09-10 | Microsoft Corporation | Using core words to extract key phrases from documents |
CN108009303A (zh) * | 2017-12-30 | 2018-05-08 | 北京百度网讯科技有限公司 | 基于语音识别的搜索方法、装置、电子设备和存储介质 |
CN111708874A (zh) * | 2020-08-24 | 2020-09-25 | 湖南大学 | 基于复杂意图智能识别的人机交互问答方法与*** |
CN111899737A (zh) * | 2020-07-28 | 2020-11-06 | 上海喜日电子科技有限公司 | 音频数据处理方法、装置、服务器及存储介质 |
-
2023
- 2023-11-17 CN CN202311536112.4A patent/CN117271752B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090228468A1 (en) * | 2008-03-04 | 2009-09-10 | Microsoft Corporation | Using core words to extract key phrases from documents |
CN108009303A (zh) * | 2017-12-30 | 2018-05-08 | 北京百度网讯科技有限公司 | 基于语音识别的搜索方法、装置、电子设备和存储介质 |
CN111899737A (zh) * | 2020-07-28 | 2020-11-06 | 上海喜日电子科技有限公司 | 音频数据处理方法、装置、服务器及存储介质 |
CN111708874A (zh) * | 2020-08-24 | 2020-09-25 | 湖南大学 | 基于复杂意图智能识别的人机交互问答方法与*** |
Also Published As
Publication number | Publication date |
---|---|
CN117271752B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111090727B (zh) | 语言转换处理方法、装置及方言语音交互*** | |
CN101326572B (zh) | 具有巨大词汇量的语音识别*** | |
CN104050160B (zh) | 一种机器与人工翻译相融合的口语翻译方法和装置 | |
CN110852086A (zh) | 基于人工智能的古诗词生成方法、装置、设备及存储介质 | |
CN110689877A (zh) | 一种语音结束端点检测方法及装置 | |
CN108538294B (zh) | 一种语音交互方法及装置 | |
CN109119071A (zh) | 一种语音识别模型的训练方法及装置 | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN113157885A (zh) | 一种面向人工智能领域知识的高效智能问答*** | |
CN111681678B (zh) | 自动生成音效并匹配视频的方法、***、装置及存储介质 | |
CN111046148A (zh) | 智能交互***及智能客服机器人 | |
US11263852B2 (en) | Method, electronic device, and computer readable storage medium for creating a vote | |
CN113868394A (zh) | 操作执行方法、装置、电子设备和存储介质 | |
CN117271752B (zh) | 一种数据处理方法、装置及电子设备 | |
CN109885835B (zh) | 一种获取用户语料中词语之间的关联关系的方法和*** | |
CN112735413B (zh) | 一种基于摄像装置的指令分析方法、电子设备和存储介质 | |
CN112380836A (zh) | 一种智能侨情问句生成方法 | |
CN111027308A (zh) | 文本生成方法、***、移动终端及存储介质 | |
CN117690415B (zh) | 音频描述信息生成方法、装置、电子设备及存储介质 | |
CN117453895B (zh) | 一种智能客服应答方法、装置、设备及可读存储介质 | |
CN112820274B (zh) | 一种语音信息识别校正方法和*** | |
CN111681679B (zh) | 视频物体音效搜索匹配方法、***、装置及可读存储介质 | |
CN115440225B (zh) | 一种智能语音处理方法及*** | |
CN117290562A (zh) | 智能外呼方法、装置、设备及存储介质 | |
CN114242063A (zh) | 一种ai虚拟人物语音实时互动方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |