WO2018157805A1 - 一种自动问答处理方法及自动问答*** - Google Patents

一种自动问答处理方法及自动问答*** Download PDF

Info

Publication number
WO2018157805A1
WO2018157805A1 PCT/CN2018/077488 CN2018077488W WO2018157805A1 WO 2018157805 A1 WO2018157805 A1 WO 2018157805A1 CN 2018077488 W CN2018077488 W CN 2018077488W WO 2018157805 A1 WO2018157805 A1 WO 2018157805A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
question text
text
question
candidate
Prior art date
Application number
PCT/CN2018/077488
Other languages
English (en)
French (fr)
Inventor
甘骏
苏可
饶孟良
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Publication of WO2018157805A1 publication Critical patent/WO2018157805A1/zh
Priority to US16/387,365 priority Critical patent/US11086912B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present invention relates to the field of data processing, and in particular, to an automatic question answer processing method and an automatic question answering system.
  • the automatic question answering system (English: Question-Answer system; referred to as QA system) is the current research hotspot.
  • the current automatic question answering system is mainly based on the retrieval method. Specifically, after collecting a large number of problem-answer data pairs, the system performs word segmentation on the problem texts and establishes the words obtained after the word segmentation process.
  • the index pairs between the problem texts are stored in the database.
  • the system receives the target problem, the problem text that best matches the target problem is indexed from the index pair in the database, and the answer corresponding to the question text is returned as the answer output of the target question.
  • the automatic question answering system implemented by the above retrieval method is only based on the matching of string similarity, and does not consider whether the semantics are close, that is, even if there is a problem text that is semantically close to the target problem.
  • the existing automatic question answering system can not be matched, so the matching accuracy of the automatic question answering system needs to be strengthened.
  • the invention provides an automatic question and answer processing method and an automatic question answering system for improving the accuracy of the automatic question answering process.
  • the first aspect of the present invention provides an automatic question and answer processing method, the method comprising:
  • a second aspect of the present invention provides an automatic question answering system, the system comprising:
  • a first acquiring unit configured to acquire a target keyword corresponding to the target question text when receiving the target question text
  • a first determining unit configured to determine a candidate question text that matches the target keyword
  • a first calculating unit configured to calculate a semantic similarity value of each candidate question text and the target question text
  • a second determining unit configured to determine an answer corresponding to the target question text according to the semantic similarity value.
  • a third aspect of the present invention provides an automatic question answering system, the system comprising: a memory and a processor;
  • the memory is used to store a program
  • the processor is configured to execute the program, and specifically includes the following steps:
  • a fourth aspect of the invention provides a computer storage medium comprising instructions which, when run on a computer, cause the computer to perform the method of the first aspect described above.
  • a fifth aspect of the invention provides a computer program product comprising instructions which, when run on a computer, cause the computer to perform the method as described in the first aspect above.
  • the automatic question answer processing method In the automatic question answer processing method provided by the present invention, when the target question text is received, the target keyword corresponding to the target question text is acquired, and then the candidate question text matching the target keyword is determined. Next, a semantic similarity value of each candidate question text and the target question text is calculated. Finally, an answer corresponding to the target question text is determined according to the semantic similarity value.
  • the automatic question answering processing method provided by the invention takes into account the semantic similarity between the target problem text and each question text, and finally determines the answer of the target question text, and improves the accuracy of the automatic question answering process compared with the prior art.
  • FIG. 1 is a flowchart of an automatic question and answer processing method according to an embodiment of the present invention
  • FIG. 2 is a flowchart of an automatic question and answer processing method according to an embodiment of the present invention
  • FIG. 3 is a schematic structural diagram of an automatic question answering system according to an embodiment of the present invention.
  • FIG. 4 is a schematic structural diagram of an automatic question answering system according to an embodiment of the present invention.
  • FIG. 5 is a schematic structural diagram of a part of a computer according to an embodiment of the present invention.
  • an embodiment of an automatic question answering processing method provided by an embodiment of the present invention includes:
  • the system After loading the question-answer data pair, the system can be used for automated question and answer.
  • the word segmentation process is performed to obtain the target keyword corresponding to the target question text, and any word segmentation method or tool can be used in the word segmentation process of the embodiment of the present invention.
  • the index relationship between the problem text and the keyword in the problem-answer data pair is pre-stored in the system, and the index relationship may be established by the system after loading the problem-answer data pair, or may be obtained by the system from other devices.
  • the embodiment is not limited. After the system determines the target keyword, the candidate question text corresponding to the target keyword may be determined according to the index relationship.
  • the system needs to find out the text of the target problem from the plurality of candidate question texts after determining the candidate question text corresponding to the target question text.
  • the candidate question text for the answer.
  • the embodiment of the present invention may use various computing methods of semantic similarity to calculate semantic similarity values of each candidate problem text and the target problem text, and then find out the target according to the semantic similarity value.
  • Candidate question text for the answer to the question text may be used.
  • S104 Determine an answer corresponding to the target question text according to the semantic similarity value.
  • the pre-loaded question-answer data pair is used, and the answer corresponding to the candidate question text is used as the answer corresponding to the target question text, and is completed.
  • Automatic question and answer processing of the target question text takes into account the semantic similarity between the target problem text and each question text, and finally determines the answer of the target question text, and improves the accuracy of the automatic question answering process compared with the prior art.
  • the present invention provides an automatic question and answer processing method.
  • FIG. 2 it is a flowchart of an automatic question and answer processing method according to an embodiment of the present invention.
  • the method may specifically include:
  • the reptile tool can be used to collect problem-answer data pairs across the network.
  • the problem text in the pre-collected problem-answer data pair needs to be pre-processed. Therefore, firstly, the problem texts of the pre-collected problem-answer data pairs are obtained, and each problem text is separately subjected to word segmentation processing, thereby obtaining keywords corresponding to the respective problem texts.
  • word segmentation tools can be used to perform word segmentation on each of the obtained problem texts. It should be noted that any word segmentation method or tool can be used in the word segmentation process of the embodiment of the present invention.
  • the keyword corresponding to the question text is obtained.
  • the word segmentation obtained by performing word segmentation on the problem text directly serves as a keyword corresponding to the problem text.
  • the word segmentation obtained by word segmentation of the problem text is used as a candidate word in the question text, and a key method is used to filter out the key corresponding to the problem text from the candidate words of the question text. word.
  • An embodiment of the present invention provides a method for filtering keywords corresponding to the problem text from candidate words of the problem text. Specifically, calculating weight values corresponding to each candidate word in the question text, and then weighting The first few candidates with the highest value are the keywords corresponding to the question text.
  • a classical tf-idf feature algorithm, a textrank feature algorithm, or the like may be used to calculate a weight value corresponding to each candidate word in any question text, and the weight value may be used to indicate each candidate word in the problem. The importance of the text.
  • the vocabulary belonging to the preset type among the candidate words of the question text may be screened out.
  • the preset type may include a spoken high frequency word type, such as "I”, "", "Internet disabled word type, stop word type, tone helper type, and other word types that need to be blocked according to business applications.
  • S203 Establish an index relationship between the keyword and the problem text.
  • the index relationship in the embodiment of the present invention only includes the index relationship between the top N keywords and the problem text in which the weight value is higher in a question text, and only retains the relatively high importance in the problem text. The keyword, thereby reducing the number of keywords corresponding to the problem text, so as to improve system query efficiency when querying the index relationship.
  • the system can establish an index relationship by storing the keyword and the problem text in a database in a key-value manner, that is, using the keyword as a key and mapping by a hash value algorithm.
  • the identification code (ID) of the question text corresponding to the keyword is added to the value field.
  • the system can be used for automatic question and answer.
  • the problem text is first subjected to word segmentation processing. Specifically, without relying on any word segmentation tool, any word segmentation method or tool can be used in the word segmentation process of the embodiment of the present invention.
  • the target keyword corresponding to the target question text is obtained.
  • the participle obtained by segmenting the target question text directly may be directly used as the target keyword corresponding to the target question text.
  • the word segmentation processed by the word segmentation process may be filtered, for example, after the vocabulary belonging to the preset type in the screening participle, the classic tf-idf feature algorithm is used.
  • the textrank feature algorithm calculates a weight value of each participle in the target question text, and finally uses the first N participles with the highest weight value as the target keyword corresponding to the target question text, where N is a natural number, and can be specifically set according to requirements .
  • S205 Determine, from an index relationship between the established keyword and the problem text, a keyword that matches the target keyword, and obtain a problem text having an index relationship with the keyword, as a candidate problem of the target problem text. text.
  • the target keyword corresponding to the target question text after acquiring the target keyword corresponding to the target question text, querying an index relationship between the pre-established keyword and the question text to find a keyword that matches the target keyword (first Key words), and further obtaining a question text having an index relationship with the keyword as a candidate question text of the target question text.
  • target keywords there are a plurality of target keywords corresponding to the target problem text, and there are a plurality of keywords matching the target keyword, and there are a plurality of candidate question texts of the target problem text finally obtained.
  • the embodiment of the present invention can reduce the magnitude of the established index relationship, thereby improving the automatic problem processing, by calculating the weight value of the candidate words of each problem text, and avoiding reducing the accuracy of the keyword corresponding to each problem text. Query efficiency.
  • the candidate question text of the target question text after the candidate question text of the target question text is obtained, the candidate question text that is finally used to determine the answer of the target question text needs to be found from the candidate question text.
  • the embodiment of the present invention can calculate the semantic similarity values of each candidate problem text and the target problem text by using various semantic similarity calculation methods, and then find the final problem text for determining the target problem according to the semantic similarity value.
  • Candidate question text for the answer can be calculated by using various semantic similarity calculation methods, and then find the final problem text for determining the target problem according to the semantic similarity value.
  • a semantic vector corresponding to each candidate problem text and the target problem text is first determined by using a pre-trained word embedding model. Specifically, each candidate problem text and the target problem text are respectively processed into word segmentation to obtain a plurality of word segments, and then the word embedding model is used to determine a semantic vector corresponding to each segment word, and corresponding to the word segment belonging to the same question text. The semantic vector is accumulated to obtain a semantic vector corresponding to the question text. In the above manner, the semantic vectors corresponding to the respective candidate question texts and the target question texts can be calculated.
  • the semantic vector of "I” is [1, 2, 3, 4]
  • the semantic vector of "love” is [1, 1, 1, 0]
  • the semantic vector of "you” is [-1, 1, 2, 3]
  • the semantic vector of "I love you” is [1, 4, 6, 7].
  • the word embedding model is the most widely used natural language processing deep learning technology. This method calculates each word by the probability of the next word in a sentence after the next word is a word through a three-layer neural network. A vector that maps to a fixed dimension. In principle, it is equivalent to digitizing a word in a vector, so that the similarity between a word and a sentence can be measured by mathematical operations. It can be used to implement the word embedding model in the embodiment of the present invention.
  • the word embedding model in the embodiment of the present invention can be applied to the Google open source word2vec tool and trained by the QA training set. The entire training process does not need to be repeated, and the model files generated by one training can be reused multiple times without affecting system efficiency.
  • the word2vec tool is a way to vectorize words using deep learning methods.
  • the open source tool of the word embedding model in the embodiment of the present invention may also be other tools, which are not limited herein.
  • semantic similarity values of the candidate question text and the target problem text may also be calculated by other models, such as Recurrent Neural Networks (RNNs). Model, translation (seq2seq) model, etc.
  • RNNs Recurrent Neural Networks
  • model translation (seq2seq) model, etc.
  • the manner for calculating the semantic similarity value of each candidate question text and the target question text is not limited to the above method.
  • S207 Determine an answer corresponding to the target question text according to the semantic similarity value.
  • the candidate question text corresponding to the largest semantic similarity value is used as the final answer for determining the target question text.
  • Candidate question text The pre-collected problem-answer data pair, the answer corresponding to the candidate question text is used as the answer corresponding to the target question text, and the automatic question answering process for the target question text is completed.
  • the embodiment of the present invention may further calculate a string similarity between each candidate question text and the target question text, and finally determine the semantic similarity value and the string similarity value. The answer corresponding to the target question text.
  • the system may further calculate an edit distance of each candidate question text and the target question text as a string similarity value of each candidate question text and the target question text.
  • the semantic similarity value and the string similarity value corresponding to each candidate question text are used as input of a pre-established classification model, and after processing by the classification model, a candidate problem finally used for determining an answer of the target problem text is obtained.
  • the text that is, the candidate question text that best matches the target question text, and the answer corresponding to the candidate question text is the answer corresponding to the target question text.
  • the pre-established classification model may be a multi-dimensional similarity measurement model, or other models, which are not limited in the embodiment of the present invention.
  • Embodiments of the present invention may also calculate other similarities between each candidate problem text and the target problem text, such as cosine similarity, convolution similarity based on Convolutional Neural Networks (CNN), Hamming distance Similarity, jacard similarity, etc., thereby determining the answer corresponding to the target question text in combination with each similarity, further improving the accuracy of the automatic question and answer process.
  • CNN Convolutional Neural Networks
  • the difference between the keyword weight values between the candidate question texts and the target question text may be used as a calculation method of the similarity, and specifically, the keyword weights corresponding to the respective candidate question texts are calculated. a sum of the values, and a sum of the keyword weight values corresponding to the target problem text, and then calculating a sum of the keyword weight values corresponding to the respective candidate question texts, and the keyword weight values corresponding to the target question text respectively
  • the difference between and is used to indicate the similarity of each candidate question text. In fact, the smaller the difference, the higher the similarity between the corresponding candidate question text and the target question text.
  • the automatic question answer processing method first obtains the question text from the pre-collected problem-answer data pair. Secondly, after the word segmentation process is performed on the problem text, the keyword corresponding to the question text is obtained. Then, an index relationship between the keyword and the question text is established. When any target question text is received, after the word segmentation process is performed on the target question text, the target keyword corresponding to the target question text is obtained. Then, from the index relationship between the established keyword and the question text, the keyword matching the target keyword is determined, and the problem text having the index relationship with the keyword is obtained as a candidate problem of the target problem text. text. Again, a semantic similarity value of the candidate question text and the target question text is calculated.
  • an answer corresponding to the target question text is determined according to the semantic similarity value.
  • the automatic question answer processing method provided by the embodiment of the present invention takes into account the semantic similarity between the target problem text and each question text, and finally determines the answer of the target question text, and improves the accuracy of the automatic question answer processing compared with the prior art. .
  • the weight value of the candidate word of the question text by calculating the weight value of the candidate word of the question text, under the premise of ensuring the accuracy, the number of keywords corresponding to each problem text is further reduced, and the magnitude of the established index relationship is reduced, and the automatic question and answer is Improve the efficiency of the query during processing.
  • FIG. 3 a schematic structural diagram of an automatic question answering system in the embodiment of the present invention includes:
  • the first obtaining unit 301 is configured to acquire a target keyword corresponding to the target question text when the target question text is received;
  • a first determining unit 302 configured to determine a candidate question text that matches the target keyword
  • a first calculating unit 303 configured to calculate a semantic similarity value of each candidate question text and the target question text
  • the second determining unit 304 is configured to determine an answer corresponding to the target question text according to the semantic similarity value.
  • the automatic question answering system takes into account the semantic similarity between the target problem text and each question text, and finally determines the answer of the target question text, and improves the accuracy of the automatic question answering process compared with the prior art.
  • FIG. 4 it is a schematic structural diagram of an automatic question answering system according to an embodiment of the present invention, where the system includes:
  • a second obtaining unit 401 configured to obtain a problem text from a pre-collected problem-answer data pair
  • the third obtaining unit 402 is configured to acquire a keyword corresponding to the question text
  • An establishing unit 403, configured to establish an index relationship between the keyword and the problem text
  • a first obtaining unit 404 configured to acquire a target keyword corresponding to the target question text when receiving the target question text
  • a first determining unit 405 configured to determine, from an index relationship between the established keyword and the question text, a keyword that matches the target keyword, and obtain a question text having an index relationship with the keyword, as the Candidate question text for the target question text;
  • a first calculating unit 406 configured to calculate a semantic similarity value of the candidate question text and the target question text
  • the second determining unit 407 is configured to determine an answer corresponding to the target question text according to the semantic similarity value.
  • the third obtaining unit may include:
  • a second participle subunit configured to perform word segmentation on the question text to obtain candidate words of the question text
  • a second calculating subunit configured to calculate a weight value corresponding to each candidate word in the question text
  • the second determining subunit is configured to determine the top N candidate words with the highest weight value as keywords corresponding to the question text, where N is a natural number.
  • the third acquiring unit may further include:
  • the second screening subunit is configured to filter out the vocabulary belonging to the preset type among the candidate words, and the preset type includes a spoken high frequency vocabulary type.
  • the first acquiring unit includes:
  • a first participle subunit configured to perform a word segmentation process on the target question text when the target question text is received, to obtain a target candidate word in the target question text;
  • a first calculating subunit configured to calculate a weight value corresponding to each target candidate word in the target question text
  • the first determining subunit is configured to determine the top M candidate words with the highest weight value as the target keywords corresponding to the target question text, where M is a natural number.
  • the third obtaining unit may further include:
  • the first screening subunit is configured to filter out preset types of words in the target candidate words, the preset types including a spoken language type and a high frequency vocabulary type.
  • the first calculating unit may include:
  • a third determining subunit configured to determine, by using a pre-trained word embedding model, a semantic vector corresponding to the candidate problem text and the target problem text respectively;
  • a third calculating subunit configured to calculate, for each candidate question text, a vector distance between a semantic vector corresponding to the candidate question text and a semantic vector corresponding to the target question text, as the candidate question text and the target The semantic similarity value of the problem text.
  • the second determining unit is specifically configured to: the candidate question text corresponding to the largest semantic similarity value, and the corresponding answer in the pre-collected question-answer data pair as the answer corresponding to the target question text.
  • system may further include:
  • a second calculating unit configured to calculate, for each candidate question text, an edit distance of the candidate question text and the target question text, as a string similarity value of the candidate question text and the target question text;
  • the second determining unit is specifically configured to: determine, according to the semantic similarity value and the string similarity value of the candidate question text and the target question text, an answer corresponding to the target question text.
  • the automatic question answering system can realize the following functions: obtaining the problem text from the pre-collected problem-answer data pair. After the word segmentation process is performed on the problem text, keywords corresponding to the question text are obtained. Establishing an index relationship between the keyword and the question text. When any target question text is received, after the word segmentation process is performed on the target question text, the target keyword corresponding to the target question text is obtained. From the index relationship between the established keyword and the question text, a keyword matching the target keyword is determined, and a question text having an index relationship with the keyword is obtained as a candidate question text of the target question text. A semantic similarity value of the candidate question text and the target question text is calculated.
  • the automatic question answering system takes into account the semantic similarity between the target problem text and each question text, and finally determines the answer of the target question text, and improves the accuracy of the automatic question answering process compared with the prior art.
  • the weight value of the candidate word of the question text by calculating the weight value of the candidate word of the question text, under the premise of ensuring the accuracy, the number of keywords corresponding to each problem text is further reduced, and the magnitude of the established index relationship is reduced, and the automatic question and answer is Improve the efficiency of the query during processing.
  • the automatic question answering system in the embodiment of the present invention may be any computer device, such as a service system capable of implementing an automatic question and answer.
  • the embodiment of the present invention further provides a computer device.
  • the computer device may include:
  • the number of processors 501 in the browser server may be one or more, and one processor is taken as an example in FIG.
  • the processor 501, the memory 502, the input device 503, and the output device 504 may be connected by a bus or other means, wherein the bus connection is taken as an example in FIG.
  • Memory 502 can be used to store software programs and modules, and processor 501 runs software programs and modules stored in memory 502.
  • the memory 502 can mainly include a storage program area and a storage data area, wherein the storage program area can store an operating system, an application required for at least one function, and the like.
  • memory 502 can include high speed random access memory, and can also include non-volatile memory, such as at least one magnetic disk storage device, flash memory device, or other volatile solid state storage device.
  • Input device 503 can be used to receive input numeric or character information and to generate key signal inputs related to user settings and function controls of the browser server.
  • the processor 501 loads the executable file corresponding to the process of one or more applications into the memory 502 according to the following instructions, and is executed by the processor 501 to be stored in the memory 502.
  • the application to implement various functions:
  • the processor is specifically configured to: perform word segmentation on the target question text to obtain a target candidate word in the target question text;
  • the first M candidate words having the highest weight value are determined as the target keywords corresponding to the target question text, and M is a natural number.
  • the processor is further configured to: filter out preset types of words in the target candidate words.
  • the processor is further configured to: obtain the problem text from the pre-collected problem-answer data pairs;
  • the processor is specifically configured to:
  • the first N candidate words having the highest weight value are determined as keywords corresponding to the question text, and N is a natural number.
  • the processor is further configured to: screen out the vocabulary belonging to the preset type among the candidate words.
  • the processor is specifically configured to: determine, by using a pre-trained word embedding model, a semantic vector corresponding to each candidate problem text and the target problem text respectively;
  • a vector distance between the semantic vector corresponding to the candidate question text and the semantic vector corresponding to the target question text is calculated as a semantic similarity value of the candidate question text and the target question text.
  • the processor is specifically configured to: the candidate question text corresponding to the largest semantic similarity value, the corresponding answer in the pre-collected question-answer data pair, as the target problem The answer to the text.
  • the processor is specifically configured to calculate an edit distance of the candidate question text and the target question text as the candidate question text and the target question text for each candidate question text.
  • String similarity value
  • the device embodiment since it basically corresponds to the method embodiment, reference may be made to the partial description of the method embodiment.
  • the device embodiments described above are merely illustrative, wherein the units described as separate components may or may not be physically separate, and the components displayed as units may or may not be physical units, ie may be located A place, or it can be distributed to multiple network units. Some or all of the modules may be selected according to actual needs to achieve the purpose of the solution of the embodiment. Those of ordinary skill in the art can understand and implement without any creative effort.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种自动问答处理方法及自动问答***,所述方法包括:当接收到目标问题文本时,获取目标问题文本对应的目标关键词。确定与目标关键词候选问题文本。计算各个候选问题文本与目标问题文本的语义相似度值。根据语义相似度值,确定目标问题文本对应的答案。本发明考虑到目标问题文本与各个问题文本的语义相似度,确定出目标问题文本的答案,提高了自动问答处理的准确度。

Description

一种自动问答处理方法及自动问答***
本申请要求于2017年03月03日提交中国专利局、申请号为2017101241460、发明名称为“一种自动问答处理方法及自动问答***”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及数据处理领域,具体涉及一种自动问答处理方法及自动问答***。
背景技术
自动问答***(英文:Question-Answer system;简称:QA***)是当前的研究热点。目前的自动问答***主要是基于检索的方法实现的,具体的,***在收集到大量的问题-答案数据对后,对其中的问题文本进行分词处理,以及为经过分词处理后得到的词语建立与该问题文本之间的索引对,并存储于数据库中。当***接收到目标问题后,从数据库中的索引对中索引出与该目标问题最匹配的问题文本,并返回该问题文本对应的答案作为该目标问题的答案输出。
但是,上述基于检索的方法实现的自动问答***对于目标问题的匹配只是基于字符串相似度的匹配,并未考虑语义上是否接近,也就是说,即使是存在语义上与目标问题接近的问题文本,现有的自动问答***也不能够匹配到,所以说自动问答***的匹配准确度有待加强。
发明内容
本发明提供了一种自动问答处理方法及自动问答***,用于提高自动问答处理的准确度。
有鉴于此,本发明第一方面提供了一种自动问答处理方法,所述方法包括:
当接收到目标问题文本时,获取所述目标问题文本对应的目标关键词;
确定与所述目标关键词匹配的候选问题文本;
计算各个候选问题文本与所述目标问题文本的语义相似度值;
根据所述语义相似度值,确定所述目标问题文本对应的答案。
本发明第二方面提供了一种自动问答***,所述***包括;
第一获取单元,用于在接收到目标问题文本时,获取所述目标问题文本对 应的目标关键词;
第一确定单元,用于确定与所述目标关键词匹配的候选问题文本;
第一计算单元,用于计算各个候选问题文本与所述目标问题文本的语义相似度值;
第二确定单元,用于根据所述语义相似度值,确定所述目标问题文本对应的答案。
本发明第三方面提供了一种自动问答***,所述***包括:存储器及处理器;
所述存储器用于存储程序;
所述处理器用于执行所述程序,具体包括如下步骤:
当接收到目标问题文本时,获取所述目标问题文本对应的目标关键词;
确定预先收集到的问题-答案数据对中与所述目标关键词匹配的候选问题文本;
计算各个候选问题文本与所述目标问题文本的语义相似度值;
根据所述语义相似度值,确定所述目标问题文本对应的答案。
本发明第四方面提供了一种计算机存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上述第一方面所述的方法。
本发明第五方面提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上述第一方面所述的方法。
本发明提供的自动问答处理方法中,当接收到目标问题文本时,获取所述目标问题文本对应的目标关键词,然后确定与所述目标关键词匹配的候选问题文本。接着,计算各个候选问题文本与所述目标问题文本的语义相似度值。最终,根据所述语义相似度值,确定所述目标问题文本对应的答案。本发明提供的自动问答处理方法考虑到目标问题文本与各个问题文本之间的语义相似度,最终确定出目标问题文本的答案,与现有技术相比,提高了自动问答处理的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种自动问答处理方法流程图;
图2为本发明实施例提供的一种自动问答处理方法流程图;
图3为本发明实施例提供的一种自动问答***的结构示意图;
图4为本发明实施例提供的一种自动问答***的结构示意图;
图5为本发明实施例提供的一种计算机的部分结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明提供了一种自动问答处理方法,请参阅图1,本发明实施例提供的自动问答处理方法的一个实施例包括:
S101:当接收到目标问题文本时,获取目标问题对应的目标关键词。
在加载完问题-答案数据对后,***可以用于进行自动问答。
当***接收到目标问题文本时,对所述问题文本进行分词处理得到目标问题文本对应的目标关键词,任何一种分词方法或工具均可用于本发明实施例的分词处理过程。
S102:确定预先收集到的问题-答案数据对中与目标关键词匹配的候选问题文本。
***中预先存储有问题-答案数据对中的问题文本与关键词的索引关系,该索引关系可以***加载问题-答案数据对后自己建立的,也可以是***从其他设备获取的,具体本发明实施例不作限定。***确定目标关键词后,可以根据该索引关系确定目标关键词对应的候选问题文本。
S103:计算各个候选问题文本与目标问题文本的语义相似度值。
一般来说,目标关键词对应的候选问题文本有多个,则***在确定目标问题文本对应的候选问题文本后,需要从这多个候选问题文本中找出用于确定所述目标问题文本的答案的候选问题文本。
具体地,本发明实施例可以利用各种语义相似度的计算方法,计算出各个候选问题文本与所述目标问题文本的语义相似度值,进而根据语义相似度值找出用于确定所述目标问题文本的答案的候选问题文本。
S104:根据语义相似度值确定目标问题文本对应的答案。
根据语义相似度值找出用于确定所述目标问题文本的答案的候选问题文本后,将预先加载的问题-答案数据对中,该候选问题文本对应的答案作为目标问题文本对应的答案,完成对目标问题文本的自动问答处理。本发明提供的自动问答处理方法考虑到目标问题文本与各个问题文本之间的语义相似度,最终确定出目标问题文本的答案,与现有技术相比,提高了自动问答处理的准确度。
本发明提供了一种自动问答处理方法,参考图2,为本发明实施例提供的一种自动问答处理方法流程图,所述方法具体可以包括:
S201:从预先收集到的问题-答案数据对中,获取问题文本。
实际应用中,预先收集大量的问题-答案数据对,作为自动问答处理方法的数据基础。一种实现方式中,可以利用爬虫工具全网收集问题-答案数据对。
S202:获取所述问题文本对应的关键词。
本发明实施例中,需要对预先收集到的问题-答案数据对中的问题文本进行预处理。所以,首先获取预先收集到的问题-答案数据对中的各个问题文本,并对各个问题文本分别进行分词处理,进而获取各个问题文本分别对应的关键词。
实际应用中,可以利用现有的各种分词工具对获取到的各个问题文本进行分词处理。需要说明的是,任何一种分词方法或工具均可用于本发明实施例的分词处理过程。
本发明实施例中,在对预先采集到的问题-答案数据对中的问题文本进行分词处理后,获取所述问题文本对应的关键词。一种实现方式中,可以将问题文本进行分词处理后得到的分词直接作为该问题文本对应的关键词。
另一种可选的实现方式中,将对问题文本进行分词处理后得到的分词作为该问题文本中的候选词,利用一定的方法从该问题文本的候选词中筛选出该问题文本对应的关键词。
本发明实施例提供了一种从问题文本的候选词中筛选出所述问题文本对应的关键词的方法,具体的,计算在所述问题文本中各个候选词分别对应的权重值,进而将权重值最高的前几个候选词作为所述问题文本对应的关键词。一种实现方式中,可以利用经典的tf-idf特征算法、textrank特征算法等计算在任一条问题文本中各个候选词分别对应的权重值,所述权重值可以用于表示各个候选词在所述问题文本中的重要性。
另外,为了降低***的计算量,计算在问题文本中各个候选词分别对应的权重值之前,可以先筛除所述问题文本的各个候选词中属于预设类型的词汇。其中,所述预设类型可以包括口语高频词类型,如“我”、“的”等词汇,互联网禁用词类型,停用词类型,语气助词类型及其他根据业务应用需要屏蔽的词类型。事实上,即使对上述类型的词汇进行权重值的计算,这些词汇对应的权重值也会明显低于所述问题文本中的其他候选词。
S203:建立所述关键词与所述问题文本的索引关系。
本发明实施例中,获取到各个问题文本对应的关键词后,建立各个关键词与问题文本的索引关系,以便通过关键词能够查找到与其具有索引关系的问题文本。通常,一条问题文本具有多个对应的关键词,两条不同的问题文本也可以具有同一对应的关键词。一种可选的实施方式中,由于建立的索引关系中的关键词具有权重值,用于表示其在对应的问题文本中的重要性。所以,本发明实施例中的索引关系只包括在一个问题文本中权重值较高的前N个关键词与问题文本的索引关系,只保留了在所述问题文本中的重要性相对较高的关键词,从而减少了所述问题文本对应的关键词的个数,以便在查询所述索引关系时提高***查询效率。
具体地,***可以通过如下方式建立索引关系:将关键词和问题文本以键-值对(key-value)的方式存储在数据库中,即将关键词作为值(key),通过哈希值算法映射到数据库中,该关键词对应的问题文本的识别码(identification,ID)加入到值(value)字段中。
S204:当接收到目标问题文本时,对所述目标问题文本进行分词处理后,获取所述目标问题文本对应的目标关键词。
本发明实施例中,在完成对预先收集到的问题-答案数据对中的问题文本 的预处理后,***可以用于进行自动问答。
实际应用中,当***接收到任一个目标问题文本时,首先对所述问题文本进行分词处理。具体的,不依赖于任何一种分词工具,任何一种分词方法或工具均可用于本发明实施例的分词处理过程。其次,获取所述目标问题文本对应的目标关键词。一种实现方式中,可以直接将所述目标问题文本进行分词出后得到的分词直接作为所述目标问题文本对应的目标关键词。
另一种可选的实现方式中,可以对所述目标问题文本进行分词处理后得到的分词进行筛选,例如在筛除分词中属于预设类型的词汇后,利用经典的tf-idf特征算法、textrank特征算法,计算在所述目标问题文本中各个分词的权重值,最终将权重值最高的前N个分词作为所述目标问题文本对应的目标关键词,其中N为自然数,可以根据需求具体设置。通过上述处理能够为所述目标问题文本筛选出更准确的目标关键词,减少了召回的候选问题文本的个数,同时***查询次数减少,进一步提高了自动问答处理的效率。
S205:从建立的关键词与问题文本的索引关系中,确定与所述目标关键词匹配的关键词,并获取与所述关键词具有索引关系的问题文本,作为所述目标问题文本的候选问题文本。
本发明实施例中,在获取到所述目标问题文本对应的目标关键词后,查询预先建立的关键词与问题文本的索引关系,以找出与所述目标关键词匹配的关键词(第一关键词),进而获取与所述关键词具有索引关系的问题文本,作为所述目标问题文本的候选问题文本。一般情况下,所述目标问题文本对应的目标关键词为多个,与各个目标关键词匹配的关键词也就有多个,最终得到的所述目标问题文本的候选问题文本也是有多个。
本发明实施例可以通过计算各个问题文本的候选词的权重值的方式,在避免降低各个问题文本对应的关键词的准确性的情况下,降低建立的索引关系的量级,从而提高自动问题处理时的查询效率。
S206:计算所述候选问题文本与所述目标问题文本的语义相似度值。
本发明实施例中,在获取到所述目标问题文本的候选问题文本后,需要从所述候选问题文本中找出最终用于确定所述目标问题文本的答案的候选问题文本。
本发明实施例可以利用各种语义相似度的计算方法,计算出各个候选问题文本与所述目标问题文本的语义相似度值,进而根据语义相似度值找出最终用于确定所述目标问题文本的答案的候选问题文本。
一种实现方式中,首先利用预先训练的词嵌入模型,确定各个候选问题文本与所述目标问题文本分别对应的语义向量。具体的,将各个候选问题文本和所述目标问题文本分别进行分词处理后得到若干分词,然后利用所述词嵌入模型,确定各个分词对应的语义向量后,对属于同一条问题文本的分词对应的语义向量累加得到所述问题文本对应的语义向量。利用上述方式能够计算出各个候选问题文本与所述目标问题文本分别对应的语义向量。例如“我”的语义向量是[1,2,3,4],“爱”的语义向量是[1,1,1,0],“你”的语义向量是[-1,1,2,3],经过累加后,“我爱你”的语义向量就是[1,4,6,7]。然后,通过计算各个候选问题文本对应的语义向量与所述目标问题文本对应的语义向量的向量距离,得到各个候选问题文本与所述目标问题文本的语义相似度值。
其中,word embedding模型是目前应用最广泛的自然语言处理深度学习技术,此方法通过计算一个句子中,多个词之后下一个词为某个词的概率,通过三层神经网络,将每个词映射到固定维度的向量。原理上相当于把单词数字化用向量表示,从而可以用数学运算衡量单词和句子的相似度。可以用于实现本发明实施例中的词嵌入模型。
应理解,本发明实施例中的词嵌入模型可以应用了谷歌开源的word2vec工具,用QA训练集训练得到。整个训练过程不需重复,一次训练生成的模型文件可以多次复用,不影响***效率。word2vec工具是一种利用深度学习方法将词语向量化的方法。除了word2vec工具,本发明实施例中词嵌入模型的开源工具还可以是其他工具,具体此处不作限定。
还应理解,本发明实施例中除了可以通过词嵌入模型,还可以通过其他模型计算所述候选问题文本与所述目标问题文本的语义相似度值,如循环神经网络(Recurrent Neural Networks,RNNs)模型,翻译(seq2seq)模型等。
本发明实施例中,用于计算各个候选问题文本与所述目标问题文本的语义相似度值的方式不局限于上述方法。
S207:根据所述语义相似度值,确定所述目标问题文本对应的答案。
本发明实施例中,在计算得到各个候选问题文本与所述目标问题文本的语 义相似度值后,将最大的语义相似度值对应的候选问题文本作为最终用于确定所述目标问题文本的答案的候选问题文本。将预先收集到的问题-答案数据对中,所述候选问题文本对应的答案作为所述目标问题文本对应的答案,完成对所述目标问题文本的自动问答处理。
另外,为了提高自动问答处理的准确度,本发明实施例还可以计算各个候选问题文本与所述目标问题文本之间的字符串相似度,最终结合语义相似度值和字符串相似度值,确定所述目标问题文本对应的答案。
一种实现方式中,***还可以计算各个候选问题文本与所述目标问题文本的编辑距离,分别作为各个候选问题文本与所述目标问题文本的字符串相似度值。将各个候选问题文本对应的语义相似度值和字符串相似度值作为预先建立的分类模型的输入,经过所述分类模型的处理后,得到最终用于确定所述目标问题文本的答案的候选问题文本,即与所述目标问题文本最匹配的候选问题文本,该候选问题文本对应的答案就是目标问题文本对应的答案。其中,预先建立的分类模型可以是多维相似度度量模型,或其他模型,具体本发明实施例不作限定。
本发明实施例还可以计算各个候选问题文本与所述目标问题文本之间的其他相似度,如余弦相似度,基于卷积神经网络(Convolutional Neural Networks,CNN)的卷积相似度,汉明距离相似度,杰卡德系数(jacard)相似度等,从而结合各个相似度确定所述目标问题文本对应的答案,进一步的提高自动问答处理的准确度。
另外,本发明实施例还可以将各个候选问题文本与所述目标问题文本之间的关键词权重值之差作为相似度的一种计算方法,具体的,计算各个候选问题文本对应的关键词权重值之和,以及计算所述目标问题文本对应的关键词权重值之和,然后,计算各个候选问题文本对应的关键词权重值之和,分别与所述目标问题文本对应的关键词权重值之和之间的差值,用于表示各个候选问题文本的相似度。事实上,差值越小,其对应的候选问题文本与所述目标问题文本之间的相似度越高。
综上,本发明实施例提供的自动问答处理方法,首先从预先收集到的问题-答案数据对中,获取问题文本。其次,对所述问题文本进行分词处理后,获 取所述问题文本对应的关键词。然后,建立所述关键词与所述问题文本的索引关系。当接收到任一目标问题文本时,对所述目标问题文本进行分词处理后,获取所述目标问题文本对应的目标关键词。然后,从建立的关键词与问题文本的索引关系中,确定与所述目标关键词匹配的关键词,并获取与所述关键词具有索引关系的问题文本,作为所述目标问题文本的候选问题文本。再次,计算所述候选问题文本与所述目标问题文本的语义相似度值。最终,根据所述语义相似度值,确定所述目标问题文本对应的答案。本发明实施例提供的自动问答处理方法考虑到目标问题文本与各个问题文本之间的语义相似度,最终确定出目标问题文本的答案,与现有技术相比,提高了自动问答处理的准确度。
另外,本发明实施例通过计算问题文本的候选词的权重值,在保证准确度的前提下,进一步减少各个问题文本对应的关键词的个数,降低建立的索引关系的量级,在自动问答处理过程中,提高查询效率。
上面介绍了本发明实施例中的自动问答处理方法,下面对本发明实施例中的自动问答***进行介绍,请参阅图3,本发明实施例中自动问答***的结构示意图,该***包括:
第一获取单元301,用于在接收到目标问题文本时,获取该目标问题文本对应的目标关键词;
第一确定单元302,用于确定与目标关键词匹配的候选问题文本;
第一计算单元303,用于计算各个候选问题文本与该目标问题文本的语义相似度值;
第二确定单元304,用于根据语义相似度值,确定目标问题文本对应的答案。
本发明提供的自动问答***考虑到目标问题文本与各个问题文本之间的语义相似度,最终确定出目标问题文本的答案,与现有技术相比,提高了自动问答处理的准确度。
本发明实施例还提供了一种自动问答***,参考图4,为本发明实施例提供的一种自动问答***的结构示意图,所述***包括;
第二获取单元401,用于从预先收集到的问题-答案数据对中,获取问题文本;
第三获取单元402,用于获取所述问题文本对应的关键词;
建立单元403,用于建立所述关键词与所述问题文本的索引关系;
第一获取单元404,用于在接收到目标问题文本时,获取所述目标问题文本对应的目标关键词;
第一确定单元405,用于从建立的关键词与问题文本的索引关系中,确定与所述目标关键词匹配的关键词,并获取与所述关键词具有索引关系的问题文本,作为所述目标问题文本的候选问题文本;
第一计算单元406,用于计算所述候选问题文本与所述目标问题文本的语义相似度值;
第二确定单元407,用于根据所述语义相似度值,确定所述目标问题文本对应的答案。
具体的,所述第三获取单元可以包括:
第二分词子单元,用于对所述问题文本进行分词处理后,得到所述问题文本的候选词;
第二计算子单元,用于计算在所述问题文本中各个候选词分别对应的权重值;
第二确定子单元,用于将权重值最高的前N个候选词,确定为所述问题文本对应的关键词,N为自然数。
另外,为了提高***的处理效率,所述第三获取单元还可以包括:
第二筛除子单元,用于筛除所述候选词中属于预设类型的词汇,所述预设类型包括口语高频词汇类型。
具体的,所述第一获取单元包括:
第一分词子单元,用于在接收到目标问题文本时,对所述目标问题文本进行分词处理后,得到所述目标问题文本中的目标候选词;
第一计算子单元,用于计算所述目标问题文本中的各个目标候选词分别对应的权重值;
第一确定子单元,用于将权重值最高的前M个候选词,确定为所述目标问题文本对应的目标关键词,M为自然数。
为了提高***的处理效率,所述第三获取单元还可以包括:
第一筛除子单元,用于筛除所述目标候选词中的预设类型的词语,所述预设类型包括口语类型、高频词汇类型。
一种实现方式中,所述第一计算单元可以包括:
第三确定子单元,用于利用预先训练的词嵌入模型,确定所述候选问题文本与所述目标问题文本分别对应的语义向量;
第三计算子单元,用于针对各个候选问题文本,计算所述候选问题文本对应的语义向量与所述目标问题文本对应的语义向量之间的向量距离,作为所述候选问题文本与所述目标问题文本的语义相似度值。
对应地,第二确定单元具体用于:将最大的语义相似度值对应的候选问题文本,在所述预先收集的问题-答案数据对中对应的答案,作为所述目标问题文本对应的答案。
为了提高自动问答***的准确度,所述***还可以包括:
第二计算单元,用于针对各个候选问题文本,计算所述候选问题文本与所述目标问题文本的编辑距离,作为所述候选问题文本与所述目标问题文本的字符串相似度值;
相应的,所述第二确定单元,具体用于:结合所述候选问题文本与所述目标问题文本的语义相似度值和字符串相似度值,确定所述目标问题文本对应的答案。
本发明实施例提供的自动问答***能够实现以下功能:从预先收集到的问题-答案数据对中,获取问题文本。对所述问题文本进行分词处理后,获取所述问题文本对应的关键词。建立所述关键词与所述问题文本的索引关系。当接收到任一目标问题文本时,对所述目标问题文本进行分词处理后,获取所述目标问题文本对应的目标关键词。从建立的关键词与问题文本的索引关系中,确定与所述目标关键词匹配的关键词,并获取与所述关键词具有索引关系的问题文本,作为所述目标问题文本的候选问题文本。计算所述候选问题文本与所述目标问题文本的语义相似度值。根据所述语义相似度值,确定所述目标问题文本对应的答案。本发明实施例提供的自动问答***考虑到目标问题文本与各个问题文本之间的语义相似度,最终确定出目标问题文本的答案,与现有技术相比,提高了自动问答处理的准确度。
另外,本发明实施例通过计算问题文本的候选词的权重值,在保证准确度的前提下,进一步减少各个问题文本对应的关键词的个数,降低建立的索引关系的量级,在自动问答处理过程中,提高查询效率。
本发明实施例中的自动问答***可以是任意的计算机设备,如能够实现自动问答的服务***等。
相应的,本发明实施例还提供一种计算机设备,参见图5所示,该计算机设备可以包括:
处理器501、存储器502、输入装置503和输出装置504。浏览器服务器中的处理器501的数量可以一个或多个,图3中以一个处理器为例。在本发明的一些实施例中,处理器501、存储器502、输入装置503和输出装置504可通过总线或其它方式连接,其中,图5中以通过总线连接为例。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置503可用于接收输入的数字或字符信息,以及产生与浏览器服务器的用户设置以及功能控制有关的键信号输入。
具体在本实施例中,处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能:
当接收到目标问题文本时,获取所述目标问题文本对应的目标关键词;
确定预先收集到的问题-答案数据对中与所述目标关键词匹配的候选问题文本;
计算各个候选问题文本与所述目标问题文本的语义相似度值;
根据所述语义相似度值,确定所述目标问题文本对应的答案。
可选地,在一些实施例中,处理器具体用于:对所述目标问题文本进行分词处理得到所述目标问题文本中的目标候选词;
计算所述目标问题文本中的各个目标候选词分别对应的权重值;
将权重值最高的前M个候选词,确定为所述目标问题文本对应的目标关键词,M为自然数。
可选地,在一些实施例中,处理器还用于:筛除所述目标候选词中的预设类型的词语。
可选地,在一些实施例中,处理器还用于:从预先收集到的问题-答案数据对中,获取问题文本;
获取所述问题文本对应的关键词;
建立所述关键词与所述问题文本的索引关系;
从建立的所述关键词与所述问题文本的索引关系中,确定与所述目标关键词匹配的第一关键词,并获取与所述第一关键词具有索引关系的问题文本,作为所述目标问题文本的候选问题文本。
可选地,在一些实施例中,处理器具体用于:
对所述问题文本进行分词处理得到所述问题文本的候选词;
计算在所述问题文本中各个候选词分别对应的权重值;
将权重值最高的前N个候选词,确定为所述问题文本对应的关键词,N为自然数。
可选地,在一些实施例中,处理器还用于:筛除所述候选词中属于预设类型的词汇。
可选地,在一些实施例中,处理器具体用于:利用预先训练的词嵌入模型,确定各个候选问题文本与所述目标问题文本分别对应的语义向量;
针对各个候选问题文本,计算所述候选问题文本对应的语义向量与所述目标问题文本对应的语义向量之间的向量距离,作为所述候选问题文本与所述目标问题文本的语义相似度值。
可选地,在一些实施例中,处理器具体用于:将最大的语义相似度值对应的候选问题文本,在所述预先收集的问题-答案数据对中对应的答案,作为所述目标问题文本对应的答案。
可选地,在一些实施例中,处理器具体用于:针对各个候选问题文本,计算所述候选问题文本与所述目标问题文本的编辑距离,作为所述候选问题文本与所述目标问题文本的字符串相似度值;
结合所述候选问题文本与所述目标问题文本的语义相似度值和字符串相似度值,确定所述目标问题文本对应的答案。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明实施例所提供的一种自动问答处理方法及自动问答***进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (21)

  1. 一种自动问答处理方法,其特征在于,所述方法包括;
    当接收到目标问题文本时,获取所述目标问题文本对应的目标关键词;
    确定预先收集到的问题-答案数据对中与所述目标关键词匹配的候选问题文本;
    计算各个候选问题文本与所述目标问题文本的语义相似度值;
    根据所述语义相似度值,确定所述目标问题文本对应的答案。
  2. 根据权利要求1所述的方法,其特征在于,所述获取所述目标问题文本对应的目标关键词,包括:
    对所述目标问题文本进行分词处理得到所述目标问题文本中的目标候选词;
    计算所述目标问题文本中的各个目标候选词分别对应的权重值;
    将权重值最高的前M个候选词,确定为所述目标问题文本对应的目标关键词,M为自然数。
  3. 根据权利要求2所述的方法,其特征在于,所述计算所述目标问题文本中的各个目标候选词分别对应的权重值之前,还包括:
    筛除所述目标候选词中的预设类型的词语。
  4. 根据权利要求1至3中任一项所述的方法,其特征在于,所述获取所述目标问题文本对应的目标关键词之前包括:从预先收集到的问题-答案数据对中,获取问题文本;
    获取所述问题文本对应的关键词;
    建立所述关键词与所述问题文本的索引关系;
    所述确定预先收集到的问题-答案数据对中与所述目标关键词匹配的候选问题文本包括:
    从建立的所述关键词与所述问题文本的索引关系中,确定与所述目标关键词匹配的第一关键词,并获取与所述第一关键词具有索引关系的问题文本,作为所述目标问题文本的候选问题文本。
  5. 根据权利要求4所述的自动问答处理方法,其特征在于,所述获取所述问题文本对应的关键词,包括:
    对所述问题文本进行分词处理得到所述问题文本的候选词;
    计算在所述问题文本中各个候选词分别对应的权重值;
    将权重值最高的前N个候选词,确定为所述问题文本对应的关键词,N为自然数。
  6. 根据权利要求2所述的自动问答处理方法,其特征在于,所述计算在所述问题文本中各个候选词分别对应的权重值之前,还包括:
    筛除所述候选词中属于预设类型的词汇。
  7. 根据权利要求1所述的自动问答处理方法,其特征在于,所述计算各个候选问题文本与所述目标问题文本的语义相似度值,包括:
    利用预先训练的词嵌入模型,确定各个候选问题文本与所述目标问题文本分别对应的语义向量;
    针对各个候选问题文本,计算所述候选问题文本对应的语义向量与所述目标问题文本对应的语义向量之间的向量距离,作为所述候选问题文本与所述目标问题文本的语义相似度值。
  8. 根据权利要求7所述的自动问答处理方法,其特征在于,所述根据所述语义相似度值,确定所述目标问题文本对应的***括:
    将最大的语义相似度值对应的候选问题文本,在所述预先收集的问题-答案数据对中对应的答案,作为所述目标问题文本对应的答案。
  9. 根据权利要求1所述的自动问答处理方法,其特征在于,所述方法还包括:
    针对各个候选问题文本,计算所述候选问题文本与所述目标问题文本的编辑距离,作为所述候选问题文本与所述目标问题文本的字符串相似度值;
    所述根据所述语义相似度值,确定所述目标问题文本对应的答案,包括:
    结合所述候选问题文本与所述目标问题文本的语义相似度值和字符串相似度值,确定所述目标问题文本对应的答案。
  10. 一种自动问答***,其特征在于,所述***包括;
    第一获取单元,用于在接收到目标问题文本时,获取所述目标问题文本对应的目标关键词;
    第一确定单元,用于确定与所述目标关键词匹配的候选问题文本;
    第一计算单元,用于计算各个候选问题文本与所述目标问题文本的语义相似度值;
    第二确定单元,用于根据所述语义相似度值,确定所述目标问题文本对应的答案。
  11. 根据权利要求10所述的自动问答***,其特征在于,所述第一获取单元包括:
    第一分词子单元,用于在接收到目标问题文本时,对所述目标问题文本进行分词处理得到所述目标问题文本中的目标候选词;
    第一计算子单元,用于计算所述目标问题文本中的各个目标候选词分别对应的权重值;
    第一确定子单元,用于将权重值最高的前M个候选词,确定为所述目标问题文本对应的目标关键词,M为自然数。
  12. 根据权利要求11所述的自动问答***,其特征在于,所述第一获取单元还包括:
    第一筛除子单元,用于筛除所述目标候选词中的预设类型的词语。
  13. 根据权利要求10至12任一项所述的自动问答***,其特征在于,所述***还包括:
    第二获取单元,用于从预先收集到的问题-答案数据对中,获取问题文本;
    第三获取单元,用于获取所述问题文本对应的关键词;
    建立单元,用于建立所述关键词与所述问题文本的索引关系;
    所述第一确定单元具体用于:
    从建立的所述关键词与所述问题文本的索引关系中,确定与所述目标关键词匹配的第一关键词,并获取与所述第一关键词具有索引关系的问题文本,作为所述目标问题文本的候选问题文本。
  14. 根据权利要求13所述的自动问答***,其特征在于,所述第三获取单元包括:
    第二分词子单元,用于对所述问题文本进行分词处理得到所述问题文本的候选词;
    第二计算子单元,用于计算在所述问题文本中各个候选词分别对应的权重 值;
    第二确定子单元,用于将权重值最高的前N个候选词,确定为所述问题文本对应的关键词,N为自然数。
  15. 根据权利要求14所述的自动问答***,其特征在于,所述第三获取单元还包括:
    第二筛除子单元,用于筛除所述候选词中属于预设类型的词汇。
  16. 根据权利要求10所述的自动问答***,其特征在于,所述第一计算单元包括:
    第三确定子单元,用于利用预先训练的词嵌入模型,确定各个候选问题文本与所述目标问题文本分别对应的语义向量;
    第三计算子单元,用于针对各个候选问题文本,计算所述候选问题文本对应的语义向量与所述目标问题文本对应的语义向量之间的向量距离,作为所述候选问题文本与所述目标问题文本的语义相似度值。
  17. 根据权利要求16所述的自动问答***,其特征在于,所述第二确定单元具体用于:将最大的语义相似度值对应的候选问题文本,在所述预先收集的问题-答案数据对中对应的答案,作为所述目标问题文本对应的答案。
  18. 根据权利要求10所述的自动问答***,其特征在于,所述***还包括:
    第二计算单元,用于针对各个候选问题文本,计算所述候选问题文本与所述目标问题文本的编辑距离,作为所述候选问题文本与所述目标问题文本的字符串相似度值;
    所述第二确定单元,具体用于:结合所述候选问题文本与所述目标问题文本的语义相似度值和字符串相似度值,确定所述目标问题文本对应的答案。
  19. 一种自动问答***,其特征在于,所述***包括:存储器及处理器;
    所述存储器用于存储程序;
    所述处理器用于执行所述程序,具体包括如下步骤:
    当接收到目标问题文本时,获取所述目标问题文本对应的目标关键词;
    确定预先收集到的问题-答案数据对中与所述目标关键词匹配的候选问题文本;
    计算各个候选问题文本与所述目标问题文本的语义相似度值;
    根据所述语义相似度值,确定所述目标问题文本对应的答案。
  20. 一种计算机存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至9任一项所述的方法。
  21. 一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如权利要求1至9任一项所述的方法。
PCT/CN2018/077488 2017-03-03 2018-02-28 一种自动问答处理方法及自动问答*** WO2018157805A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/387,365 US11086912B2 (en) 2017-03-03 2019-04-17 Automatic questioning and answering processing method and automatic questioning and answering system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710124146.0A CN108536708A (zh) 2017-03-03 2017-03-03 一种自动问答处理方法及自动问答***
CN201710124146.0 2017-03-03

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/387,365 Continuation US11086912B2 (en) 2017-03-03 2019-04-17 Automatic questioning and answering processing method and automatic questioning and answering system

Publications (1)

Publication Number Publication Date
WO2018157805A1 true WO2018157805A1 (zh) 2018-09-07

Family

ID=63369823

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/077488 WO2018157805A1 (zh) 2017-03-03 2018-02-28 一种自动问答处理方法及自动问答***

Country Status (3)

Country Link
US (1) US11086912B2 (zh)
CN (1) CN108536708A (zh)
WO (1) WO2018157805A1 (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325126A (zh) * 2018-10-31 2019-02-12 中国电子科技集团公司电子科学研究院 语言文本的对象化处理方法、装置及计算机存储介质
CN109800292A (zh) * 2018-12-17 2019-05-24 北京百度网讯科技有限公司 问答匹配度的确定方法、装置及设备
CN110008474A (zh) * 2019-04-04 2019-07-12 科大讯飞股份有限公司 一种关键短语确定方法、装置、设备及存储介质
CN110162750A (zh) * 2019-01-24 2019-08-23 腾讯科技(深圳)有限公司 文本相似度检测方法、电子设备及计算机可读存储介质
CN110175333A (zh) * 2019-06-04 2019-08-27 科大讯飞股份有限公司 一种证据指引方法、装置、设备及存储介质
CN110674271A (zh) * 2019-08-27 2020-01-10 腾讯科技(深圳)有限公司 一种问答处理方法及装置
CN111325029A (zh) * 2020-02-21 2020-06-23 河海大学 一种基于深度学习集成模型的文本相似度计算方法
CN111325037A (zh) * 2020-03-05 2020-06-23 苏宁云计算有限公司 文本意图识别方法、装置、计算机设备和存储介质
CN111666770A (zh) * 2020-06-02 2020-09-15 泰康保险集团股份有限公司 一种语义匹配方法及装置
CN111858869A (zh) * 2020-01-03 2020-10-30 北京嘀嘀无限科技发展有限公司 一种数据匹配方法、装置、电子设备和存储介质
CN112016010A (zh) * 2020-05-27 2020-12-01 中汽数据有限公司 一种自动驾驶测试场景描述的自然语言语义库构建方法
CN112507088A (zh) * 2019-09-16 2021-03-16 顺丰科技有限公司 文本处理方法、装置、服务器及存储介质
CN112597292A (zh) * 2020-12-29 2021-04-02 招联消费金融有限公司 问题回复推荐方法、装置、计算机设备和存储介质
CN112685548A (zh) * 2020-12-31 2021-04-20 中科讯飞互联(北京)信息科技有限公司 问题回答方法以及电子设备、存储装置
CN113220832A (zh) * 2021-04-30 2021-08-06 北京金山数字娱乐科技有限公司 一种文本处理方法及装置
CN113609248A (zh) * 2021-08-20 2021-11-05 北京金山数字娱乐科技有限公司 词权重生成模型训练方法及装置、词权重生成方法及装置
CN114817512A (zh) * 2022-06-28 2022-07-29 清华大学 问答推理方法及装置
US11409964B2 (en) * 2018-12-12 2022-08-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, device and storage medium for evaluating quality of answer

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11157533B2 (en) * 2017-11-08 2021-10-26 International Business Machines Corporation Designing conversational systems driven by a semantic network with a library of templated query operators
JP6965846B2 (ja) * 2018-08-17 2021-11-10 日本電信電話株式会社 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
CN109189894B (zh) * 2018-09-20 2021-03-23 科大讯飞股份有限公司 一种答案抽取方法及装置
CN110990541A (zh) * 2018-09-30 2020-04-10 北京国双科技有限公司 一种实现问答的方法及装置
CN109359182B (zh) * 2018-10-08 2020-11-27 网宿科技股份有限公司 一种应答方法及装置
CN109522479A (zh) * 2018-11-09 2019-03-26 广东美的制冷设备有限公司 搜索处理方法及装置
CN109710732B (zh) * 2018-11-19 2021-03-05 东软集团股份有限公司 信息查询方法、装置、存储介质和电子设备
CN109857841A (zh) * 2018-12-05 2019-06-07 厦门快商通信息技术有限公司 一种faq问句文本相似度计算方法及***
CN109299478A (zh) * 2018-12-05 2019-02-01 长春理工大学 基于双向长短期记忆神经网络的智能自动问答方法及***
CN111382263B (zh) * 2018-12-27 2023-05-02 阿里巴巴集团控股有限公司 数据处理方法、装置和***
WO2020133360A1 (zh) * 2018-12-29 2020-07-02 深圳市优必选科技有限公司 问句文本的匹配方法、装置、计算机设备和存储介质
CN109829045A (zh) * 2018-12-30 2019-05-31 贝壳技术有限公司 一种问答方法和装置
CN109918560B (zh) * 2019-01-09 2024-03-12 平安科技(深圳)有限公司 一种基于搜索引擎的问答方法和装置
CN109947917A (zh) * 2019-03-07 2019-06-28 北京九狐时代智能科技有限公司 语句相似度确定方法、装置、电子设备及可读存储介质
US11151325B2 (en) * 2019-03-22 2021-10-19 Servicenow, Inc. Determining semantic similarity of texts based on sub-sections thereof
CN111858859A (zh) * 2019-04-01 2020-10-30 北京百度网讯科技有限公司 自动问答处理方法、装置、计算机设备及存储介质
CN110457432B (zh) * 2019-07-04 2023-05-30 平安科技(深圳)有限公司 面试评分方法、装置、设备及存储介质
CN110377721B (zh) * 2019-07-26 2022-05-10 京东方科技集团股份有限公司 自动问答方法、装置、存储介质及电子设备
US11403355B2 (en) * 2019-08-20 2022-08-02 Ai Software, LLC Ingestion and retrieval of dynamic source documents in an automated question answering system
CN110689225A (zh) * 2019-08-26 2020-01-14 深圳壹账通智能科技有限公司 基于外呼的企业金融风险画像创建方法及相关设备
CN112445900A (zh) * 2019-08-29 2021-03-05 上海卓繁信息技术股份有限公司 快速检索方法及***
CN110674087A (zh) * 2019-09-03 2020-01-10 平安科技(深圳)有限公司 文件查询方法、装置及计算机可读存储介质
KR102259390B1 (ko) * 2019-09-09 2021-06-02 주식회사 솔트룩스 앙상블 질의 응답을 위한 시스템 및 방법
US11301630B1 (en) * 2019-09-19 2022-04-12 Express Scripts Strategic Development, Inc. Computer-implemented automated authorization system using natural language processing
CN112632234A (zh) * 2019-10-09 2021-04-09 科沃斯商用机器人有限公司 人机交互方法、装置、智能机器人和存储介质
CN110727764A (zh) * 2019-10-10 2020-01-24 珠海格力电器股份有限公司 一种话术生成方法、装置及话术生成设备
CN110750616B (zh) * 2019-10-16 2023-02-03 网易(杭州)网络有限公司 检索式聊天方法、装置以及计算机设备
CN110928894B (zh) * 2019-11-18 2023-05-02 北京秒针人工智能科技有限公司 实体对齐的方法及装置
CN111221939B (zh) * 2019-11-22 2023-09-08 华中师范大学 评分方法、装置和电子设备
CN112836027A (zh) * 2019-11-25 2021-05-25 京东方科技集团股份有限公司 用于确定文本相似度的方法、问答方法及问答***
CN110955755A (zh) * 2019-11-29 2020-04-03 支付宝(杭州)信息技术有限公司 一种确定目标标准信息的方法和***
CN111191446B (zh) * 2019-12-10 2022-11-25 平安医疗健康管理股份有限公司 交互信息处理方法、装置、计算机设备和存储介质
CN111159367B (zh) * 2019-12-11 2023-09-05 中国平安财产保险股份有限公司 一种信息处理方法及相关设备
JP6819976B1 (ja) * 2019-12-27 2021-01-27 カラクリ株式会社 質問回答表示サーバ、質問回答表示方法及び質問回答表示プログラム
CN111309878B (zh) * 2020-01-19 2023-08-22 支付宝(杭州)信息技术有限公司 检索式问答方法、模型训练方法、服务器及存储介质
CN111325034A (zh) * 2020-02-12 2020-06-23 平安科技(深圳)有限公司 多轮对话中语义补齐的方法、装置、设备及存储介质
CN111309882B (zh) * 2020-02-13 2023-06-09 支付宝(杭州)信息技术有限公司 用于实现智能客服问答的方法和装置
JP7196122B2 (ja) * 2020-02-18 2022-12-26 株式会社東芝 インタフェース提供装置、インタフェース提供方法およびプログラム
CN111382255B (zh) * 2020-03-17 2023-08-01 北京百度网讯科技有限公司 用于问答处理的方法、装置、设备和介质
CN111444326B (zh) * 2020-03-30 2023-10-20 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及存储介质
CN111460783B (zh) * 2020-03-30 2021-07-27 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
JP7276752B2 (ja) * 2020-04-28 2023-05-18 株式会社Askプロジェクト 自然言語処理装置及び自然言語処理方法
CN111581364B (zh) * 2020-05-06 2022-05-03 厦门理工学院 一种面向医疗领域的中文智能问答短文本相似度计算方法
US10817665B1 (en) * 2020-05-08 2020-10-27 Coupang Corp. Systems and methods for word segmentation based on a competing neural character language model
CN111708862B (zh) * 2020-06-02 2024-03-15 上海硬通网络科技有限公司 文本匹配方法、装置及电子设备
CN111651474B (zh) * 2020-06-02 2023-07-25 东云睿连(武汉)计算技术有限公司 一种自然语言至结构化查询语言的转换方法及***
CN111611371B (zh) * 2020-06-17 2022-08-23 厦门快商通科技股份有限公司 基于wide and deep网络的FAQ匹配方法、装置、设备和存储介质
CN111813889A (zh) * 2020-06-24 2020-10-23 北京安博盛赢教育科技有限责任公司 一种提问信息的排序方法、装置、介质和电子设备
CN111797214A (zh) * 2020-06-24 2020-10-20 深圳壹账通智能科技有限公司 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN111782785B (zh) * 2020-06-30 2024-04-19 北京百度网讯科技有限公司 自动问答方法、装置、设备以及存储介质
CN111966784A (zh) * 2020-07-14 2020-11-20 深圳中泓在线股份有限公司 信息推荐方法、电子设备及存储介质
CN111984763B (zh) * 2020-08-28 2023-09-19 海信电子科技(武汉)有限公司 一种答问处理方法及智能设备
CN112052320B (zh) * 2020-09-01 2023-09-29 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
US11586380B2 (en) 2020-09-09 2023-02-21 Micron Technology, Inc. Memory systems including examples of calculating hamming distances for neural network and data center applications
US11636285B2 (en) * 2020-09-09 2023-04-25 Micron Technology, Inc. Memory including examples of calculating hamming distances for neural network and data center applications
US11609853B2 (en) 2020-09-09 2023-03-21 Micron Technology, Inc. Memory controllers including examples of calculating hamming distances for neural network and data center applications
CN111931477B (zh) * 2020-09-29 2021-01-05 腾讯科技(深圳)有限公司 文本匹配方法、装置、电子设备以及存储介质
CN112256841B (zh) * 2020-11-26 2024-05-07 支付宝(杭州)信息技术有限公司 文本匹配和对抗文本识别方法、装置及设备
CN112541069A (zh) * 2020-12-24 2021-03-23 山东山大鸥玛软件股份有限公司 一种结合关键词的文本匹配方法、***、终端及存储介质
CN112580325B (zh) * 2020-12-25 2023-04-07 建信金融科技有限责任公司 一种快速文本匹配方法及装置
CN112749266B (zh) * 2021-01-19 2023-03-21 海尔数字科技(青岛)有限公司 一种工业问答方法、装置、***、设备及存储介质
CN112988969B (zh) * 2021-03-09 2024-05-10 北京百度网讯科技有限公司 用于文本检索的方法、装置、设备以及存储介质
CN112948562A (zh) * 2021-04-01 2021-06-11 广东优碧胜科技有限公司 问答处理方法、装置、计算机设备及可读存储介质
CN113157868B (zh) * 2021-04-29 2022-11-11 青岛海信网络科技股份有限公司 一种基于结构化数据库匹配问题答案的方法及装置
CN113282729B (zh) * 2021-06-07 2024-06-18 北京金山数字娱乐科技有限公司 基于知识图谱的问答方法及装置
CN113220862A (zh) * 2021-06-10 2021-08-06 中国平安人寿保险股份有限公司 标准问识别方法、装置及计算机设备及存储介质
CN113254620B (zh) * 2021-06-21 2022-08-30 中国平安人寿保险股份有限公司 基于图神经网络的应答方法、装置、设备及存储介质
CN113205084B (zh) * 2021-07-05 2021-10-08 北京一起教育科技有限责任公司 一种英语听写批改方法、装置和电子设备
US11830490B2 (en) * 2021-08-11 2023-11-28 International Business Machines Corporation Multi-user voice assistant with disambiguation
CN113377943B (zh) * 2021-08-16 2022-03-25 中航信移动科技有限公司 多轮智能问答数据处理***
CN114004228A (zh) * 2021-10-28 2022-02-01 泰康保险集团股份有限公司 医疗文本数据的标准化处理方法及装置
TWI790069B (zh) * 2021-12-28 2023-01-11 高雄榮民總醫院 文獻評讀學習系統
CN114780710A (zh) * 2022-04-07 2022-07-22 青岛海尔科技有限公司 文本匹配方法和装置、存储介质及电子设备
CN117609476B (zh) * 2024-01-19 2024-04-12 北京十环信息有限公司 一种基于人工智能的公共服务数据分析***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答***实现方法
CN103019407A (zh) * 2012-11-22 2013-04-03 百度国际科技(深圳)有限公司 输入法应用方法、自动问答处理方法及电子设备、服务器
CN103400054A (zh) * 2013-08-27 2013-11-20 哈尔滨工业大学 计算机辅助心理咨询自动问答机器人***
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
SE0101127D0 (sv) * 2001-03-30 2001-03-30 Hapax Information Systems Ab Method of finding answers to questions
US20060053000A1 (en) * 2004-05-11 2006-03-09 Moldovan Dan I Natural language question answering system and method utilizing multi-modal logic
US20070073533A1 (en) * 2005-09-23 2007-03-29 Fuji Xerox Co., Ltd. Systems and methods for structural indexing of natural language text
US20090024598A1 (en) * 2006-12-20 2009-01-22 Ying Xie System, method, and computer program product for information sorting and retrieval using a language-modeling kernel function
JP5169816B2 (ja) * 2006-03-01 2013-03-27 日本電気株式会社 質問回答装置、質問回答方法および質問回答用プログラム
CN101339551B (zh) * 2007-07-05 2013-01-30 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
US8560567B2 (en) * 2011-06-28 2013-10-15 Microsoft Corporation Automatic question and answer detection
EP2748779A1 (en) * 2011-10-13 2014-07-02 Koninklijke Philips N.V. System and method with automated media-file-based quizzing
CN103425640A (zh) * 2012-05-14 2013-12-04 华为技术有限公司 一种多媒体问答***及方法
CN103886034B (zh) * 2014-03-05 2019-03-19 北京百度网讯科技有限公司 一种建立索引及匹配用户的查询输入信息的方法和设备
US10509814B2 (en) * 2014-12-19 2019-12-17 Universidad Nacional De Educacion A Distancia (Uned) System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model
CN105989040B (zh) * 2015-02-03 2021-02-09 创新先进技术有限公司 智能问答的方法、装置及***
CN106156204B (zh) * 2015-04-23 2020-05-29 深圳市腾讯计算机***有限公司 文本标签的提取方法和装置
US10133729B2 (en) * 2015-08-28 2018-11-20 Microsoft Technology Licensing, Llc Semantically-relevant discovery of solutions
US10606846B2 (en) * 2015-10-16 2020-03-31 Baidu Usa Llc Systems and methods for human inspired simple question answering (HISQA)
CN105630751A (zh) * 2015-12-28 2016-06-01 厦门优芽网络科技有限公司 一种快速比对文本内容的方法与***
US10796217B2 (en) * 2016-11-30 2020-10-06 Microsoft Technology Licensing, Llc Systems and methods for performing automated interviews

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答***实现方法
CN103019407A (zh) * 2012-11-22 2013-04-03 百度国际科技(深圳)有限公司 输入法应用方法、自动问答处理方法及电子设备、服务器
CN103400054A (zh) * 2013-08-27 2013-11-20 哈尔滨工业大学 计算机辅助心理咨询自动问答机器人***
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325126A (zh) * 2018-10-31 2019-02-12 中国电子科技集团公司电子科学研究院 语言文本的对象化处理方法、装置及计算机存储介质
US11409964B2 (en) * 2018-12-12 2022-08-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, device and storage medium for evaluating quality of answer
CN109800292A (zh) * 2018-12-17 2019-05-24 北京百度网讯科技有限公司 问答匹配度的确定方法、装置及设备
CN110162750B (zh) * 2019-01-24 2023-07-07 腾讯科技(深圳)有限公司 文本相似度检测方法、电子设备及计算机可读存储介质
CN110162750A (zh) * 2019-01-24 2019-08-23 腾讯科技(深圳)有限公司 文本相似度检测方法、电子设备及计算机可读存储介质
CN110008474A (zh) * 2019-04-04 2019-07-12 科大讯飞股份有限公司 一种关键短语确定方法、装置、设备及存储介质
CN110008474B (zh) * 2019-04-04 2023-06-02 科大讯飞股份有限公司 一种关键短语确定方法、装置、设备及存储介质
CN110175333A (zh) * 2019-06-04 2019-08-27 科大讯飞股份有限公司 一种证据指引方法、装置、设备及存储介质
CN110175333B (zh) * 2019-06-04 2023-09-26 科大讯飞股份有限公司 一种证据指引方法、装置、设备及存储介质
CN110674271A (zh) * 2019-08-27 2020-01-10 腾讯科技(深圳)有限公司 一种问答处理方法及装置
CN110674271B (zh) * 2019-08-27 2023-01-06 腾讯科技(深圳)有限公司 一种问答处理方法及装置
CN112507088A (zh) * 2019-09-16 2021-03-16 顺丰科技有限公司 文本处理方法、装置、服务器及存储介质
CN111858869B (zh) * 2020-01-03 2024-06-04 北京嘀嘀无限科技发展有限公司 一种数据匹配方法、装置、电子设备和存储介质
CN111858869A (zh) * 2020-01-03 2020-10-30 北京嘀嘀无限科技发展有限公司 一种数据匹配方法、装置、电子设备和存储介质
CN111325029B (zh) * 2020-02-21 2023-08-22 河海大学 一种基于深度学习集成模型的文本相似度计算方法
CN111325029A (zh) * 2020-02-21 2020-06-23 河海大学 一种基于深度学习集成模型的文本相似度计算方法
CN111325037A (zh) * 2020-03-05 2020-06-23 苏宁云计算有限公司 文本意图识别方法、装置、计算机设备和存储介质
CN112016010A (zh) * 2020-05-27 2020-12-01 中汽数据有限公司 一种自动驾驶测试场景描述的自然语言语义库构建方法
CN111666770B (zh) * 2020-06-02 2023-07-18 泰康保险集团股份有限公司 一种语义匹配方法及装置
CN111666770A (zh) * 2020-06-02 2020-09-15 泰康保险集团股份有限公司 一种语义匹配方法及装置
CN112597292A (zh) * 2020-12-29 2021-04-02 招联消费金融有限公司 问题回复推荐方法、装置、计算机设备和存储介质
CN112597292B (zh) * 2020-12-29 2024-04-26 招联消费金融股份有限公司 问题回复推荐方法、装置、计算机设备和存储介质
CN112685548A (zh) * 2020-12-31 2021-04-20 中科讯飞互联(北京)信息科技有限公司 问题回答方法以及电子设备、存储装置
CN112685548B (zh) * 2020-12-31 2023-09-08 科大讯飞(北京)有限公司 问题回答方法以及电子设备、存储装置
CN113220832A (zh) * 2021-04-30 2021-08-06 北京金山数字娱乐科技有限公司 一种文本处理方法及装置
CN113220832B (zh) * 2021-04-30 2023-09-05 北京金山数字娱乐科技有限公司 一种文本处理方法及装置
CN113609248A (zh) * 2021-08-20 2021-11-05 北京金山数字娱乐科技有限公司 词权重生成模型训练方法及装置、词权重生成方法及装置
CN114817512A (zh) * 2022-06-28 2022-07-29 清华大学 问答推理方法及装置
CN114817512B (zh) * 2022-06-28 2023-03-14 清华大学 问答推理方法及装置

Also Published As

Publication number Publication date
US11086912B2 (en) 2021-08-10
US20190243900A1 (en) 2019-08-08
CN108536708A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
WO2018157805A1 (zh) 一种自动问答处理方法及自动问答***
CN109885660B (zh) 一种知识图谱赋能的基于信息检索的问答***和方法
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和***
CN111324784B (zh) 一种字符串处理方法及装置
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110717034A (zh) 一种本体构建方法及装置
CN110019732B (zh) 一种智能问答方法以及相关装置
WO2020062770A1 (zh) 一种领域词典的构建方法、装置、设备及存储介质
US10783877B2 (en) Word clustering and categorization
JP7153004B2 (ja) コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体
EP3314461A1 (en) Learning entity and word embeddings for entity disambiguation
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN111414746B (zh) 一种匹配语句确定方法、装置、设备及存储介质
CN109977233B (zh) 一种成语知识图谱构建方法及装置
CN109388634B (zh) 地址信息的处理方法、终端设备及计算机可读存储介质
WO2017091985A1 (zh) 停用词识别方法与装置
CN109522397B (zh) 信息处理方法及装置
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
CN110209929B (zh) 一种简历推荐方法、装置、计算机设备及存储介质
WO2020074022A1 (zh) 一种查找同义词的方法及装置
WO2016210203A1 (en) Learning entity and word embeddings for entity disambiguation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18760789

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18760789

Country of ref document: EP

Kind code of ref document: A1