CN109582763B - 运动图像专家组媒体物联网环境中的答疑***及方法 - Google Patents

运动图像专家组媒体物联网环境中的答疑***及方法 Download PDF

Info

Publication number
CN109582763B
CN109582763B CN201811129983.3A CN201811129983A CN109582763B CN 109582763 B CN109582763 B CN 109582763B CN 201811129983 A CN201811129983 A CN 201811129983A CN 109582763 B CN109582763 B CN 109582763B
Authority
CN
China
Prior art keywords
information
speech
question
iomt
mpeg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811129983.3A
Other languages
English (en)
Other versions
CN109582763A (zh
Inventor
崔美兰
金珉湖
金铉基
柳志熙
裵倞万
裵容秦
李炯直
林秀钟
林俊浩
蒋明吉
许桢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020180097020A external-priority patent/KR102479026B1/ko
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of CN109582763A publication Critical patent/CN109582763A/zh
Application granted granted Critical
Publication of CN109582763B publication Critical patent/CN109582763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及运动图像专家组媒体物联网环境中的答疑***及方法。本发明的运动图像专家组MPEG媒体物联网IoMT环境中的答疑***包括:物联网IoT终端,被输入并传送话语信息,接收并提供答疑结果信息;以及话语分析服务器,根据MPEG IoMT数据格式,对从IoT终端提供的话语信息执行话语分析,利用话语分析后的信息与答疑服务器执行答疑之后,向IoT终端提供答疑结果信息。

Description

运动图像专家组媒体物联网环境中的答疑***及方法
技术领域
本发明用于实现MPEG IoMT环境中的答疑***及方法,涉及满足用户的多种要求的设备操作和信息传递、以及用于准确地检测出提问者关于答疑所期望的答案的装置及方法。
背景技术
以往的答疑技术仅依赖于提问者直接输入的提问文章来寻找答案,因此,很难解决多种用户的需求。
最近,随着包括可穿戴装置在内的IoT(Internet of Things,物联网)设备大量上市,仅解决简单提问的答疑***是受限的。
为了解决这种不便,需要在设备中预先对提问者的话语进行分析来把握提问者的意图。
对此,在MPEG中,为了实现IoT环境中的多媒体技术,在MPEG(Moving PictureExperts Group,运动图像专家组)IoMT(Internet of Media Things,媒体物联网)组中制作标准,且试图在其中包含答疑用户界面。
为此,正在研究对用户的话语内容进行分析,且能够在适当的IoT设备中执行基于话语内容的处理的技术。
发明内容
本发明为了解决现有问题而提出,提供MPEG IoMT环境中的答疑***及方法,针对在IoT环境中通过多种装置输入的多种形态的提问和指令相关的话语,能够实现询问处理。
本发明的目的并不局限于以上提及的目的,本领域的技术人员可从以下的记载理解未提及的其他目的。
用于实现上述目的的本发明一实施例的MPEG IoMT环境中的答疑***包括:IoT终端,被输入并传送话语信息,接收并提供答疑结果信息;以及话语分析服务器,根据MPEGIoMT数据格式,对从上述IoT终端传送的话语信息执行话语分析,利用话语分析后的信息与答疑服务器执行答疑之后,向IoT终端提供答疑结果信息。
优选地,上述MPEG IoMT的数据格式包含与用户提问类型有关的信息和与用户的提问以何种语言表现有关的信息。
而且,优选地,上述与用户提问类型有关的信息包含表示提问的主题的信息、表示提问的焦点的信息、以及表示提问的意义或目的的信息。
并且,上述提问的焦点信息被分类为“何时、何地、何物、何人、为何、如何”的分类体系,上述提问的意义或目的的信息被分类为指令请求、词汇请求、意义请求、信息请求及方法请求的分类体系。
另一方面,上述MPEG IoMT的数据格式包含以字符串(string)表现的提问域信息。
而且,本发明一实施例的IoT终端包括:输入部,被输入由用户提供的话语信息;通信部,用于向上述话语分析服务器传送所输入的上述话语信息,并从上述话语分析服务器接收答疑结果信息;以及输出部,输出从上述话语分析服务器接收的答疑结果信息。
而且,上述输入部包括被输入用户的话语信息的麦克风。
其中,上述输入部包括询问窗口(Query Interface)提供部,该询问窗口提供部在画面上输出用于输入文本形态的话语信息的用户界面。
并且,上述输入部包括用于获取图像形态的话语信息的摄像头。
另一方面,上述输出部还包括用于向画面输出答疑结果信息的画面输出部。
这种上述输出部还包括以语音来输出答疑结果信息的语音输出部。
另一方面,上述话语分析服务器包括:通信部,用于与上述IoT终端及上述答疑服务器执行数据通信;语音识别部,用于识别从上述IoT终端提供的话语信息的语音;话语分析部,根据MPEG IoMT数据格式,对进行了语音识别的上述话语信息执行话语分析;以及答疑呼叫部,利用通过上述MPEG IoMT的数据格式进行话语分析后的信息,向上述答疑服务器发出询问。
而且,上述话语分析服务器还可以包括用于将文本形态的答疑结果信息转换为语音的语音合成部。
并且,本发明的一实施例还包括话语信息判断部,判断所分析的上述话语信息是用于询问请求的信息还是用于设备控制指令的信息,如果是设备控制指令,则向传送了话语信息的上述IoT终端传递话语信息,以便执行对应的设备控制指令。
另一方面,上述语音识别部对话语信息执行词素分析、对象名称分析、句法分析的语言处理过程。
并且,上述答疑服务器利用从上述话语分析服务器接收的信息的上述MPEG IoMT的数据格式来执行询问分析,并向上述话语分析服务器提供作为上述询问分析的结果的答疑结果信息。
当存在多个答疑结果的情况下,这样的上述答疑服务器向上述话语分析服务器传送根据对于答疑结果的答案可能性信息而设定的目录信息。
本发明一实施例的MPEG IoMT环境中的答疑方法包括:话语分析服务器根据MPEGIoMT数据格式来对从IoT终端传送的话语信息执行话语分析的步骤;上述话语分析服务器利用话语分析后的信息与答疑服务器之间执行答疑的步骤;以及上述话语分析服务器向IoT终端提供答疑结果信息的步骤。
其中,上述MPEG IoMT的数据格式包含:与用户提问类型有关的信息;以及与用户的提问以何种语言表现有关的信息。
而且,上述与用户提问类型有关的信息包含表示提问的主题的信息、表示提问的焦点的信息、以及表示提问的意义或目的的信息。
因此,根据本发明的一实施例,对从IoT终端提供的用户话语进行分析,根据MPEGIoMT数据格式来对其执行话语分析而提供答疑,由此,具有在MPEG IoMT环境中也能够提供利用了用户的话语的答疑服务的效果。
附图说明
图1是用于说明本发明一实施例的MPEG IoMT环境中的答疑***的结构块的框图。
图2是示出用于说明本发明的图1所示的IoT终端的结构块的框图。
图3是示出图1所示的话语分析服务器200的块结构的框图。
图4是用于说明应用于图1所示的语音处理部的与语音识别有关的语音识别数据格式的参考图。
图5是用于说明在图1所示的话语分析服务器中利用的语音识别数据格式的参考图。
图6是用于说明在图1所示的话语分析服务器中利用的IoMT询问分析数据包格式的参考图。
图7是用于说明在图1所示的话语分析服务器中的话语分析第一例的参考图。
图8是用于说明图1所示的话语分析服务器中的话语分析第二例的参考图。
图9是用于说明当进行图1所示的话语分析服务器中的话语分析时的"Qfocus分类体系的参考图。
图10是用于说明当进行图1所示的话语分析服务器中的话语分析时的"QCsemanticCS分类体系的参考图。
图11是用于说明在图1所示的话语分析服务器中利用的语音合成数据格式的参考图。
图12是示出用于在图1所示的话语分析服务器中活用令牌的结构块的框图。
图13是用于说明本发明一实施例的MPEG IoMT环境中的答疑方法的流程图。
标号说明
100:IoT终端 200:话语分析服务器
210:第一通信部 220:语音处理部
230:话语分析部 240:话语信息判断部
250:答疑呼叫部 260:第二通信部
300:答疑服务器
具体实施方式
参照与附图一同详细后述的实施例,本发明的优点及特征、实现这些的方法将变得更加明确。但是,本发明并不局限于以下揭示的实施例,而是可体现为多种不同形态,只是,本实施例使本发明的揭示变得完整,并且为了向本领域技术人员充分告知本发明的范畴而提供,本发明通过权利要求书来定义。另一方面,在本说明书中使用的术语用于说明实施例,而并非用于限定本发明。在本说明书中,只要没有在描述中特别提及,则单数形式也包括复数形式。在说明书中所使用的“包含(comprises)”和/或“包括(comprising)”意味着提及的结构要素、步骤、动作和/或元件并不排除一个以上的其他结构要素、步骤、动作和/或元件的存在或追加。
以下,参照附图,详细说明本发明的优选实施例。图1是用于说明本发明一实施例的MPEG(Moving Picture Experts Group,以下,称之为“MPEG”)IoMT(Internet of MediaThings,以下,称之为“IoMT”)环境中的答疑***的结构块的框图。
如图1所示,本发明一实施例的MPEG IoMT环境中的答疑***包括IoT(Internetof Things(物联网),以下,称之为“IoT”)终端100、话语分析服务器200及答疑服务器300。
IoT终端100被输入由用户提供的话语信息,并传递给话语分析服务器传递,且向用户提供从话语分析服务器接收的答疑结果信息。
其中,IoT终端100是包括可穿戴设备在内的在IoT环境中使用的所有设备,可包括多种传感器、控制装置。
另一方面,IoT终端100在向话语分析服务器200提供包含用户的询问信息的话语信息时,能够一并提供设备的信息及感测(Sensing)信息。
图2是示出用于说明本发明的图1所示的IoT终端的结构块的框图。
如图2所示,IoT终端100包括输入部110、通信部120及输出部130。
输入部110被输入用户的话语信息。在本实施例中,输入部110优选为接收话语信息的输入的麦克风。但是,输入部110还可包括以下部件中的一个以上:询问窗口,在画面上输出用于接收文本形态的话语信息输入的用户界面;以及摄像头,用于获取图像形态的话语信息。
而且,通信部120向话语分析服务器200传送输入的话语信息,并从话语分析服务器200接收答疑结果信息。其中,通信部120所交换的信息中可包含语音、文本、图像等的数据、话语分析的结果中的设备控制指令、用户提问的提问文章及作为答疑结果信息的答案候选目录。
并且,输出部130输出从话语分析服务器200提供的答疑结果信息。在本实施例中,输出部130可包括以下部件中的至少一个以上:画面输出部130,通过用户界面,在画面输出答疑结果信息;以及语音输出部130,以语音方式输出答疑结果信息。
而且,话语分析服务器200根据MPEG IoMT数据格式,对从IoT终端100提供的话语信息进行话语分析,利用话语分析后的信息与答疑服务器300执行答疑之后,向IoT终端100提供上述答疑结果信息。
图3是示出图1所示的话语分析服务器200的块结构的框图。如图3所示,话语分析服务器200包括第一通信部210、语音处理部220、话语分析部230、话语信息判断部240、答疑呼叫部250及第二通信部270。
第一通信部210与IoT终端100进行通信。
而且,语音处理部220用于识别从IoT终端100提供的话语信息的语音。
图4是用于说明应用于图1所示的语音处理部的与语音识别有关的语音识别数据格式的参考图。
为此,如图4及以下的表1所示,语音处理部220利用由提供与语音识别有关的描述摘要的“SpeechRecognitionType”(语音识别类型)字段和描述语音识别的结果文本的“speechText”(语音文本)字段形成的语音识别数据格式。此时,话语信息可经过如词素分析、对象名称分析、句法分析等的一般语言处理过程。
[表1]
图5是用于说明图1所示的话语分析结果的参考图。
例如,当分析的数据为语音识别结果,且其为根据用户的语音而输出的文本的“Please turn to Channel 7”(请转换到频道7)的情况下,如图5所示,语音处理部220可知在“SpeechRecognitionType”字段中包括“xai:type”,在“speechText”字段中包括“Pleaseturn to Channel 7”。
并且,如图6及表2所示,话语分析部230根据MPEG IoMT数据格式,对语音识别的话语信息进行话语分析。
话语分析及询问分析为“QuestionAnalysisType”(询问分析类型),其作为扩展在MPEG IoMT中使用的数据分析基本类型的形态,由2个元素(element)构成。
一个作为分析的“anlyzedQuestion”(提问元素),成为“UserQuestionType”(用户提问类型),另一个作为语言元素,分析用户的提问由何种“language”(语言)呈现并告知。即,上述两个元素表示与被分析的提问相关的信息。
“UserQuestionType”(用户提问类型)由3个元素和1个特性(attribute)构成。
第一个元素表示“Qtopic”(提问主题),且以字符串的形态来呈现,第二个元素表示“Qfocus”(提问的焦点)。
其中,如图9及表3所示,“Qfocus”(提问的焦点)预先通过CQfocus分类体系进行分类并呈现。
第三个元素为提问的意义或目的,上述要素在表的最后,作为提问的特性,存在“qdomain”(提问域),其能够将提问的领域以列(string)呈现。即,当分析了用户的提问时,分析结果被分为提问的主题、焦点、意义、领域来呈现,这种表现格式被传递给服务器或终端的适当模块以便执行需要的动作。
[表2]
其中,如下表3所示,在CQfocus分类体系中,呈现出用户的提问与在5W1H中的一个相对应。而且,对于提问即“何时、何地、何物、何人、为何、如何”的提问,可通过二进制呈现。
[表3]
二进制表示 QfocusCS的术语ID
0000 What_question
0001 Where_question
0010 When_question
0011 Who_question
0100 Why_question
0101 How_question
0110~1111 保留
而且,如以下表4所示,在“QCsemanticCS”分类体系中,对于“指令请求、词汇请求、意义请求、信息请求、方法请求”这样的提问,可通过二进制呈现。
[表4]
例如,如图7所示,若与“Who is the author of King Lear?”这样的用户询问有关的询问分析结果为“analyzedQuestion”和语言“en-us”,则从询问分析结果可知,提问的域为“Literature”,询问主题为“King Lear”,询问焦点为“Who”,提问的目的为“Request_for_inforamtion”。
即,作为第一个提问的“Who is the author of King Lear”,首先,分析出语言为英语,且分析出提问的主题为李尔王(King Lear),焦点为“何人”,提问的意义、目的为“信息请求”,可看出分析结果被适当包含在格式中。
观察第二个例,如图8所示,若与“How do you make Kimchi?”这样的用户询问有关的询问分析结果为“analyzedQuestion”和语言“en-us”,则从询问分析结果可知,提问的域为“Cooking”,询问的主题为“Kimchi”,询问焦点为“How”,询问的目的为“Request_for_method”。
即,第二个提问的例为“How do you make Kimchi?”,上述提问也同样分析为英语,提问的领域为“料理”,提问的主题为“泡菜”,提问的焦点为“如何”,提问的目的为“信息请求”并包含在格式中,且在模块之间共享。
而且,话语信息判断部240判断被分析的话语信息是用于询问请求的信息还是用于设备控制指令的信息。若分析的话语信息为设备控制指令,则话语信息判断部240向对应IoT终端100传递话语信息以便执行对应设备控制指令。
而且,在被分析的话语信息为询问信息的情况下,答疑呼叫部250利用第二通信部260向答疑服务器300传递通过上述MPEG IoMT的数据格式进行了话语分析的信息,从而进行询问。其中,第二通信部260与答疑服务器300进行通信。
另一方面,语音合成部270通过上述答疑服务器300,向IoT终端100传递答疑结果信息。此时,上述答疑服务器300接收的答疑结果信息为文本时,如图11所示,可利用语音合成数据格式将文本形态的答疑执行结果转变为语音,并通过第一通信部210向IoT终端100传送。
其中,如表5所示,语音合成数据格式由如下字段形成:提供与可在语音合成部中执行的语音合成有关的抽象说明的SpeechSynthesisType字段、说明在语音合成过程中需要合成的文本输入的TextInput字段、当输出语音时表示在语音输出中所反映的性别、音调、语速等语音输出特征的OutputSpeechFeature字段、以及表示输入的语音的语言的Language字段。
[表5]
而且,若上述话语分析服务器200利用MPEG IoMT的数据来请求询问,则答疑服务器300利用在MPEG IoMT的数据中所包含的询问分析信息来分析询问,并将其分析结果的答疑结果信息传送给上述话语分析服务器200。
因此,根据本发明的一实施例,对从IoT终端提供的用户话语进行分析,根据MPEGIoMT数据格式执行话语分析来提供答疑,由此,具有在MPEG IoMT环境中也能够提供利用了用户的话语的答疑服务。
本发明一实施例的话语分析服务器200还可包括对从IoT终端100传送的终端的位置信息与存储于数据库的终端的位置信息(Point of Interest,以下,称之为“POI”)进行比较从而识别终端用户的位置的位置信息搜索部(未图示)。
图12是示出用于在图1所示的话语分析服务器中活用令牌的结构块的框图。
如图12所示,本发明一实施例的话语分析服务器200还可包括在MPEG IoMT中利用的语音识别用API(Application Programming Interface,应用程序编程接口)处理部281、语音合成用API处理部282及询问分析用API处理部283。
如表6所示,语音识别用API处理部281利用使用了将MAnalyzer类(Calss)扩展后的IoMT语音识别器的类的API数据包格式。
[表6]
而且,如表7所示,语音合成用API处理部282利用使用了将MAnalyzer类进行扩展的IoMT语音合成器的类的API数据包格式。
[表7]
/>
并且,如表8所示,询问分析用API处理部283利用使用了将MAnalyzer类进行扩展的IoMT询问分析器的类的API数据包格式。
[表8]
/>
因此,话语分析服务器每当在MPEG IoMT环境中提供询问分析、语音识别、语音合成等的服务时,可提供交易服务。
以下,参考图12,说明本发明一实施例的MPEG IoMT环境中的答疑方法。
图13是MPEG IoMT环境中的答疑处理方法,优选通过话语分析服务器执行。
首先,话语分析服务器200接收从IoT终端100传送的话语信息的输入(S100)。
于是,话语分析服务器200根据MPEG IoMT数据格式,对输入的话语信息执行话语分析(S200)。其中,上述MPEG IoMT的数据格式包含与用户的提问类型有关的信息和与用户的提问以何种语言表现有关的信息。
而且,与上述用户提问类型有关的信息包含表示提问的主题的信息、表示提问的焦点的信息、以及表示提问的意义或目的的信息。
并且,上述提问的焦点信息被分类为如“何时、何地、何物、何人、为何、如何”的分类体系,上述提问的意义及目的信息被分类为如指令请求、词汇请求、意义请求、信息请求及方法请求等的分类体系。
另一方面,上述MPEG IoMT的数据格式可包括以字符串表现的提问域信息。
此时,话语分析服务器200判断被分析的话语分析结果是否为有关询问的话语分析结果(S300)。
在上述判断步骤S300中,若为用于询问的话语(是),则上述话语分析服务器200利用进行了话语分析的信息,与答疑服务器执行答疑(S400)。
之后,上述话语分析服务器200向IoT终端提供上述答疑结果信息(S500)。
另一方面,在上述判断步骤S300中,若为有关设备控制的话语(否),则向IoT终端100提供话语分析内容(S600)。
因此,根据本发明的一实施例,对从IoT终端提供的用户话语进行分析,根据MPEGIoMT数据格式来对其执行话语分析并提供答疑,由此,具有在MPEG IoMT环境中也能够提供利用了用户的话语的答疑服务的效果。
以上,参照附图,详细说明了本发明的结构,但这只不过是例示,只要是本领域的技术人员,在不超出本发明的技术思想的范围内,可进行多种变形和变更是理所当然的。因此,本发明的保护范围并不局限于上述实施例,而应通过权利要求书的记载来定义。

Claims (18)

1.一种运动图像专家组MPEG媒体物联网IoMT环境中的答疑***,其特征在于,包括:
物联网IoT终端,被输入并传送话语信息,接收并提供答疑结果信息;
话语分析服务器,根据MPEG IoMT数据格式,对从上述IoT终端传送的话语信息执行话语分析,利用话语分析后的信息与答疑服务器执行答疑之后,向IoT终端提供答疑结果信息;以及
答疑服务器,利用从上述话语分析服务器接收的信息的上述MPEG IoMT的数据格式来执行询问分析,并向上述话语分析服务器提供作为上述询问分析的结果的答疑结果信息,当存在多个答疑结果的情况下,向上述话语分析服务器传送根据对于答疑结果的答案可能性信息而设定的目录信息,
其中,上述话语分析服务器包括:
通信部,用于与上述IoT终端及上述答疑服务器执行数据通信;
语音识别部,用于识别从上述IoT终端提供的话语信息的语音;
话语分析部,根据MPEG IoMT数据格式,对进行了语音识别的上述话语信息执行话语分析;
答疑呼叫部,利用通过上述MPEG IoMT的数据格式进行话语分析后的信息,向上述答疑服务器发出询问;以及
话语信息判断部,判断所分析的上述话语信息是用于询问请求的信息还是用于设备控制指令的信息,如果是设备控制指令,则向传送了话语信息的上述IoT终端传递话语信息,以便执行对应的设备控制指令。
2.根据权利要求1所述的MPEG IoMT环境中的答疑***,其特征在于,上述MPEG IoMT的数据格式包含与用户提问类型有关的信息和与用户的提问以何种语言表现有关的信息。
3.根据权利要求2所述的MPEG IoMT环境中的答疑***,其特征在于,上述与用户提问类型有关的信息包含表示提问的主题的信息、表示提问的焦点的信息、以及表示提问的意义或目的的信息。
4.根据权利要求2所述的MPEG IoMT环境中的答疑***,其特征在于,上述提问的焦点信息被分类为“何时、何地、何物、何人、为何、如何”的分类体系。
5.根据权利要求2所述的MPEG IoMT环境中的答疑***,其特征在于,上述提问的意义或目的的信息被分类为指令请求、词汇请求、意义请求、信息请求及方法请求的分类体系。
6.根据权利要求2所述的MPEG IoMT环境中的答疑***,其特征在于,上述MPEG IoMT的数据格式包含以字符串表现的提问域信息。
7.根据权利要求1所述的MPEG IoMT环境中的答疑***,其特征在于,上述IoT终端包括:
输入部,被输入由用户提供的话语信息;
通信部,用于向上述话语分析服务器传送所输入的上述话语信息,并从上述话语分析服务器接收答疑结果信息;以及
输出部,输出从上述话语分析服务器接收的答疑结果信息。
8.根据权利要求7所述的MPEG IoMT环境中的答疑***,其特征在于,上述输入部包括询问窗口提供部,该询问窗口提供部在画面上输出用于输入文本形态的话语信息的用户界面。
9.根据权利要求7所述的MPEG IoMT环境中的答疑***,其特征在于,上述输入部包括用于获取图像形态的话语信息的摄像头。
10.根据权利要求7所述的MPEG IoMT环境中的答疑***,其特征在于,上述输入部包括被输入用户的话语信息的麦克风。
11.根据权利要求7所述的MPEG IoMT环境中的答疑***,其特征在于,上述输出部还包括用于向画面输出答疑结果信息的画面输出部。
12.根据权利要求7所述的MPEG IoMT环境中的答疑***,其特征在于,上述输出部还包括以语音来输出答疑结果信息的语音输出部。
13.根据权利要求1所述的MPEG IoMT环境中的答疑***,其特征在于,上述话语分析服务器还包括用于将文本形态的答疑结果信息转换为语音的语音合成部。
14.根据权利要求1所述的MPEG IoMT环境中的答疑***,其特征在于,上述语音识别部对话语信息执行词素分析、对象名称分析、句法分析的语言处理过程。
15.一种运动图像专家组MPEG媒体物联网IoMT环境中的答疑方法,其特征在于,包括:
话语分析服务器根据MPEG IoMT数据格式来对从物联网IoT终端传送的话语信息执行话语分析;
上述话语分析服务器判断所分析的上述话语信息是用于询问请求的信息还是用于设备控制指令的信息;
如果上述话语信息是用于询问请求的信息,上述话语分析服务器利用话语分析后的信息与答疑服务器之间执行答疑并且上述话语分析服务器向IoT终端提供答疑结果信息;以及
如果上述话语信息是用于设备控制指令的信息,上述话语分析服务器向传送了话语信息的上述IoT终端传递话语信息,以便执行对应的设备控制指令,
其中,上述话语分析服务器根据MPEG IoMT数据格式来对从物联网IoT终端传送的话语信息执行话语分析包括:
识别从上述IoT终端提供的话语信息的语音;以及
根据MPEG IoMT数据格式,对进行了语音识别的上述话语信息执行话语分析,
并且其中,上述话语分析服务器利用话语分析后的信息与答疑服务器之间执行答疑包括:
上述话语分析服务器利用通过上述MPEG IoMT的数据格式进行话语分析后的信息,向上述答疑服务器发出询问;
上述答疑服务器利用从上述话语分析服务器接收的信息的上述MPEG IoMT的数据格式来执行询问分析,并向上述话语分析服务器提供作为上述询问分析的结果的答疑结果信息,当存在多个答疑结果的情况下,向上述话语分析服务器传送根据对于答疑结果的答案可能性信息而设定的目录信息。
16.根据权利要求15所述的MPEG IoMT环境中的答疑方法,其特征在于,上述MPEG IoMT的数据格式包含:
与用户提问类型有关的信息;以及
与用户的提问以何种语言表现有关的信息。
17.根据权利要求16所述的MPEG IoMT环境中的答疑方法,其特征在于,上述与用户提问类型有关的信息包含表示提问的主题的信息、表示提问的焦点的信息、以及表示提问的意义或目的的信息。
18.根据权利要求17所述的MPEG IoMT环境中的答疑方法,其特征在于,
上述提问的焦点信息被分类为“何时、何地、何物、何人、为何、如何”的分类体系,
上述提问的意义或目的信息被分类为指令请求、词汇请求、意义请求、信息请求及方法请求的分类体系。
CN201811129983.3A 2017-09-27 2018-09-27 运动图像专家组媒体物联网环境中的答疑***及方法 Active CN109582763B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2017-0125232 2017-09-27
KR20170125232 2017-09-27
KR1020180097020A KR102479026B1 (ko) 2017-09-27 2018-08-20 MPEG IoMT 환경에서의 질의응답 시스템 및 방법
KR10-2018-0097020 2018-08-20

Publications (2)

Publication Number Publication Date
CN109582763A CN109582763A (zh) 2019-04-05
CN109582763B true CN109582763B (zh) 2023-08-22

Family

ID=65919920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811129983.3A Active CN109582763B (zh) 2017-09-27 2018-09-27 运动图像专家组媒体物联网环境中的答疑***及方法

Country Status (1)

Country Link
CN (1) CN109582763B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187990A (zh) * 2007-12-14 2008-05-28 华南理工大学 一种会话机器人***
KR20080095180A (ko) * 2007-04-23 2008-10-28 한국전자통신연구원 멀티미디어 콘텐츠를 검색하는 방법 및 장치
KR20130108173A (ko) * 2012-03-22 2013-10-02 진삼순 유무선 통신 네트워크를 이용한 음성인식 질의응답 시스템 및 그 운용방법
CN104821109A (zh) * 2015-05-26 2015-08-05 北京云江科技有限公司 一种基于图像和语音信息的在线答疑***
WO2016175354A1 (ko) * 2015-04-29 2016-11-03 주식회사 아카인텔리전스 인공지능 대화 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080095180A (ko) * 2007-04-23 2008-10-28 한국전자통신연구원 멀티미디어 콘텐츠를 검색하는 방법 및 장치
CN101187990A (zh) * 2007-12-14 2008-05-28 华南理工大学 一种会话机器人***
KR20130108173A (ko) * 2012-03-22 2013-10-02 진삼순 유무선 통신 네트워크를 이용한 음성인식 질의응답 시스템 및 그 운용방법
WO2016175354A1 (ko) * 2015-04-29 2016-11-03 주식회사 아카인텔리전스 인공지능 대화 장치 및 방법
CN104821109A (zh) * 2015-05-26 2015-08-05 北京云江科技有限公司 一种基于图像和语音信息的在线答疑***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数字校园混合模式下答疑***的设计与实现;康金辉;《武汉理工大学学报(信息与管理工程版)》;20091215(第06期);全文 *

Also Published As

Publication number Publication date
CN109582763A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
KR20180025121A (ko) 메시지 입력 방법 및 장치
US20190221208A1 (en) Method, user interface, and device for audio-based emoji input
CN111651497B (zh) 用户标签挖掘方法、装置、存储介质及电子设备
CN110288995B (zh) 基于语音识别的交互方法、装置、存储介质和电子设备
KR20010034113A (ko) 지능형 인간/컴퓨터 인터페이스 시스템
CN108710653B (zh) 一种绘本朗读点播方法、装置及***
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN110827803A (zh) 方言发音词典的构建方法、装置、设备及可读存储介质
CN116595148B (zh) 一种利用大型语言模型实现对话流程的方法及***
US20140358543A1 (en) Linked-work assistance apparatus, method and program
US20190341059A1 (en) Automatically identifying speakers in real-time through media processing with dialog understanding supported by ai techniques
KR20200104544A (ko) 대화 의도 실시간 분석 방법
CN116150339A (zh) 对话方法、装置、设备及存储介质
US20230351117A1 (en) Conversation intention real-time analysis method
CN109582763B (zh) 运动图像专家组媒体物联网环境中的答疑***及方法
JPH11203295A (ja) 情報提供装置および方法
CN116629236A (zh) 一种待办事项提取方法、装置、设备及存储介质
KR102479026B1 (ko) MPEG IoMT 환경에서의 질의응답 시스템 및 방법
US20050288933A1 (en) Information input method and apparatus
KR20010064061A (ko) 음성 인식 기능을 갖는 검색 엔진
US20060015340A1 (en) Operating system and method
US11657806B2 (en) Information output system and information output method
CN110717020B (zh) 语音问答方法、装置、计算机设备和存储介质
CN114860910A (zh) 智能对话方法及***
CN114528851A (zh) 回复语句确定方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant