CN113076770A - 基于方言识别的人物画像智能终端 - Google Patents
基于方言识别的人物画像智能终端 Download PDFInfo
- Publication number
- CN113076770A CN113076770A CN201911300189.5A CN201911300189A CN113076770A CN 113076770 A CN113076770 A CN 113076770A CN 201911300189 A CN201911300189 A CN 201911300189A CN 113076770 A CN113076770 A CN 113076770A
- Authority
- CN
- China
- Prior art keywords
- dialect
- prisoner
- prisoners
- intelligent terminal
- prison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 claims abstract description 29
- 238000012937 correction Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 11
- 230000001815 facial effect Effects 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims abstract description 3
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 238000012360 testing method Methods 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims abstract description 3
- 238000004458 analytical method Methods 0.000 claims description 33
- 238000005516 engineering process Methods 0.000 claims description 20
- 238000012544 monitoring process Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 3
- 230000003340 mental effect Effects 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Animal Behavior & Ethology (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于人工智能领域,本发明提供了一种基于方言识别的人物画像智能终端。该方法包括:步骤(1)输入不同方言的关键词;(2)对方言关键词进行预处理;(3)进行特征提取;(4)训练方言样本并测试样本;(5)形成方言库;(6)输入服刑人员的音频文件,与方言库的数据进行匹配,输出结果;(7)输入服刑人员的视频文件;(8)进行面部情感捕捉;(9)在标签库匹配数据;(10)将服刑人员音频输出文件与标签库数据结合;(11)输出服刑人员用户画像。本发明可无法听懂多种方言的问题,及基于人物画像,给服刑人员提供智能矫治方案,实现“一人一策”,解决警力不足问题。
Description
技术领域
本发明是属于人工智能领域,本发明提供了一种基于方言识别的人物画像智能终端。
背景技术
人工智能企业的主要应用领域主要集中在金融、电商、安防、教育等领域。应用于监狱领域还是首次,本项目使用的人工智能中的多项技术,包括计算机视觉技术,语音识别技术,深度学习的搜索算法和推荐算法,文字图像识别,指纹识别等,实现对监狱服刑人员的基础信息管理,服刑人员与服刑人员、服刑人员与探监人员的语言交流(包括方言)的监听与分析,服刑人员的日常生活智能管理,以及制定服刑人员一人一策的矫治改造方针。不仅可以节省监狱管理中的人力物力,还填补了监狱信息化工作中的一项空白,对促进我国监狱监管与服刑人员改造与矫治以及深入开展监狱信息化建设有着举足轻重的意义。
发明内容
本发明的目的是:提供一种基于方言识别的人物画像智能终端,本发明可无法听懂多种方言的问题,及基于人物画像,给服刑人员提供智能矫治方案,实现“一人一策”,解决警力不足问题。
为了实现上述技术目的,本发明采用的技术方案如下:(1)输入不同方言的关键词;(2)对方言关键词进行预处理;(3)进行特征提取;(4)训练方言样本并测试样本;(5)形成方言库;(6)输入服刑人员的音频文件,与方言库的数据进行匹配,输出结果;(7)输入服刑人员的视频文件;(8)进行面部情感捕捉;(9)在标签库匹配数据;(10)将服刑人员音频输出文件与标签库数据结合;(11)输出服刑人员用户画像。
所述的内容还包括在墙面或桌面固定一个平板终端,进行实时语音转文本显示,如同字幕一样,辅助狱警的监听工作,减轻狱警在监听过程中的精神压力。同时可以快速对某段话进行特殊标识,如危险、重点关注、听不清等,方便后台进行监听审核。
所述的内容还包括语音识别技术,基于MFCC特征分析,HMM-GMM模型,深度神经网络的语音识别技术,用于服刑人员使用的多地方言的语音识别。通过边缘计算,筛选出敏感关键词,存储到云服务器,解决监狱管理人员无法听懂方言的问题,同时可以根据服刑人员话语中的敏感关键词作心理情绪分析,分析人物画像,构建服刑人员知识图谱。
所述的内容还包括用于会话监听过程中,实时识别服刑人员使用的各地方言,通过自动识别敏感关键词进行预警与标注,生成情绪标签,建立用户画像知识图谱。
所述的内容还包括通过语音识别,将服刑人员会见音频或视频进行语音识别生成文本;实现监狱地图可视化及服刑人员一览表。
所述的内容还包括通过角色分析分离谈话人内容并生成对话文本及波形图,实现声文同步、自由选择角色、语音段播放等。
所述的内容还包括远程会见保存的视频文件可以先抽取音频,然后进行语音识别保存文本文件。
所述的内容还包括对于视频会议,主要是关于犯人矫治、监狱治理的视频教育,可以向狱警和干部传达先进的犯人矫治理念。将一些视频内容开放给犯人,可以让犯人理解犯人矫治理念,从而配合监狱的管理工作。对于会议视频,通过关键字识别能够生成既定格式的会议纪要。
所述的内容还包括通过文本处理技术、专业领域词汇表权重分配,实现关键词识别、短串语义关联、语义索引、上下文语义理解。
所述的内容还包括构建知识图谱和人物关系分析:在服刑人员会见历史记录数据和基础信息数据的基础上,绘制服刑人员人物画像和人物关系网,犯人矫治方针知识图谱。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明的原理示意图。
具体实施方式
语音识别技术,基于MFCC特征分析,HMM-GMM模型,深度神经网络的语音识别技术,用于服刑人员使用的多地方言的语音识别。通过边缘计算,筛选出敏感关键词,存储到云服务器,解决监狱管理人员无法听懂方言的问题,同时可以根据服刑人员话语中的敏感关键词作心理情绪分析,分析人物画像,构建服刑人员知识图谱。
基于深度学习的搜索算法和推荐算法,服刑人员与智能矫治机器人进行问答交互时,智能矫治机器人自动提取与匹配服刑人员用户画像(包括语音记录,心理情绪分析记录,问答记录等),作出针对该服刑人员特定的信息反馈,推荐一个最优的答案。
基于深度学习的人脸检测算法,将对此项目中人脸和情感的复杂性和非结构化的特征做优化的分析。本项目将结合基于深度学习的自动分析,并结合可视分析方法,而实现对人物做半自动的情感分析,达到更加优化的情感分析结果。特定地,针对服人员所拍摄的视频,首先被分成若干帧图像,每一帧都使用人脸检测、人物识别的技术、进而分析出人物的面部表情。在对普通人的情感描述中,我们适用了7种基本类型:生气,惊喜,快乐,中立,悲伤,厌恶,恐惧。使用特定的优化方法,将基本的感分类再做细化,从而提升服刑人员的情感分析的准确性。本项目收集在监狱所拍摄的视频数据,对人脸检测技术进行实测,并针对性地做优化。为更好的理解服刑人员,在识别人物的过程中还增加了以下特征,包括:面部标志,正脸侧脸,遮挡程度等。本项目为了提升对情感分析的准确性,还将获取公开的tedtalks的数据,和其他可以应用到情感分析的公开数据集。
语音合成技术,通过语音合成技术,将文本内容合成语音,在人机交互中发挥功能。
信号处理技术,对音频文件的首尾端静音切除,减少干扰。同时能够标记模糊音段(即音频较低,不容易听清楚的音频),实现特定音频可重点重复的收听,以免遗漏重要对话内容。同时通过音频生成音频波形图,实现声文同步,提升用户体验与数据展示效果。
语义分析技术,通过文本处理技术、专业领域词汇表权重分配,实现短串语义关联、语义索引、上下文语义理解。在此基础上可以构建知识图谱与人物关系。
用于会话监听过程中,实时识别服刑人员使用的各地方言,通过自动识别敏感关键词进行预警与标注,生成情绪标签,建立用户画像知识图谱。
通过语音识别,将服刑人员会见音频或视频进行语音识别生成文本;实现监狱地图可视化及服刑人员一览表。
通过角色分析分离谈话人内容并生成对话文本及波形图,实现声文同步、自由选择角色、语音段播放等。远程会见保存的视频文件可以先抽取音频,然后进行语音识别保存文本文件
对于视频会议,主要是关于犯人矫治、监狱治理的视频教育,可以向狱警和干部传达先进的犯人矫治理念。将一些视频内容开放给犯人,可以让犯人理解犯人矫治理念,从而配合监狱的管理工作。对于会议视频,通过关键字识别能够生成既定格式的会议纪要。
用于教育矫治过程中,与服刑人员进行智能语音问答,通过深度学习与用户画像,利用最优推荐算法,实时推送一人一策改造方案内容,声文并茂进行场景化教育和改造,提高改造效果,并显著减少管理成本。语义分析:通过文本处理技术、专业领域词汇表权重分配,实现关键词识别、短串语义关联、语义索引、上下文语义理解。
构建知识图谱和人物关系分析:在服刑人员会见历史记录数据和基础信息数据的基础上,绘制服刑人员人物画像和人物关系网,犯人矫治方针知识图谱。
基于人脸检测的情感分析:情感分析主要研究人们对某种事物的意见和情绪,比较常多见的情感表达形式是在网络上发表正面或负面意见,也因此文本情感分析也被广泛研究和应用。这一种研究所基于文本和语义的分析,是主观类型的情感分析。此项目着重的是客观类型的情感分析,是对主观类型的情感分析的一个有益补充。情感表达形式是通过视频中人脸、面部表情、人物四肢移动的表达,当人物出现不自觉的情感表达的时候,使用自动化的分析方法就可以比较准确地了解人物的喜怒哀乐。这种自动分析的方法不需要借助于主观描述,从而可以应用特定的场景中。譬如,在监狱人员的日常监管中,服刑人员并不会过多地主观描述自己的感受。此项目利用深度学习技术结合视频分析技术,提高视频情感分析的准确度,从而达到更好地分析情感、关联分析人物情感和行为、并做情感和行为的预测。
Claims (10)
1.基于方言识别的人物画像智能终端,其特征在于:(1)输入不同方言的关键词;(2)对方言关键词进行预处理;(3)进行特征提取;(4)训练方言样本并测试样本;(5)形成方言库;(6)输入服刑人员的音频文件,与方言库的数据进行匹配,输出结果;(7)输入服刑人员的视频文件;(8)进行面部情感捕捉;(9)在标签库匹配数据;(10)将服刑人员音频输出文件与标签库数据结合;(11)输出服刑人员用户画像;本发明可无法听懂多种方言的问题,及基于人物画像,给服刑人员提供智能矫治方案,实现“一人一策”,解决警力不足问题。
2.根据权利要求1所述的基于方言识别的人物画像智能终端,其特征在于:在墙面或桌面固定一个平板终端,进行实时语音转文本显示,如同字幕一样,辅助狱警的监听工作,减轻狱警在监听过程中的精神压力;同时可以快速对某段话进行特殊标识,如危险、重点关注、听不清等,方便后台进行监听审核。
3.根据权利要求2所述的基于方言识别的人物画像智能终端,其特征在于:语音识别技术,基于MFCC特征分析,HMM-GMM模型,深度神经网络的语音识别技术,用于服刑人员使用的多地方言的语音识别;通过边缘计算,筛选出敏感关键词,存储到云服务器,解决监狱管理人员无法听懂方言的问题,同时可以根据服刑人员话语中的敏感关键词作心理情绪分析,分析人物画像,构建服刑人员知识图谱。
4.根据权利要求3所述的基于方言识别的人物画像智能终端,其特征在于:用于会话监听过程中,实时识别服刑人员使用的各地方言,通过自动识别敏感关键词进行预警与标注,生成情绪标签,建立用户画像知识图谱。
5.根据权利要求4所述的基于方言识别的人物画像智能终端,其特征在于:通过语音识别,将服刑人员会见音频或视频进行语音识别生成文本;实现监狱地图可视化及服刑人员一览表。
6.根据权利要求5所述的基于方言识别的人物画像智能终端,其特征在于:通过角色分析分离谈话人内容并生成对话文本及波形图,实现声文同步、自由选择角色、语音段播放等。
7.根据权利要求6所述的基于方言识别的人物画像智能终端,其特征在于:远程会见保存的视频文件可以先抽取音频,然后进行语音识别保存文本文件。
8.根据权利要求7所述的基于方言识别的人物画像智能终端,其特征在于:对于视频会议,主要是关于犯人矫治、监狱治理的视频教育,可以向狱警和干部传达先进的犯人矫治理念;将一些视频内容开放给犯人,可以让犯人理解犯人矫治理念,从而配合监狱的管理工作;对于会议视频,通过关键字识别能够生成既定格式的会议纪要。
9.根据权利要求8所述的基于方言识别的人物画像智能终端,其特征在于:语义分析:通过文本处理技术、专业领域词汇表权重分配,实现关键词识别、短串语义关联、语义索引、上下文语义理解。
10.根据权利要求9所述的基于方言识别的人物画像智能终端,其特征在于:构建知识图谱和人物关系分析:在服刑人员会见历史记录数据和基础信息数据的基础上,绘制服刑人员人物画像和人物关系网,犯人矫治方针知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911300189.5A CN113076770A (zh) | 2019-12-18 | 2019-12-18 | 基于方言识别的人物画像智能终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911300189.5A CN113076770A (zh) | 2019-12-18 | 2019-12-18 | 基于方言识别的人物画像智能终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113076770A true CN113076770A (zh) | 2021-07-06 |
Family
ID=76608259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911300189.5A Pending CN113076770A (zh) | 2019-12-18 | 2019-12-18 | 基于方言识别的人物画像智能终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113076770A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210272225A1 (en) * | 2017-04-19 | 2021-09-02 | Global Tel*Link Corporation | Mobile correctional facility robots |
CN115658933A (zh) * | 2022-12-28 | 2023-01-31 | 四川大学华西医院 | 心理状态知识库构建方法、装置、计算机设备及存储介质 |
CN116884392A (zh) * | 2023-09-04 | 2023-10-13 | 浙江鑫淼通讯有限责任公司 | 一种基于数据分析的语音情感识别方法 |
US11959733B2 (en) | 2017-04-19 | 2024-04-16 | Global Tel*Link Corporation | Mobile correctional facility robots |
-
2019
- 2019-12-18 CN CN201911300189.5A patent/CN113076770A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210272225A1 (en) * | 2017-04-19 | 2021-09-02 | Global Tel*Link Corporation | Mobile correctional facility robots |
US11959733B2 (en) | 2017-04-19 | 2024-04-16 | Global Tel*Link Corporation | Mobile correctional facility robots |
CN115658933A (zh) * | 2022-12-28 | 2023-01-31 | 四川大学华西医院 | 心理状态知识库构建方法、装置、计算机设备及存储介质 |
CN116884392A (zh) * | 2023-09-04 | 2023-10-13 | 浙江鑫淼通讯有限责任公司 | 一种基于数据分析的语音情感识别方法 |
CN116884392B (zh) * | 2023-09-04 | 2023-11-21 | 浙江鑫淼通讯有限责任公司 | 一种基于数据分析的语音情感识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Audio caption: Listen and tell | |
CN113076770A (zh) | 基于方言识别的人物画像智能终端 | |
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及*** | |
McKeown et al. | The semaine database: Annotated multimodal records of emotionally colored conversations between a person and a limited agent | |
CN110751208A (zh) | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 | |
CN112101045B (zh) | 一种多模态语义完整性识别方法、装置及电子设备 | |
CN111833861A (zh) | 基于人工智能的事件评估报告生成 | |
CN113592251B (zh) | 一种多模态融合的教态分析*** | |
Chakraborty et al. | Literature Survey | |
CN109714608A (zh) | 视频数据处理方法、装置、计算机设备和存储介质 | |
CN117198338B (zh) | 一种基于人工智能的对讲机声纹识别方法及*** | |
Jain et al. | Student’s Feedback by emotion and speech recognition through Deep Learning | |
Jia et al. | A deep learning system for sentiment analysis of service calls | |
Mircoli et al. | Automatic Emotional Text Annotation Using Facial Expression Analysis. | |
CN116883888A (zh) | 基于多模态特征融合的银行柜面服务问题溯源***及方法 | |
Hussien et al. | Multimodal sentiment analysis: a comparison study | |
CN114492579A (zh) | 情绪识别方法、摄像装置、情绪识别装置及存储装置 | |
Sun et al. | Automatic understanding of affective and social signals by multimodal mimicry recognition | |
Sánchez-Ancajima et al. | Gesture Phase Segmentation Dataset: An Extension for Development of Gesture Analysis Models. | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及*** | |
US20230095952A1 (en) | Automated interview apparatus and method using telecommunication networks | |
Ramanarayanan et al. | An analysis of time-aggregated and time-series features for scoring different aspects of multimodal presentation data | |
Böck | Multimodal automatic user disposition recognition in human-machine interaction | |
Taralrud et al. | Multimodal Sentiment Analysis for Personality Prediction | |
Wang et al. | EmoAsst: emotion recognition assistant via text-guided transfer learning on pre-trained visual and acoustic models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210706 |
|
WD01 | Invention patent application deemed withdrawn after publication |