CN113469184B - 一种基于多模态数据的面向手写中文的性格识别方法 - Google Patents

一种基于多模态数据的面向手写中文的性格识别方法 Download PDF

Info

Publication number
CN113469184B
CN113469184B CN202110427932.4A CN202110427932A CN113469184B CN 113469184 B CN113469184 B CN 113469184B CN 202110427932 A CN202110427932 A CN 202110427932A CN 113469184 B CN113469184 B CN 113469184B
Authority
CN
China
Prior art keywords
character
information
img
handwritten chinese
font
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110427932.4A
Other languages
English (en)
Other versions
CN113469184A (zh
Inventor
吴雯
纪雨
胡谊
贺樑
夏聪
康亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202110427932.4A priority Critical patent/CN113469184B/zh
Publication of CN113469184A publication Critical patent/CN113469184A/zh
Application granted granted Critical
Publication of CN113469184B publication Critical patent/CN113469184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于多模态数据的面向手写中文的性格识别方法,其特点是根据手写中文的结构分析写作者的性格。该方法包括:抽取手写中文的字符信息(四方轮廓类别、字体大小程度、字体倾斜程度、字间距);从完整的手写中文图片以及按长度三等份裁剪的手写中文图片中抽取章法信息;将手写中文转换为纯文本,抽取CLIWC特征作为文本信息;融合手写中文的字符信息、章法信息和文本信息,进行写作者的性格预测。本发明与现有技术相比,性格预测的准确率更高,预测结果的可解释性更强。并且本发明适用于任何手写中文的场景。

Description

一种基于多模态数据的面向手写中文的性格识别方法
技术领域
本发明涉及图像处理和自然语言处理领域,具体来说,涉及一种基于多模态数据的面向手写中文的性格识别方法。
背景技术
性格被定义为个体对现实的态度以及其相应行为方式的综合表现,是个体最重要的属性之一。在教育领域,由于学生的学习动机、对教学风格的偏好等会受到他们性格的影响,因此性格识别能够帮助老师了解学生对学习的潜在个性需求,从而因材施教、为学生提供更合适的学习方法,提高学生的学习表现和学习满意度;在电商领域,由于性格会影响用户的决策行为,并且性格揭露了用户的偏好信息,因此性格识别能够帮助商家为用户提供合适的商品,从而提高用户的购买率、增加商家的收益;在职场领域,性格识别能够帮助公司分析求职者的抗压能力等,从而筛选出优秀的求职者;在借贷领域,性格识别能够帮助公司分析借贷者是否说谎,从而过滤掉不合格的借贷者。
笔迹心理学家表示,笔迹(即,手写文字)是对个体心理无意识的暴露,可以全面反映个体的心理特征。例如,偏向于写正方形字体的人,通常是遵守规则、原则性强的,而偏向于写长方形字体的人,则做事灵活,喜欢追求新奇。偏向于写大字的人,一般富有冒险精神、善于表现自我。而偏向于写小字的人,更加周密严谨、有钻研精神。
目前的研究中,研究者们通常基于手写英文进行个体的自动性格识别。例如,分析个体手写的大写字母和小写字母、分析个体手写的特殊字母(“d”、“i”、“t”、“y”)。但是研究者们忽视了对手写中文的使用。有别于英文,中文作为中国人的母语,是特殊的方块字,字体结构对于反应中国人性格具有天然优势。
发明内容
本发明的目的在于利用手写中文的结构特点,提供了一种基于多模态数据的面向手写中文的性格识别方法,从手写中文中抽取字符信息、章法信息和文本信息,并将这些多模态数据融合用于分析写作者的性格。
实现本发明目的的具体技术方案是:
一种基于多模态数据的面向手写中文的性格识别方法,特点是根据手写中文的结构特点识别写作者的性格。该方法包括以下具体步骤:
步骤1:预处理
将手写中文图片进行缩放、裁剪,达至规定尺寸(长不小于640,宽不小于480);再将手写中文图片转换成二值化图像,记为Img-0;
步骤2:获取字符信息
将Img-0进行字符切割,获取字符集h={h1,h2,......,hk};k表示字符总数;
对于每个字符hi(1≤i≤k):
(1)判断hi的四方轮廓类别oi,是正方形即高度等于宽度、长方形即高度大于宽度、还是扁方形即高度小于宽度;
(2)计算hi的字体大小si
(3)计算hi的字体倾斜角度ai
对o={o1,o2,......,ok},计算其中正方形字体的占比、长方形字体的占比以及扁方形字体的占比,作为字符集的四方轮廓信息O;
以5mm*5mm为标准大小,对s={s1,s2,......,sk},计算其中字体大于标准大小的占比、字体小于标准大小的占比,作为字符集的大小程度信息S;
以90°为标准角度,字体倾斜角度大于90°记为字体向左倾斜,字体倾斜角度小于90°记为字体向右倾斜。对a={a1,a2,......,ak},计算其中字体向左倾斜的占比、字体向右倾斜的占比,作为字符集的倾斜程度信息A;
对于每个字符hi(2≤i≤k),计算hi相对于hi-1的水平距离di,i-1。对d={d1,0,d2,1,......,dk,k-1}计算算术平均数,作为字符集的字间距信息D;
将字符集的四方轮廓信息O、大小程度信息S、倾斜程度信息A和字间距信息D组合为向量C,作为Img-0的字符信息;
步骤2:获取章法信息
将Img-0送入卷积神经网络(Convolutional Neural Networks,CNN),得到全区章法表征I0
将Img-0按长度裁剪为三等份,分别为上区手写中文图片Img-1、中区手写中文图片Img-2和下区手写中文图片Img-3;
将Img-1送入CNN,并使用I0作为注意力机制,得到上区章法表征I1
将Img-2送入CNN,并使用I0作为注意力机制,得到中区章法表征I2
将Img-3送入CNN,并使用I0作为注意力机制,得到下区章法表征I3
将I0、I1、I2和I3拼接得到I,作为Img-0的章法信息;
步骤3:获取文本信息
通过光学字符识别(Optical Character Recognition,OCR),将Img-0中的手写中文转换成纯文本Z;
从纯文本Z中抽取CLIWC(ChineseLinguistic Inquiry and Word Count)特征,记为T,作为手写中文的文本信息;
步骤4:性格预测
将字符信息C、章法信息I、文本信息T拼接,经过线性计算得到结果F。F是n维向量,每一维表示写作者在对应性格特质上的得分,n表示性格特质总数。具体公式如公式(1)所示:
F=Wf[C;I;T]+bf (1)
其中Wf是权重矩阵,bf是偏置项。
本发明的有益效果在于:
本发明相比现有技术,具有更高的准确率和更强的可解释性。本发明充分使用了手写中文的字符信息、章法信息和文本信息,从而能够更好地理解写作者的性格,并对预测结果给出更加合理的解释。本发明适用于任何手写中文的场景。
附图说明
图1是本发明的流程图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公识常识,本发明没有特别限制内容。
参阅图1,本发明从手写中文中抽取字符信息、章法信息和文本信息,再融合这些多模态数据进行写作者的性格识别,提高了性格识别的准确率和预测结果的可解释性。
实施例
本实施例为某高校学生(以下简称u)的真实手写中文图片。通过TIPI性格问卷衡量u的大五性格,其中u在开放性上的得分为6.0、在尽责性上的得分为4.5、在外向性上的得分为3.5、在宜人性上的得分为3.5、在神经质性上的得分为5.0。对u进行性格特征总数为5的的性格识别任务,其具体操作按下述步骤进行:
步骤1:预处理
将u的手写中文图片进行缩放、裁剪,达至规定尺寸(1024*768);再将手写中文图片转换成二值化图像,记为Img-0;
步骤2:获取字符信息
将Img-0进行字符切割,获取字符集h={h1,h2,......,hk},其中k=344,表示字符总数;
对于每个字符hi(1≤i≤k):
(1)判断hi的四方轮廓类别oi
(2)计算hi的字体大小si
(3)计算hi的字体右倾角度ai
对o={正方形,长方形,正方形,正方形,......,正方形},计算其中正方形的占比(62.64%)、长方形的占比(33.25%)以及扁方形的占比(4.11%),作为字符集的四方轮廓信息O=[62.64%,33.25%,4.11%];
对s={21.16mm2,23.92mm2,20.25mm2,21.16mm2,......,20.25mm2},以5mm*5mm为标准大小,计算其中字体大于标准大小的占比(10.28%)、字体小于标准大小的占比(89.72%),作为字符集的大小程度信息S=[10.28%,89.72%];
以90°为标准角度,字体右倾角度大于90°记为字体向左倾斜,字体右倾角度小于90°记为字体向右倾斜。对a={89°,88°,89°,89°,......,91°},计算其中字体向左倾斜的占比(2.65%)、字体向右倾斜的占比(97.35%),作为字符集的倾斜程度信息A=[2.65%,97.35%];
对于每个字符hi(2≤i≤k),计算hi相对于hi-1的水平距离di,i-1;对d={1.74mm,1.43mm,2.02mm,1.32mm,......,1.22mm}计算算术平均数(1.63mm),作为字符集的字间距信息D=1.63;
将字符集的四方轮廓信息O、大小程度信息S、倾斜程度信息A和字间距信息D组合为向量C=[62.64%,33.25%,4.11%,10.28%,89.72%,2.65%,97.35%,1.63],作为Img-0的字符信息;
步骤2:获取章法信息
将Img-0送入卷积神经网络(Convolutional Neural Networks,CNN),得到章法表征I0
将Img-0按长度裁剪为三等份,分别为上区手写中文图片Img-1、中区手写中文图片Img-2和下区手写中文图片Img-3;
将Img-1送入CNN,并使用I0作为注意力机制,得到章法表征I1
将Img-2送入CNN,并使用I0作为注意力机制,得到章法表征I2
将Img-3送入CNN,并使用I0作为注意力机制,得到章法表征I3
将I0、I1、I2和I3拼接得到I,作为Img-0的章法信息;
步骤3:获取文本信息
通过光学字符识别(Optical Character Recognition,OCR),将Img-0中的手写中文转换成纯文本Z;
从纯文本Z中抽取CLIWC(ChineseLinguistic Inquiry and Word Count)特征,记为T,作为手写中文的文本信息;
步骤4:性格预测
将字符信息C、章法信息I、文本信息T拼接,经过线性计算得到结果F;F=[6.0,4.5,3.5,3.5,5.0],表示预测u在开放性上的得分为6.0、在尽责性上的得分为4.5、在外向性上的得分为3.5、在宜人性上的得分为3.5、在神经质性上的得分为5.0。具体公式如公式(1)所示:
F=Wf[C;I;T]+bf (1)
以上实施例只是对本发明做进一步说明,并非用以限制本发明,凡为本发明的等效实施,均应包含于本发明的权利要求范围之内。

Claims (1)

1.一种基于多模态数据的面向手写中文的性格识别方法,其特征在于,该方法包括以下具体步骤:
步骤1:预处理
将手写中文图片进行缩放、裁剪,达至像素规定尺寸即长至少640,宽至少480);再将手写中文图片转换成二值化图像,记为Img-0;
步骤2:获取字符信息
将Img-0进行字符切割,获取字符集h={h1,h2,......,hk};k表示字符总数;
对于每个字符hi(1≤i≤k):
(1)判断hi的四方轮廓类别oi,是正方形即高度等于宽度、长方形即高度大于宽度、还是扁方形即高度小于宽度;
(2)计算hi的字体大小si
(3)计算hi的字体倾斜角度ai
对o={o1,o2,......,ok},计算其中正方形字体的占比、长方形字体的占比以及扁方形字体的占比,作为字符集的四方轮廓信息O;
以5mm*5mm为标准大小,对s={s1,s2,......,sk},计算其中字体大于标准大小的占比、字体小于标准大小的占比,作为字符集的大小程度信息S;
以90°为标准角度,字体倾斜角度大于90°记为字体向左倾斜,字体倾斜角度小于90°记为字体向右倾斜;对a={a1,a2,......,ak},计算其中字体向左倾斜的占比、字体向右倾斜的占比,作为字符集的倾斜程度信息A;
对于每个字符hi(2≤i≤k),计算hi相对于hi-1的水平距离di,i-1;对d={d1,0,d2,1,......,dk,k-1}计算算术平均数,作为字符集的字间距信息D;
将字符集的四方轮廓信息O、大小程度信息S、倾斜程度信息A和字间距信息D组合为向量C,作为Img-0的字符信息;
步骤3:获取章法信息
将Img-0送入卷积神经网络CNN,得到全区章法表征I0
将Img-0按长度裁剪为三等份,分别为上区手写中文图片Img-1、中区手写中文图片Img-2和下区手写中文图片Img-3;
将Img-1送入CNN,并使用I0作为注意力机制,得到上区章法表征I1
将Img-2送入CNN,并使用I0作为注意力机制,得到中区章法表征I2
将Img-3送入CNN,并使用I0作为注意力机制,得到下区章法表征I3
将I0、I1、I2和I3拼接得到I,作为Img-0的章法信息;
步骤4:获取文本信息
通过光学字符识别OCR,将Img-0中的手写中文转换成纯文本Z;
从纯文本Z中抽取CLIWC特征,记为T,作为手写中文的文本信息;
步骤5:性格预测
将字符信息C、章法信息I、文本信息T拼接,经过线性计算得到结果F;F是n维向量,每一维表示写作者在对应性格特质上的得分,n表示性格特质总数;具体公式如公式(1)所示:
F=Wf[C;I;T]+bf (1)
其中Wf是权重矩阵,bf是偏置项。
CN202110427932.4A 2021-04-21 2021-04-21 一种基于多模态数据的面向手写中文的性格识别方法 Active CN113469184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110427932.4A CN113469184B (zh) 2021-04-21 2021-04-21 一种基于多模态数据的面向手写中文的性格识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110427932.4A CN113469184B (zh) 2021-04-21 2021-04-21 一种基于多模态数据的面向手写中文的性格识别方法

Publications (2)

Publication Number Publication Date
CN113469184A CN113469184A (zh) 2021-10-01
CN113469184B true CN113469184B (zh) 2022-08-12

Family

ID=77870572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110427932.4A Active CN113469184B (zh) 2021-04-21 2021-04-21 一种基于多模态数据的面向手写中文的性格识别方法

Country Status (1)

Country Link
CN (1) CN113469184B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016136310A1 (ja) * 2015-02-27 2016-09-01 ブラザー工業株式会社 電子筆記装置及び電子筆記処理プログラム並びに記録媒体
CN110889385A (zh) * 2019-12-02 2020-03-17 山东浪潮人工智能研究院有限公司 一种基于局部邻近注意力的手写文本识别方法
CN111259153A (zh) * 2020-01-21 2020-06-09 桂林电子科技大学 一种完全注意力机制的属性级情感分析方法
CN111414913A (zh) * 2019-01-08 2020-07-14 北京地平线机器人技术研发有限公司 一种文字识别方法以及识别装置、电子设备
CN112686134A (zh) * 2020-12-29 2021-04-20 科大讯飞股份有限公司 手写识别方法、装置、电子设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9465985B2 (en) * 2013-06-09 2016-10-11 Apple Inc. Managing real-time handwriting recognition
CN110032716B (zh) * 2019-04-17 2023-01-10 北京地平线机器人技术研发有限公司 文字编码方法和装置、可读存储介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016136310A1 (ja) * 2015-02-27 2016-09-01 ブラザー工業株式会社 電子筆記装置及び電子筆記処理プログラム並びに記録媒体
CN111414913A (zh) * 2019-01-08 2020-07-14 北京地平线机器人技术研发有限公司 一种文字识别方法以及识别装置、电子设备
CN110889385A (zh) * 2019-12-02 2020-03-17 山东浪潮人工智能研究院有限公司 一种基于局部邻近注意力的手写文本识别方法
CN111259153A (zh) * 2020-01-21 2020-06-09 桂林电子科技大学 一种完全注意力机制的属性级情感分析方法
CN112686134A (zh) * 2020-12-29 2021-04-20 科大讯飞股份有限公司 手写识别方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN113469184A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
Simonnet et al. Evaluation of children cursive handwritten words for e-education
RU2757713C1 (ru) Распознавание рукописного текста посредством нейронных сетей
CN101326518B (zh) 用于墨水笔记的手写体识别的方法和装置
Boubaker et al. Online Arabic databases and applications
Jing et al. Recognizing american sign language manual signs from rgb-d videos
US8150159B2 (en) Identifying method of hand-written Latin letter
Srihari et al. Development of individuality in children's handwriting
Bhattacharya et al. Understanding contents of filled-in Bangla form images
Al Ghamdi A novel approach to printed Arabic optical character recognition
CN113469184B (zh) 一种基于多模态数据的面向手写中文的性格识别方法
US11869130B2 (en) Generating visual feedback
Al Sayed et al. Survey on handwritten recognition
Bezine et al. Development of an Arabic handwriting learning educational system
CN108763487A (zh) 一种基于Mean Shift的融合词性和句子信息的词表示方法
Petkar et al. Real Time Sign Language Recognition System for Hearing and Speech Impaired People
Agrawal et al. Data collection for handwriting corpus creation in Indic scripts
Qarni et al. Stroke Sequence Identification in Handwritten Urdu Alphabets Using Convolutional Neural Networks
Verma et al. Comparative Study of Various Techniques on Handwriting Recognition and Analysis
Pan A Study of English Learning Vocabulary Detection Based on Image Semantic Segmentation Fusion Network
CN116758557B (zh) 一种基于浅层图神经网络的联机手写笔画分类方法
Vahdani et al. Recognizing American sign language manual signs from Rgb-D videos
Abuzaraida et al. Online recognition system for handwritten arabic chemical symbols
Pardhi et al. Generating a scene from text for smart education
Shravya et al. Air writing with Effective Communication Enhancement for Dyslexic Learners
Sopariwala et al. 1535 Handwriting Analysis and Personality Profiling using Image Processing and Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant