RU2618389C2 - Способ бесконтактного управления курсором мыши - Google Patents

Способ бесконтактного управления курсором мыши Download PDF

Info

Publication number
RU2618389C2
RU2618389C2 RU2015124282A RU2015124282A RU2618389C2 RU 2618389 C2 RU2618389 C2 RU 2618389C2 RU 2015124282 A RU2015124282 A RU 2015124282A RU 2015124282 A RU2015124282 A RU 2015124282A RU 2618389 C2 RU2618389 C2 RU 2618389C2
Authority
RU
Russia
Prior art keywords
region
interest
specified
matrix
pattern
Prior art date
Application number
RU2015124282A
Other languages
English (en)
Other versions
RU2015124282A (ru
Inventor
Алексей Анатольевич Карпов
Андрей Леонидович Ронжин
Original Assignee
Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук filed Critical Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук
Priority to RU2015124282A priority Critical patent/RU2618389C2/ru
Publication of RU2015124282A publication Critical patent/RU2015124282A/ru
Application granted granted Critical
Publication of RU2618389C2 publication Critical patent/RU2618389C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)

Abstract

Изобретение относится к технологиям бесконтактного человеко-машинного взаимодействия. Техническим результатом является повышение робастности слежения за перемещением головы пользователя путем повышения производительности работы с системой и снижения уровня ошибок выделения объектов. Предложен способ бесконтактного управления курсором мыши. Согласно способу, определяют местоположение области интереса на выпуклой форме. Выпуклая форма представляет собой голову человека, область интереса представляет собой область лица человека между бровями и нижней губой. Оцифрованное изображение указанной выпуклой формы получают с помощью видеокамеры. После того как указанный сохраненный паттерн яркости области интереса сохраняют в виде матрицы, определяют местоположение пяти опорных точек в пределах указанного сохраненного паттерна яркости области интереса, а затем регистрируют множество оцифрованных видеоизображений. По результатам сравнения матрицы сохраненного паттерна яркости области интереса и матрицы зарегистрированного паттерна яркости области интереса определяют двумерные координаты указанных опорных точек в каждом из указанного множества видеоизображений, а затем используют двумерные координаты указанных опорных точек для управления курсором мыши. 2 з.п. ф-лы, 1 табл., 7 ил.

Description

Изобретение относится к области искусственного интеллекта, а именно к области бесконтактного человеко-машинного взаимодействия. Оно может быть использовано для управления компьютером или другими техническими устройствами с помощью манипулятора типа «мышь» (далее - мышь), в частности, предназначенными для людей с нарушениями моторных функций рук. Для таких людей предназначаются ассистивные технологии для бесконтактного взаимодействия с компьютером посредством отслеживания осмысленных движений (жестов) головы или частей тела человека.
Для решения задачи отслеживания движений головы пользователя возможно использовать различные аппаратные средства, когда пользователь надевает на голову специальное устройство (шлем, очки виртуальной реальности или специальную конструкцию с отражающими метками). Например, американская компания NaturalPoint (www.naturalpoint.com/smartnav) выпускает устройства SmartNav, реализующие функции бесконтактной мыши. Эта система состоит из инфракрасного приемо-передатчика и нескольких отражающих меток, которые должны быть прикреплены к лицу пользователя или к специальной кепке. Другая американская компания InterSence (www.intersense.com) производит аппаратные трекеры InterTrax для шлемов виртуальной реальности. Внутри такого устройства находится микроминиатюрный гироскоп, который позволяет отслеживать положение и ориентацию головы в трехмерном пространстве.
Кроме того, для этой задачи могут также применяться специальные устройства со светодиодами (и аккумуляторами), которые отслеживаются инфракрасной видеокамерой. Например, комплект для ассистивного управления компьютером КАУ-09-1 (http://www.fatum-spb.ru/razrabotki-dlya-invalidov.html) или цветными реперными (контрольными) точками-мишенями, которые крепятся на специальном шлеме, надеваемом на голову. Еще одним аналогом является аппаратная система «Шлемомышь» (Кричевец, А. Шлемомышь // Компьютерра, №434, 2002. - С. 48-51. - Режим доступа: www.computerra.ru/offline/2002/434/16588), в которой используется специальная мишень на шлеме, одеваемом на голову пользователя. Реперные точки на таких устройствах отслеживаются, как правило, посредством инфракрасной, либо оптической видеокамеры. Однако как пользователи, так и психофизиологи говорят о том, что люди не желают использовать для человеко-машинного взаимодействия носимые на голове или теле аппаратные устройства, значительно снижающие естественность взаимодействия и мобильность передвижения из-за наличия проводов, кабелей, аккумуляторов для их автономной работы, их общей громоздкости и технических сложностей в калибровке и установке. Кроме того, люди без рук не могут надеть такое устройство сами себе на голову, поэтому им в любом случае нужна сторонняя помощь.
Возможны также случаи, когда в результате болезни помимо рук может парализовать также и шею человека, в этом случае он не может использовать жесты головой для управления курсором (указателем) мыши на экране компьютера. Чтобы решить эту проблему, возможно применение системы отслеживания взгляда пользователя (eye-tracking). Подобные аналоги (патент на изобретение РФ 2522848 от 20.07.2014; система Eyegaze System (http://www.eyegaze.com) от компании LC Technologies; 208. Tinto Garcia-Moreno, F. Eye Gaze Tracking System Visual Mouse Application Development // Technical Report, Ecole Nationale Superiere de Physique de Strasbourg (ENSPS) and School of Computer Science, Queen's University Belfast, 2001. - 77 p.) позволяют пользователю с помощью взгляда указывать на объекты воздействия или выбирать элементы меню графического интерфейса компьютера. Их применение осложняется тем, что необходимо использовать дорогие высокоскоростные цифровые видеокамеры высокой четкости (с большим оптическим разрешением), так как область глаза незначительна по размеру и сложна в распознавании. Существуют также варианты размещения видеокамеры прямо перед глазами человека на специальном шлеме, надеваемом пользователем (http://neurobotics.ru/products/eye_tracking). Однако как показывают когнитивные исследования, использование отслеживания направления взгляда для управления курсором намного хуже, чем отслеживание движений/жестов головой в таких показателях как производительность, эмоциональная нагрузка на пользователя, удобство использования и т.д.
Известны аналоги (патент на изобретение РФ 2401629 от 20.10.2010; патент на изобретение РФ 2542369 от 20.02.2015; Аграновский, А.В. Аппаратно-программные инструментальные средства проектирования виртуальных акустических объектов и сцен для слепых пользователей персональных компьютеров / А.В. Аграновский, Г.Е. Евреинов, А.С. Яшкин // Материалы IX Международной конференции-выставки «Информационные технологии в образовании». - Москва, 1999), в которых управление мышью осуществляется с использованием ног вместо рук, манипулятора, располагаемого в полости рта, или специального тактильного манипулятора, функционирующего за счет изменения положения центра масс тела человека. Общими недостатками указанных аналогов являются низкие производительность и удобство использования, большая эмоциональная нагрузка.
Наиболее близким по технической сущности к заявляемому способу и выбранным в качестве прототипа является способ отслеживания местоположения подвижной трехмерной выпуклой формы (поверхности) с помощью видеокамеры (патент US 6925122 В2 от 02.08.2005), содержащий этапы:
этап а: определяют местоположение области интереса на указанной выпуклой форме, указанное местоположение выбирают из группы, состоящей из точки на указанной выпуклой форме, ближайшей к видеокамере, и точки на указанной выпуклой форме, ближайшей к фиксированной точке пространства, указанное местоположение имеет возможность перемещения на указанной выпуклой форме так, что выпуклая форма изменяет местоположение и ориентацию в пространстве;
этап b: сохраняют оцифрованное видеоизображение указанной выпуклой формы в окрестности указанной области интереса, размер указанной окрестности определяют по площади поверхности указанной выпуклой формы с постоянной сферической кривизной, указанное оцифрованное видеоизображение имеет паттерн (эталон) яркости, называемый сохраненным паттерном яркости области интереса, указанный сохраненный паттерн яркости области интереса сохраняют в виде матрицы;
этап с: определяют местоположение опорной точки, выбранной из группы, состоящей из центра указанного сохраненного паттерна яркости области интереса и местоположения в пределах указанного сохраненного паттерна яркости области интереса;
этап d: регистрируют множество оцифрованных видеоизображений, каждое из упомянутого множества видеоизображений содержит видеоизображение указанной выпуклой формы, названное зарегистрированным паттерном яркости области интереса, указанный зарегистрированный паттерн яркости области интереса приводят к тому же размеру, что и сохраненный паттерн яркости области интереса, и для каждого из упомянутого множества видеоизображений регистрируют в виде матрицы;
этап е: сравнивают матрицу сохраненного паттерна яркости области интереса и матрицу зарегистрированного паттерна яркости области интереса для каждого из указанного множества видеоизображений на основе попиксельного сравнения или корреляционного анализа, чтобы определить двумерные координаты указанной опорной точки в каждом из указанного множества видеоизображений с точностью до одного пикселя; и
этап g: используют двумерные координаты указанной опорной точки в качестве информации, необходимой для управления компьютером, в каждом из указанного множества видеоизображений;
при этом выпуклая форма является формой кончика носа на лице, а этап е дополнительно содержит определение окна поиска в каждом из указанного множества видеоизображений, внутри которого выполняют сравнение, указанное окно поиска выбирают из группы, состоящей из:
a) окно поиска представляет собой квадратную область с длиной стороны в пределах от четверти ширины указанного лица до ширины указанного лица, указанная область имеет центр в местоположении кончика носа на предыдущем видеоизображении из упомянутого множества видеоизображений, если указанное местоположение известно;
b) окно поиска представляет собой прямоугольную область, определяемую с использованием автоматизированной технологии обнаружения лица;
c) окно поиска представляет собой всю область изображения видеокадра.
Недостатком способа прототипа является низкая робастность слежения за перемещением головы пользователя, обусловленная использованием только анализа положения кончика носа на видеоизображениях.
Для оценивания робастности принято использовать методику международного стандарта ISO 9241-9:2000 "Requirements for non-keyboard input devices" («Требования к неклавитаурным устройствам ввода информации»), которая базируется на экспериментах и законах, разработанных в середине 20 века американским психологом-когнитивистом П. Фиттсом (Paul Morris Fitts), и впоследствии развитых другими учеными [Soukoreff, R.W. Towards а standard for pointing device evaluation, perspectives on 27 years of Fitts' law research in HCI / R.W. Soukoreff, I.S. MacKenzie // Int. Journal of Human Computer Studies, Vol. 61, No. 6, 2004. - pp. 751-789].
Данная методика состоит в следующем. Пользователи при помощи предоставленного им устройства указательного ввода, должны насколько возможно быстро отметить на экране набор целей-объектов, последовательно появляющихся по круговой схеме на экране. При этом порядок целей задается таким образом, чтобы пользователь последовательно выделял наиболее удаленно расположенные друг от друга объекты, совершая движения указателем в различных направлениях [Schapira, Е. Experimental evaluation of vision and speech based multimodal interfaces / E. Schapira, R. Sharma // In Proc. Workshop on Perceptive User Interfaces PUI, USA, 2001. - pp. 1-9]. При этом вычисляется индекс сложности задачи ID ("index of difficulty"), измеряемый в битах, в соответствии с формулой Шэннона [Carbini, S. Evaluation of contact-less multimodal pointing devices / S. Carbini, J.E. Viallet // In Proc. 2-nd IASTED International Conference on Human-Computer Interaction, Chamonix, France, 2006. - pp. 226-231]:
Figure 00000001
где D - расстояние между центрами целей (диаметр окружности); W - диаметр круглой цели в экранных пикселях. Согласно закону Фиттса время движения MT между целями линейно зависит от индекса сложности ID задания. Однако координаты точки, где происходит выделение цели, зависят как от фактического расстояния между точками, так и от фактического диаметра самих целей (чем меньше цель, тем сложнее попасть по ее центру). Поэтому фактический (эффективный, "effective") индекс сложности выражается следующим образом:
Figure 00000002
где De - фактическое расстояние между точками кликов целей и We - фактический диаметр цели, который принято вычислять через энтропию нормального распределения величины:
Figure 00000003
где σ - среднеквадратическое отклонение координат точки выделения, проецируемой на ось, которая соединяет центры начальной и конечной целей.
Получаемые значения IDe отличаются от значений ID, более точно учитывая качество выполнения тестового задания пользователем. При этом согласно методике Фиттса основным показателем оценки робастности является производительность работы с системой TP ("throughput"), отражающая компромисс между временем движения (выполнения задания) МТ и точностью выделения целей:
Figure 00000004
Задачей изобретения является разработка способа бесконтактного управления курсором мыши, позволяющего повысить робастность слежения за перемещением головы пользователя путем повышения производительности работы с системой и снижения уровня ошибок выделения объектов.
В заявленном способе эта задача решается тем, что в способе бесконтактного управления курсором мыши, заключающемся в том, что определяют местоположение области интереса на выпуклой форме, сохраняют оцифрованное видеоизображение указанной выпуклой формы в окрестности указанной области интереса, указанное оцифрованное видеоизображение имеет паттерн яркости, называемый сохраненным паттерном яркости области интереса, указанный сохраненный паттерн яркости области интереса сохраняют в виде матрицы, регистрируют множество оцифрованных видеоизображений, каждое из упомянутого множества видеоизображений содержит видеоизображение указанной выпуклой формы, названное зарегистрированным паттерном яркости области интереса, указанный зарегистрированный паттерн яркости области интереса приводят к тому же размеру, что и сохраненный паттерн яркости области интереса, и для каждого из упомянутого множества видеоизображений регистрируют в виде матрицы, сравнивают матрицу сохраненного паттерна яркости области интереса и матрицу зарегистрированного паттерна яркости области интереса для каждого из указанного множества видеоизображений на основе попиксельного сравнения или корреляционного анализа, при этом окна поиска в каждом из указанного множества видеоизображений, внутри которого выполняют сравнение, выбирают из группы, состоящей из: окна поиска, представляющего собой квадратную область с длиной стороны в пределах от четверти ширины лица до ширины лица и центром, соответствующим местоположению кончика носа на предыдущем видеоизображении из упомянутого множества видеоизображений, если указанное местоположение известно, окна поиска, представляющего собой прямоугольную область, определяемую с использованием автоматизированной технологии обнаружения лица, или окна поиска, представляющего собой всю область изображения видеокадра, дополнительно принимают, что выпуклая форма представляет собой голову человека, а область интереса - область лица человека между бровями и нижней губой. Перед тем как определяют местоположение области интереса на выпуклой форме, получают оцифрованное изображение указанной выпуклой формы с помощью видеокамеры. После того как указанный сохраненный паттерн яркости области интереса сохраняют в виде матрицы, определяют местоположение пяти опорных точек в пределах указанного сохраненного паттерна яркости области интереса, а затем регистрируют множество оцифрованных видеоизображений. По результатам сравнения матрицы сохраненного паттерна яркости области интереса и матрицы зарегистрированного паттерна яркости области интереса определяют двумерные координаты указанных опорных точек в каждом из указанного множества видеоизображений. Затем используют двумерные координаты указанных опорных точек для управления курсором мыши.
Опорные точки лица человека представляют собой центр верхней губы, кончик носа, точку между глаз на переносице, зрачок правого глаза и зрачок левого глаза пользователя.
Кроме того, в случае потери одной из опорных точек осуществляют ее восстановление на основе двумерных координат двух точек, оставшихся в прямоугольной области, объединяющей тройки опорных точек.
Новая совокупность существенных признаков позволяет достичь указанного технического результата за счет:
- использования пяти естественных опорных точек на лице человека, формирующих две перпендикулярные линии;
- возможности корректировки положения отслеживаемых опорных точек, определяемой различием пропорций лиц различных людей;
- восстановления опорных точек в области интереса в случае потери одной из них.
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного способа бесконтактного управления курсором мыши, отсутствуют. Следовательно, заявленное изобретение соответствует условию патентоспособности «новизна».
Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».
Заявленное изобретение поясняется следующими чертежами:
- фиг. 1, на которой представлена блок-схема последовательности действий, реализующих предлагаемый способ;
- фиг. 2, на которой представлена система пяти опорных точек на лице человека;
- фиг. 3, отображающей график скорости движения головы пользователя в видеокадрах при бесконтактном выделении целей на экране;
- фиг. 4, отображающая схему и порядок расположения целей на экране для проведения экспериментов по методике Фиттса (а) и траекторию движения курсора при выполнении задания жестами головой (б);
- фиг. 5, на которой приведено соотношение значений фактической сложности IDe и теоретической сложности ID задачи;
- фиг. 6, на которой представлены результаты анализа значений времени движения МТ от одной цели к другой при выполнении пользователями поставленной тестовой задачи;
- фиг. 7, на которой представлены результаты анализа значений производительности TP по методике Фиттса при выполнении тестового сценария согласно разработанного способа.
Реализация заявленного способа заключается в следующем (фиг. 1).
В блоке 101 получают оцифрованное изображение выпуклой формы с помощью видеокамеры, при этом выпуклая форма представляет собой голову человека (пользователя) с нарушениями моторных функций рук, управляющего компьютером или другими техническими устройствами.
В блоке 102 определяют местоположение области интереса на выпуклой форме, представляющей собой область лица человека между бровями и нижней губой.
Поиск области интереса может проводиться, например, методом AdaBoost [Вежневец, A. Boosting - Усиление простых классификаторов / А. Вежневец, В. Вежневец // Компьютерная графика и мультимедиа. Вып. 4(2), 2006. - Режим доступа: http://cgm.computergraphics.ru/content/view/112] на основе алгоритма Виола-Джонс [Viola, P. Rapid Object Detection using a Boosted Cascade of Simple Features / P. Viola, M. Jones // In Proc. 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition CVPR-2001, 2001. - pp. 511-515]. Изображение сканируется рамкой-окном заданного размера и строится пирамида копий объектов. Построенная пирамида анализируется заранее обученными каскадами Хаара, и на изображении находятся графические области, отвечающие заданной визуальной модели [Lienhart, R. An Extended Set of Haar-like Features for Rapid Object Detection / R. Lienhart, J. Maydt // In Proc. IEEE International Conference on Image Processing ICIP'2002, Rochester, New York, USA, 2002. - pp. 900-903]. Метод детекции лица пользователя находит прямоугольные графические области на изображении с видеокадров, с высокой степенью вероятности содержащие изображение лица человека. Введено ограничение, что размер такой области должен быть не менее 220×250 пикселей (при оптическом разрешении видеокадров 640×480 пикселей), чтобы захватывать только одно лицо в кадре, достаточно близко расположенное по отношению к видеокамере, а кроме того, это ускоряет процесс обработки видеопотока. Данные методы видеообработки реализованы в библиотеке компьютерного зрения OpenCV [Bradsky, G. Learning OpenCV / G. Bradsky, A. Kaehler // O'Reilly Publisher, 2008. - 571 p.] и применяются в модифицированном виде в данном способе.
В блоке 103 сохраняют оцифрованное видеоизображение указанной выпуклой формы в окрестности указанной области интереса. Указанное оцифрованное видеоизображение имеет паттерн яркости, называемый сохраненным паттерном яркости области интереса, поэтому в блоке 104 указанный сохраненный паттерн яркости области интереса сохраняют в виде матрицы.
В блоке 105 определяют местоположение пяти опорных точек (фиг. 2) в пределах указанного сохраненного паттерна яркости области интереса.
Естественные опорные точки лица человека представляют собой: центр верхней губы, кончик носа, точку между глаз на переносице, зрачок правого глаза и зрачок левого глаза. Причем эти точки формируют две перпендикулярные линии: вертикальную (точки 1-3) и горизонтальную (точки 3-5). Пропорции лиц различных людей схожи, но не идентичны, поэтому способ предусматривает возможность корректировки положения системы отслеживаемых точек, которую можно произвести путем изменения соответствующих параметров. Кроме того, экспериментально было обнаружено, что для людей со светлыми глазами эти две естественных точки не являются надежными для отслеживания, поэтому их также можно исключить при определении местоположения опорных точек.
В блоке 106 регистрируют множество оцифрованных видеоизображений, каждое из упомянутого множества видеоизображений содержит видеоизображение указанной выпуклой формы, названное зарегистрированным паттерном яркости области интереса.
Для отслеживания движений головы пользователя применяется метод, реализованный на основе базового алгоритма Лукас-Канаде (Lukas-Kanade) [Lucas, B.D. An Iterative Image Registration Technique with an Application to Stereo Vision / B.D. Lucas, T. Kanade // IJCAI, 1981. - pp. 674-679] и его более поздней пирамидальной модификации [Bouguet, J.-Y. Pyramidal Implementation of the Lucas-Kanade Feature Tracker Description of the algorithm // Intel Corporation Microprocessor Research Labs, 2000] для анализа оптического потока (т.е. изображение видимого движения объектов, поверхностей или краев сцены, получаемое в результате перемещения наблюдателя относительно сцены или наоборот сцены относительно наблюдателя).
Указанный зарегистрированный паттерн яркости области интереса в блоке 107 приводят к тому же размеру, что и сохраненный паттерн яркости области интереса, и для каждого из упомянутого множества видеоизображений регистрируют в виде матрицы в блоке 108.
В блоке 109 сравнивают матрицу сохраненного паттерна яркости области интереса и матрицу зарегистрированного паттерна яркости области интереса для каждого из указанного множества видеоизображений на основе попиксельного сравнения или корреляционного анализа. При этом окно поиска в каждом из указанного множества видеоизображений, внутри которого выполняют сравнение, выбирают из группы, состоящей из:
- окна поиска, представляющего собой квадратную область с длиной стороны в пределах от четверти ширины лица до ширины лица и центром, соответствующим местоположению кончика носа на предыдущем видеоизображении из упомянутого множества видеоизображений, если указанное местоположение известно;
- окна поиска, представляющего собой прямоугольную область, определяемую с использованием автоматизированной технологии обнаружения лица;
- окна поиска, представляющего собой всю область изображения видеокадра.
По результатам сравнения матрицы сохраненного паттерна яркости области интереса и матрицы зарегистрированного паттерна яркости области интереса в блоке 110 определяют двумерные координаты указанных опорных точек
Figure 00000005
,
Figure 00000006
в каждом из указанного множества видеоизображений. Смещение двухмерных координат данных опорных точек в последовательных видеокадрах преобразуется (блок 111) в синхронные перемещения курсора мыши на экране.
Для вычисления текущего положения курсора мыши на экране М=(МХ, MY) используется линейная комбинация изменения координат реперных точек 1-3 (для абсциссы МХ координат курсора мыши) и точек 3-5 (для ординаты MY) в соседних видеокадрах:
Figure 00000007
Figure 00000008
где Ci определяет i-ю реперную точку на текущем кадре, а
Figure 00000009
- на предыдущем кадре видеопотока,
Figure 00000010
- коэффициент скорости движения курсора мыши.
Таким образом, курсор сдвигается пропорционально перемещению трех точек между соседними кадрами видеопотока. При этом точки 4-5 не учитываются при формировании координаты X курсора, так как при повороте головы их смещение оказывается нелинейным (различным для каждой из точек) в декартовой системе координат. Для Y координаты курсора аналогично из рассмотрения исключаются точки 1-2. Таким образом, курсор сдвигается на экране пропорционально сдвигу отслеживаемых точек лица человека с учетом заданного коэффициента скорости движения курсора KP.
Разработанный способ также учитывает скорость перемещения головы пользователя. Если пользователю необходимо передвинуть курсор на значительное расстояние (например, от одного угла экрана к другому), то пользователь двигает головой достаточно быстро и применяется большой коэффициент скорости K1 (не менее 3 единиц, в зависимости от разрешения экрана). Если же пользователь хочет выделить некоторый объект на экране, то совершает незначительные движения головой и применяется малый коэффициент умножения K2 (не более 3 единиц, в зависимости от разрешения экрана). Этот процесс может быть представлен следующей формулой:
Figure 00000011
где КР - коэффициент скорости перемещения курсора мыши; VH - скорость перемещения головы пользователя на видеокадрах; TH - максимальное пороговое значение малой скорости перемещения головы (настраивается в зависимости от установленного разрешения экрана, удаленности пользователя от видеокамеры и эргономических предпочтений пользователя).
Таким образом, в способе бесконтактного управления курсором мыши применяются несколько адаптивных значений скорости движения курсора мыши в зависимости от скорости перемещения головы пользователя.
Для выбора оптимального значения порога скорости TH были проведены соответствующие эксперименты. Скорость движения головы была вычислена при работе пользователя с интеллектуальной системой, установленной на ноутбуке с монитором размером 15'' (около 37 см) формата 16:9 и разрешением 1280×800 пикселей. Задача пользователя состояла в выделении небольших круглых целей разного размера, последовательно появляющихся в различных частях экрана, и подтверждении нажатия цели. Средняя скорость обработки видеокадров системой составила около 15 кадров в секунду, что достаточно для работы в реальном режиме работы без задержек и рывков с плавным перемещением курсора. График на фиг. 3 показывает значения скорости (пикселей/кадр) движения головы оператора в 2D координатах кадра видеокамеры разрешением 640×480 пикселей. При этом скорость движения головы пользователя в видеопотоке вычисляется по формуле:
Figure 00000012
где Ci определяет i-ю опорную точку на текущем кадре, а
Figure 00000013
- на предыдущем кадре видеопотока.
Из фиг. 3 можно сделать вывод, что когда пользователь двигает курсор мыши от одного объекта на экране к другому, он выполняет движения головой достаточно быстро (обычно не менее 10 экранных пикселей за время между двумя видеокадрами, но когда пользователь старается точно попасть курсором в требуемую цель на экране, движения головой производятся аккуратно с заметно меньшей амплитудой (обычно 1-3 экранных пикселей за время между двумя соседними видеокадрами). Поэтому значение пороговой константы скорости TH устанавливается равным 3,0, но может адаптивно настраиваться в зависимости от скорости обработки видеоданных, частоты кадров, расстояния пользователя до экрана и индивидуальных эргономических предпочтений пользователя.
Кроме того, предлагаемый способ в случае потери одной из опорных точек осуществляет ее восстановление на основе двумерных координат двух точек, оставшихся в прямоугольной области, объединяющей тройки опорных точек. Например, если точка 2 (фиг. 2, б) выходит за пределы прямоугольной зоны, образованной точками 1 и 3, то ее правильное положение будет восстановлено как линейная комбинация координат двух других точек. Для точки 3 определены сразу две прямоугольных рабочих области (вертикальная и горизонтальная), поэтому эта точка является самой надежной в данном методе (фиг. 2, в).
Способ бесконтактного управления курсором мыши может быть реализован с помощью известных устройств. Так, получение оцифрованного изображения выпуклой формы может быть осуществлено с помощью web-камеры с разрешением 640×480 пикселей и частотой до 25 кадров в секунд.
Для сохранения (регистрации) оцифрованных видеоизображений используется буферное устройство, которое может быть реализовано с использованием матрицы ОЗУ. Схемы ОЗУ известны и описаны, например, в книге В.Н. Вениаминова, О.Н. Лебедева, А.И. Мирошниченко «Микросхемы и их применение» (М.: Радио и связь, 1989, с. 146). В частности, ОЗУ может быть реализовано на микросхемах К565 серии.
Устройства хранения матрицы сохраненного паттерна яркости области интереса и матрицы зарегистрированного паттерна яркости области интереса могут быть реализованы на основе постоянных запоминающих устройств (ПЗУ). Схемы ПЗУ известны и описаны, например, в книге В.Н. Вениаминова, О.Н. Лебедева, А.И. Мирошниченко. Микросхемы и их применение. М.: Радио и связь, 1989. - С. 156. В частности, ПЗУ может быть реализовано на микросхемах К555 серии.
Блоки 102, 105, 107, 109, 110 могут быть реализованы на устройствах сходящихся вычислений. Схемы устройств сходящихся вычислений известны и описаны, например, в книге Э. Айфичера, Б. Джервиса «Цифровая обработка сигналов: практический подход» (М.: Издательский дом «Вильямс», 2004. - С. 850). В частности, такая схема может быть реализована на комплексных умножителях PDSP16112A (Mitel) и комплексных накопителях PDSP16318A (Mitel).
Мышь представляет собой устройство ввода информации. Описание устройств ввода представлено в книге Авдеев В.А. Периферийные устройства: интерфейсы, схемотехника, программирование. - М.: ДМК Пресс, 2009, 848 с.: ил. - С. 414-433.
Монитор представляет собой устройство вывода информации и предназначено для отображения графических объектов и курсора мыши. Описание устройств вывода представлено в книге Авдеев В.А. Периферийные устройства: интерфейсы, схемотехника, программирование. - М.: ДМК Пресс, 2009, 848 с.: ил. - С. 451-526.
Заявленный способ бесконтактного управления курсором мыши позволяет повысить робастность слежения за перемещением головы пользователя путем повышения производительности работы с системой.
Для доказательства достижения заявленного технического результата проведены следующие эксперименты, для проведения которых было разработано соответствующее программное обеспечение, позволяющее произвольно задавать значения D и W в выражении (1), а также вычислять результаты прохождения теста. Программное обеспечение предлагает пользователю последовательно выбрать 16 целей, которые появляются на экране монитора компьютера (фиг. 4, а). На фиг. 4, б показан реальный пример траектории движения курсора при бесконтактном выполнении задания жестами головой, полученный посредством разработанного способа.
Для проведения экспериментов были привлечены шесть потенциальных пользователей разного уровня и опыта общения с компьютером, которым предлагались задания с 16-ю круглыми целями, по очереди появляющимися в различных точках экрана на окружности заданного диаметра D. Каждым пользователем были проведены серии по 10 тестов с дискретным изменением диаметра цели W в пределах 32-128 пикселей и расстояния D между целями в пределах 96-650 пикселей (при стандартном разрешении экрана 1280×1024), таким образом, значение ID варьировалось от 1,32 до 4,4 бит. Всего пользователями было выполнено 360 тестов, каждый из которых занимал от 30 секунд до 2 минут.
График на фиг. 5 показывает полученные в результате экспериментов и усредненные по всем пользователям зависимости результирующих соотношений IDe (фактическая сложность) и ID (теоретически рассчитанная сложность), полученные при разных значениях D и W. Причем, данный график лежит выше пунктирной линии (ожидаемая сложность выполнения задачи), а это означает, что выполнение данной задачи оказалось несколько сложнее, чем ожидалось теоретически (в том случае, если график лежит ниже пунктирной линии, то можно говорить о том, что предлагаемая тестерам задача легче расчетной сложности).
Согласно экспериментам по методике Фиттса, время движения МТ между двумя целями есть линейная функция индекса сложности ID задачи. Для каждого проведенного теста измерялось время между соседними кликами целей, а также количество ошибок выделений (непопадание внутрь цели). На фиг. 6 приведен статистический анализ полученных значений времени движения МТ для всех тестеров. Верхняя и нижняя границы прямоугольника означают покрытие 75% и 25% (верхние и нижние квартили) всех полученных значений МТ, соответственно. Верхняя и нижняя горизонтальные черточки на вертикальной линии означают покрытие 90% и 10% (верхние и нижние децили) всех значений МТ, соответственно. Полоса внутри прямоугольника обозначает медиану (медианное значение) величины МТ, т.е. около 2,5 секунд между речевыми "подтверждениями" цели.
На фиг. 7 представлен статистический анализ полученных значений производительности TP бесконтактного многомодального интерфейса по методике Фиттса при выполнении пользователями поставленной тестовой задачи. На данном рисунке показаны медиана, верхние и нижние квартили и децили полученных значений ТР.
Также было проведено тестирование разработанного способа и способа прототипа на указанной тестовой задаче. Тестирование системы было произведено несколькими добровольными тестерами, которые имели незначительный опыт работы с персональным компьютером.
В таблице 1 приведены результаты экспериментов и сравнение указанных способов по трем количественным показателям:
1) среднее время движения МТ между двумя целями;
2) процент ошибок выделения целей (непопадание курсором в цель);
3) общая производительность ТР.
Данная таблица показывает, что наилучшие результаты по производительности и ошибкам выделения цели были показаны при использовании разработанного способа, что свидетельствует о достижении заявленного способа бесконтактного управления курсором мыши.
Figure 00000014
При проведении экспериментов способ-прототип и разработанный способ моделировались на ноутбуке HP с многоядерным процессором Intel Core i5 2.5 ГГц, 3 Гб оперативной памяти и экраном диагональю 15''. В качестве дополнительного аппаратного обеспечения использовалась USB веб-камера Logitech QuickCam or Notebooks Pro, обеспечивающая разрешение 640×480 точек при 25 кадрах в секунду. Очевидно, что использование профессиональной цифровой видеокамеры позволит достичь лучшей точности выделения целей, а следовательно, большей робастности слежения за перемещением головы пользователя.

Claims (3)

1. Способ бесконтактного управления курсором мыши, заключающийся в том, что определяют местоположение области интереса на выпуклой форме, сохраняют оцифрованное видеоизображение указанной выпуклой формы в окрестности указанной области интереса, указанное оцифрованное видеоизображение имеет паттерн яркости, называемый сохраненным паттерном яркости области интереса, указанный сохраненный паттерн яркости области интереса сохраняют в виде матрицы, регистрируют множество оцифрованных видеоизображений, каждое из упомянутого множества видеоизображений содержит видеоизображение указанной выпуклой формы, названное зарегистрированным паттерном яркости области интереса, указанный зарегистрированный паттерн яркости области интереса приводят к тому же размеру, что и сохраненный паттерн яркости области интереса, и для каждого из упомянутого множества видеоизображений регистрируют в виде матрицы, сравнивают матрицу сохраненного паттерна яркости области интереса и матрицу зарегистрированного паттерна яркости области интереса для каждого из указанного множества видеоизображений на основе попиксельного сравнения или корреляционного анализа, при этом окна поиска в каждом из указанного множества видеоизображений, внутри которого выполняют сравнение, выбирают из группы, состоящей из: окна поиска, представляющего собой квадратную область с длиной стороны в пределах от четверти ширины лица до ширины лица и центром, соответствующим местоположению кончика носа на предыдущем видеоизображении из упомянутого множества видеоизображений, если указанное местоположение известно, окна поиска, представляющего собой прямоугольную область, определяемую с использованием автоматизированной технологии обнаружения лица, или окна поиска, представляющего собой всю область изображения видеокадра, отличающийся тем, что выпуклая форма представляет собой голову человека, область интереса представляет собой область лица человека между бровями и нижней губой, перед тем, как определяют местоположение области интереса на выпуклой форме, получают оцифрованное изображение указанной выпуклой формы с помощью видеокамеры, после того, как указанный сохраненный паттерн яркости области интереса сохраняют в виде матрицы, определяют местоположение пяти опорных точек в пределах указанного сохраненного паттерна яркости области интереса, а затем регистрируют множество оцифрованных видеоизображений, по результатам сравнения матрицы сохраненного паттерна яркости области интереса и матрицы зарегистрированного паттерна яркости области интереса определяют двумерные координаты указанных опорных точек в каждом из указанного множества видеоизображений, а затем используют двумерные координаты указанных опорных точек для управления курсором мыши.
2. Способ по п. 1, отличающийся тем, что естественные опорные точки лица человека представляют собой центр верхней губы, кончик носа, точку между глаз на переносице, зрачок правого глаза и зрачок левого глаза пользователя.
3. Способ по п. 2, отличающийся тем, что в случае потери одной из опорных точек осуществляют ее восстановление на основе двумерных координат двух точек, оставшихся в прямоугольной области, объединяющей тройки опорных точек.
RU2015124282A 2015-06-22 2015-06-22 Способ бесконтактного управления курсором мыши RU2618389C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2015124282A RU2618389C2 (ru) 2015-06-22 2015-06-22 Способ бесконтактного управления курсором мыши

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2015124282A RU2618389C2 (ru) 2015-06-22 2015-06-22 Способ бесконтактного управления курсором мыши

Publications (2)

Publication Number Publication Date
RU2015124282A RU2015124282A (ru) 2017-01-10
RU2618389C2 true RU2618389C2 (ru) 2017-05-03

Family

ID=57955579

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015124282A RU2618389C2 (ru) 2015-06-22 2015-06-22 Способ бесконтактного управления курсором мыши

Country Status (1)

Country Link
RU (1) RU2618389C2 (ru)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020126090A1 (en) * 2001-01-18 2002-09-12 International Business Machines Corporation Navigating and selecting a portion of a screen by utilizing a state of an object as viewed by a camera
US20040017472A1 (en) * 2002-07-25 2004-01-29 National Research Council Method for video-based nose location tracking and hands-free computer input devices based thereon
US20060125789A1 (en) * 2002-12-23 2006-06-15 Jiawen Tu Contactless input device
US20140141887A1 (en) * 2006-06-30 2014-05-22 Microsoft Corporation Generating position information using a video camera
RU2519286C2 (ru) * 2007-07-19 2014-06-10 Юрий Маркович Боянжу Способ бесконтактного управления компьютером (варианты)

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020126090A1 (en) * 2001-01-18 2002-09-12 International Business Machines Corporation Navigating and selecting a portion of a screen by utilizing a state of an object as viewed by a camera
US20040017472A1 (en) * 2002-07-25 2004-01-29 National Research Council Method for video-based nose location tracking and hands-free computer input devices based thereon
US20060125789A1 (en) * 2002-12-23 2006-06-15 Jiawen Tu Contactless input device
US20140141887A1 (en) * 2006-06-30 2014-05-22 Microsoft Corporation Generating position information using a video camera
RU2519286C2 (ru) * 2007-07-19 2014-06-10 Юрий Маркович Боянжу Способ бесконтактного управления компьютером (варианты)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
статья А.А. Карпов, А.Л. Ронжин "Система бесконтактного управления компьютером на основе распознавания речи и движений головы", опубл. 2006 г. на 11 страницах, разделы Введение, Обработка видеоинформации, Объединение и синхронизация информации, рис. 3, 4. статья А.А. Карпова и др. "Hands-Free mouse control system for handicapped operators", опубл. 25.06.2006 г., 5 стр., разделы Developed system for hand-free mouse control, The multiplication of tracking points and rectangles method. *

Also Published As

Publication number Publication date
RU2015124282A (ru) 2017-01-10

Similar Documents

Publication Publication Date Title
US11995245B2 (en) User-defined virtual interaction space and manipulation of virtual configuration
Memo et al. Head-mounted gesture controlled interface for human-computer interaction
US20220083880A1 (en) Interactions with virtual objects for machine control
US20230044664A1 (en) Method and System for Hand Pose Detection
US20200356238A1 (en) Virtual Interactions for Machine Control
Reale et al. A multi-gesture interaction system using a 3-D iris disk model for gaze estimation and an active appearance model for 3-D hand pointing
US20200004403A1 (en) Interaction strength using virtual objects for machine control
US20130335318A1 (en) Method and apparatus for doing hand and face gesture recognition using 3d sensors and hardware non-linear classifiers
Tran et al. Real-time virtual mouse system using RGB-D images and fingertip detection
US20200286286A1 (en) Tracking rigged polygon-mesh models of articulated objects
Rautaray et al. Design of gesture recognition system for dynamic user interface
US20200265598A1 (en) SYSTEMS AND METHODS FOR HANDLING MULTIPLE SIMULTANEOUS LOCALIZATION AND MAPPING (SLAM) SOURCES AND ALGORITHMS IN VIRTUAL, AUGMENTED, AND MIXED REALITY (xR) APPLICATIONS
JP7408562B2 (ja) プログラム、情報処理装置、定量化方法及び情報処理システム
US10713847B2 (en) Method and device for interacting with virtual objects
Abdallah et al. An overview of gesture recognition
Itkarkar et al. A study of vision based hand gesture recognition for human machine interaction
RU2618389C2 (ru) Способ бесконтактного управления курсором мыши
Verma et al. 7 Machine vision for human–machine interaction using hand gesture recognition
Alves Fernandes et al. Using Haar-like feature classifiers for hand tracking in tabletop augmented reality
Piumsomboon Natural hand interaction for augmented reality.
Ferstl et al. Real-time hand gesture recognition in a virtual 3d environment
Ashfaque et al. Ostentatious Adoption of Hand Gestures for Intelligent HCI
Jadhav et al. Sixth Sense Technology Based Pointer Interface System
Xu et al. Perceiving Motion Cues Inspired by Microsoft Kinect Sensor on Game Experiencing
Fernando Pointing Gesture Recognition Using Stereo Vision for Video Conferencing

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20170623

NF4A Reinstatement of patent

Effective date: 20180226