RU124017U1

RU124017U1 - INTELLIGENT SPACE WITH MULTIMODAL INTERFACE

Info

Publication number: RU124017U1
Application number: RU2012108493/08U
Authority: RU
Inventors: Андрей Леонидович Ронжин; Александр Леонидович Ронжин; Мария Викторовна Прищепа; Виктор Юрьевич Будков
Priority date: 2012-03-05
Filing date: 2012-03-05
Publication date: 2013-01-10

Abstract

Система для проведения и аудиовизуального протоколирования образовательных и научных мероприятий, содержащая аппаратно-программные модули, активационные и коммутирующие устройства, мультимедийные средства и аудиовизуальные сенсоры, функционально взаимосвязанные между собой, и обеспечивающая участников мероприятия необходимыми услугами в автоматическом режиме, отличающаяся тем, что встроенные средства: 3 массива микрофонов Т-образной конфигурации и 2 отдельных микрофона, обеспечивающие захват аудиоданных, пространственно-спектральную фильтрацию полезного речевого сигнала и работу системы дистанционного распознавания речи; 15 камер, из которых 1 широкоугольная камера, расположенная под потолком, 4 интеллектуальные камеры, установленные на стенах, 10 индивидуальных веб-камер, обеспечивающих работу многоканальной системы видеомониторинга, определение местоположение пользователя в помещении, нахождение его лица и слежение за перемещением; мультимедийные проекционные устройства с возможностью сенсорного ввода, соединенные посредством каналов связи с вычислительными блоками; выполняют в автоматическом режиме локальное и удаленное управление презентационным и активационным оборудованием в помещении, многомодальными информационными приложениями, а также производят автоматическое определение аудиовизуальной активности дикторов, запись хода мероприятия и обеспечивают проведение распределенных совещаний с участием удаленных участников на основе внедренных технологий многоканальной обработки аудиовизуальных сигналов, дикторонезависимого распознавания русской речи, аудиовизуального синтезA system for conducting and audiovisual recording of educational and scientific events, containing hardware and software modules, activation and switching devices, multimedia and audiovisual sensors, functionally interconnected, and providing event participants with the necessary services in automatic mode, characterized in that the built-in means: 3 arrays of T-shaped microphones and 2 separate microphones that capture audio, spatial spectrum nuyu useful filtering of the speech signal and the operation of the remote speech recognition system; 15 cameras, of which 1 wide-angle camera located on the ceiling, 4 smart cameras mounted on the walls, 10 individual web cameras that provide the multi-channel video monitoring system, determining the user's location in the room, finding his face and tracking movement; multimedia projection devices with touch input capability, connected via communication channels to computing units; perform automatic local and remote control of presentation and activation equipment in the room, multimodal information applications, as well as automatically determine the audiovisual activity of the speakers, record the progress of the event and provide distributed meetings with the participation of remote participants based on the implemented technologies for multichannel processing of audio-visual signals, speaker independent recognition of Russian speech, audiovisual synthesis

Description

Техническое решение относится к информационным технологиям, в частности, является одним из вариантов реализации концепции окружающего интеллектуального пространства с многомодальным интерфейсом. Разработанное решение может быть использовано для проведения и аудиовизуального протоколирования образовательных и научных мероприятий, таких как лекция, совещание, телеконференция и т.д.The technical solution relates to information technology, in particular, is one of the options for implementing the concept of the surrounding intellectual space with a multimodal interface. The developed solution can be used for conducting audio-visual recording of educational and scientific events, such as a lecture, meeting, teleconference, etc.

Существуют технические решения [1, 2], представляющие собой реализации интеллектуальных пространств для специфических условий эксплуатации. В состав первого технического решения входят приборы учета, счетчики и датчики, дополнительно установленные приборы управления для регулирования теплового режима и средство отображения информации о потребленных энергоресурсах, компьютерный модуль, выполняющий функции учета, контроля и управления, устройства для регулирования и включения/выключения подачи каждого из энергоресурсов, устройства оповещения о событиях в подконтрольной системе, устройства, обеспечивающие передачу информации с компьютерного модуля по каналам связи локальных и/или глобальных сетей, специальное программное обеспечение по заложенным алгоритмам, меняющее параметры подключения счетчиков разных видов и производителей, осуществляющее объединение всех необходимых объектов в единое информационное пространство.There are technical solutions [1, 2], which are the implementation of intelligent spaces for specific operating conditions. The first technical solution includes metering devices, meters and sensors, additionally installed control devices for regulating the thermal regime and a means for displaying information on consumed energy resources, a computer module that performs the functions of metering, control and management, devices for regulating and turning on / off the supply of each energy resources, warning devices for events in the controlled system, devices for transmitting information from a computer module through communication channels ln and / or global networks, special software according to the built-in algorithms, changing the connection parameters of meters of various types and manufacturers, combining all the necessary objects into a single information space.

Второе техническое решение предполагает контроль над объектами предприятия и включает в себя метки радиочастотной идентификации, сервер памяти, сканеры меток радиочастотной идентификации, равномерно установленные в области нахождения контролируемых объектов предприятия на расстояниях между собой, обеспечивающих полное перекрытие области нахождения контролируемых объектов предприятия, и соединенные с входами сервера памяти, дополнительно выполняющим функции определения местоположения контролируемых объектов предприятия по данным от сканеров меток радиочастотной идентификации, а также устройство выходного контроля, выполняющего функции гашения меток радиочастотной идентификации, вход-выход которого соединен с первым входом-выходом сервера памяти, и устройство отображения и управления, вход-выход которого соединен со вторым входом-выходом сервера памяти.The second technical solution involves control over the objects of the enterprise and includes RFID tags, a memory server, RFID tag scanners that are evenly installed in the area where the controlled objects of the enterprise are located at distances between each other, which completely overlap the area of the controlled objects of the enterprise, and connected to the inputs memory server, additionally performing the functions of determining the location of controlled objects of the enterprise according to output from scanners of RFID tags, as well as an output control device that performs the functions of blanking RFID tags, the input-output of which is connected to the first input-output of the memory server, and the display and control device, the input-output of which is connected to the second input-output of the server memory.

Перечисленные выше решения не способны взаимодействовать с пользователями естественными способами на основе анализа/синтеза речи, жестов и других модальностей и, следовательно, не могут быть использованы некоторыми группами населения, например, людьми с ограниченными возможностями.The solutions listed above are not able to interact with users in natural ways based on the analysis / synthesis of speech, gestures and other modalities and, therefore, cannot be used by some groups of the population, for example, people with disabilities.

Также существует техническое решение, обеспечивающее взаимодействие с пользователями с помощью многомодального интерфейса [3]. Устройство представляет собой подвижный автомат самообслуживания, оснащенный массивами микрофонов, камерами, датчиками препятствий и сенсорными мониторами. Все устройства управляются с помощью встроенного бортового компьютера. Устройство может предоставлять информационные услуги пользователям с помощью графического и аудиоинтерфейсов, а также имеет систему распознавания голосовых запросов. В тоже время это устройство не представляет собой интеллектуальное пространство, поэтому не может препятствовать регистрации разработанного технического решения.There is also a technical solution that provides interaction with users using a multimodal interface [3]. The device is a mobile self-service machine, equipped with arrays of microphones, cameras, obstacle sensors and touch monitors. All devices are controlled using the on-board computer. The device can provide information services to users using graphical and audio interfaces, and also has a voice recognition system. At the same time, this device does not constitute an intellectual space, therefore, it cannot interfere with the registration of the developed technical solution.

Наиболее близким к заявленному техническому решению по тематике является интеллектуальная система жизнеобеспечения, управляемая компьютером, анализирующим текущие условия окружающей среды посредством набора различных датчиков [1]. В данном патенте описана общая идея создания интеллектуального пространства без указания определенных технологий, реализующих связь между встроенными компонентами, а также взаимодействие пользователя с интеллектуальной средой. Также в данной системе не подразумевается использование многомодальных пользовательских интерфейсов и персонифицированного подхода к управлению средствами жизнеобеспечения.Closest to the claimed technical solution on the topic is an intelligent life support system controlled by a computer that analyzes current environmental conditions through a set of different sensors [1]. This patent describes the general idea of creating an intelligent space without specifying certain technologies that implement communication between embedded components, as well as user interaction with the intelligent environment. Also, this system does not imply the use of multimodal user interfaces and a personalized approach to managing life support equipment.

Новизна разработанного технического решения заключается в наличии многомодального пользовательского интерфейса. Разработанные технологии для автоматической обработки аудиовизуальных данных были успешно внедрены в интеллектуальном пространстве для обеспечения естественного взаимодействия с оборудованием. Среди наиболее важных технологий, примененных в разработанном техническом решении, следует отметить: автоматическое распознавание русской речи, голосовую идентификацию диктора, локализацию источников звука, определение положения и слежение за двигающимися объектами и лицами людей, определение позы человека.The novelty of the developed technical solution lies in the presence of a multimodal user interface. Developed technologies for the automatic processing of audiovisual data have been successfully implemented in an intelligent space to ensure natural interaction with equipment. Among the most important technologies used in the developed technical solution, it should be noted: automatic recognition of Russian speech, voice recognition of the speaker, localization of sound sources, positioning and tracking of moving objects and faces of people, determining the pose of a person.

Разработанный вариант интеллектуального пространства представляет собой распределенную систему, которая содержит сеть программно-аппаратных модулей, активационных устройств, мультимедийных средств и аудиовизуальных сенсоров, встроенных в конструкцию помещения. На основе автоматического анализа текущей ситуации в помещении система обеспечивает участников совещания или лекции необходимыми сервисами. Осведомленность системы о пространственном положении участников, их текущих действиях, роли в текущем мероприятии и их предпочтениях помогает более точно предсказать намерения и потребности участников. Моделирование контекста, извлечение, синхронизация и распределение знаний остаются наиболее важными задачами при проектировании интеллектуального пространства.The developed version of the smart space is a distributed system that contains a network of software and hardware modules, activation devices, multimedia tools and audiovisual sensors built into the room structure. Based on an automatic analysis of the current situation in the room, the system provides the meeting or lecture participants with the necessary services. Awareness of the system about the spatial position of the participants, their current actions, their role in the current event and their preferences helps to more accurately predict the intentions and needs of the participants. Context modeling, extraction, synchronization and distribution of knowledge remain the most important tasks in the design of intellectual space.

Для автоматизации управления презентационным, аудио-, видео- и активационным оборудованием была предложена технологическая сеть, учитывающая текущее поведение участников и состояние устройств в интеллектуальном пространстве. Многомодальное управление оборудованием как внутри помещения, так и удаленно реализовано через веб-интерфейс, графическая компоновка которого учитывает характеристики дисплея клиентского устройства.To automate the management of presentation, audio, video and activation equipment, a technological network was proposed that takes into account the current behavior of the participants and the state of the devices in the intellectual space. Multimodal control of equipment both indoors and remotely is implemented through a web interface, the graphic layout of which takes into account the display characteristics of the client device.

На рисунке 1 представлена технологическая сеть разработанного интеллектуального пространства, программная реализация которой приведена в работе [4]. Анализ модельно-алгоритмического обеспечения для многоканальной обработки аудиопотоков, использованного при разработке многомодального интерфейса к интеллектуальному пространству приведен в работах [5, 6]. Совместная работа технологий аудиовизуальной обработки сигналов снабжает систему управления помещения данными о текущей обстановке в помещении, о поведении пользователей, а также обеспечивает дистанционное распознавание голосовых команд за счет анализа пространственно-временной, ситуативной информации и предпочтений пользователей.Figure 1 shows the technological network of the developed intellectual space, the software implementation of which is given in [4]. An analysis of the model and algorithmic support for multichannel processing of audio streams used in the development of a multimodal interface to intelligent space is given in [5, 6]. The joint work of audio-visual signal processing technologies supplies the room management system with data on the current indoor environment, on user behavior, and also provides remote recognition of voice commands by analyzing the spatio-temporal, situational information and user preferences.

Дистанционное распознавание голосовых команд, записанных посредством массивов микрофонов, позволяет управлять освещением, шторами, проекционным экраном, поворотом камер и более сложными приложениями, например, телевизором, радио, аудио- видеоплеером. Также реализованы многомодальные приложения «Справочная СПИИРАН», предлагающее в интерактивном режиме информацию о сотрудниках института, научных подразделения и текущих мероприятиях, и «Карта Санкт-Петербурга», где посредством голосового дистанционного запроса производится поиск улицы и вывод на экран сенсорного монитора интересующего участка карты города. Приложение «Умная доска» позволяет делать рукописные записи на сенсорной плазменной панели и с помощью голосовых команд управлять графическим интерфейсом. В приложении «Монитор состояния зала» на экран выводится информация о состоянии оборудования, пространственному положению пользователей, их речевой активности, а также реализовано сенсорное управление оборудованием. Во всех приложениях интерактивная обратная связь обеспечивается посредством говорящей головы, которая показывает пользователю об осведомленности интеллектуального пространства о поведении пользователей и озвучивает необходимую речевую информацию [7].Remote recognition of voice commands recorded using arrays of microphones allows you to control lighting, curtains, projection screen, camera rotation and more complex applications, such as TV, radio, audio-video player. Also, multimodal applications “Reference SPIIRAS”, which interactively provides information on the institute’s employees, research departments and current events, and the “Map of St. Petersburg”, where by means of a voice remote request, search for the street and display on the touch monitor screen of the section of the city map of interest are implemented . The Smart Whiteboard application allows you to make handwritten notes on the plasma touch panel and control the graphical interface using voice commands. In the application “Hall Status Monitor” information on the equipment status, spatial position of users, their speech activity is displayed on the screen, as well as touch control of equipment is implemented. In all applications, interactive feedback is provided by means of a talking head, which shows the user about the awareness of the intellectual space about user behavior and voices the necessary speech information [7].

Также реализовано удаленное управление оборудованием помещения на основе веб-интерфейса, адаптивного к возможностям и текущему состоянию устройства, и позволяющего автоматически сформировать соответствующую компоновку веб-страницы, отображающейся на стороне клиента.Also, remote control of the equipment of the room based on a web interface that is adaptive to the capabilities and current status of the device, and allowing you to automatically generate the appropriate layout of the web page displayed on the client side, is implemented.

Для записи текущей ситуации в разработанном интеллектуальном пространстве используются видеокамеры с различным разрешением. При отображении кадра на клиентском устройстве его размеры изменяются так, чтобы полностью заполнить окно браузера. Если же соотношения размеров сторон кадра и окна браузера существенно отличаются, то картинка будет слишком растянута по одной из сторон, поэтому изменение размеров кадра производится не более, чем на 20%. Если при новых размерах в окне браузера остается свободное место, то оно используется для отображения говорящей головы, служащей для аудиовизуального синтеза сообщений, поступающих с сенсоров, установленных в помещении.To record the current situation in the developed intellectual space, cameras with different resolutions are used. When a frame is displayed on a client device, its size is changed so as to completely fill the browser window. If the aspect ratio of the frame and the browser window are significantly different, then the picture will be too stretched along one of the sides, so the frame is resized by no more than 20%. If there is free space in the browser window with the new dimensions, then it is used to display the talking head, which serves for the audiovisual synthesis of messages coming from sensors installed in the room.

При настройке оборудования интеллектуального пространства для проведения конференций могут быть учтены эргономические аспекты использования мультимедийного оборудования, а также выбрано такое расположение аудио- и видеозаписывающих устройств, которое обеспечивает захват наибольшего числа участников. При выборе количества камер, их месторасположения, разрешающей способности, угла обзора объективов и других параметров системы видеомониторинга также учитывается размер зоны охвата, число объектов, требующих одновременного слежения, степень деталировки анализируемых объектов, уровень освещенности.When configuring the equipment of the intelligent space for conferences, ergonomic aspects of using multimedia equipment can be taken into account, and the location of audio and video recording devices that captures the largest number of participants can be selected. When choosing the number of cameras, their location, resolution, viewing angle of lenses and other parameters of the video monitoring system, the size of the coverage area, the number of objects requiring simultaneous tracking, the degree of detail of the analyzed objects, and the level of illumination are also taken into account.

На рисунке 2 представлена схема расположения посадочных мест, мультимедийного оборудования (TV, Projector), пяти Интернет камер фирмы AXIS (PTZ-камеры Саm3, Саm5, беспроводные камеры Саm2, Саm4, камера с широкоугольным объективом Cam1, установленная на потолке по центру помещения), 10 персональных веб-камер Logitech AF Sphere, установленных на конференц-столе.Figure 2 shows the layout of seats, multimedia equipment (TV, Projector), five AXIS Internet cameras (Cam3, Cam5 PTZ cameras, Cam2, Cam4 wireless cameras, Cam1 wide-angle lens camera mounted on the ceiling in the center of the room), 10 Logitech AF Sphere personal webcams installed on the conference table.

Для размещения участников небольших совещаний (круглых столов до 10 человек) в левой части помещения расположен конференц-стол с установленными на нем персональными видеокамерами. В правой части помещения расположены ряды кресел, на которых могут разместиться до 32 участников конференций или лекций, слежение за которыми реализовано посредством распределенной системы видеокамер и массивов микрофонов. С учетом указанного расположения оборудования, в помещении выделены три непересекающиеся зоны (на рисунке 3 ограничены пунктирной линией), требующие постоянного видеослежения: (1) зона перемещения основного докладчика; (2) зона участников, сидящих за конференц-столом; (3) зона участников, сидящих в рядах кресел.To accommodate participants in small meetings (round tables for up to 10 people), a conference table with personal video cameras installed on it is located on the left side of the room. On the right side of the room are rows of chairs that can accommodate up to 32 participants in conferences or lectures, tracking of which is implemented through a distributed system of video cameras and microphone arrays. Considering the indicated arrangement of the equipment, three disjoint zones are highlighted in the room (in Figure 3 they are limited by a dashed line), which require constant video tracking: (1) the zone of movement of the main speaker; (2) a zone of participants sitting at a conference table; (3) the area of participants sitting in rows of chairs.

Видеомониторинг всех трех зон осуществлялся с помощью камеры Cam1 с углом обзора 140 градусов и разрешающей способностью 2048×1536 пикселей. Стационарные камеры Саm2, Саm4 имеют угол обзора 74 градусов и разрешающую способность 1280×1024 пикселей. Две камеры Саm3, Саm5 с углами обзора 51,6 градусов и разрешающей способностью 704×576 пикселей, с функциями наклона, поворота и масштабирования, обеспечивают наведение на любую точку пространства в помещении.Video monitoring of all three zones was carried out using a Cam1 camera with a viewing angle of 140 degrees and a resolution of 2048 × 1536 pixels. Fixed cameras Cam2, Cam4 have a viewing angle of 74 degrees and a resolution of 1280 × 1024 pixels. Two cameras Cam3, Cam5 with viewing angles of 51.6 degrees and a resolution of 704 × 576 pixels, with tilt, rotation and zoom functions, provide guidance to any point in space in the room.

Камера Саm2 установлена на высоте 2 метров на противоположной стене от проекционного экрана и используется для аудиовидеозаписи хода мероприятия. Так как камера Cam1 имеет широкоугольный объектив, и расположена на потолке в центре помещения, то она одновременно охватывает все пространство помещения и позволяет определить координаты всех участников в горизонтальной плоскости. Стационарная камера Саm4 установлена слева от входной двери и направлена таким образом, чтобы охватывать сразу всех пользователей, сидящих в зоне кресел. PTZ-камера Саm3 и камера Саm2 установлены рядом и в большинстве случаев работают совместно. Посредством анализа кадров с камеры Саm2 определяется положение наблюдаемого объекта и формируется команда на установку камеры Саm3 в направлении, необходимом для захвата лица определенного участника, находящегося в зоне кресел. PTZ-камера Саm5 установлена по центру левой стены помещения на высоте 2 метра от уровня пола и служит для захвата видеоизображения выступающего докладчика.The Cam2 camera is installed at a height of 2 meters on the opposite wall from the projection screen and is used for audio-video recording of the event. Since the Cam1 camera has a wide-angle lens and is located on the ceiling in the center of the room, it simultaneously covers the entire space of the room and allows you to determine the coordinates of all participants in the horizontal plane. The Cam4 fixed camera is installed to the left of the front door and is directed in such a way as to cover all users sitting in the chair area at once. The Cam3 PTZ camera and the Cam2 camera are installed side by side and in most cases work together. By analyzing the frames from the Cam2 camera, the position of the observed object is determined and a team is formed to install the Cam3 camera in the direction necessary to capture the face of a certain participant located in the chair area. The Cam5 PTZ camera is installed in the center of the left wall of the room at a height of 2 meters from the floor and serves to capture the video image of the speaker.

Разработанная многофункциональная система видеомониторинга интеллектуального пространства на основе системы Интернет камер AXIS осуществляет видеозапись всего мероприятия, а также позволяет автоматизировать такие ключевые этапы, как регистрация участников, съемка выступающего, активных участников в аудитории во время дискуссии и другие [8]. Исходя из основных этапов мероприятия, были составлены различные режимы работы многофункциональной системы видеомониторинга. В таблице 1 показаны функции каждой из камер в пяти основных режимах: наблюдение, слежение за участниками, регистрация участников, выступление докладчика, дискуссия.The developed multifunctional system of video monitoring of intellectual space based on the AXIS Internet camera system provides video recording of the entire event, and also allows you to automate key stages such as registering participants, shooting a speaker, active participants in an audience during a discussion, and others [8]. Based on the main stages of the event, various operating modes of the multifunctional video monitoring system were compiled. Table 1 shows the functions of each of the cameras in five main modes: monitoring, tracking participants, registering participants, speaker presentation, discussion.

В ходе основной части мероприятия выделяются два режима «Выступление докладчика» и «Дискуссия». В первом выполняется слежение за перемещением выступающего и определение участников, сидящих в зоне кресел. При этом наведение и запись выступления основного докладчика выполняется при помощи камеры Саm5. В режиме «Дискуссия» используется камера Саm3 для записи выступлений, сидящих в помещении. Во всех режимах кроме «Наблюдения» камера Саm2 выполняет запись общего вида на аудиторию. В таблице 1 не показан режим "Ожидание", в котором камеры находятся в «спящем» состоянии до тех пор, пока не будет включена, по крайней мере, одна из групп света.During the main part of the event, two modes “Speaker's Speech” and “Discussion” are distinguished. In the first, tracking the movement of the speaker and determining the participants sitting in the zone of the chairs is performed. In this case, guidance and recording of the keynote speaker's speech is performed using the Cam5 camera. In the "Discussion" mode, the Cam3 camera is used to record speeches sitting in the room. In all modes except “Surveillance”, the Cam2 camera records a general view of the audience. Table 1 does not show the “Standby” mode, in which the cameras are in the “sleep” state until at least one of the light groups is turned on.

Таблица 1Table 1 Функции камер в различных режимах работы системы видеомониторинга разработанного интеллектуального пространства.Camera functions in various modes of operation of the video monitoring system of the developed intellectual space. КамераCamera Режимы работыOperating modes НаблюдениеObservation Слежение за участникамиTracking Members Регистрация участниковRegistration of participants Сопровождение мероприятияEvent support Выступление докладчикаSpeaker's Speech ДискуссияDiscussion Cam1Cam1 Слежение за изменением состояния буферной зоныTracking buffer state changes Слежение за перемещением и определение сидящих участниковTracking and identifying seated participants Слежение за перемещением выступающего и определение участников, сидящих в зоне кресел.Tracking the movement of the speaker and identifying the participants sitting in the seat area. Cam4Cam4 Поиск лиц сидящих участниковSearch for faces of seated participants Cam3Cam3 Фотографирование лиц сидящих участниковPhotographing the faces of seated participants Запись выступлений, сидящих в помещенииRecordings of performances sitting indoors Cam5Cam5 Наведение и запись перемещающегося участникаGuiding and recording a moving participant Наведение и запись выступления основного докладчикаGuidance and recording of keynote address Cam2Cam2 Запись общего вида на аудиториюRecording a general view of the audience

Для удобства наблюдения за режимами работы системы вся информация передается на модуль управления интеллектуальным пространством, в диалоговом окне которого отображаются найденные в процессе видеомониторинга объекты, в том числе участники, сидящие за конференц-столом, в зоне кресел, а также движущиеся в текущий момент. Фотографии зарегистрированных участников отображаются в диалоговом окне в соответствии с занимаемыми креслами.For the convenience of monitoring the operating modes of the system, all information is transmitted to the intelligent space management module, in the dialog box of which objects found during video monitoring are displayed, including participants sitting at the conference table, in the chair area, as well as those currently moving. Photos of registered participants are displayed in the dialog box according to the seats occupied.

При настройке аудиооборудования проводится оценка работы системы аудиолокализации с учетом размеров помещения и времени реверберации аудиосигнала. Многоканальная аудиоплата Presonus FirePod была использована для записи сигналов со всех микрофонов. В системе аудиолокализации применяется оценка положения источника звука на основе сигналов пар микрофонов, а затем координаты источника звука усредняются по всем массивам микрофонов. В разработанном решении применяются конфигурации из четырех массивов: MA₁ - линейный массив из двух микрофонов, расположенный в левой части зала; МА₂ - линейный массив из двух микрофонов, расположенный в зоне презентаций; МА₃ - линейный массив из двух микрофонов, расположенный над зоной кресел; МА₄ - массив Т-образной конфигурации, состоящий из микрофонов второго массива и двух дополнительных микрофонов. Четвертый массив был оставлен с Т-образной конфигурацией, так как при расположении основного докладчика лицом к сенсорной доске (спиной к аудитории), другие массивы микрофонов не смогут определить положение источника звука.When setting up audio equipment, the performance of the audio localization system is evaluated taking into account the size of the room and the reverberation time of the audio signal. The Presonus FirePod multi-channel audio card was used to record signals from all microphones. The audio-location system uses an estimate of the position of the sound source based on the signals of pairs of microphones, and then the coordinates of the sound source are averaged over all arrays of microphones. In the developed solution, configurations of four arrays are used: MA ₁ - a linear array of two microphones located on the left side of the hall; MA ₂ - a linear array of two microphones located in the presentation area; MA ₃ - a linear array of two microphones located above the seat area; MA ₄ - an array of a T-shaped configuration, consisting of microphones of the second array and two additional microphones. The fourth array was left with a T-shaped configuration, since when the main speaker was placed facing the touch board (with his back to the audience), other arrays of microphones would not be able to determine the position of the sound source.

Так как массивы микрофонов установлены на высоте двух метров от пола, то сигналы исходящие непосредственно под массивом, оказываются ослабленными. По этой причине все микрофоны в массивах были наклонены в горизонтальной плоскости примерно на тридцать градусов вниз, чтобы покрыть большую зону аудилокализации. Кроме того, в вертикальной плоскости у микрофонов второго и четвертого массивов был сделан наклон вправо на двадцать градусов, чтобы их можно было использовать для локализации источников звука в зоне кресел.Since the arrays of microphones are installed at a height of two meters from the floor, the signals emanating directly under the array are weakened. For this reason, all the microphones in the arrays were tilted in the horizontal plane about thirty degrees down to cover a large area of audilocalization. In addition, in the vertical plane of the microphones of the second and fourth arrays, a twenty-degree tilt to the right was made so that they could be used to localize sound sources in the seat area.

Полная конфигурация аудиозахватывающего оборудования включает в себя десять микрофонов Октава МК-012, их расположение показано на рисунке 9. Каждый микрофон имеет кардиоидный капсюль и записывает звук, приходящий с отклонением от нормали до 60 градусов, с приблизительно одинаковым усилением. Также следует учесть, что производительность метода GCC-PHAT, использующегося для аудиолокализации, значительно выше при углах до 65 градусов [8]. По этим причинам рабочий сектор в горизонтальной плоскости для массива, состоящего из пары микрофонов, был ограничен 120 градусами.The complete configuration of the audio-capturing equipment includes ten Octave MK-012 microphones, their location is shown in Figure 9. Each microphone has a cardioid capsule and records sound coming from a deviation from the normal to 60 degrees, with approximately the same gain. It should also be noted that the performance of the GCC-PHAT method used for audio localization is significantly higher at angles of up to 65 degrees [8]. For these reasons, the working sector in the horizontal plane for an array consisting of a pair of microphones was limited to 120 degrees.

Первый и третий массивы установлены под углом 90 градусов к стене. Микрофоны 3-6 установлены под углом 70 градусов к стене, как уже было замечено выше, для захвата речи участников, сидящих в зоне кресел в правой части зала. Второй массив состоит из 3 и 4 микрофонов. Четвертый массив имеет конфигурацию «перевернутая Т», состоит из 3-6 микрофонов и может оценивать положение источника звука независимо от остальных массивов микрофонов. Он используется для записи речи участников, находящихся в зоне выступлений. Когда лицо выступающего направлено на «умную доску», то есть он стоит спиной к слушателям, что часто бывает при вводе рукописных набросков или формул, то речь выступающего не может быть отчетливо записана другими микрофонами.The first and third arrays are installed at an angle of 90 degrees to the wall. Microphones 3-6 are installed at an angle of 70 degrees to the wall, as already noted above, to capture the speech of participants sitting in the chair area on the right side of the hall. The second array consists of 3 and 4 microphones. The fourth array has an “inverted T” configuration, consists of 3-6 microphones and can evaluate the position of the sound source independently of the rest of the microphone arrays. It is used to record the speech of participants in the performance area. When the speaker’s face is directed at the “smart board,” that is, he stands with his back to the audience, which often happens when entering handwritten sketches or formulas, the speaker’s speech cannot be clearly recorded with other microphones.

Таким образом, микрофоны 1-8, показанные на рисунке 9 применяются для аудиолокализации. Для определения текущего уровня звука в зале используются микрофоны 9 и 10, установленные на потолке в левой и правой части зала. Разработанный алгоритм определения речевой активности основан на оценке энергии спектра сигналов, записанных 9 и 10 микрофоном, и используется для включения/выключения модуля аудиолокализации. Во время проведения мероприятия наоборот данные о положении источника звука используются при сегментации речи участника, записанного 9 или 10 микрофонами.Thus, microphones 1-8 shown in Figure 9 are used for audio locating. To determine the current sound level in the hall, microphones 9 and 10 are used, installed on the ceiling in the left and right parts of the hall. The developed algorithm for determining speech activity is based on an estimate of the energy of the spectrum of signals recorded by 9 and 10 microphones and is used to turn on / off the audio localization module. During the event, on the contrary, data on the position of the sound source is used when segmenting the speech of a participant recorded by 9 or 10 microphones.

Метод GCC-PHAT был использован для оценки положения источника звука каждой парой микрофонов. Массивы MA₁ - МА₃ оценивают угол по направлению к источнику звука, затем рассчитывается точка пересечения лучей, в которой и предполагается, что находится говорящий участник. Четвертый массив оценивает положение диктора методом триангуляции. Окончательное решение принимается на основе комбинации оценок от всех массивов микрофонов с учетом их рабочего сектора и расстояния между массивом и предполагаемым положением источника звука.The GCC-PHAT method was used to estimate the position of the sound source by each pair of microphones. Arrays MA ₁ - MA ₃ evaluate the angle in the direction of the sound source, then the point of intersection of the rays is calculated, in which it is assumed that the speaking participant is located. The fourth array evaluates the position of the speaker by triangulation. The final decision is made on the basis of a combination of estimates from all arrays of microphones, taking into account their working sector and the distance between the array and the estimated position of the sound source.

На рисунке 4 показана схема устройства, которая содержит вычислительный блок (ВБ) 1 с многоядерной архитектурой, являющийся главным сервером системы управления интеллектуальным пространством, к которому подключена плазменная панель с сенсорным экраном 27, коммутирующее устройство 20 для управления группами света 21, 22, 23, 24, шторами 25 и проекционным экраном 26. На ВБ 1 передаются данные с ВБ 2, ВБ 3, ВБ 6, ВБ 7. Совместная работа технологий аудиовизуальной обработки сигналов снабжает систему управления интеллектуальным пространством данными о текущей обстановке в помещении, о поведении пользователей, а также обеспечивает распознавание голосовых команд за счет анализа пространственно-временной, ситуативной информации и предпочтений пользователей [9].Figure 4 shows a diagram of a device that contains a computing unit (WB) 1 with a multi-core architecture, which is the main server of the intelligent space management system, to which a plasma panel with a touch screen 27 is connected, a switching device 20 for controlling groups of light 21, 22, 23, 24, curtains 25 and projection screen 26. Data from WB 2, WB 3, WB 6, WB 7 is transmitted to WB 1. The joint work of the audio-visual signal processing technologies supplies the intellectual space management system with current data boiling indoor environment, the behavior of users, and provides recognition of voice commands by analyzing the spatial and temporal, contextual information and user preferences [9].

ВБ 2 отвечает за обработку данных поступающих с видеокамер 8, 9, 10, 11, 12. Также с ВБ 2 на ВБ 3 поступает информация о местоположении пользователей в помещении. К ВБ 3 подключены многоканальные платы аудиозахвата 13 и 14, к которым подключены массивы микрофонов 15, 16, 17 и отдельные микрофоны 18 и 19. Данные с ВБ 3 поступают на ВБ 1 и на ВБ 2 для последующей обработки. К ВБ 4 и ВБ 5 подключены наборы веб-камер 29-33 и 34-38 соответственно. Данные с этих камер обрабатываются и передаются с ВБ 4 и ВБ 5 на ВБ 6, который генерирует дополнительный веб-интерфейс для управления оборудованием, встроенным в интеллектуальное пространство. ВБ 6 обрабатывает потоки данных от удаленных пользователей, подключенных через веб-интерфейс. Коммутирующее устройство 39 используется для подключения ВБ 6 к сети Интернет. ВБ 6 передает данные, полученные через веб-интерфейс на ВБ 1, где данные о состоянии устройств помещения обрабатываются и отображаются с помощью приложения «многомодальная система управления интеллектуальным пространством». К ВБ 7 подключен проектор 28, который используется для управления презентациями. ВБ 7 передает данные о состоянии проектора на ВБ 1. ВБ 2, ВБ 3 и ВБ 6 получают данные о состоянии устройств 21-26, встроенных в интеллектуальное пространство, с ВБ 1.WB 2 is responsible for processing data coming from video cameras 8, 9, 10, 11, 12. Also, from WB 2 to WB 3, information about the location of users in the room is received. Multi-channel audio capture cards 13 and 14 are connected to WB 3, to which arrays of microphones 15, 16, 17 and individual microphones 18 and 19 are connected. Data from WB 3 is transmitted to WB 1 and to WB 2 for subsequent processing. The sets of webcams 29-33 and 34-38 are connected to WB 4 and WB 5, respectively. Data from these cameras is processed and transmitted from WB 4 and WB 5 to WB 6, which generates an additional web interface for controlling equipment built into the smart space. WB 6 processes data streams from remote users connected via the web interface. The switching device 39 is used to connect the WB 6 to the Internet. WB 6 transmits the data received via the web interface to WB 1, where data on the state of the room devices are processed and displayed using the application “multimodal intelligent space management system”. A projector 28 is connected to WB 7, which is used to control presentations. WB 7 transmits data about the state of the projector to WB 1. WB 2, WB 3 and WB 6 receive data on the status of devices 21-26 built into the smart space from WB 1.

Положительный эффект, который дает предлагаемое техническое решение, состоит в автоматизации процесса аудиовизуального протоколирования помещения и обеспечении участников мероприятий информационно-управляющими сервисами с многомодальным интерфейсом на основе анализа текущей ситуации в помещении и учета предпочтений участников предшествующих мероприятий.The positive effect provided by the proposed technical solution consists in automating the process of audiovisual recording of a room and providing event participants with information and control services with a multimodal interface based on an analysis of the current situation in the room and taking into account the preferences of participants in previous events.

При составлении описания и формулировании технического решения были использованы следующие источники информации:When compiling a description and formulating a technical solution, the following sources of information were used:

1. Галанин Ю.Э. Патент RU №108611 U1 МПК G01K 17/00, G01D 7/00, 2011.1. Galanin Yu.E. Patent RU No. 108611 U1 IPC G01K 17/00, G01D 7/00, 2011.

2. Сараев В.Н, Кобяков А.А., Вайно А.Э., Лисютин Е.В., Кобякова Н.Г., Козлов Л.Н., Подоляк В.И., Панфилов С.А. Патент RU №105494 U1, МПК G06Q 10/00, 2011.2. Saraev V.N., Kobyakov A.A., Vayno A.E., Lisyutin E.V., Kobyakova N.G., Kozlov L.N., Podolyak V.I., Panfilov S.A. Patent RU No. 105494 U1, IPC G06Q 10/00, 2011.

3. Ронжин А.Л., Прищепа М.В., Будков В.Ю., Карпов А.А. Патент RU №108172 U8, МПК G06F 17/30, G06F 13/14, 2011.3. Ronzhin A.L., Prishchepa M.V., Budkov V.Yu., Karpov A.A. Patent RU No. 108172 U8, IPC G06F 17/30, G06F 13/14, 2011.

4. Свидетельство о государственной регистрации ПрЭВМ №2011613964 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 23 мая 2011 г.: Ронжин Ан.Л., Ронжин Ал.Л., Будков В.Ю. Программная реализация интеллектуального зала (ПРИЗ-1).4. Certificate on state registration of the computer No. 2011613964 of the Federal Service for Intellectual Property, Patents and Trademarks of May 23, 2011: Ronzhin An.L., Ronzhin Al.L., Budkov V.Yu. Software implementation of the intellectual hall (PRIZ-1).

5. Ronzhin A.L., Budkov V.Yu. Multimodal Interaction with Intelligent Meeting Room Facilities from Inside and Outside // Springer-Verlag Berlin Heidelberg, S. Balandin et al. (Eds.): NEW2AN / ruSMART 2009, LNCS 5764, 2009. pp.77-88.5. Ronzhin A.L., Budkov V.Yu. Multimodal Interaction with Intelligent Meeting Room Facilities from Inside and Outside // Springer-Verlag Berlin Heidelberg, S. Balandin et al. (Eds.): NEW2AN / enSMART 2009, LNCS 5764, 2009. pp. 77-88.

6. Ронжин А.Л., Карпов А.А., Кагиров И.А. Особенности дистанционной записи и обработки речи в автоматах самообслуживания // Информационно-управляющие системы, Вып.42, т.5. - СПб.: ГУАП, 2009, С.32-38.6. Ronzhin A.L., Karpov A.A., Kagirov I.A. Features of remote recording and speech processing in self-service machines // Information Management Systems, Vol. 42, v.5. - St. Petersburg: GUAP, 2009, S.32-38.

7. А.А.Карпов, Л.И.Цирульник, М.Железны. Разработка компьютерной системы "говорящая голова" для аудиовизуального синтеза русской речи по тексту // Информационные технологии. - М.: Новые Технологии, №8, т.9, 2010. С.13-187. A.A. Karpov, L.I. Tsirulnik, M.Zhelezny. Development of a computer system "talking head" for the audiovisual synthesis of Russian speech in the text // Information Technologies. - M .: New Technologies, No. 8, vol. 9, 2010. P.13-18

8. Chau D.T., Li J., and Akagi М., "A DOA Estimation Algorithm Based on Equalization-Cancellation Theory", Proc. Interspeech 2010, Makuhari, Japan, 2010, pp.2770-2773.8. Chau D.T., Li J., and Akagi M., "A DOA Estimation Algorithm Based on Equalization-Cancellation Theory", Proc. Interspeech 2010, Makuhari, Japan, 2010, pp. 2770-2773.

9. Свидетельство о государственной регистрации ПрЭВМ №2011616481 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 19 августа 2011 г.: Ронжин Ал.Л., Будков В.Ю. Модель профиля пользователя интеллектуального пространства.9. Certificate on state registration of the computer No.2011616481 of the Federal Service for Intellectual Property, Patents and Trademarks of August 19, 2011: Ronzhin Al.L., Budkov V.Yu. Intelligent space user profile model.

Claims

Система для проведения и аудиовизуального протоколирования образовательных и научных мероприятий, содержащая аппаратно-программные модули, активационные и коммутирующие устройства, мультимедийные средства и аудиовизуальные сенсоры, функционально взаимосвязанные между собой, и обеспечивающая участников мероприятия необходимыми услугами в автоматическом режиме, отличающаяся тем, что встроенные средства: 3 массива микрофонов Т-образной конфигурации и 2 отдельных микрофона, обеспечивающие захват аудиоданных, пространственно-спектральную фильтрацию полезного речевого сигнала и работу системы дистанционного распознавания речи; 15 камер, из которых 1 широкоугольная камера, расположенная под потолком, 4 интеллектуальные камеры, установленные на стенах, 10 индивидуальных веб-камер, обеспечивающих работу многоканальной системы видеомониторинга, определение местоположение пользователя в помещении, нахождение его лица и слежение за перемещением; мультимедийные проекционные устройства с возможностью сенсорного ввода, соединенные посредством каналов связи с вычислительными блоками; выполняют в автоматическом режиме локальное и удаленное управление презентационным и активационным оборудованием в помещении, многомодальными информационными приложениями, а также производят автоматическое определение аудиовизуальной активности дикторов, запись хода мероприятия и обеспечивают проведение распределенных совещаний с участием удаленных участников на основе внедренных технологий многоканальной обработки аудиовизуальных сигналов, дикторонезависимого распознавания русской речи, аудиовизуального синтеза русской речи, многоканального видеомониторинга и веб-интерфейса для организации распределенных мероприятий.

A system for conducting and audiovisual recording of educational and scientific events, containing hardware and software modules, activation and switching devices, multimedia and audiovisual sensors, functionally interconnected, and providing event participants with the necessary services in automatic mode, characterized in that the built-in means: 3 arrays of T-shaped microphones and 2 separate microphones for capturing audio data, spatial spectrum nuyu useful filtering of the speech signal and the operation of the remote speech recognition system; 15 cameras, of which 1 wide-angle camera located on the ceiling, 4 smart cameras mounted on the walls, 10 individual web cameras that provide the multi-channel video monitoring system, determining the user's location in the room, finding his face and tracking movement; multimedia projection devices with touch input capability, connected via communication channels to computing units; perform automatic local and remote control of presentation and activation equipment in the room, multimodal information applications, as well as automatically determine the audio-visual activity of the speakers, record the progress of the event and provide distributed meetings with the participation of remote participants based on the implemented technologies of multi-channel processing of audio-visual signals, speaker independent recognition of Russian speech, audiovisual synthesis of Russian re and multichannel video monitoring and web-based interface for distributed organizations activities.