RU2649422C2 - Способ преобразования изображения в звуковой образ - Google Patents
Способ преобразования изображения в звуковой образ Download PDFInfo
- Publication number
- RU2649422C2 RU2649422C2 RU2013139845A RU2013139845A RU2649422C2 RU 2649422 C2 RU2649422 C2 RU 2649422C2 RU 2013139845 A RU2013139845 A RU 2013139845A RU 2013139845 A RU2013139845 A RU 2013139845A RU 2649422 C2 RU2649422 C2 RU 2649422C2
- Authority
- RU
- Russia
- Prior art keywords
- image
- pixels
- digital
- data
- sound wave
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 title description 3
- 238000012545 processing Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims abstract 2
- 230000002093 peripheral effect Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 239000003086 colorant Substances 0.000 claims 1
- 238000009987 spinning Methods 0.000 claims 1
- 230000003068 static effect Effects 0.000 claims 1
- 230000008447 perception Effects 0.000 abstract description 7
- 230000000007 visual effect Effects 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 230000005236 sound signal Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000001771 impaired effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
Abstract
Изобретение относится к акустике, в частности к способам для преобразования зрительной информации в звуковую форму для ее восприятия слепыми. Способ преобразования цифрового растрового изображения в звуковой образ для произвольного статического изображения или отдельного кадра видеоизображения, представленного в цифровом виде как двумерная матрица пикселей, включает ввод цифровых данных массива пикселей изображения в оперативную память микропроцессорной системы, обработку с помощью микропроцессора, формирующую из данных изображения одномерный массив данных в цифровой форме, последующее воспроизведение полученного сигнала в виде звуковых колебаний с помощью аудиосистемы. При этом двумерный массив пикселей растрового изображения развертывается в одномерный массив пикселей по траектории раскручивающейся спирали из центра изображения к краю, на основе получившегося одномерного массива пикселей формируется массив цифровых данных звуковой волны, в которой амплитуда звуковой волны пропорциональна яркости пикселей, частота звуковой волны кодируется цветом пикселей. Технический результат – сокращение количества вычислительных ресурсов. 3 з.п. ф-лы, 4 ил.
Description
Изобретение относится к способам преобразования визуальной информации в другие виды с целью ее восприятия инвалидами по зрению (слепыми) или людьми с ослабленным зрением. В настоящем изобретении предлагается преобразование зрительной информации в звуковую форму (воспринимаемую слухом). После обучения восприятию мобильная система на базе данного изобретения должна заменить слепому зрение.
Помимо выше описанного основного применения данное изобретение должно также помочь зрячим людям облегчить задачу визуального мониторинга в таких приложениях, как видеонаблюдение, охрана объектов или восприятие дополнительных видов (например, восприятие водителем автомобиля изображения с камеры заднего вида, не отвлекаясь от основного вида спереди).
Существуют различные способы представления визуальной информации в звуковом виде. Например, способ формирования акустического образа [патент Российской Федерации 2119785, 1998.10.10] требует сложной четырехкомпонентной системы источников аудиосигнала, которая не сможет применяться в мобильном устройстве.
Метод и система для получения аудио образа из графических данных [европейский патент EP 1369839, 2003.12.10] позволяют создать аудиообразы для небольших по размеру изображений, например символов. Однако этот метод в настоящее время не актуален в связи с наличием систем прямого преобразования TTS (text-to-speech = текст-в-речь), которые способны озвучивать символьную информацию после распознавания текста с помощью компьютерной программы, а для представления произвольного изображения данный метод непригоден из-за ограниченной разрешающей способности.
В изобретении [патент Японии JP 2004020869, 2004.01.22] используется панорамная камера (all azimuth imaging apparatus), позволяющая получить звуковой сигнал о том, что данное место вам знакомо.
Способ представления видеоинформации [патент РФ 2223552, 2004.02.10] предназначен для представления цветных изображений в виде комбинации массива выпуклых и плоских точек (тактильное восприятие) и звуковых сигналов (восприятие слухом). Данный способ дает невысокую разрешающую способность и требует довольно большого времени на «ощупывание» изображения.
Устройство идентификации цвета [патент WO 2005085781, 2005.09.15] выделяет лишь один цвет в изображении, и этот цвет преобразует в звуковой сигнал. По этому звуковому сигналу человеком распознается цвет. Очевидно, что данное устройство дает слишком мало информации для ориентации слепому.
Наиболее близким аналогом (прототипом) настоящего изобретения является метод и устройство для визуализации изображений с помощью звука [патент США US 6963656, 2005.11.08]. Данный метод предполагает шифрование пространственной информации в форму полифонической музыкальной последовательности. Ввиду недостаточной разрешающей способности данного метода предполагается разбиение изображения на части с выделением некоторых признаков, которые кодируются по частям.
Недостатком прототипа является то, что этот метод не является универсальным ввиду бесконечного разнообразия возможного разбиения произвольного изображения на отдельные части.
Для последующего рассмотрения настоящего изобретения определим понимание следующих терминов.
Цифровое растровое изображение – совокупность числовых элементов (пикселей, см. ниже), которые с определенной точностью и масштабом представляют некоторое изображение, являющееся или прямым, или косвенным (например, через фантазию художника) отражением материального мира. Эти числовые элементы могут обрабатываться в микропроцессорных системах, таких как компьютер, мобильный телефон, цифровая фото- или видеокамера. Для удобства обработки эта совокупность числовых элементов представляется в виде двумерного массива, так что отдельный элемент изображения имеет два индекса, определяющих координату местоположения данного элемента в прямоугольной области, ограничивающей изображение.
Пиксель (англ. Pixel = Picture Element) – «наименьший элемент поверхности визуализации, которому может быть независимым образом заданы цвет, интенсивность и другие характеристики изображения» (ГОСТ 27459-87). Размер пикселя определяет масштаб изображения, который для цели представления в звуковом виде не является существенным. Поэтому далее в описании будем подразумевать, что каждый отдельный пиксель как элемент изображения характеризуется только цветом и интенсивностью (яркостью).
Итак, информация, воспринимаемая зрением, может быть преобразована в форму цифрового растрового изображения с помощью сканера, фото- или видеокамеры. Полученные цифровые данные с помощью обработки могут быть тем или иным способом преобразованы в форму звуковых колебаний, которые при воспроизведении воспринимаются как звуковые (акустические) образы.
Сущность настоящего изобретения состоит в том, что двумерный массив данных (яркость и цвет для каждого пикселя) растрового изображения с помощью спиралеобразной развертки (начиная из центра изображения к его периферии) представляется в виде одномерного массива, который служит основой для синтеза цифрового массива данных звуковой волны. При этом данные яркости пикселей формируют текущую амплитуду (огибающую) звуковой волны, а данные цветности пикселей формируют величину текущей частоты колебания звуковой волны. Для монохромного изображения звуковой сигнал будет однотонным (сигнал будет меняться только по амплитуде).
Для того чтобы было ясно, какую часть спирали отображает в данный момент звуковой сигнал, после каждого пол-оборота спирали в звуковую последовательность сигналов вставлен один из двух сигналов-разделителей, имеющих частоты ниже и выше всех возможных частот, кодирующих цвета изображения. Например, если спираль начинается с верхнего пикселя начального оборота спирали, то после каждого нечетного пол-оборота вставлен низкочастотный разделитель (в нижней точки спирали), а после каждого четного пол-оборота вставлен высокочастотный разделитель (в верхней точки спирали).
В случае больших изображений (с большим числом пикселей) для получения приемлемой длины звуковой волны изображение на периферии «загрубляется», т.е. данные пикселей объединяются и усредняются. В результате один «виртуальный» пиксель заменяет несколько исходных. Например, четыре расположенные рядом пикселя (квадратом 2х2) заменяются одним эквивалентным пикселем, у которого цвет будет соответствовать частоте, равной среднеарифметическому от частот цвета четырех исходных пикселей, и яркость эквивалентного пикселя будет равна среднеарифметическому значению яркости четырех исходных пикселей. По мере удаления от начальной точки спирали число объединяемых пикселей возрастает. Например, сначала некоторое число оборотов спирали кодирование производится без объединения пикселей, затем несколько оборотов спирали с объединением и усреднением по 4 (2х2) рядом расположенных пикселей, захватывая в 2 раза более широкую полосу пикселей, далее – некоторое число оборотов спирали с объединением и усреднением по 9 (3х3) рядом расположенных пикселей, потом несколько оборотов спирали с объединением и усреднением по 16 (4х4) соседних пикселей и т.д. Таким образом, время, необходимое для воспроизведения части звуковой волны, соответствующей одному обороту спирали на периферии изображения, покрывающему широкую площадь изображения, существенно уменьшается. При этом уменьшается разрешающая способность – информация от периферийных частей изображения представляется в обобщенном виде – так же, как человеческий глаз воспринимает информацию с периферийной части картины, когда взгляд сосредоточен в ее центре.
Центральная точка, с которой первоначально начинается спиралеобразная развертка изображения, служит аналогом «точки взгляда», т.е. места, куда сфокусированы глаза человека, когда он начинает осматривать картинку. Звуковая волна, сформированная на базе спиралеобразной развертки, начиная из некоторой начальной точки изображения, отличной от центральной, будет аналогом «перемещения взгляда» при осмотре картинки глазами. Перемещение начальной точки развертки из центра изображения в иную точку изображения, получение и воспроизведение соответствующих звуковых образов для слуха подобны последовательному осмотру изображения, когда глаза фокусируют взгляд последовательно на разные участки изображения. При этом область, непосредственно примыкающая к начальной точке, там, где объединения и усреднения данных пикселей еще нет, будет иметь наилучшее разрешение. Поэтому эта область будет основой формирования наиболее информативной части звуковой волны. Наличие указательного устройства в системе (мышь, тачпад, сенсорный экран) позволит слепому перемещать виртуальный «взгляд» и многократно формировать звуковые образы для одного и того же растрового изображения, воспринимая которые можно будет опознавать представленный на картинке образ.
На Фиг.1 представлен принцип спиралеобразной развертки данных растрового изображения в одномерный массив для кодирования с целью получения сигнала звуковой волны и варианты его осуществления.
На Фиг.2 представлен принцип кодирования данных пикселей с помощью набора звуковых волн для монохромного и цветного изображения. Для варианта цветного изображения показана вставка разделительных сигналов.
На Фиг.3 представлено объединение пикселей с загрублением разрешающей способности по мере удаления развертки от начальной точки спирали к периферийным участкам изображения для быстрого охвата всего изображения.
На Фиг.4 представлено последовательное формирование нескольких звуковых сигналов для одного растрового изображения посредством изменения начальной точки спиралеобразной развертки для лучшего распознавания образов, присутствующих на изображении.
Реализация изобретения не представляет технических проблем. В качестве источника растрового изображения может использоваться цифровой фотоаппарат или цифровая видеокамера, камера мобильного телефона, web-камера ноутбука, планшета или стационарного компьютера.
Преобразование видеоданных в звуковые данные согласно настоящему способу осуществляется универсальным способом, не зависящим от того, что представлено на изображении. Такое преобразование не связано с распознаванием образов, и, следовательно, оно не потребует больших вычислительных ресурсов, сравнимых с потребностями искусственного интеллекта. Поэтому оно может осуществляться с помощью мобильной компьютерной или микропроцессорной системы в реальном времени. В качестве такой системы может использоваться, например, микропроцессорная система цифрового фотоаппарата, цифровой видеокамеры, мобильного телефона/смартфона, карманного/планшетного компьютера, ноутбука. Если нет требования мобильности, возможно использование и стационарного компьютера.
Практически для всех перечисленных устройств, кроме цифрового фотоаппарата, система воспроизведения звука и указательное устройство (мышь, трекбол, тачпад – сенсорная панель или сенсорный экран) являются стандартными элементами, входящими в комплектацию. Поэтому при наличии программы, реализующей вышеописанный способ преобразования изображения в звуковой образ, данные системы способны стать устройством, получающим технический результат согласно настоящему изобретению.
Claims (20)
1. Способ преобразования цифрового растрового изображения в звуковой образ для произвольного статического изображения или отдельного кадра видеоизображения, представленного в цифровом виде как двумерная матрица пикселей, включающий:
- ввод цифровых данных массива пикселей изображения в оперативную память микропроцессорной системы;
- обработку с помощью микропроцессора, формирующую из данных изображения одномерный массив данных в цифровой форме;
- последующее воспроизведение полученного сигнала в виде звуковых колебаний с помощью аудиосистемы,
отличающийся тем, что
- двумерный массив пикселей растрового изображения развертывается в одномерный массив пикселей по траектории раскручивающейся спирали из центра изображения к краю,
- на основе получившегося одномерного массива пикселей формируется массив цифровых данных звуковой волны, в которой
- амплитуда звуковой волны пропорциональна яркости пикселей,
- частота звуковой волны кодируется цветом пикселей.
2. Способ преобразования цифрового растрового изображения в звуковой образ по п. 1,
отличающийся тем, что
через каждые пол-оборота и каждый оборот спирали вставляются сигналы-разделители, частота которых больше и меньше значений частоты всех сигналов, которыми кодируются цвета пикселей.
3. Способ преобразования цифрового растрового изображения в звуковой образ по п. 1 или 2,
отличающийся тем, что
- на периферийной части траектории развертки данные яркости и цветности усредняются для нескольких рядом расположенных пикселей, так что одна точка аудиоданных амплитуды/частоты звуковой волны формируется на базе нескольких пикселей исходного изображения, и
- число объединяемых для усреднения пикселей увеличивается по мере удаления от точки начала развертки.
4. Способ преобразования цифрового растрового изображения в звуковой образ по п. 1 или 2,
отличающийся тем, что
- воспроизведение звуковой волны для одного и того же изображения может прерываться слушателем и повторяться несколько раз сначала,
- начало развертки с помощью указательного устройства смещается слушателем в любую точку изображения, отличную от предыдущей начальной точки, и для повторного воспроизведения формируется измененная звуковая волна с новой разверткой, начинающейся с указанной точки.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013139845A RU2649422C2 (ru) | 2013-08-28 | 2013-08-28 | Способ преобразования изображения в звуковой образ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013139845A RU2649422C2 (ru) | 2013-08-28 | 2013-08-28 | Способ преобразования изображения в звуковой образ |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2013139845A RU2013139845A (ru) | 2015-03-10 |
RU2649422C2 true RU2649422C2 (ru) | 2018-04-03 |
Family
ID=53279538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2013139845A RU2649422C2 (ru) | 2013-08-28 | 2013-08-28 | Способ преобразования изображения в звуковой образ |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2649422C2 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2820074C1 (ru) * | 2024-01-26 | 2024-05-28 | Федеральное государственное автономное образовательное учреждение высшего образования "Уральский федеральный университет имени первого Президента России Б.Н. Ельцина" | Способ преобразования цифрового растрового изображения в звуковой сигнал для технологии визуально-аудиального сенсорного замещения |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247761B (zh) * | 2017-06-01 | 2021-10-15 | 武汉理工大学 | 基于位图的轨迹编码方法 |
CN112857560B (zh) * | 2021-02-06 | 2022-07-22 | 河海大学 | 一种基于声音频率的声学成像方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4322744A (en) * | 1979-12-26 | 1982-03-30 | Stanton Austin N | Virtual sound system for the visually handicapped |
US5097326A (en) * | 1989-07-27 | 1992-03-17 | U.S. Philips Corporation | Image-audio transformation system |
WO1999058087A2 (en) * | 1998-05-12 | 1999-11-18 | University Of Manchester Institute Of Science And Technology | Visualising images |
RU2188611C2 (ru) * | 1999-10-28 | 2002-09-10 | Сокольский Валерий Николаевич | Способ ориентации слепого и устройство для его осуществления |
-
2013
- 2013-08-28 RU RU2013139845A patent/RU2649422C2/ru not_active Application Discontinuation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4322744A (en) * | 1979-12-26 | 1982-03-30 | Stanton Austin N | Virtual sound system for the visually handicapped |
US5097326A (en) * | 1989-07-27 | 1992-03-17 | U.S. Philips Corporation | Image-audio transformation system |
WO1999058087A2 (en) * | 1998-05-12 | 1999-11-18 | University Of Manchester Institute Of Science And Technology | Visualising images |
RU2188611C2 (ru) * | 1999-10-28 | 2002-09-10 | Сокольский Валерий Николаевич | Способ ориентации слепого и устройство для его осуществления |
Non-Patent Citations (2)
Title |
---|
Łukasz Błaszak, Marek Domański. Spiral Coding Order of Macroblocks with Applications to SNR-Scalable Video Compression // IEEE International Conference on Image Processing, 2005. ICIP 2005. * |
Первозванский А.А. Поиск. М.: Наука. Гл. ред. физ.-мат. лит., 1970, с. 30-31. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2820074C1 (ru) * | 2024-01-26 | 2024-05-28 | Федеральное государственное автономное образовательное учреждение высшего образования "Уральский федеральный университет имени первого Президента России Б.Н. Ельцина" | Способ преобразования цифрового растрового изображения в звуковой сигнал для технологии визуально-аудиального сенсорного замещения |
Also Published As
Publication number | Publication date |
---|---|
RU2013139845A (ru) | 2015-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102458339B1 (ko) | 360도 3d 입체 영상을 생성하는 전자 장치 및 이의 방법 | |
EP2496196B1 (en) | Representing visual images by alternative senses | |
US9558591B2 (en) | Method of providing augmented reality and terminal supporting the same | |
JP5969537B2 (ja) | 視覚的関心に基づいた2次元映像の3次元映像変換器および変換方法 | |
US8068644B2 (en) | System for seeing using auditory feedback | |
US11185445B2 (en) | Portable system that allows blind or visually impaired persons to interpret the surrounding environment by sound and touch | |
KR102273027B1 (ko) | 위치정보를 사용하여 설정된 관심영역을 사용하여 영상데이터를 생성하는 방법 및 장치 | |
KR101932537B1 (ko) | 3차원 전자지도상에 촬영영상을 표시하는 방법 및 장치 | |
JP2012521708A (ja) | 色周波数に基づく顕著性マップを用いて画像を修正する方法及び装置 | |
KR101723210B1 (ko) | 3차원 리얼타임 가상입체 스튜디오 장치에서의 가상입체 스튜디오 영상 생성 방법 | |
US9760965B2 (en) | Information embedding device, information detecting device, information embedding method, and information detecting method | |
US9483960B2 (en) | Method and apparatus for dimensional proximity sensing for the visually impaired | |
KR100345591B1 (ko) | 깊이정보처리를위한영상처리시스템 | |
RU2649422C2 (ru) | Способ преобразования изображения в звуковой образ | |
EP3742185B1 (en) | An apparatus and associated methods for capture of spatial audio | |
JP5598981B2 (ja) | 知覚刺激情報生成システム | |
KR20070010306A (ko) | 촬영장치 및 깊이정보를 포함하는 영상의 생성방법 | |
EP2747415A1 (en) | Image processing device, image processing method, and recording medium | |
CN110087059B (zh) | 一种针对真实三维场景的交互式自由立体显示方法 | |
RU2820074C1 (ru) | Способ преобразования цифрового растрового изображения в звуковой сигнал для технологии визуально-аудиального сенсорного замещения | |
JP2018112991A (ja) | 画像処理装置、画像処理システム、画像処理方法、及びプログラム | |
KR20150114103A (ko) | 3차원 리얼타임 가상입체 스튜디오 장치 및 3차원 리얼타임 가상입체 스튜디오 장치에서의 가상입체 스튜디오 영상 생성 방법 | |
RU2021110227A (ru) | Устройство и способ обработки аудиовизуальных данных | |
JP2008249862A (ja) | 画像表示装置及び画像表示方法 | |
Göktürk et al. | REAL TIME SENSORY SUBSTITUTION FOR THE BLIND |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FA93 | Acknowledgement of application withdrawn (no request for examination) |
Effective date: 20160829 |
|
FZ9A | Application not withdrawn (correction of the notice of withdrawal) |
Effective date: 20170116 |