Аудиолизация видео -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [18.221.53.209]

правила раздела Алгоритмы

1. Помните, что название темы должно хоть как-то отражать ее содержимое (не создавайте темы с заголовком ПОМОГИТЕ, HELP и т.д.). Злоупотребление заглавными буквами в заголовках тем ЗАПРЕЩЕНО.
2. При создании темы постарайтесь, как можно более точно описать проблему, а не ограничиваться общими понятиями и определениями.
3. Приводимые фрагменты исходного кода старайтесь выделять тегами code.../code
4. Помните, чем подробнее Вы опишете свою проблему, тем быстрее получите вразумительный совет
5. Запрещено поднимать неактуальные темы (ПРИМЕР: запрещено отвечать на вопрос из серии "срочно надо", заданный в 2003 году)
6. И не забывайте о кнопочках TRANSLIT и РУССКАЯ КЛАВИАТУРА, если не можете писать в русской раскладке

Модераторы: Akina, shadeofgray

Новое голосование

Аудиолизация видео

spirt

Сообщ. #1 , 14.05.02, 22:31

Full Member

Профиль · PM

Рейтинг (т): 0

Примеры обратного действа видели все. А вот сабж на глаза не попадался. Интересно было бы попробовать. Может у кого-нить идеи будут какие-нить?
У меня была мысль: каждый цвет характеризуется определенной длиной волны, которая имеет постоянную частоту. Раскладываем цвет пихела по RGB, частоты этих цветов известны. Формируем некоторую функцию вида:
int freq(int r, int g, int b);
на входе которой три составляющие цвета, на выходе частота из диапазона 16-20000 Герц.
А вот чего дальше - фиг знает. То ли одноканальный звук, то ли многоканальный, и сколько (их) каналов делать? Нужна еще какая-то привязка к длительности...
Короче, вопросов море возникает

ЗЫ Может действительно кому-нить интересно будет...
ЗЫЫ Не сочтите за пьяный бред

Demo_S

Сообщ. #2 , 14.05.02, 23:03

Master

Профиль · PM

Рейтинг (т): 34

а если так: длительность для одного пиксела фиксированная. а поскольку подряд будет идти несколько похожих пикселов, то будет почти одинаковый зук на какое-то время.
а многоканальность - бери по два пиксела, или например один канал - младшая половина от каждой цветовой компоненты, второй - старшая.
или для каждой компоненты свой канал.

или еще можно пересчитать цвет на формулки через яркость и два цветовых компонента.
short Y= 0.299*R + 0.587*G + 0.114*B ;//яркость
short Cb=- 0.1687*R - 0.3313*G + 0.5*B + 128;
short Cr=0.5*R - 0.4187*G - 0.0813*B + 128;
или без этого "+128"
а потом один главный канал который отвечает за яркость пиксела, и два вспомогательных - за Cb и Cr.
Хотя имхо будет не очень красивый звук. лучше уже какую-нить мелодию просто в соответствии с видеоданными корявить, там громкость изменять, паузы делать и т.д.

spirt	Сообщ. #3 , 14.05.02, 23:20
Full Member Профиль · PM Рейтинг (т): 0	Угу А ежели еще попробовать как-нить обратные преобразования Фурьё присобачить?

Demo_S	Сообщ. #4 , 15.05.02, 00:09
Master Профиль · PM Рейтинг (т): 34	эт-еще зачем, это ж с матрицами, а у тебя линейный поток...

SCSI

Сообщ. #5 , 15.05.02, 14:59

Junior

Профиль · PM

Рейтинг (т): 0

Хм, греет надежда, что при правильном выборе коэффициентов изображение российского флага озвучится российским же гимном (которым?), а голые тетьки с Инета - оргастическими стонами? Сомнительно, однако...

В принципе, ничего некорректного здесь нет, хотя и перспективы никакой. Но все-таки, зачем, если не секрет?

Обратное преобразование Фурье применительно к сабжу использовалось в ранних исследованиях по распознаванию и синтезу речи. Человек рисовал характерные линии спектра (форманты, шумовые поля и пр.), а специальный прибор превращал это в звуки. Например, таким образом пытались получить универсальный фонологический алфавит. Не вышло...

Сообщение отредактировано: SCSI - 15.05.02, 15:00

spirt	Сообщ. #6 , 16.05.02, 01:36
Full Member Профиль · PM Рейтинг (т): 0	2SCSI: С сабжем поковыряться хочется, когда будет свободное время. А сейчас просто собираю идеи, пусть и самые бредовые ) А вообще про сабж чего-нить можешь рассказать?

SCSI

Сообщ. #7 , 16.05.02, 16:45

Junior

Профиль · PM

Рейтинг (т): 0

А Demo_S уже все сказал по существу. А если тебя интересует свободный поток сознания, то вот несколько соображений (никакой ответственности я на себя не беру):
1) играться с волной (вход) и растром (выход) бессмысленно именно потому, что в них нет смысла
2) можно попробовать построить и реализовать смысловые зависимости изображения от звука, т.е. переводить векторные объекты (ну там линия, окружность и пр.) с учетом их динамики в MIDI-инструкции на выходе. Например, отрезку соответствует нота "ля", причем ее громкость пропорциональна длине этого отрезка. Если отрезок растет, то и громкость компоненты "ля" нарастает.

Кстати, интересно было бы попробовать то же для визуализации ихображения.

Сообщение отредактировано: SCSI - 16.05.02, 16:46

victor

Сообщ. #8 , 17.05.02, 03:41

Unregistered

Согласен со SCSI, от пиксела тут плясать нельзя. Картинка 100х100 может породить до 10^4 частот! Как их съаранжировать, чтобы какофонии не было? Положим на музыкальный тон 100 частот, на аккорд 10 нот. Тогда такой алгоритм аудиолизации изображения эквивалентен написанио партии для оркестра из 10 инструментов 30 раз за секунду (для видео), да еще и в режиме реального времени!

А если идти по второму пути, то надо вводить некую меру изображения (пусть будут отрезки!), которая бы порождала звукоряд по законам музыкальной гармонии или стиля. Если использовать болванки, аналогичные тем, которые используют для видоализации звука - наверно может выйти что-нить путное. Но по объему работы это задача для пришельцев, дак что дерзай, spirt!!!

spirt	Сообщ. #9 , 17.05.02, 07:12
Full Member Профиль · PM Рейтинг (т): 0	Спасибо за моральный саппорт Пока буду пробовать на статике. В видео лезть чего-то не хочется, хотя результаты должны быть поинтересней

Maxidrom

Сообщ. #10 , 28.07.02, 19:44

Unregistered

В каком-то журнале или газете прочитал статью, что один певец (точно не русский) в свой музон закатал изображение своего лица, которое можно просмотреть, если провести с музыкой спектральный анализ. Там даже было это изображение на фотке, полученное с помощью спектранализа. А статья это про то как сложно запихивать изображения в музыку, но все таки МОЖНО !!! А вообще стоит сказать, что этот музыкант играет вроде как тяжелый рок, а эта музыка порой напоминает беспорядочные хаотичные звуки, так что не удивительно, что он запихал сою рожу.
И еще мне кажется теоретически можно запихать какую либо видео информацию в звук, если частота звукоряда очень большая и выше максимальной частоты которую воспринимает человек, вот именно на этой частоте и можно запихать видеоизображение.

andyag	Сообщ. #11 , 29.07.02, 10:21
Unregistered	Цитата Maxidrom, 28.07.02, 23:44:02 ... А еще бывает стеганография - порнуху можно хранить в виде вполне нормальных mp3...

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0,0260 ] [ 15 queries used ] [ Generated: 2.05.24, 01:50 GMT ]