psilogic: (Default)
psilogic ([personal profile] psilogic) wrote2008-07-16 10:15 pm

Вдруг кто-то знает

У меня вопрос к знатокам математики... уже - дискретной математики, еще уже - тем, кто разбирается в звуковом синтезе. Если у вас есть такие знакомые, которые, быть может, знают ответ, киньте в меня линком на них или в них - линком на меня.

Итак.

Дана некоторая волна (на практике - звуковая, но не суть). Она записана в дискретном виде - как длинный-предлинный набор отсчетов амплитуды через равные промежутки времени. Над некоторым куском этой волны волны мы можем выполнить БПФ (быстрое дискретное преобразование Фурье). Получим спектр, опять же, дискретный.

Задача первая. Взять небольшой кусочек волны длительностью dt (скажем, полсекунды звучания некой мелодии). Сгенерировать кусочек подлинее DT. Чтобы, значит, та же самая нота длилась подольше. Как это сделать? Если я просто выполню обратное БПФ, то получу тот же самый кусочек, длиной dt, а мне надо больше. Если я попробую тупо скопировать кусочек DT/dt раз, возникнут две бяки:
1. Артефакты на границе между кусочками.
2. Паразитная частота 1/dt, которая может быть слышна как пульсация громкости.
Если просто растянуть сигнал с помощью аппроксимации, то получится другая нота - более низкая в DT/dt раз.

Задача вторая. Взять кусочек dt, что-нибудь сделать с его частотами (скажем, убрать ровно одну). Потом записать его назад. То есть, речь про БПФ-фильтр. Но... что делать с артефактами на границе? Я тут придумываю разные методы сглаживания артефактов... может, кто знает уже известный хороший метод?

[identity profile] eugenebo.livejournal.com 2008-07-16 06:57 pm (UTC)(link)
Если Вам просто нужно проиграть "ту же мелодию, но втрое медленнее", то я лично делал это так:

1. Разбиваем исходную мелодию на очень маленькие кусочки -- типа 1/20 секунды.
2. В каждом делаем БПФ.
3. Результат -- набор гармоник от каждого кусочка. Между кусочками амплитуты этих гармоник меняются.
4. Рассматривая эти амплитуды как функцию времени в масштабе всей мелодии, делаем для каждой амплитуды по времени ещё один БПФ.
5. Получаются, назовём их, гармоники второго порядка.
6. Присваиваем кажой из них втрое меньшую частоту.
7. Проводим обратное БПФ. Получаем набор первых гармоник, но каждая из них теперь меняется втрое медленнее.
8. Обратное БПФ по первым гармоникам даст втрое медленнее звучащую музыку с теми же частотами. Разумеется, кусочки, которые надо будет сшить, теперь будут не по 1/20, а по 3/20 секунды.

[identity profile] sanitareugen.livejournal.com 2008-07-16 07:15 pm (UTC)(link)
Начну со второго. Надо пользоваться свёрткой с наложением или свёрткой с накоплением. Например, разбивать на отрезки, дополнять их нулями (не менее чем удваивая отрезок), делать БПФ, частотный фильтр, обратный БПФ и собирать взад. При этом "хвост" предыдущего отрезка прибавляется к "голове" следующего (есть и другие схемы - но схожие по идее)
А первое - делал я такое. Скорее эмпирически, чем строго. Дублировал отрезки (в количестве несколько бОльшем, чем надо), затем слегка сдвигал очередные, добиваясь минимальной разности между накладывающимися участками, а потом складывад с весовой функцией в виде трапеции или колокола, чтобы сумма весов=1, и они плавно менялись на границе отрезков. Получалось неплохо. И сжатие удавалось...

[identity profile] bsivko.livejournal.com 2008-07-16 07:17 pm (UTC)(link)
В любом случае тебе нужно знать период волны. Если кусочек маленький, менее 2T, то установить период не получится (название теоремы уже не помню).

Далее зная период просто берется кусочек волны равный периоду и повторяется. Если функция периодическая, но с шумами, то берется кусок длины N*T, где чем больше N тем лучше, запускается по оси времени в бесконечность и такую функцию в ряд Фурье. Обычно расчета приближения в 90% энергии волны достаточно для приемлемого результата.

[identity profile] bsivko.livejournal.com 2008-07-16 07:24 pm (UTC)(link)
Не совсем понятно что такое убрать частоту. Т.е. при разложении в ряд Фурье она должна отсутствовать? Если так, то делаем разложение, убиваем частоту и возвращаем обратно. Только фактом является то, что такой фильтр гасит близко-стоящие частоты (но поменьше есс-но), и на практике можно сделать только фильтры низких, высоких частот или полос.

[identity profile] daddym.livejournal.com 2008-07-16 07:28 pm (UTC)(link)
Ты неправильно представляешь себе процесс цифровой фильтрации. Чтобы не было артефактов БПФ или другое преобразование, делается на каждый сэмпл. То есть ее окно постоянно сдвигается. В итоге ты получаешь спектральный массив на каждый момент дискретизации. Вот в этом случае никаких проблем с вырезанием спектра или наоборот с добавлением тона нет. Другое дело что вычислительная мощность для БПФ требуется немаленькая.
Если интересно пороюсь какие у меня есть книжки, могу прислать. Хотя как правила обычных фильтров для большинства задач хватает. Они у меня точно были, вместе с генератором кода для них.

А если без Фурьёв?

[identity profile] darth-vasya.livejournal.com 2008-07-16 09:30 pm (UTC)(link)
Например, можно натыкать кусочки длиной t через каждые t/2 нужное число раз, между повторами сделать cross-fade (чтобы повторения "въезжали" плавно), всё это пропустить через компрессор (чтобы не было колебаний громкости), а затем придать результату нужную динамику.

[identity profile] sapphire-dragon.livejournal.com 2008-07-17 04:22 am (UTC)(link)
йа мож чего не понял, но в саундфорже для этого три раза мышой тыкнуть нада..

Это какое-то извращение... Если "на каждый сэмпл"...

[identity profile] sanitareugen.livejournal.com 2008-07-17 05:50 am (UTC)(link)
...то БПФ (или не БПФ, а просто ПФ, иногда это, как ни странно, оказывается дешевле) делается единожды. Для перехода от АЧХ к импульсной характеристике. И далее всё производится во временнОй области.
А если хотим считать непременно через БПФ - то делается по отрезкам. Но непременно с перекрытием (или наложением) см. выше, а подробнее - у Рабинера и Голда или, скажем, у Гольденберга, Матюшкина и Поляка
http://dsp-book.narod.ru

[identity profile] psilogic.livejournal.com 2008-07-17 06:23 am (UTC)(link)
речь идет о том, как это запрограммировать

[identity profile] psilogic.livejournal.com 2008-07-17 06:26 am (UTC)(link)
Со сшивками все равно ведь будут проблемы?
Вообще удвоить/утроить длину можно проще. Берем кусок 1/20 секунды, делаем БПФ, увеличиваем длину массива вдвое, расставляя величины через одну (разбавив нулями), делаем обратную БПФ.

Но сшивки, сшивки... :(

[identity profile] psilogic.livejournal.com 2008-07-17 06:29 am (UTC)(link)
[ дополнять их нулями (не менее чем удваивая отрезок) ]

Мне кажется, надо не дополнять, а разбавлять - или я что-то путаю?

[ Дублировал отрезки ]

Что значит дублировал? Удваивал длительность?

[identity profile] psilogic.livejournal.com 2008-07-17 06:31 am (UTC)(link)
Волна не синусоидальная, а случайная - как в звуковой записи.

[identity profile] psilogic.livejournal.com 2008-07-17 06:32 am (UTC)(link)
[ убиваем частоту и возвращаем обратно ]

- и возникают щелчки на границах фрагментов

[identity profile] psilogic.livejournal.com 2008-07-17 06:38 am (UTC)(link)
Знаешь ли ты эффективные методы такой плавной сдвижки окна? Чтобы не считать БПФ заново при каждой сдвижке (это до пенсии вычисляться будет).

[identity profile] psilogic.livejournal.com 2008-07-17 06:39 am (UTC)(link)
Ага! С наложением - и на месте наложения cross-fade - так?

Re: А если без Фурьёв?

[identity profile] psilogic.livejournal.com 2008-07-17 06:40 am (UTC)(link)
Можно подробнее?

Не совсем понял, что есть cross-fade.

[identity profile] sanitareugen.livejournal.com 2008-07-17 06:45 am (UTC)(link)
Если "постепенное ослабление звука" с одновременным усилением другого источника - то нет. Для "свёртки с наложением" используется банальная сумма.

Свёртка-с-наложением.

[identity profile] sanitareugen.livejournal.com 2008-07-17 06:46 am (UTC)(link)
"Читайте УставРабинера и Голда, там всё написано!"

А что именно подробнее?

[identity profile] darth-vasya.livejournal.com 2008-07-17 06:47 am (UTC)(link)
Кросс-фейд - это когда громкость одного семпла уменьшается по мере увеличения громкости другого, так что сумма остаётся постоянной. Компрессор - это когда сигнал умножается на выпуклую вверх функцию от его громкости для сжатия динамичекого диапазона.

Звуковая достаточно близка к синусоидальной.

[identity profile] sanitareugen.livejournal.com 2008-07-17 06:47 am (UTC)(link)
Даже на шипящих, тем более на порождённых колебаниями голосовых связок...

Один отрезок повторял нужное число раз.

[identity profile] sanitareugen.livejournal.com 2008-07-17 06:48 am (UTC)(link)
А что до "разбавлять" (вставлять нули между отсчётами) - то это иная задача. Увеличение частотного разрешения.

Re: Не совсем понял, что есть cross-fade.

[identity profile] psilogic.livejournal.com 2008-07-17 06:55 am (UTC)(link)
Да, оно самое. Я представлял себе это так. Берем два прекрывающихся участка длиной dt и с перекрытием длиной p
1: от t0 до t0 + dt
2: от t0 + dt - p до t0 + 2dt - p
Делаем БПФ, фильтрацию, обратную БПФ, а потом на участке перекрытия делаем corss-fade. А вы что имели в виду? Свертка с наложением - это как?

Re: А что именно подробнее?

[identity profile] psilogic.livejournal.com 2008-07-17 06:57 am (UTC)(link)
Хм... какой смысл ее умножать? Может, не умножать, а пропускать через нее? Тогда получится вроде как обычный компрессор. Просто я не понял, на какой фрагмент компрессор натравливать (и зачем).

Re: Свёртка-с-наложением.

[identity profile] psilogic.livejournal.com 2008-07-17 06:59 am (UTC)(link)
В каком хоть месте? У меня есть эта книжка, я ее подряд штудировать не рискнул, там слишком много всего...

[identity profile] psilogic.livejournal.com 2008-07-17 07:06 am (UTC)(link)
Близка - с огромной натяжкой :) Во-первых, там не одна синусоида, а сумма из многих. Во вторых, каждая синусоида норовит возрастать и затухать. В-третьих - биения по громкости и частоте.

Как-то вот так:



- это график записи голоса, буква "а".

Page 1 of 3