Scientific journal
Modern high technologies
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,940

1 1
1

В настоящее время существует достаточно много методов идентификации аудиоконтента. Но практически во всех известных идентификационных системах используются алгоритмы, которые фирма-производитель скрывает от пользователей, не предоставляя возможность ознакомиться с исходным кодом программы и математическими моделями. В данной работе приводится алгоритм идентификации аудиоконтента по его ритму.

Музыкальный ритм – это чередование и соотношение различных музыкальных длительностей и акцентов. Часто именно он определяет характер и даже жанр музыки.

Децибелл (англ. decibell, обознач. дБ, dB) – логарифмическая единица уровней, затуханий и усилений. В звукотехнике часто в качестве опорной величины берется максимальный уровень звука, таким образом если обозначить нашу величину как Ux, формула для определения этой же величины в децибеллах запишется как

tehn001.eps.

Для определения ритма не нужна вся амплитудно-частотная характеристика, а лишь всплески амплитуды, превышающие частоту среза. Ритм будет определяться как временные отрезки между этими всплесками.

tehn002.eps, tehn003.eps,

где li – величина всплеска амплитуды. Обозначим уровень сигнала как Ux. Нас интересует величина

tehn004.eps.

Эта же величина в дБ равна

tehn005.eps.

Выполним простые математические преобразования:

tehn006.eps.

Считая, что tehn007.eps, получим

tehn008.eps.

Строго говоря, у нас нет никаких оснований считать, что предыдущее выражение верно. Но, учитывая то, что обе части равенства относятся к одной и той же записи (оригинальный вариант и закодированный), будем считать что при кодировании максимальный уровень сигнала не изменяется или почти не изменяется.

Таким образом, мы вывели формулу для анализа АЧХ и построения нужных для исследования зависимостей. В базе данных хранится библиотека с информацией о аудиоконтенте в следующем виде: название, исполнитель, tehn009.eps.

Алгоритм поиска информации о запрашиваемом файле сводится к сравнению его ритма с ритмами из библиотеки, хранящейся на сервере. Сравнивается значение длительности каждой ноты, то есть расстояний между максимумами амплитуды.

Считается количество совпадений базового и тестируемого ритмов:

mak10.wmf

где i=1...n – количество всплесков, j=1...m – размер библиотеки.

Идентичность базовому образцу определяется как отношение величины coin к количеству всплесков:

tehn011.eps.

В зависимости от полученного значения определяется, какую информацию выдавать пользователю.