В настоящее время существует достаточно много методов идентификации аудиоконтента. Но практически во всех известных идентификационных системах используются алгоритмы, которые фирма-производитель скрывает от пользователей, не предоставляя возможность ознакомиться с исходным кодом программы и математическими моделями. В данной работе приводится алгоритм идентификации аудиоконтента по его ритму.
Музыкальный ритм – это чередование и соотношение различных музыкальных длительностей и акцентов. Часто именно он определяет характер и даже жанр музыки.
Децибелл (англ. decibell, обознач. дБ, dB) – логарифмическая единица уровней, затуханий и усилений. В звукотехнике часто в качестве опорной величины берется максимальный уровень звука, таким образом если обозначить нашу величину как Ux, формула для определения этой же величины в децибеллах запишется как
.
Для определения ритма не нужна вся амплитудно-частотная характеристика, а лишь всплески амплитуды, превышающие частоту среза. Ритм будет определяться как временные отрезки между этими всплесками.
, ,
где li – величина всплеска амплитуды. Обозначим уровень сигнала как Ux. Нас интересует величина
.
Эта же величина в дБ равна
.
Выполним простые математические преобразования:
.
Считая, что , получим
.
Строго говоря, у нас нет никаких оснований считать, что предыдущее выражение верно. Но, учитывая то, что обе части равенства относятся к одной и той же записи (оригинальный вариант и закодированный), будем считать что при кодировании максимальный уровень сигнала не изменяется или почти не изменяется.
Таким образом, мы вывели формулу для анализа АЧХ и построения нужных для исследования зависимостей. В базе данных хранится библиотека с информацией о аудиоконтенте в следующем виде: название, исполнитель, .
Алгоритм поиска информации о запрашиваемом файле сводится к сравнению его ритма с ритмами из библиотеки, хранящейся на сервере. Сравнивается значение длительности каждой ноты, то есть расстояний между максимумами амплитуды.
Считается количество совпадений базового и тестируемого ритмов:
где i=1...n – количество всплесков, j=1...m – размер библиотеки.
Идентичность базовому образцу определяется как отношение величины coin к количеству всплесков:
.
В зависимости от полученного значения определяется, какую информацию выдавать пользователю.
Библиографическая ссылка
Макаров А.С., Лясин Д.Н. ИДЕНТИФИКАЦИЯ АУДИОКОНТЕНТА ПО ЕГО РИТМУ // Современные наукоемкие технологии. – 2013. – № 8-1. – С. 73-74;URL: https://top-technologies.ru/ru/article/view?id=32457 (дата обращения: 03.12.2024).