Научный журнал
Современные наукоемкие технологии
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,940

ИДЕНТИФИКАЦИЯ АУДИОКОНТЕНТА ПО ЕГО РИТМУ

Макаров А.С. 1 Лясин Д.Н. 1
1 Волжский политехнический институт, филиал Волгоградского государственного технического университета
1. Булучевский Ю., Фомин В. Краткий музыкальный словарь. – М.: Музыка, 2005. — 461 с. 2. Чанаев С.А. Тестирование MPEG Layer 3 (MP3) кодеров – Самара: СГАСУ, 2004

В настоящее время существует достаточно много методов идентификации аудиоконтента. Но практически во всех известных идентификационных системах используются алгоритмы, которые фирма-производитель скрывает от пользователей, не предоставляя возможность ознакомиться с исходным кодом программы и математическими моделями. В данной работе приводится алгоритм идентификации аудиоконтента по его ритму.

Музыкальный ритм – это чередование и соотношение различных музыкальных длительностей и акцентов. Часто именно он определяет характер и даже жанр музыки.

Децибелл (англ. decibell, обознач. дБ, dB) – логарифмическая единица уровней, затуханий и усилений. В звукотехнике часто в качестве опорной величины берется максимальный уровень звука, таким образом если обозначить нашу величину как Ux, формула для определения этой же величины в децибеллах запишется как

tehn001.eps.

Для определения ритма не нужна вся амплитудно-частотная характеристика, а лишь всплески амплитуды, превышающие частоту среза. Ритм будет определяться как временные отрезки между этими всплесками.

tehn002.eps, tehn003.eps,

где li – величина всплеска амплитуды. Обозначим уровень сигнала как Ux. Нас интересует величина

tehn004.eps.

Эта же величина в дБ равна

tehn005.eps.

Выполним простые математические преобразования:

tehn006.eps.

Считая, что tehn007.eps, получим

tehn008.eps.

Строго говоря, у нас нет никаких оснований считать, что предыдущее выражение верно. Но, учитывая то, что обе части равенства относятся к одной и той же записи (оригинальный вариант и закодированный), будем считать что при кодировании максимальный уровень сигнала не изменяется или почти не изменяется.

Таким образом, мы вывели формулу для анализа АЧХ и построения нужных для исследования зависимостей. В базе данных хранится библиотека с информацией о аудиоконтенте в следующем виде: название, исполнитель, tehn009.eps.

Алгоритм поиска информации о запрашиваемом файле сводится к сравнению его ритма с ритмами из библиотеки, хранящейся на сервере. Сравнивается значение длительности каждой ноты, то есть расстояний между максимумами амплитуды.

Считается количество совпадений базового и тестируемого ритмов:

mak10.wmf

где i=1...n – количество всплесков, j=1...m – размер библиотеки.

Идентичность базовому образцу определяется как отношение величины coin к количеству всплесков:

tehn011.eps.

В зависимости от полученного значения определяется, какую информацию выдавать пользователю.


Библиографическая ссылка

Макаров А.С., Лясин Д.Н. ИДЕНТИФИКАЦИЯ АУДИОКОНТЕНТА ПО ЕГО РИТМУ // Современные наукоемкие технологии. – 2013. – № 8-1. – С. 73-74;
URL: https://top-technologies.ru/ru/article/view?id=32457 (дата обращения: 03.12.2024).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674