fbpx
Wikipedia

Huella digital acústica

Una huella digital acústica (en inglés, acoustic fingerprint) es un identificador para archivos de audio basados en el contenido del archivo. Con ella se puede identificar un patrón o “firma” de un archivo de audio, para que este pueda ser reconocido desde una base de datos de audio, sin necesidad de disponer información acerca de este. Su uso se basa en la detección de una muestra de audio y posterior envío a una base de datos (BD), para una vez analizada buscar coincidencias en esta y devolvernos información acerca de la muestra analizada. Actualmente ha evolucionado considerablemente ya que resulta un sistema muy rápido y fiable en recuperación e indexación de datos, así como la reducción del tamaño de los contenidos almacenados al no ser necesario tenerlos en el equipo, y por la asignación de una identidad a cada señal de audio, para posteriormente ser tratada.

Requisitos de identificación

Basándose en la detección frecuencial, un algoritmo preciso de detección de huellas acústicas debe ser capaz de:

  • Detectar con precisión un fragmento de audio, independientemente de la compresión, distorsión y/o interferencias del canal de transmisión.
  • Dependiendo de la aplicación, ser capaz de reconocer el título del archivo con una duración de unos pocos segundos, que irá determinado por el método de tratamiento de la señal y sincronización entre la muestra adquirida y la base de datos.
  • Reconocer la muestra incluso si está degradada/modificada por ecualización, pitch (velocidad de reproducción), efectos, ruidos externos, conversión y/o digitalización y codificación.
  • Sistema eficiente, en función del tamaño de la muestra adquirida, la complejidad del algoritmo de búsqueda y la extracción de las huellas del archivo.

Dado un fragmento de audio y su correspondiente huella dactilar, se debe buscar la vía más rápida para encontrar su mejor coincidencia. Desde el número de iteraciones en la búsqueda hasta la longitud de la muestra, pueden resultar computacionalmente costosos. Para que la búsqueda sea eficiente, el método de búsqueda debe ser:

  • Rápido: Capacidad de lectura en barrido en grandes bases de datos.
  • Validez: Devolución de un resultado correcto y preciso.
  • Eficiencia de la memoria: Necesidad de poco espacio en memoria.
  • Actualizable: debe permitir actualizaciones, modificaciones y/o eliminación de objetos.

Técnicas de detección

Se pueden detectar las huellas acústicas de un archivo de dos formas:

  • Temporalmente: Reconocimiento del patrón del archivo en función de la intensidad de la señal y el tiempo. Se basa en la forma de onda en función del tiempo.
  • Frecuencialmente: Reconocimiento del patrón del archivo en función de las frecuencias y sus picos de intensidad y el tiempo. Se basa en las características del sistema auditivo humano.

La principal diferencia entre las dos, se basa en la precisión. Un análisis temporal implica una detección de ruido bastante importante. El alto grado de varianza de las señales de audio hace muy complicado un análisis temporal preciso.

Utilizando el análisis frecuencial, se consigue detectar los valores máximos de las frecuencias más representativas, consiguiendo evitar el ruido de fondo. Esto implica:

  • Mayor precisión y detección del archivo de audio.
  • Menor vulnerabilidad al ruido y elementos externos.
  • Menor valor máximo en detección (valor entrada).

Proceso de identificación de archivos

Para la detección de un archivo de audio, hay dos procesos. En primer lugar se extrae la información más característica de la señal se tratará para que pueda ser modificada. Después se enviará para comprobar si existe alguna información acerca de nuestra muestra.

Extracción de huellas digitales

Para la extracción de huellas digitales, se debe tener en cuenta que el proceso ha de ser capaz de:

  • Capacidad de discriminación sobre un gran número de huellas.
  • Invariancia por distorsiones.
  • Compacto en ejecución.
  • Necesidad computacional baja.

Conseguir estos requisitos requiere un equilibrio entre la reducción de la dimensionalidad[1]​ y la pérdida de información.

Dicho bloque está compuesto por los bloques front-end y modelado de huellas digitales. Front-end se encargará de realizar las medidas y cálculos necesarios para extraer la información más importante del archivo, donde una vez calculada, se enviará al modelado de huellas digitales, para tratar estos datos y su respectiva representación, para su posterior acceso a la BD.

Front-End

Convierte la señal de audio en una secuencia de las características más relevantes de este. Para su correcto desarrollo se debe tener en cuenta que ha de conseguir:

  • Reducción de la dimensionalidad.
  • Parámetros significativos similares a los del sistema auditivo humano.
  • Invariancia por parámetros externos.
  • Correlación temporal.

En su interior se encuentran varios procesos que, en algunas aplicaciones, pueden contener By-Pass para preconfigurar el proceso.

Preprocesado

El audio se digitaliza (si es necesario) y se convierte a un formato de audio genérico (normalmente PCM 16 bits). Se analizará en función del número de canales y el tipo de audio. Además se normalizará y filtrará por bandas para adecuar la señal al procesado.

Framing y Overlap

Las señales acústicas se consideran estacionarias cuando su duración es del orden de milisegundos. Se subdivide la señal en muestras de tamaño tal que se puedan considerar estacionarias. El tamaño irá en función de la velocidad de variación de la señal.

Transformada. Estimación de espectro

La idea de las transformadas es conseguir un nuevo conjunto de características para reducir la redundancia de la señal. Hay técnicas óptimas para la transformación, como Karhunen-Lo`eve (KL) o Singular Value Decomposition (SVD),[2]​ pero al tratarse de técnicas computacionalmente complejas, se utilizan técnicas más sencillas como Lourens,[3]​ Kurth,[4]​ etc. La técnica más común es la Transformada rápida de Fourier (FFT), aunque también son utilizadas la transformada discreta de coseno (DCT) o la transformada Haar, entre otras.[5]

Extracción de características

Una vez conseguida la representación tiempo-frecuencia, se deben aplicar varios procesos para conseguir el vector característica final. El objetivo es nuevamente reducir la dimensionalidad e incrementar la invariancia por distorsiones. Se aplicarán diversas técnicas (Fig. 3) que aprovechan las limitaciones del sistema auditivo humano para conseguirlo, así como mediciones de energía, volumen, detectores de envolvente, etc.[6]

Post-procesado

La mayoría de las características descritas hasta ahora son medidas absolutas. Para mejorar la caracterización de la señal, se añaden derivadas de orden mayor. El vector de características se creará con dicho parámetro, que variará en función del algoritmo utilizado.[6][7]​ También es común aplicar una resolución muy baja en la cuantificación.[8]​ De este modo se gana robusteza a distorsiones. Así se preparan los datos para que sean empaquetados en función de como serán mostrados y/o consultados.

Modelado de huellas digitales

Dicho bloque recibe los vectores características creados en el proceso anterior. Este se encargará de procesar los vectores y transformarlos en un único vector característica (recuérdese que se encuentran diferentes vectores, para cada banda frecuencial, energías, filtros, etc.), para posteriormente ser enviado. Nuevamente es de vital importancia la dimensionalidad de los algoritmos, para evitar enviar grandes cantidades de información a la BD. La adaptación de los vectores variará en función de cada programa, los cuales gestionarán el tamaño de la muestra adquirida y los vectores que utilizarán, entre otros parámetros. Estos programas han sido diseñados para trabajar con metadatos; mediante ellos se recibe la información referente a la muestra analizada. Actualmente se pueden encontrar diferentes programas.[9][10]

Coincidencia

Una vez creada la huella digital acústica, el siguiente paso es buscar coincidencias para devolvernos información acerca de nuestra muestra. Se enviará nuestro “patrón” y toda la posible información adicional creada (metadatos, cabeceras, etc.) a una base de datos, para buscar cualquier coincidencia. Se deben tener en cuenta dos factores que repercuten directamente en este proceso:

Distancia

A la hora de relacionar las características de la muestra, es de vital importancia la distancia tomada entre características cercanas. Técnicas como la distancia Euclidiana, la longitud Manhattan o Hamming, son utilizadas para calcular estas distancias. Para una correcta búsqueda, tanto el vector característica creado como el vector característica de la BD deben utilizar las mismas técnicas, para que sus huellas coincidan sin error de distancia.

Búsqueda

Por otro lado, se debe realizar de manera eficiente la búsqueda en la BD. Si después de crear un vector de dimensionalidad reducida, no se consigue un algoritmo de búsqueda eficiente, nuestro esfuerzo habrá sido en vano. La técnica más común se basa en la creación de índices, para estructurar la información.[11]​ De esta forma se reduce considerablemente el rango de datos a consultar. Se puede encontrar diferentes técnicas de optimización de consulta de datos, basadas en índices, heurística, código de palabras,[4]​ etc. Una vez encontrado (o no) la consulta, el sistema nos devolverá toda la información contenida en su BD acerca de nuestra muestra, incluyendo título, artista, año, álbum, etc.

Verificación hipótesis

Por último, durante la consulta en la BD, se crean resultados acerca del vector creado. Dichos resultados son utilizados para actualizar la BD. Con ellos se consigue actualizar resultados anteriores, añadir nuevos resultados y mejorar la precisión de las muestras almacenadas. En[1]​ se puede consultar toda la información y nomenclatura utilizada en este último proceso.

Aplicaciones

La mayoría de aplicaciones se encuentran en dispositivos móviles y equipos de sobremesa. Pese a esto se está empezando a aplicar en medicina e indexación de datos, por su alta velocidad de acceso a la información (consultas ADN, p.e).

Referencias

  1. R. Baeza-Yates and B. Ribeiro-Neto, Modern Information Retrieval. Addison Wesley, 1999.
  2. Theodoris, S. y K. Koutroumbas, Pattern Recognition. Academic Press, 1999.
  3. Lourens, J. «Detection and logging advertisements using its sound.» En Proc. of the COMSIG, Johannesburg, 1990.
  4. Kurth, F., A. Ribbrock y M. Clausen, Identification of highly distorted audio material for querying large scale databases,” in Proc. AES 112th Int. Conv., Munich, Germany, May 2002.
  5. Subramanya, S., R. Simha, B. Narahari y A. Youssef, «Transformbased indexing of audio data for multimedia databases.» En Proc. of Int. Conf. on Computational Intelligence and Multimedia Applications, New Delhi, India, Sept. 1999.
  6. P. Cano, E. Batlle, H. Mayer, and H. Neuschmied, “Robust sound modeling for song detection in broadcast audio,” in Proc. AES 112th Int. Conv., Munich, Germany, May 2002.
  7. E. Allamanche, J. Herre, O. Helmuth, B. Fr¨oba, T. Kasten, and M. Cremer, “Content-based identification of audio material using mpeg-7 low level description,” in Proc. of the Int. Symp. of Music Information Retrieval, Indiana, USA, Oct. 2002.
  8. G. Richly, L. Varga, F. Kov´acs, and G. Hossz´u, “Short-term sound stream characterisation for reliable, real-time occurrence monitoring of given sound-prints,” in Proc. 10th Mediterranean Electrotechnical Conference, MEleCon, 2000.
  9. (2002) Etantrum. [Online]. Available: http://www.freshmeat.net/projects/songprint
  10. (2002) Musicbrainz trm. musicbrainz-1.1.0.tar.gz. [Online]. Available: ftp://ftp.musicbrainz.org/pub/musicbrainz/
  11. E. Chavez, G. Navarro, R. A. Baeza-Yates, and J. L. Marroquin, “Searching in metric spaces,” ACM Computing Surveys, vol. 33, no. 3, pp. 273–321, 2001.

Enlaces externos

  •   Datos: Q1807085

huella, digital, acústica, huella, digital, acústica, inglés, acoustic, fingerprint, identificador, para, archivos, audio, basados, contenido, archivo, ella, puede, identificar, patrón, firma, archivo, audio, para, este, pueda, reconocido, desde, base, datos, . Una huella digital acustica en ingles acoustic fingerprint es un identificador para archivos de audio basados en el contenido del archivo Con ella se puede identificar un patron o firma de un archivo de audio para que este pueda ser reconocido desde una base de datos de audio sin necesidad de disponer informacion acerca de este Su uso se basa en la deteccion de una muestra de audio y posterior envio a una base de datos BD para una vez analizada buscar coincidencias en esta y devolvernos informacion acerca de la muestra analizada Actualmente ha evolucionado considerablemente ya que resulta un sistema muy rapido y fiable en recuperacion e indexacion de datos asi como la reduccion del tamano de los contenidos almacenados al no ser necesario tenerlos en el equipo y por la asignacion de una identidad a cada senal de audio para posteriormente ser tratada Indice 1 Requisitos de identificacion 2 Tecnicas de deteccion 3 Proceso de identificacion de archivos 3 1 Extraccion de huellas digitales 3 1 1 Front End 3 1 1 1 Preprocesado 3 1 1 2 Framing y Overlap 3 1 1 3 Transformada Estimacion de espectro 3 1 1 4 Extraccion de caracteristicas 3 1 1 5 Post procesado 3 1 2 Modelado de huellas digitales 3 2 Coincidencia 3 2 1 Distancia 3 2 2 Busqueda 3 2 3 Verificacion hipotesis 4 Aplicaciones 5 Referencias 6 Enlaces externosRequisitos de identificacion EditarBasandose en la deteccion frecuencial un algoritmo preciso de deteccion de huellas acusticas debe ser capaz de Detectar con precision un fragmento de audio independientemente de la compresion distorsion y o interferencias del canal de transmision Dependiendo de la aplicacion ser capaz de reconocer el titulo del archivo con una duracion de unos pocos segundos que ira determinado por el metodo de tratamiento de la senal y sincronizacion entre la muestra adquirida y la base de datos Reconocer la muestra incluso si esta degradada modificada por ecualizacion pitch velocidad de reproduccion efectos ruidos externos conversion y o digitalizacion y codificacion Sistema eficiente en funcion del tamano de la muestra adquirida la complejidad del algoritmo de busqueda y la extraccion de las huellas del archivo Dado un fragmento de audio y su correspondiente huella dactilar se debe buscar la via mas rapida para encontrar su mejor coincidencia Desde el numero de iteraciones en la busqueda hasta la longitud de la muestra pueden resultar computacionalmente costosos Para que la busqueda sea eficiente el metodo de busqueda debe ser Rapido Capacidad de lectura en barrido en grandes bases de datos Validez Devolucion de un resultado correcto y preciso Eficiencia de la memoria Necesidad de poco espacio en memoria Actualizable debe permitir actualizaciones modificaciones y o eliminacion de objetos Tecnicas de deteccion EditarSe pueden detectar las huellas acusticas de un archivo de dos formas Temporalmente Reconocimiento del patron del archivo en funcion de la intensidad de la senal y el tiempo Se basa en la forma de onda en funcion del tiempo Frecuencialmente Reconocimiento del patron del archivo en funcion de las frecuencias y sus picos de intensidad y el tiempo Se basa en las caracteristicas del sistema auditivo humano La principal diferencia entre las dos se basa en la precision Un analisis temporal implica una deteccion de ruido bastante importante El alto grado de varianza de las senales de audio hace muy complicado un analisis temporal preciso Utilizando el analisis frecuencial se consigue detectar los valores maximos de las frecuencias mas representativas consiguiendo evitar el ruido de fondo Esto implica Mayor precision y deteccion del archivo de audio Menor vulnerabilidad al ruido y elementos externos Menor valor maximo en deteccion valor entrada Proceso de identificacion de archivos EditarPara la deteccion de un archivo de audio hay dos procesos En primer lugar se extrae la informacion mas caracteristica de la senal se tratara para que pueda ser modificada Despues se enviara para comprobar si existe alguna informacion acerca de nuestra muestra Extraccion de huellas digitales Editar Para la extraccion de huellas digitales se debe tener en cuenta que el proceso ha de ser capaz de Capacidad de discriminacion sobre un gran numero de huellas Invariancia por distorsiones Compacto en ejecucion Necesidad computacional baja Conseguir estos requisitos requiere un equilibrio entre la reduccion de la dimensionalidad 1 y la perdida de informacion Dicho bloque esta compuesto por los bloques front end y modelado de huellas digitales Front end se encargara de realizar las medidas y calculos necesarios para extraer la informacion mas importante del archivo donde una vez calculada se enviara al modelado de huellas digitales para tratar estos datos y su respectiva representacion para su posterior acceso a la BD Front End Editar Convierte la senal de audio en una secuencia de las caracteristicas mas relevantes de este Para su correcto desarrollo se debe tener en cuenta que ha de conseguir Reduccion de la dimensionalidad Parametros significativos similares a los del sistema auditivo humano Invariancia por parametros externos Correlacion temporal En su interior se encuentran varios procesos que en algunas aplicaciones pueden contener By Pass para preconfigurar el proceso Preprocesado Editar El audio se digitaliza si es necesario y se convierte a un formato de audio generico normalmente PCM 16 bits Se analizara en funcion del numero de canales y el tipo de audio Ademas se normalizara y filtrara por bandas para adecuar la senal al procesado Framing y Overlap Editar Las senales acusticas se consideran estacionarias cuando su duracion es del orden de milisegundos Se subdivide la senal en muestras de tamano tal que se puedan considerar estacionarias El tamano ira en funcion de la velocidad de variacion de la senal Transformada Estimacion de espectro Editar La idea de las transformadas es conseguir un nuevo conjunto de caracteristicas para reducir la redundancia de la senal Hay tecnicas optimas para la transformacion como Karhunen Lo eve KL o Singular Value Decomposition SVD 2 pero al tratarse de tecnicas computacionalmente complejas se utilizan tecnicas mas sencillas como Lourens 3 Kurth 4 etc La tecnica mas comun es la Transformada rapida de Fourier FFT aunque tambien son utilizadas la transformada discreta de coseno DCT o la transformada Haar entre otras 5 Extraccion de caracteristicas Editar Una vez conseguida la representacion tiempo frecuencia se deben aplicar varios procesos para conseguir el vector caracteristica final El objetivo es nuevamente reducir la dimensionalidad e incrementar la invariancia por distorsiones Se aplicaran diversas tecnicas Fig 3 que aprovechan las limitaciones del sistema auditivo humano para conseguirlo asi como mediciones de energia volumen detectores de envolvente etc 6 Post procesado Editar La mayoria de las caracteristicas descritas hasta ahora son medidas absolutas Para mejorar la caracterizacion de la senal se anaden derivadas de orden mayor El vector de caracteristicas se creara con dicho parametro que variara en funcion del algoritmo utilizado 6 7 Tambien es comun aplicar una resolucion muy baja en la cuantificacion 8 De este modo se gana robusteza a distorsiones Asi se preparan los datos para que sean empaquetados en funcion de como seran mostrados y o consultados Modelado de huellas digitales Editar Dicho bloque recibe los vectores caracteristicas creados en el proceso anterior Este se encargara de procesar los vectores y transformarlos en un unico vector caracteristica recuerdese que se encuentran diferentes vectores para cada banda frecuencial energias filtros etc para posteriormente ser enviado Nuevamente es de vital importancia la dimensionalidad de los algoritmos para evitar enviar grandes cantidades de informacion a la BD La adaptacion de los vectores variara en funcion de cada programa los cuales gestionaran el tamano de la muestra adquirida y los vectores que utilizaran entre otros parametros Estos programas han sido disenados para trabajar con metadatos mediante ellos se recibe la informacion referente a la muestra analizada Actualmente se pueden encontrar diferentes programas 9 10 Coincidencia Editar Una vez creada la huella digital acustica el siguiente paso es buscar coincidencias para devolvernos informacion acerca de nuestra muestra Se enviara nuestro patron y toda la posible informacion adicional creada metadatos cabeceras etc a una base de datos para buscar cualquier coincidencia Se deben tener en cuenta dos factores que repercuten directamente en este proceso Distancia Editar A la hora de relacionar las caracteristicas de la muestra es de vital importancia la distancia tomada entre caracteristicas cercanas Tecnicas como la distancia Euclidiana la longitud Manhattan o Hamming son utilizadas para calcular estas distancias Para una correcta busqueda tanto el vector caracteristica creado como el vector caracteristica de la BD deben utilizar las mismas tecnicas para que sus huellas coincidan sin error de distancia Busqueda Editar Por otro lado se debe realizar de manera eficiente la busqueda en la BD Si despues de crear un vector de dimensionalidad reducida no se consigue un algoritmo de busqueda eficiente nuestro esfuerzo habra sido en vano La tecnica mas comun se basa en la creacion de indices para estructurar la informacion 11 De esta forma se reduce considerablemente el rango de datos a consultar Se puede encontrar diferentes tecnicas de optimizacion de consulta de datos basadas en indices heuristica codigo de palabras 4 etc Una vez encontrado o no la consulta el sistema nos devolvera toda la informacion contenida en su BD acerca de nuestra muestra incluyendo titulo artista ano album etc Verificacion hipotesis Editar Por ultimo durante la consulta en la BD se crean resultados acerca del vector creado Dichos resultados son utilizados para actualizar la BD Con ellos se consigue actualizar resultados anteriores anadir nuevos resultados y mejorar la precision de las muestras almacenadas En 1 se puede consultar toda la informacion y nomenclatura utilizada en este ultimo proceso Aplicaciones EditarLa mayoria de aplicaciones se encuentran en dispositivos moviles y equipos de sobremesa Pese a esto se esta empezando a aplicar en medicina e indexacion de datos por su alta velocidad de acceso a la informacion consultas ADN p e Referencias Editar a b R Baeza Yates and B Ribeiro Neto Modern Information Retrieval Addison Wesley 1999 Theodoris S y K Koutroumbas Pattern Recognition Academic Press 1999 Lourens J Detection and logging advertisements using its sound En Proc of the COMSIG Johannesburg 1990 a b Kurth F A Ribbrock y M Clausen Identification of highly distorted audio material for querying large scale databases in Proc AES 112th Int Conv Munich Germany May 2002 Subramanya S R Simha B Narahari y A Youssef Transformbased indexing of audio data for multimedia databases En Proc of Int Conf on Computational Intelligence and Multimedia Applications New Delhi India Sept 1999 a b P Cano E Batlle H Mayer and H Neuschmied Robust sound modeling for song detection in broadcast audio in Proc AES 112th Int Conv Munich Germany May 2002 E Allamanche J Herre O Helmuth B Fr oba T Kasten and M Cremer Content based identification of audio material using mpeg 7 low level description in Proc of the Int Symp of Music Information Retrieval Indiana USA Oct 2002 G Richly L Varga F Kov acs and G Hossz u Short term sound stream characterisation for reliable real time occurrence monitoring of given sound prints in Proc 10th Mediterranean Electrotechnical Conference MEleCon 2000 2002 Etantrum Online Available http www freshmeat net projects songprint 2002 Musicbrainz trm musicbrainz 1 1 0 tar gz Online Available ftp ftp musicbrainz org pub musicbrainz E Chavez G Navarro R A Baeza Yates and J L Marroquin Searching in metric spaces ACM Computing Surveys vol 33 no 3 pp 273 321 2001 Enlaces externos Editarhttp www springerlink com content j2548107knlw130l enlace roto disponible en Internet Archive vease el historial la primera version y la ultima https web archive org web 20110221010716 http www assta org sst SST 96 cache SST 96 Chapter10 p27 pdf Datos Q1807085 Obtenido de https es wikipedia org w index php title Huella digital acustica amp oldid 138634130, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos