fbpx
Wikipedia

MFCC

Los Mel Frequency Cepstral Coefficients (Coeficientes Cepstrales en las Frecuencias de Mel) o MFCCs son coeficientes para la representación del habla basados en la percepción auditiva humana. Estos surgen de la necesidad, en el área del reconocimiento de audio automático, de extraer características de las componentes de una señal de audio que sean adecuadas para la identificación de contenido relevante, así como obviar todas aquellas que posean información poco valiosa como el ruido de fondo, emociones, volumen, tono, etc. y que no aportan nada al proceso de reconocimiento, al contrario lo empobrecen.

Los MFCCs son una característica ampliamente usada en el reconocimiento automático del discurso o el locutor y fueron introducidos por Davis y Mermelstein en los años 80 y han sido el estado del arte desde entonces.

MFCCs se calculan comúnmente de la siguiente forma:[1]

  1. Separar la señal en pequeños tramos.
  2. A cada tramo aplicarle la Transformada de Fourier discreta y obtener la potencia espectral de la señal.
  3. Aplicar el banco de filtros correspondientes a la Escala Mel al espectro obtenido en el paso anterior y sumar las energías en cada uno de ellos.
  4. Tomar el logaritmo de todas las energías de cada frecuencia mel
  5. Aplicarle la transformada de coseno discreta a estos logaritmos.

Estos valores obtenidos son los coeficientes que buscamos. Aunque opcionalmente se le pueden añadir otros valores como los deltas y/o los delta-deltas.


Explicación

Veamos estos pasos en más detalle y entendamos el por qué de cada uno de ellos. El primero de ellos es consecuencia de que toda señal de audio, grabada en condiciones normales, cambia constantemente en el tiempo, lo cual dificulta enormemente la extracción de características que la puedan diferenciar de otras señales o la identifiquen como similar a aquellas que claramente lo son para un ser humano. Debido a esto y con el objetivo de simplificar su tratamiento se asume que en pequeños períodos de tiempo sus características no cambian “mucho” y por tanto se le pueden realizar todo un conjunto de procesamientos con el objetivo de extraer características “estáticas” para cada pequeño tramo de la señal. Las cuales, en su conjunto, representarían a la señal completa. Los pasos que siguen a continuación pueden tener dos interpretaciones diferentes, pero ambas válidas: mediante la técnica de deconvolución y como una aplicación de filtros adaptados a las especificidades del discurso. Veamos cada una de ellas.

Técnica de deconvolución

Para entender esta aproximación es necesario conocer un poco de las bases del modelo de producción de sonido en los humanos y en gran parte del reino animal. A dicho modelo se le denomina con frecuencia como: source-filter (fuente-filtrado).

  1. Fuente: El sonido que generamos está íntimamente relacionado con el aire que expulsamos desde nuestros pulmones. Si dicho sonido es no vocalizado, como la “s” o la “f” la Glotis se abre y las cuerdas vocales se encuentran relajadas. Mientras que si el sonido es vocalizado como la “a” o la “e”, entonces las cuerdas vocales vibran y la frecuencia de esta vibración se relaciona con el Tono (agudo o grave). Es por eso que al sonido puro de letras como “s” o la “f” no podemos darles tonos graves o agudos sin antes incorporarles el sonido de otras letras sonoras. Nótese que el tono no es lo mismo que la amplitud o Intensidad de sonido, que sí se encuentra presente en ambas, pues se relaciona con la cantidad de aire expelido.
  2. Filtrado: Se podría decir que es en esta parte del proceso donde realmente se genera el sonido ya que la gran variedad de sonidos que conocemos no sería posible si los órganos del tracto vocal no le dieran “forma” al espectro del sonido que proviene de nuestros pulmones y que pasa a través de la glotis. Es por eso que debemos poner la lengua, los dientes o la boca de ciertas maneras específicas para provocar ciertos sonidos específicos.

Dicho esto, es fácil notar que el trabajo que debemos realizar sobre la señal debe ir encaminado a hacer desaparecer la influencia de la fuente. No obstante, esto es más complicado de lo que parece, pues ambas señales (la de la fuente y el filtrado) se encuentran en Convolución y forman la señal que escuchamos. Afortunadamente el Teorema de convolución plantea que si:


 


Donde la operación   significa convolución;   es la señal de audio que escuchamos;   es la señal de la fuente y   es la del filtrado. Entonces se cumple:


 


Donde     y   son las Transformadas de Fourier de las funciones correspondientes. Se le puede aplicar la escala de Mel a   (por las mismas razones que veremos durante la segunda interpretación) y a continuación se lleva a logaritmo la función anterior para obtener una relación entre la fuente y el filtrado más fácil de deshacer:


 


Si en este punto filtrásemos las bajas frecuencias correspondientes a la fuente y seguidamente aplicamos la transformada de coseno discreta (DCT, por sus siglas en inglés) o lo que es lo mismo aplicamos directamente la DCT y descartamos sus términos de alta frecuencia. Obtendríamos la señal (aunque debemos recordar que no es exactamente  ) del filtrado.

Filtros adaptados al discurso

Esta segunda interpretación es mucho más intuitiva y antropomórfica que la anterior, ya que la razón por la que primeramente aplicamos la Transformada de Fourier y luego llevamos el espectro a la escala de Mel es para concordar con el órgano humano responsable de determinar la frecuencia de un sonido: la Cóclea. No obstante este órgano no es lo suficientemente sensible como para notar un crecimiento lineal en las frecuencias, sino que más bien detecta regiones de frecuencia, las cuales a su vez se van haciendo más grandes a medida que la frecuencia aumenta. O sea que poseemos más sensibilidad al determinar sonidos graves que agudos. Al aplicar los filtros de Mel se obtienen las energías de cada una de estas regiones en la señal actual y por tanto el espectro de frecuencias con el que el sistema está trabajando es similar al de los humanos al escuchar el mismo sonido.

Dado que los humanos tampoco escuchamos la intensidad de un sonido con un crecimiento lineal, sino logarítmico (en Decibel), entonces se hace necesario aplicarle el logaritmo a las energías antes obtenidas, pues estas son los valores de la intensidad de los componentes de la señal con frecuencias en esa región.

Por último, debe observarse que al aplicar la DCT sobre esta función, que dicho sea de paso se encuentra en el dominio de la frecuencia, se realiza el proceso inverso al aplicado durante la transformación inicial, y se obtendría la señal original de no ser por los cambios que se le han hecho a esta para que se parezca a lo que escuchamos los humanos. Así que al aplicar la DCT se puede pensar que los valores que se obtienen serían los valores de la misma señal, pero escuchados por un humano.

Solo queda una incógnita y es por qué aplicar la DCT en vez de la Inversa de la Transformada Discreta de Fourier. En este caso para ambas interpretaciones la razón es enteramente matemática, ya que la DCT posee características de compresión y decorrelación muy útiles (véase la transformada de coseno discreta).

Delta y Delta-deltas

Aunque los MFCCs describen adecuadamente las características estáticas de cada uno de los pequeños tramos en que dividimos la señal. Es indiscutible que esta también posee características dinámicas de vital importancia para la detección correcta del sonido. Como por ejemplo, el uso de una secuencia específica de fonemas que sirven para especificar una palabra dada. O incluso dentro de un mismo fonema hay cambios típicos que de ser tenidos en cuenta pueden mejorar enormemente la detección del sistema.

Es por esto que a los vectores de coeficiente MFCCs se les añade la velocidad a la que estos cambian entre los tramos en que se dividió la señal, así como su aceleración. O sea, que si se tiene un vector de 12 MFCCs se terminaría con uno de longitud 36 ya que se adicionan 12 para la velocidad y 12 más para la aceleración.

Aplicaciones

Los MFCCs suelen emplearse características en sistemas de Reconocimiento del habla, como los empleados en el reconocimiento de números dictados por voz. También se aplican en sistemas de Reconocimiento de locutores, cuya función es el reconocimiento de personas por medio de la voz.

Cada vez más, se empiezan a descubrir otras aplicaciones en el campo de la Recuperación de información musical (music information retrieval) como por ejemplo la clasificación de géneros, medidas de similitud de audio, etc.[2]

Sensibilidad al ruido

Los valores del MFCCs no son muy robustos ante la presencia de ruido aditivo, por ello es común la normalización de los valores en los sistemas de reconocimiento de locutor para reducir la influencia de dicho ruido. Algunos investigadores proponen modificar el algoritmo básico para hacerlo más robusto por ejemplo aumentando las amplitudes de los logaritmos en la Escala Mel a un valor apropiado (en torno a 2 o 3) antes de aplicar la DCT, reduciendo así la influencia de las componentes de baja potencia.[3]

Referencias

  1. Min Xu et al. (2004). «HMM-based audio keyword generation». En Kiyoharu Aizawa, Yuichi Nakamura, Shin'ichi Satoh, ed. Advances in Multimedia Information Processing - PCM 2004: 5th Pacific Rim Conference on Multimedia. Springer. ISBN 3540239855. 
  2. Meinard Müller (2007). Information Retrieval for Music and Motion. Springer. p. 65. ISBN 978-3-540-74047-6. 
  3. V. Tyagi and C. Wellekens (2005), On desensitizing the Mel-Cepstrum to spurious spectral components for Robust Speech Recognition , in Acoustics, Speech, and Signal Processing, 2005. Proceedings. (ICASSP ’05). IEEE International Conference on, vol. 1, pp. 529–532.

Enlaces externos

mfcc, frequency, cepstral, coefficients, coeficientes, cepstrales, frecuencias, coeficientes, para, representación, habla, basados, percepción, auditiva, humana, estos, surgen, necesidad, área, reconocimiento, audio, automático, extraer, características, component. Los Mel Frequency Cepstral Coefficients Coeficientes Cepstrales en las Frecuencias de Mel o MFCCs son coeficientes para la representacion del habla basados en la percepcion auditiva humana Estos surgen de la necesidad en el area del reconocimiento de audio automatico de extraer caracteristicas de las componentes de una senal de audio que sean adecuadas para la identificacion de contenido relevante asi como obviar todas aquellas que posean informacion poco valiosa como el ruido de fondo emociones volumen tono etc y que no aportan nada al proceso de reconocimiento al contrario lo empobrecen Los MFCCs son una caracteristica ampliamente usada en el reconocimiento automatico del discurso o el locutor y fueron introducidos por Davis y Mermelstein en los anos 80 y han sido el estado del arte desde entonces MFCCs se calculan comunmente de la siguiente forma 1 Separar la senal en pequenos tramos A cada tramo aplicarle la Transformada de Fourier discreta y obtener la potencia espectral de la senal Aplicar el banco de filtros correspondientes a la Escala Mel al espectro obtenido en el paso anterior y sumar las energias en cada uno de ellos Tomar el logaritmo de todas las energias de cada frecuencia mel Aplicarle la transformada de coseno discreta a estos logaritmos Estos valores obtenidos son los coeficientes que buscamos Aunque opcionalmente se le pueden anadir otros valores como los deltas y o los delta deltas Indice 1 Explicacion 1 1 Tecnica de deconvolucion 1 2 Filtros adaptados al discurso 2 Delta y Delta deltas 3 Aplicaciones 4 Sensibilidad al ruido 5 Referencias 6 Enlaces externosExplicacion EditarVeamos estos pasos en mas detalle y entendamos el por que de cada uno de ellos El primero de ellos es consecuencia de que toda senal de audio grabada en condiciones normales cambia constantemente en el tiempo lo cual dificulta enormemente la extraccion de caracteristicas que la puedan diferenciar de otras senales o la identifiquen como similar a aquellas que claramente lo son para un ser humano Debido a esto y con el objetivo de simplificar su tratamiento se asume que en pequenos periodos de tiempo sus caracteristicas no cambian mucho y por tanto se le pueden realizar todo un conjunto de procesamientos con el objetivo de extraer caracteristicas estaticas para cada pequeno tramo de la senal Las cuales en su conjunto representarian a la senal completa Los pasos que siguen a continuacion pueden tener dos interpretaciones diferentes pero ambas validas mediante la tecnica de deconvolucion y como una aplicacion de filtros adaptados a las especificidades del discurso Veamos cada una de ellas Tecnica de deconvolucion Editar Para entender esta aproximacion es necesario conocer un poco de las bases del modelo de produccion de sonido en los humanos y en gran parte del reino animal A dicho modelo se le denomina con frecuencia como source filter fuente filtrado Fuente El sonido que generamos esta intimamente relacionado con el aire que expulsamos desde nuestros pulmones Si dicho sonido es no vocalizado como la s o la f la Glotis se abre y las cuerdas vocales se encuentran relajadas Mientras que si el sonido es vocalizado como la a o la e entonces las cuerdas vocales vibran y la frecuencia de esta vibracion se relaciona con el Tono agudo o grave Es por eso que al sonido puro de letras como s o la f no podemos darles tonos graves o agudos sin antes incorporarles el sonido de otras letras sonoras Notese que el tono no es lo mismo que la amplitud o Intensidad de sonido que si se encuentra presente en ambas pues se relaciona con la cantidad de aire expelido Filtrado Se podria decir que es en esta parte del proceso donde realmente se genera el sonido ya que la gran variedad de sonidos que conocemos no seria posible si los organos del tracto vocal no le dieran forma al espectro del sonido que proviene de nuestros pulmones y que pasa a traves de la glotis Es por eso que debemos poner la lengua los dientes o la boca de ciertas maneras especificas para provocar ciertos sonidos especificos Dicho esto es facil notar que el trabajo que debemos realizar sobre la senal debe ir encaminado a hacer desaparecer la influencia de la fuente No obstante esto es mas complicado de lo que parece pues ambas senales la de la fuente y el filtrado se encuentran en Convolucion y forman la senal que escuchamos Afortunadamente el Teorema de convolucion plantea que si h t s t f t displaystyle h t s t f t Donde la operacion displaystyle significa convolucion h t displaystyle h t es la senal de audio que escuchamos s t displaystyle s t es la senal de la fuente y f t displaystyle f t es la del filtrado Entonces se cumple H w S w F w displaystyle H w S w F w Donde H displaystyle H S displaystyle S y F displaystyle F son las Transformadas de Fourier de las funciones correspondientes Se le puede aplicar la escala de Mel a H w displaystyle H w por las mismas razones que veremos durante la segunda interpretacion y a continuacion se lleva a logaritmo la funcion anterior para obtener una relacion entre la fuente y el filtrado mas facil de deshacer l o g H w l o g S w l o g F w displaystyle log H w log S w log F w Si en este punto filtrasemos las bajas frecuencias correspondientes a la fuente y seguidamente aplicamos la transformada de coseno discreta DCT por sus siglas en ingles o lo que es lo mismo aplicamos directamente la DCT y descartamos sus terminos de alta frecuencia Obtendriamos la senal aunque debemos recordar que no es exactamente f t displaystyle f t del filtrado Filtros adaptados al discurso Editar Esta segunda interpretacion es mucho mas intuitiva y antropomorfica que la anterior ya que la razon por la que primeramente aplicamos la Transformada de Fourier y luego llevamos el espectro a la escala de Mel es para concordar con el organo humano responsable de determinar la frecuencia de un sonido la Coclea No obstante este organo no es lo suficientemente sensible como para notar un crecimiento lineal en las frecuencias sino que mas bien detecta regiones de frecuencia las cuales a su vez se van haciendo mas grandes a medida que la frecuencia aumenta O sea que poseemos mas sensibilidad al determinar sonidos graves que agudos Al aplicar los filtros de Mel se obtienen las energias de cada una de estas regiones en la senal actual y por tanto el espectro de frecuencias con el que el sistema esta trabajando es similar al de los humanos al escuchar el mismo sonido Dado que los humanos tampoco escuchamos la intensidad de un sonido con un crecimiento lineal sino logaritmico en Decibel entonces se hace necesario aplicarle el logaritmo a las energias antes obtenidas pues estas son los valores de la intensidad de los componentes de la senal con frecuencias en esa region Por ultimo debe observarse que al aplicar la DCT sobre esta funcion que dicho sea de paso se encuentra en el dominio de la frecuencia se realiza el proceso inverso al aplicado durante la transformacion inicial y se obtendria la senal original de no ser por los cambios que se le han hecho a esta para que se parezca a lo que escuchamos los humanos Asi que al aplicar la DCT se puede pensar que los valores que se obtienen serian los valores de la misma senal pero escuchados por un humano Solo queda una incognita y es por que aplicar la DCT en vez de la Inversa de la Transformada Discreta de Fourier En este caso para ambas interpretaciones la razon es enteramente matematica ya que la DCT posee caracteristicas de compresion y decorrelacion muy utiles vease la transformada de coseno discreta Delta y Delta deltas EditarAunque los MFCCs describen adecuadamente las caracteristicas estaticas de cada uno de los pequenos tramos en que dividimos la senal Es indiscutible que esta tambien posee caracteristicas dinamicas de vital importancia para la deteccion correcta del sonido Como por ejemplo el uso de una secuencia especifica de fonemas que sirven para especificar una palabra dada O incluso dentro de un mismo fonema hay cambios tipicos que de ser tenidos en cuenta pueden mejorar enormemente la deteccion del sistema Es por esto que a los vectores de coeficiente MFCCs se les anade la velocidad a la que estos cambian entre los tramos en que se dividio la senal asi como su aceleracion O sea que si se tiene un vector de 12 MFCCs se terminaria con uno de longitud 36 ya que se adicionan 12 para la velocidad y 12 mas para la aceleracion Aplicaciones EditarLos MFCCs suelen emplearse caracteristicas en sistemas de Reconocimiento del habla como los empleados en el reconocimiento de numeros dictados por voz Tambien se aplican en sistemas de Reconocimiento de locutores cuya funcion es el reconocimiento de personas por medio de la voz Cada vez mas se empiezan a descubrir otras aplicaciones en el campo de la Recuperacion de informacion musical music information retrieval como por ejemplo la clasificacion de generos medidas de similitud de audio etc 2 Sensibilidad al ruido EditarLos valores del MFCCs no son muy robustos ante la presencia de ruido aditivo por ello es comun la normalizacion de los valores en los sistemas de reconocimiento de locutor para reducir la influencia de dicho ruido Algunos investigadores proponen modificar el algoritmo basico para hacerlo mas robusto por ejemplo aumentando las amplitudes de los logaritmos en la Escala Mel a un valor apropiado en torno a 2 o 3 antes de aplicar la DCT reduciendo asi la influencia de las componentes de baja potencia 3 Referencias Editar Min Xu et al 2004 HMM based audio keyword generation En Kiyoharu Aizawa Yuichi Nakamura Shin ichi Satoh ed Advances in Multimedia Information Processing PCM 2004 5th Pacific Rim Conference on Multimedia Springer ISBN 3540239855 Meinard Muller 2007 Information Retrieval for Music and Motion Springer p 65 ISBN 978 3 540 74047 6 V Tyagi and C Wellekens 2005 On desensitizing the Mel Cepstrum to spurious spectral components for Robust Speech Recognition in Acoustics Speech and Signal Processing 2005 Proceedings ICASSP 05 IEEE International Conference on vol 1 pp 529 532 Enlaces externos EditarEsta obra contiene una traduccion parcial derivada de Mel frequency cepstrum de Wikipedia en ingles publicada por sus editores bajo la Licencia de documentacion libre de GNU y la Licencia Creative Commons Atribucion CompartirIgual 3 0 Unported Capitulo 5 Coeficientes Mel Cepstrum Universidad Nacional Mayor de San Marcos octubre de 2002 Reconocedor y Analizador de Voz Fernando Peralta Anibal Cotrina Universidad Nacional Mayor de San Marcos Oct 2002 enlace roto disponible en Internet Archive vease el historial la primera version y la ultima Obtenido de https es wikipedia org w index php title MFCC amp oldid 128384562, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos