fbpx
Wikipedia

Reconocimiento de locutores

El reconocimiento de locutores pertenece a la rama de la inteligencia artificial y consiste en la identificación automática de una persona a través de su voz. El hecho de poder distinguir un locutor de otro está relacionado mayoritariamente con las características fisiológicas y los hábitos lingüísticos de cada uno de ellos. El reconocimiento conlleva un procesado de audio que permite extraer este conjunto de rasgos inherentes al locutor y la posterior búsqueda de posibles coincidencias mediante un proceso de reconocimiento de patrones.

Verificación vs. Identificación

Los dos campos de aplicación más importantes del reconocimiento de locutores son la verificación y la identificación de hablantes. Si el locutor afirma tener una determinada identidad y el sistema debe corroborarla, el sistema está realizando verificación de locutores. Si en cambio el sistema sólo recibe características de una voz y debe determinar su identidad, por ej. dentro de un conjunto de posibles identidades, estamos en ese caso ante un sistema de identificación.

En la verificación de locutores el sistema de reconocimiento verifica si las características extraídas de la voz de un locutor se corresponden con la identidad que afirma tener el mismo. La decisión es binaria; el sistema recibe una grabación con la voz del locutor y la identidad proclamada por este y luego el sistema da como salida el éxito o fracaso de esta verificación. La verificación de locutores se utiliza típicamente en seguridad (por ej. para dar acceso a una puerta).

En un sistema de identificación el sistema suele recibir una o varias muestras de voz y las contrasta con una base de datos con voces cuyas identidades son conocidas. Luego, el sistema asigna una puntuación de semejanza a cada una de estas identidades, obteniendo puntajes más altos los de aquellas personas cuyas voces tienen mayor coincidencia con la muestra con la que se están comparando.

En aplicaciones forenses (por ej. en investigaciones policiales o evaluación de evidencias en la justicia), es común llevar a cabo primeramente un proceso de identificación para crear una lista de identidades con alta probabilidad de coincidencia. Luego, un proceso de verificación permite llegar a un resultado final, con una única identidad definida.

Arquitectura del sistema

 
Arquitectura de un sistema de reconocimiento de locutor

Un sistema de reconocimiento de locutor está formado por dos secciones: entrenamiento y test. A pesar de compartir una estructura similar en cuanto a los módulos que las conforman tienen una función bien diferenciada.

  • La sección de entrenamiento tiene la finalidad de registrar locutores mediante un micrófono para extraer sus características y guardarlas en la base de datos.
  • La sección de test se centra en registrar a un locutor y extraer las características para poder compararlas con las que se encuentran almacenadas en la base de datos. Finalmente, después de obtener posibles coincidencias, el sistema presenta al locutor susceptible de ser el buscado.

Adquisición de datos

La adquisición de datos es esencial tanto para la parte de entrenamiento como para la de test. Para poder introducir locutores al sistema es necesario un transductor acústico-eléctrico, ya que la voz se propaga en forma de ondas y para poder extraer características es necesario transformar la presión sonora en un señal eléctrica y así poder proceder a su digitalización.

El tipo de micrófono, la frecuencia de muestreo y la cuantización realizada en la captación del audio deberá adecuarse a la ancho de banda de la voz y sus características. Hay factores externos al locutor como la elección de los parámetros anteriores, la relación señal ruido (SNR) de las muestras grabadas o la utilización de micrófonos con diferentes curvas de respuesta frecuencial que pueden influir negativamente en el resultado.

Extracción de características

 
Potencia media cuadrática de audio con MPEG-7

Una vez digitalizado, el audio se procesa para extraer el listado de características elegidas, las cuales se llaman descriptores de audio. Estos descriptores contienen las características acústicas de la señal que utilizará el clasificador para compararlos con el listado almacenado en la base de datos. Las características a analizar pueden ser diversas pero se suelen utilizar los descriptores de audio de bajo nivel debido a la naturaleza de la fuente. Estos descriptores presentan un bajo nivel de abstracción y se limitan a describir características espectrales, paramétricas y temporales de la señal de audio.

Para poder asociar las características de los descriptores a los archivos de audio correspondientes se utilizan los metadatos, datos sobre datos. Uno de los standards utilizados para esta tarea es el estándar MPEG-7, el cual permite la gestión de estos metadatos, facilitando así el acceso a esta información en el momento de la búsqueda.

Clasificación

El módulo clasificador tiene acceso tanto a la parte de entrenamiento como a la de test. Este módulo hace de puente entre ambas partes encargándose de comparar los vectores de características a buscar con los vectores de los modelos de locutor que contiene la base de datos. Su tarea computacional consiste en encontrar coincidencias y como resultado extrae una serie de probabilidades de los locutores en la base de datos susceptibles de ser el buscado. La decisión puede ser diferente dependiendo de la configuración del sistema.

 
Sistema de reconocimiento abierto vs cerrado

Sistema cerrado

Un sistema cerrado da por supuesto que el locutor que se quiere identificar se encuentra ya almacenado en la base de datos. El locutor con más probabilidades a la salida del clasificador, que comparte más características con el locutor a buscar, será la salida resultante del sistema.

Sistema abierto

Un sistema abierto es más complejo, ya que el locutor que se quiere identificar no está necesariamente en la base de datos. El clasificador debe tener en cuenta no sólo la más alta probabilidad, sino que también debe establecer si la semejanza es suficiente para dar un positivo. Si las probabilidades de un modelo de locutor se consideran suficientes como para suponer una coincidencia se presenta al candidato como resultado de la búsqueda, en caso contrario la salida es "locutor desconocido".

Aplicaciones

El desarrollo de tecnologías encargadas de reconocer automáticamente a una persona mediante su voz ha experimentado un creciente interés en los últimos años debido a sus múltiples aplicaciones.

Campo Ejemplos
Control de acceso Acceso a instalaciones físicas

Acceso a un ordenador

Transacciones de autenticación Comercio electrónico

Transacciones bancarias

Servicio personalizado Aplicaciones de domótica
Gestión de audio Indexación automática de contenidos de audio
Refuerzo de la ley Comprobación de que se cumple la libertad condicional
Forense Identificación de personas a través de grabaciones para validar pruebas

Farrús, Mireia (2008). «Fusing prosodic and acoustic information for speaker recognition». Thesis.  (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).


Identificación o autenticación

  • La identificación de locutor consiste en encontrar su identidad. Debido a que el locutor a buscar puede estar registrado en la base de datos o no estarlo, se suele utilizar un sistema abierto, pues en caso de no estar en la base de datos la identificación no sería posible y el locutor debería considerarse desconocido.
  • En el caso de la autenticación se utiliza un sistema cerrado, pues en este caso el locutor da su identidad y para verificarlo es necesario acceder a su modelo de voz guardado en la base de datos . Hay dos posibles salidas para este sistema, la correspondencia entre el locutor y quien dice ser o la no correspondencia.

Dependientes o independientes del texto

  • Los sistemas dependientes del texto utilizan la misma palabra o frase tanto en la parte de entrenamiento como en la de test. Estas palabras suelen ser contraseñas privadas en aplicaciones de seguridad.
  • Los sistemas independientes del texto no se basan en ninguna palabra o frase en concreto y no necesitan ningún tipo de cooperación por parte del locutor a buscar, pues con la voz ya es suficiente. Estos sistemas se utilizan a menudo en campos de investigación forense o judicial, para identificar a locutores o verificar alguna identidad.

Véase también

Enlaces externos

  • Tesi Mireia Farrús i Cabeceran. TALP Research Center, Speech Processing Group. Universitat Politècnica de Catalunya. Barcelona, July 2008 (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
  • Scholarpedia: Speaker recognition
  • University MPEG-7 Audio Analizer
  •   Datos: Q1145189

reconocimiento, locutores, este, artículo, sección, necesita, referencias, aparezcan, publicación, acreditada, este, aviso, puesto, diciembre, 2020, reconocimiento, locutores, pertenece, rama, inteligencia, artificial, consiste, identificación, automática, per. Este articulo o seccion necesita referencias que aparezcan en una publicacion acreditada Este aviso fue puesto el 4 de diciembre de 2020 El reconocimiento de locutores pertenece a la rama de la inteligencia artificial y consiste en la identificacion automatica de una persona a traves de su voz El hecho de poder distinguir un locutor de otro esta relacionado mayoritariamente con las caracteristicas fisiologicas y los habitos linguisticos de cada uno de ellos El reconocimiento conlleva un procesado de audio que permite extraer este conjunto de rasgos inherentes al locutor y la posterior busqueda de posibles coincidencias mediante un proceso de reconocimiento de patrones Indice 1 Verificacion vs Identificacion 2 Arquitectura del sistema 2 1 Adquisicion de datos 2 2 Extraccion de caracteristicas 2 3 Clasificacion 2 3 1 Sistema cerrado 2 3 2 Sistema abierto 3 Aplicaciones 3 1 Identificacion o autenticacion 3 2 Dependientes o independientes del texto 4 Vease tambien 5 Enlaces externosVerificacion vs Identificacion EditarLos dos campos de aplicacion mas importantes del reconocimiento de locutores son la verificacion y la identificacion de hablantes Si el locutor afirma tener una determinada identidad y el sistema debe corroborarla el sistema esta realizando verificacion de locutores Si en cambio el sistema solo recibe caracteristicas de una voz y debe determinar su identidad por ej dentro de un conjunto de posibles identidades estamos en ese caso ante un sistema de identificacion En la verificacion de locutores el sistema de reconocimiento verifica si las caracteristicas extraidas de la voz de un locutor se corresponden con la identidad que afirma tener el mismo La decision es binaria el sistema recibe una grabacion con la voz del locutor y la identidad proclamada por este y luego el sistema da como salida el exito o fracaso de esta verificacion La verificacion de locutores se utiliza tipicamente en seguridad por ej para dar acceso a una puerta En un sistema de identificacion el sistema suele recibir una o varias muestras de voz y las contrasta con una base de datos con voces cuyas identidades son conocidas Luego el sistema asigna una puntuacion de semejanza a cada una de estas identidades obteniendo puntajes mas altos los de aquellas personas cuyas voces tienen mayor coincidencia con la muestra con la que se estan comparando En aplicaciones forenses por ej en investigaciones policiales o evaluacion de evidencias en la justicia es comun llevar a cabo primeramente un proceso de identificacion para crear una lista de identidades con alta probabilidad de coincidencia Luego un proceso de verificacion permite llegar a un resultado final con una unica identidad definida Arquitectura del sistema Editar Arquitectura de un sistema de reconocimiento de locutor Un sistema de reconocimiento de locutor esta formado por dos secciones entrenamiento y test A pesar de compartir una estructura similar en cuanto a los modulos que las conforman tienen una funcion bien diferenciada La seccion de entrenamiento tiene la finalidad de registrar locutores mediante un microfono para extraer sus caracteristicas y guardarlas en la base de datos La seccion de test se centra en registrar a un locutor y extraer las caracteristicas para poder compararlas con las que se encuentran almacenadas en la base de datos Finalmente despues de obtener posibles coincidencias el sistema presenta al locutor susceptible de ser el buscado Adquisicion de datos Editar La adquisicion de datos es esencial tanto para la parte de entrenamiento como para la de test Para poder introducir locutores al sistema es necesario un transductor acustico electrico ya que la voz se propaga en forma de ondas y para poder extraer caracteristicas es necesario transformar la presion sonora en un senal electrica y asi poder proceder a su digitalizacion El tipo de microfono la frecuencia de muestreo y la cuantizacion realizada en la captacion del audio debera adecuarse a la ancho de banda de la voz y sus caracteristicas Hay factores externos al locutor como la eleccion de los parametros anteriores la relacion senal ruido SNR de las muestras grabadas o la utilizacion de microfonos con diferentes curvas de respuesta frecuencial que pueden influir negativamente en el resultado Extraccion de caracteristicas Editar Potencia media cuadratica de audio con MPEG 7 Una vez digitalizado el audio se procesa para extraer el listado de caracteristicas elegidas las cuales se llaman descriptores de audio Estos descriptores contienen las caracteristicas acusticas de la senal que utilizara el clasificador para compararlos con el listado almacenado en la base de datos Las caracteristicas a analizar pueden ser diversas pero se suelen utilizar los descriptores de audio de bajo nivel debido a la naturaleza de la fuente Estos descriptores presentan un bajo nivel de abstraccion y se limitan a describir caracteristicas espectrales parametricas y temporales de la senal de audio Para poder asociar las caracteristicas de los descriptores a los archivos de audio correspondientes se utilizan los metadatos datos sobre datos Uno de los standards utilizados para esta tarea es el estandar MPEG 7 el cual permite la gestion de estos metadatos facilitando asi el acceso a esta informacion en el momento de la busqueda Clasificacion Editar El modulo clasificador tiene acceso tanto a la parte de entrenamiento como a la de test Este modulo hace de puente entre ambas partes encargandose de comparar los vectores de caracteristicas a buscar con los vectores de los modelos de locutor que contiene la base de datos Su tarea computacional consiste en encontrar coincidencias y como resultado extrae una serie de probabilidades de los locutores en la base de datos susceptibles de ser el buscado La decision puede ser diferente dependiendo de la configuracion del sistema Sistema de reconocimiento abierto vs cerrado Sistema cerrado Editar Un sistema cerrado da por supuesto que el locutor que se quiere identificar se encuentra ya almacenado en la base de datos El locutor con mas probabilidades a la salida del clasificador que comparte mas caracteristicas con el locutor a buscar sera la salida resultante del sistema Sistema abierto Editar Un sistema abierto es mas complejo ya que el locutor que se quiere identificar no esta necesariamente en la base de datos El clasificador debe tener en cuenta no solo la mas alta probabilidad sino que tambien debe establecer si la semejanza es suficiente para dar un positivo Si las probabilidades de un modelo de locutor se consideran suficientes como para suponer una coincidencia se presenta al candidato como resultado de la busqueda en caso contrario la salida es locutor desconocido Aplicaciones EditarEl desarrollo de tecnologias encargadas de reconocer automaticamente a una persona mediante su voz ha experimentado un creciente interes en los ultimos anos debido a sus multiples aplicaciones Campo EjemplosControl de acceso Acceso a instalaciones fisicas Acceso a un ordenadorTransacciones de autenticacion Comercio electronico Transacciones bancariasServicio personalizado Aplicaciones de domoticaGestion de audio Indexacion automatica de contenidos de audioRefuerzo de la ley Comprobacion de que se cumple la libertad condicionalForense Identificacion de personas a traves de grabaciones para validar pruebasFarrus Mireia 2008 Fusing prosodic and acoustic information for speaker recognition Thesis enlace roto disponible en Internet Archive vease el historial la primera version y la ultima Identificacion o autenticacion Editar La identificacion de locutor consiste en encontrar su identidad Debido a que el locutor a buscar puede estar registrado en la base de datos o no estarlo se suele utilizar un sistema abierto pues en caso de no estar en la base de datos la identificacion no seria posible y el locutor deberia considerarse desconocido En el caso de la autenticacion se utiliza un sistema cerrado pues en este caso el locutor da su identidad y para verificarlo es necesario acceder a su modelo de voz guardado en la base de datos Hay dos posibles salidas para este sistema la correspondencia entre el locutor y quien dice ser o la no correspondencia Dependientes o independientes del texto Editar Los sistemas dependientes del texto utilizan la misma palabra o frase tanto en la parte de entrenamiento como en la de test Estas palabras suelen ser contrasenas privadas en aplicaciones de seguridad Los sistemas independientes del texto no se basan en ninguna palabra o frase en concreto y no necesitan ningun tipo de cooperacion por parte del locutor a buscar pues con la voz ya es suficiente Estos sistemas se utilizan a menudo en campos de investigacion forense o judicial para identificar a locutores o verificar alguna identidad Vease tambien EditarSpeaker recognition Reconocimiento de patrones Descriptores de audio del MPEG 7 Indexacion audiovisualEnlaces externos EditarPia Munoz Trallero Extensio d una interficie de cerca d imatges a les consultes amb regions EET 2010 Tesi Mireia Farrus i Cabeceran TALP Research Center Speech Processing Group Universitat Politecnica de Catalunya Barcelona July 2008 enlace roto disponible en Internet Archive vease el historial la primera version y la ultima Scholarpedia Speaker recognition MPEG 7 Audio Low Level Descriptors Software University MPEG 7 Audio Analizer Datos Q1145189 Obtenido de https es wikipedia org w index php title Reconocimiento de locutores amp oldid 131454942, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos