fbpx
Wikipedia

Señal de voz

Las ondas sonoras son ondas mecánicas longitudinales, se originan por el movimiento de alguna porción de un medio elástico (sólido, líquido o gaseoso) con respecto a su posición de equilibrio, y debido a las propiedades elásticas del medio, esta perturbación puede desplazarse de un lugar a otro. Existe un gran margen de frecuencias entre las cuales se puede generar ondas mecánicas longitudinales. Las ondas sonoras se reducen a los límites de frecuencia que pueden estimular el oído humano para ser percibidas en el cerebro como una sensación acústica. Estos límites de frecuencia se extienden de aproximadamente 20 Hz a cerca 20 kHz y se llaman límites de audición. Las ondas audibles son producidas por cuerdas en vibración (por ejemplo el violín y las cuerdas vocales), por columnas de aire en vibración (el órgano y el clarinete) y por placas y membranas en vibración (el caso del tambor) [Resnick, Halliday. 1965].

Descripción del aparato fonador humano editar

 
Aparato fonador humano.

Ā aparato fonador es el conjunto de órganos que tienen como función producir la voz humana, lo conforman los pulmones, los cuales producen un flujo de aire; la laringe, que contiene las cuerdas vocales, la faringe, las cavidades oral y nasal y una serie de elementos articulatorios como los labios, los dientes, el alvéolo, el paladar, el velo del paladar y la lengua.

En el proceso de generación de la voz, el sonido inicial proviene de la vibración de las cuerdas vocales conocida como vibración glotal, es decir, el efecto sonoro se genera por la rápida apertura y cierre de las cuerdas vocales conjuntamente con el flujo de aire emitido desde los pulmones. Las cuerdas vocales son dos membranas ubicadas dentro de la laringe, la abertura entre ambas cuerdas se denomina glotis. Cuando la glotis comienza a cerrarse, el aire proveniente desde los pulmones experimenta una turbulencia, emitiéndose un ruido de origen aerodinámico.

 
Modelo simplificado de las cavidades oral, labial y nasal.

Al cerrarse más las cuerdas vocales comienzan a vibrar a modo de lengüetas, produciéndose un sonido tonal, es decir periódico y cuya frecuencia varia en forma inversa al tamaño de las cuerdas. Este sonido es propio del hablante y es más agudo para el caso de mujeres y niños. Carece de información lingüística.

Luego de atravesar la glotis el sonido pasa a través de la cavidad supraglótica, que es la porción del aparato fonador que permite modificar el sonido dentro de márgenes muy amplios. Está conformado principalmente por tres cavidades, la cavidad oral, la cavidad labial y la cavidad nasal, correspondientes a la garganta, los labios y la nariz respectivamente. Estas cavidades constituyen resonadores acústicos, los cuales modifican los sonidos de acuerdo a la forma que adopten, la lengua y los labios permiten efectuar esta variación de manera voluntaria.

Características fundamentales de la señal de voz editar

Forma de onda de la señal de voz editar

 
Forma de onda de la palabra 'Explorador'.

La señal de voz está constituida por un conjunto de sonidos generados por el aparato fonador. Esta señal acústica puede ser transformada por un micrófono en una señal eléctrica. La señal de voz en el tiempo puede ser representada en un par de ejes cartesianos. Como todo los sonidos, está formado esencialmente por curvas elementales (senos y cosenos) pero las posibles combinaciones de éstas pueden ser complejas. A manera de ejemplo, se muestra la forma de onda de la palabra ‘explorador’ (Imagen extraída de [Peralta, Cotrina. 2002]). La representación de la señal de voz en función del tiempo es importante puesto que brinda información sobre características importantes como la energía y los cruces por cero, las cuales facilitan su estudio y análisis.

Energía y cruces por cero editar

La función de energía de una señal representa la energía disipada por una resistencia de 1 ohm cuando se le aplica un voltaje  . En una señal continua, la Energía total   en el intervalo de tiempo   a   está definida como:

 

Para el caso de las señales discretas donde   es el número de muestras de la señal, la energía se define por:

 

La variación de energía en la señal de voz se debe a la variación de la presión subglotal y de la forma del tracto vocal. La Energía es útil para distinguir segmentos sordos y sonoros en la señal de voz, debido a que los valores de esta característica aumentan en los sonidos sonoros respecto a los sordos.

Los cruces por cero indican el número de veces que una señal continua toma el valor de cero. Para las señales discretas, un cruce por cero ocurre cuando dos muestras consecutivas difieren de signo, o bien una muestra toma el valor de cero. Consecuentemente, las señales con mayor frecuencia presentan un mayor valor de esta característica, el ruido también genera un gran número de cruces por cero.

 
Cruces por Cero. a) Señal Continua. b)Señal Discreta.

La formulación matemática de la Densidad de cruces por cero para señales discretas esta representa en la siguiente fórmula, en la cual,   es la función signo y   es el número de muestras de la señal.

 

Se muestra las gráficas de energía y cruces por cero de la palabra 'seis'. Como se puede observar, el valor de la energía varía en relación directa con la amplitud de la señal. La función de Densidad de Cruces por Cero alcanza sus valores más altos cuando se trata de sonidos tales como la 's', que son conocidos como sonidos fricativos.

 
Energía y cruces por cero de la palabra 'seis'.

Se realiza el estudio de la señal de voz en el dominio de la frecuencia, con la finalidad de conocer sus características espectrales. Se muestra el espectro de una señal de voz correspondiente a la palabra 'Dos'.

 
Espectro de frecuencia de la palabra 'dos'.

La frecuencia fundamental, no debe confundirse con el pitch, brinda información sobre la velocidad a la que vibran las cuerdas vocales al producir un sonido, el cual es generado por la rápida apertura y cierre de las cuerdas vocales con pequeños soplidos de aire, produciendo un espectro de frecuencia similar al mostrado en la figura siguiente. Este espectro podría ser obtenido si se colocara un micrófono de amplio rango directamente en la garganta, encima de las cuerdas vocales, pero debajo de las estructuras resonantes del tracto vocal. El pitch es aquel atributo de la percepción auditiva por la cual los sonidos pueden ordenarse en una escala musical,[1]​ la unidad en la que se mide el pitch es la Escala del Mel. La frecuencia, intensidad y las propiedades de uns sonido interactúan en formas muy complejas para dar la percepción de pitch que puede ser un reflejo muy pobre de la frecuencia fundamental.

El espectro está conformado de armónicos de la frecuencia fundamental. Si bien el espectro lleva un gran componente cerca de la frecuencia pitch (aprox. 50 Hz), tiene gran cantidad de armónicos, y así tiene componentes de frecuencia que se extiende hasta pasado los 5 kHz. [Flores. 1993]. Otra característica importante es la envolvente espectral. Un análisis adecuado sobre esta característica permite obtener información sobre los diferentes tipos de sonido.

 
Envolvente espectral.

Frecuencias formantes editar

Las cavidades que conforman la cavidad supraglótica actúan como resonadores acústicos. Si se realiza un análisis espectral del sonido luego de haber atravesado estas cavidades, el efecto de la resonancia produciría un énfasis en determinadas frecuencias del espectro obtenido, a las que se les denominara 'formantes'. Existen tantas formantes como resonadores posee el tracto vocal. Sin embargo se considera que sólo las tres primeras, asociadas a la cavidad oral, bucal y nasal respectivamente y proporcionan la suficiente cantidad de información para poder diferenciar los distintos tipos de sonido. En la figura se muestra el espectro de la palabra 'uno', y se denominan F1, F2 y F3 a sus tres principales frecuencias formantes. La amplificación de cada una de estas tres frecuencias depende del tamaño y forma que adopta la cavidad bucal y la cavidad oral, y si el aire pasa o no por la nariz.

 
Frecuencias formantes.

Tipos de señales de voz editar

Básicamente, la Señal de Voz puede clasificarse en los siguientes tipos, Sonora, No Sonora y Plosiva [Flores. 1993].

Señal sonora editar

La señal sonora se genera por la vibración de las cuerdas vocales manteniendo la glotis abierta, lo que permite que el aire fluya a través de ella. Estas señales se caracterizan por tener alta Energía y un contenido frecuencial en el rango de los 300 Hz a 4000 Hz presentando cierta periodicidad, es decir son de naturaleza cuasiperiódica. El tracto vocal actúa como una cavidad resonante reforzando la energía en torno a determinadas frecuencias (formantes). En la figura siguiente se muestra el comportamiento de este tipo de señales en el tiempo. Toda las vocales se caracterizan por ser sonoras pero existen consonantes que también lo son, tales como, la 'b', 'd' y la 'm', entre otras.

 
Señal sonora.

Señal no sonora editar

A esta señal también se le conoce como señal fricativa o sorda, y se caracteriza por tener un comportamiento aleatorio en forma de ruido blanco. Tienen una alta densidad de Cruces por Cero y baja Energía comparadas con las señales de tipo sonora. Durante su producción no se genera vibración de las cuerdas vocales, ya que, el aire atraviesa un estrechamiento, y genera una turbulencia. Las consonantes que producen este tipo sonidos son la 's', la 'f' y la 'z' entre otras. La figura siguiente muestra la forma de onda de una señal no sonora.

 
Señal no sonora.

Señal plosiva editar

Esta señal se genera cuando el tracto vocal se cierra en algún punto, lo que causa que el aire se acumule para después salir expulsado repentinamente (explosión). Se caracterizan porque la expulsión de aire está precedida de un silencio. Estos sonidos se generan por ejemplo, cuando se pronuncia la palabra 'campo'. La p es una consonante de carácter plosivo, y existe un silencio entre las sílabas 'cam' y 'po'. Otras consonantes que presentan esta característica son 't', y 'k', entre otras. La figura siguiente muestra el comportamiento de este tipo de señal.

 
Señal sonora.

Modelo del tracto editar

El tracto vocal se comporta como un filtro, cuyos parámetros varían en el tiempo en función de la acción consciente que se realiza al pronunciar una palabra. Se muestra el diagrama de bloques del modelo del tracto vocal. Se consideran dos posibles entradas que dependerán del tipo de señal a reproducir, sonora o no sonora. Para señales sonoras, la excitación será un tren de impulsos de frecuencia controlada, mientras que para las señales no sonoras la excitación será ruido aleatorio. La combinación de estas señales modela el funcionamiento de la glotis. El espectro de frecuencias de la Señal de Voz puede obtenerse a partir del producto del espectro de la excitación por la respuesta en frecuencia del filtro.

 
Modelo del tracto vocal.

El control de ganancia G, determina la intensidad de la excitación. El tracto vocal manifiesta un número muy grande de resonancias, pero como se afirmó anteriormente, sólo se consideran tres y en algunos casos cuatro, esto se debe a que las resonancias de alta frecuencia son atenuadas por la característica frecuencial del tracto que tiende a actuar como un filtro pasabajo. Este modelo es una simplificación del proceso del habla. Los sonidos fricativos, no se filtran por el tracto con la misma extensión en que lo hacen las señales sonoras, por lo que el modelo no es muy preciso para este tipo de señales. Además, el modelo supone que las dos señales pueden separarse sin considerar ninguna interacción entre ellas, lo que no es del todo cierto, ya que la vibración de las cuerdas vocales es afectada por las ondas de presión dentro del tracto. Sin embargo, estas consideraciones pueden ser ignoradas, resultando el modelo lo suficientemente adecuado.

Factores que afectan la señal de voz editar

Existen muchos factores que afectan la correcta percepción de las señales de voz, tales como el ruido, la acústica y la calidad del micrófono. El ruido, se define como aquellos sonidos aleatorios que de forma "oculta" transforman y enmascaran el sonido. Dado que, es poco probable encontrar un entorno de audio digital en perfecto silencio, es importante conocer la cantidad de ruido, en relación con la señal que se introduce en el equipo de sonido, especialmente en la tarjeta de sonido. La fuerza de cualquier sonido (hablar por ejemplo), comparada con la fuerza promedio del ruido, se conoce como relación señal a ruido (SNR). A medida que aumenta la relación SNR, es mejor el trabajo realizado en grabación.

Acústica de la habitación (ecos), puede crear cambios en el espectro de la señal de voz, debido a las resonancias de la habitación. Puesto que, cualquier ambiente cerrado tendría resonancias inherentes, su énfasis cuando interfiere con una señal de habla puede crear rangos anormales de frecuencias. Debido a esto, se producen dos cambios básicos en la acústica de una habitación, el primero es causado por el retardo en el tiempo del retorno de la señal original de una superficie reflectante, tal como una pared o una ventana. Cuando la onda es reflejada, regresa con mucho menor amplitud, y retardada en el tiempo, esta interactúa con la forma de onda originalmente hablada para crear un nuevo espectro compuesto del habla. El segundo, está relacionado con la reflexión de una superficie rugosa de una pared, lo cual tiende a atenuar en altas frecuencias, pero a reforzar en el rango de bajas frecuencias. [Cater. 1984]. Ruido del ambiente afecta si el usuario del sistema está operando el dispositivo en cualquier lugar que no sea una habitación tranquila, existe la posibilidad de la interferencia del ruido con las formas de onda. No obstante sin ruido externo, el sistema es susceptible de captar ruido a través del micrófono, y aunque suene extraño, muchas veces el ruido proviene desde la boca durante la pronunciación del mensaje.

En el caso de los sonidos plosivos, si el micrófono es ubicado directamente enfrente de la boca del hablante, entonces es muy susceptible de ser bombardeado por pequeñas ráfagas de aire ocasionadas por los sonidos plosivos. La mejor forma de tratar el problema es de rodear el micrófono con un material esponjoso transparente acústico, que rápidamente disipe la velocidad del viento de las pronunciaciones plosivas, permitiendo a las vibraciones acústicas normales pasar a través del micrófono. Otras fuentes de ruido externo, tal como los ventiladores en las computadoras, aire acondicionados, teléfonos, y otras personas hablando puede también causar problemas con la exactitud del sistema de reconocimiento. Otra técnica para cancelar el ruido externo es filtrar la señal de audio antes procesarla. Debido a que las frecuencias de voz que contienen información relevante están dentro de un rango relativamente estrecho desde 200 a 3000 Hz, el espectro de audio puede ser filtrado a través de un filtro pasabanda para rechazar las señales acústicas fuera de ese rango de frecuencias.

La calidad del micrófono probablemente es, el factor que más influye en la adquisición electrónica de señales del habla es el tipo de micrófono que se está usando. Existen, principalmente, cuatro tipos de micrófonos disponibles en el mercado, los cuales son el electreto, el dinámico, el de cristal y el de carbón. Para percibir fácilmente las diferencias entre estos tipos de micrófonos, sus características principales son comparadas en la siguiente tabla.

 
Comparación de los tipos de micrófonos.

Véase también editar

Referencias editar

  1. "American national standard acoustical terminology" (1994). American National Standards Institute, ANSI S1.1-1994 (R1999)
  • Resnick, Robert; Halliday David (1965). Física para estudiantes de Ciencias e Ingeniería. Parte 1. John Wiley & Sons, Inc. 
  • Andrés, Flores Espinoza (1993). Reconocimiento de Palabras Aisladas en Castellano. Inictel. Dirección de Investigación y Desarrollo. 
  • Fernando, Peralta; Anibal Cotrina-Atencio (2002). Reconocedor y analizador de voz. Universidad Nacional Mayor de San Marcos. 
  • John P., Cater (1984). Electronically Hearing: Computer Speech Recognition, 1st Edition. Howard W. Sams & Co. Inc. 
  •   Datos: Q5690346

señal, ondas, sonoras, ondas, mecánicas, longitudinales, originan, movimiento, alguna, porción, medio, elástico, sólido, líquido, gaseoso, respecto, posición, equilibrio, debido, propiedades, elásticas, medio, esta, perturbación, puede, desplazarse, lugar, otr. Las ondas sonoras son ondas mecanicas longitudinales se originan por el movimiento de alguna porcion de un medio elastico solido liquido o gaseoso con respecto a su posicion de equilibrio y debido a las propiedades elasticas del medio esta perturbacion puede desplazarse de un lugar a otro Existe un gran margen de frecuencias entre las cuales se puede generar ondas mecanicas longitudinales Las ondas sonoras se reducen a los limites de frecuencia que pueden estimular el oido humano para ser percibidas en el cerebro como una sensacion acustica Estos limites de frecuencia se extienden de aproximadamente 20 Hz a cerca 20 kHz y se llaman limites de audicion Las ondas audibles son producidas por cuerdas en vibracion por ejemplo el violin y las cuerdas vocales por columnas de aire en vibracion el organo y el clarinete y por placas y membranas en vibracion el caso del tambor Resnick Halliday 1965 Indice 1 Descripcion del aparato fonador humano 2 Caracteristicas fundamentales de la senal de voz 2 1 Forma de onda de la senal de voz 2 2 Energia y cruces por cero 2 3 Frecuencias formantes 3 Tipos de senales de voz 3 1 Senal sonora 3 2 Senal no sonora 3 3 Senal plosiva 4 Modelo del tracto 4 1 Factores que afectan la senal de voz 5 Vease tambien 6 ReferenciasDescripcion del aparato fonador humano editar nbsp Aparato fonador humano A aparato fonador es el conjunto de organos que tienen como funcion producir la voz humana lo conforman los pulmones los cuales producen un flujo de aire la laringe que contiene las cuerdas vocales la faringe las cavidades oral y nasal y una serie de elementos articulatorios como los labios los dientes el alveolo el paladar el velo del paladar y la lengua En el proceso de generacion de la voz el sonido inicial proviene de la vibracion de las cuerdas vocales conocida como vibracion glotal es decir el efecto sonoro se genera por la rapida apertura y cierre de las cuerdas vocales conjuntamente con el flujo de aire emitido desde los pulmones Las cuerdas vocales son dos membranas ubicadas dentro de la laringe la abertura entre ambas cuerdas se denomina glotis Cuando la glotis comienza a cerrarse el aire proveniente desde los pulmones experimenta una turbulencia emitiendose un ruido de origen aerodinamico nbsp Modelo simplificado de las cavidades oral labial y nasal Al cerrarse mas las cuerdas vocales comienzan a vibrar a modo de lenguetas produciendose un sonido tonal es decir periodico y cuya frecuencia varia en forma inversa al tamano de las cuerdas Este sonido es propio del hablante y es mas agudo para el caso de mujeres y ninos Carece de informacion linguistica Luego de atravesar la glotis el sonido pasa a traves de la cavidad supraglotica que es la porcion del aparato fonador que permite modificar el sonido dentro de margenes muy amplios Esta conformado principalmente por tres cavidades la cavidad oral la cavidad labial y la cavidad nasal correspondientes a la garganta los labios y la nariz respectivamente Estas cavidades constituyen resonadores acusticos los cuales modifican los sonidos de acuerdo a la forma que adopten la lengua y los labios permiten efectuar esta variacion de manera voluntaria Caracteristicas fundamentales de la senal de voz editarForma de onda de la senal de voz editar nbsp Forma de onda de la palabra Explorador La senal de voz esta constituida por un conjunto de sonidos generados por el aparato fonador Esta senal acustica puede ser transformada por un microfono en una senal electrica La senal de voz en el tiempo puede ser representada en un par de ejes cartesianos Como todo los sonidos esta formado esencialmente por curvas elementales senos y cosenos pero las posibles combinaciones de estas pueden ser complejas A manera de ejemplo se muestra la forma de onda de la palabra explorador Imagen extraida de Peralta Cotrina 2002 La representacion de la senal de voz en funcion del tiempo es importante puesto que brinda informacion sobre caracteristicas importantes como la energia y los cruces por cero las cuales facilitan su estudio y analisis Energia y cruces por cero editar La funcion de energia de una senal representa la energia disipada por una resistencia de 1 ohm cuando se le aplica un voltaje x t displaystyle x t nbsp En una senal continua la Energia total E displaystyle E nbsp en el intervalo de tiempo t 1 displaystyle t 1 nbsp a t 2 displaystyle t 2 nbsp esta definida como E t 1 t 2 x t 2 d t displaystyle E int t 1 t 2 left x t right 2 dt nbsp Para el caso de las senales discretas donde N displaystyle N nbsp es el numero de muestras de la senal la energia se define por E m 0 N 1 x m 2 displaystyle E sum limits m 0 N 1 x m 2 nbsp La variacion de energia en la senal de voz se debe a la variacion de la presion subglotal y de la forma del tracto vocal La Energia es util para distinguir segmentos sordos y sonoros en la senal de voz debido a que los valores de esta caracteristica aumentan en los sonidos sonoros respecto a los sordos Los cruces por cero indican el numero de veces que una senal continua toma el valor de cero Para las senales discretas un cruce por cero ocurre cuando dos muestras consecutivas difieren de signo o bien una muestra toma el valor de cero Consecuentemente las senales con mayor frecuencia presentan un mayor valor de esta caracteristica el ruido tambien genera un gran numero de cruces por cero nbsp Cruces por Cero a Senal Continua b Senal Discreta La formulacion matematica de la Densidad de cruces por cero para senales discretas esta representa en la siguiente formula en la cual s g n displaystyle sgn nbsp es la funcion signo y N displaystyle N nbsp es el numero de muestras de la senal z m 0 N 1 s g n x m s i g n x m 1 displaystyle z sum limits m 0 N 1 left sgn left x m right sign left x m 1 right right nbsp Se muestra las graficas de energia y cruces por cero de la palabra seis Como se puede observar el valor de la energia varia en relacion directa con la amplitud de la senal La funcion de Densidad de Cruces por Cero alcanza sus valores mas altos cuando se trata de sonidos tales como la s que son conocidos como sonidos fricativos nbsp Energia y cruces por cero de la palabra seis Se realiza el estudio de la senal de voz en el dominio de la frecuencia con la finalidad de conocer sus caracteristicas espectrales Se muestra el espectro de una senal de voz correspondiente a la palabra Dos nbsp Espectro de frecuencia de la palabra dos La frecuencia fundamental no debe confundirse con el pitch brinda informacion sobre la velocidad a la que vibran las cuerdas vocales al producir un sonido el cual es generado por la rapida apertura y cierre de las cuerdas vocales con pequenos soplidos de aire produciendo un espectro de frecuencia similar al mostrado en la figura siguiente Este espectro podria ser obtenido si se colocara un microfono de amplio rango directamente en la garganta encima de las cuerdas vocales pero debajo de las estructuras resonantes del tracto vocal El pitch es aquel atributo de la percepcion auditiva por la cual los sonidos pueden ordenarse en una escala musical 1 la unidad en la que se mide el pitch es la Escala del Mel La frecuencia intensidad y las propiedades de uns sonido interactuan en formas muy complejas para dar la percepcion de pitch que puede ser un reflejo muy pobre de la frecuencia fundamental El espectro esta conformado de armonicos de la frecuencia fundamental Si bien el espectro lleva un gran componente cerca de la frecuencia pitch aprox 50 Hz tiene gran cantidad de armonicos y asi tiene componentes de frecuencia que se extiende hasta pasado los 5 kHz Flores 1993 Otra caracteristica importante es la envolvente espectral Un analisis adecuado sobre esta caracteristica permite obtener informacion sobre los diferentes tipos de sonido nbsp Envolvente espectral Frecuencias formantes editar Las cavidades que conforman la cavidad supraglotica actuan como resonadores acusticos Si se realiza un analisis espectral del sonido luego de haber atravesado estas cavidades el efecto de la resonancia produciria un enfasis en determinadas frecuencias del espectro obtenido a las que se les denominara formantes Existen tantas formantes como resonadores posee el tracto vocal Sin embargo se considera que solo las tres primeras asociadas a la cavidad oral bucal y nasal respectivamente y proporcionan la suficiente cantidad de informacion para poder diferenciar los distintos tipos de sonido En la figura se muestra el espectro de la palabra uno y se denominan F1 F2 y F3 a sus tres principales frecuencias formantes La amplificacion de cada una de estas tres frecuencias depende del tamano y forma que adopta la cavidad bucal y la cavidad oral y si el aire pasa o no por la nariz nbsp Frecuencias formantes Tipos de senales de voz editarBasicamente la Senal de Voz puede clasificarse en los siguientes tipos Sonora No Sonora y Plosiva Flores 1993 Senal sonora editar La senal sonora se genera por la vibracion de las cuerdas vocales manteniendo la glotis abierta lo que permite que el aire fluya a traves de ella Estas senales se caracterizan por tener alta Energia y un contenido frecuencial en el rango de los 300 Hz a 4000 Hz presentando cierta periodicidad es decir son de naturaleza cuasiperiodica El tracto vocal actua como una cavidad resonante reforzando la energia en torno a determinadas frecuencias formantes En la figura siguiente se muestra el comportamiento de este tipo de senales en el tiempo Toda las vocales se caracterizan por ser sonoras pero existen consonantes que tambien lo son tales como la b d y la m entre otras nbsp Senal sonora Senal no sonora editar A esta senal tambien se le conoce como senal fricativa o sorda y se caracteriza por tener un comportamiento aleatorio en forma de ruido blanco Tienen una alta densidad de Cruces por Cero y baja Energia comparadas con las senales de tipo sonora Durante su produccion no se genera vibracion de las cuerdas vocales ya que el aire atraviesa un estrechamiento y genera una turbulencia Las consonantes que producen este tipo sonidos son la s la f y la z entre otras La figura siguiente muestra la forma de onda de una senal no sonora nbsp Senal no sonora Senal plosiva editar Esta senal se genera cuando el tracto vocal se cierra en algun punto lo que causa que el aire se acumule para despues salir expulsado repentinamente explosion Se caracterizan porque la expulsion de aire esta precedida de un silencio Estos sonidos se generan por ejemplo cuando se pronuncia la palabra campo La p es una consonante de caracter plosivo y existe un silencio entre las silabas cam y po Otras consonantes que presentan esta caracteristica son t y k entre otras La figura siguiente muestra el comportamiento de este tipo de senal nbsp Senal sonora Modelo del tracto editarEl tracto vocal se comporta como un filtro cuyos parametros varian en el tiempo en funcion de la accion consciente que se realiza al pronunciar una palabra Se muestra el diagrama de bloques del modelo del tracto vocal Se consideran dos posibles entradas que dependeran del tipo de senal a reproducir sonora o no sonora Para senales sonoras la excitacion sera un tren de impulsos de frecuencia controlada mientras que para las senales no sonoras la excitacion sera ruido aleatorio La combinacion de estas senales modela el funcionamiento de la glotis El espectro de frecuencias de la Senal de Voz puede obtenerse a partir del producto del espectro de la excitacion por la respuesta en frecuencia del filtro nbsp Modelo del tracto vocal El control de ganancia G determina la intensidad de la excitacion El tracto vocal manifiesta un numero muy grande de resonancias pero como se afirmo anteriormente solo se consideran tres y en algunos casos cuatro esto se debe a que las resonancias de alta frecuencia son atenuadas por la caracteristica frecuencial del tracto que tiende a actuar como un filtro pasabajo Este modelo es una simplificacion del proceso del habla Los sonidos fricativos no se filtran por el tracto con la misma extension en que lo hacen las senales sonoras por lo que el modelo no es muy preciso para este tipo de senales Ademas el modelo supone que las dos senales pueden separarse sin considerar ninguna interaccion entre ellas lo que no es del todo cierto ya que la vibracion de las cuerdas vocales es afectada por las ondas de presion dentro del tracto Sin embargo estas consideraciones pueden ser ignoradas resultando el modelo lo suficientemente adecuado Factores que afectan la senal de voz editar Existen muchos factores que afectan la correcta percepcion de las senales de voz tales como el ruido la acustica y la calidad del microfono El ruido se define como aquellos sonidos aleatorios que de forma oculta transforman y enmascaran el sonido Dado que es poco probable encontrar un entorno de audio digital en perfecto silencio es importante conocer la cantidad de ruido en relacion con la senal que se introduce en el equipo de sonido especialmente en la tarjeta de sonido La fuerza de cualquier sonido hablar por ejemplo comparada con la fuerza promedio del ruido se conoce como relacion senal a ruido SNR A medida que aumenta la relacion SNR es mejor el trabajo realizado en grabacion Acustica de la habitacion ecos puede crear cambios en el espectro de la senal de voz debido a las resonancias de la habitacion Puesto que cualquier ambiente cerrado tendria resonancias inherentes su enfasis cuando interfiere con una senal de habla puede crear rangos anormales de frecuencias Debido a esto se producen dos cambios basicos en la acustica de una habitacion el primero es causado por el retardo en el tiempo del retorno de la senal original de una superficie reflectante tal como una pared o una ventana Cuando la onda es reflejada regresa con mucho menor amplitud y retardada en el tiempo esta interactua con la forma de onda originalmente hablada para crear un nuevo espectro compuesto del habla El segundo esta relacionado con la reflexion de una superficie rugosa de una pared lo cual tiende a atenuar en altas frecuencias pero a reforzar en el rango de bajas frecuencias Cater 1984 Ruido del ambiente afecta si el usuario del sistema esta operando el dispositivo en cualquier lugar que no sea una habitacion tranquila existe la posibilidad de la interferencia del ruido con las formas de onda No obstante sin ruido externo el sistema es susceptible de captar ruido a traves del microfono y aunque suene extrano muchas veces el ruido proviene desde la boca durante la pronunciacion del mensaje En el caso de los sonidos plosivos si el microfono es ubicado directamente enfrente de la boca del hablante entonces es muy susceptible de ser bombardeado por pequenas rafagas de aire ocasionadas por los sonidos plosivos La mejor forma de tratar el problema es de rodear el microfono con un material esponjoso transparente acustico que rapidamente disipe la velocidad del viento de las pronunciaciones plosivas permitiendo a las vibraciones acusticas normales pasar a traves del microfono Otras fuentes de ruido externo tal como los ventiladores en las computadoras aire acondicionados telefonos y otras personas hablando puede tambien causar problemas con la exactitud del sistema de reconocimiento Otra tecnica para cancelar el ruido externo es filtrar la senal de audio antes procesarla Debido a que las frecuencias de voz que contienen informacion relevante estan dentro de un rango relativamente estrecho desde 200 a 3000 Hz el espectro de audio puede ser filtrado a traves de un filtro pasabanda para rechazar las senales acusticas fuera de ese rango de frecuencias La calidad del microfono probablemente es el factor que mas influye en la adquisicion electronica de senales del habla es el tipo de microfono que se esta usando Existen principalmente cuatro tipos de microfonos disponibles en el mercado los cuales son el electreto el dinamico el de cristal y el de carbon Para percibir facilmente las diferencias entre estos tipos de microfonos sus caracteristicas principales son comparadas en la siguiente tabla nbsp Comparacion de los tipos de microfonos Vease tambien editarAudio de alta gama Sonido envolvente Senal de audio Volumen sonido Referencias editar American national standard acoustical terminology 1994 American National Standards Institute ANSI S1 1 1994 R1999 Resnick Robert Halliday David 1965 Fisica para estudiantes de Ciencias e Ingenieria Parte 1 John Wiley amp Sons Inc Andres Flores Espinoza 1993 Reconocimiento de Palabras Aisladas en Castellano Inictel Direccion de Investigacion y Desarrollo Fernando Peralta Anibal Cotrina Atencio 2002 Reconocedor y analizador de voz Universidad Nacional Mayor de San Marcos John P Cater 1984 Electronically Hearing Computer Speech Recognition 1st Edition Howard W Sams amp Co Inc nbsp Datos Q5690346 Obtenido de https es wikipedia org w index php title Senal de voz amp oldid 156520018, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos