fbpx
Wikipedia

Interfaz de usuario de lenguaje natural

Interfaces de Usuario de Lenguaje Natural son un tipo de interfaz de usuario que permite la comunicación entre humanos y máquinas, donde los fenómenos lingüísticos, como los verbos, frases y cláusulas actúan como controles de la interfaz de usuario para crear, seleccionar y modificar datos en las aplicaciones de software.

En el diseño de la interfaz de lenguaje natural las interfaces son buscadas por su velocidad y facilidad de uso, pero además hay factores como la comprensión, que añaden una dificultad significativa, ya que podemos encontrar entradas ambiguas en el sistema.[1]

Las interfaces de lenguaje natural componen un área activa de estudio en el campo del procesamiento del lenguaje natural y la lingüística computacional. Una intuitiva interfaz de lenguaje natural en general es uno de los grandes objetivos activos de la Web Semántica.

Es importante tener en cuenta que las interfaces de texto son "naturales" en diversos grados, y que muchos lenguajes de programación formal (no natural) incorporan idiomas de lenguaje natural humano. Del mismo modo, un motor tradicional de búsqueda de palabras clave podría ser descrito como una interfaz de usuario de la lengua natural “superficial”.

Descripción

Un motor de búsqueda de lenguaje natural, en teoría, debería encontrar respuestas a preguntas específicas del usuario (en lugar de buscar por las palabras claves contenidas en la pregunta). Por ejemplo, cuando se realiza una pregunta como por ejemplo "Que Estado de EE.UU., tiene el impuesto de renta más alto?", Los motores de búsqueda convencionales ignoran el problema y realizan una búsqueda con las palabras clave ' Estado, renta e impuesto ". La búsqueda en lenguaje natural, por otro lado, intenta utilizar el procesamiento del lenguaje natural para comprender la naturaleza de la pregunta y luego busca y devuelve un subconjunto web que contiene la respuesta a la pregunta. Si funciona, los resultados tendrían una relevancia mayor que los resultados de un motor de búsqueda por palabra clave. Desde un punto de vista comercial, la publicidad en la página de resultados también podría ser más relevante y podría tener un potencial de ingresos más alto que el de los motores de búsqueda por palabra clave.

Historia

A lo largo de la historia los lenguajes naturales han ido evolucionando, de forma paralela al desarrollo y evolución de la especie humana. En los últimos años, las aplicaciones diseñadas han intentado promover la comunicación entre humanos y máquinas por lo que se han incluido técnicas de reconocimiento de voz. Hoy en día el campo del reconocimiento de lenguaje natural está trabajando para mejorar los resultados, superando las diferentes dificultades que se comentan más adelante.

Los primeros contactos con la interfaz de usuario de lenguaje natural datan de los años sesenta y setenta de la mano del prototipo NI.[2]

  • Lunar, una interfaz de lenguaje natural en conexión a una base de datos con análisis químicos de las rocas lunares de Apolo-11 por William A. Woods.
  • Chat-80, transforma preguntas en inglés en expresiones Prolog, las cuales fueron evaluados en relación con la base de datos Prolog. El código de la charla-80 fue ampliamente difundido, y formó la base de muchas otras interfaces experimentales Nl.
  • Janus, es también uno de los pocos sistemas de apoyo a las cuestiones temporales.
  • Intellect de Trinzic (formado por la fusión de AICorp y Aion).
  • Bbn’s Parlance construido sobre la experiencia del desarrollo de los sistemas Rus e Irus .
  • IBM Languageaccess
  • Q&A de Symantec.
  • Datatalker de Natural Language Inc.
  • Loqui de Bim.
  • English Wizard de Linguistic Technology Corporation.

Procesado y reconocimiento del Lenguaje Natural

Dificultades del reconocimiento

Los sistemas de reconocimiento se puede dividir en dos tipos principales. Sistemas de reconocimiento de patrones entrenados, éste compara los patrones con otros patrones ya conocidos y clasificados para determinar la similitud y por tanto el reconocimiento. Y por otro lado tenemos los Sistemas fonéticos que utilizan el conocimiento del cuerpo humano (la producción del habla y audición) para comparar las características del lenguaje (fonética, tales como sonidos de las vocales). Los sistemas más modernos se centran en el enfoque de reconocimiento de patrones, ya que combina muy bien con las técnicas de computación actual y tiende a tener una mayor precisión.

 
La variación inter-locutor en el nivel segmental: oscilograma de la palabra "Hola" pronunciada por un hablante femenino.
 
La variación inter-locutor en el nivel segmental: oscilograma de la palabra "Hola" pronunciada por un hablante masculino.

Aun así existen una serie de factores[3]​ que dificultan estos procesos, ya que influyen en el tratado de la señal y por tanto en el reconocimiento. Algunos de ellos son los siguientes:

  • La variación fonética inter-locutor e intra-locutor: La variación inter-locutor, da lugar a que cuando se está emitiendo una secuencia concreta de palabras, con el mismo estilo de habla, y sin diferencias geográficas o sociales, aun así existan variaciones en el lenguaje. Por otro lado la variación intra-locutor, estudia qué cambia en cada persona cuando habla espontáneamente o cuando lee.
  • Los estilos de habla: Entre todos los hablantes existe un amplio repertorio de estilos que puden modificar la inteligibilidad de la palabra. “El estilo depende del grado de atención del hablante hacia las características de su propia producción lingüística”(William Labov).
  • Las "disfluencias" en el habla espontánea: En este apartado podemos encontrar un amplio conjunto de variaciones que cambian la fluideza de la lingüística. Entre ellas encontramos las pausas, repeticiones, palabras truncadas, alargamientos vocálicos, interrupciones, frases inacabadas e incluso variaciones en la velocidad.
  • Las características del entorno: Por último tenemos el factor externo al locutor, y no por ello menos importante, debido a que las variaciones ambientales del entorno pueden entorpecer significativamente el procesado de la señal. En este caso nos encontramos con ruidos que pueden distorsionar o enmascarar, y cambios de sonido ambiente que pueden modificar la señal de forma transitoria.

Tratamiento de la señal

La implementación de un sistema de reconocimiento de lenguaje natural,[4]​ conlleva el tratamiento de la señal acústica, pasando por diferentes bloques que nos ayudarán a extraer las características necesarias para implementar el sistema. Este tratamiento lo podríamos resumir con los siguientes apartados:

1. El primer paso es la captura de la señal de voz. Se utiliza un micrófono que a través de un convertidor CAD(Conversor Analógico/Digital) convierte la señal acústica en una señal eléctrica, a la cual se le realiza la extracción de parámetros. En este paso existe una dificultad añadida, provocada por la no linealidad y perdida de frecuencias introducido por el sistema micrófono/convertidor.

 
Diagrama de bloques de un sistema de reconocimiento de lenguaje natural

2. La siguiente etapa es la segmentación y el etiquetado, aquí el sistema intenta encontrar las regiones estables donde las características son constantes. Uno de las técnicas más utilizadas es la utilización de solapamiento entre el enventanado, para evitar dejar parte de señal sin analizar. En este nivel además se suelen aplicar filtros de normalización y pre-énfasis, con los cuales se prepara la señal para ser procesada.

3. En tercer lugar se realiza el cálculo de parámetros, lo que proporciona una representación espectral de las características de la señal de voz que podemos utilizar para entrenar el sistema de reconocimiento (HMM, Redes neuronales, entre otros). Los métodos más comunes en esta etapa son el análisis de banco de filtros y LPC. Para el cálculo de coeficientes que caracterizan la señal se sigue un patrón de bloques estandarizado por la ETSI.

Tipos de reconocimiento de voz

Los sistemas de reconocimiento de voz se pueden separar en varias clases, categorizados por la descripción de los diferentes tipos de expresiones que tienen la capacidad de reconocer. Estas clases se basan en el hecho de que una de las dificultades del ASR es la capacidad de determinar cuando un locutor comienza y termina de hablar. A continuación se nombran los tipos más distinguidos:

  • Reconocedores de palabras aisladas por lo general requieren un enunciado delimitado (la falta de una señal de audio) a ambos lados de la ventana de muestra. Esto no quiere decir que acepta una sola palabra, pero sí que requiere una expresión única a la vez. A menudo, estos sistemas tienen estados de "Escuchar / No-Escuchar", donde se requiere que el locutor guarde un tiempo de espera entre palabras (por lo general hace el procesamiento durante las pausas).
  • Sistemas de palabra conectada( "expresiones conectadas ') son similares a las palabras aisladas, pero a diferencia éste también permite expresiones por separado con una pausa mínima entre ellas.
  • Reconocimiento continuo son los más difíciles de crear porque deben utilizar métodos especiales para determinar los límites de emisión. Los reconocedores de voz continua permiten a los usuarios hablar casi de manera natural, mientras que la computadora determina el contenido.
  • Habla espontánea, existe una variedad de definiciones de lo que habla espontánea es en realidad. En un nivel básico, se puede considerar como el discurso que suena natural y no ensayado. Un sistema de ASR con la capacidad de reconocer el habla espontánea debe ser capaz de manejar una variedad de características de lenguaje natural.
  • Voz de verificación/identificación, algunos sistemas de reconocimiento automático del habla tienen la capacidad de identificar a los usuarios específicos. Este tipo de reconocimiento se basa principalmente en características concretas extraídas del sujeto a verificar o identificar. Característiques como la amplitud de la señal, la frecuencia y los coeficientes cepstrales de la escala Mel.

Objetivos

La interfaz de lenguaje natural en el pasado dio lugar a los usuarios que querían antropomorfizar sus equipos, o al menos atribuir más inteligencia que la que garantizan. Esto conduce a expectativas poco realistas de las capacidades del sistema por parte del usuario. Tales expectativas hacen difícil aprender las restricciones del sistema, y si ellos les atribuyen un exceso de capacidad, esto dará lugar a la decepción cuando el sistema no funcione como se espera.

Existe un documento de 1995 titulado "Natural Language Interfaces to Databases – An Introduction'", en el cual se describen algunos de los retos más significativos:

  • Modificador de unión

La pregunta de "Lista de todos los empleados de la empresa con un permiso de conducir" es ambiguo a menos que sepa que las compañías no pueden tener licencias de conducir.

  • Conjunción y disyunción

"Lista de todos los solicitantes que viven en California y Arizona." Es ambiguo a menos que se sepa que una persona no puede vivir en dos lugares a la vez.

Resuelve lo que un usuario quiere decir por el 'él', 'ella' o 'esto', en una consulta auto-referencial

Otros objetivos a tener en cuenta de forma más general son la velocidad y eficiencia del sistema interfaz, como en cualquier otro algoritmo estos dos puntos son los que determinarán que unas técnicas sean mejores que otras y por tanto que tengan mayor éxito en el mercado.

Por último, respecto a las técnicas utilizadas, el principal problema a resolver es el de crear un algoritmo general que pueda reconocer todos los tipos de voces, sin diferenciar entre nacionalidad, sexo o edad. Ya que pueden existir diferencias significativas entre las características extraídas a varios locutores que pronuncian la misma palabra o frase.

Utilidades y Aplicaciones

La interfaz de lenguaje natural y su reconocimiento con resultados satisfactorios, dan lugar a que esta tecnología pueda ser utilizada para diferentes usos y aplicaciones. Algunos de los principales usos son:

  • Dictado , éste es el uso más común para los sistemas de ASR en la actualidad. Esto incluye transcripciones médicas, dictados legales y comerciales, así como procesamiento de textos en general.
  • Aplicaciones de mando y control, éstos sistemas están diseñados para realizar funciones y acciones, un ejemplo sería la telefonía.
  • Medicina y discapacidad, muchas personas tienen dificultades para escribir, debido a limitaciones físicas, la distrofia muscular, y muchos otros. Por ejemplo, las personas con problemas auditivos pueden usar un sistema conectado a su teléfono para convertir el discurso de la persona que llama en texto.
  • Aplicaciones integradas, algunos teléfonos móviles más modernos incluyen reconocimiento de voz que permiten expresiones como "Call Home". Esto podría significar un factor importante en el futuro de las interfaces del reconocimiento de lenguaje natural.

A continuación se nombran y definen algunas de las aplicaciones que utilizan el reconocimiento de lenguaje natural, y por tanto tienen integradas las utilidades nombradas anteriormente.

Ubiquity

Ubiquity, es una extensión para Mozilla Firefox, compuesto por una colección de lenguaje natural derivado de fácil y rápidos comandos que actúan como mashups de servicios web, permitiendo a los usuarios obtener información y relacionarla con la actual u otras páginas web.

Wolfram Alpha

Wolfram Alpha, es un servicio en línea que responde a las consultas directamente mediante un cálculo de la respuesta a partir de datos estructurados, en lugar de proporcionar una lista de documentos o páginas web que podrían contener la respuesta como un motor de búsqueda.[5]​ Fue anunciado en marzo de 2009 por Stephen Wolfram, y fue lanzado al público el 15 de mayo de 2009.[6]

Siri

Siri, es una aplicación de asistente personal para iPhone OS.[7]​ La aplicación utiliza el procesamiento del lenguaje natural para responder a las preguntas y hacer recomendaciones. La aplicación para el iPhone es el primer producto publicado por sus creadores, que se centra en aplicaciones de inteligencia artificial. El grupo de marketing de la compañía asegura que Siri se adapta a las preferencias individuales del usuario a través del tiempo y personaliza los resultados, para completar tareas como hacer una reserva para una cena.[8]

Otras

  • Anboto Group- Anboto ofrece servicio Web al cliente y tecnología de comercio electrónico basado en la semántica y el Procesamiento del Lenguaje Natural. La oferta principal de Anboto es el agente de ventas virtual y chat inteligente.
  • Q-go-La tecnología de Q-go ofrece respuestas relevantes a los usuarios, en respuesta a las consultas en el sitio web de Internet de la empresa o la intranet corporativa, formulada en frases naturales o la entrada de palabras clave por igual. Q-go fue adquirida por RightNow Technologies en 2011.
  • Ask.com- La idea original detrás de Ask Jeeves (Ask.com) es permitir a los usuarios obtener respuestas a las preguntas formuladas en el lenguaje cotidiano, natural, así como la búsqueda de palabras clave tradicionales. El Ask.com actual sigue apoyando esto, con soporte añadido para las matemáticas, diccionario, y las preguntas de la conversión.
  • C-phrase- C-frase es un lenguaje natural que se basa en la relación de bases de datos. C-Frase corre bajo Linux, se conecta con bases de datos PostgreSQL a través de ODBC y es compatible con las consultas de selección, así como actualizaciones. Actualmente sólo hay apoyo para Inglés. C-Frase encuentra alojada en el sitio Google Code.
 
Captura de pantalla de la interfaz clásica de GNOME DO.
  • GNOME Do - Permite la rápida búsqueda de artefactos diversos del ambiente GNOME (aplicaciones, contactos Evolution y Pidgin, marcadores de Firefox, los artistas y los álbumes de Rhythmbox, y así sucesivamente) y ejecuta las acciones básicas sobre ellos (ejecución, apertura, correo electrónico, chatear, jugar, etc).[9]
  • Braina Project - Braina es un software con interfaz de usuario de lenguaje natural que está actualmente en fase de desarrollo. Está siendo desarrollado por un solo programador llamado Akash Shastri. El objetivo principal de este proyecto es hacer que un equipo pueda entender el lenguaje humano para que el usuario pueda controlar una computadora sin el uso de comandos.
  • Hakia - Hakia es un motor de búsqueda de Internet. La empresa ha inventado una infraestructura nueva, alternativa a la indexación que utiliza el algoritmo SemanticRank, una solución que mezcla las disciplinas de la semántica ontológica, la lógica difusa, la lingüística computacional, y las matemáticas.
  • Lexxe - Lexxe es un buscador de Internet que utiliza el procesamiento del lenguaje natural para consultas (búsquedas semánticas). Las búsquedas pueden hacerse con preguntas tales como "¿Qué edad tiene la Wikipedia?", Así como palabras clave y frases. Cuando se trata de hechos, Lexxe es muy eficaz, aunque necesita mejorar mucho en el análisis del lenguaje natural cuando se trata de hechos.
  • Pikimal - Pikimal usa lenguaje natural vinculado a las preferencias del usuario para hacer recomendaciones de búsqueda por plantilla.
  • Powerset - El 11 de mayo de 2008, la compañía presentó una herramienta para la búsqueda de un subconjunto fijo de Wikipedia usando frases de conversación en lugar de palabras clave.[10]​ El 1 de julio de 2008, fue comprado por Microsoft.[11]
  • Semantycs Es un motor sermántico inteligente especializado en la interacción natural en temas específicos de atención al cliente, comercio electrónico e identificación de sentimientos.
  • START (Proyecto del MIT) - START, web basada en un sistema de respuestas. A diferencia de los sistemas de recuperación de información, tales como los motores de búsqueda, START tiene como objetivo facilitar a los usuarios "la información correcta", en lugar de limitarse a proporcionar una lista de hits. En la actualidad, el sistema puede responder millones de preguntas Inglesas acerca de lugares, películas, personas y definiciones del diccionario.
  • - Swingly es un motor de respuesta diseñado para encontrar respuestas exactas a preguntas sobre los hechos. Sólo es necesario hacer una pregunta en inglés - y Swingly podrá encontrar la respuesta (o respuestas) que está buscando (de acuerdo al sitio en el que se encuentra).
  • Yebol - Yebol es una “decisión” vertical de motor de búsqueda, que habían desarrollado con una base de conocimiento, para crear una plataforma de búsqueda semántica. La inteligencia artificial humana de Yebol automáticamente utiliza la asociación, clasificación y agrupamiento de algoritmos para analizar las palabras claves relacionadas o páginas web. Yebol integra el procesamiento del lenguaje natural, sistemas de ingeniería abiertos y complejos de metasynthetic, y los algoritmos de la máquina con el conocimiento humano de cada consulta para establecer un directorio web que en realidad "aprende" el uso de algoritmos de correlación, el agrupamiento y la clasificación para generar automáticamente la consulta, que se mantiene y se regenera.[12]
  • Inbenta – El motor de búsqueda Inbenta es multilingüe, escalable, lingüístico y de semántica basada en el campo empresarial. Se basa en los últimos desarrollos de la Teoría Significado-Texto y proporciona experiencias intuitivas de búsqueda en lenguaje natural.
  • Mnemoo - Mnemoo es un motor de respuesta que tuvo como objetivo responder directamente las preguntas planteadas en el texto (lenguaje natural), el cual se logra utilizando una base de datos de los hechos y un motor de inferencia(conclusión).

Véase también

Referencias

  1. Hill, I. (1983). "Natural language versus computer language." In M. Sime and M. Coombs (Eds.) Designing for Human-Computer Communication. Academic Press., p. 1.
  2. Hill,Natural Language Interfaces to Databases – An Introduction, I. Androutsopoulos, G.D. Ritchie, P. Thanisch, Department of Artificial Intelligence, University of Edinburgh.
  3. http://liceu.uab.es/~joaquim/speech_technology/tecnol_parla/recognition/speech_recognition/reconocimiento.html#reconocimiento_tratamiento_senal
  4. http://www.tldp.org/HOWTO/Speech-Recognition-HOWTO/
  5. Johnson, Bobbie (9 de marzo de 2009). «British search engine 'could rival Google'». The Guardian. Consultado el 9 de marzo de 2009. 
  6. «So Much for A Quiet Launch». Wolfram Alpha Blog. 8 de mayo de 2009. Consultado el 20 de octubre de 2009. 
  7. SIRI Article
  8. . Archivado desde el original el 31 de octubre de 2011. Consultado el 4 de diciembre de 2011. 
  9. Ubuntu 10.04 Add/Remove Applications description for GNOME Do
  10. Helft, Miguel (12 de mayo de 2008). «Powerset Debuts With Search of Wikipedia». The New York Times. 
  11. Johnson, Mark (1 de julio de 2008). . Powerset Blog. Archivado desde el original el 25 de febrero de 2009. 
  12. Humphries, Matthew. "Yebol.com steps into the search market" Geek.com. 31 July 2009.

Enlaces externos

  • History of Search Engines
  • Human Language Interface
  •   Datos: Q3816772

interfaz, usuario, lenguaje, natural, interfaces, usuario, lenguaje, natural, tipo, interfaz, usuario, permite, comunicación, entre, humanos, máquinas, donde, fenómenos, lingüísticos, como, verbos, frases, cláusulas, actúan, como, controles, interfaz, usuario,. Interfaces de Usuario de Lenguaje Natural son un tipo de interfaz de usuario que permite la comunicacion entre humanos y maquinas donde los fenomenos linguisticos como los verbos frases y clausulas actuan como controles de la interfaz de usuario para crear seleccionar y modificar datos en las aplicaciones de software En el diseno de la interfaz de lenguaje natural las interfaces son buscadas por su velocidad y facilidad de uso pero ademas hay factores como la comprension que anaden una dificultad significativa ya que podemos encontrar entradas ambiguas en el sistema 1 Las interfaces de lenguaje natural componen un area activa de estudio en el campo del procesamiento del lenguaje natural y la linguistica computacional Una intuitiva interfaz de lenguaje natural en general es uno de los grandes objetivos activos de la Web Semantica Es importante tener en cuenta que las interfaces de texto son naturales en diversos grados y que muchos lenguajes de programacion formal no natural incorporan idiomas de lenguaje natural humano Del mismo modo un motor tradicional de busqueda de palabras clave podria ser descrito como una interfaz de usuario de la lengua natural superficial Indice 1 Descripcion 2 Historia 3 Procesado y reconocimiento del Lenguaje Natural 3 1 Dificultades del reconocimiento 3 2 Tratamiento de la senal 3 3 Tipos de reconocimiento de voz 4 Objetivos 5 Utilidades y Aplicaciones 5 1 Ubiquity 5 2 Wolfram Alpha 5 3 Siri 5 4 Otras 6 Vease tambien 7 Referencias 8 Enlaces externosDescripcion EditarUn motor de busqueda de lenguaje natural en teoria deberia encontrar respuestas a preguntas especificas del usuario en lugar de buscar por las palabras claves contenidas en la pregunta Por ejemplo cuando se realiza una pregunta como por ejemplo Que Estado de EE UU tiene el impuesto de renta mas alto Los motores de busqueda convencionales ignoran el problema y realizan una busqueda con las palabras clave Estado renta e impuesto La busqueda en lenguaje natural por otro lado intenta utilizar el procesamiento del lenguaje natural para comprender la naturaleza de la pregunta y luego busca y devuelve un subconjunto web que contiene la respuesta a la pregunta Si funciona los resultados tendrian una relevancia mayor que los resultados de un motor de busqueda por palabra clave Desde un punto de vista comercial la publicidad en la pagina de resultados tambien podria ser mas relevante y podria tener un potencial de ingresos mas alto que el de los motores de busqueda por palabra clave Historia EditarA lo largo de la historia los lenguajes naturales han ido evolucionando de forma paralela al desarrollo y evolucion de la especie humana En los ultimos anos las aplicaciones disenadas han intentado promover la comunicacion entre humanos y maquinas por lo que se han incluido tecnicas de reconocimiento de voz Hoy en dia el campo del reconocimiento de lenguaje natural esta trabajando para mejorar los resultados superando las diferentes dificultades que se comentan mas adelante Los primeros contactos con la interfaz de usuario de lenguaje natural datan de los anos sesenta y setenta de la mano del prototipo NI 2 Lunar una interfaz de lenguaje natural en conexion a una base de datos con analisis quimicos de las rocas lunares de Apolo 11 por William A Woods Chat 80 transforma preguntas en ingles en expresiones Prolog las cuales fueron evaluados en relacion con la base de datos Prolog El codigo de la charla 80 fue ampliamente difundido y formo la base de muchas otras interfaces experimentales Nl Janus es tambien uno de los pocos sistemas de apoyo a las cuestiones temporales Intellect de Trinzic formado por la fusion de AICorp y Aion Bbn s Parlance construido sobre la experiencia del desarrollo de los sistemas Rus e Irus IBM Languageaccess Q amp A de Symantec Datatalker de Natural Language Inc Loqui de Bim English Wizard de Linguistic Technology Corporation Procesado y reconocimiento del Lenguaje Natural EditarDificultades del reconocimiento Editar Los sistemas de reconocimiento se puede dividir en dos tipos principales Sistemas de reconocimiento de patrones entrenados este compara los patrones con otros patrones ya conocidos y clasificados para determinar la similitud y por tanto el reconocimiento Y por otro lado tenemos los Sistemas foneticos que utilizan el conocimiento del cuerpo humano la produccion del habla y audicion para comparar las caracteristicas del lenguaje fonetica tales como sonidos de las vocales Los sistemas mas modernos se centran en el enfoque de reconocimiento de patrones ya que combina muy bien con las tecnicas de computacion actual y tiende a tener una mayor precision La variacion inter locutor en el nivel segmental oscilograma de la palabra Hola pronunciada por un hablante femenino La variacion inter locutor en el nivel segmental oscilograma de la palabra Hola pronunciada por un hablante masculino Aun asi existen una serie de factores 3 que dificultan estos procesos ya que influyen en el tratado de la senal y por tanto en el reconocimiento Algunos de ellos son los siguientes La variacion fonetica inter locutor e intra locutor La variacion inter locutor da lugar a que cuando se esta emitiendo una secuencia concreta de palabras con el mismo estilo de habla y sin diferencias geograficas o sociales aun asi existan variaciones en el lenguaje Por otro lado la variacion intra locutor estudia que cambia en cada persona cuando habla espontaneamente o cuando lee Los estilos de habla Entre todos los hablantes existe un amplio repertorio de estilos que puden modificar la inteligibilidad de la palabra El estilo depende del grado de atencion del hablante hacia las caracteristicas de su propia produccion linguistica William Labov Las disfluencias en el habla espontanea En este apartado podemos encontrar un amplio conjunto de variaciones que cambian la fluideza de la linguistica Entre ellas encontramos las pausas repeticiones palabras truncadas alargamientos vocalicos interrupciones frases inacabadas e incluso variaciones en la velocidad Las caracteristicas del entorno Por ultimo tenemos el factor externo al locutor y no por ello menos importante debido a que las variaciones ambientales del entorno pueden entorpecer significativamente el procesado de la senal En este caso nos encontramos con ruidos que pueden distorsionar o enmascarar y cambios de sonido ambiente que pueden modificar la senal de forma transitoria Tratamiento de la senal Editar La implementacion de un sistema de reconocimiento de lenguaje natural 4 conlleva el tratamiento de la senal acustica pasando por diferentes bloques que nos ayudaran a extraer las caracteristicas necesarias para implementar el sistema Este tratamiento lo podriamos resumir con los siguientes apartados 1 El primer paso es la captura de la senal de voz Se utiliza un microfono que a traves de un convertidor CAD Conversor Analogico Digital convierte la senal acustica en una senal electrica a la cual se le realiza la extraccion de parametros En este paso existe una dificultad anadida provocada por la no linealidad y perdida de frecuencias introducido por el sistema microfono convertidor Diagrama de bloques de un sistema de reconocimiento de lenguaje natural 2 La siguiente etapa es la segmentacion y el etiquetado aqui el sistema intenta encontrar las regiones estables donde las caracteristicas son constantes Uno de las tecnicas mas utilizadas es la utilizacion de solapamiento entre el enventanado para evitar dejar parte de senal sin analizar En este nivel ademas se suelen aplicar filtros de normalizacion y pre enfasis con los cuales se prepara la senal para ser procesada 3 En tercer lugar se realiza el calculo de parametros lo que proporciona una representacion espectral de las caracteristicas de la senal de voz que podemos utilizar para entrenar el sistema de reconocimiento HMM Redes neuronales entre otros Los metodos mas comunes en esta etapa son el analisis de banco de filtros y LPC Para el calculo de coeficientes que caracterizan la senal se sigue un patron de bloques estandarizado por la ETSI Tipos de reconocimiento de voz Editar Los sistemas de reconocimiento de voz se pueden separar en varias clases categorizados por la descripcion de los diferentes tipos de expresiones que tienen la capacidad de reconocer Estas clases se basan en el hecho de que una de las dificultades del ASR es la capacidad de determinar cuando un locutor comienza y termina de hablar A continuacion se nombran los tipos mas distinguidos Reconocedores de palabras aisladas por lo general requieren un enunciado delimitado la falta de una senal de audio a ambos lados de la ventana de muestra Esto no quiere decir que acepta una sola palabra pero si que requiere una expresion unica a la vez A menudo estos sistemas tienen estados de Escuchar No Escuchar donde se requiere que el locutor guarde un tiempo de espera entre palabras por lo general hace el procesamiento durante las pausas Sistemas de palabra conectada expresiones conectadas son similares a las palabras aisladas pero a diferencia este tambien permite expresiones por separado con una pausa minima entre ellas Reconocimiento continuo son los mas dificiles de crear porque deben utilizar metodos especiales para determinar los limites de emision Los reconocedores de voz continua permiten a los usuarios hablar casi de manera natural mientras que la computadora determina el contenido Habla espontanea existe una variedad de definiciones de lo que habla espontanea es en realidad En un nivel basico se puede considerar como el discurso que suena natural y no ensayado Un sistema de ASR con la capacidad de reconocer el habla espontanea debe ser capaz de manejar una variedad de caracteristicas de lenguaje natural Voz de verificacion identificacion algunos sistemas de reconocimiento automatico del habla tienen la capacidad de identificar a los usuarios especificos Este tipo de reconocimiento se basa principalmente en caracteristicas concretas extraidas del sujeto a verificar o identificar Caracteristiques como la amplitud de la senal la frecuencia y los coeficientes cepstrales de la escala Mel Objetivos EditarLa interfaz de lenguaje natural en el pasado dio lugar a los usuarios que querian antropomorfizar sus equipos o al menos atribuir mas inteligencia que la que garantizan Esto conduce a expectativas poco realistas de las capacidades del sistema por parte del usuario Tales expectativas hacen dificil aprender las restricciones del sistema y si ellos les atribuyen un exceso de capacidad esto dara lugar a la decepcion cuando el sistema no funcione como se espera Existe un documento de 1995 titulado Natural Language Interfaces to Databases An Introduction en el cual se describen algunos de los retos mas significativos Modificador de unionLa pregunta de Lista de todos los empleados de la empresa con un permiso de conducir es ambiguo a menos que sepa que las companias no pueden tener licencias de conducir Conjuncion y disyuncion Lista de todos los solicitantes que viven en California y Arizona Es ambiguo a menos que se sepa que una persona no puede vivir en dos lugares a la vez Resolucion de la anaforaResuelve lo que un usuario quiere decir por el el ella o esto en una consulta auto referencialOtros objetivos a tener en cuenta de forma mas general son la velocidad y eficiencia del sistema interfaz como en cualquier otro algoritmo estos dos puntos son los que determinaran que unas tecnicas sean mejores que otras y por tanto que tengan mayor exito en el mercado Por ultimo respecto a las tecnicas utilizadas el principal problema a resolver es el de crear un algoritmo general que pueda reconocer todos los tipos de voces sin diferenciar entre nacionalidad sexo o edad Ya que pueden existir diferencias significativas entre las caracteristicas extraidas a varios locutores que pronuncian la misma palabra o frase Utilidades y Aplicaciones EditarLa interfaz de lenguaje natural y su reconocimiento con resultados satisfactorios dan lugar a que esta tecnologia pueda ser utilizada para diferentes usos y aplicaciones Algunos de los principales usos son Dictado este es el uso mas comun para los sistemas de ASR en la actualidad Esto incluye transcripciones medicas dictados legales y comerciales asi como procesamiento de textos en general Aplicaciones de mando y control estos sistemas estan disenados para realizar funciones y acciones un ejemplo seria la telefonia Medicina y discapacidad muchas personas tienen dificultades para escribir debido a limitaciones fisicas la distrofia muscular y muchos otros Por ejemplo las personas con problemas auditivos pueden usar un sistema conectado a su telefono para convertir el discurso de la persona que llama en texto Aplicaciones integradas algunos telefonos moviles mas modernos incluyen reconocimiento de voz que permiten expresiones como Call Home Esto podria significar un factor importante en el futuro de las interfaces del reconocimiento de lenguaje natural A continuacion se nombran y definen algunas de las aplicaciones que utilizan el reconocimiento de lenguaje natural y por tanto tienen integradas las utilidades nombradas anteriormente Ubiquity Editar Ubiquity es una extension para Mozilla Firefox compuesto por una coleccion de lenguaje natural derivado de facil y rapidos comandos que actuan como mashups de servicios web permitiendo a los usuarios obtener informacion y relacionarla con la actual u otras paginas web Wolfram Alpha Editar Wolfram Alpha es un servicio en linea que responde a las consultas directamente mediante un calculo de la respuesta a partir de datos estructurados en lugar de proporcionar una lista de documentos o paginas web que podrian contener la respuesta como un motor de busqueda 5 Fue anunciado en marzo de 2009 por Stephen Wolfram y fue lanzado al publico el 15 de mayo de 2009 6 Siri Editar Siri es una aplicacion de asistente personal para iPhone OS 7 La aplicacion utiliza el procesamiento del lenguaje natural para responder a las preguntas y hacer recomendaciones La aplicacion para el iPhone es el primer producto publicado por sus creadores que se centra en aplicaciones de inteligencia artificial El grupo de marketing de la compania asegura que Siri se adapta a las preferencias individuales del usuario a traves del tiempo y personaliza los resultados para completar tareas como hacer una reserva para una cena 8 Otras Editar Anboto Group Anboto ofrece servicio Web al cliente y tecnologia de comercio electronico basado en la semantica y el Procesamiento del Lenguaje Natural La oferta principal de Anboto es el agente de ventas virtual y chat inteligente Q go La tecnologia de Q go ofrece respuestas relevantes a los usuarios en respuesta a las consultas en el sitio web de Internet de la empresa o la intranet corporativa formulada en frases naturales o la entrada de palabras clave por igual Q go fue adquirida por RightNow Technologies en 2011 Ask com La idea original detras de Ask Jeeves Ask com es permitir a los usuarios obtener respuestas a las preguntas formuladas en el lenguaje cotidiano natural asi como la busqueda de palabras clave tradicionales El Ask com actual sigue apoyando esto con soporte anadido para las matematicas diccionario y las preguntas de la conversion C phrase C frase es un lenguaje natural que se basa en la relacion de bases de datos C Frase corre bajo Linux se conecta con bases de datos PostgreSQL a traves de ODBC y es compatible con las consultas de seleccion asi como actualizaciones Actualmente solo hay apoyo para Ingles C Frase encuentra alojada en el sitio Google Code Captura de pantalla de la interfaz clasica de GNOME DO GNOME Do Permite la rapida busqueda de artefactos diversos del ambiente GNOME aplicaciones contactos Evolution y Pidgin marcadores de Firefox los artistas y los albumes de Rhythmbox y asi sucesivamente y ejecuta las acciones basicas sobre ellos ejecucion apertura correo electronico chatear jugar etc 9 Brainboost Ya no esta disponibleBraina Project Braina es un software con interfaz de usuario de lenguaje natural que esta actualmente en fase de desarrollo Esta siendo desarrollado por un solo programador llamado Akash Shastri El objetivo principal de este proyecto es hacer que un equipo pueda entender el lenguaje humano para que el usuario pueda controlar una computadora sin el uso de comandos Hakia Hakia es un motor de busqueda de Internet La empresa ha inventado una infraestructura nueva alternativa a la indexacion que utiliza el algoritmo SemanticRank una solucion que mezcla las disciplinas de la semantica ontologica la logica difusa la linguistica computacional y las matematicas Lexxe Lexxe es un buscador de Internet que utiliza el procesamiento del lenguaje natural para consultas busquedas semanticas Las busquedas pueden hacerse con preguntas tales como Que edad tiene la Wikipedia Asi como palabras clave y frases Cuando se trata de hechos Lexxe es muy eficaz aunque necesita mejorar mucho en el analisis del lenguaje natural cuando se trata de hechos Pikimal Pikimal usa lenguaje natural vinculado a las preferencias del usuario para hacer recomendaciones de busqueda por plantilla Powerset El 11 de mayo de 2008 la compania presento una herramienta para la busqueda de un subconjunto fijo de Wikipedia usando frases de conversacion en lugar de palabras clave 10 El 1 de julio de 2008 fue comprado por Microsoft 11 Semantycs Es un motor sermantico inteligente especializado en la interaccion natural en temas especificos de atencion al cliente comercio electronico e identificacion de sentimientos START Proyecto del MIT START web basada en un sistema de respuestas A diferencia de los sistemas de recuperacion de informacion tales como los motores de busqueda START tiene como objetivo facilitar a los usuarios la informacion correcta en lugar de limitarse a proporcionar una lista de hits En la actualidad el sistema puede responder millones de preguntas Inglesas acerca de lugares peliculas personas y definiciones del diccionario Swingly Swingly es un motor de respuesta disenado para encontrar respuestas exactas a preguntas sobre los hechos Solo es necesario hacer una pregunta en ingles y Swingly podra encontrar la respuesta o respuestas que esta buscando de acuerdo al sitio en el que se encuentra Yebol Yebol es una decision vertical de motor de busqueda que habian desarrollado con una base de conocimiento para crear una plataforma de busqueda semantica La inteligencia artificial humana de Yebol automaticamente utiliza la asociacion clasificacion y agrupamiento de algoritmos para analizar las palabras claves relacionadas o paginas web Yebol integra el procesamiento del lenguaje natural sistemas de ingenieria abiertos y complejos de metasynthetic y los algoritmos de la maquina con el conocimiento humano de cada consulta para establecer un directorio web que en realidad aprende el uso de algoritmos de correlacion el agrupamiento y la clasificacion para generar automaticamente la consulta que se mantiene y se regenera 12 Inbenta El motor de busqueda Inbenta es multilingue escalable linguistico y de semantica basada en el campo empresarial Se basa en los ultimos desarrollos de la Teoria Significado Texto y proporciona experiencias intuitivas de busqueda en lenguaje natural Mnemoo Mnemoo es un motor de respuesta que tuvo como objetivo responder directamente las preguntas planteadas en el texto lenguaje natural el cual se logra utilizando una base de datos de los hechos y un motor de inferencia conclusion Vease tambien EditarBusqueda de respuestas Seleccion basada en busqueda Busqueda semantica Web semantica Reconocimiento de voz Coeficientes MFCCReferencias Editar Hill I 1983 Natural language versus computer language In M Sime and M Coombs Eds Designing for Human Computer Communication Academic Press p 1 Hill Natural Language Interfaces to Databases An Introduction I Androutsopoulos G D Ritchie P Thanisch Department of Artificial Intelligence University of Edinburgh http liceu uab es joaquim speech technology tecnol parla recognition speech recognition reconocimiento html reconocimiento tratamiento senal http www tldp org HOWTO Speech Recognition HOWTO Johnson Bobbie 9 de marzo de 2009 British search engine could rival Google The Guardian Consultado el 9 de marzo de 2009 So Much for A Quiet Launch Wolfram Alpha Blog 8 de mayo de 2009 Consultado el 20 de octubre de 2009 SIRI Article Siri webpage Archivado desde el original el 31 de octubre de 2011 Consultado el 4 de diciembre de 2011 Ubuntu 10 04 Add Remove Applications description for GNOME Do Helft Miguel 12 de mayo de 2008 Powerset Debuts With Search of Wikipedia The New York Times Johnson Mark 1 de julio de 2008 Microsoft to Acquire Powerset Powerset Blog Archivado desde el original el 25 de febrero de 2009 Humphries Matthew Yebol com steps into the search market Geek com 31 July 2009 Enlaces externos EditarHistory of Search Engines Human Language Interface Datos Q3816772Obtenido de https es wikipedia org w index php title Interfaz de usuario de lenguaje natural amp oldid 124364847, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos