fbpx
Wikipedia

SLAM visual

El mapeo y localización simultáneos o SLAM es un problema general que permite a un robot móvil generar un mapa del entorno por medio de sensores, y ubicarse en él; y a un celular ubicarse en su entorno y producir imágenes de realidad aumentada. SLAM visual es una variante especializada de SLAM, en la que el sensor es una cámara o un conjunto de cámaras, y la comprensión del entorno requiere técnicas de visión artificial.

Estimación del movimiento de la cámara analizando las imágenes
SLAM visual indirecto, ORB-SLAM2.[1]​ A la izquierda dos versiones de la misma imagen: la esquina de un laboratorio. A la derecha se observa una vista superior de la nube de puntos del mapa. Se reconoce claramente la esquina del laboratorio y las dos paredes. La pirámide lila representa la localización de la cámara en el mapa.

Término

SLAM visual es una traducción aproximada del inglés visual SLAM donde el acrónimo SLAM (Simultaneous Localization And Mapping) ha cobrado significancia universal convirtiéndose en un nombre propio, de manera que se lo adopta como anglicismo y se lo prefiere frente a su versión traducida MYLS (Mapeo Y Localización Simultáneos) que nadie utiliza.

El término visual es una metonimia que se refiere al análisis de imágenes. Es una metonimia relativamente nueva, en las últimas dos décadas del siglo XX se usaba el término óptico (como en reconocimiento óptico de caracteres) para el mismo fin.

El acrónimo SLAM es un préstamo de la tecnología de la que deriva (Mapeo Y Localización Simultáneos), aunque en rigor en SLAM visual el mapeo y la localización no son simultáneos: son paralelos, no están sincronizados y sus cadencias son muy dispares. Desde los inicios en 2007 hubo intentos por imponer un acrónimo alternativo más preciso: PTAM,[2]​ que significa mapeo y rastreo en paralelo, pero no logró imponerse. Se concluye que SLAM visual es un nombre propio apartado de su significado literal.

Otros términos

En la literatura, especialmente en papers, se encuentran denominaciones alternativas en inglés, algunas ya en desuso:

  • visual SLAM
  • vSLAM
  • monocular SLAM
  • PTAM

Historia

2007

El proyecto iniciador de SLAM visual fue el publicado en el paper MonoSLAM[3]​ en 2007 de Andrew Davison, que describió el primer algoritmo capaz de realizar SLAM en tiempo real con las imágenes de una cámara. MonoSLAM es un acrónimo de monocular SLAM, que hace hincapié en el uso de una cámara única (monocular, contrario a estereoscopía) como único sensor. La PC requería GPU , la aplicación funcionaba como prueba de concepto pero era muy limitada para usos prácticos, pues rápidamente se quedaba sin memoria por lo que sólo podía mapear pequeñas habitaciones. Con posterioridad a la publicación y debido al creciente interés, Davidson compartió el código que se podía descargar desde su página.

En paralelo a MonoSLAM se desarrolló PTAM[2]​, publicado el mismo año apenas unos meses más tarde que MonoSLAM. Notablemente las implementaciones modernas de SLAM visual adoptan una estructura similar a la introducida por PTAM, y no emplean casi nada de MonoSLAM. Y aun así, MonoSLAM se hizo más famoso por el solo hecho de haber publicado primero. Esta forma de encarar el problema de SLAM visual recibió años más tarde el nombre de SLAM visual indirecto.

2010

El mismo laboratorio creador de MonoSLAM presentó DTAM: Dense Tracking and Mapping in Real-Time, el primer sistema directo que no se concentra en puntos sino que utiliza la imagen completa, denominando por oposición SLAM visual indirecto al resto de los sistemas.

2014 a 2017

En 2014 la Universidad Técnica de Munich (TUM) publicó LSD-SLAM[4]​, Large Scale Direct SLAM[5]​, iniciando la categoría SLAM visual semidirecto y marcando un hito histórico: fue el primer sistema capaz de ejecutarse en tiempo real en una PC sin GPU y de los primeros en publicar su código fuente como código abierto, lo que facilitó la instalación y prueba a miles de aficionados que popularizaron las posibilidades de SLAM visual. A partir de LSD-SLAM los sistemas de SLAM visual se abocarían al uso en tiempo real sin GPU en una PC y a publicar su código fuente abierto para conseguir el apoyo de la comunidad en su depuración y mejora.

ORB-SLAM[6]​ (2015) y ORB-SLAM2[7]​ (2017) publicados como código abierto y en sendos papers de Raúl Mur de la Universidad de Zaragoza marcaron el estado del arte. Con posterioridad muchos sistemas de SLAM visual se basarían en ORB-SLAM2.

En 2017 el mismo autor publicó Visual-inertial SLAM,[8]​ extendiendo ORB-SLAM2, para combinar cámara con IMU, uno de los primeros sistemas de la nueva categoría SLAM visual e inercial, y sin duda el más influyente.

Estado del arte en 2021

En 2017, a 10 años del proyecto iniciador MonoSLAM, el problema de SLAM visual se consideró resuelto. La cantidad de publicaciones y sistemas continúa en aumento, y se dedican refinamientos y mejoras incrementales por un lado, y a la exploración de un campo nuevo con el uso de deep learning.

ORB-SLAM2 y LSD-SLAM representan el estado del arte y son los grandes pilares de las categorías de sistemas indirecto y semidirecto . ORB-SLAM2 parece haber presentado mejor base para refinamientos y desarrollo de características superiores, y se usa como base para mejoras paulatinas, como lo demuestran ORB-SLAM3 (2021), SVDL (2019) y OpenVSLAM (2019), tres proyectos destacados entre muchos otros.

Sensores

Hay esencialmente 3 tipos de cámaras usadas en SLAM visual:

  • monocular: una sola cámara, tal como fue formulado el problema original
  • cámara estéreo: dos cámaras de pose conocida, típicamente paralelas y alineadas
  • cámara RGB-D: cámaras de profundidad, relevan un modelo 3D pero con baja resolución

Algunos sistemas complementan la cámara con un acelerómetro 3D, entrando en la categoría SLAM visual e inercial.

Además se usan 3 tipos de lente:

Los sistemas actuales suelen ser compatibles con todos los sensores y lentes y con el acelerómetro si está presente.

Aplicaciones

Si bien esta tecnología ha madurado en laboratorio, todavía tiene un largo camino para llegar a productos. Las principales aplicaciones son:

Características y limitantes de la tecnología

SLAM visual se originó con el objetivo de aplicarse en realidad aumentada, y las capacidades de los sistemas se demostraban sobre datasets de videos de ambientes pequeños y cerrados. En la medida que la tecnología fue madurando, sistemas más potentes que los originales comenzaron a demostrar sus capacidades sobre datasets de videos diseñados para odometría visual, con videos de recorridos largos en ámbitos abiertos, tales como caminatas por campus y circuitos urbanos en automóvil, lo que inició la exploración del uso de estos sistemas en navegación autónoma.

Los sistemas SLAM visuales tienen fuertes limitantes: requieren una escena visualmente estática, lo que implica que no tenga partes móviles ni cambios de iluminación. Las partes móviles interfieren con el proceso de mapeo. Los cambios de iluminación hacen irreconocibles los elementos mapeados. Los sistemas más modernos son robustos, diseñados para tolerar una porción de elementos visuales en movimiento siempre que no dominen la vista, y algún cambio de iluminación. Como consecuencia estos sistemas no son compatibles con estos tipos de escena:

  • escenas naturales, con pasto que crece y cambia su aspecto a lo largo de los días, y árboles cuyas ramas se mueven por el viento
  • ambientes con muebles que cambiarán de posición
  • no reconoce la misma escena de día y de noche

Por lo expuesto, estos sistemas funcionan mejor en ambientes artificiales (construidos por el hombre), usualmente en lugares cerrados con iluminación artificial. En cuanto a navegación autónoma se distingue su uso en ámbitos privados y en la vía pública. En ámbitos privados pequeños (casas y oficinas) o grandes (countries y establecimientos industriales) SLAM visual se tiene una aplicación experimental exitosa con drones y para robots móviles (AGV). En vía pública, más específicamente en automotores autónomos, SLAM visual puede incorporarse como un sistema accesorio, pero no se lo considera como sistema de navegación principal. Estos vehículos tienden a emplear otros sistemas de SLAM más confiables, pero que emplean sensores muchos más caros que las cámaras.

Categorías

A medida que se avanza en la investigación y desarrollo de SLAM visual, el problema se va especializando paulatinamente y surgen categorías no excluyentes que agrupan los diferentes abordajes.

  • SLAM
    • SLAM visual
      • SLAM visual directo
        • SLAM visual semidirecto
      • SLAM visual indirecto
      • SLAM visual e inercial
      • SLAM visual semántico
      • Spatial AI: Inteligencia artificial espacial


La taxonomía de SLAM visual está en permanente evolución y sus denominaciones cambiarán con el tiempo. Acrónimos y categorías suele ser sugeridos por los propios desarrolladores de estos sistemas, con distinto grado de adopción de parte de la comunidad involucrada. El uso de inteligencia artificial en SLAM visual abrió un campo de intensa investigación. El creador de SLAM visual Andrew Davison bautizó este campo como Spatial AI, pero la comunidad no ha adoptado esta denominación, aunque tampoco hay alternativas sugeridas. Con el tiempo se irán decantando ésta y otras categorías.

SLAM visual indirecto

A esta categoría pertenecen los proyectos fundacionales de SLAM visual, y continúa vigente. Los sistemas indirectos se denominan así porque entre la obtención de la imagen de la cámara y su integración con el mapa intercalan una etapa de detección de puntos singulares (también llamados keypoints o características). Estos puntos son luego incorporados al mapa. Un mapa de un sistema indirecto es una nube de puntos.

Por operar sobre puntos, esta categoría también recibe el nombre de SLAM visual de partículas., o también basado en características.

SLAM visual directo

Esta categoría corresponde a una tecnología más reciente que compite con la anterior. Emplea la imagen completa para producir un mapa de profundidad que se integra al mapa total del sistema. Su nombre proviene del hecho de evitar la detección de puntos singulares e incorporar al mapa directamente los píxeles de la imagen. Su principal ventaja reside en el hecho de aprovechar toda la información de la imagen. Su mayor desventaja es su lentitud, pues debe operar con cada uno de los píxeles.

LSD-SLAM introdujo con éxito el abordaje semidirecto, que reduce enormemente la cantidad de píxeles a considerar, convirtiéndose en el primer sistema SLAM visual directo que se ejecuta en tiempo real. Los sistemas semidirectos se concentran solamente en las zonas con alto gradiente de intensidad, que corresponden a los bordes de los elementos visuales presentes en la imagen. El argumento en favor de esta técnica sostiene que la mayor parte de la información de la imagen se encuentra en estos bordes, mientras que áreas lisas y sin texturas no contienen información relevante.

SLAM visual e inercial

A esta categoría pertenecen los sistemas que agregan a la cámara un sensor inercial (típicamente 6D: un acelerómetro 3D y un giróscopo 3D). Estos sensores son muy baratos y proporcionan información muy relevante al sistema. Entre otras cosas brindan métrica (los sistemas monoculares no tienen noción de la escala del mapa en términos reales) y referencia vertical (los acelerómetros distinguen el vector gravedad, que marca la vertical). Si además el sensor cuenta con magnetómetro, usado como brújula completa la orientación del mapa en términos reales.

SLAM visual semántico

La semántica es una capa de nivel superior que brinda significado a los elementos visuales. Un sistema de SLAM visual se beneficia de poder identificar objetos como puertas, ventanas y muebles, que le permiten comprender aspectos complementarios de la escena que observan y del mapa que están relevando.

La semántica usualmente se obtiene con redes neuronales convolucionales, lo que suele enmarcar esta categoría dentro de Inteligencia artificial espacial,

Inteligencia artificial espacial

Andrew Davison bautizó Spatial AI[11]​ a una nueva categoría que intenta resolver el problema de SLAM visual con aprendizaje profundo. Mientras que en 2021 los abordajes directo e indirecto se consideran maduros, el uso de aprendizaje profundo está en pleno auge, y todavía no ha alcanzado la velocidad de procesamiento ni la precisión de los otros. Sin embargo promete contribuir con características avanzadas que los sistemas clásicos no pueden tener.

Esta categoría se encuentra en desarrollo intenso y se está dividiendo en varias ramas especializadas.

En rigor, la naturaleza de las redes convolucionales utilizadas impiden categorizar estos sistemas en directos o indirectos.

Partes de un sistema de SLAM visual

SLAM visual es un problema complejo, en el sentido que consta de varias partes de tecnología diversa. Los sistemas vigentes incorporan muchas de estas partes, pero no todas necesariamente:

  • Inicialización
  • Mapeo y localización en paralelo
  • Localización sin mapeo
  • Relocalización
  • Cierre de bucle
  • Fusión de mapas
  • Sacrificio de elementos redundantes (map culling)

Tecnologías involucradas

SLAM visual es un problema extremadamente complejo, que requiere el uso experto de una larga serie de tecnologías diversas que combinan geometría, informática, visión artificial y optimización numérica. Éste es un resumen no exhaustivo:

Tecnologías emparentadas

SLAM visual guarda estrecha relación con otras tecnologías similares pero con propósito diverso, entre ellas:

Sistemas de SLAM visual

Alrededor de 2014 se hizo costumbre acompañar las publicaciones de papers de SLAM visual, con código abierto disponible usualmente en GitHub y para Linux. Es inviable confeccionar una lista exhaustiva de todos los sistemas de SLAM visual, a continuación se listan los más destacados.

Sistema Año Sitio web Método Cámaras y sensores Código Video
MonoSLAM 2007 indirecto monocular doc.ic.ac.uk

MatLab

PTAM 2007 robots.ox.ac.uk indirecto monocular github.com youtube.com
PTAMM 2008 robots.ox.ac.uk indirecto monocular youtube.com
DTAM 2011 directo monocular
LSD-SLAM 2014 vision.in.tum.de semidirecto monocular github.com

Linux

youtube.com
LSD-SLAM stereo 2015 vision.in.tum.de semidirecto estéreo youtube.com
LSD-SLAM omnidireccional 2015 vision.in.tum.de semidirecto gran angular

omnidireccional

youtube.com
ORB-SLAM 2015 webdiis.unizar.es indirecto monocular github.com

Linux

ORB-SLAM2 2017 webdiis.unizar.es indirecto monocular

estéreo

RGB-D

github.com

Linux

youtube.com
Visual-Inertial Monocular SLAM With Map Reuse 2017 indirecto monocular

IMU

youtube.com
OpenVSLAM 2019 readthedocs.io Indirecto monocular

gran angular

omnidireccional

estéreo

RGB-D

IMU

github.com

Linux

Windows

Mac

youtube.com
SVDL 2019 indirecto

semidirecto

github.com youtube.com
Visual-Inertial Mapping with Non-Linear Factor Recovery 2020 vision.in.tum.de indirecto monocular

IMU

github.com youtube.com
ORB-SLAM3 2021 Indirecto monocular

gran angular

omnidireccional

estéreo

RGB-D

IMU

github.com

Linux

youtube.com

Los primeros sistemas de SLAM visual se hicieron sobre MatLab. Al poco tiempo buscando eficiencia computacional los sistemas se comenzaron a desarrollar en C++, el lenguaje que domina la escena en la actualidad. La gran mayoría de los desarrollos se realizan sobre Linux, el código abierto se comparte para ser compilado. Con la permanente evolución de WSL nuevos sistemas de SLAM visual comienzan a incluir instrucciones para instalación en Windows.

Muchos de estos sistemas funcionan en tiempo real en una PC sin necesidad de acelerar con GPU, pero hasta 2021 ninguno se logró ejecutar en tiempo real en un celular. Algunos, como el caso de LSD-SLAM, presentan una versión limitada para celular, típicamente con capacidad de localización pero no de mapeo.

Enlaces externos

  • OpenSLAM, sitio web con código y herramientas de SLAM visual

Referencias

  1. «Video de donde se obtuvo la imagen de ORB-SLAM2». 
  2. «Sitio web de PTAM». 
  3. «Paper de MonoSLAM». 
  4. «Sitio de LSD-SLAM del grupo de visión artificial de TUM». 
  5. «Video de LSD-SLAM». 
  6. «Sitio del proyecto ORB-SLAM». 
  7. «Video de ORB-SLAM2». 
  8. «Paper de Visual-Inertial Monocular SLAM with Map Reuse». 
  9. «Video de dron autónomo con LSD-SLAM». 
  10. «Video de realidad aumentada con ORB-SLAM2». 
  11. «FutureMapping: The Computational Structure of Spatial AI Systems». 
  •   Datos: Q104724151

slam, visual, mapeo, localización, simultáneos, slam, problema, general, permite, robot, móvil, generar, mapa, entorno, medio, sensores, ubicarse, celular, ubicarse, entorno, producir, imágenes, realidad, aumentada, variante, especializada, slam, sensor, cámar. El mapeo y localizacion simultaneos o SLAM es un problema general que permite a un robot movil generar un mapa del entorno por medio de sensores y ubicarse en el y a un celular ubicarse en su entorno y producir imagenes de realidad aumentada SLAM visual es una variante especializada de SLAM en la que el sensor es una camara o un conjunto de camaras y la comprension del entorno requiere tecnicas de vision artificial Estimacion del movimiento de la camara analizando las imagenes SLAM visual indirecto ORB SLAM2 1 A la izquierda dos versiones de la misma imagen la esquina de un laboratorio A la derecha se observa una vista superior de la nube de puntos del mapa Se reconoce claramente la esquina del laboratorio y las dos paredes La piramide lila representa la localizacion de la camara en el mapa Indice 1 Termino 1 1 Otros terminos 2 Historia 2 1 2007 2 2 2010 2 3 2014 a 2017 2 4 Estado del arte en 2021 3 Sensores 4 Aplicaciones 4 1 Caracteristicas y limitantes de la tecnologia 5 Categorias 5 1 SLAM visual indirecto 5 2 SLAM visual directo 5 3 SLAM visual e inercial 5 4 SLAM visual semantico 5 5 Inteligencia artificial espacial 6 Partes de un sistema de SLAM visual 6 1 Tecnologias involucradas 6 2 Tecnologias emparentadas 7 Sistemas de SLAM visual 8 Enlaces externos 9 ReferenciasTermino EditarSLAM visual es una traduccion aproximada del ingles visual SLAM donde el acronimo SLAM Simultaneous Localization And Mapping ha cobrado significancia universal convirtiendose en un nombre propio de manera que se lo adopta como anglicismo y se lo prefiere frente a su version traducida MYLS Mapeo Y Localizacion Simultaneos que nadie utiliza El termino visual es una metonimia que se refiere al analisis de imagenes Es una metonimia relativamente nueva en las ultimas dos decadas del siglo XX se usaba el termino optico como en reconocimiento optico de caracteres para el mismo fin El acronimo SLAM es un prestamo de la tecnologia de la que deriva Mapeo Y Localizacion Simultaneos aunque en rigor en SLAM visual el mapeo y la localizacion no son simultaneos son paralelos no estan sincronizados y sus cadencias son muy dispares Desde los inicios en 2007 hubo intentos por imponer un acronimo alternativo mas preciso PTAM 2 que significa mapeo y rastreo en paralelo pero no logro imponerse Se concluye que SLAM visual es un nombre propio apartado de su significado literal Otros terminos Editar En la literatura especialmente en papers se encuentran denominaciones alternativas en ingles algunas ya en desuso visual SLAM vSLAM monocular SLAM PTAMHistoria Editar2007 Editar El proyecto iniciador de SLAM visual fue el publicado en el paper MonoSLAM 3 en 2007 de Andrew Davison que describio el primer algoritmo capaz de realizar SLAM en tiempo real con las imagenes de una camara MonoSLAM es un acronimo de monocular SLAM que hace hincapie en el uso de una camara unica monocular contrario a estereoscopia como unico sensor La PC requeria GPU la aplicacion funcionaba como prueba de concepto pero era muy limitada para usos practicos pues rapidamente se quedaba sin memoria por lo que solo podia mapear pequenas habitaciones Con posterioridad a la publicacion y debido al creciente interes Davidson compartio el codigo que se podia descargar desde su pagina En paralelo a MonoSLAM se desarrollo PTAM 2 publicado el mismo ano apenas unos meses mas tarde que MonoSLAM Notablemente las implementaciones modernas de SLAM visual adoptan una estructura similar a la introducida por PTAM y no emplean casi nada de MonoSLAM Y aun asi MonoSLAM se hizo mas famoso por el solo hecho de haber publicado primero Esta forma de encarar el problema de SLAM visual recibio anos mas tarde el nombre de SLAM visual indirecto 2010 Editar El mismo laboratorio creador de MonoSLAM presento DTAM Dense Tracking and Mapping in Real Time el primer sistema directo que no se concentra en puntos sino que utiliza la imagen completa denominando por oposicion SLAM visual indirecto al resto de los sistemas 2014 a 2017 Editar En 2014 la Universidad Tecnica de Munich TUM publico LSD SLAM 4 Large Scale Direct SLAM 5 iniciando la categoria SLAM visual semidirecto y marcando un hito historico fue el primer sistema capaz de ejecutarse en tiempo real en una PC sin GPU y de los primeros en publicar su codigo fuente como codigo abierto lo que facilito la instalacion y prueba a miles de aficionados que popularizaron las posibilidades de SLAM visual A partir de LSD SLAM los sistemas de SLAM visual se abocarian al uso en tiempo real sin GPU en una PC y a publicar su codigo fuente abierto para conseguir el apoyo de la comunidad en su depuracion y mejora ORB SLAM 6 2015 y ORB SLAM2 7 2017 publicados como codigo abierto y en sendos papers de Raul Mur de la Universidad de Zaragoza marcaron el estado del arte Con posterioridad muchos sistemas de SLAM visual se basarian en ORB SLAM2 En 2017 el mismo autor publico Visual inertial SLAM 8 extendiendo ORB SLAM2 para combinar camara con IMU uno de los primeros sistemas de la nueva categoria SLAM visual e inercial y sin duda el mas influyente Estado del arte en 2021 Editar En 2017 a 10 anos del proyecto iniciador MonoSLAM el problema de SLAM visual se considero resuelto La cantidad de publicaciones y sistemas continua en aumento y se dedican refinamientos y mejoras incrementales por un lado y a la exploracion de un campo nuevo con el uso de deep learning ORB SLAM2 y LSD SLAM representan el estado del arte y son los grandes pilares de las categorias de sistemas indirecto y semidirecto ORB SLAM2 parece haber presentado mejor base para refinamientos y desarrollo de caracteristicas superiores y se usa como base para mejoras paulatinas como lo demuestran ORB SLAM3 2021 SVDL 2019 y OpenVSLAM 2019 tres proyectos destacados entre muchos otros Sensores EditarHay esencialmente 3 tipos de camaras usadas en SLAM visual monocular una sola camara tal como fue formulado el problema original camara estereo dos camaras de pose conocida tipicamente paralelas y alineadas camara RGB D camaras de profundidad relevan un modelo 3D pero con baja resolucionAlgunos sistemas complementan la camara con un acelerometro 3D entrando en la categoria SLAM visual e inercial Ademas se usan 3 tipos de lente modelo de camara estenopeica colineal normal gran angular omnidireccionalLos sistemas actuales suelen ser compatibles con todos los sensores y lentes y con el acelerometro si esta presente Aplicaciones EditarSi bien esta tecnologia ha madurado en laboratorio todavia tiene un largo camino para llegar a productos Las principales aplicaciones son Navegacion visual para drones 9 y pequenos vehiculos autonomos Realidad aumentada sin marcadores 10 Caracteristicas y limitantes de la tecnologia Editar SLAM visual se origino con el objetivo de aplicarse en realidad aumentada y las capacidades de los sistemas se demostraban sobre datasets de videos de ambientes pequenos y cerrados En la medida que la tecnologia fue madurando sistemas mas potentes que los originales comenzaron a demostrar sus capacidades sobre datasets de videos disenados para odometria visual con videos de recorridos largos en ambitos abiertos tales como caminatas por campus y circuitos urbanos en automovil lo que inicio la exploracion del uso de estos sistemas en navegacion autonoma Los sistemas SLAM visuales tienen fuertes limitantes requieren una escena visualmente estatica lo que implica que no tenga partes moviles ni cambios de iluminacion Las partes moviles interfieren con el proceso de mapeo Los cambios de iluminacion hacen irreconocibles los elementos mapeados Los sistemas mas modernos son robustos disenados para tolerar una porcion de elementos visuales en movimiento siempre que no dominen la vista y algun cambio de iluminacion Como consecuencia estos sistemas no son compatibles con estos tipos de escena escenas naturales con pasto que crece y cambia su aspecto a lo largo de los dias y arboles cuyas ramas se mueven por el viento ambientes con muebles que cambiaran de posicion no reconoce la misma escena de dia y de nochePor lo expuesto estos sistemas funcionan mejor en ambientes artificiales construidos por el hombre usualmente en lugares cerrados con iluminacion artificial En cuanto a navegacion autonoma se distingue su uso en ambitos privados y en la via publica En ambitos privados pequenos casas y oficinas o grandes countries y establecimientos industriales SLAM visual se tiene una aplicacion experimental exitosa con drones y para robots moviles AGV En via publica mas especificamente en automotores autonomos SLAM visual puede incorporarse como un sistema accesorio pero no se lo considera como sistema de navegacion principal Estos vehiculos tienden a emplear otros sistemas de SLAM mas confiables pero que emplean sensores muchos mas caros que las camaras Categorias EditarA medida que se avanza en la investigacion y desarrollo de SLAM visual el problema se va especializando paulatinamente y surgen categorias no excluyentes que agrupan los diferentes abordajes SLAM SLAM visual SLAM visual directo SLAM visual semidirecto SLAM visual indirecto SLAM visual e inercial SLAM visual semantico Spatial AI Inteligencia artificial espacialLa taxonomia de SLAM visual esta en permanente evolucion y sus denominaciones cambiaran con el tiempo Acronimos y categorias suele ser sugeridos por los propios desarrolladores de estos sistemas con distinto grado de adopcion de parte de la comunidad involucrada El uso de inteligencia artificial en SLAM visual abrio un campo de intensa investigacion El creador de SLAM visual Andrew Davison bautizo este campo como Spatial AI pero la comunidad no ha adoptado esta denominacion aunque tampoco hay alternativas sugeridas Con el tiempo se iran decantando esta y otras categorias SLAM visual indirecto Editar A esta categoria pertenecen los proyectos fundacionales de SLAM visual y continua vigente Los sistemas indirectos se denominan asi porque entre la obtencion de la imagen de la camara y su integracion con el mapa intercalan una etapa de deteccion de puntos singulares tambien llamados keypoints o caracteristicas Estos puntos son luego incorporados al mapa Un mapa de un sistema indirecto es una nube de puntos Por operar sobre puntos esta categoria tambien recibe el nombre de SLAM visual de particulas o tambien basado en caracteristicas SLAM visual directo Editar Esta categoria corresponde a una tecnologia mas reciente que compite con la anterior Emplea la imagen completa para producir un mapa de profundidad que se integra al mapa total del sistema Su nombre proviene del hecho de evitar la deteccion de puntos singulares e incorporar al mapa directamente los pixeles de la imagen Su principal ventaja reside en el hecho de aprovechar toda la informacion de la imagen Su mayor desventaja es su lentitud pues debe operar con cada uno de los pixeles LSD SLAM introdujo con exito el abordaje semidirecto que reduce enormemente la cantidad de pixeles a considerar convirtiendose en el primer sistema SLAM visual directo que se ejecuta en tiempo real Los sistemas semidirectos se concentran solamente en las zonas con alto gradiente de intensidad que corresponden a los bordes de los elementos visuales presentes en la imagen El argumento en favor de esta tecnica sostiene que la mayor parte de la informacion de la imagen se encuentra en estos bordes mientras que areas lisas y sin texturas no contienen informacion relevante SLAM visual e inercial Editar A esta categoria pertenecen los sistemas que agregan a la camara un sensor inercial tipicamente 6D un acelerometro 3D y un giroscopo 3D Estos sensores son muy baratos y proporcionan informacion muy relevante al sistema Entre otras cosas brindan metrica los sistemas monoculares no tienen nocion de la escala del mapa en terminos reales y referencia vertical los acelerometros distinguen el vector gravedad que marca la vertical Si ademas el sensor cuenta con magnetometro usado como brujula completa la orientacion del mapa en terminos reales SLAM visual semantico Editar La semantica es una capa de nivel superior que brinda significado a los elementos visuales Un sistema de SLAM visual se beneficia de poder identificar objetos como puertas ventanas y muebles que le permiten comprender aspectos complementarios de la escena que observan y del mapa que estan relevando La semantica usualmente se obtiene con redes neuronales convolucionales lo que suele enmarcar esta categoria dentro de Inteligencia artificial espacial Inteligencia artificial espacial Editar Andrew Davison bautizo Spatial AI 11 a una nueva categoria que intenta resolver el problema de SLAM visual con aprendizaje profundo Mientras que en 2021 los abordajes directo e indirecto se consideran maduros el uso de aprendizaje profundo esta en pleno auge y todavia no ha alcanzado la velocidad de procesamiento ni la precision de los otros Sin embargo promete contribuir con caracteristicas avanzadas que los sistemas clasicos no pueden tener Esta categoria se encuentra en desarrollo intenso y se esta dividiendo en varias ramas especializadas En rigor la naturaleza de las redes convolucionales utilizadas impiden categorizar estos sistemas en directos o indirectos Partes de un sistema de SLAM visual EditarSLAM visual es un problema complejo en el sentido que consta de varias partes de tecnologia diversa Los sistemas vigentes incorporan muchas de estas partes pero no todas necesariamente Inicializacion Mapeo y localizacion en paralelo Localizacion sin mapeo Relocalizacion Cierre de bucle Fusion de mapas Sacrificio de elementos redundantes map culling Tecnologias involucradas Editar SLAM visual es un problema extremadamente complejo que requiere el uso experto de una larga serie de tecnologias diversas que combinan geometria informatica vision artificial y optimizacion numerica Este es un resumen no exhaustivo Homografia para inicializacion Coordenadas homogeneas Geometria proyectiva Triangulacion de puntos para generar el mapa Descomposicion en valores singulares para minimizar el error cuadratico medio Geometria epipolar para inicializacion y reducir el dominio de macheo para triangulacion Perspectiva desde N puntos PnP para localizacion Bundle adjustment Optimizacion de grafos para organizar los elementos del mapa y cerrar bucles Geometria en SE 3 y Sim 3 Deteccion descripcion y macheo de puntos singulares Piramides BoW bags of words Modelo de distorsion de lente Deteccion de bordes Redes convolucionales Segmentacion semantica Vision artificialTecnologias emparentadas Editar SLAM visual guarda estrecha relacion con otras tecnologias similares pero con proposito diverso entre ellas Odometria visual Structure from motionSistemas de SLAM visual EditarAlrededor de 2014 se hizo costumbre acompanar las publicaciones de papers de SLAM visual con codigo abierto disponible usualmente en GitHub y para Linux Es inviable confeccionar una lista exhaustiva de todos los sistemas de SLAM visual a continuacion se listan los mas destacados Sistema Ano Sitio web Metodo Camaras y sensores Codigo VideoMonoSLAM 2007 indirecto monocular doc ic ac uk MatLabPTAM 2007 robots ox ac uk indirecto monocular github com youtube comPTAMM 2008 robots ox ac uk indirecto monocular youtube comDTAM 2011 directo monocularLSD SLAM 2014 vision in tum de semidirecto monocular github com Linux youtube comLSD SLAM stereo 2015 vision in tum de semidirecto estereo youtube comLSD SLAM omnidireccional 2015 vision in tum de semidirecto gran angular omnidireccional youtube comORB SLAM 2015 webdiis unizar es indirecto monocular github com LinuxORB SLAM2 2017 webdiis unizar es indirecto monocular estereoRGB D github com Linux youtube comVisual Inertial Monocular SLAM With Map Reuse 2017 indirecto monocular IMU youtube comOpenVSLAM 2019 readthedocs io Indirecto monocular gran angularomnidireccionalestereoRGB DIMU github com LinuxWindowsMac youtube comSVDL 2019 indirecto semidirecto github com youtube comVisual Inertial Mapping with Non Linear Factor Recovery 2020 vision in tum de indirecto monocular IMU github com youtube comORB SLAM3 2021 Indirecto monocular gran angularomnidireccionalestereoRGB DIMU github com Linux youtube comLos primeros sistemas de SLAM visual se hicieron sobre MatLab Al poco tiempo buscando eficiencia computacional los sistemas se comenzaron a desarrollar en C el lenguaje que domina la escena en la actualidad La gran mayoria de los desarrollos se realizan sobre Linux el codigo abierto se comparte para ser compilado Con la permanente evolucion de WSL nuevos sistemas de SLAM visual comienzan a incluir instrucciones para instalacion en Windows Muchos de estos sistemas funcionan en tiempo real en una PC sin necesidad de acelerar con GPU pero hasta 2021 ninguno se logro ejecutar en tiempo real en un celular Algunos como el caso de LSD SLAM presentan una version limitada para celular tipicamente con capacidad de localizacion pero no de mapeo Enlaces externos EditarOpenSLAM sitio web con codigo y herramientas de SLAM visualReferencias Editar Video de donde se obtuvo la imagen de ORB SLAM2 a b Sitio web de PTAM Paper de MonoSLAM Sitio de LSD SLAM del grupo de vision artificial de TUM Video de LSD SLAM Sitio del proyecto ORB SLAM Video de ORB SLAM2 Paper de Visual Inertial Monocular SLAM with Map Reuse Video de dron autonomo con LSD SLAM Video de realidad aumentada con ORB SLAM2 FutureMapping The Computational Structure of Spatial AI Systems Datos Q104724151Obtenido de https es wikipedia org w index php title SLAM visual amp oldid 134844289, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos