En la actualidad, contamos con abundantes datos de diverso origen. Los datos geoespaciales o georeferenciados, como las imágenes satelitales, proveen información valiosa para el diseño de políticas públicas. Es información que puede resultar inalcanzable a través de otros métodos y que es útil en la toma de decisiones.
El presente documento está orientado a guiar este tipo de proyectos de manera general. También, describe una experiencia de trabajo concreta realizada por el Área de Datos de Fundar en colaboración con un organismo público. Su objetivo fue desarrollar un modelo de detección automática de distintos tipos de suelos sobre imágenes satelitales.
¿Qué detectan los algoritmos en imágenes satelitales?
El uso de imágenes satelitales resulta particularmente conveniente a la hora de precisar información geográfica detallada. Además, el sensoramiento remoto provee datos en tiempos pasados y actuales. Por lo tanto, permite monitorear la evolución temporal de la información geográfica. Este tipo de análisis permite una amplia gama de aplicaciones concretas.
Resultan útiles y efectivos en la detección de basurales a cielo abierto, crecimiento urbano y penetración de construcciones, asentamientos informales, calidad de la infraestructura, mapeo de cultivos y minería, estimación de la producción agropecuaria, monitoreo de precipitaciones, sequías o catástrofes naturales, análisis demográficos varios, estimación de tiempos y distancias de viaje hacia centros de salud u otros destinos de interés, entre otras aplicaciones.
En otras palabras, son un insumo invaluable para el diseño de políticas públicas y la toma de decisiones.
1. Definir el problema
Como en toda actividad del conocimiento, es fundamental definir el problema que queremos resolver antes de ir a buscar el insumo de datos que necesitamos. No obstante, es muy común que en el proceso se revelen nuevos problemas que no nos habíamos planteado originalmente. O incluso potenciales soluciones a problemas que no estaban en nuestra agenda. Tengamos la mirada sutil para lidiar con esos hallazgos.
2. Recopilar la información
El siguiente paso para ejecutar un análisis efectivo basado en datos y algoritmos consiste en recopilar la información necesaria. En la detección de distintos tipos de eventos en imágenes satelitales, se precisan en primer lugar las imágenes satelitales sobre las cuales se desean detectar estos elementos. Para ello existe una buena cantidad de fuentes públicas y privadas de imágenes de diversa resolución, calidad y frecuencia de actualización. Cada una resulta más o menos conveniente de acuerdo con el tipo de aplicación buscada.
Por ejemplo, la fuente pública de imágenes satelitales de radar provistas por el satélite Sentinel-1 de la Agencia Espacial Europea, ESA cuenta con una resolución espacial promedio de 20 metros al nivel del suelo. Otras fuentes públicas de datos abiertos disponibles son las imágenes ópticas del satélite Sentinel-2 y las de la NASA, de los satélites MODIS y LANDSAT. Entre las fuentes públicas nacionales se puede mencionar las imágenes del satélite SAOCOM de la CONAE. Y entre las fuentes de datos privadas, las empresas Satellogic, Planet, Airbus, Maxar, ICEYE o Capella Space, que en general cuentan con mayor grado de resolución y frecuencia.
Resulta fundamental en cada caso contar con la documentación y la guía de usuario de cada una de estas fuentes. También es importante disponer de los metadatos de las imágenes recolectadas e investigar cuáles son los distintos tipos de aplicaciones para las cuales cada una de estas fuentes resultan apropiadas y eficaces.
3) Buscar las “etiquetas”
Luego de la primera recolección, es necesario avanzar en la búsqueda de datos para el desarrollo de modelos automáticos de detección sobre imágenes satelitales. Lo que comúnmente se denomina como “etiquetas”.
En este caso deben corresponder a los elementos del suelo que se deseen detectar en las imágenes a través de un modelo automático. Es decir, las etiquetas están estrechamente relacionadas con la definición del problema que se quiere resolver.
Son las etiquetas las que definen entonces lo que el modelo podrá y no podrá detectar durante su aplicación en imágenes nuevas. Pueden ser obtenidas a través de bases de datos abiertas de la web o bases mantenidas por instituciones. Inclusive pueden ser etiquetadas a mano por personas capacitadas específicamente para detectar visualmente los elementos deseados sobre las imágenes satelitales, usualmente denominados “anotadores”.
4) Asegurar la calidad de datos y el mantenimiento de bases
A la hora de utilizar imágenes satelitales como fuente de información, la recopilación de datos es uno de los primeros pasos en un proceso continuo. Los datos cambian, no atender a ese cambio es reducir su valor. Por eso, es fundamental el mantenimiento actualizado de bases de datos que contengan la información correspondiente a las distintas problemáticas y eventos de interés. La efectividad de las soluciones obtenidas mediante el desarrollo de modelos de aprendizaje automático está supeditada a la existencia, provisión, mantenimiento y calidad de estos datos.
El correcto mantenimiento de estas bases suele enfrentarse con datos faltantes o incompletos. Es importante que ciertos campos de interés como la ubicación geográfica, la fecha y hora, y la categoría del suceso se encuentren presentes en todas las instancias de la base.
Los problemas más comunes a la hora de desarrollar modelos de aprendizaje automático tienen que ver con la poca cantidad de etiquetas o la falta de consistencia interna entre ellas. La forma de reducir los errores de etiquetado consiste en trabajar de manera iterativa: las inconsistencias deben ser debidamente documentadas y clarificadas.
Otros problemas comunes consisten en la necesidad de integrar distintas fuentes de datos, ya que estos pueden encontrarse distribuidos en distintos servidores o directamente provenir de orígenes diversos. La consistencia interna es clave también aquí. Para ello es necesario realizar un trabajo de homogeneización.
5) Desarrollar modelos de aprendizaje automático
En el caso de las imágenes satelitales, los modelos de aprendizaje automático son algoritmos que se programan para detectar automáticamente los tipos de etiquetas. En caso de éxito, logran generalizar la detección efectiva de los elementos etiquetados sobre imágenes satelitales nuevas. Es decir, imágenes nunca antes vistas por el algoritmo durante su desarrollo.
El desarrollo de los modelos de aprendizaje automático requiere de distintas capacidades y recursos. Desde los servidores o computadoras que permitan entrenar estos modelos, hasta las capacidades técnicas de los programadores o científicos de datos que los desarrollan. En el caso de la detección en imágenes satelitales es indispensable la colaboración con geógrafos o expertos en el conocimiento de campo asociados a la temática de trabajo.
Una vez que un modelo mínimo viable sea desarrollado, el paso final consiste en realizar una evaluación de su rendimiento en imágenes nuevas que resulten de particular interés. En caso de ser necesario, iterar para perfeccionarlo y resolver cada uno de los errores que puedan haberse acarreado en etapas tempranas de su desarrollo.
Existe una gran cantidad de herramientas de acceso libre y código abierto para el diseño y la implementación de modelos de aprendizaje automático. A continuación se muestra un diagrama general de las herramientas utilizadas en el desarrollo del modelo de prueba de concepto.
Enfoque ético de la recopilación y la utilización de datos
En cuanto a la visión ética de la recopilación y utilización de datos satelitales, existen riesgos potenciales en el uso de estas tecnologías. En su gran mayoría, están asociados a cuestiones de privacidad, seguridad y vigilancia, ya que existe la capacidad de observar directa o inadvertidamente propiedad privada o capturar información personal confidencial.
La tendencia actual en el uso de imágenes satelitales implica un gran incremento en la disponibilidad de estos datos con alta resolución tanto temporal como espacial. Esta tendencia, en conjunto con los enormes avances recientes en el desarrollo de modelos de aprendizaje automático, permiten realizar análisis que conllevan grandes riesgos potenciales hacia la privacidad y la seguridad de individuos e instituciones.
Si bien los desafíos éticos que se deben afrontar son importantes, los datos satelitales son irreemplazables a la hora de asistir a ciertos propósitos políticos, humanitarios o ecológicos. Por ejemplo para coordinar respuestas ante desastres naturales, o marcar y controlar la trayectoria de distintas enfermedades, como la malaria. Los datos satelitales son un valioso activo para el bien público y permiten tomar decisiones en contextos de alta incertidumbre. En este contexto, es el deber de la gestión pública garantizar el bienestar individual y colectivo durante su utilización.