El Big Data se usa todo el tiempo. Las empresas utilizan nuestro rastro en internet para mejorar la experiencia de compra, por ejemplo. ¿Y el Estado? ¿Se puede usar Big Data para hacer mejores políticas públicas? Un trabajo con el Ministerio de Turismo y Deportes y la Facultad de Ciencias Exactas de la UBA para entender cómo es el turismo argentino y, con datos e información, mejorar la experiencia de ir de vacaciones.
Ilustración: Noe Garin
El big data es de gran ayuda para conocer a la población. Por su volumen y su nivel de granularidad, aporta conclusiones que las fuentes tradicionales (encuestas, entrevistas o registros oficiales) no pueden observar. Su uso es moneda corriente para la segmentación de clientes, pero su potencial para conocer el público objetivo de la administración pública está por descubrirse. Este trabajo toma el caso del Ministerio de Turismo y Deportes de la Nación para plantear cómo estas fuentes alternativas de datos pueden enriquecer el diseño y la implementación de políticas públicas.
Big data para la gestión pública
El Estado necesita contar con información para tomar decisiones, diseñar políticas públicas efectivas y evaluar su impacto. Requiere datos sobre la población a la que dirige estas políticas y el contexto en el que se implementan. En este sentido, los datos con los que se cuenta en el ámbito estatal son usualmente imperfectos e incompletos. Sin embargo, el uso de fuentes alternativas de información no es una práctica frecuente en la administración pública.
¿Puede el big data coexistir con las fuentes tradicionales y complementar la información con la que hoy se cuenta para conocer a quien le habla el Estado o con quienes se relaciona? Este documento presenta una experiencia colaborativa entre Fundar, la Dirección Nacional de Mercados y Estadística del Ministerio de Turismo y Deportes de la Nación y el Laboratorio de Simulación de Eventos Discretos de la Facultad de Ciencias Exactas y Naturales de la Universidad de Buenos Aires. Busca profundizar en el análisis y entendimiento de los flujos del turismo interno y generar nueva información en torno a mercados turísticos para el desarrollo de políticas públicas del sector.
Fuentes tradicionales / fuentes alternativas
El Ministerio de Turismo y Deportes de la Nación cuenta con distintas herramientas que le proveen información. Existe el Sistema Federal de Gestión de Datos Turísticos de la Argentina, la Encuesta de Viajes y Turismo de los Hogares (EVyTH) y la Encuesta de Ocupación Hotelera (EOH). Sin embargo, estas fuentes no cubren todas las necesidades de información. Por eso, se pensó en complementarlas con otra fuente capaz de proporcionar particularmente en cuanto al nivel de desagregación territorial y temporal.
La fuente alternativa usada es una base de datos georreferenciada recopilada a partir de dispositivos móviles. Aporta la información del origen de los viajes para todo el territorio nacional, con granularidad temporal diaria y referencia desagregada sobre los destinos de esos viajes. Para el sector turístico, brinda una oportunidad para explorar en mayor detalle el origen y destino de los viajes, así como permite analizar los recorridos realizados para desplazarse hacia esos destinos.
Metodología de uso del big data
El punto de partida de la experiencia es una base de datos que contiene información anónima de dispositivos móviles que se identifican a partir de un código único destinado a publicidad o IFA (Identifier for Advertising). Cada uno de estos IFA es considerado como una persona. Dado que la información es anónima, estos datos nos permiten conocer las características de la población local, sin la posibilidad de asociar este registro a ningún individuo en particular.
La base ofrece registros georreferenciados diariamente, desde abril de 2019 hasta marzo de 2020, de los 528 departamentos, partidos y comunas de las 23 provincias y la Capital Federal de la Argentina (excepto la Antártida e islas del Atlántico Sur).
Para cada IFA (o usuarios únicos) se identificó la residencia a partir del lugar más común georreferenciado durante horario nocturno (CEL). Esta coordenada geográfica nos permite además asociar cada IFA al conjunto de características socioeconómicas correspondientes a esa zona de residencia. Se analizaron también sus desplazamientos, considerando un viaje turístico toda vez que un IFA se encuentra a determinada distancia de su residencia (40km para el Área Metropolitana de Buenos Aires y 20km para el resto del país).
Comparar los viajes realizados por mes
Un primer ejercicio consistió en comparar los datos provistos por fuentes tradicionales y alternativas respecto de los viajes realizados cada mes. Para eso, fue necesario filtrar los datos provistos por la fuente alternativa que corresponden a viajes del mismo periodo de referencia (abril 2019 – marzo 2020), cuyo origen sea el mismo (es decir de alguno de los grandes aglomerados urbanos) y su destino cumpla requisitos específicos de distancias recorridas y entorno habitual de los viajeros, como si fuera el diseño de la EVyTH.
Comparar los destinos turísticos más visitados
Un segundo ejercicio implicó comparar los datos de los destinos más visitados. Si bien el ranking provincial de destinos que podemos estimar es parecido, existen algunas diferencias relevantes para distritos como CABA, La Pampa y Río Negro. En términos estrictos esta divergencia que se observa, a priori, podría en realidad estar describiendo fielmente la realidad, en tanto la EVyTH interroga sobre el destino principal de un viaje y los IFA registran una posición geográfica en un determinado momento del tiempo. Que la posición en el ranking de La Pampa sea mucho más alta cuando se trata de registros big data que cuando se observan las respuestas de la encuesta es consistente con que se trate un “destino de paso” en viajes que tienen como destino final localidades de la Patagonia, por ejemplo.
Big data en turismo: dos casos de estudio
El uso de fuentes alternativas de datos permite explorar opciones para sortear algunas de las limitaciones que el diseño metodológico de las encuestas impone. Las encuestas presentan información agregada por regiones turísticas, con un recorte temporal trimestral y están pensada para caracterizar el origen de los visitantes. Por el contrario, la fuente de datos georreferenciada a partir de dispositivos móviles nos brinda una oportunidad para explorar información de origen al nivel de departamentos o radios censales, con granularidad temporal diaria y referencia desagregada sobre los destinos de esos viajes.
Turismo de naturaleza: el Parque Nacional Iguazú
El turismo de naturaleza es un segmento estratégico para el sector turístico de la Argentina y uno de los de mayor crecimiento en nuestro país y el mundo. Este crecimiento refleja una tendencia global en la que los destinos naturales permiten a una población crecientemente urbana reconectar con la naturaleza y ocupan un lugar central en la preferencia de los viajeros. La pandemia de covid-19 no hizo más que reafirmar esta tendencia.
Una fuente de datos que sirve para hacer seguimiento del comportamiento turístico relacionado con el turismo de naturaleza surge de la Administración de Parques Nacionales (APN), que recopila los datos de ingreso a los parques. Ofrece información acerca de la cantidad de visitas que recibe cada parque y si son o no residentes en el país.
Las fuentes alternativas nos permiten completar esta información para construir perfiles de visitantes a los Parques Nacionales. Tomemos como ejemplo el caso del Parque Nacional más visitado: las cataratas del Iguazú. El análisis consistió en filtrar del conjunto de datos aquellas señales de los IFA que se encontraban presentes dentro del polígono de esta área protegida.
Cantidad de visitas
Si agrupamos las observaciones a nivel mensual, podemos comparar los visitantes con los registros administrativos. Más allá de las diferencias en las cantidades estimadas por cada fuente, las variaciones mes a mes presentan un comportamiento análogo.
Origen de los visitantes
La determinación de la residencia habitual (a partir de su CEL) nos permite ahondar en el origen de los visitantes (ya sea a nivel provincial, por departamento) y su nivel socioeconómico. De esta manera, por ejemplo, podemos ver las provincias de origen para los visitantes de Iguazú, y profundizar el análisis por partido de origen.
Nivel socioeconómico de los visitantes
En cuanto al perfil socioeconómico, se ve una mayor proporción de visitantes con un nivel socioeconómico medio-alto (NSE +1, +2, +3) de acuerdo con los registros de dispositivos IFA.
Turismo de fiestas: el Carnaval de Gualeguaychú
El Ministerio de Turismo y Deportes lleva un registro de fiestas nacionales, con una calendarización aproximada (pueden variar año a año) y una caracterización del tipo de actividades de cada uno. A diferencia de los análisis del turismo interno en general y la comparación con la EVyTH, o la validación de los visitantes de Parques Nacionales contra los datos obtenidos a partir de registros administrativos, no contamos con información análoga para este tipo de eventos. No se dispone de información precisa sobre los visitantes de este tipo de eventos. No obstante, podemos valernos de otras fuentes que pueden funcionar como aproximación de lo que estamos analizando.
Cantidad de visitas
El Carnaval del País se lleva adelante durante los fines de semana de enero y febrero, que culmina con el “Feriado de Carnaval”. La identificación de los IFA presentes en estas fechas, a una distancia menor a los 3 km de la ciudad de Gualeguaychú, nos permite estimar el perfil de los visitantes.
La elección de Gualeguaychú como ejemplo del caso de uso de Turismo en fiestas no es caprichosa: además de ser una de las que concentran mayor cantidad de registros, cuando se ordena al conjunto de fiestas según la variedad de departamentos (domicilio) de procedencia (tal como se describe en la tabla adjunta), la inclusión de la ciudad en la muestra de la Encuesta de Ocupación Hotelera (EOH) nos da la oportunidad de revisar el comportamiento turístico de la nueva fuente de datos vis a vis el operativo estadístico.
Origen de los visitantes
Nuevamente, el ejercicio de identificación de los IFA que, en este caso, participaron del Carnaval, nos permite caracterizar a sus visitantes. Cuantificando la participación no ya solamente de las provincias de origen – como registra EOH-, sino con mayor desagregación llegando hasta el radio censal y, por ende, podemos observar diferencias socioeconómicas y evaluar perfiles.
Nivel socioeconómico de los visitantes
La falta de datos impacta en el diseño de políticas públicas, la toma de decisiones de gestión y la evaluación de impacto de las políticas. El uso de fuentes alternativas de información como complemento a bases de datos tradicionales ofrece un camino para mejorar la información disponible para tomar decisiones. Este documento presentó un ejercicio de uso de fuentes de datos alternativos junto con información ya conocida usada como ancla. Los casos de uso sirvieron para validar la calidad de la información obtenida en las encuestas y para complementarla. El desarrollo de esta metodología nos da la posibilidad de repetir este ejercicio para otros casos análogos y obtener información que no existía previamente a partir de las fuentes de consulta disponibles.