UPCN Digital
Profesionales

BIG DATA Y LA REVOLUCIÓN DIGITAL

 24/08/2018   983

BIG DATA Y LA REVOLUCIÓN DIGITAL:

 

El uso de datos masivos y sus técnicas analíticas para eldiseño e implementación de políticas públicas en Latinoamérica y el Caribe Lanota técnica en que se basa este resumen fue realizada por el BancoInteramericano de Desarrollo y estuvo a cargo de Patricio Rodríguez, NormaPalomino y Javier Mondaca.

Introducción Los datos han crecido de manera exponencial enlos últimos años. Los datos masivos (muchas veces llamados por su término eninglés, Big Data) se refieren a conjuntos de datos cuyo tamaño excede al quepueden manejar los programas y equipos estándares disponibles para capturarlos,almacenarlos y analizarlos. Su análisis está creando valor en muchos sectoresde la economía y el gobierno; y suele requerir la presencia de personas conhabilidades en estadística y programación, así como hardware o servicios de nube(cloud computing) para el procesamiento de la información. Las técnicasavanzadas de análisis de datos masivos mejoran la toma de decisiones de losgobiernos, al aportar información que permite diseñar, implementar ymonitorizar en tiempo real las políticas públicas.

 El acceso a los datosmasivos y el uso de técnicas analíticas adecuadas permite identificar y medirproblemas que hasta hace poco estaban ocultos. Las aplicaciones de Big Datapueden beneficiar no solo a las empresas privadas, sino también a lasadministraciones públicas, mejorando las economías de cada país. Estosbeneficios mejoran la productividad, como se 1 Estimaciones de McKinsey GlobalInstitute (2017); McAffee (2012) y Forbes (2017) espera en el caso de Uruguaycon un aumento de productividad entre 0.8% y 1.4% anual (2015- 2065),aumentando el valor de la economía mundial.

1 Marco conceptual Las llamadas “Tres V’s” –volumen,velocidad y variedad– sirven como características que definen el término BigData. Sin embargo, con el continuo avance de la tecnología, el modelo tiene queser revisado. Por lo tanto, el estudio propone incorporar cuatro dimensionescualitativas respecto a los datos: 1. Variabilidad: en el mundo de datosmasivos, la cantidad de anomalías es tan abundante que forman parte delfenómeno a analizar. Es decir, es importante no solo estudiar los patrones;sino también las excepciones a la regla.

2. Complejidad: nace de la múltiple y variada cantidad defuentes de datos existentes.

3. Veracidad: la calidad, confiabilidad y la certezaasociada a los datos.

4. Representación: cuando se trabaja con muestras, esfundamental considerar responsablemente la representatividad de las mismasrespecto a la población en general. Los datos masivos aportan valor cuando sonprocesados. La disciplina que trata con el procesamiento y el análisis de losdatos masivos, a base de la interacción entre la programación y la estadística,se denomina Ciencia de Datos. El ciclo de vida del procesamiento y análisis dedatos no es lineal. Procesamiento de los datos masivos. En términos generaleshay dos etapas principales del procesamiento de los datos masivos: la gestiónde los datos y la analítica de los datos. La gestión de los datos estácompuesta por tres pasos cruciales:

1. La adquisición y el almacenamiento de los datos 2. Lalimpieza y la depuración de los datos 3. La preparación para su análisis Setrabaja sobre datos nuevos que varían en formato y origen: texto, audio, video,redes sociales, etc. Por su parte, la analítica de los datos trata de respondera las preguntas y/o hipótesis formuladas a través de técnicas de modelamiento yobservación. Para cada conjunto de datos (texto, audio, video, etc.) se aplicanmetodologías particulares de análisis. Métodos. Hay varios métodos paraanalizar los datos masivos. Uno de ellos es el análisis espacial o los sistemasde información geográfica (SIG), con el que se examinan las propiedadesgeométricas, topológicas y geográficas de un conjunto de datos. Este método esel que utiliza aplicaciones como Google Maps o Uber. Otro método, que es unasubespecialidad de la Ciencia de la Computación, es el aprendizaje automático(Machine Learning).

Esta subespecialidad se compone de técnicas de programaciónde algoritmos que aprenden a desarrollar tareas, sin necesariamente recibirindicaciones específicas en el código. Dicho aprendizaje puede ser supervisadoy se basa en dar al algoritmo una serie de ejemplos positivos y negativos dealgo para que identifique los patrones que caracterizan a cada uno (porejemplo: un algoritmo que aprende a distinguir un humano en una foto). A suvez, el aprendizaje puede ser no supervisado, tal que los algoritmos noaprenden a base de ejemplos positivos y negativos, sino que identifican gruposde unidades o patrones por su cuenta (por ejemplo: un algoritmo que analiza ungrupo poblacional para identificar subgrupos y las características que loshacen afines).

También se usa la inteligencia territorial, un análisisespacial que a través de tecnologías de información combina enfoques cualitativos,cuantitativos y espaciales. Por ejemplo, puede usarse para analizar equidad deacceso espacial a servicios públicos y privados según variables socioeconómicasy demográficas. Otros métodos detallados en el documento incluyen: laoptimización (localización óptima de hospitales, escuelas, centros productivos,bodegas), pruebas A/B (probar la efectividad de un tratamiento médico o un tipode educación), simulación (pronósticos bajo circunstancias de El análisis delos datos masivos aumenta la productividad y habilita nuevos modelos denegocio, optimizando procesos y mejorando capacidades de monitoreo ypredicción. incertidumbre), análisis de redes (modelamiento del sistema detransporte) y la visualización de datos (infografías y tableros de mando o dashboards).Tecnología.

El procesamiento de los datos masivos también requiere detecnología, software y hardware, que puede analizar grandes volúmenes deinformación. La inteligencia de negocios es un tipo de aplicación diseñada parareportar, analizar y presentar datos. Mashup es otra aplicación que utiliza ycombina la presentación de datos o la funcionalidad de dos o más fuentes paracrear nuevos servicios. También se usa el software de MapReduce para procesarenormes conjuntos de datos sobre ciertos tipos de problemas en un sistemadistribuido. Datos masivos en Latinoamérica y el Caribe Caso 1: Movilidadurbana sostenible en Argentina En Rosario, Argentina, usaron los datos masivoscapturados a través de dispositivos de georreferenciación (GPS) para analizarlos movimientos de los ciclistas en la ciudad. El objetivo del proyecto eraentender la relación entre los ciclistas, la infraestructura vial existente ylos siniestros de tránsito con el fin de mejorar la infraestructura delsistema. Se obtuvieron datos relativos a la cantidad de viajes, los tiempos,las distancias o velocidad promedio y las calles más usadas. Los datos seexploraron visualmente, creando mapas que muestran los principales corredoresutilizados por ciclistas, la velocidad del tránsito de bicicletas, los lugaresdonde se concentraban los siniestros y la gravedad de los mismos.

 El análisis de losdatos ha permitido al gobierno, por ejemplo, identificar las callesespecialmente problemáticas. En este caso, el procesamiento y análisis de losdatos fue realizado externamente, lo cual puede reflejar un déficit deinfraestructura de procesamiento o capital humano especializado dentro delgobierno que impide al mismo afrontar este tipo de proyectos. Caso 2: Ciudadesinteligentes en Argentina y Brasil Un estudio del BID (Townsend &ZambranoBarragan, 2016) evaluó la capacidad de algunas ciudades de Argentina yBrasil para implementar iniciativas innovadoras basadas en el análisis de datosmasivos. En Bahía Blanca, Argentina, el gobierno instaló sensores queinformaban sobre los índices de contaminación del aire y contaminación acústicaproducida por las plantas industriales y puso esta información a disposicióndel público en una plataforma online y una aplicación móvil.

En Córdoba, Argentina, se desarrolló un sistema deseguimiento de la flota del transporte público que es operado por diferentesempresas privadas. Con ello, se mejoró la exactitud de la información a lospasajeros y aumentó el uso del transporte público.

En São Bernardo do Campo, Brasil, se creó Vo?e SBC unaaplicación móvil que permite recolectar quejas y sugerencias de los ciudadanosrelacionadas de servicios no-urgentes (e.g., baches, ruidos molestos, árboles apunto de caer, basura) para la infraestructura detrás de los servicios. · La analítica de datosmasivos ofrece una tremenda oportunidad para mejorar la toma de decisiones ygenerar evidencia para el diseño, desarrollo y evaluación de políticaspúblicas. · Hayque desarrollar un marco conceptual y una inteligencia de valor pública en losdistintos niveles de gobierno para instalar una cultura de toma de decisionesbasada en evidencia. ·Los casos en Argentina y Brasil y el proyecto de las PTF de empresas sirvencomo ejemplos del uso de datos masivos.

Demuestran la importancia de desarrollar unainstitucionalidad para la analítica de datos masivos, que tiene en cuenta larepresentatividad de los datos. En Fortaleza, Brasil, se llevó a cabo elproyecto “Fortaleza Inteligente” para mejorar la gobernanza de la ciudad. Comoparte del proyecto, se creó CITINOVA, una fundación pública cuya misión espromover la ciencia, tecnología e innovación en el gobierno para mejorar losservicios entregados a los ciudadanos. Estas experiencias de ciudadesinteligentes ofrecen tres lecciones importantes para el uso de los datosmasivos en el mejoramiento de un país:

1.      La construcción de una institucionalidad permitegenerar y administrar los recursos para la infraestructura y el personaldedicado a la inteligencia de valor público. 2. Es necesario lograr unacomunicación transparente y fluida entre el sector público, el sector privado yla ciudadanía de cada país. 3. Hace falta personas preparadas para trabajar condatos, especialmente los científicos de datos. Caso 3: La utilización de datosmasivos para estudiar el crecimiento y dispersión de la productividad Elproyecto utiliza datos masivos para estimar el crecimiento y dispersión en laproductividad total de los factores (PTF) en empresas de diversos países. LaPTF es la proporción de la producción que no está explicada por las cantidadesde insumos que necesita para ser producida; y su nivel estará determinado porcuán eficiente e intensivamente se usan los insumos en la producción.

Se revisó la PTF de cerca de 20 millones de empresas en alrededor de 30países durante ocho años, entregando un panorama más general respecto al estadoy evolución de dicho indicador. Los resultados demuestran que no hay unarelación clara con la combinación entre PTF promedio y países. Sin embargo,respecto a las perspectivas de evolución futura del PTF, se observa que en casitodas las medidas muestran una tendencia a disminuir. Este caso abre unadiscusión sobre un desafío importante en el trabajo con datos: larepresentatividad. Pese al gran crecimiento de los datos disponibles, alanalizarlos es importante tener en mente que muchos siguen sin representar atodas las empresas existentes. Este es un resumen ejecutivo adaptado de notatécnica “

El uso de datos masivos y sus técnicas analíticas para el diseño eimplementación de políticas públicas en Latinoamérica y el Caribe” escrito porPatricio Rodríguez, Norma Palomino y Javier Mondaca. Puedes leerlo en su totalidad aquí: Using BigData and its Analytical Techniques for Public Policy Design and Implementationin Latin America and the Caribbean

UPCN Copyrights © 2018 Todos los derechos reservados.