big data ~ #GobiernoAbierto ~ Infobae.com

Es sin dudas un evento histórico. En Estados Unidos la FDA (Agencia Federal de Alimentos y Medicamentos) lanzó hace unos meses su plataforma OpenFDA, un catálogo de datos abiertos para que desarrolladores, investigadores y el público en general pueda tener acceso a una gran y muy importante cantidad de conjuntos de datos de salud recolectados por la agencia.

La acción se alinea con la orden ejecutiva que el Presidente Obama firmó para promover el desarrollo de los datos abiertos en toda la administración pública norteamericana. La plataforma utiliza una API (Application Program Interface) para recolectar grandes cantidades de datos disponibles, ofreciendo a desarrolladores la habilidad de buscar más eficientemente entre millones de registros.

¿Qué hay en el dataset?

La plataforma todavía está en BETA y en esta primera fase la FDA puso a disposición millones de reportes sobre efectos adversos causados por medicamentos como así también errores en la medicación informados al FDA entre el 2004 y el 2013. Previo a este nuevo formato, la información sólo se conseguía a través de un complejo sistema de resportes vía pedidos de acceso a la información.

Cada uno de los reportes disponibles no contienen ningún tipo de información que pueda potencialmente ser usada para identificar individuos u otros datos privados. El piloto será ampliado para incluir las bases de datos del FDA sobre productos retirados o problemas con el etiquetado.

“A través de esta novedosa organización de lo datos, estos reportes están disponibles completos para que desarrolladores de software pueda construir herramientas que puedan ayudarnos a descubrir información clave y acercarla más rápidamente a consumidores y profesionales de la salud”, dijo el Dr. Taha Kass-Hout, director de Informática del FDA.

La API nos permite acceder a una lista de eventos ocurridos por efectos adversos causados por medicación en Estados Unidos desde el 2004. Un efecto adverso es informado al FDA ante experiencias indeseables asociadas con el uso de un medicamento, incluyendo serios efectos secundarios, errores en el uso de un producto, problemas de calidad, y fallas terapeúticas.

Las primeras aplicaciones construidas para navegar los datos ya empiezan a aparecer. Researchae, desarrollado por SocialHealth, se presenta como “un experimento para interactuar con los datos del FDA sin tener que escribir ni una línea de código”. A través de un formulario podemos por ejemplo preguntar por todos los casos de efectos adversos causados por X medicamente, filtrar por fecha, edad o bien tipo de reacción.

¿Qué nuevas aplicaciones surgirán a partir de estos datos? ¿Cómo serán los trabajos prácticos en universidades, las visualizaciones, los análisis sobre información tan valiosa? ¿Qué impacto tendrá en el mercado y en los consumidores?

Se habla mucho actualmente de los Grandes Datos (Big Data). Por ejemplo, esta es la semana de los Grandes Datos (Big Data Week), en que veremos eventos sobre este tema en decenas de ciudades alrededor del mundo. Pero las discusiones sobre los grandes datos se pierden de algo mucho mayor e importante: la oportunidad real no son los grandes datos, sino los pequeños. No súper computadoras centralizadas, sino trabajo manual descentralizado. No “un anillo para gobernarlos a todos”, sino “pequeñas piezas apenas unidas”.

Los Grandes Datos pecan de los caprichos de centralización que hemos visto en cada era de la computación. La idea de “mirá hay más datos de los que podemos procesar” (algo que sin dudas es siempre cierto año tras año desde que comenzó la computación) es hoy la última moda asociada a las tendencias tecnológicas.

Mientras tanto, ponemos en riesgo mirar por encima lo realmente importante de esta historia, la revolución real, que es la democratización masiva de los medios de acceso, almacenamiento y procesamiento de datos. Esta historia no es sobre grandes organizaciones corriendo software paralelo en decenas de miles de servidores, sino que la gente pueda colaborar efectivamente alrededor de un ecosistema distribuido de información, un ecosistema de datos pequeños.

Tal y como hoy nos parece absurdo hablar de “software grande”, como si el tamaño en sí mismo fuera una medida de valor, deberíamos, y lo haremos algún día, encontrar extraño hablar de “grandes datos”. El tamaño en sí mismo no importa, lo que importa es tener los datos, de cualquier tamaño, que nos ayuden a resolver problemas o a contestar preguntas que tengamos.

Para muchos problemas y preguntas, los datos pequeños son suficientes. Los datos de consumo energético que consume mi casa, los horarios de los colectivos, el gasto del gobierno, todos estos son datos pequeños. Todo lo que se procesa en Excel son datos pequeños. Cuando Hans Rosling nos muestra cómo entender nuestro mundo a través de los cambios de alfabetización de la población lo hace con datos pequeños.

Y cuando queremos escalar, la manera de hacerlo es a través de datos pequeños en componentes: mediante la creación e integración de “paquetes” de datos pequeños, no construyendo monolitos de grandes datos, sino seccionando problemas de manera que funcionen a través de personas y organizaciones, no a través de crear masivos silos centralizados.

La próxima década le pertenece a los modelos distribuidos no centralizados, a la colaboración y no al control, y a los datos pequeños no a los grandes.

Este post es una traducción autorizada por su autor original, el Dr. Rufus Pollock, fundador y co-director de la Open Knowledge Foundation, y publicada acá.

blogs

bloggers

#GobiernoAbierto

Archivo de Tag: big data

Esto se pone interesante

Olvídense del Big Data, la revolución real son los datos pequeños