Puntos clave
1. El Big Data cambia el enfoque del muestreo a conjuntos de datos completos
Usar todos los datos nos permite ver detalles que nunca podríamos captar cuando estábamos limitados a cantidades pequeñas.
De algunos a todos. El big data representa un cambio de depender de muestras a analizar conjuntos de datos completos. La estadística tradicional se basaba en el muestreo debido a limitaciones en la recolección y procesamiento de datos. Sin embargo, con los avances tecnológicos, ahora es posible analizar enormes volúmenes de información, lo que ofrece una visión más detallada y precisa de los fenómenos.
Granularidad y detalle. Analizar todos los datos disponibles permite obtener percepciones más profundas sobre subcategorías y nichos de mercado que los métodos de muestreo suelen pasar por alto. Este nivel de detalle es fundamental para identificar anomalías, comprender preferencias específicas y hacer predicciones exactas. Por ejemplo, Google Flu Trends utiliza miles de millones de búsquedas para predecir la propagación de la gripe a nivel de ciudad, algo imposible con conjuntos de datos pequeños y muestreados.
Limitaciones del muestreo. Aunque el muestreo aleatorio ha sido un atajo exitoso, tiene debilidades inherentes. Su precisión depende de garantizar la aleatoriedad, algo difícil de lograr, y no escala fácilmente para incluir subcategorías. Al adoptar conjuntos de datos completos, podemos superar estas limitaciones y abrir nuevas posibilidades para el análisis y la comprensión.
2. Aceptar el desorden: datos imperfectos pueden ofrecer mejores insights
Al relajar los estándares de errores permitidos, se puede acceder a mucha más información.
Cambiar exactitud por escala. En el mundo del big data, estar dispuesto a aceptar cierto desorden puede ser una ventaja. Mientras que el análisis tradicional enfatiza la calidad y precisión de los datos, el big data reconoce que el volumen masivo de información puede compensar errores individuales. Este intercambio nos permite trabajar con datos del mundo real, que a menudo son incompletos, inconsistentes y no estructurados.
Más es mejor que mejor. El experimento de los investigadores de Microsoft con la corrección gramatical mostró que un algoritmo simple con mil millones de palabras funcionaba mejor que uno complejo con un millón. El sistema de traducción de Google funciona bien porque usa un conjunto de datos mucho más grande, aunque también más desordenado: todo Internet global y más.
El desorden en acción. El Proyecto de los Mil Millones de Precios, que rastrea la inflación en tiempo real extrayendo datos de minoristas en línea, acepta el desorden a cambio de escala y actualidad. De manera similar, los sistemas de etiquetado en plataformas como Flickr abrazan la imprecisión para crear una forma más rica y flexible de organizar contenido. Al aceptar el desorden, podemos descubrir nuevos insights y crear servicios valiosos que serían imposibles con métodos tradicionales.
3. La correlación supera a la causalidad: saber “qué” suele ser suficiente
En un mundo de big data, no tendremos que obsesionarnos con la causalidad; en cambio, podremos descubrir patrones y correlaciones que nos ofrecen insights novedosos e invaluables.
El poder de la predicción. El big data cambia el enfoque de entender por qué sucede algo a predecir qué sucederá. Al identificar correlaciones fuertes, podemos hacer predicciones precisas sin conocer las causas subyacentes. Este enfoque ha revolucionado el comercio electrónico, la salud y muchos otros campos.
Ejemplos de predicciones basadas en correlación:
- El sistema de recomendaciones de Amazon sugiere productos según el historial de compras, no por entender por qué a los clientes les gustan ciertos artículos.
- Walmart abastece Pop-Tarts antes de huracanes basándose en datos históricos de ventas, no en razones psicológicas detrás de la correlación.
- El puntaje de adherencia a la medicación de FICO predice si las personas tomarán sus medicamentos según factores como la propiedad de vivienda y la antigüedad laboral, no por sus creencias individuales sobre la salud.
Limitaciones de la causalidad. Aunque los humanos tienden a buscar explicaciones causales, esto puede llevar a sesgos y conclusiones erróneas. En cambio, el análisis de correlaciones nos permite descubrir patrones y relaciones que quizá nunca hubiéramos considerado. Al abrazar el “qué” en lugar del “por qué”, podemos desbloquear nuevos insights y tomar decisiones más efectivas.
4. Dataficación: transformar lo intangible en datos cuantificables
La dataficación consiste en tomar información sobre todo lo que existe —incluyendo aquello que antes no considerábamos información— y convertirla en un formato de datos cuantificables.
Cuantificar el mundo. La dataficación es el proceso de transformar información sobre todo tipo de cosas, incluso aquellas que tradicionalmente no se consideraban datos, en un formato cuantificable. Esto nos permite analizar y usar la información de nuevas maneras, como en análisis predictivos. Desbloquea el valor implícito y latente de la información.
Ejemplos de dataficación:
- El sistema del profesor Koshimizu convierte las posiciones al sentarse en datos para identificar ladrones de autos.
- Maury transformó antiguos registros de barcos en datos para crear cartas de navegación.
- Google convierte las consultas de búsqueda en datos para predecir brotes de gripe.
Dataficación vs. digitalización. La dataficación es distinta de la digitalización, que es simplemente convertir información analógica en formato digital. La dataficación va más allá al transformar la información en una forma estructurada y cuantificable que puede analizarse y usarse para nuevos fines.
5. El valor de los datos reside en su reutilización y en desbloquear su potencial latente
Cada conjunto de datos probablemente tiene un valor intrínseco, oculto y aún no descubierto, y la carrera está en descubrirlo y capturarlo todo.
Más allá del uso primario. El valor de los datos ya no se limita a su propósito original. En la era del big data, el verdadero valor está en su potencial para ser reutilizados y en desbloquear valor latente. Esto requiere un cambio de mentalidad: dejar de ver los datos como un recurso estático y reconocerlos como un activo dinámico.
Ejemplos de reutilización de datos:
- Google reutiliza consultas de búsqueda para predecir brotes de gripe y mejorar traducciones.
- UPS reutiliza datos de sensores de sus vehículos para predecir fallas en motores y optimizar rutas.
- Aviva reutiliza informes crediticios y datos de marketing para evaluar riesgos de salud.
El valor opción de los datos. El verdadero valor de los datos es la suma de todas las formas posibles en que pueden usarse en el futuro. Este “valor opción” puede desbloquearse mediante análisis innovadores, la combinación con otros conjuntos de datos y la creación de nuevos servicios. Al reconocer y aprovechar este potencial, las organizaciones pueden generar un valor económico significativo y obtener ventaja competitiva.
6. El big data transforma industrias y erosiona el valor de la experiencia especializada
La experiencia en áreas específicas importa menos en un mundo donde la probabilidad y la correlación son lo primordial.
Cambio en las dinámicas de poder. El big data está transformando industrias al desafiar las nociones tradicionales de experiencia y toma de decisiones. En un mundo donde la probabilidad y la correlación dominan, la experiencia específica importa menos. Este cambio está alterando jerarquías establecidas y empoderando a nuevos actores.
El efecto Moneyball. La película Moneyball ilustra cómo el análisis basado en datos puede superar la experiencia tradicional. Los cazatalentos de béisbol fueron reemplazados por estadísticos que usaban datos para identificar jugadores infravalorados y formar un equipo ganador.
La experiencia específica importa menos. El auge del big data obliga a replantear ideas tradicionales sobre gestión, toma de decisiones, recursos humanos y educación. Los especialistas no desaparecerán, pero tendrán que enfrentarse a lo que dice el análisis de big data.
7. Privacidad, propensión y los peligros del poder descontrolado de los datos
La mayoría de nuestras instituciones se establecieron bajo la presunción de que las decisiones humanas se basan en información pequeña, exacta y causal.
El lado oscuro de los datos. Aunque el big data ofrece muchos beneficios, también presenta riesgos significativos para la privacidad, la libertad y la justicia. El poder descontrolado de los datos puede conducir a una vigilancia creciente, sanciones basadas en propensiones y una dictadura de los datos.
De la privacidad a la probabilidad. El peligro se desplaza de la privacidad a la probabilidad: los algoritmos predicen la probabilidad de sufrir un infarto, incumplir una hipoteca o cometer un delito. Esto plantea una reflexión ética sobre el papel del libre albedrío frente a la dictadura de los datos.
La dictadura de los datos. Corremos el riesgo de caer en una dictadura de los datos, donde fetichizamos la información y el resultado de nuestros análisis, y terminamos usándolos mal. La sociedad tiene milenios de experiencia en entender y supervisar el comportamiento humano. Pero, ¿cómo se regula un algoritmo?
8. Responsabilidad, agencia humana y auditoría de algoritmos: gobernar el big data
Se necesitan nuevos principios para la era del big data, que presentamos en el Capítulo Nueve.
Nuevos principios para una nueva era. La era del big data requiere nuevas reglas y principios para proteger los derechos individuales y garantizar la justicia. Estos principios deben basarse en valores existentes, pero también reconocer los desafíos únicos que plantea el big data.
Uso responsable. Cambiar el foco del consentimiento individual a la responsabilidad del usuario de datos es esencial para proteger la privacidad. Los usuarios de datos deben rendir cuentas por sus acciones y tomar medidas para mitigar posibles daños.
Agencia humana. Debemos garantizar la agencia humana asegurando que los juicios se basen en acciones reales, no en predicciones estadísticas. Esto requiere redefinir la justicia para proteger la libertad y responsabilidad individual.
Auditoría de algoritmos. Se necesitan nuevas instituciones y profesionales que auditen e interpreten algoritmos complejos, garantizando transparencia y responsabilidad. Estos “algoritmistas” jugarán un papel crucial para evitar el mal uso del big data.
Última actualización:
Reseñas
Big Data ha recibido opiniones encontradas, aunque se valora su enfoque accesible sobre el tema y los ejemplos ilustrativos que presenta. Algunos críticos señalan que el contenido resulta redundante y simplificado en exceso. Los lectores agradecen las reflexiones acerca del impacto de los datos en la sociedad, las preocupaciones sobre la privacidad y las implicaciones futuras. Sin embargo, hay quienes consideran que la información está desactualizada o carece de profundidad. El libro se recomienda especialmente para quienes se acercan por primera vez a los conceptos de big data, aunque puede resultar decepcionante para los expertos. En conjunto, se percibe como una introducción estimulante a un campo cada vez más relevante, aunque con limitaciones en cuanto a alcance y detalle.
Similar Books






