El análisis de big data ha respaldado durante mucho tiempo grandes hazañas en física y astronomía. Pero más recientemente lo hemos visto sus...
El análisis de big data ha respaldado durante mucho tiempo grandes hazañas en física y astronomía. Pero más recientemente lo hemos visto sustentar avances en las ciencias sociales y las humanidades.
Desde que se publicó el artículo histórico Computational Social Science en 2009, una nueva generación de herramientas de análisis de datos ha dado a los investigadores una idea de las cuestiones fundamentales sobre cómo nos comunicamos, quiénes somos y qué valoramos.
Por ejemplo, al analizar la frecuencia relativa de ciertas palabras en textos históricos, los investigadores pueden identificar cambios importantes en nuestro uso del lenguaje a lo largo del tiempo.
En algunos casos, estos cambios serán obvios, como el reemplazo del uso de palabras arcaicas por palabras más contemporáneas. Pero en otros casos, pueden reflejar cambios sociales y culturales más sutiles pero generalizados. A continuación se presentan algunos de los descubrimientos centrados en datos más influyentes de los últimos 10 años.
Durante la última década, un número creciente de fuentes globales de datos abiertos ha ayudado a los investigadores a revelar patrones en lo que leemos, escribimos y prestamos atención. Google Books, Worldcat y Project Gutenberg son solo algunos ejemplos.
El lanzamiento del visor n-gram de Google Books a principios de la década de 2010 fue un punto de inflexión en este frente. Utilizando toda la base de datos de Google Books, esta herramienta le muestra la frecuencia relativa de un término o frase específica tal como se ha utilizado durante cientos de años. Los investigadores han utilizado estos datos para explorar la supresión sistemática de la mención de pintores judíos, como Marc Chagall, en libros alemanes durante la Segunda Guerra Mundial.
El análisis de datos también puede revelar patrones en la expresión de las emociones humanas a lo largo del tiempo. We Feel de CSIRO rastrea las emociones en comunidades de todo el mundo. Lo hace analizando el lenguaje que la gente usa en las redes sociales en tiempo real y mapeándolo.
La herramienta se puede utilizar para determinar el estado de ánimo general a lo largo del tiempo (hora por hora, día por día) dentro de ciudades y países particulares. Los patrones en estos datos se pueden explorar en asociación con otra información, como el clima, las vacaciones y las fluctuaciones económicas.
Algunos hallazgos de investigación incluso afirman representar cambios fundamentales en los valores sociales de los humanos, el sentimiento de la comunidad y la forma en que pensamos (por ejemplo, el auge y la caída de palabras asociadas con la racionalidad como "método", "análisis" y "determinar").
Aquí hay algunos hallazgos clave en este espacio:
La rotación cultural se está acelerando
Un análisis dirigido por la Universidad de Harvard de más de un siglo de datos de millones de libros proporciona evidencia de que la capacidad de atención de la sociedad por los eventos históricos está disminuyendo, a medida que crece el apetito por material nuevo.
En otras palabras, estamos olvidando el pasado más rápido, y esto se determina al rastrear la frecuencia con la que se mencionan tres años específicos en una amplia gama de literatura a lo largo del tiempo. A medida que pasa el tiempo, la "vida media" de cada año (el punto en el que recibe solo la mitad de la atención que tuvo en su punto máximo) se vuelve más rápida.
La diversidad del lenguaje humano y la biodiversidad están correlacionadas
Al cartografiar la diversidad lingüística y la diversidad de especies animales, los investigadores han demostrado que estos dos mundos están correlacionados geográficamente: ambos aumentan con la temperatura y la proximidad al ecuador. Entonces, cuanto más te acercas al ecuador, más variación hay en el lenguaje hablado y mayor es la variedad de especies que hay.
Los autores proponen que esto se debe al calor cerca del ecuador que produce una mayor productividad y variedad en la vida vegetal, lo que a su vez proporciona entornos más complejos e interactivos tanto para los animales como para los humanos, alimentando un ciclo en el que "la diversidad engendra más diversidad".
Ha habido cambios en el uso del lenguaje en toda la sociedad durante el último siglo.
En un artículo publicado en diciembre, los investigadores utilizaron el aprendizaje automático para mostrar cambios consistentes a largo plazo en nuestro uso del lenguaje. En concreto, revelan un punto de inflexión en la década de 1980 donde se produce un cambio hacia un lenguaje más egocéntrico, emotivo y supuestamente menos racional.
Los autores sugieren (aunque no sin oposición) que esto podría señalar el comienzo de una "era de la posverdad".
En el campo de la psicología, las mismas herramientas de análisis de datos han demostrado que las personalidades de las personas se pueden medir utilizando los rasgos de los "cinco grandes", que en gran medida se estabilizan en la edad adulta.
Esto fue posible gracias a extensos conjuntos de datos como HILDA en Australia, el Panel Socioeconómico Alemán en Alemania y la Encuesta de Panel de Hogares Británicos en el Reino Unido.
Estudios sólidos también han demostrado que los rasgos de personalidad se pueden predecir de manera confiable y precisa a partir de una variedad de fuentes de datos, incluidas grabaciones de voz, patrones de uso de teléfonos móviles e incluso fotografías de retratos.
A su vez, se han encontrado algunas asociaciones notables a escala entre la personalidad y:
Elevación
Un estudio publicado en 2020, y basado en datos de más de tres millones de personas, muestra que las personas que viven en las montañas tienden a tener rasgos de personalidad diferentes a los que viven al nivel del mar. Por lo general, están más abiertos a nuevas experiencias y son más estables emocionalmente.
Ubicación
Otro estudio anterior muestra que las personas que viven en los Estados Unidos se pueden dividir en tres grupos claros y medibles de tipos de personalidad, vinculados con huellas geográficas asociadas. Los neoyorquinos y los tejanos (que están en el mismo grupo) tienen más probabilidades de ser temperamentales y desinhibidos.
Ocupación
En nuestra propia investigación publicada con colegas en 2019, analizamos las características de personalidad de las personas en más de 1000 ocupaciones diferentes. Encontramos personas en el mismo rol que comparten rasgos similares. Los científicos están más abiertos a nuevas ideas pero listos para discutir, mientras que los profesionales del tenis tienden a ser amigables y extrovertidos.
La investigación utilizó el aprendizaje automático para inferir las características de personalidad de más de 100.000 personas, según el lenguaje utilizado en las redes sociales.
En economía, estamos viendo cómo se abren importantes fronteras de investigación gracias al análisis de datos, incluso en:
Ciencia de redes
Cuando se trata del éxito, hemos aprendido que el rendimiento es más importante cuando se puede medir (como en el deporte). Pero en otros campos donde no se puede medir fácilmente (como en el mundo del arte), las redes son más importantes.
Economía del comportamiento
Ahora podemos ver cómo nos comportamos como individuos en masa, revelando pistas valiosas para intervenciones políticas efectivas en torno al empleo, la fiscalidad y la educación. Por ejemplo, un estudio a gran escala reveló que aquellos que más rápido reingresaron a la fuerza laboral mostraron ciertos comportamientos clave. Estos incluían ser madrugadores y ser geográficamente móviles (quizás significa que están más dispuestos a viajar más lejos, o reubicarse, por trabajo).
Algunos han argumentado que la ciencia de datos plantea un desafío fundamental para las ciencias tradicionales, con el surgimiento de la "ciencia posterior a la teoría". Este es el concepto de que las máquinas son mejores para comprender la relación entre los datos y la realidad que el método científico tradicional de hipótesis, predicción y prueba.
Sin embargo, los informes sobre la muerte de la teoría quizás sean muy exagerados. Los datos no son perfectos. Y la ciencia de datos basada en datos incompletos o sesgados tiene el potencial de pasar por alto, o enmascarar, patrones importantes en la actividad humana. Esto solo puede ser abordado por el pensamiento crítico y la teoría.