«Culturomics» genoma de libros de la cultura humana

18/12/2010

375 3 minutos de lectura

Investigadores de la Universidad de Harvard utilizaron 5 millones de libros escaneados para descifrar el "genoma" de la cultura humana al investigar las palabras usadas en cada época, cómo ha cambiado la sintaxis o quiénes han sido los más famosos de la historia.

Los investigadores Jean-Baptiste Michel y Erez Lieberman dedicaron cuatro años a este experimento, denominado "culturomics", y publicaron sus resultados en la revista Science.

Puesto que para cualquier mortal sería imposible leer todos los libros que hay en el mundo, el equipo trató de hacer una aproximación utilizando las nuevas tecnologías.

Para ello, contaron con la ayuda de Google, que como parte de un ambicioso proyecto de digitalización ha escaneado 15 millones de libros, de los que el equipo usó 5.2 millones.

"Esto incluye 2 billones de palabras de 15 millones de libros, cerca de 12% de todos los libros publicados desde la Biblia de Gutenberg en 1450. En comparación con el genoma humano es un poema de solo 3 mil millones de letras", publicó la revista Science.

Los investigadores construyeron una base de datos masiva en la que se presentaba un mapa del contexto y frecuencia de las palabras a través de la historia con la ayuda de Google, llamado "n-gram". La idea es que se puedan hacer investigaciones cuantitativas y aplicar metodologías matemáticas utilizadas en estudios de biología evolutiva al lenguaje.

Recuerdo efímero

Tras la revisión, concluyeron que el inglés asume cerca de 8 mil 500 palabras nuevas cada año, aunque muchas no son incluidas inmediatamente en los diccionarios.

Otro curioso dato publicado en los resultados del experimento es que cada año que pasa la humanidad olvida su pasado más rápido.

Según sus hallazgos, las referencias al año 1880 no disminuyeron hasta el año 1912, es decir, perduraron a lo largo de 32 años; mientras las referencias al año 1973 cayeron una década más tarde.

No obstante, ahora los descubrimientos se divulgan más rápido que nunca. Los científicos aseguran que a finales del siglo XIX ya se difundían el doble de rápido que a principios de 1800.

En cuanto a la fama, también es más notoria pero más efímera.

El estudio revela que los personajes de moda son más jóvenes y más famosos, pero se olvidan antes. Las celebridades nacidas en 1950 lograban la fama a una edad media de 29 años, frente a los 43 años de las celebridades nacidas en 1800.

El lenguaje de ayer y hoy

Michel y sus colegas se concentraron también en cómo el inglés ha cambiado entre el año 1800 y el 2000; cómo han afectado al lenguaje y a la cultura episodios de la historia como las guerras y la esclavitud; y cómo el hombre ha expresado literariamente esos cambios.

La mayoría de los libros empleados han sido en este idioma, pero también se han incluido algunos otros en francés, español, alemán, ruso, hebreo y chino, como L'Etranger (1942) de Albert Camus, Relativity (1920) de Albert Einstein, y La Manga (1923) del argentino Raul Scalabrini.

"Se trata de una nueva pieza de evidencia acerca de nuestro pasado. Al igual que cualquier otra evidencia como fósiles, manuscritos, ruinas, que requieren una interpretación", señaló Michel en declaraciones a Efe.

"Estos hallazgos son relevantes para la educación, ya que los datos pueden ser accesibles a cualquier persona: mirar la trayectoria de las palabras es un medio excepcional de preguntar por nuestro pasado", señaló el investigador que consideró que es una forma "recreativa" de explorar la historia.

Michel explicó que se centraron en el inglés porque de los libros escaneados por Google era el principal idioma pero "hay mucho por explorar. Esto es sólo una pequeñísima fracción" por lo que animó a todo el mundo a explorar esta nueva fuente histórica.

Michel y sus colegas sugieren que este tipo de estudios aplicado a otros idiomas podría revelar las tendencias ocultas relacionadas con enfermedades, la dieta, la ciencia y la religión.

Lo que sigue

A futuro, Michel señaló que planean ampliar horizontes y estudiar otros idiomas como el español.

"El español es visto como un gran conjunto, pero nos gustaría ser capaces de distinguir entre los libros escritos en diferentes países hispanohablante – Argentina, España, Venezuela, etc.", indicó.

Según dijo, en la actualidad, no cuentan con las herramientas informáticas que den ese grado de precisión pero "tenemos muchas esperanzas de que se pueda alcanzar en un plazo no demasiado largo".

El equipo también está pensando en ampliar el contenido de su investigación, no sólo a los libros, sino también a periódicos, manuscritos y otras representaciones no textuales, como imágenes o mapas.

Fuente: tolucanoticias.com / El Universal

18/12/2010

375 3 minutos de lectura