Hoy en día existen muchos repositorios de datos en la web con millones y millones de conjuntos de datos y además existen muchos conjuntos de datos también publicados por gobiernos locales y nacionales alrededor del planeta.
Muchos son los investigadores y periodistas que podrían llegar a utilizar los mismos para distintos proyectos, pero lamentablemente no existe un directorio unificado que permite acceder en forma fácil a los mismos.
Por suerte Google acaba de lanzar un nuevo buscador llamado Dataset Search, que como bien Google indica en el anuncio, servirá para que «científicos, periodistas de datos, geeks de datos o cualquier otra persona puedan encontrar los datos requeridos para su trabajo y sus historias, o simplemente para satisfacer su curiosidad intelectual«.
Este nuevo buscador de conjuntos de datos trabaja en forma similar a Google Scholar, con Dataset Search podrán encontrar los set de datos en cualquier lugar donde se encuentren alojados, tanto en el sitio web de quienes los publican, una librería digital, como así también en el sitio personal del autor.
Google desarrolló una serie de pautas para que los proveedores de conjuntos de datos describan los mismo de forma que Google y otros motores de búsqueda puedan comprender mejor el contenido de sus páginas. Si el conjunto de datos está estructurado utilizando el markup de schema.org o similar, descrito por la W3C, entonces Google lo podrá encontrar.
Los proveedores deben de incluir información como quien creó el conjunto de datos, cuando fue publicado, cómo obtuvieron los datos, los términos para el uso de los datos y otra información. Una vez hecho lo anterior, Google obtiene esta información, analiza si existen diferentes versiones del mismo conjunto de datos y buscan publicaciones que describan o discutan el mismo.
Cualquiera puede entrar ahora mismo y buscar por conjuntos de datos. El diseño es similar al del buscador de Google original y ofrece casi las mismas características. Los resultados de una búsqueda los muestra en una columna a la izquierda y a la derecha de esa columna, incluye la información de cada uno de los resultados cada vez que se selecciona uno de los mismos.
Enlace | Google Dataset Search