¿Es posible suplantar el sitio web de Google? ¿Está comprometida la información en los buscadores? ¿Es posible la minería de datos en Google? ¿Cuál es el límite de éstas prácticas? Éstas son algunas de las preguntas que podría sugerir el título del artículo. Web spoofing es la técnica utilizada para suplantar una página web con el objetivo de obtener información de los usuarios o del sitio web suplantado. Generalmente el uso de este tipo de técnicas implica la descarga del código fuente de la página web, su modificación y reemplazo para crear una página web fantasma que suplanta a la original. Al margen de los peligros que puede representar el uso malicioso de la suplantación, también puede emplearse para propósitos científicos, que es el caso que nos ocupa. Imaginemos la posibilidad de consultar Google de forma masiva para generar nuestro propio mapa de la web. Contemplemos la idea de que los Documentalistas puedan crear sus propios bancos de datos con la información que consultan en fuentes y recursos especializados. Probablemente, llevar a cabo estos planes requeriría de muchos años de esfuerzo, si pretendemos enfrentarnos sin la ayuda de las herramientas adecuadas. Sin embargo, las técnicas utilizadas en el «Web Spoofing» podrían ayudar a los profesionales de la información a trabajar definitivamente con el big-data. ¿Sería posible suplantar Google para consultar sus contenidos y obtener la información que necesitamos de forma masiva y filtrada? El experimento que se ha desarrollado en torno a Google, demuestra que es posible.
Web Scraping y Web Crawlers
Antes de explicar el experimento de «Google Web Spoofing» es necesario comprender el papel que ocupa el «Web Scraping» y los «Web Crawlers». El «Web Scraping» es la técnica utilizada para descargar información de un sitio web. La naturaleza y tipo de información descargada es variable, ya que puede comprender los enlaces, el texto, los titulares del sitio web, hasta la extracción completa del código fuente. El proceso es equivalente al que podría hacerse de forma manual por un usuario plenamente consciente, salvo por el hecho de que se ejecuta de forma automática y preprogramada. Los programas de rastreo de la web o «Web Crawlers» emplean la técnica de «Web Scraping» para obtener los enlaces con los que tejer el mapa de la Web de cara a su indexación y posterior recuperación. Por este motivo, el conocimiento de éstas técnicas y sistemas, no sólo son estratégicas para suplantar un sitio web, al poder modificar los sitios web descargados, sino también para conformar bases de conocimiento, en las manos de los profesionales de la Documentación.
El experimento de Google Web Spoofing
Para demostrar que es posible operar con la información de Google, se ha concebido un experimento de suplantación. Consiste en obtener la portada del buscador y al menos la primera página de resultados del mismo, cuando un usuario efectúe una consulta cualquiera. El resultado, en términos de apariencia, puede ser observado y contrastado en la figura 1.
Aunque con mínimas diferencias, las portadas del buscador Google son muy similares. Es difícil determinar cuál es el sitio web original. De hecho, ambos diseños son reales y genuinos. En la pantalla de la derecha se muestra la «Google Toolbar», la barra negra de atajos a las principales aplicaciones y servicios. También figura el mensaje de descarga del navegador Google Chrome, las opciones de búsqueda avanzada y herramientas de idioma. El diseño de la izquierda, muestra una pantalla sin algunos de los elementos mencionados, pero manteniendo un aspecto similar. Corresponde a la vista actual del buscador en la mayoría de los navegadores web. Por tanto, cabe la pregunta ¿Cuál es la versión original de Google?
Versión original de Google
La última actualización del diseño de Google elimina la barra de atajos y simplifica el acceso a las aplicaciones y servicios, tal como se puede apreciar en la figura 2. También se observa el icono de micrófono en la caja de búsqueda para dictar las consultas. Todo ello permite diferenciar la versión original de Google de cualquier otra. Puede comprobarse accediendo al sitio web http://www.google.es [Consultado en 2016-01-10]
Versión suplantada de Google
La figura 3 muestra el diseño alternativo de Google. Éste aspecto se observa cuando el buscador se abre por primera vez en un navegador web, o bien cuando se activa la variable «noj=1» que puede comprobarse en la dirección «https://www.google.es/?noj=1«. Al margen de estos casos, el diseño alternativo de Google también se activa cuando se descarga su código fuente y se ejecuta en un dominio o alojamiento diferente. Esto se debe a que no todos los estilos y funciones están enlazadas correctamente, bajo direcciones URL diferentes. Por este motivo Google se representa con otra apariencia, activando el diseño secundario. Éste caso se reproduce en Internet Archive, con su iniciativa «Wayback Machine» encargada de recopilar copias de las páginas más importantes de la Web. Si se comprueba una de las copias más recientes de Google, se confirma también la siguiente impresión de pantalla.
Internet Archive utiliza el webcrawler Heritrix para rastrear a diario, entre otros, el sitio web de Google y descargar su código fuente para preservar la memoria digital de su portada, pero no de su contenido. Ello explica que su representación sea diferente a la de la versión original, tal como sucede en el experimento de suplantación de Google que puede ser probado en la siguiente dirección web http://www.google.es [Creado en 2015-12-22].
Si se lleva a cabo una consulta, se observará que aparece la página de resultados del buscador, cuyos contenidos son idénticos a los proporcionados por la página original de Google, tal como se puede observar en el siguiente vídeo
Se puede concluir que es posible suplantar el sitio web de Google y por consiguiente acceder a sus contenidos en las páginas de resultados. Ello demuestra que incluso sistemas de información avanzados pueden ser vulnerables a este tipo de amenaza, pero también pone de relieve una oportunidad única para desarrollar la tarea documental, usando la principal base de conocimiento referencial para organizar la información de la Web, crear nuevos servicios de información basados en la recopilación de contenidos y mucho más que aún debe ser descubierto e investigado.
2 respuestas a “Google Web Spoofing”
Tengo un plan de datos y creo que está ocurriendo lo que describe en su artículo suplantación de la información de Google. Que puedo hacer?
Hola Olga, el hecho de que se tenga un plan de datos, no implica spoofing. La técnica de spoofing tiene por objeto suplantar una página web. Otra cosa diferente será la suplantación de identidad, o el uso de una red wifi o un plan de datos por parte de un tercero, sin permiso. Eso parece más un caso de intrusión en la red. El spoofing no representa peligro si no se accede a la página web fraudulenta. En cuanto a lo que se puede hacer, recomiendo identificar bien el problema, si se trata de un problema con la red, tendrá que ponerse en contacto con su proveedor de datos. Si se trata de una suplantación de identidad, tendrá que cancelar su cuenta o bien denunciarlo a la autoridad correspondiente. Espero haber sido de ayuda. Saludos.