OSINT con Google: mega tutorial con ejemplos

Existen cientos de herramientas que podemos utilizar para hacer OSINT, unas mas específicas, otras mas genéricas.

Herramientas para buscar personas por nombre, por teléfono, por email, etc. Herramientas para buscar en Facebook o Twitter.

Por desgracia, no existe una herramienta que haga todo. ¿O si?

Es probable que la primera idea que se te pase a la hora de buscar algo en Internet sea utilizar un buscador, probablemente el mas usado, Google.

Google se ha convertido en el Rey de Internet. Todo pasa por sus manos (arañas).

¿Todo pasa por sus manos? La respuesta es: No.

No podemos hacer OSINT solo con Google.

En este artículo te voy a contar que puedes hacer con Google y que no.

¿Cómo funciona Google?

Ya todos conocemos Google, lo usamos a diario. ¿Pero sabemos cómo funciona?

Google es un índice de enlaces.

Su funcionamiento se basa en recorrer Internet mediante sus robots (arañas). Va pasando de una web a otra a través de los enlaces de estas, y de esa forma va añadiendo a su índice dichas urls.

Google no almacena el contenido, pero sí una versión actual de la url que ha añadido a su índice, la cual la guarda en su caché, de la que te hablaré más abajo.

¿Qué contenido indexa Google?

Google no solo indexa páginas webs.

Es cierto que en los resultados de la búsqueda que hagas te va a mostrar principalmente urls a archivos web, es decir, .html, .php o .asp.

Google es capaz de indexar todo tipo de archivos a su índice.

Esto es bueno tenerlo en cuenta para hacer búsquedas específicas de determinados archivos o dentro de ellos. Como, por ejemplo, buscar texto dentro de un .doc o .pdf.

Con el operador filetype:, puedes hacer que solo se muestren resultados de un tipo de archivo concreto en la Búsqueda de Google. Por ejemplo, si introduces filetype:doc Madrid, solo verás archivos DOC que contengan el término “Madrid”.

Estos son los tipos de archivo que Google es capaz de indexar en su indice:

  • Adobe Flash (.swf)
  • Formato de documento portátil de Adobe (.pdf)
  • PostScript de Adobe (.ps)
  • Formato web de diseño de Autodesk (.dwf)
  • Google Earth (.kml, .kmz)
  • Formato de intercambio GPS (.gpx)
  • Hancom Hanword (.hwp)
  • HTML (.htm, .html y otras extensiones de archivos)
  • Microsoft Excel (.xls, .xlsx)
  • Microsoft PowerPoint (.ppt, .pptx)
  • Microsoft Word (.doc, .docx)
  • Presentaciones de OpenOffice (.odp
  • Hojas de cálculo de OpenOffice (.ods)
  • Texto de OpenOffice (.odt)
  • Formato de texto enriquecido (.rtf)
  • Gráficos vectoriales escalables (.svg)
  • TeX/LaTeX (.tex)
  • Formato de texto (.txt, .text y otras extensiones de archivos), incluido el código fuente de los lenguajes de programación habituales:
    • Código fuente básico (.bas)
    • Código fuente C/C++ (.c, .cc, .cpp, .cxx, .h, .hpp)
    • Código fuente C# (.cs)
    • Código fuente Java (.java)
    • Código fuente Perl (.pl)
    • Código fuente Python (.py)
  • Lenguaje de marcas inalámbrico (.wml, .wap)
    XML (.xml)

¿Qué contenido no puede indexar Google?

Google, aunque ya le gustaría, no puede con todo. Hay cosas que se le escapan. Aunque ya se ha encargado de que se le escape lo menos posible. ¿A que me refiero?

Google no es capaz de indexar todo el contenido de servicios que estén protegidos por contraseñas o sean privados.

Por ejemplo, los emails, servicios como Dropbox, OneDrive, perfiles en redes sociales que tengan restringido el acceso, etc.

Cuando digo que Google se ha encargado de tener acceso a estos servicios, no me refiero a que pueda entrar a tus cuentas privadas, que no puede. Me refiero a que Google ha conseguido hacerse un gran hueco dentro de todos estos servicios, entre otros, con la prestación de los servicios como Gmail, Google Drive, Google +, y ya, si hablamos de Android…

Caché de Google

Como te comentaba mas arriba, Google guarda una versión en su caché de todas las urls que indexa.

La caché de Google tiene mucha importancia para nosotros. ¿Por qué?

Porque podemos tener acceso a una copia de dicha url con unos días de antigüedad.

En el caso de que accediendo a la url original no encontremos lo que estamos buscando, la caché de Google nos muestra una versión más antigua de dicha url, donde igual, dicho contenido si aparece.

El uso mas habitual es cuando nos encontramos con que dicha url ya no es accesible, o nos da error 404 (el contenido no se encuentra), o el contenido ha sido modificado.

Para acceder a la caché de Google se puede hacer de dos formas:

  • Mediante la pestaña que aparece al lado derecho del resultado de búsqueda
  • Mediante este operador boleano: escribe “cache:” delante de la dirección del sitio web

En el resultado de la caché de google aparece la fecha en la que Google indexó dicho contenido.

caché de google
Cómo acceder a la caché de Google de una URL

¿Cómo impedir que Google indexe un contenido?

Si bien hemos visto todo lo que Google es capaz de hacer e indexar, el propietario de un sitio web puede decirle a Google que no quiere que indexe su web o blog, y aunque no lo creas, Google hace caso.

¿Pero por qué iba alguien a querer no parecer en Google?

Pueden existir varios motivos por los que un propietario de un sitio web no quiere que su contenido aparezca en el índice de Google:

  • Para ocultar datos personales o sensibles
  • Para ocultar contenido irrelevante
  • Para ocultar secciones sensibles del sitio
  • Como técnica SEO on page

Por este motivo es importante tener en cuenta que no todo lo que Google muestra de una web es todo el contenido existente de esta, puede haber más contenido oculto a Google, pero accesible si navegamos por dicho sitio web.

¿Cómo se le da la orden a Google de que no indexe un contenido?

Existen dos formas de hacerlo:

No voy a profundizar en cómo implementarlo, porque me saldría del objeto de este artículo, y, si te interesa el tema, puedes buscar en San Google, pero sí quiero explicarte qué te puedes encontrar dentro del archivo robots.txt para que puedas interpretarlo y de esta forma saber si el propietario del sitio web ha querido ocultar urls de su web.

Lo primero que tienes que hacer para acceder al archivo robots.txt es añadir el nombre de este archivo a la url del dominio que te interese (ejemplo: https://nombrededominio.com/robots.txt). Prueba con cualquier dominio.

Lo normal es que todas las webs tengan este archivo, pero te puedes encontrar con alguna que no lo use.

Dentro del archivo robots.txt puedes encontrar las siguientes ordenes:

  • User-agent: * (Hace referencia al buscador al que quieres dar la orden. En este caso, con el asterisco, estas haciendo referencia a todos los buscadores)
  • Disallow: /wp-admin/ (Con el comando Disallow, estas diciendo que los buscadores no indexen todo el contenido que hay dentro del directorio /wp-admin/)
  • Allow: /index.html (Con el comando Allow, estás diciendo que quieres que los buscadores indexen este contenido)

Accediendo al archivo robots.txt e interpretándolo, podemos encontrar contenido que Google no muestra, pero si existe.

Posicionamiento en Google y penalizaciones

Cuando realizamos una búsqueda en Google, este nos devuelve un resultado, a veces acertado, otras no tanto.

¿Te has parado a pensar que criterio usa Google para mostrarte un resultado y no otro?

Google utiliza un algoritmo de calificación del contenido que muestra basado en la relevancia, es decir, que intenta que el contenido sea lo más relevante posible en relación a lo que estás buscando. Para conseguir esto, Google tiene en cuenta muchos factores, puede que más de 200, no te quiero aburrir, puedes buscar en internet cuales son.

En ocasiones, webs muy relevantes para tu búsqueda no van a salir en primeras posiciones.

Esto puede ser por varios motivos.

Porque sea una web nueva y Google aun no haya decidido que se merece salir en los primeros resultados o puede ser porque dicha web haya sufrido una penalización de Google por no cumplir con sus directrices y la haya mandado al fondo de los resultados.

Hay estudios que dicen que las webs que aparecen a partir de las 3ª página de Google, es como si no aparecieran, porque nadie pasa de esa página, o muy pocos usuarios.

¿Por qué me cuentas todo este rollo Julián?

Lo que te quiero decir es que no te quedes en los primeros resultados. Quizás lo que buscas no esté entre ellos, y se encuentre en páginas interiores de Google.

Para evitar tener que pasar horas revisando resultados puedes usar la búsqueda avanzada de Google y operadores boleanos. Te lo cuento en los puntos siguientes.

Búsqueda avanzada de Google

Google cuenta con opciones avanzadas para realizar búsquedas.

Cuando la cantidad de resultados que nos muestra por una determinada búsqueda es muy grande, puede venirnos bien utilizar la búsqueda avanzada y las distintas posibilidades que nos ofrece ese buscador.

A continuación te dejo el acceso a guías de como buscar en Google y a su búsqueda avanzada, tanto de sitios webs como de imágenes.

Acotar búsquedas en Google

Si quieres obtener unos resultados más precisos, incluye símbolos o palabras en la búsqueda.

Google admite algunos operadores boleanos para hacer búsquedas acotadas sobre el tema que nos interesa.

En la sección de Herramientas OSINT tienes un bloque llamado Google Hacking donde hay ejemplos directos.

La Búsqueda de Google suele ignorar los signos de puntuación que no forman parte de un operador de búsqueda.

No añadas espacios entre el símbolo o la palabra y el término de búsqueda. La búsqueda site:ciberpatrulla.com funciona, pero la búsqueda site: ciberpatrulla.com, no.

Técnicas habituales de búsqueda

  • Buscar por red social: escribe @ delante de la red social en la que quieras buscar. Por ejemplo, @facebook.
  • Buscar por precio: escribe € delante de una cifra. Por ejemplo, coches €3000.
  • Buscar por hashtag: escribe # delante de una palabra. Por ejemplo, #hashtag.
  • Excluir palabras de la búsqueda: escribe – delante de la palabra que quieras excluir de la búsqueda. Por ejemplo, gato grande -rueda.
  • Buscar una concordancia exacta: escribe la palabra o la frase que quieras entre comillas. Por ejemplo, “blog sobre OSINT”.
  • Buscar mediante comodines o términos desconocidos: escribe * en la palabra o en la frase donde quieras incluir el marcador de posición. Por ejemplo, “el * más caro de Madrid”.
  • Limitar la búsqueda a un intervalo de números: escribe .. entre dos números. Por ejemplo, coche €5000..€10000.
  • Combinar búsquedas: escribe “OR” entre las consultas de búsqueda. Por ejemplo, dirección OR domicilio.
  • Buscar en un sitio concreto: escribe “site:” delante del sitio o del dominio en el que quieras buscar. Por ejemplo, site:ciberpatrulla.comsite:.madrid.es.
  • Buscar en sitios web similares: escribe “related:” delante de una dirección web que ya conozcas. Por ejemplo, related:ciberpatrulla.com.
  • Obtener información sobre un sitio web: escribe “info:” delante de la dirección del sitio web.
  • Ver la versión en caché de Google de un sitio web: escribe “cache:” delante de la dirección del sitio web.

Te dejo un artículo muy completo sobre cómo buscar en Google como un experto.

Buscar en modo incógnito

Google es muy cotilla, y está constantemente guardando información de todo lo que hacemos en su buscador.

En ocasiones y dependiendo de como configuremos el navegador, Google nos puede mostrar anuncios personalizados en base a nuestro historial de búsquedas.

Si necesitas que los resultados de las búsquedas sean los más naturales posibles es conveniente que las realices en modo incógnito del navegador y/o desautenticado, revisa que no estés conectado a ninguna cuenta de Google mientras navegas.

Anuncios de Google

No viene de mas recordar que Google vive de la publicidad (entre otras cosas), y que algunos de sus resultados, cuando hacemos una búsqueda, son anuncios publicitarios relacionados con nuestra búsqueda.

Lo normal es que estos no tengan ningún interés para lo que estamos buscando.

Estos se pueden diferenciar facilmente del resto de resultados, ya que muestran un pequeño texto de “Anuncio”  al lado de los mismos.

Alertas de Google

Google dispone de un servicio de alertas llamado Google Alerts.

El servicio consiste en enviarte un email cada vez que encuentre resultados nuevos sobre un tema que tú le especifiques.

Por ejemplo podemos usarlo para que nos avise cuando aparece en Google nuestro nombre y apellidos, o nuestros teléfono, o DNI, o los datos de otra persona, o cualquier dato que se nos ocurra. De esta forma no tenemos que hacer las búsquedas nosotros, este servicio lo hará automáticamente.

Google Trends

Google Trends es otro servicio de Google, que en este caso da información de la tendencia que tiene determinada búsqueda.

Por ejemplo, si queremos saber que tendencia tiene en Google la búsqueda “Lavapiés“, término muy actual en los últimos días, podemos ver que tendencia está teniendo en Google.

Como puedes observar en la gráfica, existe un pico importante de búsquedas en una fecha determinada, que coincide con algunos hechos ocurridos en dicho barrio de Madrid.

Haciendo inteligencia con esta información podemos llegar a obtener algunas conclusiones sobre determinados hechos.

Como ves Google tiene un gran potencia para hacer OSINT, aunque también tiene sus limitaciones, que no son pocas.

Espero que con esta visión general del Rey de Internet puedas hacer tus búsquedas mas fructíferas.

¿Y tú cómo lo haces? ¿Usas mucho Google para hacer OSINT? ¿Prefieres otros buscadores? ¿Tienes algún truquillo que quieras compartir en los comentarios?

Anímate a dejar un comentario, seguro que tu opinión aporta valor a este artículo.

OSINT con Google: mega tutorial con ejemplos
5 (100%) 11 votes

3 comentarios en “OSINT con Google: mega tutorial con ejemplos”

  1. muy bueno! como siempre ,,conocia algunas cosas y desconocia otras…voy a redondear con esto…””Buscar por red social: escribe @ delante de la red social en la que quieras buscar. Por ejemplo, @facebook.””

Deja un comentario