Google.Aprendiendo un poco más.

 

¿Qué es google?

Google es una compañía fundada en 1998 por dos amigos; Larry Page y Segey Brin, estudiantes de la Universidad de Stanford (EE.UU), que ofrece el mayor buscador de contenido a través de Internet en todo el mundo.

Un buscador es una página en Internet que permite buscar información a través de ella, bien sea tecleando nosotros mismos una serie de palabras clave, o bien empleando el sistema de menús que la página incorpora. Cada día ofrecen más servicios, entre los que se incluyen noticias, chats, etc., y se suelen llamar “portales”.

Google cuenta con más de 20 mil servidores distribuidos por varios lugares del mundo, desde los que sirve la informa-ción a todos los usuarios de Internet, y en estos momentos tiene clasificadas en su base de datos más de 8 mil millones de direcciones de Internet. Su motor de búsqueda cuenta con algoritmos muy precisos lo que le hace ser rápido y eficaz.

La página principal de google es la siguiente: “www.google.es”

Google presenta la información de sus búsquedas según la importancia de los sitios Web que coinciden con la búsqueda pedida. La tecnología patentada que utiliza Google en sus búsquedas tiene el nombre de PageRank y se apoya en el análisis de concordancia de hipertexto desarrollado por sus fundadores. El sistema PageRank lleva a cabo una valoración objetiva de la importancia de las páginas web a buscar y es fruto de la solución de una ecuación matemática compuesta por más de 500 millones de variables y 3.000 millones de terminos.

Para resolver el problema de la importancia de las páginas por las que se ordena los resultados de búsqueda, Google utiliza lo que llama la inteligencia colectiva de Internet. Cuenta con un sistema automático por el que clasifica dicha información. Google interpreta un vínculo de página A a la página B como un “voto” de página A para la página B. Google evalúa la importancia de una página por los “votos” que recibe. Por otro lado, Google también evalúa a las páginas que emiten los votos, por lo que los votos emitidos por páginas en sí mismas “importantes” tienen más valor y puntúan más a la hora de hacer “importantes” a otras páginas. Las páginas importantes y de gran calidad reciben una valoración superior en PageRank y se ordenan o clasifican en una posición más alta dentro de los resultados.

PageRank.

PageRank (PR) es un valor numérico que representa la importancia que una página web tiene en Internet. Google se hace la idea de que cuando una página coloca un enlace (link) a otra, es de hecho un voto para esta última.

Cuantos más votos tenga una página, será considerada más importante por Google. Además, la importancia de la página que emite su voto también determina el peso de este voto. De esta manera, Google calcula la importancia de una página gracias a todos los votos que reciba, teniendo en cuenta también la importancia de cada página que emite el voto.

Por lo tanto PageRank es la manera que tiene Google de decidir la importancia de una página. Es un dato valioso, porque es uno de los factores que determinan la posición que va a tener una página dentro de los resultados de la búsqueda. No es el único factor que Google utiliza para clasificar las páginas, pero sí es uno de los más importantes.

El valor del PageRank que observamos es un valor comprendido entre 0 y 10. Pero en realidad, el PageRank es un valor numérico mucho más alto, calculado en función de los enlaces que reciben nuestras páginas.

El valor real suele ser del orden de miles de unidades. Sin embargo, Google toma su valor logarítmico para hacerlo visible a los usuarios. La base de este logaritmo es desconocida.

Para calcular el PageRank de una página los creadores de google proponen la siguiente fórmula:

PR(A)= (1-d) + d*[PR(T1)/C(T1)+ … + PR(Tn)/C(Tn)]

Donde:

‘d’ es el valor de atenuación.

‘Ti’ es cada página que enlaza a A.

‘PR(Ti)’ es el PageRank de cada una de las páginas que enlaza a ‘A’.

‘C(Ti)’ es el número de enlaces que salen desde cada página ‘Ti’.

Existen páginas en Internet que nos permiten calcular el PageRank de nuestras páginas. Un ejemplo es la siguiente:

www.MiPageRank.com

Reglas básicas de búsqueda en Google.

A la hora de realizar búsquedas debemos tener claro un par de puntos que exponemos a continuación:

  • Las consultas en Google no distinguen entre mayúsculas y minúscu- las.
  • Corrección de sintaxis. El motor de búsqueda de Google nos orienta cuando cree que en nuestras sentencias de búsqueda hemos cometido algún error sintáctico al escribirla. Para hacer este tipo de correcciones se basa en un diccionario de términos interno en el que consulta y también en el número de resultados que ofrecería si cambiara algún término.
  • Eliminación de palabras en la búsqueda automáticamente. El motor de búsqueda de Google elimina en la búsqueda ciertas palabras como los artículos y demás componentes del lenguaje que sirven para unir palabras.
  • Busca sólo palabras completas.
  • Busca palabras sueltas, no frases.Google busca palabras, no frases con las palabras en el orden que las hemos escrito en la caja de búsque- da. Si quieres que busque una frase completa debes escribirla entre comillas dobles. No es lo mismo “al alba” que escrito sin comillas. En el primer caso encontraremos algo sobre la canción “Al alba” de L. E. Aute, mientras que escrito sin comillas encontrarás páginas con la palabra “alba”. Esto es debido a que Google ignora una serie de palabras que no considera significativas.
  • El orden de las palabras importa. No es simétrico. No es lo mismo buscar “cursos word” que “word cursos”, esto es algo que no hemos encontrado en la documentación de Google, pero que hemos podido comprobar. Aunque en la mayoría de los casos, las diferencias al variar el orden de los términos de búsqueda son pequeñas
  • El país desde el que se busca importa.Google tiene en cuenta el país en el que estás, aún dentro del mismo idioma, no es lo mismo buscar en http://www.google.es que en http://www.google.com.mx, aunque bus- quemos siempre en castellano.
  • Traducción. Si buscamos palabras en Inglés desde Google en español (www.google.es) obtendrás páginas en Inglés, pero con un enlace que dice: [traduzca esta página], por si quieres que Google te traduzca la página. La traducción no es perfecta pero puede serte útil.

Técnicas avanzadas de búsqueda en Google.

Google cuenta con operadores avanzados de búsqueda que nos pueden ayudar a encontrar lo que buscamos más rápidamente. La sintaxis básica de un operador avanzado en Google es la siguiente:

Operador: término_de_búsqueda

Es bueno tener en cuenta una serie de recomendaciones de uso básicas a la hora de utilizar este tipo de operadores.

No se debe poner un espacio entre el operador, los dos puntos y el término de búsqueda.

Como término de búsqueda se puede incluir una palabra o una frase delimitada por comillas dobles.

Los operadores avanzados que comienzan por la palabra reservada ALL, son especiales, se utilizan una sola vez en la consulta y no se pueden mezclar con otros operadores.

La lista de comandos avanzados son los siguientes:

§ Intitle: restringe la busqueda a los títulos de las páginas. Por ejemplo: intitle:”virus passer”.

§ allintext:[palabra o palabras clave] – busca la palabra o palabras clave solo en el texto de la página, sin tomar en cuenta el título o la URL.

§ Inurl: busca sólo en las URLs que indiquemos. Supongamos que estás buscando en diversas páginas Web las secciones en las que puedes registrar tu currículo vitae. La sintaxis tiene que ser esta: inurl:”empleo”. O inurl:currículo.

§ allinurl:[palabra o palabras clave] : mostrará resultados en cuyo URL incluya la palabra o palabras clave. Por ejemplo, si buscamos allinurl:perro que ladra, mostrará solo los resultados donde la URL contenga las palabras ‘perro que ladra’.

§ Intext: este comando comprueba solo el cuerpo del texto, e ignora el título y los enlaces. Un ejemplo : intext:samuray.

§ Inanchor: esta síntesis permite buscar las descripciones de enlaces dentro de una sola página (los anchors o anclas). Por ejemplo, si quieres limitar tu búsqueda a la página principal de http://www.sgel.es, podrás utilizar esta sintexis: inanchor: “sociedad general española de librerías”.

§ Site: te permite realizar tu búsque- da en un solo sitio o dominio. Por ejemplo: site:uniovi.es, que devuelve solo páginas de la Univer- sidad de Oviedo. O también: site: edu, que devuelve solo resultados de webs en el dominio .edu.

§ Link: devuelve una lista de páginas que apuntan a una URL concreta. No hace falta teclear http://. Por ejemplo: link:www. uniovi.es. Esta búsqueda devolverá un listado de páginas que cuenten con un enlace al sitio de la Universidad de Oviedo.

§ Cache: Esta sintaxis busca una copia de una página determinada, indexada por Google, aunque no esté ya disponible o haya sufrido modificadores. Mira este ejemplo : cache:www.elpais.es.

§ Daterange: restringe tu búsqueda al periodo en el que fue indexada la página. Al usar esta sintaxis es muy importante tener en cuenta que la fecha en la que se indexó la página no es la misma que la de su creación. Un ejemplo: technology daterange: 2452389-2452389.

§ Related: detecta páginas depen- dientes o relacionadas con una pá- gina Web concreta. Ej.: http://www.aol.com.

§ define:[palabra o palabras clave] : con define Google nos da una definición de la palabra o palabras clave, las definiciones son tomadas generalmente de enciclopedias online (Wikipedia, por ejemplo). Este es uno de los operadores que más me gusta, cuando no entiendas que rayos significa asdf, simplemente tipea: define:asdf. Incluso ordena los resultados por idioma.

También podemos configurar los resultados de una búsqueda a través de la propia URL que Google usa tras la consulta, y que podemos ver en la barra de direcciones del navegador.

Ej. : http://www.google.com/search?num=100&hl=en&q=%22denial+service%22

Vamos ahora a dividir en partes esta URL:

o num:100, se refiere al número de resultados de la búsqueda que se van a mostrar en una página. En este caso 100. Google acepta cualquier número el 1 al 100.

o hl=en significa que el lenguaje predeterminado que utiliza la interfaz del Google es el inglés.

o q: texto o sentencias a buscar.

 

Construcción de un formulario de búsqueda para nuestra Web

Para hacer búsquedas más específicas, merece la pena personalizar tu propio formulario de búsqueda, algo que podemos hacer basándonos en este ejmplo:

<!–BuscadorGoogl–> <form method=”get” action=http://www.google.com/search> <input type=”text” name=”q” size=31maxlength=255 value=””> <input type=”Submit” name=”sa” value=Search Google”> </form> <!—Buscador Google>

Este sería el esqueleto y podemos hacer cosas como esta:

Supongamos que queremos buscar en el sitio www.Sanluis.com todos los archivos que haya en formato pdf, mostrando sólo cinco resultados por página. El formulario será este:

!–Buscar pdfs con Google –¡>

<form method=”get” action=http://www.google.com/search>

<input type=”text” name=”q” size=31 maxlength=255 value=””>

<input type=”hidden” name=”as_filetype” value=”pdf”>

<input type=”hidden” name=”as_sitesearch” value=”tompeters.com”>

<input type=”hidden” name=”num” value=”5”>

</form>

Técnicas hacking.

A la hora de hacer búsquedas en Google y buscar información a través de él, la privacidad es alta, pues es el propio buscador el que hace las peticiones por nosotros. De todas formas será muy útil valerse de un servidor Proxy para hacer las peticiones en Internet y así ocultar totalmente nuestra conexión.

Podemos utilizar a su vez Google para localizar algún servidor Proxy con el que proteger la identidad de nuestra conexión.

Con las siguientes sentencias de búsqueda podemos encontrar servidores Proxy públicos en linea:

Inurl:”nph-peoxy.cgi” “Start browsing”

“this proxy is working fine!” “enter *” “URAL***” * visit

Después de esconder nuestra cone- xión podemos comenzar con la búsqueda de información. Dividiremos esta búsqueda en varios apartados.

  • Listado de directorios.

Debido al descuido de muchos administradores de sistemas es posible acceder a archivos a los que no debiéramos tener acceso. Para conseguir que Google busque este tipo de listado de archivos podemos utilizar la siguiente sentencia:

Intitle: “Index of” “index of”

Con esta consulta Google devuelve los resultados de todas aquellas páginas que contienen en su título la frase “Indexo f” y además las que también lo tienen en el texto de la página.

Puede que con esta sentencia no consigamos los resultados que buscamos por lo que podemos restringir un poco más la búsqueda y utilizar la siguiente sentencia:

Intitle:Index.of “Index of” “Parent Directory”

Pero todavía podemos ir un poco más adelante y probar con sentencias del tipo:

Intitle:Index.of “Index of” “Parent Directory” passwd

  • Buscando ficheros.

Hay ocasiones en los que nos puede interesar encontrar cierto tipo de ficheros que nos pueden dar información de acceso a ciertos servidores. Los ficheros que nos pueden interesar pueden ser: ficheros de contraseñas, ficheros de configuración y ficheros de log.

Un ejemplo de busqueda de un fichero específico es el siguiente:

Filetype:ini ws_ftp.ini

También podemos basarnos en buscar este tipo de ficheros en listas de directorios. Para ello podemos utilizar la siguiente consulta:

Intitle:Index.of “Index of” “Parent Directory” intext:ws_ftp.ini

Buscar archivos de contraseñas es algo más dificil. Normalmente debemos buscar archivos de aplicaciones específicas que conozcamos. Algunos ejemplos de bús- queda son los siguientes:

intitle:“Index of/” “Indexo f/” “Parent Directory” WS_FTP.ini filetype:ini. Ficheros de configuración donde puede haber contraseñas de acceso a servidores FTP.

Filetype:bak inurl:”htaccess|passwd |shadow|htusers”. Ficheros de copia de seguridad donde se puede encontrar infor mación sobre usuarios y contraseñas.

Filetype:sql(“passwd values****| “password values****|”pass values****”). Ficheros de código SQL y contraseñas en Base de datos.

Inurl:admin. Intitle:index.of inurl:backup. Listado de directorios con ficheros de administración y backup.

Intitle:”Index of” pwd.db. Ficheros pwd.db que pueden contener nombres de usuarios y contraseñas encriptadas.

Filetype:mdb inurl:”account|users|admin| administrators|passwd|password”. Ficheros de Acceso que pueden tener información relevante sobre contraseñas.

Ext:pwd inurl😦service|authors|administrators|users)”# -FrontPage-“. Ficheros con posibles contraseñas del programa FrontPage.

Filetype:conf slapd.conf. Ficheros de configuración de la aplicación OpenLDAP.

Filetype:sql(“passwd values****”| “password values****”| “pass values****2). Ficheros de código SQL y contraseñas en Base de datos.


Versiones de servidores Web.

Podemos utilizar Google para buscar los números de versión de las aplicaciones web. Esto nos puede ayudar a la hora de utilizar exploits.

Sabemos que tras la instalación de un servidor Web hay una serie de páginas estándar de error y plantillas, con las cuales, el servidor interactúa de manera dinámica con el usuario ante ciertas peticiones. Nuestra misión en este caso, para descubrir cierto tipo de servidores de Internet, es saber qué estructura y palabras reservadas siguen estas páginas y decirle a Google que nos busque servidores de Internet de las versiones que queramos y luego buscar exploits y agujeros de seguridad de dichas versiones para hacernos con el control de los mismos.

A continuación mostramos una lista de sentencias para buscar este tipo de información:

<!–[if !supportLists]–> <!–[endif]–>“Apache/1.3.28 Server at” intitle:index.of.

<!–[if !supportLists]–> <!–[endif]–>“Apache/2.0 Server at” intitle:index.of.

<!–[endif]–>“Apache/* Server at” intitle:index.of.

<!–[if !supportLists]–> <!–[endif]–>“Microsoft-IIS/4.0 Server at” intitle: index.of

<!–[if !supportLists]–> <!–[endif]–>Intitle:”Welcome to IIS 4.0!”

<!–[if !supportLists]–> <!–[endif]–>“Microsoft-IIS/5.0 Server at” intitle: index.of

<!–[if !supportLists]–> <!–[endif]–>Intitle:”Welcom to Windows XP Server Internet Services”

<!–[if !supportLists]–> <!–[endif]–>“Oracle HTTP Server at” intitle:index.of

<!–[if !supportLists]–> <!–[endif]–>IBM_HTTP_Sercer/* *Server at” intitle: index.of

<!–[if !supportLists]–> <!–[endif]–>“Netscape/* Server at” intitle:index.of

<!–[if !supportLists]–> <!–[endif]–>“Red Hat Secure/*” intitle:index of

<!–[if !supportLists]–> <!–[endif]–>HP Apache-based Web Server/*” intitle: index.of

<!–[if !supportLists]–> <!–[endif]–>Intitle:”Test Page for the SSL/TLS-aware Apache installation” “Hey, it worked!”

<!–[if !supportLists]–> <!–[endif]–>Intitle:”Test Page for the Apache Web Server on Red Hat Linux”

7 comentarios sobre “Google.Aprendiendo un poco más.”

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s