Web-Crawlers : Motores de Búsqueda (Search-Engines)

Como funcionan los Motores de Búsqueda (Search-Engines) ?

Con programas que simulan el funcionamiento de nuestros Navegadores ("Explorer" o "Netscape" ), estos programas comúnmente denominados "Robots" o "Web-Crawlers" pueden estar escritos en varios lenguajes (Perl,C.etc.) pero su funcionamiento básico depende del protocolo HTTP (Hyper Text Transfer Protocol).

HTTP

Cada vez que solicitamos una página en Internet, nuestro navegador (además de convertir el "nombre del sitio" a un nodo IP ( Véase DNS ), envía información que es denominada "HEADERS", esta información es interpretada por el servidor de páginas .Los "HEADERS" le informan al servidor de páginas una gran cantidad de cosas :

Los "HEADERS" que comúnmente envía un Navegador son los siguientes:

GET /index.html HTTP/1.0
User-Agent: Mozilla/4.51 
Accept: */*

Lo anterior indica que el cliente (Navegador o "Web-crawler") esta solicitando la página principal (index.html) del respectivo sitio, con la versión 1.0 HTTP , User-Agent indica que el cliente es : Mozilla version 4.51 (Mozilla es Netscape Navigator), y Accept: */* indica que esta dispuesto a aceptar todo tipo de información (GIF's,JPEG's,Java,etc).

Una vez analizados estos "HEADERS" por el servidor de páginas , éste envía sus respectivos "HEADERS" con la información pertinente. Estos HEADERS también son de suma importancia ya que le indican al Navegador o "Web-Crawler", como esta siendo enviada la información. Los "HEADERS" que típicamente envía un Servidor de páginas son los siguientes:

HTTP/1.0 200 OK
Last-Modified: Fri, 21  2003 08:57:12 GMT
Content-Type: text/html; charset=iso-8859-1
MIME-Version: 1.0
Date: Sat, 22 Nov 2003 12:16:41 GMT
Server: AOLserver
Content-Length: 4807

Lo anterior indica al cliente (Navegador o "Web-crawler"):

Gráficamente:

Solicitud de Robot

Este proceso es el que llevan acabo TODOS los "Servidores de Páginas " en Internet, los mejores servidores de páginas pueden ejecutar 20-30 por segundo, TODO en un "Host" con UN procesador pentium (500 Mhz) y 64 MB en RAM, claro esta que si se tiene un Sitio como Amazon.com , se requieren múltiples "Hosts" con múltiples procesadores y Gigas de Memoria RAM, pero eso es tema de servidores de páginas

Como funcionan los Motores de Búsqueda (Search-Engines) ?

Alta Vista , Google , Lycos y otros "Search-Engines" han diseñado varios "Web-Crawlers" (clientes) que diariamente rastrean TODO Internet

De la misma manera que usted solicita una página de Internet y la observa en su pantalla, un Robot ("Web-Crawler") simula lo que usted hace, solo que en vez observarla, guarda y clasifica toda la información que contiene la página y la guarda en una base de datos ; mediante el uso de "Web-Crawlers" compañias como Altavista y Google analizan cientos o miles de páginas por segundo, de manera que cuando usted acude a uno de estos Motores de Búsqueda (Search-Engines) ellos ya han logrado detectar y clasificar una gran cantidad de Información mediante el uso de Robots.

Los tags META

Existe un tipo de TAG en HTML utilizado por los distintos Motores de Búsqueda (Search-Engines) para clasificar información , este tag es denominado META , y debe ser incluido entre los TAGS HEAD de un documento, de la siguiente manera:

 
<HTML>
<HEAD>
<META name="keywords" content="robots, motores de búsqueda, español">
<TITLE> Documento Básico en HTML </TITLE>
</HEAD>
<BODY>
.........

Otra posibilidad es utilizar:

 
<META name="description" content="Funcionamiento de Web-Crawlers y su utilización de HTTP"> 
.........

Si se desea pueden ser agregadas ambas lineas al documento, estos TAGS no son obligatorios para que la información sea clasificada por el Motor de Búsqueda (Search-Engine), inclusive su utilización dependerá del diseño del "Web-Crawler", pero lo que se puede dar como un hecho es que cualquier Robot bien diseñado utilizará esta información para clasificar información con mayor relevancia.

Si esta pensando colocar miles de palabras "relevantes" entre los tags META de un documento solo para intentar que sus documentos sean considerados más relevantes, no servirá, ya que casi todos los motores de búsqueda utilizan un nivel de relevancia de tres palabras para estos META tags ,esto es, si escribe: dinero, dinero,dinero,dinero,dinero esto tiene la misma relevancia que dinero,dinero,dinero , además si escribe miles de palabras adicionales entre estos TAGS META pasaran a formar parte del documento, lo cual incrementará el tiempo de bajada del documento. Este tiempo de bajada adicional solo penaliza al "usuario final" ya que estas palabras son irrelevantes para un Navegador (no son desplegadas en pantalla)

Links: