Análisis de los puntos débiles en los sistemas de estadísticas web E-Mail

Visitas desde .COM .NET .EDU y .ORG

En los reportes sobre el origen geográfico de las visitas puedes ver cuántos accesos has tenido desde España, México, Argentina, etc. Pero posiblemente veas entre los países, que te han visitado desde "EEUU Comercial (.com)", o desde ".net y .org". Difícilmente las visitas que dicen ser de "EEUU Comercial (.com)" realmente provengan de Estados Unidos, ya que el dominio COM puede estar asociado a una máquina en cualquier lugar del mundo. Lo mismo para NET, EDU y ORG. Entonces ¿por qué el sistema de estadísticas no me da el lugar geográfico real de la visita, en lugar de decirme que es desde una red COM? Porque están utilizando una tecnología fácil pero inapropiada: la resolución DNS reversa.

Cuando llega una visita a un sitio web, obtenemos con ella el dato de la IP de la máquina que realizó la petición (ejemplo: 200.96.85.14). Entonces el sistema de estadísticas hace una búsqueda DNS reversa para esa IP, con el fin de obtener el nombre de la máquina.

Si usas Linux, prueba ejecutar el siguiente comando: "dig -x 200.96.85.14" entonces obterndrás el nombre de la máquina que tiene asociada esa dirección IP (en este caso 200-096-085-014.smace7003.dsl.brasiltelecom.net.br). Luego se analiza el nombre de la máquina, para ver si se obtiene información sobre el país de origen... en el caso de nuestro ejemplo encontramos que el nombre termina en ".br", lo que nos indica que se trata de una visita desde Brasil.

¿Pero qué ocurre cuando la resolución DNS reversa nos devuelve algo así como "80.58.35.237.proxycache.rima-tde.net"? Si analizamos el nombre de la máquina, no encontraremos nada que nos permita determinar en qué país se encuentra. Entonces los sistemas de estadísticas baratos se contentan con decirnos que "es una visita desde .NET".

Es verdad, lo es. Pero cuando un sistema vuelca ese tipo de información en sus reportes, en realidad es para disimular su incapacidad para determinar la verdadera procedencia geográfica de la visita.

El método serio para determinar la situación geográfica de una dirección IP es mediante una base de datos de direcciones IP repartidas por países. Es el método que usan GeoIP (http://www.maxmind.com), o ip-to-country (http://ip-to-country.webhosting.info/) entre otros.

Visitas desde origen desconocido

Es una variante del problema tratado en el apartado anterior: cuando la resolución DNS reversa no arroja resultados, entonces no podemos obtener el nombre de la máquina desde la cual recibimos la visita. Este problema desaparece cuando se usa una base de datos asociando IPs con nombres de países, como ya se explicó.

Pero subsiste el problema de qué es lo que ocurre si la base de datos no está actualizada con respecto a las nuevas asignaciones IP por parte de los organismos de control (APNIC para Asia y el Pacífico, ARIN para Norteamérica, LACNIC para Latinoamérica y el Caribe, y RIPE para Europa, Africa del norte y Rusia). La única solución fiable es la permanente actualización y corrección de las bases de datos de IPs por parte de nuestro proveedor de estadísticas.

¿Dónde reside el "motor" del sistema de estadisticas?

Un Sistema de Estadísticas web puede ser un software instalado en tu propio servidor*, o puede ser un software instalado en otro lugar. Existe una antigua polémica acerca de la conveniencia de una u otra forma de monitorización de un sitio web. Para despejar nuestras dudas al respecto, en el año 2002 hicimos una serie de experimentos que arrojaron resultados esclarecedores:

El experimento consistió en la creación de una página web bajo un dominio no público (lo cual nos garantizaba que no se recibirían visitas reales bajo ningún concepto). Se programó un agente de usuario especial, preparado para realizar una serie de 200.000 peticiones sobre la página en pruebas (mostrando diferentes cabeceras HTTP según una secuencia conocida: variando el agente de usuario, el uso de diversos proxys en distintos lugares del mundo, la densidad de peticiones por unidad de tiempo, etc).

Entonces se "disparó" el generador de visitas, que cumplió con sus 200.000 visitas en un lapso de 24 horas, mientras la página web era monitorizada por 10 sistemas de estadísticas diferentes (5 nuestros y 5 sistemas comerciales). Al final de la prueba, todos los sistemas de estadísticas arrojaron diferentes resultados.

Pero lo más interesante del experimento es que en el propio servidor de la página web habíamos instalado un sistema de medición, idéntico al que utilizamos desde otros 4 Servidores en forma remota, y los cinco dieron resultados ligeramente diferentes. De ahí se deduce que un mismo software de control de tráfico web monitorizando un sitio desde su propio servidor difiere en precisión con respecto a la monitorización remota.

La información más exacta se obtuvo SIEMPRE desde el sistema de control que se encontraba funcionando en el propio servidor del sitio web (la actividad sobre el sitio ya se conocía de antemano al provenir 100% de un simulador de tráfico programado por nosotros mismos). Los experimentos se repitieron durante meses, variando los emplazamientos de los monitores remotos, las características de las páginas web usadas, el software de simulación de tráfico, la densidad de las muestras, etc. Se llegó a muchas conclusiones cuyo análisis está fuera del cometido de este artículo.

Pero en lo concerniente a este artículo, nuestra conclusión fue: Los sistemas de monitorización remota son menos fiables que aquellos que se encuentran instalados en el propio servidor web del sitio monitorizado.

* Vamos a dejar de lado el estudio de los programas conocidos como "Analizadores de logs", que analizan los archivos de registro de actividad generados por el propio servidor. Estos registros son sin duda la fuente de información más fiel acerca de qué es lo que ocurre en un sitio web. Pero su uso resulta engorroso, y la información que se obtiene es incompleta (no especifica las capacidades del browser en cuanto a plugins, por ejemplo), y no pueden identificar clientes detrás de proxys o NATs.

Conclusión

Son muchas las variables en que los sistemas gratuitos de estadísticas web realizan un "redondeo" de la información, que deriva en la generación de reportes completamente alejados de la realidad. Los más graves errores surgen de la confusión de "visita" con "acceso", y de la falta de monitorización en las páginas internas del sitio web.