Llegamos a ustedes gracias a:



Noticias

Nuevo software detecta bots revisando datos del sitio web

[04/11/2009] Los sitios web, tales como aquellos que muestran ofertas de empleo, enfrentan un persistente problema: sus datos son constantemente hurtados por bots automatizados.

Los datos terminan en otros sitios web de empleo, que han robado el contenido. Es un problema que plaga cualquier sitio web cuya propiedad intelectual deba ser publicada gratuitamente, o incluso a aquellos con modelos de suscripción.
Sin embargo, una compañía de seguridad de Atlanta que se especializa en detectar bots ha desarrollado un software que puede detectar aquellos que hacen búsqueda y minería de datos.
El producto principal de Pramana, HumanPresent, detecta bots automatizados que, por ejemplo, ingresan spam en formularios web o se registran en cuentas de correo electrónico gratuitas para usarlas en spam.
Pramana ha desarrollado ahora un módulo llamado data mining and screen scraping prevention para HumanPresent. Funciona sobre muchos de los mismos principios que su producto principal pero ha sido modificado para escenario de minería de datos, señaló David Crowder, CEO de Pramana.
HumanPresent puede detectar bots notando las diferencias en la forma en que un humano normalmente interactuaría con una página web y contrastándola con la forma en que se comportan los bots. Observa más de 30 métricas, tales como las pulsaciones en el teclado, clics en el mouse, y el tiempo en que se realizan estas acciones.
HumanPresent observa transacciones únicas, pero el módulo de minería de datos ha sido modificado para observar un periodo de tiempo en el que un bot o un humano se encuentra en el sitio, señaló Crowder.
Los bots de minería de datos tienden a sortear completamente la interfase de usuario de un navegador. Por ejemplo, un bot podría solicitar un sitio web con muchos datos, pero nunca hace scroll o clic en una página. Si un grupo de páginas son abiertas y vistas de esa forma, podría significar que se trata de un bot de minería de datos.
Pramana asigna un ID único al visitante, y luego de analizar el comportamiento del visitante, puede tomar la decisión de si considerar al visitante como bot o no. Hay muchas diferentes formas en que un operador de un sitio web puede elegir tratar con la situación.
La dirección IP (Internet Protocol) de la computadora del bot puede ser bloqueada permanentemente. Un sitio web de subasta de autos que está evaluando el módulo de minería de datos de Pramana, decidió trasladar los bots sospechosos a una sandbox en donde se proporcionan datos completamente falsos. De hecho están haciendo minería de datos, pero totalmente equivocada, sostuvo Crowder.
Otras opciones incluyen presentar al visitante del sitio web un desafío o tarea, que algunos bots no pueden realizar.
La minería de datos les cuesta mucho a las compañías. Las empresas que venden datos premium encuentran que sus competidores compran una suscripción y luego usan bots automatizados para robar los datos para sus propios sitios. En un ejemplo, un sitio web que tiene gigabytes de datos sobre precios de autos usados encontró que sus datos habían sido capturados y se encontraban a la venta en eBay. Realmente está compitiendo con su propio contenido, indicó Crowder.
Algunos sitios web tienen diseños pobres que hacen que la captura de datos sea mucho más fácil. El sitio de autos usados tenía URL (Uniform Resource Locators) que podían ser secuencialmente modificados para revelar más datos, indicó Crowder.
El módulo de minería de datos será empaquetado en HumanPresent por el momento, pero en este año Pramana planea venderlo en forma separada, indicó Crowder. Pramana ofrece HumanPresent como un appliance on-premise o como una configuración de software como servicio.
Para la oferta SaaS (software as a service), la tecnología de Pramana se encuentra integrada en una aplicación web y la información de las sesiones es devuelta a Pramana para su análisis. Crowder afirmó que Pramana ha podido reducir significativamente el tiempo de latencia en su versión más reciente. Para los clientes que necesitan más velocidad, se encuentra disponible un appliance.
Jeremy Kirk, IDG News Service