OpenAI, la compañía que ha cambiado el juego en el mundo de la inteligencia artificial con sus modelos de lenguaje como GPT-3.5 y GPT-4, ha desvelado un nuevo jugador en el campo del rastreo web: GPTBot. Si bien su capacidad para recopilar información y nutrir los modelos de OpenAI es impresionante, surge una pregunta esencial: ¿deberías permitirle acceso a tu sitio web? Y si decides bloquearlo, ¿cómo hacerlo?
¿Qué hace GPTBot?
Todos los modelos de lenguaje, o LLMs, tienen una fecha de corte en sus datos de entrenamiento. Por ejemplo, GPT-3.5 terminó su aprendizaje en junio de 2021, mientras que GPT-4 lo hizo en septiembre de 2022. Para que estos modelos sigan siendo relevantes y precisos, necesitan información actualizada. Y aquí es donde entra GPTBot.
Anteriormente, OpenAI podía depender de bots no identificados o utilizar rastreos de la web realizados por terceros, como CommonCrawl. Ahora, con GPTBot, OpenAI tiene la herramienta para hacer su propio rastreo y recolección de datos. Esta herramienta está diseñada para evitar sitios con muros de pago y contenido con información personal. Sin embargo, otras páginas web están en su radar a menos que se tomen medidas.
La otra cara de la moneda: ChatGPT-User
Aunque GPTBot es el principal protagonista en este escenario, hay otro bot con el que deberías estar familiarizado: ChatGPT-User. Es el encargado de visitar sitios web cuando utilizamos ChatGPT en modo navegación, permitiendo que este modelo IA interactúe con el contenido web en tiempo real. Al igual que GPTBot, ChatGPT-User sigue las reglas de robots.txt, lo que significa que también puede ser bloqueado.
¿Por qué considerar bloquear estos bots?
- Monetización del Contenido: Si tu sitio web genera ingresos a través de la publicidad, cada visita cuenta. Aunque los bots no visualizan anuncios, pueden usar tu contenido, lo que podría reducir la necesidad de visitas humanas en el futuro.
- Propiedad del Contenido: Grandes empresas como Amazon ya han mostrado resistencia hacia estos bots, ya que valoran el contenido único y la información que han acumulado durante años.
- Contenido de Usuario: Sitios como Menéame, Reddit o Twitter que alojan contenido generado por usuarios podrían no querer compartir este tesoro de datos con empresas externas sin una compensación.
¿Y si no monetizas tu sitio?
Aquí es donde las aguas se vuelven turbias. Si tienes un blog personal o un sitio corporativo que no depende de la publicidad, podrías considerar permitir que OpenAI tenga acceso. Al hacerlo, tu contenido podría influir en futuros modelos, lo que podría verse como una forma de contribuir a la comunidad de IA.
¿Cómo bloquear a GPTBot y ChatGPT-User?
Si has decidido que es en el mejor interés de tu sitio web restringir estos bots, OpenAI ha proporcionado las instrucciones:
Para bloquear completamente ambos bots:
User-agent: GPTBot
Disallow: /
User-agent: chatGPT-user
Disallow: /
Para bloqueos específicos por directorio:
User-agent: GPTBot
Allow: /directorio-permitido-1/
Disallow: /directorio-denegado-2/
Aunque estas instrucciones están claras, la responsabilidad última está en OpenAI para respetar y seguir estas directrices.
En resumen
La evolución de la inteligencia artificial y la recopilación de datos es una calle de doble sentido. Si bien las herramientas como GPTBot y ChatGPT-User ofrecen avances emocionantes en el mundo de la IA, los administradores web deben sopesar cuidadosamente los pros y contras antes de decidir su relación con estos bots. Con la información y las herramientas proporcionadas, ahora tienes el poder de decidir cómo interactuar con el futuro de la inteligencia artificial en la web.