Noticias
21/08/2023

¿Cómo bloquear GPTbot de OpenAI? Y, ¿por qué deberías hacerlo?

Por Carrero

Compartir en Whatsapp Compartir en Facebook Compartir en X

OpenAI, la compañía que ha cambiado el juego en el mundo de la inteligencia artificial con sus modelos de lenguaje como GPT-3.5 y GPT-4, ha desvelado un nuevo jugador en el campo del rastreo web: GPTBot. Si bien su capacidad para recopilar información y nutrir los modelos de OpenAI es impresionante, surge una pregunta esencial: ¿deberías permitirle acceso a tu sitio web? Y si decides bloquearlo, ¿cómo hacerlo?

¿Qué hace GPTBot?

Todos los modelos de lenguaje, o LLMs, tienen una fecha de corte en sus datos de entrenamiento. Por ejemplo, GPT-3.5 terminó su aprendizaje en junio de 2021, mientras que GPT-4 lo hizo en septiembre de 2022. Para que estos modelos sigan siendo relevantes y precisos, necesitan información actualizada. Y aquí es donde entra GPTBot.

Anteriormente, OpenAI podía depender de bots no identificados o utilizar rastreos de la web realizados por terceros, como CommonCrawl. Ahora, con GPTBot, OpenAI tiene la herramienta para hacer su propio rastreo y recolección de datos. Esta herramienta está diseñada para evitar sitios con muros de pago y contenido con información personal. Sin embargo, otras páginas web están en su radar a menos que se tomen medidas.

La otra cara de la moneda: ChatGPT-User

Aunque GPTBot es el principal protagonista en este escenario, hay otro bot con el que deberías estar familiarizado: ChatGPT-User. Es el encargado de visitar sitios web cuando utilizamos ChatGPT en modo navegación, permitiendo que este modelo IA interactúe con el contenido web en tiempo real. Al igual que GPTBot, ChatGPT-User sigue las reglas de robots.txt, lo que significa que también puede ser bloqueado.

¿Por qué considerar bloquear estos bots?

Monetización del Contenido: Si tu sitio web genera ingresos a través de la publicidad, cada visita cuenta. Aunque los bots no visualizan anuncios, pueden usar tu contenido, lo que podría reducir la necesidad de visitas humanas en el futuro.
Propiedad del Contenido: Grandes empresas como Amazon ya han mostrado resistencia hacia estos bots, ya que valoran el contenido único y la información que han acumulado durante años.
Contenido de Usuario: Sitios como Menéame, Reddit o Twitter que alojan contenido generado por usuarios podrían no querer compartir este tesoro de datos con empresas externas sin una compensación.

¿Y si no monetizas tu sitio?

Aquí es donde las aguas se vuelven turbias. Si tienes un blog personal o un sitio corporativo que no depende de la publicidad, podrías considerar permitir que OpenAI tenga acceso. Al hacerlo, tu contenido podría influir en futuros modelos, lo que podría verse como una forma de contribuir a la comunidad de IA.

¿Cómo bloquear a GPTBot y ChatGPT-User?

Si has decidido que es en el mejor interés de tu sitio web restringir estos bots, OpenAI ha proporcionado las instrucciones:

Para bloquear completamente ambos bots:

User-agent: GPTBot
Disallow: /
User-agent: chatGPT-user
Disallow: /

Para bloqueos específicos por directorio:

User-agent: GPTBot
Allow: /directorio-permitido-1/
Disallow: /directorio-denegado-2/

Aunque estas instrucciones están claras, la responsabilidad última está en OpenAI para respetar y seguir estas directrices.

En resumen

La evolución de la inteligencia artificial y la recopilación de datos es una calle de doble sentido. Si bien las herramientas como GPTBot y ChatGPT-User ofrecen avances emocionantes en el mundo de la IA, los administradores web deben sopesar cuidadosamente los pros y contras antes de decidir su relación con estos bots. Con la información y las herramientas proporcionadas, ahora tienes el poder de decidir cómo interactuar con el futuro de la inteligencia artificial en la web.

Compartir en Whatsapp Compartir en Facebook Compartir en X

Carrero

Uno de los fundadores de Diario de Castilla-La Mancha. Me encanta la tecnología y las redes.

– patrocinadores –

Síguenos en redes

Noticias destacadas

Aquel primer día de colegio

– patrocinadores –

El fin de semana será soleado sin lluvia y con temperaturas veraniegas en casi todos los puntos de España

Castilla-La Mancha registró 2.658 casos por infección de COVID del 25 de abril al 1 de mayo en personas mayores de 60 años

Activado el METEOCAM en toda Castilla-La Mancha, ante la previsión de fuertes lluvias y tormentas durante el día de hoy

Castilla-La Mancha se suma a la petición de poner fin a las importaciones de la Unión Europea de petróleo, gas y carbón rusos

Noticias relacionadas

EEUU autoriza el desembarco de un petrolero ruso en Cuba: ‘La supervivencia es la prioridad’

El Eco de un Adiós: La Nieta Desencantada y el Regreso de Pelayo

Mensaje Presidencial en Conmemoración del Día Nacional de los Veteranos de la Guerra de Vietnam

Ciudad real se posiciona en el mapa internacional con el Circuito Europeo de Esgrima U14

La falta de efectividad condena al Quesos El Hidalgo Manzanares F.S. a otro tropiezo en la liga

Resumen de la Última Jornada del Grupo A y Play Off del Grupo B de la Liga STM

Auto2MAS: ¡Intenso Partido de Octavos de Final en el Play Off de Ascenso!

Triunfo de Beatriz Lérida en el Campeonato de España de Natación: Oro en su categoría