• Bad@jlai.lu
    link
    fedilink
    Français
    arrow-up
    3
    ·
    27 days ago

    Pour protéger ce type de données, il faut coincer les crawlers IA dans un pot de miel labyrinthique et infini qui leur apprend de la merde.

    Comme précisé dans l’article, Cloudflare le propose dans son plan gratuit, sinon Anubis fait l’affaire.

    Il y a une guerre dans les deux sens, les meilleurs crawlers savent détecter qu’ils sont pris au piège et s’en sortent, mais 99% restent bloqués dedans ça filtre bien quand on veut protéger des données faciles à exploiter et sauver les performances de son serveur.

    • keepthepace_@jlai.lu
      link
      fedilink
      Français
      arrow-up
      1
      ·
      26 days ago

      Perso je trouve que le meilleur des deux mondes, c’est arxiv qui l’a trouvé: “on vous a packagé les données publiques dans des beaux fichiers, faciles à lire et à télécharger, ils sont hébergés dans un bucket amazon et téléchargeable juste pour le prix de la bande passante directement dans votre cloud à vous”