Turbolab & IA: quale politica?

Ti piacciono il sito e la community? Questo è il posto giusto per lasciare commenti, suggerimenti e... critiche.
Regole del forum
Avatar utente
CUB3
Moderatore
Moderatore
Messaggi: 4755
Iscritto il: lun gen 26, 2015 10:13 am
Has thanked: 28 times
Been thanked: 28 times

Re: Turbolab & IA: quale politica?

Messaggio da CUB3 »

Zane ha scritto: dom apr 13, 2025 11:19 pm
l'altro è lo scraping del sito per addestramento
Al momento possiamo sicuramente valutare di aggiungere al robots.txt le direttive anti-scraping. Ma ho i miei seri dubbi che vengano rispettate, soprattutto considerata la fame di dati che hanno e gli interessi economici in gioco. D'altro canto, non ho nemmeno intenzione di mettermi a impazzire mettendo blocchi che magari funzionano anche oggi, ma che richiederebbero manutenzione costante per continuare a funzionare anche domani.
Lo segnalo qui per non aprire un altra discussione:
Cloudflare mette a disposizione (per adesso in beta privata) una protezione per lo scraping delle IA rispolverando un codice HTTP dimenticato, il 402, ovvero Richiesta di pagamento per accedere al contenuto. Se dovesse funzionare potrebbe essere un'altra fonte di sostegno per il nostro forum?
"Let me tell you a secret: when you hear that the machine is “smart”, what it actually means is that it’s exploitable." Mikko Hypponen
Avatar utente
CUB3
Moderatore
Moderatore
Messaggi: 4755
Iscritto il: lun gen 26, 2015 10:13 am
Has thanked: 28 times
Been thanked: 28 times

Re: Turbolab & IA: quale politica?

Messaggio da CUB3 »

Secondo questo sviluppatore Russo, per bloccare gli scraper AI non è necessario Anubis (di cui avevo scritto qualche tempo fa)
CUB3 ha scritto: lun apr 14, 2025 9:26 am Per bloccare lo scraping delle IA avevo letto di Anubis ...
Ma, dato che gli scraper AI, per il momento, non supportano i javascript, è sufficiente impostare un cookie tramite questo linguaggio per bloccarli.

Zane, che dici, è una soluzione attuabile anche per Turbolab?
"Let me tell you a secret: when you hear that the machine is “smart”, what it actually means is that it’s exploitable." Mikko Hypponen
Avatar utente
Zane
Fondatore
Fondatore
Messaggi: 5234
Iscritto il: mer mag 01, 2013 11:20 am
Has thanked: 39 times
Been thanked: 35 times
Contatta:

Re: Turbolab & IA: quale politica?

Messaggio da Zane »

Vorrei non-attivare Cloudflare (vecchie esperienze negative, e sui siti di alcuni grossi clienti sul quale lo sto attivando al lavoro non è che proprio sia "efficacissimo"...)

In merito all'altra idea cookie-based: così di primo acchito mi preoccupano le implicazioni SEO (Googlebot e crawler vari riescono comunque a indicizzare?). Boh, da capire...
Zane - TurboLab.it
Avatar utente
CUB3
Moderatore
Moderatore
Messaggi: 4755
Iscritto il: lun gen 26, 2015 10:13 am
Has thanked: 28 times
Been thanked: 28 times

Re: Turbolab & IA: quale politica?

Messaggio da CUB3 »

:acch Non avevo pensato ai bot "buoni"...
Non sono molto pratico di queste cose, quindi ignorami pure se dico una scemenza, ma eventualmente sarebbe possibile autorizzarli senza il cookie in JavaScript magari con una regola basata sull'user-agent?
"Let me tell you a secret: when you hear that the machine is “smart”, what it actually means is that it’s exploitable." Mikko Hypponen
Avatar utente
Zane
Fondatore
Fondatore
Messaggi: 5234
Iscritto il: mer mag 01, 2013 11:20 am
Has thanked: 39 times
Been thanked: 35 times
Contatta:

Re: Turbolab & IA: quale politica?

Messaggio da Zane »

Certo! Ma poi cosa succede se i "bot cattivi" scelgono di usare uno user-agent diverso? Succede che inizia una corsa a cambiare, modificare, cercare di intercettare, ... gioco che porta via un sacco di tempo (che io non ho)
Zane - TurboLab.it
Avatar utente
CUB3
Moderatore
Moderatore
Messaggi: 4755
Iscritto il: lun gen 26, 2015 10:13 am
Has thanked: 28 times
Been thanked: 28 times

Re: Turbolab & IA: quale politica?

Messaggio da CUB3 »

Più che altro pensavo che sarebbe stato tedioso (e dispendioso in termini di tempo) tenere aggiornata la lista degli user-agent dei bot buoni ma non ho idea ogni quanto si aggiornino ne se c'è un modo per automatizzare l'aggiornamento. :thinking
Non mi preoccuperei tanto dei bot cattivi che si spacciano per buoni, considerando che comunque adesso (correggimi se sbaglio) i bot non sono limitati in alcun modo, pensavo fosse meglio impostare un paio di filtri per provare almeno a limitarne alcuni di quelli cattivi... insomma agire, sempre e comunque, come recita il detto: "minima spesa (di tempo), massima resa (possibile!)" :)
"Let me tell you a secret: when you hear that the machine is “smart”, what it actually means is that it’s exploitable." Mikko Hypponen
Rispondi