Turbolab & IA: quale politica?

Messaggio da **CUB3** » mar set 02, 2025 5:10 pm

Zane ha scritto: dom apr 13, 2025 11:19 pm
l'altro è lo scraping del sito per addestramento
Al momento possiamo sicuramente valutare di aggiungere al robots.txt le direttive anti-scraping. Ma ho i miei seri dubbi che vengano rispettate, soprattutto considerata la fame di dati che hanno e gli interessi economici in gioco. D'altro canto, non ho nemmeno intenzione di mettermi a impazzire mettendo blocchi che magari funzionano anche oggi, ma che richiederebbero manutenzione costante per continuare a funzionare anche domani.

Lo segnalo qui per non aprire un altra discussione:
Cloudflare mette a disposizione (per adesso in beta privata) una protezione per lo scraping delle IA rispolverando un codice HTTP dimenticato, il 402, ovvero Richiesta di pagamento per accedere al contenuto. Se dovesse funzionare potrebbe essere un'altra fonte di sostegno per il nostro forum?

Messaggio da **CUB3** » dom nov 02, 2025 3:06 pm

Secondo questo sviluppatore Russo, per bloccare gli scraper AI non è necessario Anubis (di cui avevo scritto qualche tempo fa)

CUB3 ha scritto: lun apr 14, 2025 9:26 am Per bloccare lo scraping delle IA avevo letto di Anubis ...

Questo contenuto è nascosto, ma senza JavaScript non puoi gestirlo correttamente. Passa con il mouse sopra a questo testo per visualizzarlo!

CUB3 ha scritto: lun apr 14, 2025 9:26 am Per bloccare lo scraping delle IA avevo letto di Anubis ...

Ma, dato che gli scraper AI, per il momento, non supportano i javascript, è sufficiente impostare un cookie tramite questo linguaggio per bloccarli.

Zane, che dici, è una soluzione attuabile anche per Turbolab?

Zane · Messaggio da **Zane** » dom nov 02, 2025 6:10 pm

Vorrei non-attivare Cloudflare (vecchie esperienze negative, e sui siti di alcuni grossi clienti sul quale lo sto attivando al lavoro non è che proprio sia "efficacissimo"...)

In merito all'altra idea cookie-based: così di primo acchito mi preoccupano le implicazioni SEO (Googlebot e crawler vari riescono comunque a indicizzare?). Boh, da capire...

Messaggio da **CUB3** » lun nov 03, 2025 8:23 am

Non avevo pensato ai bot "buoni"...
Non sono molto pratico di queste cose, quindi ignorami pure se dico una scemenza, ma eventualmente sarebbe possibile autorizzarli senza il cookie in JavaScript magari con una regola basata sull'user-agent?

Zane · Messaggio da **Zane** » mar nov 04, 2025 6:56 am

Certo! Ma poi cosa succede se i "bot cattivi" scelgono di usare uno user-agent diverso? Succede che inizia una corsa a cambiare, modificare, cercare di intercettare, ... gioco che porta via un sacco di tempo (che io non ho)

Messaggio da **CUB3** » mar nov 04, 2025 7:46 am

Più che altro pensavo che sarebbe stato tedioso (e dispendioso in termini di tempo) tenere aggiornata la lista degli user-agent dei bot buoni ma non ho idea ogni quanto si aggiornino ne se c'è un modo per automatizzare l'aggiornamento.

Non mi preoccuperei tanto dei bot cattivi che si spacciano per buoni, considerando che comunque adesso (correggimi se sbaglio) i bot non sono limitati in alcun modo, pensavo fosse meglio impostare un paio di filtri per provare almeno a limitarne alcuni di quelli cattivi... insomma agire, sempre e comunque, come recita il detto: "minima spesa (di tempo), massima resa (possibile!)"

TurboLab.it

Turbolab & IA: quale politica?

Re: Turbolab & IA: quale politica?

Re: Turbolab & IA: quale politica?

Re: Turbolab & IA: quale politica?

Re: Turbolab & IA: quale politica?

Re: Turbolab & IA: quale politica?

Re: Turbolab & IA: quale politica?