Novità

AI bots are destroying Open Access?

Scritto da Giovanni Salucci

Oltre alle discussioni anche accese sull’utilizzo indiscriminato dei testi scientifici distribuiti ad Accesso Aperto come testi su cui si “addestrano” le piattaforme di Intelligenza Artificiale, sta emergendo una nuova criticità in chi gestisce siti e piattaforme per la distribuzione dei materiali: il fatto che i motori di indicizzazione (crawler) dei progetti di AI spesso si collegano “con una fame vorace” alle piattaforme stesse, e le mandano fuori servizio.

Sistemi di biblioteche digitali, archivi aperti, repository istituzionali sono nate negli anni dimensionate per servire le richieste di utilizzo da parte di lettori e utilizzatori fisici; sono sempre esistiti i crawler dei motori di ricerca (googlebot ad esempio) e degli aggregatori accademici, ma questi più o meno hanno sempre rispettato le indicazioni presenti nel robots.txt che dava loro indicazioni su cose indicizzare e cosa no.

in tempi recenti invece stiamo assistendo allo scaricamento indiscriminato degli archivi e dei materiali da parte di bot provenienti da piattaforme di AI che non rispettano minimamente le regole, anzi proprio perché sono dotate di CPU e di banda praticamente infinita, effettuano migliaia di richieste in contemporanea, portando spesso offline le piattaforme che contengono i materiali.

Si possono attivare delle controffensive (ad esempio limitando gli accessi contemporanei, oppure provando a filtrare a monte le richieste) ma il rischio di bloccare invece utenti normali, senza invece riuscire a bloccare i bot, è molto alto. Questi bot, infatti, utilizzano user-agent creati in modo casuale, e le richieste provengono da estesi blocchi di indirizzi IP, per cui le consuete modalità di intercettazione sono destinate a fallire.

Riuscire ad impedire questo accesso indiscriminato da parte dei bot AI alle risorse di distribuzione dei materiali ad accesso aperto rappresenta quindi un elemento da tenere in considerazione, all’interno degli aspetti di regolamentazione sull’uso dell’AI, quando sarà il momento opportuno!

Per approfondire:

https://go-to-hellman.blogspot.com/2025/03/ai-bots-are-destroying-open-access.html

Autore

Giovanni Salucci

Vive a Firenze, CEO di Progettinrete, si occupa di editoria accademica, di innovazione nei processi editoriali delle university press e di tutto ciò che riguarda la definizione dei flussi, la raccolta, gestione, archiviazione, indicizzazione, ricerca e distribuzione dell’informazione. Dal 2021 è docente di Laboratorio di editoria digitale all'Università di Firenze.