Flavius Florin Harabor || 2088.it

🔍 Meta sta scansionando il tuo sito per addestrare la sua AI: ecco cosa devi sapere

Se gestisci un sito web oppure un e-commerce e ultimamente hai notato un picco anomalo di traffico, potresti aver ricevuto la visita di un ospite inatteso: meta-externalagent/1.1.

No, non è il solito crawler di Facebook che genera le anteprime quando condividi un link. Quello lo conosciamo bene, si chiama facebookexternalhit e fa il suo lavoro da anni senza dare troppo fastidio. Questo è diverso. Ed è il motivo per cui ho deciso di scrivere questo post.

Chi è meta-externalagent/1.1?
È un crawler ufficiale di Meta, documentato nella loro pagina dedicata ai web crawlers (https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/).

Il suo scopo principale non è generare anteprime social: è indicizzare contenuti web per addestrare modelli di intelligenza artificiale e migliorare i prodotti dell'ecosistema Meta, quindi Facebook, Instagram e tutto ciò che ci gira intorno.

In pratica, Meta sta facendo quello che fanno anche altri big player: raccogliere dati dal web aperto per alimentare i propri sistemi di AI.

La differenza è che molti webmaster se ne sono accorti nel modo peggiore, cioè guardando i log del server e trovando migliaia di richieste in poco tempo.

Perché dovresti preoccupartene?
Per due motivi concreti.

Il primo è il traffico: dopo alcuni test, ma soprattutto dopo che diversi colleghi e clienti mi hanno segnalato un incremento spropositato di visite da questo bot, al punto da rallentare il server.

Se hai un hosting condiviso o risorse limitate, questo può diventare un problema serio.

Il secondo è una questione di principio: i tuoi contenuti vengono utilizzati per addestrare modelli AI senza che tu debba necessariamente accettarlo.

Come gestirlo?
La buona notizia è che il crawler rispetta il file robots.txt. Quindi puoi intervenire in modo semplice e pulito.

Opzione 1 – robots.txt (la più semplice):
Aggiungi queste righe al tuo file robots.txt:

User-agent: meta-externalagent
Disallow: /

Se vuoi bloccare anche meta-externalfetcher, puoi aggiungere:

User-agent: meta-externalfetcher
Disallow: /

⚠️ Attenzione però: meta-externalfetcher è spesso legato al recupero dei metadati per le anteprime social.

Bloccarlo potrebbe impedire la corretta visualizzazione delle immagini quando qualcuno condivide i tuoi link su Facebook. Valuta bene.

Opzione 2 – .htaccess (per chi usa Apache):
Se il traffico è davvero aggressivo e vuoi un blocco più deciso a livello server:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.meta-externalagent. [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.meta-externalfetcher. [NC]
RewriteRule ^.* - [F,L]

Opzione 3 – Cloudflare o firewall:
Se usi Cloudflare, puoi creare una regola di Rate Limiting specifica per questo user-agent, limitando il numero di richieste al minuto senza bloccare tutto. È l'approccio più flessibile.

Il mio consiglio
Prima di bloccare qualsiasi cosa, vai a controllare i log del tuo server. Verifica quante richieste stai ricevendo da meta-externalagent e se stanno effettivamente impattando le performance.

Non agire alla cieca: assicurati soprattutto di non toccare facebookexternalhit, altrimenti le anteprime dei tuoi link su Facebook smetteranno di funzionare.

E soprattutto, tieni d'occhio la documentazione ufficiale di Meta per restare aggiornato su eventuali cambiamenti: https://developers.facebook.com/docs/sharing/webmasters/crawler/

La questione AI e scraping dei contenuti web è appena iniziata. Meglio sapere cosa succede sul proprio sito prima che sia qualcun altro a deciderlo per noi.

Tag: #AI #MetaAI #AIscraping #Scraping #MetaAIscraping

👍8❤7

636 views21:01

2 comments

About

Blog

Apps

Platform