Chiedo ai più bravi, ai comunicatori e divulgatori che sono corsi subito per parlare di Telegram, come mai da oltre due giorni non si parla della versione fake di WhatsApp?
Del fatto che Meta ha messo in guardia le persone coinvolte?
Come mai non c'è interesse per questa notizia da queste parti?
Vuoi vedere che non è ancora entrata in trend questa notizia oppure se come le piattaforme Meta potrebbero abbassare l'engagement si sceglie di non parlare. Non siamo mica scemi di perdere la visibilità.
🕖 Update:
🔗 https://t.me/thehackernews/8718
🔗 https://t.me/thehackernews/8723
Del fatto che Meta ha messo in guardia le persone coinvolte?
Come mai non c'è interesse per questa notizia da queste parti?
Vuoi vedere che non è ancora entrata in trend questa notizia oppure se come le piattaforme Meta potrebbero abbassare l'engagement si sceglie di non parlare. Non siamo mica scemi di perdere la visibilità.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
🔍 Meta sta scansionando il tuo sito per addestrare la sua AI: ecco cosa devi sapere
Se gestisci un sito web oppure un e-commerce e ultimamente hai notato un picco anomalo di traffico, potresti aver ricevuto la visita di un ospite inatteso: meta-externalagent/1.1.
No, non è il solito crawler di Facebook che genera le anteprime quando condividi un link. Quello lo conosciamo bene, si chiama facebookexternalhit e fa il suo lavoro da anni senza dare troppo fastidio. Questo è diverso. Ed è il motivo per cui ho deciso di scrivere questo post.
Chi è meta-externalagent/1.1?
È un crawler ufficiale di Meta, documentato nella loro pagina dedicata ai web crawlers (https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/).
Il suo scopo principale non è generare anteprime social: è indicizzare contenuti web per addestrare modelli di intelligenza artificiale e migliorare i prodotti dell'ecosistema Meta, quindi Facebook, Instagram e tutto ciò che ci gira intorno.
In pratica, Meta sta facendo quello che fanno anche altri big player: raccogliere dati dal web aperto per alimentare i propri sistemi di AI.
La differenza è che molti webmaster se ne sono accorti nel modo peggiore, cioè guardando i log del server e trovando migliaia di richieste in poco tempo.
Perché dovresti preoccupartene?
Per due motivi concreti.
Il primo è il traffico: dopo alcuni test, ma soprattutto dopo che diversi colleghi e clienti mi hanno segnalato un incremento spropositato di visite da questo bot, al punto da rallentare il server.
Se hai un hosting condiviso o risorse limitate, questo può diventare un problema serio.
Il secondo è una questione di principio: i tuoi contenuti vengono utilizzati per addestrare modelli AI senza che tu debba necessariamente accettarlo.
Come gestirlo?
La buona notizia è che il crawler rispetta il file robots.txt. Quindi puoi intervenire in modo semplice e pulito.
Opzione 1 – robots.txt (la più semplice):
Aggiungi queste righe al tuo file robots.txt:
Se vuoi bloccare anche meta-externalfetcher, puoi aggiungere:
⚠️ Attenzione però: meta-externalfetcher è spesso legato al recupero dei metadati per le anteprime social.
Bloccarlo potrebbe impedire la corretta visualizzazione delle immagini quando qualcuno condivide i tuoi link su Facebook. Valuta bene.
Opzione 2 – .htaccess (per chi usa Apache):
Se il traffico è davvero aggressivo e vuoi un blocco più deciso a livello server:
Opzione 3 – Cloudflare o firewall:
Se usi Cloudflare, puoi creare una regola di Rate Limiting specifica per questo user-agent, limitando il numero di richieste al minuto senza bloccare tutto. È l'approccio più flessibile.
Il mio consiglio
Prima di bloccare qualsiasi cosa, vai a controllare i log del tuo server. Verifica quante richieste stai ricevendo da meta-externalagent e se stanno effettivamente impattando le performance.
Non agire alla cieca: assicurati soprattutto di non toccare facebookexternalhit, altrimenti le anteprime dei tuoi link su Facebook smetteranno di funzionare.
E soprattutto, tieni d'occhio la documentazione ufficiale di Meta per restare aggiornato su eventuali cambiamenti: https://developers.facebook.com/docs/sharing/webmasters/crawler/
La questione AI e scraping dei contenuti web è appena iniziata. Meglio sapere cosa succede sul proprio sito prima che sia qualcun altro a deciderlo per noi.
Tag: #AI #MetaAI #AIscraping #Scraping #MetaAIscraping
Se gestisci un sito web oppure un e-commerce e ultimamente hai notato un picco anomalo di traffico, potresti aver ricevuto la visita di un ospite inatteso: meta-externalagent/1.1.
No, non è il solito crawler di Facebook che genera le anteprime quando condividi un link. Quello lo conosciamo bene, si chiama facebookexternalhit e fa il suo lavoro da anni senza dare troppo fastidio. Questo è diverso. Ed è il motivo per cui ho deciso di scrivere questo post.
Chi è meta-externalagent/1.1?
È un crawler ufficiale di Meta, documentato nella loro pagina dedicata ai web crawlers (https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/).
Il suo scopo principale non è generare anteprime social: è indicizzare contenuti web per addestrare modelli di intelligenza artificiale e migliorare i prodotti dell'ecosistema Meta, quindi Facebook, Instagram e tutto ciò che ci gira intorno.
In pratica, Meta sta facendo quello che fanno anche altri big player: raccogliere dati dal web aperto per alimentare i propri sistemi di AI.
La differenza è che molti webmaster se ne sono accorti nel modo peggiore, cioè guardando i log del server e trovando migliaia di richieste in poco tempo.
Perché dovresti preoccupartene?
Per due motivi concreti.
Il primo è il traffico: dopo alcuni test, ma soprattutto dopo che diversi colleghi e clienti mi hanno segnalato un incremento spropositato di visite da questo bot, al punto da rallentare il server.
Se hai un hosting condiviso o risorse limitate, questo può diventare un problema serio.
Il secondo è una questione di principio: i tuoi contenuti vengono utilizzati per addestrare modelli AI senza che tu debba necessariamente accettarlo.
Come gestirlo?
La buona notizia è che il crawler rispetta il file robots.txt. Quindi puoi intervenire in modo semplice e pulito.
Opzione 1 – robots.txt (la più semplice):
Aggiungi queste righe al tuo file robots.txt:
User-agent: meta-externalagent
Disallow: /
Se vuoi bloccare anche meta-externalfetcher, puoi aggiungere:
User-agent: meta-externalfetcher
Disallow: /
⚠️ Attenzione però: meta-externalfetcher è spesso legato al recupero dei metadati per le anteprime social.
Bloccarlo potrebbe impedire la corretta visualizzazione delle immagini quando qualcuno condivide i tuoi link su Facebook. Valuta bene.
Opzione 2 – .htaccess (per chi usa Apache):
Se il traffico è davvero aggressivo e vuoi un blocco più deciso a livello server:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.meta-externalagent. [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.meta-externalfetcher. [NC]
RewriteRule ^.* - [F,L]
Opzione 3 – Cloudflare o firewall:
Se usi Cloudflare, puoi creare una regola di Rate Limiting specifica per questo user-agent, limitando il numero di richieste al minuto senza bloccare tutto. È l'approccio più flessibile.
Il mio consiglio
Prima di bloccare qualsiasi cosa, vai a controllare i log del tuo server. Verifica quante richieste stai ricevendo da meta-externalagent e se stanno effettivamente impattando le performance.
Non agire alla cieca: assicurati soprattutto di non toccare facebookexternalhit, altrimenti le anteprime dei tuoi link su Facebook smetteranno di funzionare.
E soprattutto, tieni d'occhio la documentazione ufficiale di Meta per restare aggiornato su eventuali cambiamenti: https://developers.facebook.com/docs/sharing/webmasters/crawler/
La questione AI e scraping dei contenuti web è appena iniziata. Meglio sapere cosa succede sul proprio sito prima che sia qualcun altro a deciderlo per noi.
Tag: #AI #MetaAI #AIscraping #Scraping #MetaAIscraping
❤8👍8