В блоге Cloudflare о том как Perplexity неэтично индексируют сайты закрытые robots.txt и подменяют User-Agent, с позитивной новостью что Cloudflare от этого защищают. Мне трудно понять тут отличия Perplexity от остальных глобальных ИИ продуктов/агентов которые предпочтут тяжбы, но не этичное поведение. Как пользователю Perplexity мне удобно когда я могу получить нужны ответ оперативно, как создателю контентных проектов мне совсем не хочется потерять всю их аудиторию из-за ИИ агентов.
Проблема серьёзнее чем кажется нарастанием противостояния, пока непонятно есть ли у неё простое устраивающее всех решение. Зато я вижу как многие ресурсы огораживаются от любых ИИ агентов и иных ботов скрейпящих их материалы. Чаще всего наблюдаю это на китайских сайтах. Например, не так давно я попытался несколько разных LLM построить аналитику по объёмам и масштабам публикации датасетов в Китае на провинциальных порталах. Самый лучший результат дал анализ 3-х из более чем 50 сайтов. Проблема тут не в неспособности ИИ агентов интерпретировать результаты, а в целенаправленных блокировках по геолокации, User-Agent и любым признакам обращения от лица бота.
#ai #scraping #bots #perplexity #cloudflare
Проблема серьёзнее чем кажется нарастанием противостояния, пока непонятно есть ли у неё простое устраивающее всех решение. Зато я вижу как многие ресурсы огораживаются от любых ИИ агентов и иных ботов скрейпящих их материалы. Чаще всего наблюдаю это на китайских сайтах. Например, не так давно я попытался несколько разных LLM построить аналитику по объёмам и масштабам публикации датасетов в Китае на провинциальных порталах. Самый лучший результат дал анализ 3-х из более чем 50 сайтов. Проблема тут не в неспособности ИИ агентов интерпретировать результаты, а в целенаправленных блокировках по геолокации, User-Agent и любым признакам обращения от лица бота.
#ai #scraping #bots #perplexity #cloudflare
👍8