В качестве регулярных напоминаний:
- я пишу про данные и технологии в этом телеграм канале @begtin на русском языке
- также на русском языке я пишу лонгриды в Substack
- на английском я снова регулярно пишу LinkedIn и реже в Medium
- по теме цифровой архивации есть телеграм @ruarxive где я и не только я пишу про цифровую архивацию и исчезновение цифровых ресурсов
#writings
- я пишу про данные и технологии в этом телеграм канале @begtin на русском языке
- также на русском языке я пишу лонгриды в Substack
- на английском я снова регулярно пишу LinkedIn и реже в Medium
- по теме цифровой архивации есть телеграм @ruarxive где я и не только я пишу про цифровую архивацию и исчезновение цифровых ресурсов
#writings
✍5🤝5
Подробная статья о состоянии поиска Google с точки зрения долгосрочных инвестиций [1]. Всё, казалось бы, очевидно что ИИ имеет очень сильный потенциал трансформировать Google Search и то проблема в изначальной рекламной модели Google как основе монетизации. Про это говорят много и всё активнее, на фоне разговоров что потенциально некоторые вендоры мобильных устройств могут перейти на другие поисковые системы вроде того же Perplexity. Но тут автор излагает всё довольно подробно и не даёт прогноза что у Google поисковый бизнес поломается, но говорит что сильно поменяется.
В том числе сравнивая ИИ поиск с кнопкой "I'm feeling lucky" когда пользователь получал результат сразу, без просмотра рекламных ссылок и то что Google терял около $100 миллионов в год в 2010 году из-за этой кнопки.
Почитать полезно чтобы задуматься о будущей трансформации Google и потенциальных изменениях бизнес модели поиска.
Можно с этой же точки зрения посмотреть на Яндекс, но у Яндекса, по сравнению с Google есть то потенциальное преимущество что постепенно из поискового индекса Google российские сайты выпадают и происходит это по разным причинам, но, в основном, из-за ограничений доступа из не-российских подсетей. Это ограничение бывает мягким в виде запретов в robots.txt, более жестким через ограничения на CDN и очень жёсткими через блокировки всех подсетей не относящихся к российской юрисдикции. В случае Google замерить это сложно, но в случае того же Интернет-архива я это наблюдаю уже несколько лет.
Что, впрочем, поможет лишь отчасти если ряд мобильных вендоров (Samsung, Huawei) отдадут приоритет AI поиску в своих устройствах.
Ссылки:
[1] https://www.speedwellmemos.com/p/google-shut-the-door-on-competition?
#thoughts #search #google #ai
В том числе сравнивая ИИ поиск с кнопкой "I'm feeling lucky" когда пользователь получал результат сразу, без просмотра рекламных ссылок и то что Google терял около $100 миллионов в год в 2010 году из-за этой кнопки.
Почитать полезно чтобы задуматься о будущей трансформации Google и потенциальных изменениях бизнес модели поиска.
Можно с этой же точки зрения посмотреть на Яндекс, но у Яндекса, по сравнению с Google есть то потенциальное преимущество что постепенно из поискового индекса Google российские сайты выпадают и происходит это по разным причинам, но, в основном, из-за ограничений доступа из не-российских подсетей. Это ограничение бывает мягким в виде запретов в robots.txt, более жестким через ограничения на CDN и очень жёсткими через блокировки всех подсетей не относящихся к российской юрисдикции. В случае Google замерить это сложно, но в случае того же Интернет-архива я это наблюдаю уже несколько лет.
Что, впрочем, поможет лишь отчасти если ряд мобильных вендоров (Samsung, Huawei) отдадут приоритет AI поиску в своих устройствах.
Ссылки:
[1] https://www.speedwellmemos.com/p/google-shut-the-door-on-competition?
#thoughts #search #google #ai
Speedwellmemos
Google Shut the Door on Competition, AI Swung it Back Open
Assessing Risks to Google's Business Model and How AI Imapcts the Competitive Landscape
❤5✍1
242 миллиарда токенов, 384 миллиона страниц, 983 тысячи книг на 254 языках в новом наборе данных для машинного обучения Institutional Books 1.0 [1] опубликованном Библиотекой Гарварда на HuggingFace.
Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.
К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.
Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300
#opendata #datasets #data #ai
Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.
К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.
Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300
#opendata #datasets #data #ai
🔥15
Когда появится AGI (Общий искусственный интеллект)? Коллекция предсказаний от тех кто создаёт ИИ моделей и ряда экспертов [1]
Хорошая новость - есть шанс что при нашей жизни
Плохая новость - определённо есть шанс что при нашей жизни
У меня вот тоже есть очень мрачные прогнозы:
- многие страны поменяют ядерные доктрины,
- всё что касается датацентров для AGI начнут секретить
- вероятность терактов в отношении датацентров, ведущих ИИ компаний и их сотрудников резко вырастет.
Вообще судя по тому что происходит сейчас в мире, появление AGI мира не принесёт, а вот войны могут выйти на другой уровень
Ссылки:
[1] https://sherwood.news/tech/gi-artificial-general-intelligence-when-predictions/
#preditions #ai
Хорошая новость - есть шанс что при нашей жизни
Плохая новость - определённо есть шанс что при нашей жизни
У меня вот тоже есть очень мрачные прогнозы:
- многие страны поменяют ядерные доктрины,
- всё что касается датацентров для AGI начнут секретить
- вероятность терактов в отношении датацентров, ведущих ИИ компаний и их сотрудников резко вырастет.
Вообще судя по тому что происходит сейчас в мире, появление AGI мира не принесёт, а вот войны могут выйти на другой уровень
Ссылки:
[1] https://sherwood.news/tech/gi-artificial-general-intelligence-when-predictions/
#preditions #ai
🕊9👍5⚡4
Выводят ли боты с искусственным интеллектом культурное наследие из строя? [1] свежий доклад Макла Вайнберга из GLASB e-Lab посвящённый тому что ИИ боты нарушают работу открытых культурных ресурсов.
И это куда серьёзнее чем ранее существовавшие проблемы открытого доступа, теперь ИИ боты напрямую злоупотребляют открытостью и от них отбиваются с помощью многочисленных CDN и иных сервисов блокирующих любое индексирование сайтов и проверяющих доступ к материалам на "человечность" запрашивающего.
Почитать стоит о том что теперь поддержание открытых коллекций стоит существенно дороже и о разных мерах применяемых к ботам, самые радикальные из этих мер - это блокировка по географии, когда блокируются некоторые страны. Например, я знаю довольно много онлайн ресурсов которые более не открываются с IP адресов относимых к России и к Китаю именно по этой причине.
При всех полезных сторонах ИИ, есть реальная угроза того что многие общедоступные культурные ресурсы будут уходить в режим доступа только после авторизации и их доступность будет существенно снижаться.
#opendata #culturalheritage #readings
И это куда серьёзнее чем ранее существовавшие проблемы открытого доступа, теперь ИИ боты напрямую злоупотребляют открытостью и от них отбиваются с помощью многочисленных CDN и иных сервисов блокирующих любое индексирование сайтов и проверяющих доступ к материалам на "человечность" запрашивающего.
Почитать стоит о том что теперь поддержание открытых коллекций стоит существенно дороже и о разных мерах применяемых к ботам, самые радикальные из этих мер - это блокировка по географии, когда блокируются некоторые страны. Например, я знаю довольно много онлайн ресурсов которые более не открываются с IP адресов относимых к России и к Китаю именно по этой причине.
При всех полезных сторонах ИИ, есть реальная угроза того что многие общедоступные культурные ресурсы будут уходить в режим доступа только после авторизации и их доступность будет существенно снижаться.
#opendata #culturalheritage #readings
✍8😱8
Ещё один доступный источник общедоступных данных монитогринга погоды/климата. Инсталляция WIS 2.0 в Кыргызстане [1]. WIS 2.0 это открытый сервис агргегирующий данные из метеостанций страны и отдающий по стандартизированным протоколам OGC. Этот продукт с открытым кодом распространяет Всемирная метеорологическая организация и он развернут уже более чем в 35 странах мира.
Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.
Конкретно вы Кыргызстане данные собираются с 36 метеостанций.
На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]
Ссылки:
[1] http://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] http://wis2box.mecom.ru
#opendata #openapi #api #geodata #datasets #kyrgyzstan
Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.
Конкретно вы Кыргызстане данные собираются с 36 метеостанций.
На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]
Ссылки:
[1] http://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] http://wis2box.mecom.ru
#opendata #openapi #api #geodata #datasets #kyrgyzstan
👍5
Forwarded from Случайное блуждание
Доля расходов на продовольствие в расходах населения
Неделю назад коллеги выложили очень интересные наборы данных, которые кропотливо собирал Сбериндекс. Есть там и уникальные наборы — например, по структуре расходов населения в большинстве регионов страны (кроме украинского приграничья, Ингушетии, Бурятии и отдельных районов других регионов).
Более половины средств расходуют на продовольствие жители Костромской, Кировской областей и смежных районов (очень характерно, что в этом ареале также выше всего доля населения старше трудоспособного возраста). Вообще в основной полосе расселения работает правило, что чем севернее район, тем больше там будут тратить на еду (потому что возможностей вырастить что-то самостоятельно очень немного).
Меньше всего тратят на еду в Москве и Санкт-Петербурге (и в принципе в крупных городах с высокими доходами), а также на Кавказе (поскольку климат позволяет существенную часть еды производить самостоятельно). В большинстве же муниципалитетов на продовольствие уходит около 40-45% расходов.
Хайрез в комментариях + работаем над тем, чтобы переложить муниципальные карты в веб-формат для интерактива
Подписаться
#соцэк
Неделю назад коллеги выложили очень интересные наборы данных, которые кропотливо собирал Сбериндекс. Есть там и уникальные наборы — например, по структуре расходов населения в большинстве регионов страны (кроме украинского приграничья, Ингушетии, Бурятии и отдельных районов других регионов).
Более половины средств расходуют на продовольствие жители Костромской, Кировской областей и смежных районов (очень характерно, что в этом ареале также выше всего доля населения старше трудоспособного возраста). Вообще в основной полосе расселения работает правило, что чем севернее район, тем больше там будут тратить на еду (потому что возможностей вырастить что-то самостоятельно очень немного).
Меньше всего тратят на еду в Москве и Санкт-Петербурге (и в принципе в крупных городах с высокими доходами), а также на Кавказе (поскольку климат позволяет существенную часть еды производить самостоятельно). В большинстве же муниципалитетов на продовольствие уходит около 40-45% расходов.
Хайрез в комментариях + работаем над тем, чтобы переложить муниципальные карты в веб-формат для интерактива
Подписаться
#соцэк
⚡6👍5🔥3😱2
Свежий любопытный продукт Nimtable [1] для корпоративных каталогов данных. Работает поверх каталогов Apache Iceberg, позволяет управлять каталогами, делать запросы к ним и оптимизировать таблицы с данными. Выглядит интересно и определённо стоит посмотреть его в работе.
Ссылки:
[1] https://github.com/nimtable/nimtable
#dataenginering #datatools
Ссылки:
[1] https://github.com/nimtable/nimtable
#dataenginering #datatools
✍5
Совсем свежее The OpenAI Files [1] сайт посвящённый практикам ведения бизнеса в OpenAI собранный группой расследователей The Midas Project и The Tech Oversight Project.
Ценность его в сжатости изложения проблем и наборе конкретных рекомендаций [2] о том что с этим всем делать.
Не стоит полагать что OpenAI единственная компания с такими практиками, но они стремительно выросли, обладают всё большим влиянием и очень высокой непрозрачностью.
Чтение полезное для всех кто интересуется AI и этикой.
Ссылки:
[1] https://www.openaifiles.org/
[2] https://www.openaifiles.org/vision-for-change
#readings #ai #openai #ethics
Ценность его в сжатости изложения проблем и наборе конкретных рекомендаций [2] о том что с этим всем делать.
Не стоит полагать что OpenAI единственная компания с такими практиками, но они стремительно выросли, обладают всё большим влиянием и очень высокой непрозрачностью.
Чтение полезное для всех кто интересуется AI и этикой.
Ссылки:
[1] https://www.openaifiles.org/
[2] https://www.openaifiles.org/vision-for-change
#readings #ai #openai #ethics
❤🔥3❤2
Некоторые мысли вслух относительно организации своей и не только своей работы. Я лично довольно давно увлекался разными инструментами и подходами к самоорганизации. Какие-то из них самоочевидны, а какие-то - это хорошо обновлённое старое, а не что-то новое.
Один из таких подходов - это рабочий журнал.
Если какая-либо задача не является на 100% очевидной и требует каких-либо проверок гипотез, проверки кода или инструментов, то очень хорошая практика в том чтобы вести журнал. Я его называю рабочим или аналитическим журналом, в зависимости от типа задачи.
Он напоминает список задач и экспериментов которые пишут сами себе некоторые продвинутые LLM расписывая логику рассуждений и это делает эти LLM, не всегда, но часто, эффективнее работы аналитиков или разработчиков джуниоров.
В ведении рабочего журнала нет ничего нового, это, по сути, адаптированный к ИТ и аналитическим задачам журнал экспериментов. Итогом ведения журнала почти всегда является, либо список конкретных задач, либо решение поставленной задачи по мере его достижения.
Лично я не всегда, но всё чаще веду такой журнал при какой-либо аналитической работе, по анализу источников данных, по подготовке документов и тд. Даже когда какие-то художественные тексты пишу, тоже стараюсь вести подобные структурированные заметки именно в форме журнала.
Своими техническими журналами я поделиться, увы, не могу, они очень специализированы для того что я делаю. Может быть когда-нибудь смогу поделиться таким журналом по подготовке какого-либо аналитического документа.
Но для тех кто сталкивается с регулярным вопросом "А чем ты там занимался?" - это важный и содержательный ответ. Подход достаточно универсальный для задач занимающих время более 1 часа.
Кстати, на ту же тему, уже не раз сталкивался с рассуждениями о том как выбирать сотрудников программистов/аналитиков/дата-инженеров и тд. Стандартный подход - это брать людей с опытом работы в FAANG и большим опытом в индустрии и работает он так себе. А вот один из важных критериев - это способность документировать свою работу.
Документирование - это одно из важных отличий senior специалистов от начинающих.
А какие рабочие практики и лайфхаки Вы используете?
#thoughts #it #lifehacks
Один из таких подходов - это рабочий журнал.
Если какая-либо задача не является на 100% очевидной и требует каких-либо проверок гипотез, проверки кода или инструментов, то очень хорошая практика в том чтобы вести журнал. Я его называю рабочим или аналитическим журналом, в зависимости от типа задачи.
Он напоминает список задач и экспериментов которые пишут сами себе некоторые продвинутые LLM расписывая логику рассуждений и это делает эти LLM, не всегда, но часто, эффективнее работы аналитиков или разработчиков джуниоров.
В ведении рабочего журнала нет ничего нового, это, по сути, адаптированный к ИТ и аналитическим задачам журнал экспериментов. Итогом ведения журнала почти всегда является, либо список конкретных задач, либо решение поставленной задачи по мере его достижения.
Лично я не всегда, но всё чаще веду такой журнал при какой-либо аналитической работе, по анализу источников данных, по подготовке документов и тд. Даже когда какие-то художественные тексты пишу, тоже стараюсь вести подобные структурированные заметки именно в форме журнала.
Своими техническими журналами я поделиться, увы, не могу, они очень специализированы для того что я делаю. Может быть когда-нибудь смогу поделиться таким журналом по подготовке какого-либо аналитического документа.
Но для тех кто сталкивается с регулярным вопросом "А чем ты там занимался?" - это важный и содержательный ответ. Подход достаточно универсальный для задач занимающих время более 1 часа.
Кстати, на ту же тему, уже не раз сталкивался с рассуждениями о том как выбирать сотрудников программистов/аналитиков/дата-инженеров и тд. Стандартный подход - это брать людей с опытом работы в FAANG и большим опытом в индустрии и работает он так себе. А вот один из важных критериев - это способность документировать свою работу.
Документирование - это одно из важных отличий senior специалистов от начинающих.
А какие рабочие практики и лайфхаки Вы используете?
#thoughts #it #lifehacks
🔥23💯7👍4✍3❤1
Некоторые мысли вслух:
1. Интересно когда наступит момент когда проекты или сайты компаний будут динамически создаваться ИИ? Буквально, по 2-3 страницам текста от начала и до конца. Полноценного AGI для этого не нужно, нужно лишь доступ ИИ к хостинг провайдеру через API и побольше времени чем одиночный запрос. Я так понимаю что технологическая готовность к этому есть и ждать осталось недолго. Рынок веб разработки это если не разрушит, то сильно разворошит. А может уже началось, а я ещё не отследил такое.
2. Рано или поздно кто-то натравит LLM'ки на глубокий анализ текстов госконтрактов, законов и тд. Уже напрашивается, правда требует хорошего понимания предметной области, но поиск "красных флажков" может выйти на новый уровень. Но не в России в ближайшие, а может быть и в не ближайшие годы тоже.
#thoughts
1. Интересно когда наступит момент когда проекты или сайты компаний будут динамически создаваться ИИ? Буквально, по 2-3 страницам текста от начала и до конца. Полноценного AGI для этого не нужно, нужно лишь доступ ИИ к хостинг провайдеру через API и побольше времени чем одиночный запрос. Я так понимаю что технологическая готовность к этому есть и ждать осталось недолго. Рынок веб разработки это если не разрушит, то сильно разворошит. А может уже началось, а я ещё не отследил такое.
2. Рано или поздно кто-то натравит LLM'ки на глубокий анализ текстов госконтрактов, законов и тд. Уже напрашивается, правда требует хорошего понимания предметной области, но поиск "красных флажков" может выйти на новый уровень. Но не в России в ближайшие, а может быть и в не ближайшие годы тоже.
#thoughts
👍10⚡5🔥2✍1