Ivan Begtin

GlobalBuildingAtlas набор данных по всем зданиям в мире, общим объёмом в 36 терабайт. Опубликован в апреле 2025 г. , доступен для полной выгрузки и как сервис WFS. Под лицензией CC-BY-NC 3.0 (свободное использование для некоммерческих целей)

#opendata #datasets #geodata

🔥20🤩2

5.04K viewsIvan Begtin, 14:55

Ivan Begtin

Полезное ссылки про данные, технологии и не только:
- From SEO to AIO: Why Your Content Needs to Exist in AI Training Data заметка рассказывающая о том почему нужно предоставлять свой контент в интернете для обучения ИИ. Критических ни одного, важно помнить про природу этой дискуссии. Common Crawl получили много средств от ИИ компаний в последние пару лет поскольку собранные ими данные - это один из столпов обучения на текстах.
- Common Crawl Foundation Opt-Out Registry буквально в продолжение чтения про тексты для ИИ, Common Crawl создали реестр запросов на запрет на индексирование. Его можно посмотреть в виде Google таблицы. Основная идея за этим реестром в том чтобы уведомить пользователей Common Crawl о том есть список правообладателей от которых надо держаться подальше. Список быстро прирастает
- DuckDB benchmarked against Spark про бенчмарки баз данных о том что DuckDB в 100x быстрее обрабатывает данные чем Apache Spark при тестировании на 20GB файлах Parquet. Это и логично потому что DuckDB оптимизирован под локальную обработку, а Spark под масштабирование, но и одновременно DuckDB либерализует локальную обработку данных.
- Git diagrammer онлайн сервис от стартапа Eraser по превращению репозиториев в Github в диаграммы. Любопытная бесплатная (но не с открытым кодом) штука которая может быть полезна для отрисовки некоторых типов диаграмм. Сам стартап с очень интересной идеей, но, ИМХО, усложнённой реализацией. Ту же самую идею автодокументирования и автопроектирование продуктов можно было сделать проще, понятнее и тд. На мой вкусно, конечно
- Hyperfine инструмент измерения производительности приложений в командной строке. Полезно когда надо сравнивать инструменты в режиме холодного запуска, с учётом их инициализации и выполнения задачи. Не в серверном варианте, в общем, а в рабочем окружении локально.

#opensource #ai #datatools #datadocumentation #digitalpreservation

✍3

1.67K viewsIvan Begtin, edited 05:37

Ivan Begtin

Про цифровой суверенитет многие говорят не только в РФ, но и в Евросоюзе и в странах Глобального Юга, тут важно помнить что никто из них при этом не экспериментирует с тотальными вариантами самоизоляции и отключениями мобильного интернета. В принципе мне лично не нравится что эту практику пытаются подать как нечто нормальное, это ненормально, конечно же и каждое применение такой меры - это экстраординарная ситуация.

Важно только помнить что цифровой суверенитет - это антоним цифрового колониализма. Главный лозунг цифрового суверенитета в ЕС - это снижение зависимости от США (трудноосуществимое на практике, конечно же, но тренд именно туда). И надо понимать что как раз рост продажи цифровых сервисов другим странам - это и есть попытки уменьшить их цифровой суверенитет. К примеру, когда я читаю новости про рост продажи цифровых услуг из РФ в страны Центральной Азии - это именно этим и является. Также как и активная, а иногда и агрессивная продажа цифровых услуг стран Европы в развивающиеся страны.

Поэтому цифровой суверенитет - это про то что никто не хочет быть цифровых колонией, но от своих цифровых колоний не отказались бы.

Поэтому не обманывайтесь речами тех кто о нём говорит, это всё разговоры про власть и наличие рубильника отключающего всё или что-то конкретное. Никто не хочет чтобы у соседей был рубильник отрубающий его квартиру, но многие могут хотеть рубильник отключающий соседа.

#thoughts

💯17❤7🌚1

2.11K viewsIvan Begtin, edited 08:22

Ivan Begtin

В Южной Корее правительство планирует в ближайшее время опубликовать 15 особо ценных наборов данных для обучения ИИ и корпоративной поддержки. Первые данные необходимы для обучения ИИ агентов, например, в области LegalTech, вторые для типовых задач решаемых корпорациями и для которых нужны государственные данные. Обещают безопасное открытое раскрытие данных с заменой персональных данных на синтетические.

Всего же в Южной Корее опубликовано более 100 тысяч наборов данных и открытых API на национальном портале www.data.go.kr

В Корее есть совершенно чёткий акцент на данные востребованные бизнесом и на коммуникацию с бизнесом заинтересованном в данных и этой стратегии там придерживаются довольно давно.

#opendata #korea #datasets

❤7

1.75K viewsIvan Begtin, 10:51

Ivan Begtin

Я тут всё подумывал рассказать о том что творится в мире с открытыми данными с точки зрения сообщества, но как не начну текст получался слишком длинным, сжать никак не получалось, но я попробую хотя бы кратко изложить:
1. Главная проблема всего явления открытых данных в том что данные - это не инструменты, а топливо. С одной стороны все хотят много бесплатного хорошего топлива, а с другой топливо - это не инструмент. Если для открытого кода появилось бизнес модели в основе которых открытый продукт под свободной лицензией, а коммерческий продукт - это, обычно, SaaS. Для открытых данных так не получается и, в лучшем случае, это бизнес как у Фонда Викимедия - открытое идёт обычными дампами, а коммерческое - как дампы адаптированные для ИИ.
2. Как и многие другие области жизни связанные с данными открытые данные активно пожираются ИИ. Кто-то из активистов демотивировался тем что усилия предпринимают они, а зарабатывают на этом бигтехи, кто-то быстро убежал/убегает заниматься ИИ агентами (в основном наиболее технически подкованные), кто-то выпадает из мейнстрима всё больше и дата инженерия/дата сайенс и открытые данные пересекаются плохо.
3. Практически все компании которые делают инструменты для работы с открытыми данными (Datopian, Link Digital, OpenDataSoft) и др. в мир дата инженерии включены слабо, инструменты их выглядят всё более слабо. Исключения OpenDataSoft и Esri с их ArcGIS Data Hub, из-за изначально хорошей коммерческой стратегии, но рынки внедрения их продуктов весьма ограничены.
4. Сама тусовка по открытым данным весьма левая, анти-бигтеховая, с активным уходом в тематики AI literacy. Гранты от ЕС и близких по духу частных фондов? Все готовы. Взаимодействовать с Microsoft или Amazon или Google по повышению доступности данных на базе облачных платформ или в бизнес интересах ? Нее, не готовы.
5. Основное финансирование открытости данных в межгосударственных организациях уходит на поддержку сообществ в наименее развитых странах глобального юга. Это видно по проектам вроде Global Data Barometer
6. Для развитых стран уже считается что если ты развитая страна то открытость гос-ва и открытость данных - это как бы то что должно быть обеспечено по умолчанию. На это ориентированы рейтинги и мониторинги ЕС и ОЭСР, к примеру.
7. В азиатских странах гораздо более сильный акцент на доступности данных для бизнеса чем для граждан (Южная Корея, Япония, Китай)
8. В науке тема открытых данных просто слилась с тематикой открытого доступа и активно развивается и имеет очень чёткие дисциплинарные границы и особенности.
9. В развитых странах сильные акценты на high-value datasets (датасеты высокой ценности). Не только в Евросоюзе, но там наиболее институционально.
10. В целом российская/русскоязычная тусовка как тусовка одна из крупнейших в мире. Данных мало, а людей немало. В большинстве развитых стран всё наоборот, данных очень много, активистов совсем немного и они довольно сильно фрагментированы.

#opendata #thoughts #community

🔥14❤3🤔2👍1💯1

1.79K viewsIvan Begtin, edited 17:03

Ivan Begtin

И ещё немного про рынок труда в ИТ, главное изменение в том что рынок перебалансировался и снова стал рынком компаний, а не соискателя. Для соискателей - это боль и существенное изменение, но пока этот баланс не уравновесился до конца то и конфликты происходят из-за несоответствия ожидания сторон. Соискатели ищут зарплату выше рынка и условия работы такие какие были несколько лет назад, компании сталкиваются с тем что теперь необходимо делать техническое интервью с каждым потому что слишком много желающих решать домашние задания с помощью ИИ.

Если говорить про РФ то всё идёт к тому что тема импортозамещения уходит в ИТ крупняк, у ИТ компаний постепенно начнут подрезать льготы, а "лайфхаки" вроде зарегистрировать компанию в Сколково и нанимать самозанятых вместо трудовых отношений могут очень быстро перестать работать. Плюс перегрев рынка большим числом окончивших "быстрокурсы" специалистов.

В мире всё идёт стремительно в сторону автоматизации ИТ процессов с помощью ИИ и тотальной замены всех и вся на ИИ не произойдет, но сокращения идут и продолжатся.

Всё это к тому что хорошие психологи всегда в цене:) Или коньяк, армянский коньяк актуален всегда;)

#thoughts #it

👍20✍2😁2

2.39K viewsIvan Begtin, 17:25

Ivan Begtin

Perplexity анонсировали новое API для поиска https://www.perplexity.ai/hub/blog/introducing-the-perplexity-search-api надо потестить ибо больше API для поиска - это полезно и нужно.

#api #ai #websearch

👍6

1.87K viewsIvan Begtin, 14:17

Ivan Begtin

Пару недель назад прошла новость что в Албании назначили первого в мире ИИ министра Diella которая входит в кабинет министров и, кроме всего прочего, обеспечивает прозрачность госзакупок. Я эту новость прочитал ещё давно, но тянул с рассуждениями о ней ожидая критики, потому что уж очень это всё звучало популистски. Критики этой, конечно же, привалило, ключевое в ней то что ИИ системы/чатботы работают настолько хорошо насколько хороши данные на которых они обучены и алгоритмы и обучение Diella непрозрачны, известно только лишь что для этого использовались 36 тысяч документов на середину 2025 года.

Мне слишком много есть что сказать про применение ИИ в части борьбы с коррупцией и в отношении госзакупок в частности, ключевое, конечно же, в том что именно госзакупки - это лишь одна из стадий процессов приобретения работ, товаров и услуг. Все кто хоть более менее как-то знают как это работает изнутри отдают себе отчёт что коррупция возникает не только на процедурном этапе, а не менее важна на этапе планирования и ещё более на этапе исполнения контрактов.

Автоматизировать выявление закупок с признаками риска (red flags) - это не сложная работа, вернее все сложности там с внедрением этого в практику, а не с пониманием того что надо внедрять. А вот автоматизированный контроль с помощью ИИ за тем как принимались решения и тем как исполнялись контракты - вот это самая сложная часть с бесконечной сложностью безумного сопротивления госаппарата на любые попытки применять подобное на практике. Потому что это будет тем что залезает в самую подноготную процессов и даёт возможность тотального контроля.

При этом, применения ИИ хотя бы большей системности в госконтроле и госпланировании более чем возможно. Кое-где даже идут такие эксперименты. Но албанский опыт я на практике не использовал.

Албания не то чтобы большая страна, это 2.7 миллиона человек с ВВП 27 млрд USD, это почти как Новосибирская область в РФ, где примерно столько же людей и ВРП 2.6 млрд USD.

Всё это я к тому что при таких масштабах не нужен ИИ, это всё поддаётся ручному автоматизированному анализу и в таком виде ИИ ассистент - это однозначный популизм.

#thoughts #albania #ai #procurement

😁8👏6❤1💯1

1.89K viewsIvan Begtin, 06:41

Ivan Begtin

Artificial Intelligence and Open Government: Local Perspectives свежий документ от Open Government Partnership о применении ИИ на уровне муниципалитетов/городов, в основном в странах ОЭСР и иных входящих в OGP. Примеров там куда меньше чем хотелось бы, больше про базовые принципы этичности и подотчетности ИИ, но какие-то полезные факты есть с тем что в ИИ всё больше применяют в городских услугах, сервисах коммуникации с гражданами и тд. И, конечно, это документ отражающий больший тренд на сдвиг в сторону открытости и прозрачности применения ИИ в международных организациях.

#ai #opengovernment

👍5

2.5K viewsIvan Begtin, 10:27

Ivan Begtin

Полезный текст The End of the User Interface? о том что интерфейс чат-ботов и ИИ агентов сжирает все остальные интерфейсы пользователей и о будущем специалистов по UI/UX. Рассуждения полезны, а многочисленные ссылки на другие публикации ещё полезнее.

Я тоже размышлял на эту тему и мне такой подход к пользовательскому интерфейсу скорее не нравится. Хотя ИИ агенты умеет давать структурированные ответы, но не всегда работа через естественный язык удобнее чего-либо другого. К примеру, использование ИИ как персональных ассистентов удобно в одних задачах и неудобно в других. К, примеру, когда нужно описаться от конкретной рассылки в почте то можно использовать запрос естественным языком. А если надо отписаться от нескольких десятков и с ручным выбором рассылок, то естественный язык не годится.

Тут вопрос как скоро появятся динамический интерфейсы под разные задачи и насколько будут удобны они.

#thoughts #ui #ux

5👍8🤔2💔1

2.05K viewsIvan Begtin, edited 11:21

Ivan Begtin

Основатели Polars, высокопроизводительного движка на базе Rust для работы с датафреймами подняли $18 миллионов инвестиций на их облачный продукт Polars Cloud в котором обещают интегрировать обработку данных в облаке и сделать её потоковой. За основателей продукта можно только порадоваться, а как это отразится на их открытом продукте пока непонятно, но думаю что достаточно очевидно что явно они меньше смогут уделять внимание открытой части кода и будут больше внимание уделять коммерческому облачному продукту. Впрочем конкуренция суровая и у Polars в избытке альтернатив начиная с DuckDB, продолжая облачным Clickhouse и ещё много какими другими продуктами.

Однако стоит обратить внимание на стратегию которая привела к успешному привлечению инвестиций. Ребята взяли готовый продукт и сохраняя его интерфейс переписали его в более производительную версию за счёт переписывания на низкоуровневом языке, в данном случае Rust.

#opensource #startups #dataengineering

🔥7💯2❤1

1.93K viewsIvan Begtin, edited 18:52

Ivan Begtin

Разное чтение

F-Droid пишут что решение Google об обязательной верификации всех приложений на устройствах на базе Android убьёт их проект и призывает писать своим парламентариям и конгрессменам чтобы те не допустили подобного. История про превращение экосистемы Android'а в закрытую, конечно, плохая. Право распоряжаться собственными устройствами лично я считаю неотъемлимым.

Small data короткий текст в котором автор пишет о том что развитие железа и инструментов работы с данными привело к тому что нет проблемы работать с данными подавляющего большинства компаний без больших инфраструктурных расходов. Тут нет big data, тут только small data. Я на эту тему говорю обычно о том что "Вы не начинаете производить больше данных, а вот инструменты обработки данных развиваются стремительно".

Отдавайте сразу Markdown вместо HTML для скармливания данных LLM. Мысль простая и довольно любопытная, отдавать Markdown текст вместо HTML по HTTP заголовку типа mime. А почему бы и нет?

#readings #data #privacy #ai

TopicPartition

Small Data

Small Data Small data appears to be a very exciting movement that is moving the overton window away from Big Data onto much simpler and cheaper solutions ...

1😱6👍3

1.87K viewsIvan Begtin, 11:06

Ivan Begtin

Стартап с каталогами данных OpenDatSoft превратился на днях в компанию Huwise, а свой продукт теперь позиционируют как data product marketplace. Продукт у них довольно любопытный, структурированное храненилище данных с возможностью получения данных через API и в разнообразных форматах: JSON, CSV, Parquet, GeoJSON и др. Плюс довольно неплохой эксплорер данных с наглядным их просмотром и анализом. Часть внедрений этого каталога были внутрикорпоративные или в режиме компания + её партнёры, но не как каталоги открытых данных. Возможно они почувствовали что на корпоративном рынке денег больше и он выгоднее чем продолжать охватывать муниципалитеты и конкурировать за это с ArcGIS с их ArcGIS Hub.

В любом случае это сдвиг с бизнес модели порталов открытых данных в дата каталоги/дата маркетплейсы для корпоративных задач. В 2022 году они привлекли $25 миллионов инвестиций, а в общей сложности за 10 лет $35 миллионов, на свой SaaS продукт. Интересно как он будет меняться дальше, но чем больше он отходит от открытости тем он менее интересен, поскольку есть альтернативы с открытым кодом.

#opendata #startups #datacatalogs

✍4👍3💯1

1.88K viewsIvan Begtin, edited 16:22

Ivan Begtin

Sim, ещё один любопытный продукт оркестратор потоков данных со встроенной работой с промптами. Доступен под свободной лицензией Apache 2.0, имеет встроенное ИИ и сделан по архитектуре local-first и может использоваться без облачных сервисов, а для ИИ можно связать с Ollama.

Выглядит интересно для задач с минимальной дата инженерией и как альтернатива n8n.

#opensource #dataengineering #ai #datatools

✍6👍2⚡1💯1

1.91K viewsIvan Begtin, 09:29

Ivan Begtin

Есть много харизматичных, умных, талантливых людей от которых стоит держаться как можно дальше (с)

В сообществе Ruby on Rails в очередной раз наезжают тут и тут на Давид Хейнемейера Ханссона, автора этого фреймворка и сооснователя 37 Signals за его политические убеждения и, в частности, свежий пост As I remember London с весьма четкими анти-иммигрантскими взглядами и упоминанием native Brits которых город лишается. Его, собственно, не в первый раз обвиняют и в правых взглядах, и в токсичности, и несколько лет назад по этой причине не пустили делать приветственную речь на конференции RubyConf. В Ruby on Rails сообществе не в первый раз это звучит как DHH Problem.

Но тут у меня есть два тезиса:
1. Основатели многих ИТ и общественных продуктов/организаций/движухи в первую очередь люди как и во всем другом важно отделять личные убеждения и профессиональную работу.
2. Как в том меме которым делился Илон Маск, сейчас чтобы быть "правым" достаточно просто оставаться сохранять свои убеждения потому что многие левые становятся ещё левее.

Вообще не хочется чтобы ещё и мир открытого кода превратился в арену склок вокруг политических убеждений участников.

#opensource #rubyonrails #thoughts

👍19💯10❤3💅2

1.8K viewsIvan Begtin, 08:20

Ivan Begtin

Для тех кто интересуется куда сейчас развивается хранение данных любопытный обзор где автор разбирает современные форматы файлов с данными такие как Parquet как базовый формат и новые форматы BtrBlocks, FastLanes, Lance, Vortex, вообще если так дело дальше пойдет то скоро вместо Parquet будут совсем другие форматы ещё более быстрые и с более эффективным сжатием.

#parquet #data

Medium

Apache Parquet vs. Newer File Formats (BtrBlocks, FastLanes, Lance, Vortex)

For over a decade, Apache Parquet has been the cornerstone of analytical data storage. Parquet emerged in the Hadoop era as an open…

👍16🔥3✍2

2.09K viewsIvan Begtin, 14:04

Ivan Begtin

И ещё один формат для дата файлов F3: The Open-Source Data File Format for the Future вместе с одноимённой статьёй о его преимуществах по сравнению с Parquet. Я вижу прямо таки ренессанс изобретений новых форматов хранения данных и это хорошо, там много с что есть улучшать и всё больший запрос на всё более продвинутое именно файловое хранение данных. Видимо расцвет популярности Parquet многих к этому подтолкнул

#opensource #data #datatools

GitHub

GitHub - future-file-format/F3: [SIGMOD 2026] F3: The Open-Source Data File Format for the Future

[SIGMOD 2026] F3: The Open-Source Data File Format for the Future - future-file-format/F3

✍3⚡2❤‍🔥1

2.05K viewsIvan Begtin, 08:40

Ivan Begtin

Bringing Light to Government Dark Data in the Age of AI любопытный текст от Heather Openshaw из Digital Impact Alliance на тему того что у государств монополия на многие "темные данные" (dark data), неоцифрованные, в устаревших СУБД, с необоснованными ограничениями доступа и тд. И о том что государства должны и могут обеспечивать доступность этих данных во всех смыслах - для граждан, для цифровых сервисов, для обучения ИИ. Акценты там и примеры по наименее развитым странам и обратите внимание на упоминание Digital Public Infrastructure (DPI), а это всё более развивающаяся концепция, в основном, в отношении развивающихся стран.

#readings #data #opendata

Digital Impact Alliance

Bringing Light to Government Dark Data in the Age of AI

Today, governments across the world are collecting and storing vast amounts of data, the majority of which is considered dark data. While high-income countries are beginning to invest in AI tools...

👍4

1.69K viewsIvan Begtin, 08:23

Ivan Begtin

А Ваш ИИ умеет отслеживать галлюцинации ИИ в сдаваемых Вам отчетах? Нет? А пора бы. Делойт вернул австралийскому правительству $440 тысяч за галлюцинации. Доверие докладу подорвано, а у Делойта определённо есть проблема с человеческим интеллектом.

Скоро ли ждать проектов по мониторингу госдокументов и документов подобных отчетов с отслеживанием галлюционаций ?

#ai #deloitte #consulting #australia

👍14😁8⚡5

2.19K viewsIvan Begtin, edited 11:24

Ivan Begtin

Совсем свежий цифровой апокалипсис в Южной Корее перевел оригинальный текст тезисами:
- В Южной Корее 26 сентября произошел крупный пожар в государственном дата-центре Национальной службы информационных ресурсов в городе Тэджон.
- В результате огня уничтожено 858 ТБ важных правительственных данных, включая документы, отчёты и информацию облачного хранилища G-Drive.
- Пожар затронул 647 государственных сервисов, из которых 96 были полностью уничтожены.
- Самое критичное — резервные копии данных для G-Drive хранились в том же здании и тоже сгорели.
- Работа цифровой инфраструктуры страны была практически парализована на неделю.
- По состоянию на сейчас восстановлено только около 18% данных, полный откат займет около месяца.
- Причиной возгорания стало воспламенение изношенной литий-ионной батареи во время профилактических работ.
- В ходе расследования арестованы четыре человека по подозрению в халатности.
- Известно о трагедии — чиновник, курировавший восстановление, покончил с собой.

P.S. Я всё думал что от себя добавить, но реально не могу подобрать слов. И это ведь ещё пожар, стихийное бедствие, а что будет когда военных конфликтов будет в мире побольше, ЦОДы будут объектами диверсий, атак ракет и дронов и ещё много что.

#apocalypsis #digital #southkorea

DCD

858TB of government data may be lost for good after South Korea data center fire

Destroyed drive wasn't backed up, officials say

😢17⚡5😱4🌚3🔥2🌭1

3.15K viewsIvan Begtin, edited 16:50

About

Blog

Apps

Platform