Ivan Begtin

Sim, ещё один любопытный продукт оркестратор потоков данных со встроенной работой с промптами. Доступен под свободной лицензией Apache 2.0, имеет встроенное ИИ и сделан по архитектуре local-first и может использоваться без облачных сервисов, а для ИИ можно связать с Ollama.

Выглядит интересно для задач с минимальной дата инженерией и как альтернатива n8n.

#opensource #dataengineering #ai #datatools

✍6👍2⚡1💯1

1.89K viewsIvan Begtin, 09:29

Ivan Begtin

Есть много харизматичных, умных, талантливых людей от которых стоит держаться как можно дальше (с)

В сообществе Ruby on Rails в очередной раз наезжают тут и тут на Давид Хейнемейера Ханссона, автора этого фреймворка и сооснователя 37 Signals за его политические убеждения и, в частности, свежий пост As I remember London с весьма четкими анти-иммигрантскими взглядами и упоминанием native Brits которых город лишается. Его, собственно, не в первый раз обвиняют и в правых взглядах, и в токсичности, и несколько лет назад по этой причине не пустили делать приветственную речь на конференции RubyConf. В Ruby on Rails сообществе не в первый раз это звучит как DHH Problem.

Но тут у меня есть два тезиса:
1. Основатели многих ИТ и общественных продуктов/организаций/движухи в первую очередь люди как и во всем другом важно отделять личные убеждения и профессиональную работу.
2. Как в том меме которым делился Илон Маск, сейчас чтобы быть "правым" достаточно просто оставаться сохранять свои убеждения потому что многие левые становятся ещё левее.

Вообще не хочется чтобы ещё и мир открытого кода превратился в арену склок вокруг политических убеждений участников.

#opensource #rubyonrails #thoughts

👍19💯10❤3💅2

1.79K viewsIvan Begtin, 08:20

Ivan Begtin

Для тех кто интересуется куда сейчас развивается хранение данных любопытный обзор где автор разбирает современные форматы файлов с данными такие как Parquet как базовый формат и новые форматы BtrBlocks, FastLanes, Lance, Vortex, вообще если так дело дальше пойдет то скоро вместо Parquet будут совсем другие форматы ещё более быстрые и с более эффективным сжатием.

#parquet #data

Medium

Apache Parquet vs. Newer File Formats (BtrBlocks, FastLanes, Lance, Vortex)

For over a decade, Apache Parquet has been the cornerstone of analytical data storage. Parquet emerged in the Hadoop era as an open…

👍16🔥3✍2

2.08K viewsIvan Begtin, 14:04

Ivan Begtin

И ещё один формат для дата файлов F3: The Open-Source Data File Format for the Future вместе с одноимённой статьёй о его преимуществах по сравнению с Parquet. Я вижу прямо таки ренессанс изобретений новых форматов хранения данных и это хорошо, там много с что есть улучшать и всё больший запрос на всё более продвинутое именно файловое хранение данных. Видимо расцвет популярности Parquet многих к этому подтолкнул

#opensource #data #datatools

GitHub

GitHub - future-file-format/F3: [SIGMOD 2026] F3: The Open-Source Data File Format for the Future

[SIGMOD 2026] F3: The Open-Source Data File Format for the Future - future-file-format/F3

✍3⚡2❤‍🔥1

2.04K viewsIvan Begtin, 08:40

Ivan Begtin

Bringing Light to Government Dark Data in the Age of AI любопытный текст от Heather Openshaw из Digital Impact Alliance на тему того что у государств монополия на многие "темные данные" (dark data), неоцифрованные, в устаревших СУБД, с необоснованными ограничениями доступа и тд. И о том что государства должны и могут обеспечивать доступность этих данных во всех смыслах - для граждан, для цифровых сервисов, для обучения ИИ. Акценты там и примеры по наименее развитым странам и обратите внимание на упоминание Digital Public Infrastructure (DPI), а это всё более развивающаяся концепция, в основном, в отношении развивающихся стран.

#readings #data #opendata

Digital Impact Alliance

Bringing Light to Government Dark Data in the Age of AI

Today, governments across the world are collecting and storing vast amounts of data, the majority of which is considered dark data. While high-income countries are beginning to invest in AI tools...

👍4

1.68K viewsIvan Begtin, 08:23

Ivan Begtin

А Ваш ИИ умеет отслеживать галлюцинации ИИ в сдаваемых Вам отчетах? Нет? А пора бы. Делойт вернул австралийскому правительству $440 тысяч за галлюцинации. Доверие докладу подорвано, а у Делойта определённо есть проблема с человеческим интеллектом.

Скоро ли ждать проектов по мониторингу госдокументов и документов подобных отчетов с отслеживанием галлюционаций ?

#ai #deloitte #consulting #australia

👍14😁8⚡5

2.18K viewsIvan Begtin, edited 11:24

Ivan Begtin

Совсем свежий цифровой апокалипсис в Южной Корее перевел оригинальный текст тезисами:
- В Южной Корее 26 сентября произошел крупный пожар в государственном дата-центре Национальной службы информационных ресурсов в городе Тэджон.
- В результате огня уничтожено 858 ТБ важных правительственных данных, включая документы, отчёты и информацию облачного хранилища G-Drive.
- Пожар затронул 647 государственных сервисов, из которых 96 были полностью уничтожены.
- Самое критичное — резервные копии данных для G-Drive хранились в том же здании и тоже сгорели.
- Работа цифровой инфраструктуры страны была практически парализована на неделю.
- По состоянию на сейчас восстановлено только около 18% данных, полный откат займет около месяца.
- Причиной возгорания стало воспламенение изношенной литий-ионной батареи во время профилактических работ.
- В ходе расследования арестованы четыре человека по подозрению в халатности.
- Известно о трагедии — чиновник, курировавший восстановление, покончил с собой.

P.S. Я всё думал что от себя добавить, но реально не могу подобрать слов. И это ведь ещё пожар, стихийное бедствие, а что будет когда военных конфликтов будет в мире побольше, ЦОДы будут объектами диверсий, атак ракет и дронов и ещё много что.

#apocalypsis #digital #southkorea

DCD

858TB of government data may be lost for good after South Korea data center fire

Destroyed drive wasn't backed up, officials say

😢17⚡5😱4🌚3🔥2🌭1

3.14K viewsIvan Begtin, edited 16:50

Ivan Begtin

В блоге Meta интересный пост с анонсом OpenZL нового движка для сжатия данных соревнующегося в сжимании и очень быстро расжимании именно структурированных данных. Оно всё ещё в стадии бета, но главная специфика что в отличие от универсальных компрессов тут используются разные профили сжатия для разных структурированных данных таких как csv или parquet или результаты сохранения pytorch и др. Причем есть режим просто сжатия, а есть режим предварительного обучения на данных, создания профиля и последующего сжатия уже в соответствии с ним, в результате чего сжатия может существенно улучшиться.

Это очень интересная штука и перспективная если её пораспространять на другие типы данных: jsonl, xml и так далее. В любом случае она важна, в первую очередь. дата инженерам потому что составит конкуренцию многим форматам и даст возможность хранить сильно сжатые оригинальные файлы.

Например, нужно очень сильно сжать CSV файлы, и нельзя вот так просто преобразовать их в parquet'ы. Ещё одна фишка в том что данные сжимаются сравнимо по эффективности с xz и zstd, но быстрее и с очень высокой скоростью декомпрессии.

#compression #data #datatools #dataengineering

Engineering at Meta

Introducing OpenZL: An Open Source Format-Aware Compression Framework

OpenZL is a new open source data compression framework that offers lossless compression for structured data. OpenZL is designed to offer the performance of a format-specific compressor with the eas…

1👍8❤2

1.61K viewsIvan Begtin, edited 08:09

Ivan Begtin

😎 У наших друзей RPPA.pro совсем скоро стартует 3-й поток образовательной программы: AI Governance: регулирование и комплаенс ИИ-систем - первый русскоязычный курс, охватывающий все сферы регулирования ИИ, приватность, риски, качество, IP и ИБ - от ведущих экспертов отрасли. Фокус на практику и навыки управления ИИ-продуктами.

🗓

Даты: 27 октября 2025 - февраль 2026

🍏

Объем: 35 часов лекций, 20 часов практики, 3 мастер-класса, проверка знаний, домашние задания / кейсы, поддержка менторов, карьерная консультация, интеграция с комьюнити AIG

🔜 Подать заявку на регистрацию можно здесь

А мы собрали полезную подборку материалов с этого курса и делимся с вами:

🔘

Кто такие AI governance эксперты и где они нужны. Анализ рынка.

🔘

Практики ИИ-грамóтности: что уже внедряют организации.

🔘

Как устроены современные языковые модели. Разбор технологий.

🔘

В каких индустриях спрос на экспертов AI Governance появится раньше? Карьерная консультация.

🔘

Что изменилось в регулировании для интеграторов ChatGPT и других ИИ-моделей?

🔘

Почему нужна маркировка ИИ генераций?

Disclaimer: Не реклама, сам преподаю на этом курсе;) Курс реально полезный для всех кто хочет погрузится в регуляторику, этику и иные аспекты ИИ. Если не успеете на этот, то стоит присоединиться к следующему. Я там буду говорить про технические аспекты AI governance.

#ai #privacy #data #learning #rppa

Please open Telegram to view this post

VIEW IN TELEGRAM

rppaedu.pro

AI Governance

Образовательный продукт AI Governance поможет специалисту стать экспертом в области и научиться превращать технологии из риска в актив

✍7❤4🔥2

2.04K viewsIvan Begtin, 10:09

Ivan Begtin

Вышел Python 3.14.0 — это новая крупная версия языка программирования Python, выпущенная официально в октябре 2025 года. Она включает множество новых функций и оптимизаций по сравнению с Python 3.13:

- Официально поддерживается free-threaded режим (PEP 779), который снимает необходимость глобальной блокировки интерпретатора (GIL), что существенно улучшает многопоточную производительность.
- Введены шаблонные строковые литералы (PEP 750) для кастомной обработки строк, похожие на f-строки.
- Аннотации теперь вычисляются отложенно (PEP 649), улучшая работу с импортами.- Добавлен новый модуль compression.zstd с поддержкой алгоритма сжатия Zstandard (PEP 784).
- Улучшена поддержка UUID, добавлены версии 6-8, и генерация версий 3-5 стала до 40% быстрее.
- Встроенная реализация HMAC с формально проверенным кодом.
- Добавлен безопасный интерфейс для внешнего отладчика без накладных расходов (PEP 768).
- Появился экспериментальный JIT-компилятор в официальных сборках для macOS и Windows.
- Появились официальные бинарные сборки для Android.
-- Улучшения в работе с несколькими интерпретаторами и новый тип интерпретатора для современных компиляторов с ростом производительности.
- Улучшены сообщения об ошибках и стандартные библиотеки.

Всё выглядит как полезные изменения, переходить на эту версию пока рано, но скоро будет возможно

#python #datatools #dataengineering

👍11🔥2

1.48K viewsIvan Begtin, edited 16:24

Ivan Begtin

В Форбс статья о том как похорошела Москва в исследовании Kept (ранее KPMG), они приводят и мой комментарий о том что с данными доступными для граждан в РФ и Москве в частности всё довольно таки так себе, не очень, особенно в сравнении с Китаем. Хорошо что хоть Kept обращают на это внимание, но вообще смотря с кем/чем сравнивать. Например, в Армении и Ереване в частности вообще нет портала открытых данных, а в Центральной Азии в городах тоже нет или есть только номинально. А у китайцев доступных данных всё больше

#opendata #moscow #china

Forbes.ru

Как похорошела: Москва в лидерах мирового рейтинга умных городов от Kept

Москва лишь одну десятую балла уступила Сингапуру во втором рейтинге умных городов от Kept и заняла вторую строчку. Пекин замкнул тройку, Лондон, возглавлявший первую версию рейтинга, занял лишь четвертое место, а Санкт-Петербург, прежде замыкавший п

👍6🔥3

1.58K viewsIvan Begtin, 16:30

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- Slidecrafting открытая книжка про рисование презентаций с помощью Quatro, продвинутого движка для документирования и визуализации. Лично я этим искусством владею недостаточно, но инструмент полезный и книжка тожа
- StataWales новый портал статистики Уэльса (Великобритания), ничего необычного, кроме акцента на API и некоторых интерфейсных решений таких как отсутствие поиска.
- Supporting open science practices: Why share your research data? заметка в Springer Nature о том почему всё больше открытых данных публикуется учёными. Главное - рост цитируемости работ и требования тех кто финансирует научные работы.
- Data is not available upon request научная статья о том что механизм предоставления данных по запросу работает плохо. Многие авторы научных работ публикующие данные в режиме "по запросу" по запросу их не предоставляют. Работа в журнале по психологии потому что это про психологию.
- Why Conservatives Are Attacking ‘Wokepedia’ статья в WSJ о Grokipedia, ничего сверхнового, просто некоторая систематизация. Я бы добавил к этому взгляд что развитие ИИ позволяет порождать над Википедией любые контентные фильтры. Условно помимо Grokipedia можно быстро порождать версии Википедии с иными "политическими взглядами". Российская РуВики, кстати, сделано по той же модели.
- Opening Doors with AI: How Free Law Project and the Civil Rights Litigation Clearinghouse Are Reimagining Legal Research про проект Free Law по развитию открытости юридических документов и юридических систем. Ориентировано на юридическую систему США, но стоит присмотреться к подходам и потенциальным результатам для любой страны

#ai #data #laws #FAIR #wikipedia #tools #books

Slidecrafting

Making beautiful slides with reveal.js and Quarto

👍4❤3

1.53K viewsIvan Begtin, 05:44

Ivan Begtin

Давно хотел написать почему я так отрицательно отношусь к перезапуску российского портала data.gov.ru, потому что ещё довольно давно, в мирное время, я довольно много думал о том как его можно бы привести если не в хорошее, то в адекватное состояние. Вот тут прилагаю изображением и картой Xmind одну из схем структуризации мыслей тех времен. Если по этой структуре пройтись и проставить галочки есть/нет, то окажется что перезапущенный портал даже по очень формальным критериям очень сомнителен. А это, подчеркну, довольно давние мысли. Сейчас я бы думал ещё и в сторону особо ценных наборов данных, API и данных для ИИ.

В перезапуск data.gov.ru в РФ я как-то уже не особенно верю, там нетехнические проблемы, но как базовый набор действий для любого странового или регионального портала это можно использовать.

#opendata #datagovru #mindmaps

👍7✍1❤1🔥1

1.55K viewsIvan Begtin, 16:40

Ivan Begtin

👍4🔥3

1.33K viewsIvan Begtin, 16:40

Ivan Begtin

data.gov.ru.xmind

330.7 KB

👍3

1.2K viewsIvan Begtin, 16:40

Ivan Begtin

Forwarded from Инжиниринг Данных (Dmitry)

В свежей статье - State of the software engineering jobs market, 2025: what hiring managers see

Observations by 30+ hiring managers and tech recruiters about what’s happening: a flood of inbound applications means more selective hiring, there’s increased demand for product engineers, and more

Основные тезисы:

Наводнение откликов. Более 1000 кандидатов на одну вакансию — не редкость. LinkedIn Jobs стал местом для низкокачественных входящих заявок, из-за чего некоторые компании отказываются от его использования.

Мало наймов через входящие заявки. Несмотря на огромное количество откликов, большинство инженеров компании нанимают через прямые обращения и рекомендации.
Сложно найти действительно сильных кандидатов. Хотя заявок много, выдающиеся инженеры редки и часто выбирают из нескольких предложений.

Удалённая работа: больше конкуренции, меньше зарплаты? Компании, нанимающие удалённо, могут позволить себе нанимать лучших инженеров на 10–15% дешевле, чем раньше.

Фейковые кандидаты и ИИ — растущая проблема. Полностью удалённые и крипто-стартапы страдают от поддельных соискателей, которые скрывают своё местоположение и обманывают рекрутеров. Также всё чаще кандидаты жульничают на собеседованиях, используя ИИ-инструменты.

Высокий спрос на инженеров-основателей и продуктовых инженеров. В Великобритании инженерам-основателям предлагают до £200 000 ($270 000) в год плюс долю в компании. Стартапы в сфере ИИ поднимают уровень зарплат для продуктовых инженеров по всему рынку.

Ранняя стадия стартапов — свои сложности. Привлечь опытных инженеров из известных компаний по-прежнему трудно, а лучшие кандидаты часто имеют несколько конкурентных офферов.

Я почему-то думал, что на каждую вакансию - 500 кандидатов, но ставки растут. И абсолютно согласен, что среди 1000 кандидатов, может не оказаться ни одного нормального.

Pragmaticengineer

State of the software engineering jobs market, 2025: what hiring managers see

Observations by 30+ hiring managers and tech recruiters about what’s happening: a flood of inbound applications means more selective hiring, there’s increased demand for product engineers, and more

🔥6❤1😢1

1.29K viewsHovannes Begtin, 16:51

Ivan Begtin

Существенная часть моей работы прямо сейчас - это как раз собеседования специалистов команду Dateno и не только и со своей колокольни могу сказать что:
1. Механизм домашних заданий и режим просто поговорить неработают. Только технические интервью, которые бывают утомительны, но дают реальное понимание кандидатов. Всё чаще случаи когда у кандидатов хорошо подвешен язык, но ревью кода они провести не могут, хотя это чуть ли не важнейшее качество для миддла и сеньёра.
2. Механизм просто размещения вакансий не работает. Приходят сотни откликов от очень нерелевантных кандидатов. Гораздо лучше работает когда привлекаешь рекрутера, но рекрутеров привлекать имеет смысл лишь по рекомендации.
3. На вакансии в РФ часто откликаются рекрутинговые агенства (но если у них нет рекомендаций от знакомых, то веры в них нет), а на вакансии за пределами РФ чаще приходят индийские аутстаферы, им тоже веры нет.
4. Почти все курсы не дают знаний в решении проблем, увы
5. Хорошие специалисты всегда любопытны и знают о разных способах решения задач.
6. Разработчики стремящиеся стать тимлидами - это скорее нет чем да. И переход из тимлидов в рядовые разработчики чаще признак выгорания. Это не универсально, но достаточно часто
7. Говорят что в других ИТ профессиях таких как ИТ маркетинг, управление продуктами и проектами ситуация сильно хуже. Конкуренция выше, поиск специалистов сильно дольше.
8. Подход к тому что понять насколько человек квалифицирован на испытательном сроке работает плохо, можно эмулировать знания с помощью ИИ. Испытательный срок нужен для понимания насколько человек соответствует работе в проектной команде.

Тут ещё много можно продолжать. Лучше поделитесь своими ощущениями поиска работы и поиска сотрудников

#it #jobs #thoughts

2❤12👍8🔥4✍3🤔2💯1

1.64K viewsIvan Begtin, 17:07

Ivan Begtin

Интересный свежий продукт Arc с открытым кодом по созданию хранилищ временных рядов. Внутри DuckDB, Parquet и MinIO, лицензия AGPL-3.0. Судя по коду и описанию он скорее про создание корпоративных банков временных рядов, в нем нет управления метаданными, но декларируется высокая скорость чтения и загрузки данных. А также интеграция с Superset. Если бы я делал движок BI внутри крупной компании, я бы к нему внимательно присмотрелся, поскольку я его не делаю, то любопытствую его внутренним устройством и подходом.

Для скорости там используется MessagePack, для управления декларативное кодирование в TOML файле конфигурации. Декларируют также импорт данных из крупных баз данных для временных рядов.

#opensource #data #datatools

👍9🤔2

1.63K viewsIvan Begtin, 19:06

Ivan Begtin

В рубрике как это устроено у них Underground Asset Registry реестр подземных коммуникаций и объектов Новой Зеландии, сейчас покрывает город Веллингтон и включает данные собранные с помощью LIDAR'ов, GPR и других технологий автоматической идентификации инфраструктуры и аномалий. В 2020 году они таким образом оцифровали 16 километров города и приступили к починке найденных аномалий. Особенность в том что данные доступны для строительных компаний, они не в открытом доступе и предоставляются только после регистрации.

Внутри централизованный каталог данных с возможностью их выгрузки и отображением в ГИС системе.

Все данные разделены на 4 уровня безопасности из которых все данные 1-го уровня S0 доступны без ограничений после авторизации

#data #newzealand #geodata

👍11✍3🔥2

1.56K viewsIvan Begtin, 20:44

Ivan Begtin

Forwarded from Библиотека для открытой науки

🔍 Метаданные DataCite теперь интегрированы в OpenAlex

DataCite и OpenAlex запустили новую интеграцию, призванную расширить возможности поиска и влияние открытых исследований: теперь в OpenAlex доступно более 92 миллионов DOI DataCite.

Организации-члены DataCite, регистрирующие DOI, теперь будут видеть результаты своих исследований и ресурсы, проиндексированные в OpenAlex. Пользователи OpenAlex теперь могут получить более полную картину исследовательского ландшафта, содержащую разнообразные результаты исследований, такие как наборы данных, препринты, диссертации, программное обеспечение и другие материалы DataCite.

Для DataCite и OpenAlex эта интеграция представляет собой важную веху на пути к достижению общих целей — сделать исследовательскую информацию более открытой и доступной.

Источник: DataCite

DataCite

DataCite – Connecting Research, Advancing Knowledge - DataCite

❤3✍3🔥2

1.39K viewsHovannes Begtin, 07:13

About

Blog

Apps

Platform