Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.22K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Sim, ещё один любопытный продукт оркестратор потоков данных со встроенной работой с промптами. Доступен под свободной лицензией Apache 2.0, имеет встроенное ИИ и сделан по архитектуре local-first и может использоваться без облачных сервисов, а для ИИ можно связать с Ollama.

Выглядит интересно для задач с минимальной дата инженерией и как альтернатива n8n.

#opensource #dataengineering #ai #datatools
6👍21💯1
Есть много харизматичных, умных, талантливых людей от которых стоит держаться как можно дальше (с)

В сообществе Ruby on Rails в очередной раз наезжают тут и тут на Давид Хейнемейера Ханссона, автора этого фреймворка и сооснователя 37 Signals за его политические убеждения и, в частности, свежий пост As I remember London с весьма четкими анти-иммигрантскими взглядами и упоминанием native Brits которых город лишается. Его, собственно, не в первый раз обвиняют и в правых взглядах, и в токсичности, и несколько лет назад по этой причине не пустили делать приветственную речь на конференции RubyConf. В Ruby on Rails сообществе не в первый раз это звучит как DHH Problem.

Но тут у меня есть два тезиса:
1. Основатели многих ИТ и общественных продуктов/организаций/движухи в первую очередь люди как и во всем другом важно отделять личные убеждения и профессиональную работу.
2. Как в том меме которым делился Илон Маск, сейчас чтобы быть "правым" достаточно просто оставаться сохранять свои убеждения потому что многие левые становятся ещё левее.

Вообще не хочется чтобы ещё и мир открытого кода превратился в арену склок вокруг политических убеждений участников.

#opensource #rubyonrails #thoughts
👍19💯103💅2
Для тех кто интересуется куда сейчас развивается хранение данных любопытный обзор где автор разбирает современные форматы файлов с данными такие как Parquet как базовый формат и новые форматы BtrBlocks, FastLanes, Lance, Vortex, вообще если так дело дальше пойдет то скоро вместо Parquet будут совсем другие форматы ещё более быстрые и с более эффективным сжатием.

#parquet #data
👍16🔥32
И ещё один формат для дата файлов F3: The Open-Source Data File Format for the Future вместе с одноимённой статьёй о его преимуществах по сравнению с Parquet. Я вижу прямо таки ренессанс изобретений новых форматов хранения данных и это хорошо, там много с что есть улучшать и всё больший запрос на всё более продвинутое именно файловое хранение данных. Видимо расцвет популярности Parquet многих к этому подтолкнул

#opensource #data #datatools
32❤‍🔥1
Bringing Light to Government Dark Data in the Age of AI любопытный текст от Heather Openshaw из Digital Impact Alliance на тему того что у государств монополия на многие "темные данные" (dark data), неоцифрованные, в устаревших СУБД, с необоснованными ограничениями доступа и тд. И о том что государства должны и могут обеспечивать доступность этих данных во всех смыслах - для граждан, для цифровых сервисов, для обучения ИИ. Акценты там и примеры по наименее развитым странам и обратите внимание на упоминание Digital Public Infrastructure (DPI), а это всё более развивающаяся концепция, в основном, в отношении развивающихся стран.

#readings #data #opendata
👍4
А Ваш ИИ умеет отслеживать галлюцинации ИИ в сдаваемых Вам отчетах? Нет? А пора бы. Делойт вернул австралийскому правительству $440 тысяч за галлюцинации. Доверие докладу подорвано, а у Делойта определённо есть проблема с человеческим интеллектом.

Скоро ли ждать проектов по мониторингу госдокументов и документов подобных отчетов с отслеживанием галлюционаций ?

#ai #deloitte #consulting #australia
👍14😁75
Совсем свежий цифровой апокалипсис в Южной Корее перевел оригинальный текст тезисами:
- В Южной Корее 26 сентября произошел крупный пожар в государственном дата-центре Национальной службы информационных ресурсов в городе Тэджон.
- В результате огня уничтожено 858 ТБ важных правительственных данных, включая документы, отчёты и информацию облачного хранилища G-Drive.
- Пожар затронул 647 государственных сервисов, из которых 96 были полностью уничтожены.
- Самое критичное — резервные копии данных для G-Drive хранились в том же здании и тоже сгорели.
- Работа цифровой инфраструктуры страны была практически парализована на неделю.
- По состоянию на сейчас восстановлено только около 18% данных, полный откат займет около месяца.
- Причиной возгорания стало воспламенение изношенной литий-ионной батареи во время профилактических работ.
- В ходе расследования арестованы четыре человека по подозрению в халатности.
- Известно о трагедии — чиновник, курировавший восстановление, покончил с собой.

P.S. Я всё думал что от себя добавить, но реально не могу подобрать слов. И это ведь ещё пожар, стихийное бедствие, а что будет когда военных конфликтов будет в мире побольше, ЦОДы будут объектами диверсий, атак ракет и дронов и ещё много что.

#apocalypsis #digital #southkorea
😢165😱4🌚3🔥2🌭1
В блоге Meta интересный пост с анонсом OpenZL нового движка для сжатия данных соревнующегося в сжимании и очень быстро расжимании именно структурированных данных. Оно всё ещё в стадии бета, но главная специфика что в отличие от универсальных компрессов тут используются разные профили сжатия для разных структурированных данных таких как csv или parquet или результаты сохранения pytorch и др. Причем есть режим просто сжатия, а есть режим предварительного обучения на данных, создания профиля и последующего сжатия уже в соответствии с ним, в результате чего сжатия может существенно улучшиться.

Это очень интересная штука и перспективная если её пораспространять на другие типы данных: jsonl, xml и так далее. В любом случае она важна, в первую очередь. дата инженерам потому что составит конкуренцию многим форматам и даст возможность хранить сильно сжатые оригинальные файлы.

Например, нужно очень сильно сжать CSV файлы, и нельзя вот так просто преобразовать их в parquet'ы. Ещё одна фишка в том что данные сжимаются сравнимо по эффективности с xz и zstd, но быстрее и с очень высокой скоростью декомпрессии.

#compression #data #datatools #dataengineering
1👍82
😎 У наших друзей RPPA.pro совсем скоро стартует 3-й поток образовательной программы: AI Governance: регулирование и комплаенс ИИ-систем - первый русскоязычный курс, охватывающий все сферы регулирования ИИ, приватность, риски, качество, IP и ИБ - от ведущих экспертов отрасли. Фокус на практику и навыки управления ИИ-продуктами.

🗓 Даты: 27 октября 2025 - февраль 2026

🍏 Объем: 35 часов лекций, 20 часов практики, 3 мастер-класса, проверка знаний, домашние задания / кейсы, поддержка менторов, карьерная консультация, интеграция с комьюнити AIG

🔜 Подать заявку на регистрацию можно здесь

А мы собрали полезную подборку материалов с этого курса и делимся с вами:
🔘 Кто такие AI governance эксперты и где они нужны. Анализ рынка.
🔘 Практики ИИ-грамóтности: что уже внедряют организации.
🔘 Как устроены современные языковые модели. Разбор технологий.
🔘 В каких индустриях спрос на экспертов AI Governance появится раньше? Карьерная консультация.
🔘 Что изменилось в регулировании для интеграторов ChatGPT и других ИИ-моделей?
🔘 Почему нужна маркировка ИИ генераций?

Disclaimer: Не реклама, сам преподаю на этом курсе;) Курс реально полезный для всех кто хочет погрузится в регуляторику, этику и иные аспекты ИИ. Если не успеете на этот, то стоит присоединиться к следующему. Я там буду говорить про технические аспекты AI governance.

#ai #privacy #data #learning #rppa
Please open Telegram to view this post
VIEW IN TELEGRAM
74🔥2
Вышел Python 3.14.0 — это новая крупная версия языка программирования Python, выпущенная официально в октябре 2025 года. Она включает множество новых функций и оптимизаций по сравнению с Python 3.13:

- Официально поддерживается free-threaded режим (PEP 779), который снимает необходимость глобальной блокировки интерпретатора (GIL), что существенно улучшает многопоточную производительность.
- Введены шаблонные строковые литералы (PEP 750) для кастомной обработки строк, похожие на f-строки.
- Аннотации теперь вычисляются отложенно (PEP 649), улучшая работу с импортами.- Добавлен новый модуль compression.zstd с поддержкой алгоритма сжатия Zstandard (PEP 784).
- Улучшена поддержка UUID, добавлены версии 6-8, и генерация версий 3-5 стала до 40% быстрее.
- Встроенная реализация HMAC с формально проверенным кодом.
- Добавлен безопасный интерфейс для внешнего отладчика без накладных расходов (PEP 768).
- Появился экспериментальный JIT-компилятор в официальных сборках для macOS и Windows.
- Появились официальные бинарные сборки для Android.
-- Улучшения в работе с несколькими интерпретаторами и новый тип интерпретатора для современных компиляторов с ростом производительности.
- Улучшены сообщения об ошибках и стандартные библиотеки.

Всё выглядит как полезные изменения, переходить на эту версию пока рано, но скоро будет возможно

#python #datatools #dataengineering
👍11🔥2
В Форбс статья о том как похорошела Москва в исследовании Kept (ранее KPMG), они приводят и мой комментарий о том что с данными доступными для граждан в РФ и Москве в частности всё довольно таки так себе, не очень, особенно в сравнении с Китаем. Хорошо что хоть Kept обращают на это внимание, но вообще смотря с кем/чем сравнивать. Например, в Армении и Ереване в частности вообще нет портала открытых данных, а в Центральной Азии в городах тоже нет или есть только номинально. А у китайцев доступных данных всё больше

#opendata #moscow #china
👍6🔥3
Полезные ссылки про данные, технологии и не только:
- Slidecrafting открытая книжка про рисование презентаций с помощью Quatro, продвинутого движка для документирования и визуализации. Лично я этим искусством владею недостаточно, но инструмент полезный и книжка тожа
- StataWales новый портал статистики Уэльса (Великобритания), ничего необычного, кроме акцента на API и некоторых интерфейсных решений таких как отсутствие поиска.
- Supporting open science practices: Why share your research data? заметка в Springer Nature о том почему всё больше открытых данных публикуется учёными. Главное - рост цитируемости работ и требования тех кто финансирует научные работы.
- Data is not available upon request научная статья о том что механизм предоставления данных по запросу работает плохо. Многие авторы научных работ публикующие данные в режиме "по запросу" по запросу их не предоставляют. Работа в журнале по психологии потому что это про психологию.
- Why Conservatives Are Attacking ‘Wokepedia’ статья в WSJ о Grokipedia, ничего сверхнового, просто некоторая систематизация. Я бы добавил к этому взгляд что развитие ИИ позволяет порождать над Википедией любые контентные фильтры. Условно помимо Grokipedia можно быстро порождать версии Википедии с иными "политическими взглядами". Российская РуВики, кстати, сделано по той же модели.
- Opening Doors with AI: How Free Law Project and the Civil Rights Litigation Clearinghouse Are Reimagining Legal Research про проект Free Law по развитию открытости юридических документов и юридических систем. Ориентировано на юридическую систему США, но стоит присмотреться к подходам и потенциальным результатам для любой страны

#ai #data #laws #FAIR #wikipedia #tools #books
👍43
Давно хотел написать почему я так отрицательно отношусь к перезапуску российского портала data.gov.ru, потому что ещё довольно давно, в мирное время, я довольно много думал о том как его можно бы привести если не в хорошее, то в адекватное состояние. Вот тут прилагаю изображением и картой Xmind одну из схем структуризации мыслей тех времен. Если по этой структуре пройтись и проставить галочки есть/нет, то окажется что перезапущенный портал даже по очень формальным критериям очень сомнителен. А это, подчеркну, довольно давние мысли. Сейчас я бы думал ещё и в сторону особо ценных наборов данных, API и данных для ИИ.

В перезапуск data.gov.ru в РФ я как-то уже не особенно верю, там нетехнические проблемы, но как базовый набор действий для любого странового или регионального портала это можно использовать.

#opendata #datagovru #mindmaps
👍711🔥1
👍4🔥3
data.gov.ru.xmind
330.7 KB
👍3
Forwarded from Инжиниринг Данных (Dmitry)
В свежей статье - State of the software engineering jobs market, 2025: what hiring managers see

Observations by 30+ hiring managers and tech recruiters about what’s happening: a flood of inbound applications means more selective hiring, there’s increased demand for product engineers, and more

Основные тезисы:

Наводнение откликов. Более 1000 кандидатов на одну вакансию — не редкость. LinkedIn Jobs стал местом для низкокачественных входящих заявок, из-за чего некоторые компании отказываются от его использования.

Мало наймов через входящие заявки. Несмотря на огромное количество откликов, большинство инженеров компании нанимают через прямые обращения и рекомендации.
Сложно найти действительно сильных кандидатов. Хотя заявок много, выдающиеся инженеры редки и часто выбирают из нескольких предложений.


Удалённая работа: больше конкуренции, меньше зарплаты? Компании, нанимающие удалённо, могут позволить себе нанимать лучших инженеров на 10–15% дешевле, чем раньше.


Фейковые кандидаты и ИИ — растущая проблема. Полностью удалённые и крипто-стартапы страдают от поддельных соискателей, которые скрывают своё местоположение и обманывают рекрутеров. Также всё чаще кандидаты жульничают на собеседованиях, используя ИИ-инструменты.


Высокий спрос на инженеров-основателей и продуктовых инженеров. В Великобритании инженерам-основателям предлагают до £200 000 ($270 000) в год плюс долю в компании. Стартапы в сфере ИИ поднимают уровень зарплат для продуктовых инженеров по всему рынку.


Ранняя стадия стартапов — свои сложности. Привлечь опытных инженеров из известных компаний по-прежнему трудно, а лучшие кандидаты часто имеют несколько конкурентных офферов.


Я почему-то думал, что на каждую вакансию - 500 кандидатов, но ставки растут. И абсолютно согласен, что среди 1000 кандидатов, может не оказаться ни одного нормального.
🔥61😢1
Существенная часть моей работы прямо сейчас - это как раз собеседования специалистов команду Dateno и не только и со своей колокольни могу сказать что:
1. Механизм домашних заданий и режим просто поговорить неработают. Только технические интервью, которые бывают утомительны, но дают реальное понимание кандидатов. Всё чаще случаи когда у кандидатов хорошо подвешен язык, но ревью кода они провести не могут, хотя это чуть ли не важнейшее качество для миддла и сеньёра.
2. Механизм просто размещения вакансий не работает. Приходят сотни откликов от очень нерелевантных кандидатов. Гораздо лучше работает когда привлекаешь рекрутера, но рекрутеров привлекать имеет смысл лишь по рекомендации.
3. На вакансии в РФ часто откликаются рекрутинговые агенства (но если у них нет рекомендаций от знакомых, то веры в них нет), а на вакансии за пределами РФ чаще приходят индийские аутстаферы, им тоже веры нет.
4. Почти все курсы не дают знаний в решении проблем, увы
5. Хорошие специалисты всегда любопытны и знают о разных способах решения задач.
6. Разработчики стремящиеся стать тимлидами - это скорее нет чем да. И переход из тимлидов в рядовые разработчики чаще признак выгорания. Это не универсально, но достаточно часто
7. Говорят что в других ИТ профессиях таких как ИТ маркетинг, управление продуктами и проектами ситуация сильно хуже. Конкуренция выше, поиск специалистов сильно дольше.
8. Подход к тому что понять насколько человек квалифицирован на испытательном сроке работает плохо, можно эмулировать знания с помощью ИИ. Испытательный срок нужен для понимания насколько человек соответствует работе в проектной команде.

Тут ещё много можно продолжать. Лучше поделитесь своими ощущениями поиска работы и поиска сотрудников

#it #jobs #thoughts
212👍8🔥43🤔2💯1
Интересный свежий продукт Arc с открытым кодом по созданию хранилищ временных рядов. Внутри DuckDB, Parquet и MinIO, лицензия AGPL-3.0. Судя по коду и описанию он скорее про создание корпоративных банков временных рядов, в нем нет управления метаданными, но декларируется высокая скорость чтения и загрузки данных. А также интеграция с Superset. Если бы я делал движок BI внутри крупной компании, я бы к нему внимательно присмотрелся, поскольку я его не делаю, то любопытствую его внутренним устройством и подходом.

Для скорости там используется MessagePack, для управления декларативное кодирование в TOML файле конфигурации. Декларируют также импорт данных из крупных баз данных для временных рядов.

#opensource #data #datatools
👍9🤔2
В рубрике как это устроено у них Underground Asset Registry реестр подземных коммуникаций и объектов Новой Зеландии, сейчас покрывает город Веллингтон и включает данные собранные с помощью LIDAR'ов, GPR и других технологий автоматической идентификации инфраструктуры и аномалий. В 2020 году они таким образом оцифровали 16 километров города и приступили к починке найденных аномалий. Особенность в том что данные доступны для строительных компаний, они не в открытом доступе и предоставляются только после регистрации.

Внутри централизованный каталог данных с возможностью их выгрузки и отображением в ГИС системе.

Все данные разделены на 4 уровня безопасности из которых все данные 1-го уровня S0 доступны без ограничений после авторизации

#data #newzealand #geodata
👍113🔥2
🔍 Метаданные DataCite теперь интегрированы в OpenAlex

DataCite и OpenAlex запустили новую интеграцию, призванную расширить возможности поиска и влияние открытых исследований: теперь в OpenAlex доступно более 92 миллионов DOI DataCite.

Организации-члены DataCite, регистрирующие DOI, теперь будут видеть результаты своих исследований и ресурсы, проиндексированные в OpenAlex. Пользователи OpenAlex теперь могут получить более полную картину исследовательского ландшафта, содержащую разнообразные результаты исследований, такие как наборы данных, препринты, диссертации, программное обеспечение и другие материалы DataCite.

Для DataCite и OpenAlex эта интеграция представляет собой важную веху на пути к достижению общих целей — сделать исследовательскую информацию более открытой и доступной.

Источник: DataCite
33🔥2