Ivan Begtin
9.11K subscribers
2.47K photos
4 videos
113 files
5.21K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Полезное чтение про данные, технологии и и не только:
- Traps for developers подборка советов по особенностям языков программирования и фреймворков. По Python совсем мало, видно что не сильная сторона автора, по многим другим немало, в целом выглядит полезно.
- Data quality guides подборка руководств по качеству данных, вернее по процессам организации обеспечения качества данных. Все собраны из документов руководств дата-компаний и, по сути, касаются не только качества данных, но и управления данными в целом, что затрагивает качество.
- Big Tech Is Eating Itself in Talent War статья в WSJ за пэйволом о том что главный дефицит в бигтехах сейчас - это ИИ таланты за которые идёт всё более ожесточённая война.
- Building a web search engine from scratch in two months with 3 billion neural embeddings лонгрид о том как автор пытается создать поисковую систему по веб'у. Много технических подробностей и решений, точно интересное чтение

#data #bigtech #search #readings
7👍21
Что-то я текст написал, а поделиться им забыл. Цифровой ящик пандоры про национальный госмессенжер, национальную википедию и национальный ИИ. Пока писал меня не покидало ощущение что записываю какие-то банальности, очевидности-высоковероятности, но решил зафиксировать текстом.

#readings #texts #writings
1👍238🔥3🤝1
Свежий доклад ОЭСР National statistical offices as emerging trusted intermediaries in data governance о том что национальные статистические службы (NSO) в мире могут выступать в роли доверенных дата-посредников (TDI) в предоставлении доступа к данным третьих сторон.

В докладе акцент на том что национальные статслужбы собирают данные от других госорганов и создающих данные организации и обеспечивают безопасный доступ исследователей к этим данным в контролируемом окружении. С примерами такой инфраструктуры в Канаде, Франции, Израиле, Финляндии, Литве, Эстонии, Великобритании, Турции и других странах.

Почти во всех случаях акцент на доступе к деперсонализированным данным соцопросов и данных с иными ограничениями и обременениями.

В целом, лично для меня мало нового, но хорошо систематизированный материал о том что управление данными - это ключевые компетенции статслужб и то что статслужбы наиболее логичные дата стюарды для обеспечения доступа к данным, но только когда эти компетенции развиты и развиваются.

#opendata #data #statistics #oecd #readings
👍61🔥1
Полезное чтение про данные, технологии и не только с моими комментариями:
- How Tables Grew a Brain: Iceberg, Hudi, Delta, Paimon, DuckLake примерно месячной давности обзор основных продуктов для построения озер данных. Полезно, однако стоит дождаться обновлений по DuckLake и прочитать про них для полноты картины. И тут, конечно, важно вновь вспомнить что озера данных это всё ещё термин имеющий как минимум два значения. Первый - разрозненная комбинация хранилищ данных объединённая общим каталогом метаданных и некоторыми принципами доступа к ним. Второй - это архитектурный подход и хранилище, куда можно загружать разнообразные данные (структурированные, полуструктурированные, неструктурированные) в их исходном виде. Ключевая идея — хранить всё «как есть» и предоставлять единый уровень доступа для анализа, обработки и интеграции. Это кажется очень похожим определениями, но это не совсем так и продуктовая часть подходов к озерам данных сдвинута в сторону "бери в любом формате и загружай в структурированном по правилам".
- The Missing README: A Guide for the New Software Engineer хорошая книжка о том как учиться программной инженерии, почитываю её постепенно в электронном виде. Она, во многом, именно про то как быть профессиональным разработчиком что включает написание тестов, документации, организации процесса разработки, изучение нового, работе в команде, понимание задач и целей программных продуктов и тд. В общем-то похоже на гайд для тимлидов, но начинающим разработчикам полезно читать чтобы понимать куда двигаться чтобы приобретать реальный опыт
- Columnar File Readers in Depth: Structural Encoding погружение в логику работы структурного кодирования в блоге LanceDB. Для тех кто работает с большими массивами и словарями данных о том чем отличается организация данных LanceDB по сравнению с Parquet и другими форматами.
- Is Your Data “AI-Ready”? Why Good Data Isn’t Enough Anymore вполне резонные рассуждения о том что просто "хорошие данные" недостаточны для применения вместе с ИИ. Сталкиваюсь с этим всё больше когда есть базы данных которые могут быть весьма неплохи, но без базы знаний прилинкованных к базам данных и применимость для ИИ задач ограничена.

#readings #ai #data
63💯3
Разное чтение

F-Droid пишут что решение Google об обязательной верификации всех приложений на устройствах на базе Android убьёт их проект и призывает писать своим парламентариям и конгрессменам чтобы те не допустили подобного. История про превращение экосистемы Android'а в закрытую, конечно, плохая. Право распоряжаться собственными устройствами лично я считаю неотъемлимым.

Small data короткий текст в котором автор пишет о том что развитие железа и инструментов работы с данными привело к тому что нет проблемы работать с данными подавляющего большинства компаний без больших инфраструктурных расходов. Тут нет big data, тут только small data. Я на эту тему говорю обычно о том что "Вы не начинаете производить больше данных, а вот инструменты обработки данных развиваются стремительно".

Отдавайте сразу Markdown вместо HTML для скармливания данных LLM. Мысль простая и довольно любопытная, отдавать Markdown текст вместо HTML по HTTP заголовку типа mime. А почему бы и нет?

#readings #data #privacy #ai
1😱6👍3
Bringing Light to Government Dark Data in the Age of AI любопытный текст от Heather Openshaw из Digital Impact Alliance на тему того что у государств монополия на многие "темные данные" (dark data), неоцифрованные, в устаревших СУБД, с необоснованными ограничениями доступа и тд. И о том что государства должны и могут обеспечивать доступность этих данных во всех смыслах - для граждан, для цифровых сервисов, для обучения ИИ. Акценты там и примеры по наименее развитым странам и обратите внимание на упоминание Digital Public Infrastructure (DPI), а это всё более развивающаяся концепция, в основном, в отношении развивающихся стран.

#readings #data #opendata
👍4
ОЭСР опубликовали результаты TALIS 2024 крупнейшего опроса учителей в мире охватывающего 280 тысяч преподавателей и учителей. В этом году результаты про применение учителями ИИ, почему они выбрали эту профессию и почему продолжают ей заниматься.

В опросе охвачены многие, но не все страны. Например, там есть Казахстан, Узбекистан, Азербайджан, но нет России, Беларуси, Армении, Грузии и тд.

Из полезных фактов:
- до 75% учителей в Сингапуре и ОАЭ используют ИИ в работе. Около 90% из них используют ИИ для формирования учебных планов
- менее всего ИИ используют учителя во Франции и Японии, меньше 20%
- в Казахстане ИИ используют 59% учителей

Там ещё немало разных интересных фактов, но главный, конечно, в стремительном росте влияния ИИ на образование.

#ai #readings #education
5👍4
Полезные ссылки про данные, технологии и не только
- MeteoSaver проект по оцифровке исторических записей о погоде. Ведется в Vrije Universiteit Brussel, охватывает многие наименее развитые страны и включает сканирование и распознавание больших объемов тетрадей с метеонаблюдениями
- Title Arbitrage as Status Engineering новый термин "статусная инженерия", про придумывание новых названий ролям участников команд при создании продуктов. Например, ее "Prompt Engineer", а "Researcher", не "Software Engineer", а "MTS (Member of Technical Stuff" и так далее. В целом ничего нового, просто новое прочтение старого.
- Magical systems thinking критический взгляд на системное мышление с ключевым аргументом что если система не статическая то она отражает удар. С хорошими примерами госрегулирования и госпроектов которые провалились.
- What a data center is что такое дата центр, относительно короткий текст поясняющий что такое Датацентры изнутри и как на них стоит смотреть. Тема всё более важная, задумайтесь над тем что мир приходит в то состояние когда если ядреная ракета упадет на органическое правительство, то никто и не заметит, а если на ключевой датацентр, то всем будет очень больно.

#readings #ai #data #it #digitalpreservation
5🔥5😁21👌1
Полезные ссылки про данные, технологии и не только
- State of AI Report за 2025 год, взгляд на состояние ИИ с точки зрения, в первую очередь, инвестиций. Очень полезная презентация с ключевыми фактами и трендами по рынку ИИ. Просто для чтения, какой-то разбор и факты оттуда отдельно.
- The era of open data infrastructure команда dbt Labs с обещаниями сохранения открытости после поглощения их Fivetran'ом. Не то чтобы до конца верится. Обратите внимание что это [open] [data infrastructure]. а не [open data] [infrastructure]. Маркетологи совсем иначе трактуют слова про открытость называя открытостью open to market и открытые стандарты.
- Bruin движок для построения конвееров данных на Python, включая трансформации с помощью SQL. Как легковесная альтернатива dbt. Бизнес модель идентичная dbt - облачный сервис Bruin Cloud, но их пока не поглотил Fivetran
- Lea другая альтернатива dbt, минималистичный SQL оркестратор. Чистый открытый код, без облачной и иной бизнес модели, но и с документацией похуже и скоростью разработки
- GET SDI греческий вентор и его геоинформационный портал на котором построены почти все ГИС страны. Греция одна из немногих стран со своим основным гео-вендором для онлайн ГИС, а я то все гадал откуда сложности с поиском их геопорталов, а ответ был на поверхности. Внутри, конечно, набор компонентов с открытым кодом

#opendata #geodata #data #opensource #datatools #ai #readings
32
Открытое письмо более 30 тысяч подписантов с призывом к запрету любых исследований по созданию сверхразума (superintelligence).

Дословно звучит как:
Мы призываем к запрету на развитие сверхразума, который не должен быть снят до тех пор, пока не будет
1. широкий научный консенсус, что это будет сделано безопасно и контролируемо, и
2. сильная общественная поддержка.


Среди подписантов Стив Возняк (экс-основатель Apple), Ричард Бренсон, многочисленные основатели компаний, в том числе AI стартапов, а также многочисленные политики, исследователи, представители искусств и медиа и религиозные деятели. Включая принца Гарри и его жену Меган и еще много-много других знаменитостей.

Что-то мне подсказывает что пока с помощью ИИ не произойдет какой-то катастрофы или масштабных разрушений ничего такого не случится. Даже если этот ИИ будет не сверх, и даже не совсем разум, а просто очень продвинутый инструмент.

#readings #thoughts #ai
🤣12😱32👍2
Полезные ссылки про данные, технологии и не только:
- AI vs Gen Z: How AI has changed the career pathway for junior developers текст в блоге StackOverflow о том как тяжело теперь быть юным программистом (джуниором). Новых истин нет, лишь повторение того что ИИ меняет рынок разработки. Удивительно что в блоге StackOverflow, их тоже убивают ИИ агенты
- Announcing the Cloudflare Data Platform: ingest, store, and query your data directly on Cloudflare Cloudflare стремительно превращаются из инфраструктурной компании в дата компанию, теперь ещё и выкатили их дата платформу. Для продуктов не на российский рынок - это очень интересно, а в РФ его заблокируют рано или поздно.
- Python: The Documentary | An origin story история языка Python в документальном виде. Навевает ностальгию, при том что я сам с Python'ом начал работать только в 2001 году перейдя на него с Tcl/Tk+Expect+Shell. Многое поначалу казалось в нем странным, особенно отступы в коде, а потом это стал один из самых удобных языков разработки.
- RIP Tableau автор CTO компании Voi пишет про масштабный отказ от Tableau в их процессах. Я его понимаю и не понимаю тех кто продолжает полагаться на Tableau в работе. Интересно что заменили его на аналитическое решение на базе LLM

#links #readings #ai #data #datatools
51
Свежий доклад от Microsoft - AI Diffusion Report: Where AI is most used, developed and built

Там текст на 24 страницы, читается быстро, вот ключевые факты и выводы.

- Глобальное среднее значение по AI User Share составляет примерно 15% трудоспособного населения.
- Лидеры по доле пользователей ИИ:
* ОАЭ ~59.4%
* Сингапур ~58.6%
* Другие страны-лидеры: Норвегия, Ирландия, Франция и др.
- Региональные различия:
* Северная Америка: ~27%
* Европа и Центральная Азия: ~22%
* Южная Азия и Субсахарская Африка: менее ~13%
- Сильная корреляция между уровнем внедрения ИИ и ВВП на душу населения: коэффициент Спирмена ~0.83, p-значение < 0.000001.
- При анализе населения, имеющего доступ к интернету («connected population»), выяснилось: даже в странах с низким общим проникновением интернета пользователи, подключенные к сети, часто уже активно пользуются ИИ. Например:
* В Замбии: общая доля ~12%, но среди подключенных ~34%.
* В Пакистане: с ~10% до ~33%.
- Запуск продукта DeepSeek (январь 2025) привёл к резкому росту доли пользователей ИИ в Китае: с ~8% до ~20%.
- Основные барьеры для широкого распространения ИИ:
* Доступ к электроэнергии
* Подключение к интернету
* Цифровые навыки
* Языковые ресурсы и локализация
- более 1 миллиарда человек уже использовали ИИ-инструменты за менее чем три года» — что делает ИИ самой быстро внедряемой технологией в истории.


А также немного дополнительных фактов не столь явно упомянутых в тексте:

- Россия в докладе никак не упоминается, только присутствует на некоторых графиках
- Из постсоветских стран наименее низкое проникновение ИИ в Таджикистане, Туркменистане, Узбекистане и, как ни странно, в Армении.
- Почти всё строительство AI инфраструктуры сосредоточено в США и Китае
- Лидеры по разработки AI моделей: США, Китай, Южная Корея, Франция, Великобритания, Канада и Израиль

#ai #readings #microsoft
1👍62😐1
Полезные ссылки про данные, технологии и не только:
- New updates and more access to Google Earth AI команда Google Earth AI рассказывает о Geospatial Reasoning подходе при котором не просто определяют место удара шторма, но и предсказывают каким сообществам достанется более других
- Building Capacityfor Data Access,Analysis + Accountability доклад Columbia World Projects о развитии открытого доступа. Полезный для понимания того какие инвестиции сейчас направляются в сторону открытости инфраструктуры доступа к данным для исследователей
- Deta Surf цифровая записная книжка с AI внутри для помощи студентам в учёбе, с открытым кодом и ориентированной на самостоятельное изучение материалов с помощью AI
- oxdraw инструмент с открытым кодом для создания диаграмм, из полезных фич в том что он построен на отображении диаграммы по декларативному описанию, но позволяет автоматически создавать это декларативное описание через интерактивный инструмент. Мне очень нравится подход даже если сам инструмент ещё только-только появился
- How We Saved $500,000 Per Year by Rolling Our Own “S3” инженеры из Nanit пишут о том как сделали упрощенный аналог AWS S3 и сэкономили уйму денег. Как я их понимаю, вокруг S3 уже целая индустрия выстроилась помогателей экономить на их инфраструктуре, но заменить их на что-то свое может быть более оптимальным решением

#ai #tools #opensource #readings
5
Свежий документ Framework on Responsible AI for Official Statistics про применение ИИ в официальной статистике от ЕЭК ООН (Европейская экономическая комиссия ООН). Практической пользы с него мало потому что он написан таким языком что если всё там написанное взять и заменить с "официальной статистики" на, например, "энергетику" или "транспорт" то мало что поменяется. Содержание документа сильно оторвано от предметной области и почти все отсылки там на базовые этические принципы внедрения AI и ML. С этой точки зрения документ не так бесполезен.

В остальном же его применение в том чтобы на него ссылаться отвечая на вопросы вроде "какие этические стандарты Вы соблюдаете в Ваших ИИ проектах в официальной статистике".

Заодно к нему же недавно опубликованные документы в Германском журнале WISTA (Wirtschaft und Statistik) по применении этических принципов ИИ на практике:
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 1: identification
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 2: evaluation

Они выглядят как более полезные с практической точки зрения.

#statistics #ai #readings
43
Свежий документ Organizing Public Support for Open Digital Infrastructure про германское Sovereign Tech Agency (STA) и финансирование открытого кода идентифицированного как наиболее критичного для глобальной инфраструктуры. Полезный текст про "бигтехозамещение здорового человека" и теперь это важный европейский мэйнстрим по снижению цифровой зависимости от США и Китая и создание открытой цифровой инфраструктуры (open digital infrastructure).

Я, наверное, с
пару десятилетий уже наблюдаю как Евросоюз занимался поддержкой открытого кода и чаще всего это выражалось в европейских научных проектах в рамках Horizon в рамках которых участники наплодили множество открытого кода из которого полезного было около 1-10%. Картинка долгое время была удручающей. А дело было в том что когда ты объявляешь конкурсы в стиле "вот есть темы по которым мы даем деньги на открытый код если вы соблюдете вот эту и эту бюрократию" то приходят грантоеды всегда и кто-то адекватный только иногда.

В этом отличие STA, в STA вначале находят те открытые проекты которые не то что бы хорошо зарабатывает и от которых реально зависит если не весь мир, то существенная его часть. А потом пытаются им всучить деньги чтобы они могли продолжать существовать не падая в неприятные зависимости, в европейском понимании - это бигтехи. И поддерживают они через программы fellowship для майнтайнеров, фонд для выдачи грантов и программы bug bounty.

Собственно в документе это хорошо рассказано в контексте создания открытой инфраструктуры. Для понимания перспективного того как эти инициативы вырастают в общеевропейские это весьма полезно.

С одной стороны это всё полезные инициативы, а с другой мэйнтенеры кода могут быть и жить и не в странах ЕС, бигтехи хотя и большие, но гораздо адаптивнее, а европейская бюрократия и юрисдикция скорее хужеет. В любом случае за инициативой полезно наблюдать, может что-то полезное там и возникнет.

#opensource #europe #readings
👍43🔥3
Свежие результаты Stack Overflow Developer Survey 2025, более 49 тысяч участников из 166 стран. Там много самых разных тем и отдельным блоком идёт все что касается ИИ и любопытного там немало.

Вот некоторые факты:
- Около 80 %+ разработчиков используют или планируют использовать ИИ-инструменты в своей работе.
- Однако лишь ~33 % доверяют корректности выводов этих инструментов, а ~46 % их активно не доверяют.
- Основная жалоба: «почти правильно, но не совсем» — 66 % разработчиков указали, что именно это фрустрирует.
- Например, использование Docker выросло на ~17 процентов с 2024 по 2025 — крупнейший скачок среди технологий опроса.
- Язык Python показал рост популярности: +7 процентов.
- 69 % респондентов потратили время за последний год на изучение нового языка программирования или новой техники.
- Из них 68 % используют документацию как основной ресурс обучения.
- Самые популярные ИИ ассистенты: ChatGPT (81,7 %), GitHub Copilot (67,9 %).

И ещё полезное из этого опроса в том что наличие интеграции с ИИ вообще не помогает в продаже инструментов именно разработчикам, зато очень помогает адекватная цена, хорошая документация, удобное SDK и минимум опасений в приватности и безопасности
решения.

Ещё наблюдение что разработчики чаще теперь общаются про технологии на Reddit или LinkedIn, но не в X/Twitter или Facebook. От себя замечу что и Facebook, и X превратились в такие помойки из смеси рекламы и политизированного контента что читать их просто неприятно. LinkedIn при все его кондовости даёт больше связи с сообществами.

#surveys #readings #stackoverflow
👍5
Про форматы файлов, много о них я писал и в контексте ИИ, и в контексте работы дата инженеров и в контексте цифровой архивации. Мало кто системно разные форматы изучает и чаще те кто это делают занимаются цифровой архивацией в очень широком контексте, но в первую очередь думая о сохранении доступности данных и иных материалов созданных в ПО которое уже малодоступно или которым уже невозможно пользоваться.

С чего начать тем кто ищет информацию о структурах файлах и того как работать с разными форматами работать?

1. PRONOM

Это специальный реестр форматов файлов от Национальных Архивов Великобритании и он включает подробное описание сотен форматов файлов включая форматы разных старых приложений или относительно новые форматы для данных такие как JSONl. В реестре PRONOM присутствуют и цифровые отпечатки файлов, помогающие их идентифицировать. Эти отпечатки используются в утилите DROID для идентификации типов файлов по большому их реестру. Утилита сама не обновлялась давно, но цифровые отпечатки из PRONOM обновляются довольно часто, чуть ли не ежемесячно

2. Archive Team Wiki (File formats)

У команды ArchiveTeam есть большой вики проект fileformats.archiveteam.org с большим числом практических статей по разным форматам файлов и о том как с ними работать и как их архивировать. Полезный сайт для всех кто погружается в работу с какими либо относительно популярными файловыми форматами. Вики ArchiveTeam полезно именно своей практичностью и включает материалы из множества источников.

3. MultimediaWiki

Другой Вики проект доступный по адресу wiki.multimedia.cx и включающий описание многих мультимедийных форматов включая те что используются в игровой индустрии и многое про то как заниматься реверс инжинирингом кода для извлечения интересных материалов из тех же игр.

4. IANA Mimetypes

Это реестр mime типов на сайте IANA, покрывает те форматы файлов для которых mime типы зарегистрированы, их много, но не исчерпывающе. Важнее подробное описание каждого типа и ссылки на сами спецификации и области применения.


#readings #fileformats
4👍4🔥32
Подборка полезных ссылок про данные, технологии и не только. В этот раз ссылки на видео:
- Meta Just Changed Data Compression FOREVER (OpenZL Explained) про новый инструмент для сжатия файлов OpenZL. Его важная особенность - это понимание форматов сжимаемых файлов и выбор правильного способа сжатия.
- Trustworthy Data Visualization (Kieran Healy, Duke University) видео с конфренции Posit 2025 о том как создавать визуализации данным которым можно доверять, полезное для всех кто визуализирует данные или читает визуализируемое. Автор написал немало про визуализацию, три книги и много статей ну и выступает весьма неплохо
- Mooncake: Real-Time Apache Iceberg Without Compromise (Cheng Chen) про построение озера данных с Apache Iceberg и Mooncake для реального времени. Заодно и с историей OLTP и OLAP и переход к озерам данных
- Introduction to OpenRefine использование OpenRefine, инструмента для очистки и обогащения данных. Примеры.и применение из работы с цифровыми архивами и библиотеками и не все знают что библиотекари - это основная аудитория пользователей OpenRefine.
- PostgresAI я так понимаю что это пока малоизвестный стартап который обещает применение ИИ для оптимизации баз Postgres. Концептуальная идея на поверхности, я, если честно, думал что появится что-то более универсальное по мониторингу и оптимизации с поддержкой разных СУБД. Честно говоря видео оформлено дурацки.и документация на их сайте практичнее

#readings #ai #datatools #datatools
🔥3👍2
State of AI большое свежее эмпирическое исследование от OpenRouter и a16z (Andreessen Horowitz) по тому как использовались 100 триллионов токенов.

Много разных интересных инсайтов, о том что модели ИИ в основном используют для программирования (это скорее особенность OpenRouter, но все равно важное наблюдение) и о взлете китайских открытых моделей, в первую очередь DeepSeek и о дальнейшем падении его доли по мере появления новых моделей.

В целом обзор отражает высокую динамику и быстрые изменения.

Что характерно, русский язык там есть, но у пользователей, он 3-й после английского и китайского по популярности, но это всего лишь ~2.5%, а вот российские ИИ модели даже не рассматриваются от игроков из США, Китая и Европы, что тоже логично потому что к OpenRouter'у, насколько я знаю, они не подключены.

#ai #readings
🔥93👍3❤‍🔥2
Полезное чтение про данные, технологии и не только:
- Compute Is the New Oil статья в FA о том что чипы для ИИ стали основной для дипломатии США и стран Персидского залива и о том что вычислительные мощности - это новая нефть. Ну вы меня поняли, теперь если кто-то ляпнет что "данные - это новая нефть", то можно записывать его в древние ретрограды, потому что теперь чипы-чипы-чипы. По крайней мере на уровне глобальной дипломатии
- The Nation’s Data at Risk: 2025 Report доклад американской ассоциации статистиков о кризисе статистики в США, много критики, много рекомендаций в центре которого восполнение дефицита сотрудников, но еще много всего. Хочется тут конечно понять что если в США в статистике кризис, то что в России, апокалипсис? Армагеддон? Все познается в сравнении
- Personal Data Architectures in the BRICS Countries книга о персональных данных в странах БРИКС в Oxford Press, ещё не читал, но любопытно по некоторым странам. Есть правда подозрение что авторы могут недостаточно понимать внутреннюю кухню и смотрят на это глазами кабинетных исследователей

#readings #privacy #statistics #data
41