Ivan Begtin
9.11K subscribers
2.47K photos
4 videos
113 files
5.21K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Полезное чтение про данные, технологии и не только:
- DuckLake standard 0.2 обновлённая спецификация озера данных на базе DuckDB, любопытно, всё жду обзоров сравнения нескольких технологий построения подобных озер. Они больше для корпоративной аналитики чем для работы со статическими данными, но тем не менее.
- What CoPilot Won’t Teach You About Python (Part 1) полезные трюки для тех кто программирует на Python и хочет знать новые лайфхаки. Заголовок, конечно, так себе ибо LLM многое из этого умеют
- Finding a job as a product engineer про культуру работы продуктовых инженеров и компании которые продвигают и реализуют такой подход. Если кратко то это совмещение ролей product owner'а и developer'а. Идея мне нравится, вот только найти таких людей непросто
- Notate.so ИИ помощник для рассуждений над любым текстом в сети, работает как расширение для браузера и интегрирован с Obsidian. Идея любопытная, в идеале бы local first версию интегрированную с локальной версией Obisidian

#python #readings #daata #datalake #products #notes
71🤔1
AI Safety Index от Future of Life Institute. По сути оценивали они не столько ИИ модели, сколько корп. культуру, планы, обещания, юр. статус, публичные декларации и тд. основных провайдеров облачных LLM. Поэтому DeepSeek на последнем месте, о чём в тексте индекса тоже есть, о том что китайская корпоративная культура устроена иначе.

А в целом результаты индекса в том что все ИИ компании сами не готовы к тому к чему они стремятся.

Документ полезный, много сопроводительных ссылок на другие схожие работы.

#ai #readings #ratings
🔥8😁4
Полезное чтение про данные, технологии и не только:
- Practices for Collecting, Managing, and Using Light Detection and Ranging Data (2025) хороший обзор практик сбора, обработки и публикации данных измерений LIDAR где можно узнать о том как, зачем и в каком виде эти данные собираются и где их искать.
- Enriching Unstructured Cultural Heritage Data Using NLP обогащение неструктурированных данных об объектах культурного наследия с помощью LLM.

#readings #ai #opendata #data #geodata
1👍41
Полезное чтение про данные, технологии и и не только:
- Traps for developers подборка советов по особенностям языков программирования и фреймворков. По Python совсем мало, видно что не сильная сторона автора, по многим другим немало, в целом выглядит полезно.
- Data quality guides подборка руководств по качеству данных, вернее по процессам организации обеспечения качества данных. Все собраны из документов руководств дата-компаний и, по сути, касаются не только качества данных, но и управления данными в целом, что затрагивает качество.
- Big Tech Is Eating Itself in Talent War статья в WSJ за пэйволом о том что главный дефицит в бигтехах сейчас - это ИИ таланты за которые идёт всё более ожесточённая война.
- Building a web search engine from scratch in two months with 3 billion neural embeddings лонгрид о том как автор пытается создать поисковую систему по веб'у. Много технических подробностей и решений, точно интересное чтение

#data #bigtech #search #readings
7👍21
Что-то я текст написал, а поделиться им забыл. Цифровой ящик пандоры про национальный госмессенжер, национальную википедию и национальный ИИ. Пока писал меня не покидало ощущение что записываю какие-то банальности, очевидности-высоковероятности, но решил зафиксировать текстом.

#readings #texts #writings
1👍238🔥3🤝1
Свежий доклад ОЭСР National statistical offices as emerging trusted intermediaries in data governance о том что национальные статистические службы (NSO) в мире могут выступать в роли доверенных дата-посредников (TDI) в предоставлении доступа к данным третьих сторон.

В докладе акцент на том что национальные статслужбы собирают данные от других госорганов и создающих данные организации и обеспечивают безопасный доступ исследователей к этим данным в контролируемом окружении. С примерами такой инфраструктуры в Канаде, Франции, Израиле, Финляндии, Литве, Эстонии, Великобритании, Турции и других странах.

Почти во всех случаях акцент на доступе к деперсонализированным данным соцопросов и данных с иными ограничениями и обременениями.

В целом, лично для меня мало нового, но хорошо систематизированный материал о том что управление данными - это ключевые компетенции статслужб и то что статслужбы наиболее логичные дата стюарды для обеспечения доступа к данным, но только когда эти компетенции развиты и развиваются.

#opendata #data #statistics #oecd #readings
👍61🔥1
Полезное чтение про данные, технологии и не только с моими комментариями:
- How Tables Grew a Brain: Iceberg, Hudi, Delta, Paimon, DuckLake примерно месячной давности обзор основных продуктов для построения озер данных. Полезно, однако стоит дождаться обновлений по DuckLake и прочитать про них для полноты картины. И тут, конечно, важно вновь вспомнить что озера данных это всё ещё термин имеющий как минимум два значения. Первый - разрозненная комбинация хранилищ данных объединённая общим каталогом метаданных и некоторыми принципами доступа к ним. Второй - это архитектурный подход и хранилище, куда можно загружать разнообразные данные (структурированные, полуструктурированные, неструктурированные) в их исходном виде. Ключевая идея — хранить всё «как есть» и предоставлять единый уровень доступа для анализа, обработки и интеграции. Это кажется очень похожим определениями, но это не совсем так и продуктовая часть подходов к озерам данных сдвинута в сторону "бери в любом формате и загружай в структурированном по правилам".
- The Missing README: A Guide for the New Software Engineer хорошая книжка о том как учиться программной инженерии, почитываю её постепенно в электронном виде. Она, во многом, именно про то как быть профессиональным разработчиком что включает написание тестов, документации, организации процесса разработки, изучение нового, работе в команде, понимание задач и целей программных продуктов и тд. В общем-то похоже на гайд для тимлидов, но начинающим разработчикам полезно читать чтобы понимать куда двигаться чтобы приобретать реальный опыт
- Columnar File Readers in Depth: Structural Encoding погружение в логику работы структурного кодирования в блоге LanceDB. Для тех кто работает с большими массивами и словарями данных о том чем отличается организация данных LanceDB по сравнению с Parquet и другими форматами.
- Is Your Data “AI-Ready”? Why Good Data Isn’t Enough Anymore вполне резонные рассуждения о том что просто "хорошие данные" недостаточны для применения вместе с ИИ. Сталкиваюсь с этим всё больше когда есть базы данных которые могут быть весьма неплохи, но без базы знаний прилинкованных к базам данных и применимость для ИИ задач ограничена.

#readings #ai #data
63💯3
Разное чтение

F-Droid пишут что решение Google об обязательной верификации всех приложений на устройствах на базе Android убьёт их проект и призывает писать своим парламентариям и конгрессменам чтобы те не допустили подобного. История про превращение экосистемы Android'а в закрытую, конечно, плохая. Право распоряжаться собственными устройствами лично я считаю неотъемлимым.

Small data короткий текст в котором автор пишет о том что развитие железа и инструментов работы с данными привело к тому что нет проблемы работать с данными подавляющего большинства компаний без больших инфраструктурных расходов. Тут нет big data, тут только small data. Я на эту тему говорю обычно о том что "Вы не начинаете производить больше данных, а вот инструменты обработки данных развиваются стремительно".

Отдавайте сразу Markdown вместо HTML для скармливания данных LLM. Мысль простая и довольно любопытная, отдавать Markdown текст вместо HTML по HTTP заголовку типа mime. А почему бы и нет?

#readings #data #privacy #ai
1😱6👍3
Bringing Light to Government Dark Data in the Age of AI любопытный текст от Heather Openshaw из Digital Impact Alliance на тему того что у государств монополия на многие "темные данные" (dark data), неоцифрованные, в устаревших СУБД, с необоснованными ограничениями доступа и тд. И о том что государства должны и могут обеспечивать доступность этих данных во всех смыслах - для граждан, для цифровых сервисов, для обучения ИИ. Акценты там и примеры по наименее развитым странам и обратите внимание на упоминание Digital Public Infrastructure (DPI), а это всё более развивающаяся концепция, в основном, в отношении развивающихся стран.

#readings #data #opendata
👍4
ОЭСР опубликовали результаты TALIS 2024 крупнейшего опроса учителей в мире охватывающего 280 тысяч преподавателей и учителей. В этом году результаты про применение учителями ИИ, почему они выбрали эту профессию и почему продолжают ей заниматься.

В опросе охвачены многие, но не все страны. Например, там есть Казахстан, Узбекистан, Азербайджан, но нет России, Беларуси, Армении, Грузии и тд.

Из полезных фактов:
- до 75% учителей в Сингапуре и ОАЭ используют ИИ в работе. Около 90% из них используют ИИ для формирования учебных планов
- менее всего ИИ используют учителя во Франции и Японии, меньше 20%
- в Казахстане ИИ используют 59% учителей

Там ещё немало разных интересных фактов, но главный, конечно, в стремительном росте влияния ИИ на образование.

#ai #readings #education
5👍4