Ivan Begtin
9.11K subscribers
2.47K photos
4 videos
113 files
5.21K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
AI Safety Index от Future of Life Institute. По сути оценивали они не столько ИИ модели, сколько корп. культуру, планы, обещания, юр. статус, публичные декларации и тд. основных провайдеров облачных LLM. Поэтому DeepSeek на последнем месте, о чём в тексте индекса тоже есть, о том что китайская корпоративная культура устроена иначе.

А в целом результаты индекса в том что все ИИ компании сами не готовы к тому к чему они стремятся.

Документ полезный, много сопроводительных ссылок на другие схожие работы.

#ai #readings #ratings
🔥8😁4
Полезное чтение про данные, технологии и не только:
- Practices for Collecting, Managing, and Using Light Detection and Ranging Data (2025) хороший обзор практик сбора, обработки и публикации данных измерений LIDAR где можно узнать о том как, зачем и в каком виде эти данные собираются и где их искать.
- Enriching Unstructured Cultural Heritage Data Using NLP обогащение неструктурированных данных об объектах культурного наследия с помощью LLM.

#readings #ai #opendata #data #geodata
1👍41
Полезное чтение про данные, технологии и и не только:
- Traps for developers подборка советов по особенностям языков программирования и фреймворков. По Python совсем мало, видно что не сильная сторона автора, по многим другим немало, в целом выглядит полезно.
- Data quality guides подборка руководств по качеству данных, вернее по процессам организации обеспечения качества данных. Все собраны из документов руководств дата-компаний и, по сути, касаются не только качества данных, но и управления данными в целом, что затрагивает качество.
- Big Tech Is Eating Itself in Talent War статья в WSJ за пэйволом о том что главный дефицит в бигтехах сейчас - это ИИ таланты за которые идёт всё более ожесточённая война.
- Building a web search engine from scratch in two months with 3 billion neural embeddings лонгрид о том как автор пытается создать поисковую систему по веб'у. Много технических подробностей и решений, точно интересное чтение

#data #bigtech #search #readings
7👍21
Что-то я текст написал, а поделиться им забыл. Цифровой ящик пандоры про национальный госмессенжер, национальную википедию и национальный ИИ. Пока писал меня не покидало ощущение что записываю какие-то банальности, очевидности-высоковероятности, но решил зафиксировать текстом.

#readings #texts #writings
1👍238🔥3🤝1
Свежий доклад ОЭСР National statistical offices as emerging trusted intermediaries in data governance о том что национальные статистические службы (NSO) в мире могут выступать в роли доверенных дата-посредников (TDI) в предоставлении доступа к данным третьих сторон.

В докладе акцент на том что национальные статслужбы собирают данные от других госорганов и создающих данные организации и обеспечивают безопасный доступ исследователей к этим данным в контролируемом окружении. С примерами такой инфраструктуры в Канаде, Франции, Израиле, Финляндии, Литве, Эстонии, Великобритании, Турции и других странах.

Почти во всех случаях акцент на доступе к деперсонализированным данным соцопросов и данных с иными ограничениями и обременениями.

В целом, лично для меня мало нового, но хорошо систематизированный материал о том что управление данными - это ключевые компетенции статслужб и то что статслужбы наиболее логичные дата стюарды для обеспечения доступа к данным, но только когда эти компетенции развиты и развиваются.

#opendata #data #statistics #oecd #readings
👍61🔥1
Полезное чтение про данные, технологии и не только с моими комментариями:
- How Tables Grew a Brain: Iceberg, Hudi, Delta, Paimon, DuckLake примерно месячной давности обзор основных продуктов для построения озер данных. Полезно, однако стоит дождаться обновлений по DuckLake и прочитать про них для полноты картины. И тут, конечно, важно вновь вспомнить что озера данных это всё ещё термин имеющий как минимум два значения. Первый - разрозненная комбинация хранилищ данных объединённая общим каталогом метаданных и некоторыми принципами доступа к ним. Второй - это архитектурный подход и хранилище, куда можно загружать разнообразные данные (структурированные, полуструктурированные, неструктурированные) в их исходном виде. Ключевая идея — хранить всё «как есть» и предоставлять единый уровень доступа для анализа, обработки и интеграции. Это кажется очень похожим определениями, но это не совсем так и продуктовая часть подходов к озерам данных сдвинута в сторону "бери в любом формате и загружай в структурированном по правилам".
- The Missing README: A Guide for the New Software Engineer хорошая книжка о том как учиться программной инженерии, почитываю её постепенно в электронном виде. Она, во многом, именно про то как быть профессиональным разработчиком что включает написание тестов, документации, организации процесса разработки, изучение нового, работе в команде, понимание задач и целей программных продуктов и тд. В общем-то похоже на гайд для тимлидов, но начинающим разработчикам полезно читать чтобы понимать куда двигаться чтобы приобретать реальный опыт
- Columnar File Readers in Depth: Structural Encoding погружение в логику работы структурного кодирования в блоге LanceDB. Для тех кто работает с большими массивами и словарями данных о том чем отличается организация данных LanceDB по сравнению с Parquet и другими форматами.
- Is Your Data “AI-Ready”? Why Good Data Isn’t Enough Anymore вполне резонные рассуждения о том что просто "хорошие данные" недостаточны для применения вместе с ИИ. Сталкиваюсь с этим всё больше когда есть базы данных которые могут быть весьма неплохи, но без базы знаний прилинкованных к базам данных и применимость для ИИ задач ограничена.

#readings #ai #data
63💯3
Разное чтение

F-Droid пишут что решение Google об обязательной верификации всех приложений на устройствах на базе Android убьёт их проект и призывает писать своим парламентариям и конгрессменам чтобы те не допустили подобного. История про превращение экосистемы Android'а в закрытую, конечно, плохая. Право распоряжаться собственными устройствами лично я считаю неотъемлимым.

Small data короткий текст в котором автор пишет о том что развитие железа и инструментов работы с данными привело к тому что нет проблемы работать с данными подавляющего большинства компаний без больших инфраструктурных расходов. Тут нет big data, тут только small data. Я на эту тему говорю обычно о том что "Вы не начинаете производить больше данных, а вот инструменты обработки данных развиваются стремительно".

Отдавайте сразу Markdown вместо HTML для скармливания данных LLM. Мысль простая и довольно любопытная, отдавать Markdown текст вместо HTML по HTTP заголовку типа mime. А почему бы и нет?

#readings #data #privacy #ai
1😱6👍3
Bringing Light to Government Dark Data in the Age of AI любопытный текст от Heather Openshaw из Digital Impact Alliance на тему того что у государств монополия на многие "темные данные" (dark data), неоцифрованные, в устаревших СУБД, с необоснованными ограничениями доступа и тд. И о том что государства должны и могут обеспечивать доступность этих данных во всех смыслах - для граждан, для цифровых сервисов, для обучения ИИ. Акценты там и примеры по наименее развитым странам и обратите внимание на упоминание Digital Public Infrastructure (DPI), а это всё более развивающаяся концепция, в основном, в отношении развивающихся стран.

#readings #data #opendata
👍4
ОЭСР опубликовали результаты TALIS 2024 крупнейшего опроса учителей в мире охватывающего 280 тысяч преподавателей и учителей. В этом году результаты про применение учителями ИИ, почему они выбрали эту профессию и почему продолжают ей заниматься.

В опросе охвачены многие, но не все страны. Например, там есть Казахстан, Узбекистан, Азербайджан, но нет России, Беларуси, Армении, Грузии и тд.

Из полезных фактов:
- до 75% учителей в Сингапуре и ОАЭ используют ИИ в работе. Около 90% из них используют ИИ для формирования учебных планов
- менее всего ИИ используют учителя во Франции и Японии, меньше 20%
- в Казахстане ИИ используют 59% учителей

Там ещё немало разных интересных фактов, но главный, конечно, в стремительном росте влияния ИИ на образование.

#ai #readings #education
5👍4