Ivan Begtin

Любопытный стартап за которым я слежу - это Factory. Он как раз про то самое вайб-кодирование которое приносит много боли, но поставленное на промышленный масштаб. По сути это реконструкция работы команды разработчиков с разными задачами и разным функционалом и состоящей из нескольких видов дроидов.

Это ни разу не вайб кодинг и не low/no code продукт, а как раз новая хардкорная IDE и среда для усиления команд миддлов и синьёров.

Честно говоря я вообще не вижу места джуниорам в командах которые такими продуктами пользуются.

Лично я бы для прода такой сервис использовал бы только если он будет от какого-то очень "тяжёлого бигтеха" или вообще продукт с открытым кодом, ибо зависимость от него будет критичная. Но последить за этим стартапом интересно.

#coding #it #ai

👍5🤔1😢1

1.88K viewsIvan Begtin, 17:15

Ivan Begtin

В рубрике как это устроено у них портал открытых данных Ирана data.gov.ir

Включает 11675 наборов данных, от 32 организаций. Внутри построен на CKAN.

Большая часть данных - это статистика, форматы включают Excel, PDF, а также карты, обычно в JPEG'ах.

Лицензии на данные не указывают, структурированного хранилища там тоже нет.

В текущем виде он появился он относительно недавно, ранее там был какой-то свой движок и только геоданные, а теперь появилось какое-то количество статистики и данных в Excel.

#opendata #datasets #iran #ckan

✍4👍3⚡2🤔1

1.48K viewsIvan Begtin, 18:10

Ivan Begtin

Разные мысли вслух:
1. LLM'ки для кодинга пока плохо справляются с оптимизацией уже оптимизированного кода. Все мои попытки оптимизировать инструменты ориентированные на быстрый разбор данных приводят к тому что ИИ агенты дают множество как бы неплохих оптимизаций, но, ожидаемо, без серьёзного понимания контекста. Например, много лет назад я написал библиотеку для Python qddate которая заточена под быстрый парсинг дат, которая довольно интенсивно мной оптимизировалась под быстрый разбор дат в разных форматах в том числе "грязными хаками" вроде вкодированной идентификации потенциальных шаблонов. Все рекомендации от LLM сводились к введению разных форм кеширования без учёта природы и специфики данных. Итоговой оптимизации парсинга они не дают. Немного лучше становится когда природу данных и инструментов ты понимаешь и ставишь задачу в стиле "Оптимизируй код XXX используя инструменты YYY и/или ZZZ", но в целом проблема не в галлюцинациях, а в непонимании автоматическими инструментами природы задач под которые код должен быть оптимизирован.
2. Программирование тяжело сочетается со всеми прерывающими задачами. Это, конечно, совсем не новость, но сложно сочетать любую разработку и написание текстов и управленческую работу, равно как и работу руководителем проектов. Есть задачи качество которых измеряется в возможности непрерывной работы от 2 до 4 часов подряд. Даже при том что все свои активности связанные с выступлениями, лекциями, совещаниями я в последние годы сократил до минимума, но управление временем становится важнейшей необходимостью.
3. Хороший код != востребованный продукт. Хотя эти явления часто идут вместе, но синонимами не являются. Работая со множеством инструментов по обработке данных вижу как хорошие инструменты часто могут быть заменены эволюционно более сильными инструментами, даже при наличии хорошего кода. Например, DuckDB, по факту, значительно эффективнее большей части утилит работы с CSV файлами, а работа с CSV файлами куда менее эффективна чем работа с файлами в форматах вроде Parquet. Это касается, как минимум, инструментария работы с данными, но ими не ограничивается.

#thoughts

❤12✍7👍4⚡2

1.47K viewsIvan Begtin, edited 20:13

Ivan Begtin

В рубрике как это устроено у них 国家公共数据资源登记平台 (Национальная платформа регистрации общедоступных данных Китая) sjdj.nda.gov.cn.

Создан в National Data Administration (NDA) Китая, правительственной структуре отвечающей за регулирование данных в Китае. Публично анонсирован в марте 2025 г. и на сентябрь 2025 г. включает 17 313 зарегистрированных общедоступных наборов данных и 2984 набора открытых данных.

У этой платформы есть ряд существенных особенностей:
- регистрация на портале разрешена только для граждан и компаний Китая
- информации о внутренней работе поратала очень мало и вся она только на китайском языке
- непонятно доступны ли сами данные на портале для авторизованных пользователей, для неавторизованных они точно недоступны
- это именно портал общедоступных данных в нем есть разделы реестра общедоступных данных и открытых данных
- раздел с открытыми данными содержит ссылки на данные в первоисточниках, десятках порталов открытых данных и общедоступных данных органов власти и регионов Китая.

При всех ограничениях - это полноценный национальный портал данных, далеко не идеальный, в Китае есть немало открытых каталогов данных и агрегаторов датасетов сделанных более совершенно, однако теперь нельзя говорить что в Китае нет нац. портала данных.

#opendata #china #datacatalogs

✍2🔥2⚡1

1.51K viewsIvan Begtin, 07:52

Ivan Begtin

Полезное чтение про данные, технологии и не только с моими комментариями:
- How Tables Grew a Brain: Iceberg, Hudi, Delta, Paimon, DuckLake примерно месячной давности обзор основных продуктов для построения озер данных. Полезно, однако стоит дождаться обновлений по DuckLake и прочитать про них для полноты картины. И тут, конечно, важно вновь вспомнить что озера данных это всё ещё термин имеющий как минимум два значения. Первый - разрозненная комбинация хранилищ данных объединённая общим каталогом метаданных и некоторыми принципами доступа к ним. Второй - это архитектурный подход и хранилище, куда можно загружать разнообразные данные (структурированные, полуструктурированные, неструктурированные) в их исходном виде. Ключевая идея — хранить всё «как есть» и предоставлять единый уровень доступа для анализа, обработки и интеграции. Это кажется очень похожим определениями, но это не совсем так и продуктовая часть подходов к озерам данных сдвинута в сторону "бери в любом формате и загружай в структурированном по правилам".
- The Missing README: A Guide for the New Software Engineer хорошая книжка о том как учиться программной инженерии, почитываю её постепенно в электронном виде. Она, во многом, именно про то как быть профессиональным разработчиком что включает написание тестов, документации, организации процесса разработки, изучение нового, работе в команде, понимание задач и целей программных продуктов и тд. В общем-то похоже на гайд для тимлидов, но начинающим разработчикам полезно читать чтобы понимать куда двигаться чтобы приобретать реальный опыт
- Columnar File Readers in Depth: Structural Encoding погружение в логику работы структурного кодирования в блоге LanceDB. Для тех кто работает с большими массивами и словарями данных о том чем отличается организация данных LanceDB по сравнению с Parquet и другими форматами.
- Is Your Data “AI-Ready”? Why Good Data Isn’t Enough Anymore вполне резонные рассуждения о том что просто "хорошие данные" недостаточны для применения вместе с ИИ. Сталкиваюсь с этим всё больше когда есть базы данных которые могут быть весьма неплохи, но без базы знаний прилинкованных к базам данных и применимость для ИИ задач ограничена.

#readings #ai #data

❤6✍3💯3

1.21K viewsIvan Begtin, edited 07:41

Ivan Begtin

Forwarded from Координация профанации

Рубрика "Циничная перегостехизация"
По данным источников (тм) завтра должна состояться большая стратсессия по Гостеху (но это не точно!).
Сначала эта стратсессия была запланирована на июль 2025, потом плановая дата переехала на август 2025 - но тоже не срослось.
И вот сейчас третья попытка.
В стратсессии будет принимать участие отец Гостеха - ~~Греф~~ Сбер (мамы у Гостеха нет, и это многое объясняет). Предварительная тема выступления Сбера - Гостех 2.0 (что бы это ни значило).
Те, кто еще почему-то следят за историей Гостеха, знают, что то, что сейчас называют Гостехом, это совсем не тот Гостех, который начинался в 2020 году (ахренеть - уже пять лет продолжается это шоу!) - от Сберовской Platform V там почти ничего не осталось.
Но Сбер не теряет надежды заново продать свое детище государству - теперь под вывеской "Гостех 2.0."
Мне еще пару месяцев назад подогнали презентацию Сбера про Гостех 2.0 - и, судя по всему, это внутренняя преза, а не картинки для "Бункера".
Завтра, если стратсессия все-таки состоится, в презе Сбера, наверняка, будет больше всяких лозунгов про пользу Гостеха 2.0 для государства и не будет картинок про экономику проекта в интересах самого Сбера.
Но вы посмотрите на то, что Сбер думает про Гостех внутри себя

🌚1

1K viewsIvan Begtin, 10:34

Ivan Begtin

Forwarded from Координация профанации

1.05K viewsIvan Begtin, 10:34

Ivan Begtin

Forwarded from Координация профанации

1.33K viewsIvan Begtin, 10:34

About

Blog

Apps

Platform