Ivan Begtin

Для тех кто учится на чужих ошибках отличный тред на reddit'е где автор делиться опытом применения вайб кодинга на живой системе. В этот тред можно отправлять всех кто думает про вайб кодинг как про "манну небесную" и решение всех проблем. Скорее про создание новых проблем в руках людей не обладающих необходимыми техническими навыками.

Я бы, кстати, всех продавцов курсов по вайб-кодингу для начинающих разработчиков сразу вносил в чёрный список как разрушающих ИТ индустрию. И если Вы сами только-только начинаете программировать, лучше не начинайте с применения ИИ ассистентов. Это помешает приобрести реальный опыт и отразится на всей последующей карьере.

#ai #coding

1💯21🔥6😁1

1.51K viewsIvan Begtin, 10:01

Ivan Begtin

Вышла версия 1.4 DuckDB, изменений там довольно немало, я бы обратил внимание на появление режима шифрования базы данных которой охватывает и сам файл базы данных, и всех промежуточных файлов. А также улучшена сортировка, появился коннектор к Teradata, запись в таблицы Apache Iceberg и так далее.

#opensource #datatools

DuckDB

Announcing DuckDB 1.4.0 LTS

We're releasing DuckDB version 1.4.0, codenamed “Andium”. This is an LTS release with one year of community support, and it packs several new features including database encryption, the MERGE statement and Iceberg writes.

🔥10

1.5K viewsIvan Begtin, 13:40

Ivan Begtin

Forwarded from Национальный цифровой архив

Важный вопрос, как для развития Ruarxive.org, так и для сообщества по цифровой архивации в том как мы могли сообщество развивать и поддерживать? Как можно было бы сделать текущую работы по архивации более полезной, удобной и востребованной? Для чего обязательно проведём опрос тут в телеграм канале, но прежде это хотелось бы обсудить.

У инициатив по архивации, увы, немного ресурсов и удаётся сохранить далеко не всё что хотелось бы

Вот неполный список идей которые "витают в воздухе":
1. Обновить сайт ruarxive.org и выложить туда в более удобном виде все накопленные архивы.
2. Сделать форум для обсуждений который бы дополнял чат @ruarxivechat и дел бы возможность не терять треды обсуждения.
3. Больше интегрироваться с Archive.org и ArchiveTeam и ориентироваться на них в архивных задачах. Например, делать обязательную копию всего в Интернет архив
4. Организовать курсы/семинары по обучению самостоятельной архивации (материалы есть, они даже использовались для курсов в одном из университетов).
5. Регулярно организовывать митапы или ежегодную конференцию по теме архивации цифрового контента
6. Актуализировать гайды по архивации цифрового контента разного типа и подготовить новые
7. Организовать конкурс на создание инструментов архивации типовых сайтов/соц сетей/иных цифровых источников данных, может быть добавить конкурс на создание гайдов и курсов по архивации от сообщества

Возможно какие-то ещё идеи? Предлагаю обсудить их в чате @ruarxivechat и все их выставим на голосование в ближайшее время

#ideas #community

⚡3❤1

1.45K viewsIvan Begtin, 16:16

Ivan Begtin

Свежий инструмент для исследователей ORKG Ask даёт структурированные ответы на вопросы на основе CORE Dataset, крупнейшей базы научных статей открытого доступа в мире (418 миллионов статей)

Основное применение тут в виде подборок статей для цитирования.

#openaccess #opensource

👍6

1.43K viewsIvan Begtin, 14:37

Ivan Begtin

Сюда ещё много чего можно добавить:
❌ вы написали что умеете убирать говно лопатой, а у нас все работают на экскаваторах (недостаточное владение современными инструментами)
❌ вы не умеете убирать говно без роботов, а нам нужен личный опыт (вайб спецы по уборке говна не нужны)
❌ вы умеете бросать говно только налево, а у нас все бросают направо (несоответствие командным практикам)
❌ вы можете убирать говно только с 8 до 16, а надо с 16 до 24 (живёте в другой временной зоне)

Всё так, ИТ-рынок, особенно в части управления проектами, и режим работы "головы откручивать и говно разбрасывать"

#юморпосредам #it

😁31🔥6💯6

1.94K viewsIvan Begtin, edited 16:48

Ivan Begtin

Forwarded from Национальный цифровой архив

Давайте выберем приоритеты в развитии сообщества по цифровой архивации и проекта Ruarxive.org (множественный выбор)

Anonymous Poll

54%

Более удобный доступ к архивам и удобный сайт ruarxive.org

14%

Сделать форум для обсуждений который бы дополнял чат @ruarxivechat и

39%

Больше интегрироваться с Archive.org и ArchiveTeam и ориентироваться на них в архивных задачах. Н

31%

Организовать курсы/семинары по обучению самостоятельной архивации

21%

Регулярно организовывать митапы или ежегодную конференцию по теме архивации цифрового контента

50%

Актуализировать гайды по архивации цифрового контента разного типа и подготовить новые

18%

Организовать конкурс на создание инструментов архивации

16%

Консорциум по выбору способов и форматов хранения

45%

Развивать кросс-интеграцию решений, чтобы разные приложения могли понимать форматы друг-друга

36%

Усилить взаимодействие с разработчиками популярных инструментов, чтобы улучшить интеграцию с ними.

🔥4

121 voters1.24K viewsIvan Begtin, 16:15

Ivan Begtin

Любопытный стартап за которым я слежу - это Factory. Он как раз про то самое вайб-кодирование которое приносит много боли, но поставленное на промышленный масштаб. По сути это реконструкция работы команды разработчиков с разными задачами и разным функционалом и состоящей из нескольких видов дроидов.

Это ни разу не вайб кодинг и не low/no code продукт, а как раз новая хардкорная IDE и среда для усиления команд миддлов и синьёров.

Честно говоря я вообще не вижу места джуниорам в командах которые такими продуктами пользуются.

Лично я бы для прода такой сервис использовал бы только если он будет от какого-то очень "тяжёлого бигтеха" или вообще продукт с открытым кодом, ибо зависимость от него будет критичная. Но последить за этим стартапом интересно.

#coding #it #ai

👍5🤔1😢1

1.91K viewsIvan Begtin, 17:15

Ivan Begtin

В рубрике как это устроено у них портал открытых данных Ирана data.gov.ir

Включает 11675 наборов данных, от 32 организаций. Внутри построен на CKAN.

Большая часть данных - это статистика, форматы включают Excel, PDF, а также карты, обычно в JPEG'ах.

Лицензии на данные не указывают, структурированного хранилища там тоже нет.

В текущем виде он появился он относительно недавно, ранее там был какой-то свой движок и только геоданные, а теперь появилось какое-то количество статистики и данных в Excel.

#opendata #datasets #iran #ckan

✍4👍3⚡2🤔1

1.5K viewsIvan Begtin, 18:10

Ivan Begtin

Разные мысли вслух:
1. LLM'ки для кодинга пока плохо справляются с оптимизацией уже оптимизированного кода. Все мои попытки оптимизировать инструменты ориентированные на быстрый разбор данных приводят к тому что ИИ агенты дают множество как бы неплохих оптимизаций, но, ожидаемо, без серьёзного понимания контекста. Например, много лет назад я написал библиотеку для Python qddate которая заточена под быстрый парсинг дат, которая довольно интенсивно мной оптимизировалась под быстрый разбор дат в разных форматах в том числе "грязными хаками" вроде вкодированной идентификации потенциальных шаблонов. Все рекомендации от LLM сводились к введению разных форм кеширования без учёта природы и специфики данных. Итоговой оптимизации парсинга они не дают. Немного лучше становится когда природу данных и инструментов ты понимаешь и ставишь задачу в стиле "Оптимизируй код XXX используя инструменты YYY и/или ZZZ", но в целом проблема не в галлюцинациях, а в непонимании автоматическими инструментами природы задач под которые код должен быть оптимизирован.
2. Программирование тяжело сочетается со всеми прерывающими задачами. Это, конечно, совсем не новость, но сложно сочетать любую разработку и написание текстов и управленческую работу, равно как и работу руководителем проектов. Есть задачи качество которых измеряется в возможности непрерывной работы от 2 до 4 часов подряд. Даже при том что все свои активности связанные с выступлениями, лекциями, совещаниями я в последние годы сократил до минимума, но управление временем становится важнейшей необходимостью.
3. Хороший код != востребованный продукт. Хотя эти явления часто идут вместе, но синонимами не являются. Работая со множеством инструментов по обработке данных вижу как хорошие инструменты часто могут быть заменены эволюционно более сильными инструментами, даже при наличии хорошего кода. Например, DuckDB, по факту, значительно эффективнее большей части утилит работы с CSV файлами, а работа с CSV файлами куда менее эффективна чем работа с файлами в форматах вроде Parquet. Это касается, как минимум, инструментария работы с данными, но ими не ограничивается.

#thoughts

❤12✍7👍4⚡2

1.49K viewsIvan Begtin, edited 20:13

Ivan Begtin

В рубрике как это устроено у них 国家公共数据资源登记平台 (Национальная платформа регистрации общедоступных данных Китая) sjdj.nda.gov.cn.

Создан в National Data Administration (NDA) Китая, правительственной структуре отвечающей за регулирование данных в Китае. Публично анонсирован в марте 2025 г. и на сентябрь 2025 г. включает 17 313 зарегистрированных общедоступных наборов данных и 2984 набора открытых данных.

У этой платформы есть ряд существенных особенностей:
- регистрация на портале разрешена только для граждан и компаний Китая
- информации о внутренней работе поратала очень мало и вся она только на китайском языке
- непонятно доступны ли сами данные на портале для авторизованных пользователей, для неавторизованных они точно недоступны
- это именно портал общедоступных данных в нем есть разделы реестра общедоступных данных и открытых данных
- раздел с открытыми данными содержит ссылки на данные в первоисточниках, десятках порталов открытых данных и общедоступных данных органов власти и регионов Китая.

При всех ограничениях - это полноценный национальный портал данных, далеко не идеальный, в Китае есть немало открытых каталогов данных и агрегаторов датасетов сделанных более совершенно, однако теперь нельзя говорить что в Китае нет нац. портала данных.

#opendata #china #datacatalogs

✍2🔥2⚡1

1.53K viewsIvan Begtin, 07:52

Ivan Begtin

Полезное чтение про данные, технологии и не только с моими комментариями:
- How Tables Grew a Brain: Iceberg, Hudi, Delta, Paimon, DuckLake примерно месячной давности обзор основных продуктов для построения озер данных. Полезно, однако стоит дождаться обновлений по DuckLake и прочитать про них для полноты картины. И тут, конечно, важно вновь вспомнить что озера данных это всё ещё термин имеющий как минимум два значения. Первый - разрозненная комбинация хранилищ данных объединённая общим каталогом метаданных и некоторыми принципами доступа к ним. Второй - это архитектурный подход и хранилище, куда можно загружать разнообразные данные (структурированные, полуструктурированные, неструктурированные) в их исходном виде. Ключевая идея — хранить всё «как есть» и предоставлять единый уровень доступа для анализа, обработки и интеграции. Это кажется очень похожим определениями, но это не совсем так и продуктовая часть подходов к озерам данных сдвинута в сторону "бери в любом формате и загружай в структурированном по правилам".
- The Missing README: A Guide for the New Software Engineer хорошая книжка о том как учиться программной инженерии, почитываю её постепенно в электронном виде. Она, во многом, именно про то как быть профессиональным разработчиком что включает написание тестов, документации, организации процесса разработки, изучение нового, работе в команде, понимание задач и целей программных продуктов и тд. В общем-то похоже на гайд для тимлидов, но начинающим разработчикам полезно читать чтобы понимать куда двигаться чтобы приобретать реальный опыт
- Columnar File Readers in Depth: Structural Encoding погружение в логику работы структурного кодирования в блоге LanceDB. Для тех кто работает с большими массивами и словарями данных о том чем отличается организация данных LanceDB по сравнению с Parquet и другими форматами.
- Is Your Data “AI-Ready”? Why Good Data Isn’t Enough Anymore вполне резонные рассуждения о том что просто "хорошие данные" недостаточны для применения вместе с ИИ. Сталкиваюсь с этим всё больше когда есть базы данных которые могут быть весьма неплохи, но без базы знаний прилинкованных к базам данных и применимость для ИИ задач ограничена.

#readings #ai #data

❤6✍3💯3

1.24K viewsIvan Begtin, edited 07:41

Ivan Begtin

Forwarded from Координация профанации

Рубрика "Циничная перегостехизация"
По данным источников (тм) завтра должна состояться большая стратсессия по Гостеху (но это не точно!).
Сначала эта стратсессия была запланирована на июль 2025, потом плановая дата переехала на август 2025 - но тоже не срослось.
И вот сейчас третья попытка.
В стратсессии будет принимать участие отец Гостеха - ~~Греф~~ Сбер (мамы у Гостеха нет, и это многое объясняет). Предварительная тема выступления Сбера - Гостех 2.0 (что бы это ни значило).
Те, кто еще почему-то следят за историей Гостеха, знают, что то, что сейчас называют Гостехом, это совсем не тот Гостех, который начинался в 2020 году (ахренеть - уже пять лет продолжается это шоу!) - от Сберовской Platform V там почти ничего не осталось.
Но Сбер не теряет надежды заново продать свое детище государству - теперь под вывеской "Гостех 2.0."
Мне еще пару месяцев назад подогнали презентацию Сбера про Гостех 2.0 - и, судя по всему, это внутренняя преза, а не картинки для "Бункера".
Завтра, если стратсессия все-таки состоится, в презе Сбера, наверняка, будет больше всяких лозунгов про пользу Гостеха 2.0 для государства и не будет картинок про экономику проекта в интересах самого Сбера.
Но вы посмотрите на то, что Сбер думает про Гостех внутри себя

🌚1

1.02K viewsIvan Begtin, 10:34

Ivan Begtin

Forwarded from Координация профанации

1.06K viewsIvan Begtin, 10:34

About

Blog

Apps

Platform