В свежей статье - State of the software engineering jobs market, 2025: what hiring managers see
Observations by 30+ hiring managers and tech recruiters about what’s happening: a flood of inbound applications means more selective hiring, there’s increased demand for product engineers, and more
Основные тезисы:
Наводнение откликов. Более 1000 кандидатов на одну вакансию — не редкость. LinkedIn Jobs стал местом для низкокачественных входящих заявок, из-за чего некоторые компании отказываются от его использования.
Мало наймов через входящие заявки. Несмотря на огромное количество откликов, большинство инженеров компании нанимают через прямые обращения и рекомендации.
Сложно найти действительно сильных кандидатов. Хотя заявок много, выдающиеся инженеры редки и часто выбирают из нескольких предложений.
Удалённая работа: больше конкуренции, меньше зарплаты? Компании, нанимающие удалённо, могут позволить себе нанимать лучших инженеров на 10–15% дешевле, чем раньше.
Фейковые кандидаты и ИИ — растущая проблема. Полностью удалённые и крипто-стартапы страдают от поддельных соискателей, которые скрывают своё местоположение и обманывают рекрутеров. Также всё чаще кандидаты жульничают на собеседованиях, используя ИИ-инструменты.
Высокий спрос на инженеров-основателей и продуктовых инженеров. В Великобритании инженерам-основателям предлагают до £200 000 ($270 000) в год плюс долю в компании. Стартапы в сфере ИИ поднимают уровень зарплат для продуктовых инженеров по всему рынку.
Ранняя стадия стартапов — свои сложности. Привлечь опытных инженеров из известных компаний по-прежнему трудно, а лучшие кандидаты часто имеют несколько конкурентных офферов.
Я почему-то думал, что на каждую вакансию - 500 кандидатов, но ставки растут. И абсолютно согласен, что среди 1000 кандидатов, может не оказаться ни одного нормального.
Observations by 30+ hiring managers and tech recruiters about what’s happening: a flood of inbound applications means more selective hiring, there’s increased demand for product engineers, and more
Основные тезисы:
Наводнение откликов. Более 1000 кандидатов на одну вакансию — не редкость. LinkedIn Jobs стал местом для низкокачественных входящих заявок, из-за чего некоторые компании отказываются от его использования.
Мало наймов через входящие заявки. Несмотря на огромное количество откликов, большинство инженеров компании нанимают через прямые обращения и рекомендации.
Сложно найти действительно сильных кандидатов. Хотя заявок много, выдающиеся инженеры редки и часто выбирают из нескольких предложений.
Удалённая работа: больше конкуренции, меньше зарплаты? Компании, нанимающие удалённо, могут позволить себе нанимать лучших инженеров на 10–15% дешевле, чем раньше.
Фейковые кандидаты и ИИ — растущая проблема. Полностью удалённые и крипто-стартапы страдают от поддельных соискателей, которые скрывают своё местоположение и обманывают рекрутеров. Также всё чаще кандидаты жульничают на собеседованиях, используя ИИ-инструменты.
Высокий спрос на инженеров-основателей и продуктовых инженеров. В Великобритании инженерам-основателям предлагают до £200 000 ($270 000) в год плюс долю в компании. Стартапы в сфере ИИ поднимают уровень зарплат для продуктовых инженеров по всему рынку.
Ранняя стадия стартапов — свои сложности. Привлечь опытных инженеров из известных компаний по-прежнему трудно, а лучшие кандидаты часто имеют несколько конкурентных офферов.
Я почему-то думал, что на каждую вакансию - 500 кандидатов, но ставки растут. И абсолютно согласен, что среди 1000 кандидатов, может не оказаться ни одного нормального.
Pragmaticengineer
State of the software engineering jobs market, 2025: what hiring managers see
Observations by 30+ hiring managers and tech recruiters about what’s happening: a flood of inbound applications means more selective hiring, there’s increased demand for product engineers, and more
3⚡10🤷7❤🔥4🍌4
8 июля я написал, что мне нужно инвестировать в акции Аренадата, потому что у меня канал про Инжиниринг Данных и купил 1000 акций. Делюсь успехами. Хорошо, что не миллион купил.
Make Arenadata Great Again! Через 6 месяцев проверим, как там дела.
Make Arenadata Great Again! Через 6 месяцев проверим, как там дела.
🙈52😭25🫡9❤🔥5🐳5 4🦄3🌚2🍌1
Сегодня дискуссия про запятые вызвала бурю эмоций и комментов.
Вы где ставите запятую?
PS а мой комент про predefined Best Practices:
I agree about opinions, our best practices are just a set of defined opinions and we blindly follow them to make sure the old code matches the new one. Either way, the result of SQL output remains the same
Задел чувства и ранил прямо в сердечко моих хрупких коллег. Не политкорректно.😌
Вы где ставите запятую?
PS а мой комент про predefined Best Practices:
I agree about opinions, our best practices are just a set of defined opinions and we blindly follow them to make sure the old code matches the new one. Either way, the result of SQL output remains the same
Задел чувства и ранил прямо в сердечко моих хрупких коллег. Не политкорректно.
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡15🙈5😈2🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Присоединяйся к команде Сбера 😎
Сбер ищет исполнительного директора (CLTV) с опытом работы в банковской аналитике.
Что будешь делать:
➖ внедрять и интегрировать CLTV в стратегии маркетинга, продаж и CRM,
➖ анализировать эффективность подходов к управлению клиентскими базами и внедрять новые решения для повышения прибыльности,
➖ создавать инструменты и методологии оценки жизненного цикла клиентов.
С первого дня ДМС, корпоративное обучение, льготная ипотека и скидки от партнёров.
Смотри вакансию и откликайся 💚
Сбер ищет исполнительного директора (CLTV) с опытом работы в банковской аналитике.
Что будешь делать:
➖ внедрять и интегрировать CLTV в стратегии маркетинга, продаж и CRM,
➖ анализировать эффективность подходов к управлению клиентскими базами и внедрять новые решения для повышения прибыльности,
➖ создавать инструменты и методологии оценки жизненного цикла клиентов.
С первого дня ДМС, корпоративное обучение, льготная ипотека и скидки от партнёров.
Смотри вакансию и откликайся 💚
😭13🐳6💯6🍌4🌚3🦄2
Все таки Fivetran купил dbt Labs.
Мне кажется, они это сделали, потому что сам dbt Labs не вывозил, и экономика у них не очень сходилась.
https://www.reuters.com/business/a16z-backed-data-firms-fivetran-dbt-labs-merge-all-stock-deal-2025-10-13/
Мне кажется, они это сделали, потому что сам dbt Labs не вывозил, и экономика у них не очень сходилась.
https://www.reuters.com/business/a16z-backed-data-firms-fivetran-dbt-labs-merge-all-stock-deal-2025-10-13/
🌚9⚡6😭4
Один из самых ценных скилов работы с другими это уметь письменно излагать свои мысли и идеи.
«Если ты думаешь, не записывая, ты только думаешь, что думаешь.»
https://yewjin.substack.com/p/on-discovering-writing
«Если ты думаешь, не записывая, ты только думаешь, что думаешь.»
https://yewjin.substack.com/p/on-discovering-writing
❤🔥34💯23🦄2
DuckDB поддерживает стриминг?!
В статье они выделяют 3 архитектурных паттерна стриминга (потоковой аналитики)
🧱 Паттерн материализованного представления (Materialized View Pattern)
Часто реализуется с помощью облачных хранилищ данных, поддерживающих материализованные представления (например, BigQuery или Snowflake).
Поток событий записывается в «сырую» таблицу, а поверх неё создаётся материализованное представление.
Этот подход обычно имеет более высокую задержку обновления по сравнению со следующими двумя, хотя точных сравнений пока немного.
⚙️ Паттерн потокового движка (Streaming Engine Pattern)
Здесь используется классический ETL-подход.
Отдельный процесс (потоковый движок) читает сообщения из источника, выполняет запросы «на лету» и сохраняет результаты в постоянной таблице.
Типичные движки — Spark Streaming, Flink, Kafka Streams и более новый Arroyo.
Такой подход часто сопровождается сложностями: управление «водяными знаками» (watermarks), состоянием, потреблением памяти при бесконечных запросах и т.п.
🗄 Паттерн потоковой базы данных (Streaming Database Pattern)
Похож на предыдущий по задержке, но значительно проще в использовании.
Потоковые базы данных вроде RisingWave или Materialize могут напрямую читать поток данных и обновлять материализованное представление «на лету».
Они стремятся сохранять ACID-консистентность и позволяют клиентам выполнять запросы через PostgreSQL-совместимый протокол.
Согласно статье, DuckDB поддерживает 1й и 2й вариант. Так же можно напрямую писать запросы к Кафке через Tributary Extension.
В статье они выделяют 3 архитектурных паттерна стриминга (потоковой аналитики)
🧱 Паттерн материализованного представления (Materialized View Pattern)
Часто реализуется с помощью облачных хранилищ данных, поддерживающих материализованные представления (например, BigQuery или Snowflake).
Поток событий записывается в «сырую» таблицу, а поверх неё создаётся материализованное представление.
Этот подход обычно имеет более высокую задержку обновления по сравнению со следующими двумя, хотя точных сравнений пока немного.
⚙️ Паттерн потокового движка (Streaming Engine Pattern)
Здесь используется классический ETL-подход.
Отдельный процесс (потоковый движок) читает сообщения из источника, выполняет запросы «на лету» и сохраняет результаты в постоянной таблице.
Типичные движки — Spark Streaming, Flink, Kafka Streams и более новый Arroyo.
Такой подход часто сопровождается сложностями: управление «водяными знаками» (watermarks), состоянием, потреблением памяти при бесконечных запросах и т.п.
🗄 Паттерн потоковой базы данных (Streaming Database Pattern)
Похож на предыдущий по задержке, но значительно проще в использовании.
Потоковые базы данных вроде RisingWave или Materialize могут напрямую читать поток данных и обновлять материализованное представление «на лету».
Они стремятся сохранять ACID-консистентность и позволяют клиентам выполнять запросы через PostgreSQL-совместимый протокол.
Согласно статье, DuckDB поддерживает 1й и 2й вариант. Так же можно напрямую писать запросы к Кафке через Tributary Extension.
❤🔥8🐳6⚡4
This media is not supported in your browser
VIEW IN TELEGRAM
Как сэкономить на миграции в S3?
При реорганизации инфраструктуры компании часто платят за перенос данных дважды — за исходное хранилище и трафик, запросы и новое хранилище.
👉Selectel запустил «миграционные каникулы» для S3. 30 дней без оплаты хранения и входящих запросов, чтобы вы смогли подготовить инфраструктуру и спокойно перенести данные без лишних трат.
S3 от Selectel:
📦 Подходит для хранения бэкапов, данных приложений, ML-датасетов и работы с аналитикой;
💸Помогает сэкономить до 30% бюджета благодаря разным классам хранилища;
📍Катастрофоустойчиво засчет работы на базе дата-центров в Москве и Санкт-Петербурге.
Оформляйте заявку и пользуйтесь S3 от Selectel бесплатно в течение 30 дней:
https://slc.tl/91p1b
Реклама. АО "Селектел".erid:2W5zFJrHVXN
При реорганизации инфраструктуры компании часто платят за перенос данных дважды — за исходное хранилище и трафик, запросы и новое хранилище.
👉Selectel запустил «миграционные каникулы» для S3. 30 дней без оплаты хранения и входящих запросов, чтобы вы смогли подготовить инфраструктуру и спокойно перенести данные без лишних трат.
S3 от Selectel:
📦 Подходит для хранения бэкапов, данных приложений, ML-датасетов и работы с аналитикой;
💸Помогает сэкономить до 30% бюджета благодаря разным классам хранилища;
📍Катастрофоустойчиво засчет работы на базе дата-центров в Москве и Санкт-Петербурге.
Оформляйте заявку и пользуйтесь S3 от Selectel бесплатно в течение 30 дней:
https://slc.tl/91p1b
Реклама. АО "Селектел".erid:2W5zFJrHVXN
🙉4⚡3💯2
AI так быстро развивается, что уже не поспеть. Мне попалось два отчета про AI, там можно сразу посмотреть summary.
1. State of AI Report 2025
Основные выводы из Отчета за 2025 год:
OpenAI сохраняет незначительное лидерство, но конкуренция усилилась: Meta уступила первенство китайским компаниям DeepSeek, Qwen и Kimi, которые сокращают разрыв в задачах на рассуждение и кодирование, утверждая Китай в качестве сильного «номера 2».
Рассуждение (reasoning) стало определяющим в этом году, поскольку ведущие лаборатории объединили обучение с подкреплением (reinforcement), вознаграждение на основе рубрик и проверяемое рассуждение с новыми средами, чтобы создать модели, способные планировать, размышлять, самокорректироваться и работать на все более длинных временных горизонтах.
Искусственный интеллект становится научным сотрудником: такие системы, как Co-Scientist от DeepMind и Virtual Lab от Стэнфорда, автономно генерируют, тестируют и проверяют гипотезы. В биологии ProGen3 от Profluent показал, что законы масштабирования теперь применимы и к белкам.
Структурированное рассуждение вышло в физический мир благодаря планированию по принципу «Цепочки действий» (Chain-of-Action), поскольку воплощенные системы ИИ, такие как Molmo-Act от AI2 и Gemini Robotics 1.5 от Google, начали пошагово рассуждать перед выполнением действий.
Резко ускорилось коммерческое внедрение. Сорок четыре процента американских компаний теперь платят за инструменты ИИ (по сравнению с 5% в 2023 году), средняя сумма контрактов достигла $530 000, а стартапы, ориентированные на ИИ (AI-first), росли в 1,5 раза быстрее, чем их конкуренты, согласно данным Ramp и Standard Metrics.
Наше первое исследование практикующих специалистов по ИИ с более чем 1200 респондентами показало, что 95% профессионалов теперь используют ИИ на работе или дома, 76% оплачивают инструменты ИИ из своего кармана, и большинство сообщает об устойчивом росте производительности — это свидетельство того, что реальное внедрение стало массовым.
Началась индустриальная эра ИИ. Центры обработки данных мощностью в несколько гигаватт, такие как Stargate, сигнализируют о новой волне вычислительной инфраструктуры, поддерживаемой суверенными фондами США, ОАЭ и Китая, при этом электроснабжение становится новым ограничивающим фактором.
Политика в области ИИ еще более ужесточилась. США сделали акцент на «ИИ в первую очередь для Америки» (America-first AI), Закон ЕС об ИИ (AI Act) застопорился, а Китай расширил свою экосистему моделей с открытыми весами и амбиции в отношении отечественного производства чипов.
Исследования безопасности вступили в новую, более прагматичную фазу. Модели теперь могут имитировать выравнивание (alignment) под контролем, что вызывает споры о прозрачности в сравнении с возможностями. Между тем, внешние организации по безопасности работают с бюджетами, меньшими, чем ежедневные расходы ведущей лаборатории.
Дебаты об экзистенциальном риске поутихли, уступив место конкретным вопросам о надежности, киберустойчивости и долгосрочном управлении все более автономными системами.
1. State of AI Report 2025
Основные выводы из Отчета за 2025 год:
OpenAI сохраняет незначительное лидерство, но конкуренция усилилась: Meta уступила первенство китайским компаниям DeepSeek, Qwen и Kimi, которые сокращают разрыв в задачах на рассуждение и кодирование, утверждая Китай в качестве сильного «номера 2».
Рассуждение (reasoning) стало определяющим в этом году, поскольку ведущие лаборатории объединили обучение с подкреплением (reinforcement), вознаграждение на основе рубрик и проверяемое рассуждение с новыми средами, чтобы создать модели, способные планировать, размышлять, самокорректироваться и работать на все более длинных временных горизонтах.
Искусственный интеллект становится научным сотрудником: такие системы, как Co-Scientist от DeepMind и Virtual Lab от Стэнфорда, автономно генерируют, тестируют и проверяют гипотезы. В биологии ProGen3 от Profluent показал, что законы масштабирования теперь применимы и к белкам.
Структурированное рассуждение вышло в физический мир благодаря планированию по принципу «Цепочки действий» (Chain-of-Action), поскольку воплощенные системы ИИ, такие как Molmo-Act от AI2 и Gemini Robotics 1.5 от Google, начали пошагово рассуждать перед выполнением действий.
Резко ускорилось коммерческое внедрение. Сорок четыре процента американских компаний теперь платят за инструменты ИИ (по сравнению с 5% в 2023 году), средняя сумма контрактов достигла $530 000, а стартапы, ориентированные на ИИ (AI-first), росли в 1,5 раза быстрее, чем их конкуренты, согласно данным Ramp и Standard Metrics.
Наше первое исследование практикующих специалистов по ИИ с более чем 1200 респондентами показало, что 95% профессионалов теперь используют ИИ на работе или дома, 76% оплачивают инструменты ИИ из своего кармана, и большинство сообщает об устойчивом росте производительности — это свидетельство того, что реальное внедрение стало массовым.
Началась индустриальная эра ИИ. Центры обработки данных мощностью в несколько гигаватт, такие как Stargate, сигнализируют о новой волне вычислительной инфраструктуры, поддерживаемой суверенными фондами США, ОАЭ и Китая, при этом электроснабжение становится новым ограничивающим фактором.
Политика в области ИИ еще более ужесточилась. США сделали акцент на «ИИ в первую очередь для Америки» (America-first AI), Закон ЕС об ИИ (AI Act) застопорился, а Китай расширил свою экосистему моделей с открытыми весами и амбиции в отношении отечественного производства чипов.
Исследования безопасности вступили в новую, более прагматичную фазу. Модели теперь могут имитировать выравнивание (alignment) под контролем, что вызывает споры о прозрачности в сравнении с возможностями. Между тем, внешние организации по безопасности работают с бюджетами, меньшими, чем ежедневные расходы ведущей лаборатории.
Дебаты об экзистенциальном риске поутихли, уступив место конкретным вопросам о надежности, киберустойчивости и долгосрочном управлении все более автономными системами.
⚡13💯5👨💻2🫡1
2. State of Foundation Models
Основные выводы:
Генеративный ИИ (Generative AI) стал массовым: каждый восьмой работник в мире теперь использует ИИ ежемесячно, причём 90% этого роста произошло всего за последние 6 месяцев. Годовые доходы AI-нативных приложений уже исчисляются миллиардами.
Масштабирование продолжается во всех измерениях: все технические показатели моделей продолжают улучшаться более чем в 10 раз по сравнению с прошлым годом, включая стоимость, интеллект, размер контекстных окон и многое другое. Средняя продолжительность человеческой задачи, которую модель может надёжно выполнять, удваивается каждые 7 месяцев.
Экономика фундаментальных моделей... сбивает с толку: OpenAI и Anthropic демонстрируют поистине беспрецедентный рост, ускоряя годовой доход до $1 млрд+. Однако общие затраты на обучение передовых моделей приближаются к $500 млн, а типичная модель устаревает в течение 3 недель после запуска из-за конкуренции и сближения открытого исходного кода.
Как и самые умные люди, самый умный ИИ будет «думать, прежде чем говорить»: модели рассуждения, обученные думать перед ответом, вероятно, представляют собой новый закон масштабирования — но для их обучения требуются значительные достижения в постобучении (post-training), включая обучение с подкреплением и модели вознаграждения. Постобучение может стать более важным, чем предварительное обучение (pre-training).
ИИ проник почти во все специализированные профессии: от инженеров и бухгалтеров до дизайнеров и юристов, ИИ-помощники (copilots) и агенты теперь справляются с дорогостоящими задачами практически во всех областях деятельности работников умственного труда.
Агенты, наконец, работают, но мы только в начале понимания того, как создавать ИИ-продукты: Агенты наконец-то стали мейнстримом, но шаблоны проектирования (design patterns) и системные архитектуры для ИИ-продуктов всё ещё находятся на самых ранних стадиях.
«AI-нативные» организации будут выглядеть совершенно иначе: более плоские команды из способных специалистов широкого профиля станут нормой, поскольку генеративный ИИ снижает ценность узкоспециализированных навыков. Многие роли будут стираться — например, продуктовая разработка, дизайн и инженерия.
PS пока Google GeminiPro переводил summary, в другом окне Cursor трабулшутил Airflow 3.1 на AWS Elastic Container Service (ECS).
Основные выводы:
Генеративный ИИ (Generative AI) стал массовым: каждый восьмой работник в мире теперь использует ИИ ежемесячно, причём 90% этого роста произошло всего за последние 6 месяцев. Годовые доходы AI-нативных приложений уже исчисляются миллиардами.
Масштабирование продолжается во всех измерениях: все технические показатели моделей продолжают улучшаться более чем в 10 раз по сравнению с прошлым годом, включая стоимость, интеллект, размер контекстных окон и многое другое. Средняя продолжительность человеческой задачи, которую модель может надёжно выполнять, удваивается каждые 7 месяцев.
Экономика фундаментальных моделей... сбивает с толку: OpenAI и Anthropic демонстрируют поистине беспрецедентный рост, ускоряя годовой доход до $1 млрд+. Однако общие затраты на обучение передовых моделей приближаются к $500 млн, а типичная модель устаревает в течение 3 недель после запуска из-за конкуренции и сближения открытого исходного кода.
Как и самые умные люди, самый умный ИИ будет «думать, прежде чем говорить»: модели рассуждения, обученные думать перед ответом, вероятно, представляют собой новый закон масштабирования — но для их обучения требуются значительные достижения в постобучении (post-training), включая обучение с подкреплением и модели вознаграждения. Постобучение может стать более важным, чем предварительное обучение (pre-training).
ИИ проник почти во все специализированные профессии: от инженеров и бухгалтеров до дизайнеров и юристов, ИИ-помощники (copilots) и агенты теперь справляются с дорогостоящими задачами практически во всех областях деятельности работников умственного труда.
Агенты, наконец, работают, но мы только в начале понимания того, как создавать ИИ-продукты: Агенты наконец-то стали мейнстримом, но шаблоны проектирования (design patterns) и системные архитектуры для ИИ-продуктов всё ещё находятся на самых ранних стадиях.
«AI-нативные» организации будут выглядеть совершенно иначе: более плоские команды из способных специалистов широкого профиля станут нормой, поскольку генеративный ИИ снижает ценность узкоспециализированных навыков. Многие роли будут стираться — например, продуктовая разработка, дизайн и инженерия.
PS пока Google GeminiPro переводил summary, в другом окне Cursor трабулшутил Airflow 3.1 на AWS Elastic Container Service (ECS).
1💯10⚡6🫡6
Please open Telegram to view this post
VIEW IN TELEGRAM
💯41🙈5
Вебинар: Расширяем возможности DBT для Greenplum и ClickHouse
22 октября 2025 | ⏰ 11:00 МСК | 🕐 1 час
Sapiens solutions приглашает на вебинар, на котором будут рассматриваться ограничения DBT при работе с СУБД, а также будет обсуждаться open-source адаптер, который упрощает работу и добавляет новые стратегии загрузки, логирование и интеграцию с внешними источниками.
Разработчики продемонстрируют архитектуру решения и покажут демо, поделятся практическими рекомендациями по миграции и эксплуатации, а также ответят на вопросы.
Подробности и регистрация.
📌 Повестка
1. Предпосылки создания своего open-source коннектора для DBT.
2. Ограничения решений для трансформации данных.
3. Ключевые особенности коннектора, позволяющие обходить ограничения, и функционал: (логирование, внешние таблицы).
4. Стратегии загрузки в Greenplum и Clickhouse.
5. Оркестрация DBT-моделей в Airflow.
🔥 Кому будет полезно: инженерам данных, аналитикам и архитекторам, работающим с DBT, Greenplum или ClickHouse.
Не пропустите — зарегистрируйтесь по ссылке!
Реклама. ООО "Сапиенс солюшнс", ИНН 7725294897. erid 2W5zFG4yJde
22 октября 2025 | ⏰ 11:00 МСК | 🕐 1 час
Sapiens solutions приглашает на вебинар, на котором будут рассматриваться ограничения DBT при работе с СУБД, а также будет обсуждаться open-source адаптер, который упрощает работу и добавляет новые стратегии загрузки, логирование и интеграцию с внешними источниками.
Разработчики продемонстрируют архитектуру решения и покажут демо, поделятся практическими рекомендациями по миграции и эксплуатации, а также ответят на вопросы.
Подробности и регистрация.
📌 Повестка
1. Предпосылки создания своего open-source коннектора для DBT.
2. Ограничения решений для трансформации данных.
3. Ключевые особенности коннектора, позволяющие обходить ограничения, и функционал: (логирование, внешние таблицы).
4. Стратегии загрузки в Greenplum и Clickhouse.
5. Оркестрация DBT-моделей в Airflow.
🔥 Кому будет полезно: инженерам данных, аналитикам и архитекторам, работающим с DBT, Greenplum или ClickHouse.
Не пропустите — зарегистрируйтесь по ссылке!
Реклама. ООО "Сапиенс солюшнс", ИНН 7725294897. erid 2W5zFG4yJde
Mts-link.ru
Расширяем возможности DBT для Greenplum и ClickHouse
При переходе с вендорских на open‑source СУБД вроде Greenplum и ClickHouse компании часто теряют привычные инструменты для моделирования данных и ETL. DBT остается стандартом для T‑части (преобразование уже загруженных данных в аналитические модели), но комьюнити…
❤🔥8🫡5
Поговорим про деньги в IT?
Приглашаем опытных IT-специалистов пройти небольшой опрос про зарплаты и бенефиты в технологических компаниях. Это займёт не более 7 минут — а ваше мнение поможет одному крупному российскому работодателю делать актуальные оферы.
Пройти опрос можно здесь
Приглашаем опытных IT-специалистов пройти небольшой опрос про зарплаты и бенефиты в технологических компаниях. Это займёт не более 7 минут — а ваше мнение поможет одному крупному российскому работодателю делать актуальные оферы.
Пройти опрос можно здесь
🙈4🍌2🐳1
Очень хороший пример про стартап. Человек был 9м сотрудником. Работал себя не жалея. В итоге при продаже компании получил 80к чистыми.
Это очень типичный пример, когда мы наивно полагаем, что работа в стартапе за опцион это к большим деньгам.
Тут еще явно повезло, что удалось получить 80 тысяч, других просто сокращают когда экономика не сходится.
Были ли у вас случаи, когда в стартапе получили жирный бонус или наоборот прогорели?
Это очень типичный пример, когда мы наивно полагаем, что работа в стартапе за опцион это к большим деньгам.
Тут еще явно повезло, что удалось получить 80 тысяч, других просто сокращают когда экономика не сходится.
Были ли у вас случаи, когда в стартапе получили жирный бонус или наоборот прогорели?
1😭35🫡4💯1
Поиграл я в Airflow 3.1 на AWS Elastic Container Service. Кое-как заработало, но на каждый “а вот еще бы хотелось” приходилось тратить много времени. Например, хочу писать логи тасков в AWS Cloud Watch…и всякое другое.
В 3.1 много изменения и когда что-то ищешь, можно найти пример для Airflow 2, который не будет работать на 3.1.
AI (cursor) тут не сильно помогает, и приходилось за него додумывать всегда, когда было ошибки в деплоймонте. То есть реально он сильно тормозил процесс.
Теперь план Б - Managed Airflow на AWS. Cursor уже там Terraform обновляет=) Я бы с удовольствием дальше ковырялся бы, но к сожалению нужно решать реальные задачи, а не трабалшутить open source. Безусловно, очень много нового узнал пока это дело ковырял, но стало понятно, что long-term такой вариант не подойдет.
PS нашел классные статьи по Airflow 3 на ECS и локальной машине:
Setting Up Apache Airflow with Docker Locally (Part I)
Cloud Setup for Airflow (Part II)
Deploying Airflow to the Cloud with Amazon ECS (Part III)
И еще статья понравилась: Executors in Apache-Airflow
В 3.1 много изменения и когда что-то ищешь, можно найти пример для Airflow 2, который не будет работать на 3.1.
AI (cursor) тут не сильно помогает, и приходилось за него додумывать всегда, когда было ошибки в деплоймонте. То есть реально он сильно тормозил процесс.
Теперь план Б - Managed Airflow на AWS. Cursor уже там Terraform обновляет=) Я бы с удовольствием дальше ковырялся бы, но к сожалению нужно решать реальные задачи, а не трабалшутить open source. Безусловно, очень много нового узнал пока это дело ковырял, но стало понятно, что long-term такой вариант не подойдет.
PS нашел классные статьи по Airflow 3 на ECS и локальной машине:
Setting Up Apache Airflow with Docker Locally (Part I)
Cloud Setup for Airflow (Part II)
Deploying Airflow to the Cloud with Amazon ECS (Part III)
И еще статья понравилась: Executors in Apache-Airflow
⚡9❤🔥4
ML-квалификация — сегодня в 16:00
Яндекс открыл регистрацию на Yandex Cup — международный чемпионат с призовым фондом 12 млн рублей и финалом в Стамбуле.
В ML-треке можно участвовать с 14 лет. Это возможность выиграть от 100 тысяч рублей и попасть в Яндекс по упрощённой схеме.
Этапы:
— регистрация до 29 октября
— онлайн-квалификация с 15 октября по 5 ноября
— финал 5–7 декабря в Стамбуле
Пора регистрироваться.
Яндекс открыл регистрацию на Yandex Cup — международный чемпионат с призовым фондом 12 млн рублей и финалом в Стамбуле.
В ML-треке можно участвовать с 14 лет. Это возможность выиграть от 100 тысяч рублей и попасть в Яндекс по упрощённой схеме.
Этапы:
— регистрация до 29 октября
— онлайн-квалификация с 15 октября по 5 ноября
— финал 5–7 декабря в Стамбуле
Пора регистрироваться.
⚡3🌚1
Нас ведь скоро заменят AI агенты?
Сегодня попался репозиторий для оценки работы агента для инжиниринга данных:
ADE-bench[^1] — это фреймворк для оценки работы ИИ-агентов в задачах аналитика данных.
Фреймворк состоит из нескольких основных частей:
* изолированных окружений с dbt-проектами и базами данных, которые предоставляются агенту;
* методов для изменения или «повреждения» этих окружений перед передачей агенту;
* песочниц, в которых каждая задача выполняется независимо;
* методов оценки результатов работы агента по сравнению с ожидаемыми результатами.
На данный момент каждая сессия ADE-bench состоит из одного dbt-проекта и базы данных.
Однако фреймворк можно расширить, добавив поддержку нескольких окружений, множества баз данных и других инструментов дата-инжиниринга, чтобы приблизить работу к реальным условиям аналитиков и инженеров данных.
Введение в работу ADE-bench
ADE-bench состоит из трёх основных компонентов:
* Задачи (Tasks)
* Общие базы данных (Shared databases)
* Общие dbt-проекты (Shared dbt projects)
Каждая задача — это запрос, который может быть выдан агенту.
Хотя задача может включать несколько критериев оценки (например, нужно обновить несколько моделей или убедиться, что SQL-запрос и конфигурация материализации корректны), именно задача является основной единицей оценки в ADE-bench.
Как выполняется задача
Когда ADE-bench получает запрос на выполнение задачи, происходит следующее:
1. Копирование проекта в песочницу.
ADE-bench создаёт песочницу (Docker-контейнер) для задачи, загружает туда соответствующий проект и создаёт изолированное окружение для связанной базы данных (см. раздел «Как работают базы данных» ниже).
2. Создание первого снимка.
После настройки проекта ADE-bench делает снимок всех файлов, чтобы зафиксировать изменения, которые появятся позже (от подготовительных скриптов и действий агента).
3. Запуск дополнительного скрипта настройки.
После первого снимка ADE-bench запускает специальные скрипты задачи. Они могут изменять проект, обновлять данные в базе или адаптировать проект под другой тип базы данных (см. «Общие проекты между базами данных»).
4. Создание второго снимка.
Фиксируются изменения, внесённые на предыдущем шаге.
5. Передача окружения агенту.
Агент получает доступ к окружению и пытается выполнить задачу.
6. Создание финального снимка.
Когда агент сообщает о завершении, ADE-bench делает третий снимок проекта.
7. Оценка результата.
Изменения проверяются тестами, указанными в задаче. Если все тесты пройдены, задача считается выполненной.
Примечание: ADE-bench может автоматически сравнивать таблицы. Например, если задача — создать правильную таблицу `dim_users`, её можно определить в конфигурации задачи, и тест на сравнение будет сгенерирован автоматически.
8. Очистка песочницы.
После записи результатов ADE-bench удаляет контейнер.
Сегодня попался репозиторий для оценки работы агента для инжиниринга данных:
ADE-bench[^1] — это фреймворк для оценки работы ИИ-агентов в задачах аналитика данных.
Фреймворк состоит из нескольких основных частей:
* изолированных окружений с dbt-проектами и базами данных, которые предоставляются агенту;
* методов для изменения или «повреждения» этих окружений перед передачей агенту;
* песочниц, в которых каждая задача выполняется независимо;
* методов оценки результатов работы агента по сравнению с ожидаемыми результатами.
На данный момент каждая сессия ADE-bench состоит из одного dbt-проекта и базы данных.
Однако фреймворк можно расширить, добавив поддержку нескольких окружений, множества баз данных и других инструментов дата-инжиниринга, чтобы приблизить работу к реальным условиям аналитиков и инженеров данных.
Введение в работу ADE-bench
ADE-bench состоит из трёх основных компонентов:
* Задачи (Tasks)
* Общие базы данных (Shared databases)
* Общие dbt-проекты (Shared dbt projects)
Каждая задача — это запрос, который может быть выдан агенту.
Хотя задача может включать несколько критериев оценки (например, нужно обновить несколько моделей или убедиться, что SQL-запрос и конфигурация материализации корректны), именно задача является основной единицей оценки в ADE-bench.
Как выполняется задача
Когда ADE-bench получает запрос на выполнение задачи, происходит следующее:
1. Копирование проекта в песочницу.
ADE-bench создаёт песочницу (Docker-контейнер) для задачи, загружает туда соответствующий проект и создаёт изолированное окружение для связанной базы данных (см. раздел «Как работают базы данных» ниже).
2. Создание первого снимка.
После настройки проекта ADE-bench делает снимок всех файлов, чтобы зафиксировать изменения, которые появятся позже (от подготовительных скриптов и действий агента).
3. Запуск дополнительного скрипта настройки.
После первого снимка ADE-bench запускает специальные скрипты задачи. Они могут изменять проект, обновлять данные в базе или адаптировать проект под другой тип базы данных (см. «Общие проекты между базами данных»).
4. Создание второго снимка.
Фиксируются изменения, внесённые на предыдущем шаге.
5. Передача окружения агенту.
Агент получает доступ к окружению и пытается выполнить задачу.
6. Создание финального снимка.
Когда агент сообщает о завершении, ADE-bench делает третий снимок проекта.
7. Оценка результата.
Изменения проверяются тестами, указанными в задаче. Если все тесты пройдены, задача считается выполненной.
Примечание: ADE-bench может автоматически сравнивать таблицы. Например, если задача — создать правильную таблицу `dim_users`, её можно определить в конфигурации задачи, и тест на сравнение будет сгенерирован автоматически.
8. Очистка песочницы.
После записи результатов ADE-bench удаляет контейнер.
🫡11😭4❤🔥2 2