Инжиниринг Данных
23.4K subscribers
1.91K photos
56 videos
190 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Найден годный конспект по LLM на русском языке

Авторы реально постарались, потому что раскрыто буквально все, что нужно, чтобы понять принцип работы современных моделей. Что внутри, если кратко:

– Необходимая математика: линал и матанализ на пальцах
– Все про механизм внимания и трансформеры
– Детальное объяснение процесса предобучения
– RL – с нуля до обучения ризонинг-моделей типа o3
– И даже полноценный гайд по тому, как самостоятельно зафайнтюнить модель.

Все – в иллюстрациях, схемах и интуитивно понятных примерах. Для наглядности прикладываю несколько страниц.

Забрать полную pdf-версию абсолютно бесплатно можно здесь
❤‍🔥319🌚4🍌2🦄1
Мой любимый прием для async standup - использовать бота в Slack, который публикует сообщение и дальше все члены команды пишут свой update.

Ответьте в треде:

📝 Что вы успели сделать с момента последней встречи?
📝 Над чем планируете работать дальше?
📝 Какой у вас текущий статус?

Не заблокирован
👋 Нужна помощь
🚫 Заблокирован


В целом мне нравится работать в 2х недельных спринтах (scrum).

Из обязательных встреч:
- Планирование спринта
- Sync в середине спринта

Retro я не люблю. Но в целом при определенных обстоятельствах полезно, если вы хотите докопаться до проблем в процессах и понять, что не работает и почему, чтобы улучшить в следующих спринтах.

В 1м модуле Surfalytics у меня есть урок про Agile для дата команд. Как правило все начинающие аналитики не знают как работать в Jira и аналогах, что такое спринт и другие базовые вещи.

Как у вас организован процесс?
19❤‍🔥4
Forwarded from Клуб анонимных аналитиков (Alex Kolokolov)
Клуб одиноких аналитиков 🔞

Мы тут с Аней обменивались опытом дейтинга, выдвигали гипотезы, как найти нормального мужика целевую аудиторию и повысить конверсию.

Тут непаханое поле для аналитики, много аналогий с бизнесом.

📊Воронка:
Мэтч → Переписка → Первое свидание → "Третье" свидание → Отношения

Один мой друг, назовем его Алексей, делился статистикой:
- конверсия из мэтча в переписку — 42%
- из переписки в первое свидание — 23%
- до "третьего" свидания — 13%

Мы все-таки не просто про секс, а про цель найти вторую половину, серьезные отношения и свадьбу, но тут конверсия 0,01%

Теперь простой расчёт: Хочешь отношения? Будь добр свайпать пока не получишь 400 мэтчей 🤷🏽‍♂️

📊Каналы привлечения
Вместо одного Тиндера теперь стоит пробовать разные приложения: Pure, Mamba, Twinby, VK знакомства. Сравнивать конверсию с учетом вашего возрастного сегмента и интересов. И не забываем про офлайн - там воронка отличается.

А еще по аналогии со старой и новой клиентской базой - френдзона! Все ваши симпатии из прошлого, которые сейчас тоже могут быть в поиске. Иногда достаточно пары сообщений, чтобы дойти до «К тебе или ко мне?» без всех этих свайпов.


В любой непонятной ситуации мы делаем дашборд. Вышло аж в двух версиях (у мужчин и женщин метрики разные)

🤓 Если вы тоже вместо встреч с незнакомыми людьми хотите провести вечер за анализом графиков — ставьте ❤️ и пишите ваши предложения по метрикам любви
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥42🌚18126🍌4🤷1
Несмотря на то, что datalearn уже не развивается, несчитая редких, но очень интересных вебинаров (кстати, когда у нас про Dagster там следующий?☺️) и чата (@datalearn_chat) для студентов, я все еще считаю его отличной базой для самостоятельного изучения и вхождения в профессию связанную с аналитикой и дата инжинирингом для людей, которые не из мира ИТ, как я когда-то был.

PS ничто не принесет вам столько ништяков как создание бесплатных курсов👉 и я не устаю повторять - все самое лучшее бесплатное!💪

Публикую отзыв:

Все время думал, когда наступит тот самый день, когда я смогу написать вам отзыв :)

Зарегистрировался у вас, появился сайт Datalearn 2020, и я всё время мечтал работать в крутых компаниях или пользоваться такими инструментами, как у вас. Смотрел все ваши видео на сайте многое пригодилось, особенно при подготовке к собеседованиям. Всегда хотел быть инженером (как бы странно это ни звучало мне просто хотелось, чтобы в названии моей специальности обязательно было слово “инженер”).
Работал BI-разработчиком и дата-аналитиком (в IT-компаниях и банках), и вот спустя 5 лет, в 2025 году, наконец устроился в новые компании: сейчас работаю сразу в двух местах удалённо в одной аналитиком-инженером, в другой дата-инженером.
Могу с уверенностью сказать: этот путь может повторить любой, даже если идёте к цели очень медленно и не проявляете особой инициативы. Я сам долго не решался и не был самым активным, вокруг было много отличных специалистов и коллег, которые даже не пытались попробовать себя в чем-то новом. Но всё равно получилось главное, не сдаваться.
За 2024 год прошёл огромное количество собеседований примерно 50–60, и, признаюсь, часто “валился” именно на технических этапах. До этого я работал в совершенно других сферах: в банках обычным кредитным менеджером, мувером, менеджером по продажам. В IT пришёл только в 2020 году, когда мне было уже 33, случайно наткнулся на ваш сайт и тогда понял, кем действительно хочу быть.

Спасибо вашей команде и всем, кто развивает Даталерн, за знания и мотивацию. Благодаря вам я поверил, что поменять профессию и добиться своей цели реально даже если ты начинаешь не с нуля, а “с минуса”.

Если мой отзыв сможет вдохновить хотя бы одного человека не бояться перемен значит, всё было не зря!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥102💯2014
Business_Intelligence_Engineer_Role_Guideline.pdf
466.7 KB
Гайд ролей BI разработчиков в Amazon
❤‍🔥25
Лето у членов сообщества surfalytics прям выдалось очень ударным! Люди получили оферы, удвоили доход или просто нашли свою первую реальную работу за достойную зарплату с современным стеком.

Особенно круто это видеть в прогрессе, ведь все активные ребята публикуют Weekly Update каждый понедельник в таком формате.

Как обычно мораль истории простая, будьте проактивны, ставьте реальные достижимые цели и достигайте их, иначе стагнация и деградация относительно рынка труда.

Особенно это важно делать, когда все хорошо - есть работа, стабильный доход и кажется, что настало время расслабиться, аааа нееееет😜

PS это не реклама, так как я на этом не зарабатываю, обычно у меня получается 400-1000CAD в месяц пассивного дохода от Surfalytics. Мне очень нравится сам концепт, что я вижу как ведет себя рынок в Европе, Северной Америке, РФ (если работать на за границей) и тп. Я верю, что чем больше мы даем, тем больше мы получаем обратно.

Сам Surfalytics это как membership в спортзал. Вы можете его купить и у вас будет доступ к лучшему оборудованию и тренерам, но если вам лень туда ходить постоянно, результата не будет. А кто справился с собственной мотивацией и дисциплиной, у того все будет зашибись🤑
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤‍🔥61💯137🫡7🌚11
Forwarded from Книжный куб (Alexander Polomodov)
Краткий обзор платформы данных Т-Банка (Рубрика #Data)

Прочитал интересную статью от коллег про про нашу data platform. Если обобщать достаточно длинную статью, то можно отметить, что платформа данных Т-Банка эволюционировала более 18 лет, следуя общеотраслевым трендам. Компания постепенно отходила от классических концепций хранилищ данных по Инмону и Кимбеллу в сторону Data Lake, а затем — к современным Lakehouse-архитектурам. Платформа сейчас обслуживает более 17 тысяч пользователей и обрабатывает свыше 144 млн запросов в месяц, что требует постоянного развития масштабируемости и производительности. Текущая архитектура включает 19 ключевых систем, которые обеспечивают полный жизненный цикл работы с данными — от сбора до визуализации и обеспечения безопасности. Вот как они сгруппированны

1. Сбор и транспортировка данных
- Data Replication: BODS (legacy) и Chrono для пакетной и потоковой репликации
- Event Sourcing: SDP (Streaming Data Transfer Platform) на основе принципов Data Mesh
- Reverse ETL: Spheradian для возврата данных в операционные системы с латентностью до 100 мс
2. Хранение данных
- Data Warehouse: GreenPlum как основная СУБД (15 кластеров, 1,7 ПБ данных)
- LakeHouse: Spark/Trino + S3 с несколькими вычислительными движками
- Real-Time Analytics: ClickHouse для быстрой аналитики на больших таблицах
3. Обработка и трансформация
- Streaming Processing: Unicorn (на Apache Flink) и NiFi
- Workflow Management: TEDI (на Apache Airflow) и Moebius для оркестрации
- Analytics Tools: Proteus (на Apache Superset) для дашбордов и Helicopter для совместной работы
4. Управление данными
- Data Discovery: Data Detective для поиска и каталогизации
- Data Governance: Data Contracts для управления поставками данных
- Data Observability: DQ Tools для контроля качества и Data Incident Management
- Data Security: SLH для управления доступом к чувствительным данным

Если хочется узнать больше, то можно почитать статью и позадавать вопросы в комментариях.

#Data #Database #Architecture #Software #Engineering #PlatformEngineering
17❤‍🔥13🫡51
https://www.ssp.sh/brain/data-engineering-toolkit/

Очередной сборник всяких там ресурсов и инструментов для DE. От которого ни холодно ни жарко, но красиво.

Приходите вы в 1й класс, а вам говорят - вон там библиотека, help yourself, my dear 😜
Please open Telegram to view this post
VIEW IN TELEGRAM
23❤‍🔥9👨‍💻1