Найден годный конспект по LLM на русском языке
Авторы реально постарались, потому что раскрыто буквально все, что нужно, чтобы понять принцип работы современных моделей. Что внутри, если кратко:
– Необходимая математика: линал и матанализ на пальцах
– Все про механизм внимания и трансформеры
– Детальное объяснение процесса предобучения
– RL – с нуля до обучения ризонинг-моделей типа o3
– И даже полноценный гайд по тому, как самостоятельно зафайнтюнить модель.
Все – в иллюстрациях, схемах и интуитивно понятных примерах. Для наглядности прикладываю несколько страниц.
Забрать полную pdf-версию абсолютно бесплатно можно здесь
Авторы реально постарались, потому что раскрыто буквально все, что нужно, чтобы понять принцип работы современных моделей. Что внутри, если кратко:
– Необходимая математика: линал и матанализ на пальцах
– Все про механизм внимания и трансформеры
– Детальное объяснение процесса предобучения
– RL – с нуля до обучения ризонинг-моделей типа o3
– И даже полноценный гайд по тому, как самостоятельно зафайнтюнить модель.
Все – в иллюстрациях, схемах и интуитивно понятных примерах. Для наглядности прикладываю несколько страниц.
Забрать полную pdf-версию абсолютно бесплатно можно здесь
❤🔥31⚡9🌚4🍌2🦄1
Мой любимый прием для async standup - использовать бота в Slack, который публикует сообщение и дальше все члены команды пишут свой update.
Ответьте в треде:
📝 Что вы успели сделать с момента последней встречи?
📝 Над чем планируете работать дальше?
📝 Какой у вас текущий статус?
✅ Не заблокирован
👋 Нужна помощь
🚫 Заблокирован
В целом мне нравится работать в 2х недельных спринтах (scrum).
Из обязательных встреч:
- Планирование спринта
- Sync в середине спринта
Retro я не люблю. Но в целом при определенных обстоятельствах полезно, если вы хотите докопаться до проблем в процессах и понять, что не работает и почему, чтобы улучшить в следующих спринтах.
В 1м модуле Surfalytics у меня есть урок про Agile для дата команд. Как правило все начинающие аналитики не знают как работать в Jira и аналогах, что такое спринт и другие базовые вещи.
Как у вас организован процесс?
Ответьте в треде:
📝 Что вы успели сделать с момента последней встречи?
📝 Над чем планируете работать дальше?
📝 Какой у вас текущий статус?
✅ Не заблокирован
👋 Нужна помощь
🚫 Заблокирован
В целом мне нравится работать в 2х недельных спринтах (scrum).
Из обязательных встреч:
- Планирование спринта
- Sync в середине спринта
Retro я не люблю. Но в целом при определенных обстоятельствах полезно, если вы хотите докопаться до проблем в процессах и понять, что не работает и почему, чтобы улучшить в следующих спринтах.
В 1м модуле Surfalytics у меня есть урок про Agile для дата команд. Как правило все начинающие аналитики не знают как работать в Jira и аналогах, что такое спринт и другие базовые вещи.
Как у вас организован процесс?
⚡19❤🔥4
Forwarded from Клуб анонимных аналитиков (Alex Kolokolov)
Клуб одиноких аналитиков 🔞
Мы тут с Аней обменивались опытом дейтинга, выдвигали гипотезы, как найтинормального мужика целевую аудиторию и повысить конверсию.
Тут непаханое поле для аналитики, много аналогий с бизнесом.
📊Воронка:
Мэтч → Переписка → Первое свидание → "Третье" свидание → Отношения
Один мой друг, назовем его Алексей, делился статистикой:
- конверсия из мэтча в переписку — 42%
- из переписки в первое свидание — 23%
- до "третьего" свидания — 13%
Мы все-таки не просто про секс, а про цель найти вторую половину, серьезные отношения и свадьбу, но тут конверсия 0,01%
Теперь простой расчёт: Хочешь отношения? Будь добр свайпать пока не получишь 400 мэтчей 🤷🏽♂️
📊Каналы привлечения
Вместо одного Тиндера теперь стоит пробовать разные приложения: Pure, Mamba, Twinby, VK знакомства. Сравнивать конверсию с учетом вашего возрастного сегмента и интересов. И не забываем про офлайн - там воронка отличается.
В любой непонятной ситуации мы делаем дашборд. Вышло аж в двух версиях (у мужчин и женщин метрики разные)
🤓 Если вы тоже вместо встреч с незнакомыми людьми хотите провести вечер за анализом графиков — ставьте ❤️ и пишите ваши предложения по метрикам любви
Мы тут с Аней обменивались опытом дейтинга, выдвигали гипотезы, как найти
Тут непаханое поле для аналитики, много аналогий с бизнесом.
📊Воронка:
Мэтч → Переписка → Первое свидание → "Третье" свидание → Отношения
Один мой друг, назовем его Алексей, делился статистикой:
- конверсия из мэтча в переписку — 42%
- из переписки в первое свидание — 23%
- до "третьего" свидания — 13%
Мы все-таки не просто про секс, а про цель найти вторую половину, серьезные отношения и свадьбу, но тут конверсия 0,01%
Теперь простой расчёт: Хочешь отношения? Будь добр свайпать пока не получишь 400 мэтчей 🤷🏽♂️
📊Каналы привлечения
Вместо одного Тиндера теперь стоит пробовать разные приложения: Pure, Mamba, Twinby, VK знакомства. Сравнивать конверсию с учетом вашего возрастного сегмента и интересов. И не забываем про офлайн - там воронка отличается.
А еще по аналогии со старой и новой клиентской базой - френдзона! Все ваши симпатии из прошлого, которые сейчас тоже могут быть в поиске. Иногда достаточно пары сообщений, чтобы дойти до «К тебе или ко мне?» без всех этих свайпов.
В любой непонятной ситуации мы делаем дашборд. Вышло аж в двух версиях (у мужчин и женщин метрики разные)
🤓 Если вы тоже вместо встреч с незнакомыми людьми хотите провести вечер за анализом графиков — ставьте ❤️ и пишите ваши предложения по метрикам любви
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥42🌚18 12⚡6🍌4🤷1
Несмотря на то, что datalearn уже не развивается, несчитая редких, но очень интересных вебинаров (кстати, когда у нас про Dagster там следующий?☺️) и чата (@datalearn_chat) для студентов, я все еще считаю его отличной базой для самостоятельного изучения и вхождения в профессию связанную с аналитикой и дата инжинирингом для людей, которые не из мира ИТ, как я когда-то был.
PS ничто не принесет вам столько ништяков как создание бесплатных курсов👉 и я не устаю повторять - все самое лучшее бесплатное!💪
Публикую отзыв:
Все время думал, когда наступит тот самый день, когда я смогу написать вам отзыв :)
Зарегистрировался у вас, появился сайт Datalearn 2020, и я всё время мечтал работать в крутых компаниях или пользоваться такими инструментами, как у вас. Смотрел все ваши видео на сайте многое пригодилось, особенно при подготовке к собеседованиям. Всегда хотел быть инженером (как бы странно это ни звучало мне просто хотелось, чтобы в названии моей специальности обязательно было слово “инженер”).
Работал BI-разработчиком и дата-аналитиком (в IT-компаниях и банках), и вот спустя 5 лет, в 2025 году, наконец устроился в новые компании: сейчас работаю сразу в двух местах удалённо в одной аналитиком-инженером, в другой дата-инженером.
Могу с уверенностью сказать: этот путь может повторить любой, даже если идёте к цели очень медленно и не проявляете особой инициативы. Я сам долго не решался и не был самым активным, вокруг было много отличных специалистов и коллег, которые даже не пытались попробовать себя в чем-то новом. Но всё равно получилось главное, не сдаваться.
За 2024 год прошёл огромное количество собеседований примерно 50–60, и, признаюсь, часто “валился” именно на технических этапах. До этого я работал в совершенно других сферах: в банках обычным кредитным менеджером, мувером, менеджером по продажам. В IT пришёл только в 2020 году, когда мне было уже 33, случайно наткнулся на ваш сайт и тогда понял, кем действительно хочу быть.
Спасибо вашей команде и всем, кто развивает Даталерн, за знания и мотивацию. Благодаря вам я поверил, что поменять профессию и добиться своей цели реально даже если ты начинаешь не с нуля, а “с минуса”.
Если мой отзыв сможет вдохновить хотя бы одного человека не бояться перемен значит, всё было не зря!
PS ничто не принесет вам столько ништяков как создание бесплатных курсов
Публикую отзыв:
Все время думал, когда наступит тот самый день, когда я смогу написать вам отзыв :)
Зарегистрировался у вас, появился сайт Datalearn 2020, и я всё время мечтал работать в крутых компаниях или пользоваться такими инструментами, как у вас. Смотрел все ваши видео на сайте многое пригодилось, особенно при подготовке к собеседованиям. Всегда хотел быть инженером (как бы странно это ни звучало мне просто хотелось, чтобы в названии моей специальности обязательно было слово “инженер”).
Работал BI-разработчиком и дата-аналитиком (в IT-компаниях и банках), и вот спустя 5 лет, в 2025 году, наконец устроился в новые компании: сейчас работаю сразу в двух местах удалённо в одной аналитиком-инженером, в другой дата-инженером.
Могу с уверенностью сказать: этот путь может повторить любой, даже если идёте к цели очень медленно и не проявляете особой инициативы. Я сам долго не решался и не был самым активным, вокруг было много отличных специалистов и коллег, которые даже не пытались попробовать себя в чем-то новом. Но всё равно получилось главное, не сдаваться.
За 2024 год прошёл огромное количество собеседований примерно 50–60, и, признаюсь, часто “валился” именно на технических этапах. До этого я работал в совершенно других сферах: в банках обычным кредитным менеджером, мувером, менеджером по продажам. В IT пришёл только в 2020 году, когда мне было уже 33, случайно наткнулся на ваш сайт и тогда понял, кем действительно хочу быть.
Спасибо вашей команде и всем, кто развивает Даталерн, за знания и мотивацию. Благодаря вам я поверил, что поменять профессию и добиться своей цели реально даже если ты начинаешь не с нуля, а “с минуса”.
Если мой отзыв сможет вдохновить хотя бы одного человека не бояться перемен значит, всё было не зря!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥102💯20⚡14
Business_Intelligence_Engineer_Role_Guideline.pdf
466.7 KB
Гайд ролей BI разработчиков в Amazon
❤🔥25
Лето у членов сообщества surfalytics прям выдалось очень ударным! Люди получили оферы, удвоили доход или просто нашли свою первую реальную работу за достойную зарплату с современным стеком.
Особенно круто это видеть в прогрессе, ведь все активные ребята публикуют Weekly Update каждый понедельник в таком формате.
Как обычно мораль истории простая, будьте проактивны, ставьте реальные достижимые цели и достигайте их, иначе стагнация и деградация относительно рынка труда.
Особенно это важно делать, когда все хорошо - есть работа, стабильный доход и кажется, что настало время расслабиться, аааа нееееет😜
PS это не реклама, так как я на этом не зарабатываю, обычно у меня получается 400-1000CAD в месяц пассивного дохода от Surfalytics. Мне очень нравится сам концепт, что я вижу как ведет себя рынок в Европе, Северной Америке, РФ (если работать на за границей) и тп. Я верю, что чем больше мы даем, тем больше мы получаем обратно.
Сам Surfalytics это как membership в спортзал. Вы можете его купить и у вас будет доступ к лучшему оборудованию и тренерам, но если вам лень туда ходить постоянно, результата не будет. А кто справился с собственной мотивацией и дисциплиной, у того все будет зашибись🤑
Особенно круто это видеть в прогрессе, ведь все активные ребята публикуют Weekly Update каждый понедельник в таком формате.
Как обычно мораль истории простая, будьте проактивны, ставьте реальные достижимые цели и достигайте их, иначе стагнация и деградация относительно рынка труда.
Особенно это важно делать, когда все хорошо - есть работа, стабильный доход и кажется, что настало время расслабиться, аааа нееееет😜
PS это не реклама, так как я на этом не зарабатываю, обычно у меня получается 400-1000CAD в месяц пассивного дохода от Surfalytics. Мне очень нравится сам концепт, что я вижу как ведет себя рынок в Европе, Северной Америке, РФ (если работать на за границей) и тп. Я верю, что чем больше мы даем, тем больше мы получаем обратно.
Сам Surfalytics это как membership в спортзал. Вы можете его купить и у вас будет доступ к лучшему оборудованию и тренерам, но если вам лень туда ходить постоянно, результата не будет. А кто справился с собственной мотивацией и дисциплиной, у того все будет зашибись
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤🔥61💯13⚡7🫡7🌚1 1
Forwarded from Книжный куб (Alexander Polomodov)
Краткий обзор платформы данных Т-Банка (Рубрика #Data)
Прочитал интересную статью от коллег про про нашу data platform. Если обобщать достаточно длинную статью, то можно отметить, что платформа данных Т-Банка эволюционировала более 18 лет, следуя общеотраслевым трендам. Компания постепенно отходила от классических концепций хранилищ данных по Инмону и Кимбеллу в сторону Data Lake, а затем — к современным Lakehouse-архитектурам. Платформа сейчас обслуживает более 17 тысяч пользователей и обрабатывает свыше 144 млн запросов в месяц, что требует постоянного развития масштабируемости и производительности. Текущая архитектура включает 19 ключевых систем, которые обеспечивают полный жизненный цикл работы с данными — от сбора до визуализации и обеспечения безопасности. Вот как они сгруппированны
1. Сбор и транспортировка данных
- Data Replication: BODS (legacy) и Chrono для пакетной и потоковой репликации
- Event Sourcing: SDP (Streaming Data Transfer Platform) на основе принципов Data Mesh
- Reverse ETL: Spheradian для возврата данных в операционные системы с латентностью до 100 мс
2. Хранение данных
- Data Warehouse: GreenPlum как основная СУБД (15 кластеров, 1,7 ПБ данных)
- LakeHouse: Spark/Trino + S3 с несколькими вычислительными движками
- Real-Time Analytics: ClickHouse для быстрой аналитики на больших таблицах
3. Обработка и трансформация
- Streaming Processing: Unicorn (на Apache Flink) и NiFi
- Workflow Management: TEDI (на Apache Airflow) и Moebius для оркестрации
- Analytics Tools: Proteus (на Apache Superset) для дашбордов и Helicopter для совместной работы
4. Управление данными
- Data Discovery: Data Detective для поиска и каталогизации
- Data Governance: Data Contracts для управления поставками данных
- Data Observability: DQ Tools для контроля качества и Data Incident Management
- Data Security: SLH для управления доступом к чувствительным данным
Если хочется узнать больше, то можно почитать статью и позадавать вопросы в комментариях.
#Data #Database #Architecture #Software #Engineering #PlatformEngineering
Прочитал интересную статью от коллег про про нашу data platform. Если обобщать достаточно длинную статью, то можно отметить, что платформа данных Т-Банка эволюционировала более 18 лет, следуя общеотраслевым трендам. Компания постепенно отходила от классических концепций хранилищ данных по Инмону и Кимбеллу в сторону Data Lake, а затем — к современным Lakehouse-архитектурам. Платформа сейчас обслуживает более 17 тысяч пользователей и обрабатывает свыше 144 млн запросов в месяц, что требует постоянного развития масштабируемости и производительности. Текущая архитектура включает 19 ключевых систем, которые обеспечивают полный жизненный цикл работы с данными — от сбора до визуализации и обеспечения безопасности. Вот как они сгруппированны
1. Сбор и транспортировка данных
- Data Replication: BODS (legacy) и Chrono для пакетной и потоковой репликации
- Event Sourcing: SDP (Streaming Data Transfer Platform) на основе принципов Data Mesh
- Reverse ETL: Spheradian для возврата данных в операционные системы с латентностью до 100 мс
2. Хранение данных
- Data Warehouse: GreenPlum как основная СУБД (15 кластеров, 1,7 ПБ данных)
- LakeHouse: Spark/Trino + S3 с несколькими вычислительными движками
- Real-Time Analytics: ClickHouse для быстрой аналитики на больших таблицах
3. Обработка и трансформация
- Streaming Processing: Unicorn (на Apache Flink) и NiFi
- Workflow Management: TEDI (на Apache Airflow) и Moebius для оркестрации
- Analytics Tools: Proteus (на Apache Superset) для дашбордов и Helicopter для совместной работы
4. Управление данными
- Data Discovery: Data Detective для поиска и каталогизации
- Data Governance: Data Contracts для управления поставками данных
- Data Observability: DQ Tools для контроля качества и Data Incident Management
- Data Security: SLH для управления доступом к чувствительным данным
Если хочется узнать больше, то можно почитать статью и позадавать вопросы в комментариях.
#Data #Database #Architecture #Software #Engineering #PlatformEngineering
Хабр
Краткий обзор платформы данных Т-Банка
Привет, Хабр! Меня зовут Дима Пичугин, и уже семь лет я занимаюсь различными компонентами T Data Platform. Эта статья — результат внутреннего аудита наших инструментов, но я подумал, что она может...
https://www.ssp.sh/brain/data-engineering-toolkit/
Очередной сборник всяких там ресурсов и инструментов для DE. От которого ни холодно ни жарко, но красиво.
Приходите вы в 1й класс, а вам говорят - вон там библиотека, help yourself, my dear😜
Очередной сборник всяких там ресурсов и инструментов для DE. От которого ни холодно ни жарко, но красиво.
Приходите вы в 1й класс, а вам говорят - вон там библиотека, help yourself, my dear
Please open Telegram to view this post
VIEW IN TELEGRAM