Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Ну что я вчера говорил про AI Data Engineer? Вот уже вакансии появляются.

Брюки превращаются…брюки превращаются…

У меня уже появляется потребность собрать свой мини AI сервер с двумя GPU картами. Кто-нибудь собирал такой? Я пока знаю одного человека, кто для нас всегда делает вебинары про fancy инструменты sqlMesh, duckdb и тп (Рома привет!)
17🐳4🙈3
Сегодня CEO стартапа записал видеообращение с поздравлением thanksgiving и был очень exciting показать приложение с координатами четвероногих клиентов, которое я сделал в Streamlit для фана. Я уже почти два года общаюсь с фаундерами и они полностью сделали bootstrap на свои деньги (friends and family) и вышли на уровень revenue 100млн в год.
🦄44
Сегодня решил прогуляться в центр, чтобы сходить на настоящее собеседование. Я не знал, что за компания, и что они делают, но так как я был в офисе на собеседовании последний раз в 2016 году, решил воспользоваться возможностью.

Оказалась огромная инвест контора, которая внедряет Databricks и Fabric. Еще оказалось, что у них hybrid. Фотки из путешествия прикладываю. Кофе и булочки не предложили, вообще даже не постарались продать себя😫

Фотки офиса это местный Microsoft, зашел к ним на кофе по старой памяти. У инвест конторы офис попроще через дорогу.

Вывод? Все эти on-site собеседования бесполезное занятие и ни на что не влияет.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥36🫡97🤷‍♀5
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚4❤‍🔥1👨‍💻1
Закончил слушать книгу - Empire of AI, автора Карен Хао. Книга рассказывает историю создания OpenAI и переход компании от non-profit к PROFIT. Книга интересная и слушал ее с удовольствием.

Основные темы в книге by AI:

Центральный аргумент Хао заключается в том, что индустрия ИИ воспроизводит модель колониальных империй XIX века. Она выделяет четыре ключевых паттерна:
• Захват ресурсов — присвоение данных из интернета, а также природных ресурсов (вода, энергия) для работы дата-центров
• Эксплуатация труда — использование низкооплачиваемого «призрачного труда» работников в Кении, Венесуэле и других странах Глобального Юга, которые «чистят» данные и модерируют контент, часто получая меньше доллара в день
• Монополизация знаний — концентрация ведущих ИИ-исследователей внутри корпораций
Цивилизаторская миссия — риторика о «благе для всего человечества», которая оправдывает любые действия

Критика Сэма Альтмана как лидера
По мнению Хао, Альтман — манипулятивный и амбициозный лидер, который:
• Не может чётко определить, что такое AGI, но использует эту концепцию для привлечения инвесторов и талантов
• Превратил OpenAI из некоммерческой организации с миссией безопасности в «прибыльную чёрную дыру», поддерживаемую миллиардами Microsoft
• Умело манипулирует разными аудиториями — перед Сенатом говорит об экзистенциальных рисках ИИ, отвлекая внимание от реального ущерба
• Как пишет Шошана Зубофф в рецензии: «Альтман — хитрый молодой человек с непомерными амбициями, осуждённый мир на цифровое насилие подхода к ИИ, который может существовать только пожирая всю информацию мира»

Как ИИ «возвращает рабство»
Хао документирует систему, которую критики сравнивают с современным цифровым рабством:
• Работники в странах Глобального Юга (Кения, Латинская Америка, Восточная Азия) выполняют психологически травмирующую работу по разметке данных и модерации контента
• Оплата составляет менее доллара в день — при том, что руководители и инвесторы AI-компаний зарабатывают миллиарды
• Это классическая колониальная схема: ресурсы и труд бедных стран используются для обогащения небольшой группы технологической элиты
• OpenAI определяет AGI как технологию, «превосходящую людей в наиболее экономически ценной работе» — то есть сама цель создания таких технологий направлена на подавление возможностей работников требовать права


Книгу сравнивают с «The Anarchy» Уильяма Далримпла о Британской Ост-Индской компании — ещё одной корпоративной империи, превратившейся в политическую силу.


Получается ethical AI там и близко нет, точнее это вряд ли существует. И в погоне за лидерством и могуществом компании ни перед чем ни остановяться.
💯40❤‍🔥18🤷3🌚1
Нейроаналитик в DataLens теперь тянет большие данные.

ИИ-помощник от Yandex B2B Tech научился обрабатывать сразу весь дашборд, искать закономерности и выдавать выводы за секунды. В Яндекс Go его уже используют команды Такси, Доставки и Шерингов — агент анализирует данные по 58 млн пользователей и помогает ловить сезонные скачки спроса и отклонения в метриках.

Технический директор платформы Yandex Cloud говорит, что следующий шаг — проактивный мониторинг, когда системы будут не ждать вопросов, а сами искать аномалии и предлагать решения.
❤‍🔥11🌚4
Forwarded from PharmaDataLab
Голая статистика - Чарльз Уилан
(Naked Statistics - Charles Wheelan)


Сегодня хочу поделиться мини рецензией об этой замечательной книге.
Заодно ответить на вечный вопрос: может ли книга про статистику быть живой, понятной и не вызывать флэшбеки с пары по матстату.

На сайте самого Уилана про него написано коротко и нагло:
Author. Professor. Speaker. Political Reformer.

Автро явно не из тех, кто открывал статистику только ради сдачи экзамена. И это чувствуется с первых страниц. Я, как человек, который уже много лет живёт в аналитике, BI и моделях, я довольно скептически отношусь к «популярным» книгам по статистике - но тут история другая:
«Голая статистика» - это, пожалуй, одна из лучших книг по статистике, которые я читал.

А читал я их уже немало - от классики до совсем академического кирпича.

О чём книга (и почему это не скучно)
• Корреляция
• Основы теории вероятностей
• Центральная предельная теорема (ЦПТ)
• Опросы общественного мнения
• Регрессионный анализ

На обложке вообще написано:
«Самая интересная книга о самой скучной науке»

И вот тут Уилан делает магию:
он реально разжёвывает статистику так, что и новичку ок, и человеку с опытом есть что подчеркнуть и переосмыслить.

При этом он объясняет сложные вещи на живых примерах:
загадка Монти Холла, Perry Preschool Study, марафон любителей сосисок, супружеская жизнь Ким Кардашьян (да, и она послужила статистике), исследования Americans Changing Lives и многое другое.

Центральная предельная теорема по-человечески

Отдельный кайф книги - блок про выборки, опросы и ЦПТ.

Вот как сам Уилан описывает ЦПТ:
«Центральная предельная теорема, значение которой для статистики соизмеримо со значением Леброна Джеймса для профессионального баскетбола».

Если перевести на практический язык:
если у нас есть правильно сформированная выборка, то наблюдаемые на ней характеристики с высокой вероятностью отражают свойства всей генеральной совокупности.

Несколько цитат, которые показались особенно точными
«Опираясь на статистику, легко врать, но без статистики очень трудно выяснить истину». - Андрейс Дункельс

«Вы не можете управлять тем, что не в состоянии измерить. Помимо этого, то, что вы измеряете, действительно является тем, чем вы пытаетесь управлять».

«Какой бы соблазнительной ни была элегантность и точность вероятностных моделей, они не заменят нам здравого размышления о сути и цели выполняемых вычислений».


И мой любимый образ 🔥:
«Когда увеличивается размер неправильно сформированной выборки, высота мусорной кучи также увеличивается, а вонь от неё становится сильнее».


«Голая статистика» трезво напоминает:
📍 Статистика и анализ данных - это мощный инструмент, чтобы лучше понимать реальность, а не подгонять её под наши фантазии.
📍 Любая модель - всего лишь приближение мира, а не откровение.
📍 Аналитик всегда должен быть не только «человеком формул», но и человеком здравого смысла.

Как я люблю говорить:
мало быть data-driven, важно оставаться data-informed


Как эта книга помогла лично мне

В далёком уже 2019-м я учился на Data Science в Нетологии. Одна из тем была Центральная предельная теорема. Формулы были красивые, преподаватели старались, домашки летели одна за другой - но абсолютно не было понятно, как эту теорему вообще применять в реальной аналитике и зачем она нужна, кроме как для галочки на экзамене.

И вот спустя время попадает мне в руки «Голая статистика».
И Уилан, как настоящий профессор-волшебник, берёт и на примере марафона любителей сосисок(!) объясняет ЦПТ так, что наконец-то становится ясно:
• как она работает
• почему она настолько фундаментальна
• и в каких реальных задачах она решает половину аналитических головоломок.

Так что да - эта книга не только хороша сама по себе,
она ещё и сильно закрывает пробелы, которые другие источники часто оставляют открытыми.
1❤‍🔥757💯1
Я тут писал, что вот надо собирать свой AI сервер, но планы поменялись.

На MacBook поставил Vmware, Windows 11 ARM и Worms Worlds Party Remastered. 🎮
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥103🐳10🦄5👨‍💻4🙈1
«Мы поняли, что мы как Тринити и Морфеус. Нам нужен был Нео». Как ночной портье за 3 месяца разобрался в инжиниринге данных

Смотрите подкаст «Криптонит говорит» о дата-инженерах! В нём эксперты обсуждают:
🔹достигла ли пика профессия дата-инженера;
🔹какой стек нужно знать дата-инженерам;
🔹какие намечаются тренды отрасли.

📺 YouTube
📺
Rutube
💙
VK видео
💬
Подкаст в телеграме
🎵 Яндекс.Музыка

Смотрите и подписывайтесь на подкаст «Криптонит говорит» — обсуждаем айти, искусственный интеллект, языки программирования и криптографию.

Реклама АО НПК «Криптонит» ИНН 9701115253 Erid: 2VtzqwCgYzD
13❤‍🔥1🐳1
This media is not supported in your browser
VIEW IN TELEGRAM
11👨‍💻3
Привет, это Yandex for Analytics

Предлагаем размяться и проверить свои навыки. Ответы есть, но подглядывать во время решения — неспортивно ⬇️

🔵 Задача 1. Вспоминаем теорию вероятностей
🔵 Задача 2. Теорема Байеса
🔵 Задача 3. Базовая база теории игр
🔵 Задача 4. Тренируем SQL
🔵 Задача 5. Честная математическая статистика
🔵 Задача 6. Что-то на бизнесовом

💠 Скоро вернёмся с новыми задачами. А пока делитесь своими решениями в комментариях!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥1410🙈1
Хотите себе долларов (грязная зелёная бумажка (с)) напечатать? Дети мне показали сайт, где можно визуализировать вашу зарплату в долларах. Если много получаете, то может и голова закружиться!

https://neal.fun/printing-money/

PS Вроде надо зарплату визуализировать, чтобы большая была. Возможно это тренажер высоких заработков🤑

На самом сайте https://neal.fun/ много веселых штук позалипать!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥15👨‍💻7🙈3🫡21
Приглашаем на ЮMoneyDay — бесплатную онлайн-конференцию про финтех и IT 🔥

На протяжении двух дней будем общаться с разработчиками, инженерами, тестировщиками, продактами, дизайнерами и другими специалистами из ЮMoney. Они расскажут про свой опыт работы в большом финансовом продукте, поделятся лайфхаками и секретами.

Будут доклады по 16 направлениям:

🟣 Будущее финтеха
🟣 Бэкенд
🟣 Фронтенд
🟣 Тестирование
🟣 Python
🟣 Менеджмент проектов
🟣 Менеджмент продуктов
🟣 Системный анализ
🟣 SQL
🟣 UX
🟣 ИИ
🟣 Архитектура IT-решений
🟣 Внутренние системы
🟣 Мобильная разработка
🟣 Инфраструктура
🟣 О компании

Встречаемся онлайн 5 и 6 декабря в 11:00 мск. Чтобы участвовать, зарегистрируйтесь на сайте конференции
Please open Telegram to view this post
VIEW IN TELEGRAM
11