Инжиниринг Данных
23.4K subscribers
1.91K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
4. Working with Business Leaders (Работа с бизнес-лидерами):

Вопрос: Как ты общаешься с нетехническими руководителями и топ-менеджментом?

Твой ответ: Ты подчёркиваешь важность согласования целей твоей команды с конкретными измеримыми бизнес-целями компании (снижение затрат, рост доходов, повышение операционной эффективности). Ты избегаешь технических терминов, предпочитая простые и понятные показатели, через которые ясно показываешь руководству ценность и результаты работы твоей команды.

5. Managing Diverse Technical Talent (Работа с разными уровнями сотрудников):

Вопрос: Как ты управляешь командой, в которой есть люди с разными уровнями опыта и знаний, особенно когда кто-то давно работает и не хочет менять технологии?

Твой ответ: Ты активно поддерживаешь технические знания, постоянно следишь за новинками в отрасли и лично вовлекаешься в технические детали проектов. Ты стараешься понять личную мотивацию каждого сотрудника, терпеливо помогаешь людям осваивать современные технологии (например, переход от SQL Server к Snowflake) и стараешься показать это как возможность развития, а не вынужденное изменение.
41❤‍🔥13🐳7🤷2
Если вы еще не попробовали промпт “Convert Studio Ghibli anime”, то самое время открыть ChatGPT модель 4o. Детализация очень крутая, как пример наши фотки.

Модель умеет совмещать несколько фоток в одну (пример с котом, машиной и детьми)

Утро прошло не зря:)
❤‍🔥90😈1💘1
Forwarded from Data Memes
💯44👾9🙈5❤‍🔥2🐳2🍾1
Ну что все думаете, что скоро вас заменят? А вот Нюх думают по другому:


Мне 50 лет, я пишу продакшн-код уже около 30 лет, преподаю программирование и являюсь признанным мировым экспертом в этой области, особенно в сфере облачных технологий. НУЛЕВОЙ ШАНС, что в ближайшие 5 лет эта технология сможет заменить экспертов-программистов. Это всё равно что сказать, будто циркулярная пила может заменить плотника. Логическая ошибка.

Это всё большая афера. Силиконовая долина делает вид, что что-то создаёт, а на самом деле продаёт финансовый продукт, а не настоящий. А потом уходит, оставляя за собой ядерные отходы, закопанные в общественном саду.



А вот, что говорит Степан:



1. "Петля гибели" (Doom Loop)
Компании массово увольняют сотрудников, чтобы внедрить ИИ, но затем вынуждены нанимать новых людей, чтобы управлять этим ИИ — потому что он часто ошибается. Это замкнутый круг:
→ Увольняем людей
→ Ставим ИИ
→ ИИ ошибается
→ Нанимаем людей, чтобы исправлять ошибки ИИ
→ Добавляем больше ИИ, чтобы исправлять старый ИИ
→ Повторяем

2. "Змея, поедающая свой хвост"
Метафора для того, что система начинает "переваривать саму себя" — создаются новые проблемы, которые приходится решать теми же средствами, что их и вызвали.

3. Реальность против обещаний
- ИИ делает ошибки (часто "галлюцинирует", особенно в логике и математике).
- Тесты и бенчмарки — подогнаны, демонстрации — искусственные.
- Эффективность оказалась ниже обещанной, а издержки выше.
- Возникает скрытый труд: теперь нужны "ревьюеры ИИ", "промт-инженеры", и "QA-человеки в цикле".

4. Кто выигрывает
- Компании, которые не поддались хайпу и внедряют ИИ обдуманно, как дополнение, а не замену людей.
- Принцип "Augmentation over automation" — не заменять человека, а усиливать его возможности.

5. Что будет, если не изменить курс
- Падает качество продуктов
- Растут юридические и репутационные риски
- Скрытые затраты на управление ИИ
- ИИ, который исправляет ошибки другого ИИ
- Иллюзия прогресса вместо реального роста

6. P.S.
Подозрение: новые блестящие релизы, вроде GPT-4o с улучшенной генерацией изображений — это просто способ отвлечь внимание от провалов и проблем в реальных ИИ-внедрениях.

В общем идеи у всех классные, сейчас их пампят деньгами и продают, и возможно такой подход вредит конечной цели.

В любом случае цель остается неизменной, нужно развиваться и учиться, пробовать новое (AI) и смотреть как это повышает вашу эффективность и эффективность компании, которая вам платит, ну или которую вы создаете.

Я вот еще не обновил свое резюме, чтобы написать там про AI use cases, использование AI инструментов для продуктивности, а пора.

Growth mindset - наше все!
💯92🌚3
В последней статье от Pragmatic Engineer - AI Engineering in the real world автор на пример нескольких стартапов собрал примеры использования AI для продукта/сервиса и их технологический стек.

1. Incident.io — это стартап, который создает инструменты для эффективного управления инцидентами и их расследования. Продукты компании помогают компаниям быстро реагировать на технические сбои, обеспечивая эффективную коммуникацию и анализ ситуации.

Продукт:
- AI Note Taker — инструмент для записи заметок и реального времени, который автоматически генерирует резюме инцидентов, а также выделяет ключевые решения и действия для участников.
- Incident Investigator — ИИ-агент, который анализирует коды, логи и старые инциденты для нахождения коренной причины текущих проблем.

Технологии:
- PostgreSQL и pgvector — для хранения и поиска векторных представлений данных.
- ChatGPT 4o и Sonnet 3.7 (модели от Anthropic) — для обработки запросов и анализа инцидентов.
- GCP Kubernetes — для оркестрации вычислительных ресурсов.
- Go (на бэкенде) и React + Typescript (на фронтенде).


2. Sentry — это популярная платформа для мониторинга приложений, которая помогает разработчикам отслеживать ошибки в коде и устранять их. Компания предоставляет мощные инструменты для автоматического обнаружения и исправления ошибок.

Продукт:
- Autofix — позволяет быстро перейти от ошибки в коде к её исправлению, интегрируя данные Sentry с GitHub для автоматического создания запросов на исправления.
- Issue Grouping — инструмент, который снижает количество уведомлений об ошибках и устраняет «шум» с помощью усовершенствованного поиска ближайших соседей.

Технологии:
- PostgreSQL и pgvector — для хранения и поиска векторных данных.
- Clickhouse — для обработки аналитики в реальном времени.
- Kubernetes — для оркестрации вычислительных мощностей.
- Python и PyTorch — для инференса моделей машинного обучения.


3. Wordsmith (Legal AI) разрабатывает инструменты с использованием ИИ, специально ориентированные на юридические команды. Продукты компании помогают автоматизировать рутинные задачи, такие как анализ документов и контрактов.

Продукт:
- AI Contract Review — инструмент для автоматического анализа контрактов, выявления проблемных мест и создания аннотированных документов.
- Documents Workspace — платформа для анализа и создания документов, включая автоматическое составление отчетов и рекомендаций.

Технологии:
- Pinecone — для хранения векторных представлений данных.
- LangChain и LangSmith — для интеграции LLM в рабочие процессы.
- LlamaIndex — для оркестрации данных с LLM.
- Многооблачные провайдеры: AWS, Azure и GCP.


4. Augment Code создает инструменты для разработчиков с целью улучшения их работы с большими кодовыми базами с использованием ИИ. Компания предлагает AI-ассистента для программирования, который помогает ускорить процесс разработки.

Продукт:
- AI Coding Assistant — расширение для IDE (VS Code, JetBrains, Vim) и Slack, которое помогает разработчикам ускорить процесс написания кода.
- Fine-tuning Models — сервис для настройки ИИ-моделей для специфических задач в программировании.

Технологии:
- Google Cloud — для хостинга инфраструктуры.
- A3 Mega 600GPU/75 node cluster — для тренировки и инференса моделей.
- NVIDIA GPU и CUDA — для обработки данных на графических процессорах.
- Python и PyTorch — для создания библиотек тренировки и инференса.


5. Elsevier (RAG platform) — один из крупнейших мировых издателей научных и медицинских материалов. Компания создает платформы, которые помогают медицинским специалистам и исследователям эффективно находить и использовать научные данные.

Продукт:
- RAG Platform — централизованная платформа для обработки научных данных и создания приложений для медицинских профессионалов. Включает в себя решения для создания интеллектуальных систем обучения и поддержки клинических решений.
❤‍🔥41
Технологии:
- AWS Bedrock и Azure OpenAI — для хостинга и запуска моделей LLM.
- LangChain — для интеграции LLM в инфраструктуру.
- Snowflake — для хранения данных и анализа.
- Apache Airflow — для выполнения пайплайнов обработки данных.
- AWS Fargate и AWS OpenSearch — для хранения векторных данных и поиска.


6. Simply Business — это страховая компания, предоставляющая небольшим и средним предприятиям удобные онлайн-инструменты для покупки страховых полисов. Компания разрабатывает чат-ботов для автоматизации обслуживания клиентов.

Продукт:
- Chatbot — чат-бот, который отвечает на вопросы клиентов о страховании, предоставляя только утвержденные ответы в соответствии с нормативами отрасли.

Технологии:
- AWS Bedrock — для хостинга модели.
- Anthropic Sonnet 3.5 — для обработки запросов.
- Ruby on Rails — для разработки и развертывания приложения.



7. Data Solutions International (DSI) разрабатывает HR-технологии, которые помогают компаниям с процессами оценки и вовлеченности сотрудников. Их продукты используют ИИ для анализа и суммирования отзывов сотрудников.

Продукт:
- Summarization Feature — инструмент для автоматического суммирования комментариев сотрудников, оставленных в процессе оценки и обратной связи, включая классификацию по темам и создание облаков слов.

Технологии:
- AWS Bedrock — для работы с моделями.
- PostgreSQL — для хранения векторных представлений данных.

То есть если посмотреть на технологический стек, мы видим набор традиционных решений с интеграцией Gen AI сервиса
1❤‍🔥11🐳1
Обзор новых книг от O’Reilly, которые на мой взгляд выглядят интересными и полезными:


ML and Generative AI in the Data Lakehouse - ​практическое руководство по созданию решений с использованием генеративного искусственного интеллекта (ИИ) и архитектуры data lakehouse. (Отличный материал для ознакомления с AI фичами databricks и примерами решений)

Data Governance with Unity Catalog on Databricks - предоставляет практическое руководство по использованию Databricks Unity Catalog для эффективного управления данными и соблюдения нормативных требований. (Unity Catalog специфичен и отличается от других каталогов, поэтому поможет быстрей понять особенности и best practices)

Building Medallion Architectures - Книга подробно рассматривает принципы организации слоев «бронза», «серебро» и «золото» для улучшения качества данных и повышения эффективности аналитики. (Обычно это тему можно понять на простом примере с 3мя папочками Bronze, Silver, Gold. Ребята там сильно напряглись, чтобы книгу написать)

Building Data Integration Solutions - практическое руководство по объединению и организации разрозненных источников информации в единую, согласованную систему. (Чисто полистать сойдет)

AWS Certified Data Engineer Associate Study Guide - охватывает ключевые темы, включая эффективное управление конвейерами данных, выбор подходящих хранилищ, проектирование моделей данных, обеспечение качества данных и внедрение надежных протоколов безопасности и управления данными в AWS. (Самый лучший способ изучать AWS и вкатываться в дата инженера на западе)

Advanced Snowflake - предоставляет подробное руководство по использованию передовых инструментов платформы Snowflake, таких как Snowpark и Native App Framework, для оптимизации обработки данных, разработки приложений и развертывания моделей машинного обучения. (Если вы опытный в Snowflake, врят ли узнаете что-то новое, а если только начинаете, то самое то)

Apache Hudi: The Definitive Guide - руководство по использованию Apache Hudi для создания транзакционных гарантий при работе с быстро изменяющимися данными. ( я бы лучше про Iceberg изучал бы)

Engineering Leadership: The Hard Parts - практическое руководство для инженерных лидеров, помогающее справляться с вызовами управления в условиях неопределенности и быстрых изменений.


Microsoft Power BI Data Analyst Associate Study Guide - ​книга для подготовки к экзамену PL-300 и получения сертификации Microsoft Certified: Power BI Data Analyst Associate. (😞)

Fundamentals of Microsoft Fabric - служит подробным руководством по освоению платформы Microsoft Fabric. (Возможно наконец-то мы сможем понять что такое Фабрик и зачем он нужен)

Demystifying The Coding Interview - руководство для подготовки к собеседованиям по программированию. Она охватывает ключевые темы, такие как структуры данных, алгоритмы и методы решения задач, помогая читателям развить критическое мышление и навыки решения проблем. (Если вы вдруг хотите сами решать задачки на собесе, то книга вам поможет, хотя не ожидаю увидеть что-то новое в этой области)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
18🦄3