Инжиниринг Данных
23.4K subscribers
1.91K photos
57 videos
190 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Если вы еще не попробовали промпт “Convert Studio Ghibli anime”, то самое время открыть ChatGPT модель 4o. Детализация очень крутая, как пример наши фотки.

Модель умеет совмещать несколько фоток в одну (пример с котом, машиной и детьми)

Утро прошло не зря:)
❤‍🔥90😈1💘1
Forwarded from Data Memes
💯44👾9🙈5❤‍🔥2🐳2🍾1
Ну что все думаете, что скоро вас заменят? А вот Нюх думают по другому:


Мне 50 лет, я пишу продакшн-код уже около 30 лет, преподаю программирование и являюсь признанным мировым экспертом в этой области, особенно в сфере облачных технологий. НУЛЕВОЙ ШАНС, что в ближайшие 5 лет эта технология сможет заменить экспертов-программистов. Это всё равно что сказать, будто циркулярная пила может заменить плотника. Логическая ошибка.

Это всё большая афера. Силиконовая долина делает вид, что что-то создаёт, а на самом деле продаёт финансовый продукт, а не настоящий. А потом уходит, оставляя за собой ядерные отходы, закопанные в общественном саду.



А вот, что говорит Степан:



1. "Петля гибели" (Doom Loop)
Компании массово увольняют сотрудников, чтобы внедрить ИИ, но затем вынуждены нанимать новых людей, чтобы управлять этим ИИ — потому что он часто ошибается. Это замкнутый круг:
→ Увольняем людей
→ Ставим ИИ
→ ИИ ошибается
→ Нанимаем людей, чтобы исправлять ошибки ИИ
→ Добавляем больше ИИ, чтобы исправлять старый ИИ
→ Повторяем

2. "Змея, поедающая свой хвост"
Метафора для того, что система начинает "переваривать саму себя" — создаются новые проблемы, которые приходится решать теми же средствами, что их и вызвали.

3. Реальность против обещаний
- ИИ делает ошибки (часто "галлюцинирует", особенно в логике и математике).
- Тесты и бенчмарки — подогнаны, демонстрации — искусственные.
- Эффективность оказалась ниже обещанной, а издержки выше.
- Возникает скрытый труд: теперь нужны "ревьюеры ИИ", "промт-инженеры", и "QA-человеки в цикле".

4. Кто выигрывает
- Компании, которые не поддались хайпу и внедряют ИИ обдуманно, как дополнение, а не замену людей.
- Принцип "Augmentation over automation" — не заменять человека, а усиливать его возможности.

5. Что будет, если не изменить курс
- Падает качество продуктов
- Растут юридические и репутационные риски
- Скрытые затраты на управление ИИ
- ИИ, который исправляет ошибки другого ИИ
- Иллюзия прогресса вместо реального роста

6. P.S.
Подозрение: новые блестящие релизы, вроде GPT-4o с улучшенной генерацией изображений — это просто способ отвлечь внимание от провалов и проблем в реальных ИИ-внедрениях.

В общем идеи у всех классные, сейчас их пампят деньгами и продают, и возможно такой подход вредит конечной цели.

В любом случае цель остается неизменной, нужно развиваться и учиться, пробовать новое (AI) и смотреть как это повышает вашу эффективность и эффективность компании, которая вам платит, ну или которую вы создаете.

Я вот еще не обновил свое резюме, чтобы написать там про AI use cases, использование AI инструментов для продуктивности, а пора.

Growth mindset - наше все!
💯92🌚3
В последней статье от Pragmatic Engineer - AI Engineering in the real world автор на пример нескольких стартапов собрал примеры использования AI для продукта/сервиса и их технологический стек.

1. Incident.io — это стартап, который создает инструменты для эффективного управления инцидентами и их расследования. Продукты компании помогают компаниям быстро реагировать на технические сбои, обеспечивая эффективную коммуникацию и анализ ситуации.

Продукт:
- AI Note Taker — инструмент для записи заметок и реального времени, который автоматически генерирует резюме инцидентов, а также выделяет ключевые решения и действия для участников.
- Incident Investigator — ИИ-агент, который анализирует коды, логи и старые инциденты для нахождения коренной причины текущих проблем.

Технологии:
- PostgreSQL и pgvector — для хранения и поиска векторных представлений данных.
- ChatGPT 4o и Sonnet 3.7 (модели от Anthropic) — для обработки запросов и анализа инцидентов.
- GCP Kubernetes — для оркестрации вычислительных ресурсов.
- Go (на бэкенде) и React + Typescript (на фронтенде).


2. Sentry — это популярная платформа для мониторинга приложений, которая помогает разработчикам отслеживать ошибки в коде и устранять их. Компания предоставляет мощные инструменты для автоматического обнаружения и исправления ошибок.

Продукт:
- Autofix — позволяет быстро перейти от ошибки в коде к её исправлению, интегрируя данные Sentry с GitHub для автоматического создания запросов на исправления.
- Issue Grouping — инструмент, который снижает количество уведомлений об ошибках и устраняет «шум» с помощью усовершенствованного поиска ближайших соседей.

Технологии:
- PostgreSQL и pgvector — для хранения и поиска векторных данных.
- Clickhouse — для обработки аналитики в реальном времени.
- Kubernetes — для оркестрации вычислительных мощностей.
- Python и PyTorch — для инференса моделей машинного обучения.


3. Wordsmith (Legal AI) разрабатывает инструменты с использованием ИИ, специально ориентированные на юридические команды. Продукты компании помогают автоматизировать рутинные задачи, такие как анализ документов и контрактов.

Продукт:
- AI Contract Review — инструмент для автоматического анализа контрактов, выявления проблемных мест и создания аннотированных документов.
- Documents Workspace — платформа для анализа и создания документов, включая автоматическое составление отчетов и рекомендаций.

Технологии:
- Pinecone — для хранения векторных представлений данных.
- LangChain и LangSmith — для интеграции LLM в рабочие процессы.
- LlamaIndex — для оркестрации данных с LLM.
- Многооблачные провайдеры: AWS, Azure и GCP.


4. Augment Code создает инструменты для разработчиков с целью улучшения их работы с большими кодовыми базами с использованием ИИ. Компания предлагает AI-ассистента для программирования, который помогает ускорить процесс разработки.

Продукт:
- AI Coding Assistant — расширение для IDE (VS Code, JetBrains, Vim) и Slack, которое помогает разработчикам ускорить процесс написания кода.
- Fine-tuning Models — сервис для настройки ИИ-моделей для специфических задач в программировании.

Технологии:
- Google Cloud — для хостинга инфраструктуры.
- A3 Mega 600GPU/75 node cluster — для тренировки и инференса моделей.
- NVIDIA GPU и CUDA — для обработки данных на графических процессорах.
- Python и PyTorch — для создания библиотек тренировки и инференса.


5. Elsevier (RAG platform) — один из крупнейших мировых издателей научных и медицинских материалов. Компания создает платформы, которые помогают медицинским специалистам и исследователям эффективно находить и использовать научные данные.

Продукт:
- RAG Platform — централизованная платформа для обработки научных данных и создания приложений для медицинских профессионалов. Включает в себя решения для создания интеллектуальных систем обучения и поддержки клинических решений.
❤‍🔥41
Технологии:
- AWS Bedrock и Azure OpenAI — для хостинга и запуска моделей LLM.
- LangChain — для интеграции LLM в инфраструктуру.
- Snowflake — для хранения данных и анализа.
- Apache Airflow — для выполнения пайплайнов обработки данных.
- AWS Fargate и AWS OpenSearch — для хранения векторных данных и поиска.


6. Simply Business — это страховая компания, предоставляющая небольшим и средним предприятиям удобные онлайн-инструменты для покупки страховых полисов. Компания разрабатывает чат-ботов для автоматизации обслуживания клиентов.

Продукт:
- Chatbot — чат-бот, который отвечает на вопросы клиентов о страховании, предоставляя только утвержденные ответы в соответствии с нормативами отрасли.

Технологии:
- AWS Bedrock — для хостинга модели.
- Anthropic Sonnet 3.5 — для обработки запросов.
- Ruby on Rails — для разработки и развертывания приложения.



7. Data Solutions International (DSI) разрабатывает HR-технологии, которые помогают компаниям с процессами оценки и вовлеченности сотрудников. Их продукты используют ИИ для анализа и суммирования отзывов сотрудников.

Продукт:
- Summarization Feature — инструмент для автоматического суммирования комментариев сотрудников, оставленных в процессе оценки и обратной связи, включая классификацию по темам и создание облаков слов.

Технологии:
- AWS Bedrock — для работы с моделями.
- PostgreSQL — для хранения векторных представлений данных.

То есть если посмотреть на технологический стек, мы видим набор традиционных решений с интеграцией Gen AI сервиса
1❤‍🔥11🐳1
Обзор новых книг от O’Reilly, которые на мой взгляд выглядят интересными и полезными:


ML and Generative AI in the Data Lakehouse - ​практическое руководство по созданию решений с использованием генеративного искусственного интеллекта (ИИ) и архитектуры data lakehouse. (Отличный материал для ознакомления с AI фичами databricks и примерами решений)

Data Governance with Unity Catalog on Databricks - предоставляет практическое руководство по использованию Databricks Unity Catalog для эффективного управления данными и соблюдения нормативных требований. (Unity Catalog специфичен и отличается от других каталогов, поэтому поможет быстрей понять особенности и best practices)

Building Medallion Architectures - Книга подробно рассматривает принципы организации слоев «бронза», «серебро» и «золото» для улучшения качества данных и повышения эффективности аналитики. (Обычно это тему можно понять на простом примере с 3мя папочками Bronze, Silver, Gold. Ребята там сильно напряглись, чтобы книгу написать)

Building Data Integration Solutions - практическое руководство по объединению и организации разрозненных источников информации в единую, согласованную систему. (Чисто полистать сойдет)

AWS Certified Data Engineer Associate Study Guide - охватывает ключевые темы, включая эффективное управление конвейерами данных, выбор подходящих хранилищ, проектирование моделей данных, обеспечение качества данных и внедрение надежных протоколов безопасности и управления данными в AWS. (Самый лучший способ изучать AWS и вкатываться в дата инженера на западе)

Advanced Snowflake - предоставляет подробное руководство по использованию передовых инструментов платформы Snowflake, таких как Snowpark и Native App Framework, для оптимизации обработки данных, разработки приложений и развертывания моделей машинного обучения. (Если вы опытный в Snowflake, врят ли узнаете что-то новое, а если только начинаете, то самое то)

Apache Hudi: The Definitive Guide - руководство по использованию Apache Hudi для создания транзакционных гарантий при работе с быстро изменяющимися данными. ( я бы лучше про Iceberg изучал бы)

Engineering Leadership: The Hard Parts - практическое руководство для инженерных лидеров, помогающее справляться с вызовами управления в условиях неопределенности и быстрых изменений.


Microsoft Power BI Data Analyst Associate Study Guide - ​книга для подготовки к экзамену PL-300 и получения сертификации Microsoft Certified: Power BI Data Analyst Associate. (😞)

Fundamentals of Microsoft Fabric - служит подробным руководством по освоению платформы Microsoft Fabric. (Возможно наконец-то мы сможем понять что такое Фабрик и зачем он нужен)

Demystifying The Coding Interview - руководство для подготовки к собеседованиям по программированию. Она охватывает ключевые темы, такие как структуры данных, алгоритмы и методы решения задач, помогая читателям развить критическое мышление и навыки решения проблем. (Если вы вдруг хотите сами решать задачки на собесе, то книга вам поможет, хотя не ожидаю увидеть что-то новое в этой области)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
18🦄3
Designing Data-Intensive Applications, 2nd Edition - надеюсь и так все понятно, что это сложная, скучная, но полезная книга для опытных специалистов.

The Product-Minded Engineer - подчеркивает важность развития эмпатии у инженеров-программистов для более глубокого понимания потребностей пользователей и повышения качества создаваемых продуктов. Опираясь на более чем 20-летний опыт работы в таких компаниях, как Microsoft, Facebook и Stripe, автор предлагает стратегии, помогающие интегрировать технические навыки с ориентированностью на пользователя, что способствует карьерному росту и созданию более эффективных решений. (Полностью поддерживаю автора)

Fundamentals of DevOps and Software Delivery - руководство по DevOps и доставке программного обеспечения, охватывающее инструменты и методы, необходимые для развертывания и поддержки приложений в продакшене. (Автор, Евгений Брикман, написал очень крутую книга по Terraform Up an Running.)

Data Contracts - Книга Чада Сандерсона и Марка Фримана посвящена концепции дата-контрактов — соглашений между поставщиками и потребителями данных, направленных на обеспечение их качества и надежности. Авторы подробно рассматривают, как внедрение дата-контрактов помогает документировать ожидания к данным, устанавливать ответственность за их качество и автоматически применять эти требования в процессе CI/CD, что особенно важно при работе с данными, поступающими из внешних источников. (Ребята уже мусолят тему дата контрактов ни один год, и вот наконец-то книга почти готова)


В любом случае браться за все подряд это не очень эффективно, должен быть план и roam map, и нужно придерживаться его.
💯12❤‍🔥7🦄1
Какой Data Fusion без дата-соединений?

На конференции Data Fusion можно будет найти новых коллег, партнеров и инсайдеров из мира AI и DS. Организаторы специально к конференции выкатили Telegram-бот, который подберёт нужные контакты по принципу Tinder.

Свайпай анкеты и находи единомышленников, а пересечься вы сможете уже 16-17 апреля на площадке Data Fusion 🚀
Дата с Димой | Новости из мира BigTech | Эпизод 3

Youtube ▶️
Rutube ▶️

🎯 Ключевые темы выпуска:

📦 Snowflake + Iceberg — новые форматы хранения и поддержка Iceberg в Snowflake
⚙️ SQLMesh и нишевые тулзы — быстро, гибко, но пока сложно масштабировать
💾 Big Data ≠ Big Volume — 94% нагрузок укладываются в 10 ТБ, SSD — наше всё
🏗 DataBricks vs Snowflake — архитектура, ML, рост команд, кто кого
🧠 Семантический слой — YAML, NLP и осмысленные данные
🌍 Data Sharing и обмен метриками — как Facebook и Netflix делятся данными
🕵️‍♂️ Агенты и веб-скрейпинг — как автоматизировать сбор и обработку рыночных данных
🧑‍⚖️ Маск, Tesla и корпоративная монархия — теория заговора или новое будущее?
📉 Трамп и экономика — тарифы, эмиграция и как это влияет на рынок недвижимости
🔓 Open Source рулит — почему большие компании обожают открытые решения


💡 Источники:

https://aws.amazon.com/blogs/storage/connect-snowflake-to-s3-tables-using-the-sagemaker-lakehouse-iceberg-rest-endpoint/
https://duckdb.org/2025/03/14/preview-amazon-s3-tables.html
https://duckdb.org/2025/03/12/duckdb-ui
https://delta.io/blog/liquid-clustering/
https://www.databricks.com/blog/genie-conversation-apis-public-preview
https://docs.databricks.com/aws/en/lakehouse-architecture/reference
https://www.databricks.com/product/business-intelligence
https://github.com/mendableai/firecrawl
https://www.financialsamurai.com/
https://www.newyorker.com/culture/infinite-scroll/techno-fascism-comes-to-america-elon-musk
https://www.anthropic.com/news/model-context-protocol
https://github.com/ahujasid/blender-mcp
https://blog.cloudflare.com/ai-labyrinth/
https://www.instagram.com/pubity/p/DG-YawGvYhG/?img_index=1
https://dagster.io/blog/python-packages-primer-1
https://yandex.cloud/ru/training/compute
https://www.linkedin.com/posts/roy-lee-goat_i-just-got-kicked-out-of-columbia-for-taking-activity-7310834407433453568-tqAm
https://github.com/astronomer/airflow-ai-sdk
https://www.bloomberg.com/news/articles/2025-03-14/apple-s-siri-chief-calls-ai-delays-ugly-and-embarrassing-promises-fixes
https://github.com/drawdb
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤‍🔥34👨‍💻54🫡2
Алексей шарашит только впуть свои zoomcamps! я уже даже придумал бизнес идею, делать их на русском языке, да еще и на отчесественном стэке😀

Ссылки:
🔸 MLOps Zoomcamp: starts May 5, 2025
🔸 LLM Zoomcamp: starts June 2, 2025
🔸 ML Zoomcamp: starts September 2025

Я них конечно есть и недостаки, часто связанные с узкостью контента и выбора вендоров, которые спонсируют данную инициативу, но аналогов нет!

Вообще идея делать Workshop на русском end-to-end проектов вместе с вендорами будет топчик!
❤‍🔥35💯14🌚4