Мы рассмотрели компоненты хранилища данных, теперь озеро данных. К нему можно применить термин decoupled.
Изначально использовался Hadoop — открытая распределенная вычислительная платформа и компонент файловой системы HDFS для хранения и обработки больших объемов структурированных и неструктурированных данных на кластерах недорогих компьютеров. Для аналитики использовался MapReduce, но написание задач было сложным, поэтому был создан Hive для преобразования SQL-запросов в задачи MapReduce.
Со временем перешли от кластеров Hadoop к облачным объектным хранилищам (Amazon S3, Minio, Azure Blob Storage) из-за удобства и дешевизны. MapReduce заменили другие распределенные движки, такие как Apache Spark, Presto и Dremio. Однако формат таблиц Hive остался стандартом для распознавания файлов как таблиц для аналитики.
Ключевое отличие озера данных от хранилища данных — возможность использования разных вычислительных движков для различных задач. В озере данных нет службы, выполняющей функции движка хранения; обычно движок вычислений решает, как записывать данные, которые редко оптимизируются и совершенствуется.
Преимущества:
- Низкая стоимость: Хранение данных и выполнение запросов дешевле, чем в хранилище данных.
- Открытые форматы хранения: Можно использовать любые форматы файлов.
- Обработка неструктурированных данных: Озера данных могут обрабатывать данные, такие как данные сенсоров, вложения электронной почты и журналы.
Недостатки:
- Производительность: Отсутствие встроенных оптимизаций, таких как индексы и гарантии ACID, приводит к необходимости значительных усилий для достижения производительности, сравнимой с хранилищем данных.
- Сложная конфигурация: Необходимость значительных инженерных усилий для настройки и оптимизации компонентов.
- Отсутствие гарантий ACID: Нет встроенных транзакционных гарантий, что усложняет задачи, требующие строгой целостности данных.
Хранилище данных или озеро данных?
Озера данных хорошо подходят для хранения структурированных и неструктурированных данных, но имеют свои недостатки. Для высокоприоритетной аналитики данные часто копируются в хранилище данных, что приводит к дополнительным затратам и созданию множества копий данных, что не очень удобно и очевидно дороже.
Для выполнения запросов на озере данных можно использовать движки, такие как Dremio, Presto/Trino, Apache Spark и другие, но они сталкиваются с трудностями при обновлении данных из-за ограничений формата таблиц Hive.
Таким образом, озера данных и хранилища данных имеют свои уникальные преимущества и недостатки, что привело к появлению новой архитектуры, сочетающей их плюсы и минимизирующей минусы, — Data Lakehouse.
Как я первый раз познакомился с Lakehouse?
Был 2021 год, я был в Amazon Alexa, у нас было много данных и централизованный Redshift на 128 нод (максимальное кол-во нод) использовался для BI use cases. Redshift (хранилище данных) был единственный вариант для BI (отчетность), так как подключаться к озеру данных через Athena, Hive, Spark было не очень удобно из-за объема и особенности BI.
Тем не менее у Alexa было и озеро данных (upstream) на S3 и EMR (managed Hadoop). И там не было проблем с производительностью или хранением большого объема данных. Главная проблема была подружить это с BI и поэтому приходилось выгружать из озера и грузить в хранилище, а потом еще раз выгружать из хранилища обратно в S3 для ML.
Как раз в это время вступил в силу закон про data privacy (GDPR), для нас это простая задача - удалить CUSTOMER_ID(s) по запросу клиента раз в неделю. Это очень просто в реляционном хранилище данных, но очень сложно в озере данных (так как у вас просто куча файлов)
Поэтому мы стали смотреть в сторону Lakehouse, и первый open source был Delta для Spark.
Я как разу перешел в Xbox, и у меня была идея построить Delta Lake на Databricks, что я и сделал. Тогда Delta Lake был топ формат таблицы (теперь то мы знаем, что это не формат файлов). А вот сейчас походу надо уже строить на Iceberg. Хотя в Databricks все еще по умолчанию используется Delta.
А как было у вас?
Изначально использовался Hadoop — открытая распределенная вычислительная платформа и компонент файловой системы HDFS для хранения и обработки больших объемов структурированных и неструктурированных данных на кластерах недорогих компьютеров. Для аналитики использовался MapReduce, но написание задач было сложным, поэтому был создан Hive для преобразования SQL-запросов в задачи MapReduce.
Со временем перешли от кластеров Hadoop к облачным объектным хранилищам (Amazon S3, Minio, Azure Blob Storage) из-за удобства и дешевизны. MapReduce заменили другие распределенные движки, такие как Apache Spark, Presto и Dremio. Однако формат таблиц Hive остался стандартом для распознавания файлов как таблиц для аналитики.
Ключевое отличие озера данных от хранилища данных — возможность использования разных вычислительных движков для различных задач. В озере данных нет службы, выполняющей функции движка хранения; обычно движок вычислений решает, как записывать данные, которые редко оптимизируются и совершенствуется.
Преимущества:
- Низкая стоимость: Хранение данных и выполнение запросов дешевле, чем в хранилище данных.
- Открытые форматы хранения: Можно использовать любые форматы файлов.
- Обработка неструктурированных данных: Озера данных могут обрабатывать данные, такие как данные сенсоров, вложения электронной почты и журналы.
Недостатки:
- Производительность: Отсутствие встроенных оптимизаций, таких как индексы и гарантии ACID, приводит к необходимости значительных усилий для достижения производительности, сравнимой с хранилищем данных.
- Сложная конфигурация: Необходимость значительных инженерных усилий для настройки и оптимизации компонентов.
- Отсутствие гарантий ACID: Нет встроенных транзакционных гарантий, что усложняет задачи, требующие строгой целостности данных.
Хранилище данных или озеро данных?
Озера данных хорошо подходят для хранения структурированных и неструктурированных данных, но имеют свои недостатки. Для высокоприоритетной аналитики данные часто копируются в хранилище данных, что приводит к дополнительным затратам и созданию множества копий данных, что не очень удобно и очевидно дороже.
Для выполнения запросов на озере данных можно использовать движки, такие как Dremio, Presto/Trino, Apache Spark и другие, но они сталкиваются с трудностями при обновлении данных из-за ограничений формата таблиц Hive.
Таким образом, озера данных и хранилища данных имеют свои уникальные преимущества и недостатки, что привело к появлению новой архитектуры, сочетающей их плюсы и минимизирующей минусы, — Data Lakehouse.
Как я первый раз познакомился с Lakehouse?
Был 2021 год, я был в Amazon Alexa, у нас было много данных и централизованный Redshift на 128 нод (максимальное кол-во нод) использовался для BI use cases. Redshift (хранилище данных) был единственный вариант для BI (отчетность), так как подключаться к озеру данных через Athena, Hive, Spark было не очень удобно из-за объема и особенности BI.
Тем не менее у Alexa было и озеро данных (upstream) на S3 и EMR (managed Hadoop). И там не было проблем с производительностью или хранением большого объема данных. Главная проблема была подружить это с BI и поэтому приходилось выгружать из озера и грузить в хранилище, а потом еще раз выгружать из хранилища обратно в S3 для ML.
Как раз в это время вступил в силу закон про data privacy (GDPR), для нас это простая задача - удалить CUSTOMER_ID(s) по запросу клиента раз в неделю. Это очень просто в реляционном хранилище данных, но очень сложно в озере данных (так как у вас просто куча файлов)
Поэтому мы стали смотреть в сторону Lakehouse, и первый open source был Delta для Spark.
Я как разу перешел в Xbox, и у меня была идея построить Delta Lake на Databricks, что я и сделал. Тогда Delta Lake был топ формат таблицы (теперь то мы знаем, что это не формат файлов). А вот сейчас походу надо уже строить на Iceberg. Хотя в Databricks все еще по умолчанию используется Delta.
А как было у вас?
❤🔥14⚡5💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Обучаем IT-специалистов и берём в команду ⚡️
Лучших выпускников пригласим на интервью и предложим карьерный фаст-трек до мидла в Т1.
🎓 Открытые школы Т1 — это месяц онлайн-интенсива с возможностью попасть в штат Холдинга Т1 — крупнейшей ИТ-компании в России по версии RAEX 2023, в портфеле которой 800+ масштабных проектов и 70+ продуктов и услуг.
Зачем участвовать?
⚙️ Уникальный рыночный опыт. Одними из первых на рынке внедряем технологии для управления данными. В ближайшем будущем ими будут пользоваться большинство крупных предприятий страны.
⚙️ Попасть в число лучших. Проекты Т1 ежегодно получают лучшие награды на ИТ-конкурсах: Global CIO, Национальная банковская премия и др.
⚙️ Поддержка. Нам удалось собрать команду опытных профессионалов в области разработки хранилищ данных и аналитических систем, которые помогут расти и развиваться.
Выбирай:
📁 аналитик DWH
🖥 разработчик DWH
📊 системный аналитик
Для участия нужен опыт работы от 1 года в выбранном направлении.
⏰ Быстрое обучение: 1 месяц
📱 Гибкий формат: онлайн по вечерам (от 8 часов в неделю на вебинары и практику)
Подавай заявку до 24 июля!
Старт интенсива: 29 июля.
Реклама. Информация о рекламодателе
Лучших выпускников пригласим на интервью и предложим карьерный фаст-трек до мидла в Т1.
🎓 Открытые школы Т1 — это месяц онлайн-интенсива с возможностью попасть в штат Холдинга Т1 — крупнейшей ИТ-компании в России по версии RAEX 2023, в портфеле которой 800+ масштабных проектов и 70+ продуктов и услуг.
Зачем участвовать?
⚙️ Уникальный рыночный опыт. Одними из первых на рынке внедряем технологии для управления данными. В ближайшем будущем ими будут пользоваться большинство крупных предприятий страны.
⚙️ Попасть в число лучших. Проекты Т1 ежегодно получают лучшие награды на ИТ-конкурсах: Global CIO, Национальная банковская премия и др.
⚙️ Поддержка. Нам удалось собрать команду опытных профессионалов в области разработки хранилищ данных и аналитических систем, которые помогут расти и развиваться.
Выбирай:
📁 аналитик DWH
🖥 разработчик DWH
📊 системный аналитик
Для участия нужен опыт работы от 1 года в выбранном направлении.
⏰ Быстрое обучение: 1 месяц
📱 Гибкий формат: онлайн по вечерам (от 8 часов в неделю на вебинары и практику)
Подавай заявку до 24 июля!
Старт интенсива: 29 июля.
Реклама. Информация о рекламодателе
⚡6💯3❤🔥2
Please open Telegram to view this post
VIEW IN TELEGRAM
🦄24 9😭7🌚2
Что пишут про главный сбой Microsoft?
Перевод поста Gergely Orosz, автора Pragmatic Engineer.
Ух ты: мы находимся в середине, вероятно, крупнейшего глобального программного сбоя: аэропорты, больницы, аптеки, авиакомпании, железнодорожные службы, телекомпании, супермаркеты и многое другое не работает. Вот что мы знаем:
(Ниже фото из аэропорта Сиднея, где большинство экранов показывают синий экран смерти Windows, а планы путешествий нарушены из-за этого сбоя.)
Сбой затронул машины на Windows, которые используют Crowdstrike для защиты конечных точек (антивирус, файрвол, обнаружение вторжений, шифрование и контроль приложений).
Crowdstrike - это компания по кибербезопасности, оцененная в $80 миллиардов, и лидер рынка в области защиты конечных точек Windows с долей рынка около 22%. Таким образом, 1 из 5 компаний, использующих Windows, пользуется их услугами.
По-видимому, Crowdstrike выпустила достаточно невинное обновление программного обеспечения... на все машины Windows, по всему миру, практически одновременно. Программное обеспечение Crowdstrike работает на уровне ядра: и это обновление вызывает сбой Windows.
Обычно, когда баг в коде попадает в продакшн: вы просто отменяете это изменение и выпускаете предыдущую версию (или код, который работает корректно), и когда клиенты получают этот патч, их системы восстанавливаются. Но не в этом случае: потому что эти машины не функционируют.
Решение - как советует Crowdstrike - ручное и трудоемкое, и его нужно повторить для каждой машины на Windows, которую затронул сбой. Машину нужно загрузить в безопасном режиме, удалить файл, затем перезагрузить.
Что непонятно в этом сбое, так это как (и почему?) Crowdstrike выпустила глобальное обновление программного обеспечения без постепенного развертывания (так называемого развертывания с канарейками)? Это не имеет смысла, и ни один поставщик кибербезопасности с разумными практиками развертывания никогда бы не сделал этого. Насколько нам известно, это "глобальное развертывание" больше похоже на "YOLO развертывание" (мы рассматривали подходы к развертыванию в продакшн в The Pragmatic Engineer, включая YOLO развертывания на https://lnkd.in/dsQzhQ7). YOLO развертывания подходят, когда неважно, если развертывание пойдет не так, и достаточно просто вернуть все назад. Развертывание, которое может вывести из строя большинство ваших клиентов, не должно экспериментировать с этим подходом.
Для меня непостижимо, как можно было обойти постепенное развертывание: как это не стало обязательным процессом для всех развертываний, больших или маленьких. Последствия этого сбоя, несомненно, будут заметны на глобальном уровне ВВП - и это будет очень плохая новость для бизнеса Crowdstrike в будущем (кто захочет работать с поставщиком безопасности, который вызывает сбой 100% машин на Windows, на которых установлено их ПО, когда оно должно их защищать?)
Мой главный вывод заключается в том, что постепенные развертывания/canaries никогда не должны пропускаться, когда ваше ПО используется для работы важной или критической инфраструктуры.
PS кто-нибудь заметил сбой?
Перевод поста Gergely Orosz, автора Pragmatic Engineer.
Ух ты: мы находимся в середине, вероятно, крупнейшего глобального программного сбоя: аэропорты, больницы, аптеки, авиакомпании, железнодорожные службы, телекомпании, супермаркеты и многое другое не работает. Вот что мы знаем:
(Ниже фото из аэропорта Сиднея, где большинство экранов показывают синий экран смерти Windows, а планы путешествий нарушены из-за этого сбоя.)
Сбой затронул машины на Windows, которые используют Crowdstrike для защиты конечных точек (антивирус, файрвол, обнаружение вторжений, шифрование и контроль приложений).
Crowdstrike - это компания по кибербезопасности, оцененная в $80 миллиардов, и лидер рынка в области защиты конечных точек Windows с долей рынка около 22%. Таким образом, 1 из 5 компаний, использующих Windows, пользуется их услугами.
По-видимому, Crowdstrike выпустила достаточно невинное обновление программного обеспечения... на все машины Windows, по всему миру, практически одновременно. Программное обеспечение Crowdstrike работает на уровне ядра: и это обновление вызывает сбой Windows.
Обычно, когда баг в коде попадает в продакшн: вы просто отменяете это изменение и выпускаете предыдущую версию (или код, который работает корректно), и когда клиенты получают этот патч, их системы восстанавливаются. Но не в этом случае: потому что эти машины не функционируют.
Решение - как советует Crowdstrike - ручное и трудоемкое, и его нужно повторить для каждой машины на Windows, которую затронул сбой. Машину нужно загрузить в безопасном режиме, удалить файл, затем перезагрузить.
Что непонятно в этом сбое, так это как (и почему?) Crowdstrike выпустила глобальное обновление программного обеспечения без постепенного развертывания (так называемого развертывания с канарейками)? Это не имеет смысла, и ни один поставщик кибербезопасности с разумными практиками развертывания никогда бы не сделал этого. Насколько нам известно, это "глобальное развертывание" больше похоже на "YOLO развертывание" (мы рассматривали подходы к развертыванию в продакшн в The Pragmatic Engineer, включая YOLO развертывания на https://lnkd.in/dsQzhQ7). YOLO развертывания подходят, когда неважно, если развертывание пойдет не так, и достаточно просто вернуть все назад. Развертывание, которое может вывести из строя большинство ваших клиентов, не должно экспериментировать с этим подходом.
Для меня непостижимо, как можно было обойти постепенное развертывание: как это не стало обязательным процессом для всех развертываний, больших или маленьких. Последствия этого сбоя, несомненно, будут заметны на глобальном уровне ВВП - и это будет очень плохая новость для бизнеса Crowdstrike в будущем (кто захочет работать с поставщиком безопасности, который вызывает сбой 100% машин на Windows, на которых установлено их ПО, когда оно должно их защищать?)
Мой главный вывод заключается в том, что постепенные развертывания/canaries никогда не должны пропускаться, когда ваше ПО используется для работы важной или критической инфраструктуры.
PS кто-нибудь заметил сбой?
😭26🫡10👨💻6👾5🐳2🦄2
17 августа в Москве будет IT-пикник.
Это мероприятие для профессионалов IT-сферы, и на этот раз вход на пикник будет по пожертвованию в один из десяти благотворительных фондов. 💡💻
В программе IT-пикника:
📚 Лекции от топовых спикеров
🛠 Воркшопы для взрослых и детей
🔬 Научпоп-программа
🎮 Интерактивные зоны
🎵 Музыкальная программа
Ребята из Карельского регистра доноров костного мозга, который помогает пациентам с лейкозом найти совместимого донора стволовых клеток, попросили рассказать про мероприятие и упомянуть их фонд, так как участники it-пикника сами выбирают, в какой из благотворительных фондов будет перечислен их взнос. Все фонды с хорошей репутацией и заслуживают доверия. Каждый из них решает проблемы в определенной сфере: помогает онкопациентам, бездомным животным и так далее.
Для многих таких пациентов донорство – это последний шанс на выздоровление💖
Так ваше пожертвование в этот фонд поможет оплатить обследование новых доноров, каждый из которых может спасти жизнь.
IT-пикник – это замечательная возможность объединить приятное с полезным: посетить интересное мероприятие и помочь в спасении жизней. 🙌
Спасибо за вашу поддержку! ❤️
Это мероприятие для профессионалов IT-сферы, и на этот раз вход на пикник будет по пожертвованию в один из десяти благотворительных фондов. 💡💻
В программе IT-пикника:
📚 Лекции от топовых спикеров
🛠 Воркшопы для взрослых и детей
🔬 Научпоп-программа
🎮 Интерактивные зоны
🎵 Музыкальная программа
Ребята из Карельского регистра доноров костного мозга, который помогает пациентам с лейкозом найти совместимого донора стволовых клеток, попросили рассказать про мероприятие и упомянуть их фонд, так как участники it-пикника сами выбирают, в какой из благотворительных фондов будет перечислен их взнос. Все фонды с хорошей репутацией и заслуживают доверия. Каждый из них решает проблемы в определенной сфере: помогает онкопациентам, бездомным животным и так далее.
Для многих таких пациентов донорство – это последний шанс на выздоровление💖
Так ваше пожертвование в этот фонд поможет оплатить обследование новых доноров, каждый из которых может спасти жизнь.
IT-пикник – это замечательная возможность объединить приятное с полезным: посетить интересное мероприятие и помочь в спасении жизней. 🙌
Спасибо за вашу поддержку! ❤️
it-picnic.ru
ИТ-пикник 2025 — летний фестиваль для ИТ-специалистов и их близких
Лекции, интерактивы, детские зоны, музыка и яркий летний день. Ждем вас на ИТ-пикнике 16 августа в Коломенском. Подписывайтесь на телеграм-канал, чтобы не пропустить регистрацию
❤🔥10🌭7🗿2🤷♀1🍌1🙈1
📢 Друзья! 📢
В среду на канале DataLearn вебинар!
Тема: "Использование RAG и AI-агентов для поддержки клиентов" 🤖💬
🗓 Дата: 24 июля
🕗 Время: 20:00 по МСК
👨💻Спикер - CTO Wikibot Роман Чуприков!
Ребята уже приходили к нам и рассказывали про LLM модели🌟
Что обсудим:
🔸 Введение в Retrieval Augmented Generation (RAG) — торт или провал? 🍰❌
🔸 Парсинг данных — скучно, но важно! 📊
🔸 Разбиение документов на фрагменты и семантический поиск. 📚
🔸 Идеальный промпт существует? Как сделать так, чтобы бот отвечал «Я не знаю». 🤔
🔸 Первая линия поддержки — корректные ответы на важные вопросы. 🛡
🔸 От ответов к действиям — как обучить бота задавать уточняющие вопросы и работать с тикетами.
🔸 Бортовой журнал — интерфейс для постоянного дообучения бота.
Не пропустите! 🌟
👉 Ссылка на вебинар: https://youtube.com/live/IQjmR6jIlV0
Будем рады видеть вас! 😃👋
#datalearn #вебинар
В среду на канале DataLearn вебинар!
Тема: "Использование RAG и AI-агентов для поддержки клиентов" 🤖💬
🗓 Дата: 24 июля
🕗 Время: 20:00 по МСК
👨💻Спикер - CTO Wikibot Роман Чуприков!
Ребята уже приходили к нам и рассказывали про LLM модели🌟
Что обсудим:
🔸 Введение в Retrieval Augmented Generation (RAG) — торт или провал? 🍰❌
🔸 Парсинг данных — скучно, но важно! 📊
🔸 Разбиение документов на фрагменты и семантический поиск. 📚
🔸 Идеальный промпт существует? Как сделать так, чтобы бот отвечал «Я не знаю». 🤔
🔸 Первая линия поддержки — корректные ответы на важные вопросы. 🛡
🔸 От ответов к действиям — как обучить бота задавать уточняющие вопросы и работать с тикетами.
🔸 Бортовой журнал — интерфейс для постоянного дообучения бота.
Не пропустите! 🌟
👉 Ссылка на вебинар: https://youtube.com/live/IQjmR6jIlV0
Будем рады видеть вас! 😃👋
#datalearn #вебинар
YouTube
ИСПОЛЬЗОВАНИЕ RAG и AI АГЕНТОВ ДЛЯ ПОДДЕРЖКИ КЛИЕНТОВ / РОМАН ЧУПРИКОВ / DATALEARN
🎙 Спикер Роман Чуприков - CTO Wikibot.
🔗https://wikibot.pro
🔗 Ссылка на презентацию: https://docs.google.com/presentation/d/12raoiIeKIDfJVGJXrECvlkpZi0ia7P3Ez0ATzQY15VI/edit?usp=sharing
🔍 Что мы обсудим на вебинаре:
Использование RAG для поддержки клиентов…
🔗https://wikibot.pro
🔗 Ссылка на презентацию: https://docs.google.com/presentation/d/12raoiIeKIDfJVGJXrECvlkpZi0ia7P3Ez0ATzQY15VI/edit?usp=sharing
🔍 Что мы обсудим на вебинаре:
Использование RAG для поддержки клиентов…
❤🔥20⚡6🐳4
Недавно посетила мысль, что телеграмм каналы делятся на 2 типа:
1) Телеграмм канал, который ведет автор, и делится своими идеями, мнениями, да хоть предпочтениями во вкусах мороженного. Но сам факт того, что телеграмм канал имеет живое “лицо” как-то располагает и его интересно читать.
2) Телеграмм канал, который посвящен какой-то теме, но он обезличенный, “бездушный”. Набор ссылок, новостей, мемов, часто бесполезных и противоречивых.
Почему-то с недавних пор 2ой типа каналов совсем стали неинтересны, а вот 1й тип, наоборот. Мне горазде интересной узнать как дела у автора, чем живет, что думает, куда двигается и тп. Это как сериал с любимыми актерами, но только в реальной жизни.
А как у вас?
1) Телеграмм канал, который ведет автор, и делится своими идеями, мнениями, да хоть предпочтениями во вкусах мороженного. Но сам факт того, что телеграмм канал имеет живое “лицо” как-то располагает и его интересно читать.
2) Телеграмм канал, который посвящен какой-то теме, но он обезличенный, “бездушный”. Набор ссылок, новостей, мемов, часто бесполезных и противоречивых.
Почему-то с недавних пор 2ой типа каналов совсем стали неинтересны, а вот 1й тип, наоборот. Мне горазде интересной узнать как дела у автора, чем живет, что думает, куда двигается и тп. Это как сериал с любимыми актерами, но только в реальной жизни.
А как у вас?
💯75❤🔥8💘4👾2🍌1
Теперь про Data Lakehouse
Архитектура data lakehouse объединяет преимущества хранилищ данных и озер данных, предоставляя высокую производительность и простоту использования, а также низкие затраты и гибкость.
Основные преимущества Data Lakehouse:
Сочетание хранилищ и озер данных: Data lakehouse использует механизмы, которые позволяют реализовать функции, характерные для хранилищ данных (гарантии ACID, лучшая производительность, консистентность), на основе инфраструктуры озер данных.
Единое хранилище данных: Данные хранятся в тех же местах и форматах, что и в озере данных, но за счет нового формата таблиц улучшаются производительность и гарантии ACID.
Уменьшение копий данных: Благодаря ACID-гарантиям и улучшенной производительности можно выполнять обновления и другие манипуляции с данными в lakehouse, снижая количество копий данных и, соответственно, затраты на хранение и вычисления.
Быстрые запросы: Оптимизации на уровне движка запросов, формата таблиц и формата файлов позволяют получать инсайты быстрее.
Исторические снимки данных (snapshots): Форматы таблиц lakehouse позволяют сохранять исторические снимки данных, что облегчает восстановление и проверку данных.
Экономичность: Data lakehouse помогает снизить затраты на хранение и вычисления по сравнению с традиционными хранилищами данных.
Открытая архитектура: Использование открытых форматов, таких как Apache Iceberg и Apache Parquet, предотвращает зависимость от поставщиков и позволяет использовать различные инструменты для работы с данными.
Если по простому, то Lakehouse это взять лучшие свойства Data Warehouse и лучшие свойства Data Lake и смешать их.
Lakehouse = DW + DL.
Самый яркий пример Lakehouse это Databricks.
Что такое Databricks? Это просто виртуальные машины со Spark, которые читают данных из облачного сториджа (AWS S3, Azure Storage, GCP bucket). Если данные у нас в формате Parquet, ORC, CSV, JSON, то это просто обычное озеро данных. А вот если мы будем использовать специальный формат таблицы (table format) Delta, Iceberg, Hudi, то уже Lakehouse. Там конечно вам расскажут про Unified Analytics (типа все вместе трудятся в одном workspace), Unity Catalog, Delta Streaming, Repos и другие фичи, которые созданы для Enterprise.
Другой пример такой архитектуры это Snowflake. Мы привыкли, что Snowflake это хранилище данных, хотя по факту это такой же decouple между Storage (sharing everything) и Compute (sharing nothing). Единственный минус (он же и плюс) - данные хранятся в свое собственном формате, чтобы клиенты из-за высоких расходов кредитов не убежали к Databricks🤱
Еще пример Lakehouse:
- AWS Athena + Iceberg
- Trino + Iceberg
- Synapse Serverless + Delta
Выбор как это хостить:
- ( Managed Service) ( Пример Athena, Synapse Serverless, GCP Dataproc Spark, EMR Servrless, AWS Glue)
- (Managed) Kubernetes (Пример Trino, Clickhouse, DuckDB)
- PaaS (Пример Databricks, AWS, EMR, Azure HDInsights, Synapse Spark)
- On-premise (Hadoop + HDFS)
Когда что использовать? Ну здесь сами понимаете, зависит от команды и бюджета. Можно просто и дорого, можно сложно и дорого (возможно подешевле за инфру, но команда будет больше и дороже).
Мне как простому инженеру вообще все-равно, главное чтобы ЗП капнула вовремя😊
А так прикольно понимать разницу и уметь работать с этим зоопарком🥂
Архитектура data lakehouse объединяет преимущества хранилищ данных и озер данных, предоставляя высокую производительность и простоту использования, а также низкие затраты и гибкость.
Основные преимущества Data Lakehouse:
Сочетание хранилищ и озер данных: Data lakehouse использует механизмы, которые позволяют реализовать функции, характерные для хранилищ данных (гарантии ACID, лучшая производительность, консистентность), на основе инфраструктуры озер данных.
Единое хранилище данных: Данные хранятся в тех же местах и форматах, что и в озере данных, но за счет нового формата таблиц улучшаются производительность и гарантии ACID.
Уменьшение копий данных: Благодаря ACID-гарантиям и улучшенной производительности можно выполнять обновления и другие манипуляции с данными в lakehouse, снижая количество копий данных и, соответственно, затраты на хранение и вычисления.
Быстрые запросы: Оптимизации на уровне движка запросов, формата таблиц и формата файлов позволяют получать инсайты быстрее.
Исторические снимки данных (snapshots): Форматы таблиц lakehouse позволяют сохранять исторические снимки данных, что облегчает восстановление и проверку данных.
Экономичность: Data lakehouse помогает снизить затраты на хранение и вычисления по сравнению с традиционными хранилищами данных.
Открытая архитектура: Использование открытых форматов, таких как Apache Iceberg и Apache Parquet, предотвращает зависимость от поставщиков и позволяет использовать различные инструменты для работы с данными.
Если по простому, то Lakehouse это взять лучшие свойства Data Warehouse и лучшие свойства Data Lake и смешать их.
Lakehouse = DW + DL.
Самый яркий пример Lakehouse это Databricks.
Что такое Databricks? Это просто виртуальные машины со Spark, которые читают данных из облачного сториджа (AWS S3, Azure Storage, GCP bucket). Если данные у нас в формате Parquet, ORC, CSV, JSON, то это просто обычное озеро данных. А вот если мы будем использовать специальный формат таблицы (table format) Delta, Iceberg, Hudi, то уже Lakehouse. Там конечно вам расскажут про Unified Analytics (типа все вместе трудятся в одном workspace), Unity Catalog, Delta Streaming, Repos и другие фичи, которые созданы для Enterprise.
Другой пример такой архитектуры это Snowflake. Мы привыкли, что Snowflake это хранилище данных, хотя по факту это такой же decouple между Storage (sharing everything) и Compute (sharing nothing). Единственный минус (он же и плюс) - данные хранятся в свое собственном формате, чтобы клиенты из-за высоких расходов кредитов не убежали к Databricks
Еще пример Lakehouse:
- AWS Athena + Iceberg
- Trino + Iceberg
- Synapse Serverless + Delta
Выбор как это хостить:
- ( Managed Service) ( Пример Athena, Synapse Serverless, GCP Dataproc Spark, EMR Servrless, AWS Glue)
- (Managed) Kubernetes (Пример Trino, Clickhouse, DuckDB)
- PaaS (Пример Databricks, AWS, EMR, Azure HDInsights, Synapse Spark)
- On-premise (Hadoop + HDFS)
Когда что использовать? Ну здесь сами понимаете, зависит от команды и бюджета. Можно просто и дорого, можно сложно и дорого (возможно подешевле за инфру, но команда будет больше и дороже).
Мне как простому инженеру вообще все-равно, главное чтобы ЗП капнула вовремя😊
А так прикольно понимать разницу и уметь работать с этим зоопарком🥂
Please open Telegram to view this post
VIEW IN TELEGRAM
💯28🍌16🗿5❤🔥2😈1🎄1
Увидел вакансию VP data на зарплату до 217к CAD. При этом иногда Sr Data Engineer 180к-200к, чтобы несколько часов в день код пописать, баги пофиксить и дальше своими делами заниматься и митингов 4 штуки в неделю. Вы точно хотите быть VP в Канаде?!🫣
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿24🤷♂8
Продолжаем нашу тему про Lakehouse. Самое важное это формат таблицы (table format).
Формат таблиц — это метод структурирования файлов набора данных, чтобы представить их как единую "таблицу".
Основная цель формата таблиц — предоставить абстракцию, которая позволяет пользователям и инструментам легко и эффективно взаимодействовать с данными.
Форматы таблиц существуют с момента появления реляционных СУБД, таких как System R, Multics и Oracle. Эти системы позволяли пользователям обращаться к набору данных как к таблице, абстрагируя сложные детали хранения данных на диске.
В современных системах большие объемы данных хранятся как файлы в хранилищах данных (например, Amazon S3, Azure Data Lake Storage, Google Cloud Storage). Использование SQL или кода для работы с этими файлами может быть неудобным и приводить к несогласованности данных.
Изначально изобрели Hive и он стал стандартом формата таблиц. Hive был разработан Facebook в 2009 году для упрощения аналитики в Hadoop, предоставляя возможность писать SQL-запросы вместо сложных задач MapReduce. (MapReduce писался на Java🫣)
Формат таблиц Hive определяет таблицу как все файлы в указанной директории и использует Hive Metastore для отслеживания этих таблиц.
Простой пример:
Если вы запустите Apache Spark локально и создать с помощью Spark SQL таблицу или вью, то метанные сможете найти в Hive Metastore. В Databricks Hive тоже по умолчанию, но там лучше подключить Unity Catalog. В AWS Glue, лучше использовать Glue Catalog и тд. А так все это про метанные и их управление.
Преимущества Hive:
- Поддержка более эффективных запросов благодаря техникам, таким как разделение и хеширование.
- Независимость от формата файлов, что позволяет использовать такие форматы, как Apache Parquet.
- Возможность атомарных изменений на уровне разделов таблицы.
Недостатки Hive:
- Неэффективность изменений на уровне файлов.
- Отсутствие механизма для атомарного обновления нескольких разделов.
- Проблемы с одновременными обновлениями.
- Замедление запросов из-за необходимости чтения и списка файлов и директорий.
- Ограниченные статистические данные для оптимизации запросов.
- Проблемы с производительностью при большом количестве файлов в одном разделе.
Современные форматы таблиц, такие как Apache Iceberg, Apache Hudi и Delta Lake, решают проблемы Hive, определяя таблицы как канонический список файлов, а не директорий. Это позволяет реализовать функции, такие как транзакции ACID и "путешествие во времени". (Прям как у Snowflake😏)
- Apache Iceberg: Разработан в 2018 году в Netflix для обеспечения ACID-транзакций и улучшения производительности при работе с большими данными в озерах данных.
- Apache Hudi: Создан в 2016 году в Uber для поддержки инкрементных обновлений и предоставления ACID-гарантий в больших наборах данных. (Наиболее устаревший)
- Delta Lake: Создан Databricks в 2019 году для обеспечения надежных транзакций и управления данными в озерах данных, улучшая их производительность и надежность.
Преимущества современных форматов таблиц:
- Поддержка транзакций ACID.
- Безопасность транзакции при одновременной записи в файл
- Сбор статистики и метаданных для более эффективного планирования запросов.
Поэтому работая с данными сегодня, вы будете работать либо с аналитическим хранилищем данных (не важно, что у них внутри) BigQuery, Redshift, Snowflake и тп, либо использовать Lakehouse решения и один из 3х популярных открытых форматов данных. Таким образом scope инженера данных и не такой-то уж и большой.
Лучший вариант понять все это - сделать pet проекты. Взять один сценарий и реализовать его разными способами, даже если на входе всего 100 мб JSON файлов.
Мне кажется 30-40% типичного собеседования на дата инженера проходи за обсуждение плюсов и минусов того или иного решения.
Формат таблиц — это метод структурирования файлов набора данных, чтобы представить их как единую "таблицу".
Основная цель формата таблиц — предоставить абстракцию, которая позволяет пользователям и инструментам легко и эффективно взаимодействовать с данными.
Форматы таблиц существуют с момента появления реляционных СУБД, таких как System R, Multics и Oracle. Эти системы позволяли пользователям обращаться к набору данных как к таблице, абстрагируя сложные детали хранения данных на диске.
В современных системах большие объемы данных хранятся как файлы в хранилищах данных (например, Amazon S3, Azure Data Lake Storage, Google Cloud Storage). Использование SQL или кода для работы с этими файлами может быть неудобным и приводить к несогласованности данных.
Изначально изобрели Hive и он стал стандартом формата таблиц. Hive был разработан Facebook в 2009 году для упрощения аналитики в Hadoop, предоставляя возможность писать SQL-запросы вместо сложных задач MapReduce. (MapReduce писался на Java🫣)
Формат таблиц Hive определяет таблицу как все файлы в указанной директории и использует Hive Metastore для отслеживания этих таблиц.
Простой пример:
Если вы запустите Apache Spark локально и создать с помощью Spark SQL таблицу или вью, то метанные сможете найти в Hive Metastore. В Databricks Hive тоже по умолчанию, но там лучше подключить Unity Catalog. В AWS Glue, лучше использовать Glue Catalog и тд. А так все это про метанные и их управление.
Преимущества Hive:
- Поддержка более эффективных запросов благодаря техникам, таким как разделение и хеширование.
- Независимость от формата файлов, что позволяет использовать такие форматы, как Apache Parquet.
- Возможность атомарных изменений на уровне разделов таблицы.
Недостатки Hive:
- Неэффективность изменений на уровне файлов.
- Отсутствие механизма для атомарного обновления нескольких разделов.
- Проблемы с одновременными обновлениями.
- Замедление запросов из-за необходимости чтения и списка файлов и директорий.
- Ограниченные статистические данные для оптимизации запросов.
- Проблемы с производительностью при большом количестве файлов в одном разделе.
Современные форматы таблиц, такие как Apache Iceberg, Apache Hudi и Delta Lake, решают проблемы Hive, определяя таблицы как канонический список файлов, а не директорий. Это позволяет реализовать функции, такие как транзакции ACID и "путешествие во времени". (Прям как у Snowflake😏)
- Apache Iceberg: Разработан в 2018 году в Netflix для обеспечения ACID-транзакций и улучшения производительности при работе с большими данными в озерах данных.
- Apache Hudi: Создан в 2016 году в Uber для поддержки инкрементных обновлений и предоставления ACID-гарантий в больших наборах данных. (Наиболее устаревший)
- Delta Lake: Создан Databricks в 2019 году для обеспечения надежных транзакций и управления данными в озерах данных, улучшая их производительность и надежность.
Преимущества современных форматов таблиц:
- Поддержка транзакций ACID.
- Безопасность транзакции при одновременной записи в файл
- Сбор статистики и метаданных для более эффективного планирования запросов.
Поэтому работая с данными сегодня, вы будете работать либо с аналитическим хранилищем данных (не важно, что у них внутри) BigQuery, Redshift, Snowflake и тп, либо использовать Lakehouse решения и один из 3х популярных открытых форматов данных. Таким образом scope инженера данных и не такой-то уж и большой.
Лучший вариант понять все это - сделать pet проекты. Взять один сценарий и реализовать его разными способами, даже если на входе всего 100 мб JSON файлов.
Мне кажется 30-40% типичного собеседования на дата инженера проходи за обсуждение плюсов и минусов того или иного решения.
❤🔥44⚡6🫡3🦄1
Сегодня я узнал новый термин - Data Clean room. Вообще никогда не слышал. Оказывается популярная штука:
Databricks: https://www.databricks.com/discover/enterprise-data-platform/clean-room
Snowflaek: https://www.snowflake.com/trending/data-clean-room-for-business-growth/
Big Query: https://cloud.google.com/bigquery/docs/data-clean-rooms
Возможно опять buzz words и hype, и вендоры как обычно пользуются непониманием😒
По факту это возможность предоставить данные в безопасной среде, где можно применить data masking, раздать права и производить мониторинг/аудит.
Все 3 вендора выше имеют функциональность Data Sharing. Но из статей вообще не понятно о чем они…
Кто нибудь строил clean room? Именно задача была сделать clean room (то есть термин использовался)
Databricks: https://www.databricks.com/discover/enterprise-data-platform/clean-room
Snowflaek: https://www.snowflake.com/trending/data-clean-room-for-business-growth/
Big Query: https://cloud.google.com/bigquery/docs/data-clean-rooms
Возможно опять buzz words и hype, и вендоры как обычно пользуются непониманием
По факту это возможность предоставить данные в безопасной среде, где можно применить data masking, раздать права и производить мониторинг/аудит.
Все 3 вендора выше имеют функциональность Data Sharing. Но из статей вообще не понятно о чем они…
Кто нибудь строил clean room? Именно задача была сделать clean room (то есть термин использовался)
Please open Telegram to view this post
VIEW IN TELEGRAM
Databricks
What Is a Data Clean Room? | Databricks
Discover how Databricks' Clean Room enables secure data collaboration and analysis while maintaining privacy and compliance.
❤🔥6🤷4💯2🐳1
Ну что тут говорить…. Все так🤱
Другой вопрос если с деньгами все порядке, можно себе позволить быть loyal или просто пилить стартапчик для души🍟
Другой вопрос если с деньгами все порядке, можно себе позволить быть loyal или просто пилить стартапчик для души
Please open Telegram to view this post
VIEW IN TELEGRAM
💯50🗿3
И на всякий случай!
Как казаться умным
- Спрашивайте "А будет ли это масштабироваться?" независимо от темы разговора
- Просите вернуться на один слайд назад без всякой причины
- Побуждайте всех "сделать шаг назад"
- Повторяйте последнюю фразу инженера, но очень медленно
- Спрашивайте, задаем ли мы правильные вопросы
- Ходите по комнате
- Выйдите и сделайте вид, что получили важный телефонный звонок
- Спрашивайте, не смешиваем ли мы несколько вопросов
- Перебивайте чье-то обновление, а затем дайте им закончить
- В онлайн звонке отправить emoji или reaction, и похвалить спикера
- Спросить про следующие шаги и action plan
- Уточнить сроки (dead line)
- Спросить есть ли у нас OKR и как мы будем их измерить?
- На всякие случай спросить, а результат точно имеет tangible output?
Дополните список!
Как казаться умным
- Спрашивайте "А будет ли это масштабироваться?" независимо от темы разговора
- Просите вернуться на один слайд назад без всякой причины
- Побуждайте всех "сделать шаг назад"
- Повторяйте последнюю фразу инженера, но очень медленно
- Спрашивайте, задаем ли мы правильные вопросы
- Ходите по комнате
- Выйдите и сделайте вид, что получили важный телефонный звонок
- Спрашивайте, не смешиваем ли мы несколько вопросов
- Перебивайте чье-то обновление, а затем дайте им закончить
- В онлайн звонке отправить emoji или reaction, и похвалить спикера
- Спросить про следующие шаги и action plan
- Уточнить сроки (dead line)
- Спросить есть ли у нас OKR и как мы будем их измерить?
- На всякие случай спросить, а результат точно имеет tangible output?
Дополните список!
🌚77💯68⚡16🫡12🙈11❤🔥7🐳2🗿2🍌1🦄1
Всем привет! Поделитесь пожалуйста ресурсами (телеграмм каналами, сайтами, форумами, агентствами) которые помогают с переездом в Европу, США, Канаду, Южную Америку или может быть поделится своими историями.
Будет полезно для всех подписчиков!
Или можете мне в личку скинуть, я потом опубликую список а то бот трет ссылки;
Спасибо!
Будет полезно для всех подписчиков!
Или можете мне в личку скинуть, я потом опубликую список а то бот трет ссылки;
Спасибо!
❤🔥16⚡5🗿1🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
Встретимся в Петербурге, чтобы потусить и послушать короткие лайтнинги от коллег. Переключимся с работы на живое общение — так мы сможем не только подзарядиться, но и поймать новые идеи! В программе — прогулка по трём барам, настойки и коктейли, codebattle, задушевные разговоры и крутая вечеринка!
До встречи на Код-хоппинге! 🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾3🙈3
Mindbox ищет Senior Data Engineer-ов, чтобы усилить команду внутренней платформы данных.
Локация: можно полностью удаленно или из офисов в Москве/Ереване
Деньги: до 500net
Строим DeltaLake на Spark и подход DataMesh, чтобы доменные команды могли быстро и без посредников использовать данные друг друга для развития своих продуктов.
Ожидаем:
- Опыт решения сложных задач простым в поддержке и понимании кодом (ООП, SOLID, автотесты)
- Знание Python как родного, опыт промышленной разработки на статически типизированных языках C#/Java/Scala/Kotlin/C++
У нас:
- Современный Big Data стек
- Выделяем существенный ресурс (>30% времени) на уменьшение техдолга и поддержки
- Особенная культура: открытые зарплаты, право принять любое решение у каждого. Прямая обратная связь, возможность выбирать технологии и влиять на бэклог
- Well-being-программы: 300 000 ₽ в год на софинансирование образования, медицины, спорта, путешествий.
Ссылка на вакансию: https://hh.ru/vacancy/92849363?hhtmFrom=employer_vacancies
Резюме присылать Кате @ktitovaa
Локация: можно полностью удаленно или из офисов в Москве/Ереване
Деньги: до 500net
Строим DeltaLake на Spark и подход DataMesh, чтобы доменные команды могли быстро и без посредников использовать данные друг друга для развития своих продуктов.
Ожидаем:
- Опыт решения сложных задач простым в поддержке и понимании кодом (ООП, SOLID, автотесты)
- Знание Python как родного, опыт промышленной разработки на статически типизированных языках C#/Java/Scala/Kotlin/C++
У нас:
- Современный Big Data стек
- Выделяем существенный ресурс (>30% времени) на уменьшение техдолга и поддержки
- Особенная культура: открытые зарплаты, право принять любое решение у каждого. Прямая обратная связь, возможность выбирать технологии и влиять на бэклог
- Well-being-программы: 300 000 ₽ в год на софинансирование образования, медицины, спорта, путешествий.
Ссылка на вакансию: https://hh.ru/vacancy/92849363?hhtmFrom=employer_vacancies
Резюме присылать Кате @ktitovaa
hh.ru
Вакансия Senior Data Engineer в Москве, работа в компании Mindbox (вакансия в архиве c 13 ноября 2024)
Зарплата: не указана. Москва. Требуемый опыт: 3–6 лет. Полная занятость. Дата публикации: 31.10.2024.
❤🔥29🗿4
Выше я просил скинуть ссылки для релокации и поиска работы за границей, вот результат:
Телеграмм Каналы
https://t.me/unipage_study_abroad/1676 образование за рубежом
https://t.me/zarubezhom_jobs - Вакансии от 200+ зарубежных компаний с русскоговорящими фаундерами или командами. Наши читатели уже получили 100+ офферов в InDrive, Revolut, Wheely, Finom и другие компании💙
https://t.me/relohub_dn - Рассказываем, консультируем и помогаем в получении ВНЖ Испании на 3 года. Связаться с нами и задать вопросы можно тут: @relohub_spain. Наш сайт: [relohub.ru](http://relohub.ru/)
@portugal_migrun Сообщество номадов, фрилансеров, IT да и просто хороших людей, в процессе эмиграции =) Задаем вопросы, делимся опытом и поддерживаем друг друга! https://app.migrun.tech/ru/portugal
@o1eb1eb2 O1 виза, EB1 EB2 NIW гринкарта
@visatalents Чат создан чтоб помогать участникам в подготовки и получения визы для релокации в том числе в США, Великобританию, Францию, Канаду и Австралию.
@relocationdev Свежие новости: как и куда уехать, где получить ВНЖ и как забрать котика с собой.
@relocate_easy ✈️Канал по эмиграции/релокации
@astonspassport Канал “Nomad”
@relocateme IT jobs with relocation assistance, international job search tips, relocation stories, and more. Official website: [https://relocate.me](https://relocate.me/).
В Барселоне IT сообщество https://t.me/bcn_ithub
Сайты
http://rusforum.ca/ - форум про Канаду и программы иммиграции
https://www.gday.ru/forum/ - форум про Австралию
Вакансии
https://www.linkedin.com/posts/appodeal_barcelona-datascientist-dataengineer-activity-7218869419664375808-H5-D если все ок, то релокация в Барселону и помощь со всем начиная с визы для высококвалифицированных специалистов и подготовки документов, заканчивая детским садом/школой и страховкой. вакансии как DE, так и DS, DA, PM
=====
Есть еще целый раздел как иммигрировать в Россию. Недавно мои знакомые в Канаде получили Российское гражданство. Мы их знаем лет 7 и все это время они хотели получить гражданство и это очень сложный процесс, но этим летом все получилось. Но к сожалению на концерт Агутина они опоздали☺️
В целом для каждой страны в каждый отдельный момент времени есть свои программы, старайтесь использовать нетворкинг, чтобы найти людей, кто прошел этот путь относительно недавно, или кто за деньги может рассказать, что нужно делать.
Например в Канаду раньше были провинциальные программы, а вот сейчас все кого я знаю переехали через учебную программу.
В Европе многие находят хорошие варианты по Digital Nomad визам в Португалии и Испании.
Телеграмм Каналы
https://t.me/unipage_study_abroad/1676 образование за рубежом
https://t.me/zarubezhom_jobs - Вакансии от 200+ зарубежных компаний с русскоговорящими фаундерами или командами. Наши читатели уже получили 100+ офферов в InDrive, Revolut, Wheely, Finom и другие компании💙
https://t.me/relohub_dn - Рассказываем, консультируем и помогаем в получении ВНЖ Испании на 3 года. Связаться с нами и задать вопросы можно тут: @relohub_spain. Наш сайт: [relohub.ru](http://relohub.ru/)
@portugal_migrun Сообщество номадов, фрилансеров, IT да и просто хороших людей, в процессе эмиграции =) Задаем вопросы, делимся опытом и поддерживаем друг друга! https://app.migrun.tech/ru/portugal
@o1eb1eb2 O1 виза, EB1 EB2 NIW гринкарта
@visatalents Чат создан чтоб помогать участникам в подготовки и получения визы для релокации в том числе в США, Великобританию, Францию, Канаду и Австралию.
@relocationdev Свежие новости: как и куда уехать, где получить ВНЖ и как забрать котика с собой.
@relocate_easy ✈️Канал по эмиграции/релокации
@astonspassport Канал “Nomad”
@relocateme IT jobs with relocation assistance, international job search tips, relocation stories, and more. Official website: [https://relocate.me](https://relocate.me/).
В Барселоне IT сообщество https://t.me/bcn_ithub
Сайты
http://rusforum.ca/ - форум про Канаду и программы иммиграции
https://www.gday.ru/forum/ - форум про Австралию
Вакансии
https://www.linkedin.com/posts/appodeal_barcelona-datascientist-dataengineer-activity-7218869419664375808-H5-D если все ок, то релокация в Барселону и помощь со всем начиная с визы для высококвалифицированных специалистов и подготовки документов, заканчивая детским садом/школой и страховкой. вакансии как DE, так и DS, DA, PM
=====
Есть еще целый раздел как иммигрировать в Россию. Недавно мои знакомые в Канаде получили Российское гражданство. Мы их знаем лет 7 и все это время они хотели получить гражданство и это очень сложный процесс, но этим летом все получилось. Но к сожалению на концерт Агутина они опоздали☺️
В целом для каждой страны в каждый отдельный момент времени есть свои программы, старайтесь использовать нетворкинг, чтобы найти людей, кто прошел этот путь относительно недавно, или кто за деньги может рассказать, что нужно делать.
Например в Канаду раньше были провинциальные программы, а вот сейчас все кого я знаю переехали через учебную программу.
В Европе многие находят хорошие варианты по Digital Nomad визам в Португалии и Испании.
❤🔥33⚡3🦄2