Любопытный инструмент SwellDB [1] генерация таблиц и обогащение данных с помощью LLM (OpenAI) с использованием SQL или датафреймов.
Инструмент совсем свежий, малоизвестный, идущий вместе со статьями SwellDB: Dynamic Query-Driven Table Generation with Large Language Models [2] и SwellDB: GenAI-Native Query Processing via On-the-Fly Table Generation [3]
Выглядит весьма любопытно для достаточно очевидных справочных данных, такие задачи возникают регулярно.
А ещё этот инструмент поднимает вопрос о том что многие данные теперь доступны не через каталоги и реестры НСИ, а через LLM. С помощью LLM можно создавать новые каталоги данных только из созданных датасетов или вообще обходиться без них.
Ссылки:
[1] https://github.com/SwellDB/SwellDB
[2] https://dl.acm.org/doi/10.1145/3722212.3725136
[3] https://github.com/gsvic/gsvic.github.io/blob/gh-pages/papers/SwellDB_VLDB_PhD_Workshop_2025.pdf
#dataengineering #data #opensource
Инструмент совсем свежий, малоизвестный, идущий вместе со статьями SwellDB: Dynamic Query-Driven Table Generation with Large Language Models [2] и SwellDB: GenAI-Native Query Processing via On-the-Fly Table Generation [3]
Выглядит весьма любопытно для достаточно очевидных справочных данных, такие задачи возникают регулярно.
А ещё этот инструмент поднимает вопрос о том что многие данные теперь доступны не через каталоги и реестры НСИ, а через LLM. С помощью LLM можно создавать новые каталоги данных только из созданных датасетов или вообще обходиться без них.
Ссылки:
[1] https://github.com/SwellDB/SwellDB
[2] https://dl.acm.org/doi/10.1145/3722212.3725136
[3] https://github.com/gsvic/gsvic.github.io/blob/gh-pages/papers/SwellDB_VLDB_PhD_Workshop_2025.pdf
#dataengineering #data #opensource
✍8
Подборка ссылок про данные, технологии и не только:
- FastLanes новый формат для хранения данных, обещают что на 40% лучше сжатие и на 40% быстрее декодирование чем в Parquet. Доступны реализации на Python, C++ и Rust. Лицензия MIT. Вместе с кодом ссылки на 4 научные работы и пример по преобразованию CSV. Нехватает только интеграции в какой-либо движок для датафреймов или в DuckDB. Происходит из команды CWIDA которые много что интересного про базы данных делали и делают. В частности DuckDB Lab - это их спинофф, так что выглядит любопытно и, скорее всего, поддержка внутри DuckDB ожидаема.
- Parquet Content-Defined Chunking обновления в Pandas и Pyarrow для поддержки точечных изменений в Parquet файлах благодаря которым можно безболезненно дописывать данные в Parquet файлы. Перспективно в задачах преобразования данных в Parquet которые, внезапно, удешевились и вообще для использования Parquet в озерах данных. Текст в блоге Hugging Face, технический, но важный
- Three TigerData Engineers Told Us the Truth About MCP – Security Is Its Achilles Heel анализ работы MCP серверов и их высокой небезопасности в большинстве реализаций. Стоит почитать прежде чем делать свой MCP экспорт
- How to build data platforms электронная книга от команды Dagster'а о том как строить свои дата платформы. Высылают если заполнить форму. Документ полезный для всех кто планирует делать свою инфраструктуру данных, условно, с нуля.
P.S. Напоминаю что мы ищем ещё одного дата инженера в команду Dateno https://t.me/datenosearch/13, писать можно и нужно на dateno@dateno.io
- FastLanes новый формат для хранения данных, обещают что на 40% лучше сжатие и на 40% быстрее декодирование чем в Parquet. Доступны реализации на Python, C++ и Rust. Лицензия MIT. Вместе с кодом ссылки на 4 научные работы и пример по преобразованию CSV. Нехватает только интеграции в какой-либо движок для датафреймов или в DuckDB. Происходит из команды CWIDA которые много что интересного про базы данных делали и делают. В частности DuckDB Lab - это их спинофф, так что выглядит любопытно и, скорее всего, поддержка внутри DuckDB ожидаема.
- Parquet Content-Defined Chunking обновления в Pandas и Pyarrow для поддержки точечных изменений в Parquet файлах благодаря которым можно безболезненно дописывать данные в Parquet файлы. Перспективно в задачах преобразования данных в Parquet которые, внезапно, удешевились и вообще для использования Parquet в озерах данных. Текст в блоге Hugging Face, технический, но важный
- Three TigerData Engineers Told Us the Truth About MCP – Security Is Its Achilles Heel анализ работы MCP серверов и их высокой небезопасности в большинстве реализаций. Стоит почитать прежде чем делать свой MCP экспорт
- How to build data platforms электронная книга от команды Dagster'а о том как строить свои дата платформы. Высылают если заполнить форму. Документ полезный для всех кто планирует делать свою инфраструктуру данных, условно, с нуля.
P.S. Напоминаю что мы ищем ещё одного дата инженера в команду Dateno https://t.me/datenosearch/13, писать можно и нужно на dateno@dateno.io
GitHub
GitHub - cwida/FastLanes: Next-Gen Big Data File Format
Next-Gen Big Data File Format. Contribute to cwida/FastLanes development by creating an account on GitHub.
🔥6👍2✍1❤1
В качестве регулярных напоминаний, несколько лет назад я делал библиотеку для Python под названием newsworker по автоматическому извлечению новостей из веб-страниц вместо RSS лент, она всё ещё работает и актуальна.
Когда я её создавал у меня была большая идея в создания новостного агрегатора с сайтов которые RSS ленты не экспортировали, к примеру, это более половины сайтов госорганов и госучреждений. Ключевое было в том чтобы не писать парсеры для каждого сайта, а чтобы было достаточно скормить анализатору ссылку и он уже сам бы нашёл блоки с новостями, понял бы какие ссылки там есть, идентифицировал бы даты и новостные блоки и создавал бы новостную ленту из которой можно было бы сконструировать RSS/ATOM ленту что называется low code, без усилий.
Для той же цели я создавал ещё одну библиотеку qddate которая умеет определять даты написанные 300+ способами, на разных языках и форматах. Собственно newsworker извлекал из веб страницы тексты, находил даты, анализировал компоновку веб страницы, идентифицировал заголовок, текст, ссылки, дату и сохранял результаты. qddate писалась довольно нестандартно, вместо регулярных выражений там применялись шаблоны pyparsing и жёстко вкодированные якоря для быстрого отсева нерелевантных текстов. Самое трудоёмкое, собственно, было именно в идентификации дат.
Хотя я давно эту библиотеку newsworker не обновлял, задачи по созданию агрегатора давно отпали, но код всё ещё работает и для тех кто решает подобные задачи она может пригодится.
Возможно, сейчас можно было бы пойти путём автоматизированного вайб кодинга и натравливать LLM на каждую такую страницу, и LLM может сделать индивидуальные парсеры, но... старые подходы тоже работают и, возможно, не хуже, а то и лучше. это
Общая концепция вокруг этого всего у меня была в восприятии любого веб-ресурса как базы данных. Автоматический интеллектуальный скрейпинг условно любого контента. С новостями это было проще всего, это было, в принципе, решаемо.
#opensource #data #datatools
Когда я её создавал у меня была большая идея в создания новостного агрегатора с сайтов которые RSS ленты не экспортировали, к примеру, это более половины сайтов госорганов и госучреждений. Ключевое было в том чтобы не писать парсеры для каждого сайта, а чтобы было достаточно скормить анализатору ссылку и он уже сам бы нашёл блоки с новостями, понял бы какие ссылки там есть, идентифицировал бы даты и новостные блоки и создавал бы новостную ленту из которой можно было бы сконструировать RSS/ATOM ленту что называется low code, без усилий.
Для той же цели я создавал ещё одну библиотеку qddate которая умеет определять даты написанные 300+ способами, на разных языках и форматах. Собственно newsworker извлекал из веб страницы тексты, находил даты, анализировал компоновку веб страницы, идентифицировал заголовок, текст, ссылки, дату и сохранял результаты. qddate писалась довольно нестандартно, вместо регулярных выражений там применялись шаблоны pyparsing и жёстко вкодированные якоря для быстрого отсева нерелевантных текстов. Самое трудоёмкое, собственно, было именно в идентификации дат.
Хотя я давно эту библиотеку newsworker не обновлял, задачи по созданию агрегатора давно отпали, но код всё ещё работает и для тех кто решает подобные задачи она может пригодится.
Возможно, сейчас можно было бы пойти путём автоматизированного вайб кодинга и натравливать LLM на каждую такую страницу, и LLM может сделать индивидуальные парсеры, но... старые подходы тоже работают и, возможно, не хуже, а то и лучше. это
Общая концепция вокруг этого всего у меня была в восприятии любого веб-ресурса как базы данных. Автоматический интеллектуальный скрейпинг условно любого контента. С новостями это было проще всего, это было, в принципе, решаемо.
#opensource #data #datatools
🔥11💯1
А вот вам ещё цифры про портал открытых данных РФ data.gov.ru, вернее цифры про то чего там нет
В процессе архивации госсайтов РФ за 2025 год у меня на архивном сервере сейчас лежит около 1.1ТБ сжатых WARC файлов собранных с 73 госсайтов федеральных органов и их региональных подразделений.
Так вот цифры из этих архивов:
- 28 466 файлов с данными в форматах CSV, XLS и XLSX опубликовано на этих сайтах
- 22ГБ общий объём этих файлов
- большая часть файлов - это разного рода реестры с юр. лицами и ИП, а также статистика
- многие данные также внутри PDF/DOC/DOCX документов, особенно на сайтах Росстата и его терр управлений, они извлекаемы
- не все эти данные мусор, как раз там есть вполне используемые данные
И всё это не считая файлов с данными внутри ZIP и RAR архивов которых тоже немало.
Думаю что дальше всё понятно что я мог бы сказать про data.gov.ru 😉
#opendata #digitalpreservation
В процессе архивации госсайтов РФ за 2025 год у меня на архивном сервере сейчас лежит около 1.1ТБ сжатых WARC файлов собранных с 73 госсайтов федеральных органов и их региональных подразделений.
Так вот цифры из этих архивов:
- 28 466 файлов с данными в форматах CSV, XLS и XLSX опубликовано на этих сайтах
- 22ГБ общий объём этих файлов
- большая часть файлов - это разного рода реестры с юр. лицами и ИП, а также статистика
- многие данные также внутри PDF/DOC/DOCX документов, особенно на сайтах Росстата и его терр управлений, они извлекаемы
- не все эти данные мусор, как раз там есть вполне используемые данные
И всё это не считая файлов с данными внутри ZIP и RAR архивов которых тоже немало.
Думаю что дальше всё понятно что я мог бы сказать про data.gov.ru 😉
#opendata #digitalpreservation
✍9🤔1🌚1
Свежий план Правительства Китая по развитию ИИ, для тех кому лень читать его на китайском языке, вот краткие тезисы
—
1️⃣ ИИ — для всех:
Развиваем технологии вместе — от государств до граждан. В фокусе — устойчивое развитие и решение глобальных задач.
2️⃣ Поддержка инноваций:
Создаём международные платформы, снижаем барьеры, делимся опытом и находим прорывы вместе.
3️⃣ ИИ в каждую отрасль:
Промышленность, медицина, образование, агро — ИИ должен приносить пользу повсюду.
4️⃣ Цифровая инфраструктура:
Сети, дата-центры, вычислительные мощности — особенно для стран Глобального Юга. Без базы — нет прогресса.
5️⃣ Открытая экосистема:
Поддержка open source, совместимость систем, доступ к разработкам для всех. Без монополий.
6️⃣ Данные — топливо ИИ:
Безопасный и законный обмен данными. Качество, разнообразие, защита приватности.
7️⃣ Зелёный ИИ:
Энергоэффективные алгоритмы и оборудование. ИИ не должен вредить планете.
8️⃣ Общие стандарты:
Согласованные международные нормы: безопасность, этика, прозрачность.
9️⃣ Государства — пример:
Госуслуги с ИИ — быстрее, точнее, прозрачнее. Но с уважением к правам и приватности.
🔟 Безопасность прежде всего:
Анализ рисков, защита от злоупотреблений, объяснимость и контроль.
1️⃣1️⃣ Выполнение цифрового договора ООН:
Справедливое цифровое будущее — без цифрового неравенства.
1️⃣2️⃣ Образование и потенциал:
Учимся и учим: от лабораторий до курсов для всех. Особое внимание — женщинам и детям.
1️⃣3️⃣ Управление для всех:
ИИ — это не только дело корпораций. Все голоса должны быть услышаны: учёные, госслужбы, бизнес, общество.
—
В целом же что план Китая, что план США, оба про глобальную экспансию нынешних "ИИ сверхдержав".
Можно обратить внимание что все стратегии упоминают открытый код
#ai #china #data
—
1️⃣ ИИ — для всех:
Развиваем технологии вместе — от государств до граждан. В фокусе — устойчивое развитие и решение глобальных задач.
2️⃣ Поддержка инноваций:
Создаём международные платформы, снижаем барьеры, делимся опытом и находим прорывы вместе.
3️⃣ ИИ в каждую отрасль:
Промышленность, медицина, образование, агро — ИИ должен приносить пользу повсюду.
4️⃣ Цифровая инфраструктура:
Сети, дата-центры, вычислительные мощности — особенно для стран Глобального Юга. Без базы — нет прогресса.
5️⃣ Открытая экосистема:
Поддержка open source, совместимость систем, доступ к разработкам для всех. Без монополий.
6️⃣ Данные — топливо ИИ:
Безопасный и законный обмен данными. Качество, разнообразие, защита приватности.
7️⃣ Зелёный ИИ:
Энергоэффективные алгоритмы и оборудование. ИИ не должен вредить планете.
8️⃣ Общие стандарты:
Согласованные международные нормы: безопасность, этика, прозрачность.
9️⃣ Государства — пример:
Госуслуги с ИИ — быстрее, точнее, прозрачнее. Но с уважением к правам и приватности.
🔟 Безопасность прежде всего:
Анализ рисков, защита от злоупотреблений, объяснимость и контроль.
1️⃣1️⃣ Выполнение цифрового договора ООН:
Справедливое цифровое будущее — без цифрового неравенства.
1️⃣2️⃣ Образование и потенциал:
Учимся и учим: от лабораторий до курсов для всех. Особое внимание — женщинам и детям.
1️⃣3️⃣ Управление для всех:
ИИ — это не только дело корпораций. Все голоса должны быть услышаны: учёные, госслужбы, бизнес, общество.
—
В целом же что план Китая, что план США, оба про глобальную экспансию нынешних "ИИ сверхдержав".
Можно обратить внимание что все стратегии упоминают открытый код
#ai #china #data
www.mfa.gov.cn
重要新闻_中华人民共和国外交部
人工智能全球治理行动计划(全文)
🔥10👍3❤1👏1
В продолжение про Китай и про данные в Китае
📊 Национальный доклад о данных Китая (2024)
Кратко — в цифрах и фактах:
📦 Производство данных
▪️ Общий объём: 41.06 ZB (+25%)
▪️ На душу населения: 31.31 TB
🗄 Хранение
▪️ Всего: 2.09 ZB (+20.81%)
▪️ Использование хранилищ: 61%
▪️ Структурированные данные: +36% (доля — 18.7%)
⚙️ Вычислительные мощности
▪️ Общая: 280 EFLOPS
▪️ Из них ИИ-мощности: 90 EFLOPS (32%)
▪️ У госкомпаний — рост в 3 раза
🏛 Публичные данные
▪️ Платформы открытых данных: +7.5%
▪️ Объем открытых данных: +7.1%
▪️ Вызовы к госданным: 5400+ млрд
▪️ 60% регионов запустили авторизованное управление
🏢 Бизнес и ИИ
▪️ 66% лидеров рынка покупают данные
▪️ Активные данные: 62% от всего хранения
▪️ ИИ-сервисы: +238
▪️ Компании с ИИ: +36%
▪️ Большие модели: +57%
▪️ Качественные датасеты: +27%
🌍 Где больше всего данных?
▪️ Топ-6 провинций: 57.45% от всех данных
▪️ Лидеры по ИИ: Пекин, Шанхай, Чжэцзян
▪️ Топ-отрасли: промышленность, финансы, логистика
🔮 Прогноз на 2025
▪️ Производство данных превысит 50 ZB
▪️ Растёт доля синтетических и ИИ-данных
▪️ Формируется рынок доверенных пространств данных
▪️ Данные = полноценный актив, как нефть
—
Первоисточник NATIONAL DATA RESOURCE SURVEY REPORT (2024), опубликован в апреле 2025 г.
#opendata #data #china #ai #regulation
📊 Национальный доклад о данных Китая (2024)
Кратко — в цифрах и фактах:
📦 Производство данных
▪️ Общий объём: 41.06 ZB (+25%)
▪️ На душу населения: 31.31 TB
🗄 Хранение
▪️ Всего: 2.09 ZB (+20.81%)
▪️ Использование хранилищ: 61%
▪️ Структурированные данные: +36% (доля — 18.7%)
⚙️ Вычислительные мощности
▪️ Общая: 280 EFLOPS
▪️ Из них ИИ-мощности: 90 EFLOPS (32%)
▪️ У госкомпаний — рост в 3 раза
🏛 Публичные данные
▪️ Платформы открытых данных: +7.5%
▪️ Объем открытых данных: +7.1%
▪️ Вызовы к госданным: 5400+ млрд
▪️ 60% регионов запустили авторизованное управление
🏢 Бизнес и ИИ
▪️ 66% лидеров рынка покупают данные
▪️ Активные данные: 62% от всего хранения
▪️ ИИ-сервисы: +238
▪️ Компании с ИИ: +36%
▪️ Большие модели: +57%
▪️ Качественные датасеты: +27%
🌍 Где больше всего данных?
▪️ Топ-6 провинций: 57.45% от всех данных
▪️ Лидеры по ИИ: Пекин, Шанхай, Чжэцзян
▪️ Топ-отрасли: промышленность, финансы, логистика
🔮 Прогноз на 2025
▪️ Производство данных превысит 50 ZB
▪️ Растёт доля синтетических и ИИ-данных
▪️ Формируется рынок доверенных пространств данных
▪️ Данные = полноценный актив, как нефть
—
Первоисточник NATIONAL DATA RESOURCE SURVEY REPORT (2024), опубликован в апреле 2025 г.
#opendata #data #china #ai #regulation
👍11❤3
В рубрике как это устроено у них портал открытых данных провинции Гуандоу (Китай) gddata.gd.gov.cn содержит более 98 тысяч наборов данных и более 6700 API для доступа к данным провинции, всех государственных департаментов и всех муниципалитетов. Портал позиционируется скорее не как портал открытых данных, а как "открытая платформа индустриальных данных". В отличие от порталов и каталогов данных в других странах здесь нет открытых лицензий и данные доступны только после регистрации и верификации пользователей (нужен аккаунт WeChat или другой способ идентификации и подтверждения жизни в Китае или связи с ним).
На самом деле там, конечно же, есть недокументированное API и эти требования условны, но тем не менее.
Данные опубликованы в форматах CSV, RDF, JSON, XML, XLSX, XLS. Часто в один набор данных входят файлы в разных форматах с одним содержанием.
Население провинции Гуандоу более 120 миллионов человек что позволяет сранивать её в с РФ, её номинальный ВВП и ППС тоже сравнимы с РФ, так что можно увидеть как публикуют данные на территории сравнимой по населению и экономике (не по размеру, конечно).
Всё это помимо других проектов в Гуандоу, таких как Shenzhen Data Exchange и Canton Data Exchange которые не про открытые данные, а про рынок данных и торговлю ими.
Несмотря на отсутствие центрального портала открытых данных в Китае порталы данных есть у почти каждой провинции и у них сильный уклон на API доступа к данным реального времени и данных о городской инфраструктуре.
#opendata #china #datasets
На самом деле там, конечно же, есть недокументированное API и эти требования условны, но тем не менее.
Данные опубликованы в форматах CSV, RDF, JSON, XML, XLSX, XLS. Часто в один набор данных входят файлы в разных форматах с одним содержанием.
Население провинции Гуандоу более 120 миллионов человек что позволяет сранивать её в с РФ, её номинальный ВВП и ППС тоже сравнимы с РФ, так что можно увидеть как публикуют данные на территории сравнимой по населению и экономике (не по размеру, конечно).
Всё это помимо других проектов в Гуандоу, таких как Shenzhen Data Exchange и Canton Data Exchange которые не про открытые данные, а про рынок данных и торговлю ими.
Несмотря на отсутствие центрального портала открытых данных в Китае порталы данных есть у почти каждой провинции и у них сильный уклон на API доступа к данным реального времени и данных о городской инфраструктуре.
#opendata #china #datasets
✍6❤3⚡2❤🔥1
В рубрике как это устроено у них национальный портал открытых данных Литвы data.gov.lt
Включает 2702 набора данных от 508 организаций, общий объём данных в статистике не упоминается, но я бы исходил что там от десятков до сотен гигабайт поскольку довольно много данных большого объёма, датасеты, условно, от 1ГБ.
111 наборов данных - это данные высокой ценности в определении Евросоюза.
Некоторые полезные факты из их презентации:
- Литовская статслужба была реорганизована как государственное Агентство данных
- до создания портала специальная команда из 70 (!) человек в режиме полной занятости проводили инвентаризацию государственных и муниципальных данных
- не просто сделали портал, но под ним находится национальное озеро данных
- в 2025 году сдвинули приоритет на качество данных и данные особой ценности
Жаль нет их открытых методик по инвентаризации данных, подозреваю что там есть много чему поучится можно было бы.
У меня несколько лет назад был гайдлайн по инвентаризации госданных, он годится не только к открытым данным, но открытие данных после инвентаризации - это важная задача.
#opendata #datasets #lithuania
Включает 2702 набора данных от 508 организаций, общий объём данных в статистике не упоминается, но я бы исходил что там от десятков до сотен гигабайт поскольку довольно много данных большого объёма, датасеты, условно, от 1ГБ.
111 наборов данных - это данные высокой ценности в определении Евросоюза.
Некоторые полезные факты из их презентации:
- Литовская статслужба была реорганизована как государственное Агентство данных
- до создания портала специальная команда из 70 (!) человек в режиме полной занятости проводили инвентаризацию государственных и муниципальных данных
- не просто сделали портал, но под ним находится национальное озеро данных
- в 2025 году сдвинули приоритет на качество данных и данные особой ценности
Жаль нет их открытых методик по инвентаризации данных, подозреваю что там есть много чему поучится можно было бы.
У меня несколько лет назад был гайдлайн по инвентаризации госданных, он годится не только к открытым данным, но открытие данных после инвентаризации - это важная задача.
#opendata #datasets #lithuania
✍5
begtin_inventory_v03.pdf
1.1 MB
Для тех кто интересуется инвентаризацией именно открытых данных вот тут моя презентация от 2020 года. Это облегчённая версия для обучения госслужащих этой работе, полную версию, увы, я опубликовать не могу, ибо она делалась для конкретной академической структуры (там это больше не преподаю, если что), а с этой версией я даже выступал на каких-то мероприятиях
По большей части она актуально, хотя какое-то количество изменений уже накопилось.
#data #presentations #datainventory #opendata
По большей части она актуально, хотя какое-то количество изменений уже накопилось.
#data #presentations #datainventory #opendata
❤6✍5👍1
Ни к чему не призываю, ничего не предлагаю, просто интересуюсь (с)
Исключительно в познавательных целях вопрос, РКН ведь ещё не начали блокировать протокол SSH и SSH туннели? И заблокировать не смогут поскольку полностью похоронят всю разработку и системное администрирование в Рунете?
#ятолькоспросить
Исключительно в познавательных целях вопрос, РКН ведь ещё не начали блокировать протокол SSH и SSH туннели? И заблокировать не смогут поскольку полностью похоронят всю разработку и системное администрирование в Рунете?
#ятолькоспросить
😁12😐5👍2✍1
На национальном портале открытых данных Норвегии заменили строку поиска на запросы к ИИ где можно написать что ищете и получить подборку ссылок. Внутри там pgvector + LangChain + Google Vertex AI. Выглядит неплохо, но и не хорошо, люди чаще ищут конкретные данные (значений), а не датасеты и от ИИ поиска ожидают именно этого. В любом случае это какая-никакая инновация, уж точно значимее чем "хихикающий ИИ помощник" на портале data.gov.ru.
#opendata #ai #search
#opendata #ai #search
👍10🗿3❤1
Результаты Stack Overflow Annual Developer Survey за 2025 год.
Я выделил те блоки которые касаются баз данных и LLM. Как всегда обращаю внимание на DuckDB в базах данных, сейчас это самый популярный движок для OLAP.
Но, конечно, с оговорками что основная аудитория опроса StackOverflow - это фуллстаки, бэкэндеры и студенты. А дата инженеров, AI/ML инженеров и дата сайентистов там менее 5%.
#it #surveys
Я выделил те блоки которые касаются баз данных и LLM. Как всегда обращаю внимание на DuckDB в базах данных, сейчас это самый популярный движок для OLAP.
Но, конечно, с оговорками что основная аудитория опроса StackOverflow - это фуллстаки, бэкэндеры и студенты. А дата инженеров, AI/ML инженеров и дата сайентистов там менее 5%.
#it #surveys
👍6🔥3❤1