SiriusDB специальный движок расширяющий инструменты работы с базами данных и ускоряющий выборки из баз данных используя GPU. Реализован в виде расширения для DuckDB и занимает первую позицию в оценке по Hot run в рейтинге ClickBench.
Иначе говоря - даёт мощное ускорение выполнению SQL запросов за счет GPU процессора.
Требует для работы процессор NVIDIA и установленный CUDA.
Выглядит любопытно и соответствует тренду на то что скоро все СУБД будут проектироваться по использование графических процессоров и иных процессоров для ускорения обработки данных и запросов.
#opensource #datatools
Иначе говоря - даёт мощное ускорение выполнению SQL запросов за счет GPU процессора.
Требует для работы процессор NVIDIA и установленный CUDA.
Выглядит любопытно и соответствует тренду на то что скоро все СУБД будут проектироваться по использование графических процессоров и иных процессоров для ускорения обработки данных и запросов.
#opensource #datatools
❤5👍4
Оказывается появилось множество инструментов работы с данными через WebAssembly, когда код загружается с сервера, но исполняется локально и работа со всеми данными идет локально. Причем почти все такие инструменты на базе DuckDB.
В списке уже:
- DataKit (открытый код и сервис)
- PondPilot (открытый код и сервис)
- OpenSheet (сервис и приложение для выгрузки локально)
- Tabula Studio (сервис)
А также большая подборка инструментов в списке Awesome DuckDB
Пора делать ревизию своего аналитического инструментария, многое можно делать быстрее и удобнее теперь
#opensource #datatools
В списке уже:
- DataKit (открытый код и сервис)
- PondPilot (открытый код и сервис)
- OpenSheet (сервис и приложение для выгрузки локально)
- Tabula Studio (сервис)
А также большая подборка инструментов в списке Awesome DuckDB
Пора делать ревизию своего аналитического инструментария, многое можно делать быстрее и удобнее теперь
#opensource #datatools
pondpilot.io
PondPilot - Client-Side Data Tools
A suite of client-side data tools powered by DuckDB. Explore data and embed SQL widgets - all without uploading your data anywhere.
❤5🤔1
Prism от OpenAI - свежий их сервис по помощи исследователям в написании статей. Причем Prism помогает писать статьи сразу в LaTeX в облаке вместе с ИИ ассистентом. Фактически OpenAI одним махом сейчас поубивали десятки стартапов которые делали разные инструменты для помощи исследователям в научной работе. Собственно это главный риск у нишевых ИИ стартапов сейчас - быстрое их убийство крупняком если они чувствуют хороший потенциал в нише.
А я вот на эту тему задумался что скоро в рамках требований scientific integrity от исследователей будут требовать предоставлять протокол коммуникации с ИИ ассистентом вместе с научной работой чтобы верифицировать вклад самого исследователя и того что он не применял ИИ ассистента для подлога референсов, данных и так далее.
Впрочем Prism пока является инструментом скорее универсальным и в более узких областях больше вероятности специализированных ИИ ассистентов (физика, биоинформатика).
#ai #research #tools
А я вот на эту тему задумался что скоро в рамках требований scientific integrity от исследователей будут требовать предоставлять протокол коммуникации с ИИ ассистентом вместе с научной работой чтобы верифицировать вклад самого исследователя и того что он не применял ИИ ассистента для подлога референсов, данных и так далее.
Впрочем Prism пока является инструментом скорее универсальным и в более узких областях больше вероятности специализированных ИИ ассистентов (физика, биоинформатика).
#ai #research #tools
❤9👍4🌚1
Open Semantic Interchange (OSI) свежий индустриальный стартап описания данных в задачах дата аналитики. Подготовлен Snowflake вместе с Alation, Atlan, BlackRock, Blue Yonder, Cube, dbt Labs, Elementum AI, Hex, Honeydew, Mistral AI, Omni, RelationalAI, Salesforce, Select Star, Sigma и ThoughtSpot.
Официально опубликован он был ещё в сентябре 2025 г.
Явный акцент в нём на инструментах BI и спецификация явным образом определяет то как описывать таблицы для анализа данных и ИИ инструментов.
Чем-то он напоминает и пересекается со стандартами Frictionless Data (он про файлы), спецификацией Open Lineage, Data Description Specifications (DDS) (используется в среде IBM) и ряд других.
Новые спецификации это хорошо, насколько хороша эта поймем по мере её внедрения.
#opensource #openspecs #data
Официально опубликован он был ещё в сентябре 2025 г.
Явный акцент в нём на инструментах BI и спецификация явным образом определяет то как описывать таблицы для анализа данных и ИИ инструментов.
Чем-то он напоминает и пересекается со стандартами Frictionless Data (он про файлы), спецификацией Open Lineage, Data Description Specifications (DDS) (используется в среде IBM) и ряд других.
Новые спецификации это хорошо, насколько хороша эта поймем по мере её внедрения.
#opensource #openspecs #data
❤3👍2
Я, тем временем, накатил большой объём изменений в библиотеку iterabledata библиотеку для чтения и обработки дата файлов в итеративном режиме, например, для задач конвертации и преобразования дата файлов. Там сейчас сильно больше поддерживаемых форматов помимо изначальных CSV, JSON, JSON lines и Parquet и много добавлений которых изначально не было. Новые форматы включают TopoJSON, GeoJSON, WARC, JSON-LD и десятки других.
Например:
- возможность массового преобразования файлов операциями bulk_convert
- поддержка чтения данных из баз данных также как из файлов с поддержкой MongoDB, Elasticsearch, Postgres и Clickhouse
- улучшенная идентификация файлов по magic number, а не только по расширению
- чтение файлов с уменьшением потребления оперативной памяти через использование ijson для чтения JSON файлов без полной загрузки в память
- прямое чтение файлов из S3, Azure и GCS
- экспорт данных в датафреймы Pandas, Polars и Dask
И ещё довольно много всего. Подробно в CHANGELOG.md
Всё это пока ещё надо допроверять, поэтому это не анонс релиза, а скорее преданонс изменений. Но в целом это перенос в библиотеку функций из утилиты undatum для преобразования данных. Библиотеку кода проще вставлять в конвееры данных чем утилиту командной строки.
В общем получилась хорошая штука для преобразования данных, удобная для собственных внутренних задач и не только. Осталось доприкручивать LLM'ки для задач анализа файлов и то что нужно.
Открытый код, лицензия MIT
#opensource #datatools
Например:
- возможность массового преобразования файлов операциями bulk_convert
- поддержка чтения данных из баз данных также как из файлов с поддержкой MongoDB, Elasticsearch, Postgres и Clickhouse
- улучшенная идентификация файлов по magic number, а не только по расширению
- чтение файлов с уменьшением потребления оперативной памяти через использование ijson для чтения JSON файлов без полной загрузки в память
- прямое чтение файлов из S3, Azure и GCS
- экспорт данных в датафреймы Pandas, Polars и Dask
И ещё довольно много всего. Подробно в CHANGELOG.md
Всё это пока ещё надо допроверять, поэтому это не анонс релиза, а скорее преданонс изменений. Но в целом это перенос в библиотеку функций из утилиты undatum для преобразования данных. Библиотеку кода проще вставлять в конвееры данных чем утилиту командной строки.
В общем получилась хорошая штука для преобразования данных, удобная для собственных внутренних задач и не только. Осталось доприкручивать LLM'ки для задач анализа файлов и то что нужно.
Открытый код, лицензия MIT
#opensource #datatools
GitHub
iterabledata/README.md at main · datenoio/iterabledata
Python library to read, write and convert data files with formats BSON, JSON, NDJSON, Parquet, ORC, XLS, XLSX, XML and many others - datenoio/iterabledata
✍13❤4
Ivan Begtin pinned «Я, тем временем, накатил большой объём изменений в библиотеку iterabledata библиотеку для чтения и обработки дата файлов в итеративном режиме, например, для задач конвертации и преобразования дата файлов. Там сейчас сильно больше поддерживаемых форматов помимо…»
talk-data.com чей-то симпатичный пэт проект в дата инженерной тусовке. Автор себя явно не выпячивает, но сделал базу лекторов и выступления про данные (современные дата инженерные и дата аналитические инструменты). Там спикеров 3000 из 713 компаний по 104 событиям и по 4483 темам. Например, 98 выступлений про DuckDB или 38 выступлений про Polars
Выглядит полезно для всех кто хочет погрузиться в одну или несколько тем по данным.
#data #events
Выглядит полезно для всех кто хочет погрузиться в одну или несколько тем по данным.
#data #events
❤14✍4
В рубрике интересных наборов данных, презентация от DataCite по их интерфейсам публикации данных в индексе регистрации научных данных. Включает описание REST API, других API, годовых дампов и ежемесячных файлов с изменениями.
Дампы они публикуют на AWS в JSONL формате сжатом Gzip.
Главный минус - отсутствие ссылок на сами файлы ресурсов, главный плюс - развесистые метаданные связанные с исследователями по каждому DOI
Из-за отсутствия ссылок на ресурсы - это недостаточно полезно для Dateno.
Однако для всех кто изучает регистрацию результатов научной деятельности это будет интересно.
#opendata #datasets
Дампы они публикуют на AWS в JSONL формате сжатом Gzip.
Главный минус - отсутствие ссылок на сами файлы ресурсов, главный плюс - развесистые метаданные связанные с исследователями по каждому DOI
Из-за отсутствия ссылок на ресурсы - это недостаточно полезно для Dateno.
Однако для всех кто изучает регистрацию результатов научной деятельности это будет интересно.
#opendata #datasets
👍4✍1
Полезное чтение A lot of population numbers are fake о том что правительства некоторых стран просто не знают сколько людей там живет потому что не могут измерить и о том что спутниковые данные не спасают.
Автор описывает страны третьего мира, но есть причины полагать что и для других стран всё также неидеально с учетом проживающих там людей - где-то нелегальные мигранты, где-то не все тотально оцифрованы, где-то нецентрализованный учет умерших и родившихся, а где-то прямой централизованный подлог чисел потому что они могут показать скажем так антигуманную политику властей в отношении жителей.
Есть много причин почему цифры могут быть занижены или завышены и эта статья именно о таких случаях.
#readings #data
Автор описывает страны третьего мира, но есть причины полагать что и для других стран всё также неидеально с учетом проживающих там людей - где-то нелегальные мигранты, где-то не все тотально оцифрованы, где-то нецентрализованный учет умерших и родившихся, а где-то прямой централизованный подлог чисел потому что они могут показать скажем так антигуманную политику властей в отношении жителей.
Есть много причин почему цифры могут быть занижены или завышены и эта статья именно о таких случаях.
#readings #data
davidoks.blog
A lot of population numbers are fake
Do we have any idea how many people there are in the world?
🔥10👍3🤔1
В рубрике состояния российских открытых данных, про data.gov.ru
- число наборов данных там уменьшается, было 7 тысяч с копейками, теперь снова меньше 7 тысяч
- новостей на сайте касательно его самого нет с июля 2025 г. и теперь нет новостей даже не относящихся к нему. Для сверки - https://data.gov.ru/news
- обсуждения отсутствуют https://data.gov.ru/discussions
- многих федеральных органов власти на портале нет (пример - Минкультуры РФ), причем тех которые продолжают публиковать данные
- по другим органам власти опубликованы данные от 5 до 13 летней давности (более новых нет)
Планета Шелезяка. Полезных ископаемых нет. Воды нет. Растительности нет. (с)
#opendata #russia
- число наборов данных там уменьшается, было 7 тысяч с копейками, теперь снова меньше 7 тысяч
- новостей на сайте касательно его самого нет с июля 2025 г. и теперь нет новостей даже не относящихся к нему. Для сверки - https://data.gov.ru/news
- обсуждения отсутствуют https://data.gov.ru/discussions
- многих федеральных органов власти на портале нет (пример - Минкультуры РФ), причем тех которые продолжают публиковать данные
- по другим органам власти опубликованы данные от 5 до 13 летней давности (более новых нет)
Планета Шелезяка. Полезных ископаемых нет. Воды нет. Растительности нет. (с)
#opendata #russia
😢6🤣5💅4🍌2👏1
Полезное чтение:
- Gas town критика от Benn Stancil подхода Gas town где ИИ агенты делают работы вместе с другими ИИ агентами и управляются другими ИИ агентами. Главный аргумент в том что подход Gas Town очень выгоден ИИ бигтеху чтобы подсадить пользователей на чрезмерно дорогие ИИ решения с непонятным результатом.
- Guidelines and best practices for making government datasets ready for AI документ от UK Government Digital Service о том как публиковать данные для обучения ИИ. Документ длинный и полезный, но вообще британцы все больше отстают в системной публикации госданных.
- The software complexity of nations научная работа переносящая логику экономической сложности (economic complexity) па программное обеспечение в странах. Не то чтобы я согласен с методологией авторов исследующих репозитории на Github в контексте стран, но работа любопытная
#readings #data #ai #economics
- Gas town критика от Benn Stancil подхода Gas town где ИИ агенты делают работы вместе с другими ИИ агентами и управляются другими ИИ агентами. Главный аргумент в том что подход Gas Town очень выгоден ИИ бигтеху чтобы подсадить пользователей на чрезмерно дорогие ИИ решения с непонятным результатом.
- Guidelines and best practices for making government datasets ready for AI документ от UK Government Digital Service о том как публиковать данные для обучения ИИ. Документ длинный и полезный, но вообще британцы все больше отстают в системной публикации госданных.
- The software complexity of nations научная работа переносящая логику экономической сложности (economic complexity) па программное обеспечение в странах. Не то чтобы я согласен с методологией авторов исследующих репозитории на Github в контексте стран, но работа любопытная
#readings #data #ai #economics
Substack
Gas town
The agents are everywhere.
🔥7
Ещё полезного чтения про данные, технологии и не только:
- пост в LinkedIn руководителя проекта Open Ownership о том что зарегистрированная в Ирландии компания MariaDB PLC (коммерческая рука популярного одноименного продукта MariaDB) проводит мероприятия по поддержке создания "европейского импортозамещения" под названием "Building the European cloud with MariaDB", но конечный её владелец - это калифорнийский инвестфонд K1 Investment Management. Таких историй будет ещё немало и ждем теперь волны расследований в Евросоюзе о том сколько из денег на формирование собственной независящей от США цифровой инфраструктуры пойдет компаниям из США напрямую и через европейских дочек
- PubTables-v2: A new large-scale dataset for full-page and multi-page table extraction любопытная научная работа команды которая экспериментирует с автоматизацией распознавания и структуризации таблиц из PDF документов и с упоминанием что они планируют выгрузить в открытый доступ обновленную версию набора данных который использовали для обучения. Задача с распознаванием таблиц и их извлечением - это одна из наиболее изученных в автоматизированном визуальном анализе документов, но далеко не является законченной, особенно для языков отличных от английского
- ZeroBrew специальный инструмент под замену brew, управления пакетами в MacOS. Приводит его к виду похожему на пакет uv для Python и ускоряет, улучшает и делает более удобным работу с пакетами в MacOS. Учитывая сколь часто приходится использовать brew - это важное изменение, а сам продукт является иллюстрацией переноса логика из более современной системы управления распространением ПО на более архаичную и ещё и с тем что сделать за короткий срок с помощью ИИ ассистента (код сделан в Claude 4.5).
- ChartGPU библиотека построения графиков с открытым кодом на Typescript с использованием GPU (WebGPU) и с поддержкой больших датасетов. Из особенностей. У неё один единственный разработчик использовавший ИИ ассистента Claude Code, библиотека стремительно набрала популярности (2400+ лайков) после поста в Hacker News, похоже что её разработка заняла всего пару недель (если не меньше).
- ZXC новый алгоритм и инструмент сжатия данных с более высокой скоростью декомпрессии чем LZ4 и другим алгоритмам. Может быть интересен именно в применении к дата-файлам и внутри форматов файлов вроде Parquet, там где скорость доступа к данным важнее уровня сжатия и скорости сжатия. Показывает сильно лучшие результаты на процессорах ARM и Apple Silicon
#opensource #ai #data #readings
- пост в LinkedIn руководителя проекта Open Ownership о том что зарегистрированная в Ирландии компания MariaDB PLC (коммерческая рука популярного одноименного продукта MariaDB) проводит мероприятия по поддержке создания "европейского импортозамещения" под названием "Building the European cloud with MariaDB", но конечный её владелец - это калифорнийский инвестфонд K1 Investment Management. Таких историй будет ещё немало и ждем теперь волны расследований в Евросоюзе о том сколько из денег на формирование собственной независящей от США цифровой инфраструктуры пойдет компаниям из США напрямую и через европейских дочек
- PubTables-v2: A new large-scale dataset for full-page and multi-page table extraction любопытная научная работа команды которая экспериментирует с автоматизацией распознавания и структуризации таблиц из PDF документов и с упоминанием что они планируют выгрузить в открытый доступ обновленную версию набора данных который использовали для обучения. Задача с распознаванием таблиц и их извлечением - это одна из наиболее изученных в автоматизированном визуальном анализе документов, но далеко не является законченной, особенно для языков отличных от английского
- ZeroBrew специальный инструмент под замену brew, управления пакетами в MacOS. Приводит его к виду похожему на пакет uv для Python и ускоряет, улучшает и делает более удобным работу с пакетами в MacOS. Учитывая сколь часто приходится использовать brew - это важное изменение, а сам продукт является иллюстрацией переноса логика из более современной системы управления распространением ПО на более архаичную и ещё и с тем что сделать за короткий срок с помощью ИИ ассистента (код сделан в Claude 4.5).
- ChartGPU библиотека построения графиков с открытым кодом на Typescript с использованием GPU (WebGPU) и с поддержкой больших датасетов. Из особенностей. У неё один единственный разработчик использовавший ИИ ассистента Claude Code, библиотека стремительно набрала популярности (2400+ лайков) после поста в Hacker News, похоже что её разработка заняла всего пару недель (если не меньше).
- ZXC новый алгоритм и инструмент сжатия данных с более высокой скоростью декомпрессии чем LZ4 и другим алгоритмам. Может быть интересен именно в применении к дата-файлам и внутри форматов файлов вроде Parquet, там где скорость доступа к данным важнее уровня сжатия и скорости сжатия. Показывает сильно лучшие результаты на процессорах ARM и Apple Silicon
#opensource #ai #data #readings
Linkedin
#mariadb #fosdem26 #fosdem #beneficialownership #opensource | Stephen Abbott Pugh
Tomorrow MariaDB (one of the most popular open source relational databases) is hosting a FOSDEM side event in Brussels with a talk entitled "Building the European cloud with MariaDB" being delivered by Nextcloud https://lnkd.in/eF5G2_Ke
#MariaDB has a commercial…
#MariaDB has a commercial…
👍11
AI eats software world
Для тех кто интересуется состояние рынка софта на начало 2026 году я просто оставлю эту картинку здесь
Источник https://x.com/Speculator_io/status/2016956201884438863
#software #itmarket
Для тех кто интересуется состояние рынка софта на начало 2026 году я просто оставлю эту картинку здесь
Источник https://x.com/Speculator_io/status/2016956201884438863
#software #itmarket
🤔8😱6👍3🔥2
Разные мысли вслух, с некоторым повторением:
1. До того как произойдет AGI (если это вообще наступит) есть то что произойдет неизбежно - когда алгоритмы компьютерного зрения, анализа изображений и видео, анализа текстов, документов,радиочастотного спектра и тд. сильно превосходящее человека. Оно ИМХО уже могло бы произойти, но это может быть пугающим опытом когда это будет в потребительских устройствах или автоматизированных роботизированных платформах.
2. Когда появятся языки программирования с LLM в интерпретаторе и компиляторе, а не просто заточенные под LLM? Думаю что скоро
3. Где-то уже должен взлетать бизнес по ускоренному клонированию корпоративного ПО. Вайб кодить будут не внутри потребителей софта, а маленькие команды которые будут на заказ средних компаний клонировать продукты крупняка. Бигтехи будут защищены от этого интегрированностью продуктов и тем что они одновременно крупнейшие хостеры/ресурсопровайдеры
4. Наступит ли демократизация инструментов разрушения вместе с развитием роботизации? Умный ИИ может не атаковать инфраструктуру человечества напрямую (а ля Скайнет), а использовать прокси-террористов и анонимную коммуникацию и криптовалюту для оплаты
#thoughts
1. До того как произойдет AGI (если это вообще наступит) есть то что произойдет неизбежно - когда алгоритмы компьютерного зрения, анализа изображений и видео, анализа текстов, документов,
2. Когда появятся языки программирования с LLM в интерпретаторе и компиляторе, а не просто заточенные под LLM? Думаю что скоро
3. Где-то уже должен взлетать бизнес по ускоренному клонированию корпоративного ПО. Вайб кодить будут не внутри потребителей софта, а маленькие команды которые будут на заказ средних компаний клонировать продукты крупняка. Бигтехи будут защищены от этого интегрированностью продуктов и тем что они одновременно крупнейшие хостеры/ресурсопровайдеры
4. Наступит ли демократизация инструментов разрушения вместе с развитием роботизации? Умный ИИ может не атаковать инфраструктуру человечества напрямую (а ля Скайнет), а использовать прокси-террористов и анонимную коммуникацию и криптовалюту для оплаты
#thoughts
❤3✍3
Полезные ссылки про данные, технологии и не только:
- The Economics of the Modern Data Stack есть ощущение что сам термин Modern Data Stack уже уходит в прошлое, но тут любопытный разговор про ETL продукты с открытым кодом и про то что Matatika поглотили Meltano. Лично мне продукт Meltano нравился на каких-то ранних его стадиях когда они форкнулись из Gitlab, но дальше они как-то совсем провалили коммуникацию с сообществом. Причем я не могу понять как они такое умудрились.
- Antigravity Manager open source инструмент для управления аккаунтами для работы с Google Antigravity. Решает важную проблему с тем что работать с Antigravity с корпоративного аккаунта очень накладно и откровенно неудобно. Вообще Google сделали хороший продукт технически и весьма неудобный в части управления им. Инструмент на китайском языке почти полностью
- Inside OpenAI’s in-house data agent о том как с помощью дата агента работают с данными внутри OpenAI. Любопытны идеи, но повторять один в один такое не надо, то что могут позволить себе те у кого ресурсы не ограничены - это не для всех.
#readings #ai #data
- The Economics of the Modern Data Stack есть ощущение что сам термин Modern Data Stack уже уходит в прошлое, но тут любопытный разговор про ETL продукты с открытым кодом и про то что Matatika поглотили Meltano. Лично мне продукт Meltano нравился на каких-то ранних его стадиях когда они форкнулись из Gitlab, но дальше они как-то совсем провалили коммуникацию с сообществом. Причем я не могу понять как они такое умудрились.
- Antigravity Manager open source инструмент для управления аккаунтами для работы с Google Antigravity. Решает важную проблему с тем что работать с Antigravity с корпоративного аккаунта очень накладно и откровенно неудобно. Вообще Google сделали хороший продукт технически и весьма неудобный в части управления им. Инструмент на китайском языке почти полностью
- Inside OpenAI’s in-house data agent о том как с помощью дата агента работают с данными внутри OpenAI. Любопытны идеи, но повторять один в один такое не надо, то что могут позволить себе те у кого ресурсы не ограничены - это не для всех.
#readings #ai #data
LinkedIn
LinkedIn Login, Sign in | LinkedIn
Login to LinkedIn to keep in touch with people you know, share ideas, and build your career.
👍3❤1🔥1
Forwarded from Dateno
New at Dateno: Python SDK, MCP Server, and What’s Coming Next
We started the year with several important updates that make working with Dateno even easier — especially for data scientists, developers, and teams building AI-driven products.
Python SDK for the Dateno API
We’ve released an official Python SDK that provides a simple and convenient way to work with the Dateno API. It significantly lowers the entry barrier for data scientists and analysts for whom Python is the primary working environment, and makes it easier to integrate dataset search into notebooks, pipelines, and production workflows.
To make onboarding as smooth and effective as possible, we’ve also published practical usage examples and guides on our documentation site. These examples are designed to help users get started quickly and apply the SDK in real-world scenarios.
Dateno MCP Server for AI integrations
We’ve also launched our own MCP (Model Context Protocol) server, enabling seamless integration of Dateno’s unique dataset search into AI and LLM-based solutions. This allows AI systems to discover relevant datasets programmatically and use structured metadata as part of their reasoning and generation workflows.
What’s next
We’re actively working on new native AI features in Dateno, focused on end users.
These upcoming capabilities will make dataset discovery, exploration, and reuse even more intuitive — without requiring custom integrations.
These updates are another step toward our goal: making high-quality datasets easier to find, understand, and use — for both humans and machines.
#dateno #dataengineering
We started the year with several important updates that make working with Dateno even easier — especially for data scientists, developers, and teams building AI-driven products.
Python SDK for the Dateno API
We’ve released an official Python SDK that provides a simple and convenient way to work with the Dateno API. It significantly lowers the entry barrier for data scientists and analysts for whom Python is the primary working environment, and makes it easier to integrate dataset search into notebooks, pipelines, and production workflows.
To make onboarding as smooth and effective as possible, we’ve also published practical usage examples and guides on our documentation site. These examples are designed to help users get started quickly and apply the SDK in real-world scenarios.
Dateno MCP Server for AI integrations
We’ve also launched our own MCP (Model Context Protocol) server, enabling seamless integration of Dateno’s unique dataset search into AI and LLM-based solutions. This allows AI systems to discover relevant datasets programmatically and use structured metadata as part of their reasoning and generation workflows.
What’s next
We’re actively working on new native AI features in Dateno, focused on end users.
These upcoming capabilities will make dataset discovery, exploration, and reuse even more intuitive — without requiring custom integrations.
These updates are another step toward our goal: making high-quality datasets easier to find, understand, and use — for both humans and machines.
#dateno #dataengineering
🔥3👍2✍1
Международная неделя любви к данным пройдет с 9 по 13 февраля. Это событие чем-то похожее на дни/недели открытых данных, но с акцентом данных для исследователей и организует его межуниверситетский консорциум ICPSR
Ключевое тут в акцентах, дни открытых данных посвящены именно открытым данным, а Love data week использованию данных в научной среде, где многое про открытые данные, но далеко не все
В основном участники там - это университеты США входящие в ICPSR.
Также напомню что мероприятия Open Data Day пройдут с 7 по 13 марта, а в Нью Йорке 22-29 марта пройдет Open Data Week
Если у вас есть идеи о чем можно было бы провести Open Data Day в России и/или в Армении - напишите! Мы планируем оба этих мероприятия
#opendata #opengov #events
Ключевое тут в акцентах, дни открытых данных посвящены именно открытым данным, а Love data week использованию данных в научной среде, где многое про открытые данные, но далеко не все
В основном участники там - это университеты США входящие в ICPSR.
Также напомню что мероприятия Open Data Day пройдут с 7 по 13 марта, а в Нью Йорке 22-29 марта пройдет Open Data Week
Если у вас есть идеи о чем можно было бы провести Open Data Day в России и/или в Армении - напишите! Мы планируем оба этих мероприятия
#opendata #opengov #events
👍8
AliSQL новая СУБД с открытым кодом от Alibaba. Совместима с MySQL, внутри движок от DuckDB и есть векторный поиск.
Во первых то что MySQL это необычно в нынешнем мире захваченным PostgreSQL и использование DuckDB.
#opensource #rdbms
Во первых то что MySQL это необычно в нынешнем мире захваченным PostgreSQL и использование DuckDB.
#opensource #rdbms
👍1