Forwarded from Dateno
New at Dateno: Python SDK, MCP Server, and What’s Coming Next
We started the year with several important updates that make working with Dateno even easier — especially for data scientists, developers, and teams building AI-driven products.
Python SDK for the Dateno API
We’ve released an official Python SDK that provides a simple and convenient way to work with the Dateno API. It significantly lowers the entry barrier for data scientists and analysts for whom Python is the primary working environment, and makes it easier to integrate dataset search into notebooks, pipelines, and production workflows.
To make onboarding as smooth and effective as possible, we’ve also published practical usage examples and guides on our documentation site. These examples are designed to help users get started quickly and apply the SDK in real-world scenarios.
Dateno MCP Server for AI integrations
We’ve also launched our own MCP (Model Context Protocol) server, enabling seamless integration of Dateno’s unique dataset search into AI and LLM-based solutions. This allows AI systems to discover relevant datasets programmatically and use structured metadata as part of their reasoning and generation workflows.
What’s next
We’re actively working on new native AI features in Dateno, focused on end users.
These upcoming capabilities will make dataset discovery, exploration, and reuse even more intuitive — without requiring custom integrations.
These updates are another step toward our goal: making high-quality datasets easier to find, understand, and use — for both humans and machines.
#dateno #dataengineering
We started the year with several important updates that make working with Dateno even easier — especially for data scientists, developers, and teams building AI-driven products.
Python SDK for the Dateno API
We’ve released an official Python SDK that provides a simple and convenient way to work with the Dateno API. It significantly lowers the entry barrier for data scientists and analysts for whom Python is the primary working environment, and makes it easier to integrate dataset search into notebooks, pipelines, and production workflows.
To make onboarding as smooth and effective as possible, we’ve also published practical usage examples and guides on our documentation site. These examples are designed to help users get started quickly and apply the SDK in real-world scenarios.
Dateno MCP Server for AI integrations
We’ve also launched our own MCP (Model Context Protocol) server, enabling seamless integration of Dateno’s unique dataset search into AI and LLM-based solutions. This allows AI systems to discover relevant datasets programmatically and use structured metadata as part of their reasoning and generation workflows.
What’s next
We’re actively working on new native AI features in Dateno, focused on end users.
These upcoming capabilities will make dataset discovery, exploration, and reuse even more intuitive — without requiring custom integrations.
These updates are another step toward our goal: making high-quality datasets easier to find, understand, and use — for both humans and machines.
#dateno #dataengineering
🔥4👍2✍1
Международная неделя любви к данным пройдет с 9 по 13 февраля. Это событие чем-то похожее на дни/недели открытых данных, но с акцентом данных для исследователей и организует его межуниверситетский консорциум ICPSR
Ключевое тут в акцентах, дни открытых данных посвящены именно открытым данным, а Love data week использованию данных в научной среде, где многое про открытые данные, но далеко не все
В основном участники там - это университеты США входящие в ICPSR.
Также напомню что мероприятия Open Data Day пройдут с 7 по 13 марта, а в Нью Йорке 22-29 марта пройдет Open Data Week
Если у вас есть идеи о чем можно было бы провести Open Data Day в России и/или в Армении - напишите! Мы планируем оба этих мероприятия
#opendata #opengov #events
Ключевое тут в акцентах, дни открытых данных посвящены именно открытым данным, а Love data week использованию данных в научной среде, где многое про открытые данные, но далеко не все
В основном участники там - это университеты США входящие в ICPSR.
Также напомню что мероприятия Open Data Day пройдут с 7 по 13 марта, а в Нью Йорке 22-29 марта пройдет Open Data Week
Если у вас есть идеи о чем можно было бы провести Open Data Day в России и/или в Армении - напишите! Мы планируем оба этих мероприятия
#opendata #opengov #events
👍10🔥2
AliSQL новая СУБД с открытым кодом от Alibaba. Совместима с MySQL, внутри движок от DuckDB и есть векторный поиск.
Во первых то что MySQL это необычно в нынешнем мире захваченным PostgreSQL и использование DuckDB.
#opensource #rdbms
Во первых то что MySQL это необычно в нынешнем мире захваченным PostgreSQL и использование DuckDB.
#opensource #rdbms
👍1
ecosystem.ckan.org - свежий реестр каталогов открытых данных на базе CKAN, всего 695 сайтов построенных на CKAN и на которых публикуются открытые данные. Создано компанией datHere в рамках научного гранта POSE в США выданного на создание экосистемы открытого ПО.
До него в сообществе было еще несколько попыток такой систематизации. Есть Datashades.info от Link Digital, которые довольно халтурно следят за достоверностью и полнотой реестра и также сделали фокус на расширения для CKAN (CKAN - это опенсорсный продукт с большим числом расширений), а до этого был dataportals.org тоже уже устаревший реестр не только порталов на базе CKAN, но и других порталов открытых данных, а ещё был ныне не работающий Open Data Monitor www.opendatamonitor.eu
Попыток мониторинга порталов открытых данных было много, каждая новая делается чуть ли не с нуля.
И тут не могу не напомнить что в реестре каталогов данных Dateno dateno.io/registry чуть менее 13 тысяч порталов и каталогов открытых данных, каталогов геоданных, баз статистических индикаторов и научных репозиториев данных. Сам реестр открыт и распространяется как открытый набор данных.
#opendata #datacatalogs #ckan
До него в сообществе было еще несколько попыток такой систематизации. Есть Datashades.info от Link Digital, которые довольно халтурно следят за достоверностью и полнотой реестра и также сделали фокус на расширения для CKAN (CKAN - это опенсорсный продукт с большим числом расширений), а до этого был dataportals.org тоже уже устаревший реестр не только порталов на базе CKAN, но и других порталов открытых данных, а ещё был ныне не работающий Open Data Monitor www.opendatamonitor.eu
Попыток мониторинга порталов открытых данных было много, каждая новая делается чуть ли не с нуля.
И тут не могу не напомнить что в реестре каталогов данных Dateno dateno.io/registry чуть менее 13 тысяч порталов и каталогов открытых данных, каталогов геоданных, баз статистических индикаторов и научных репозиториев данных. Сам реестр открыт и распространяется как открытый набор данных.
#opendata #datacatalogs #ckan
✍4
Давно хочу написать про пуризм в определениях и бесконечные терминологические споры. Значительное число споров вокруг данных и многое в ИТ связано в тем что терминология это то чем очень любят манипулировать пиарщики и маркетологи придавая продвигаемым продуктам свойства схожие с продуктами обладающие ценностными характеристиками, но при этом де-факто ими не обладающие.
Самое популярное искажение вокруг открытого кода. Открытый код - это общедоступный исходный код публикуемый под свободными лицензиями такими как MIT, Apache, BSD и им подобные. Слово открытый, в данном случае, говорит не о том что код можно посмотреть, а о том что он может свободно использоваться в том числе в коммерческих целях.
Но для многих компаний открытость кода - это маркетинговая манипуляция. Они придумывают термины вроде open core, двойное лицензирование и так далее. Всё это делает их продукты не открытым кодом, а кодом доступным онлайн, но лицензии несвободны. Или же есть случаи когда код декларируется как открытый и под свободной лицензией, но доступ к нему можно получить только по запросу. Это тоже не открытый код, чтобы там не говорили те кто пишет что он таков.
С открытыми данными такая же ситуация. Они доступны не по запросу, не после регистрации, не имеют ограничения на коммерческое использование. Принципы открытых данных для того и разрабатывались чтобы создать юридически значимую процедуру публикации данных для их повторного использования. Ожидаемо многие эксплуатируют термин для того чтобы притворяться что они относятся к открытости, сами данные не публикуя. Данные не под свободными лицензиями открытыми не являются, данные доступные по запросу также, их называют данными с регламентированным доступом. Open Data Institute называет их данными в Public Access или Group Based Access. Это нормально если кто-то не хочет давать данные как открытые, но не надо никого обманывать и называть открытыми данными то что таким не является.
Термин большие данные вообще является маркетинговым, он был придуман для продажи инструментов для работы с данными которые достаточно велики чтобы с ними было неудобно работать на десктопе. Его применение довольно широко, определение весьма условно и сейчас, в 2026 году, им пользуются, в основном, те кто не имеет отношения к дата инженерии, data science и тд. В профессиональном обиходе его уже нет, используют его те кто, или оторван от рынка данных, или пытаются напихнуть buzzword'ов в свою речь. Разговоры в стиле мы используем большие данные быстро выдают непрофессионала.
В России часто придумывание новых терминов происходит как оборонительная тактика при защите бюджета. Упоминая одни термины можно оказаться в ситуации что они относятся к сфере которая уже регламентирована или к теме у которой есть владелец и при придумывании новых госпрограмм и госпроектов немало усилий придумщики тратян на то чтобы избежать использования одних терминов и использовать новые.
А с какими терминологическими искажениями вы сталкиваетесь? Что с ними делаете?
#opendata #opensource #thoughts #questions
Самое популярное искажение вокруг открытого кода. Открытый код - это общедоступный исходный код публикуемый под свободными лицензиями такими как MIT, Apache, BSD и им подобные. Слово открытый, в данном случае, говорит не о том что код можно посмотреть, а о том что он может свободно использоваться в том числе в коммерческих целях.
Но для многих компаний открытость кода - это маркетинговая манипуляция. Они придумывают термины вроде open core, двойное лицензирование и так далее. Всё это делает их продукты не открытым кодом, а кодом доступным онлайн, но лицензии несвободны. Или же есть случаи когда код декларируется как открытый и под свободной лицензией, но доступ к нему можно получить только по запросу. Это тоже не открытый код, чтобы там не говорили те кто пишет что он таков.
С открытыми данными такая же ситуация. Они доступны не по запросу, не после регистрации, не имеют ограничения на коммерческое использование. Принципы открытых данных для того и разрабатывались чтобы создать юридически значимую процедуру публикации данных для их повторного использования. Ожидаемо многие эксплуатируют термин для того чтобы притворяться что они относятся к открытости, сами данные не публикуя. Данные не под свободными лицензиями открытыми не являются, данные доступные по запросу также, их называют данными с регламентированным доступом. Open Data Institute называет их данными в Public Access или Group Based Access. Это нормально если кто-то не хочет давать данные как открытые, но не надо никого обманывать и называть открытыми данными то что таким не является.
Термин большие данные вообще является маркетинговым, он был придуман для продажи инструментов для работы с данными которые достаточно велики чтобы с ними было неудобно работать на десктопе. Его применение довольно широко, определение весьма условно и сейчас, в 2026 году, им пользуются, в основном, те кто не имеет отношения к дата инженерии, data science и тд. В профессиональном обиходе его уже нет, используют его те кто, или оторван от рынка данных, или пытаются напихнуть buzzword'ов в свою речь. Разговоры в стиле мы используем большие данные быстро выдают непрофессионала.
В России часто придумывание новых терминов происходит как оборонительная тактика при защите бюджета. Упоминая одни термины можно оказаться в ситуации что они относятся к сфере которая уже регламентирована или к теме у которой есть владелец и при придумывании новых госпрограмм и госпроектов немало усилий придумщики тратян на то чтобы избежать использования одних терминов и использовать новые.
А с какими терминологическими искажениями вы сталкиваетесь? Что с ними делаете?
#opendata #opensource #thoughts #questions
The ODI
The Data Spectrum
Discover the Data Spectrum and how it can help you understand the language of data, from close, to shared, to open.
👍11🔥2👏2💯2❤🔥1❤1