This media is not supported in your browser
VIEW IN TELEGRAM
В рубрике как это устроено у них Docs [1] альтернатива Notion и Outline с открытым кодом, годится для совместного написания документов и командной работы над ними. Распространяется под лицензией MIT.
У проекта много фич и он хорошо и быстро развивается, но интересно не только это.
Проект является совместной инициативой DINUM (Межминистерского цифрового директората во Франции) и ZenDiS (Zentrum Digitale Souveränität), Центр Цифрового Суверенитета при Министерстве цифры Германии.
Иначе говоря - это совместный государственный франко-германский проект по созданию аналога Notion, а также сейчас у них идет онбординг цифровой команды пр-ва Нидерландов.
У ZenDIS ещё есть продукт OpenDesk [2] по замене офисного ПО для проектной и офисной работы. И внутри него совместное написание документов как раз основано на Docs.
OpenDesk довольно новый продукт, анонсированный в октябре 2024 года, но весьма активный и его код также общедоступен [3]
И, заодно, стоит добавить что сообщество пользователей продукта они строят не как все в Slack или Discord, а в Matrix [4]. Скажу честно, куда менее удобный мессенжер, но зато не относящийся к Big tech.
Ссылки:
[1] https://github.com/suitenumerique/docs
[2] https://opendesk.eu/
[3] https://gitlab.opencode.de/bmi/opendesk/info
[4] https://matrix.to/#/#docs-official:matrix.org
#opensource #documentation #notion
У проекта много фич и он хорошо и быстро развивается, но интересно не только это.
Проект является совместной инициативой DINUM (Межминистерского цифрового директората во Франции) и ZenDiS (Zentrum Digitale Souveränität), Центр Цифрового Суверенитета при Министерстве цифры Германии.
Иначе говоря - это совместный государственный франко-германский проект по созданию аналога Notion, а также сейчас у них идет онбординг цифровой команды пр-ва Нидерландов.
У ZenDIS ещё есть продукт OpenDesk [2] по замене офисного ПО для проектной и офисной работы. И внутри него совместное написание документов как раз основано на Docs.
OpenDesk довольно новый продукт, анонсированный в октябре 2024 года, но весьма активный и его код также общедоступен [3]
И, заодно, стоит добавить что сообщество пользователей продукта они строят не как все в Slack или Discord, а в Matrix [4]. Скажу честно, куда менее удобный мессенжер, но зато не относящийся к Big tech.
Ссылки:
[1] https://github.com/suitenumerique/docs
[2] https://opendesk.eu/
[3] https://gitlab.opencode.de/bmi/opendesk/info
[4] https://matrix.to/#/#docs-official:matrix.org
#opensource #documentation #notion
Невероятный по идее и реализации геопространственный проект OpenTimes [1] в виде визуализации времени поездки на машине, велосипеде или пешком с выбором стартовой точки в виде района и далее по районам отображающий в цвете. Автор Dan Snow рассказывает подробности [2] о том как он из его создал и собрал из 300 GB файлов в несколько файлов Parquet которые хостятся в итоге на Cloudflare R2 и это обходится менее чем в $15 ежемесячно [3]. У проекта открытый исходный код [4], внутри DuckDB и Parquet файлы, Python и Javascript и много первичных данных из базы TIGER переписи населения США.
Собственно финальный объём данных около 440GB [5].
Единственный недостаток - охватывает только США, потому что только по США такие первичные данные есть.
Ссылки:
[1] https://opentimes.org/
[2] https://sno.ws/opentimes/
[3] https://opentimes.org/about/
[4] https://github.com/dfsnow/opentimes
[5] https://data.opentimes.org/
#opendata #opensource #dataviz #data
Собственно финальный объём данных около 440GB [5].
Единственный недостаток - охватывает только США, потому что только по США такие первичные данные есть.
Ссылки:
[1] https://opentimes.org/
[2] https://sno.ws/opentimes/
[3] https://opentimes.org/about/
[4] https://github.com/dfsnow/opentimes
[5] https://data.opentimes.org/
#opendata #opensource #dataviz #data
Для тех кто ещё не столкнулся, но скоро столкнётся с "атаками" AI скрейпботов на сайты, Anubis [1] [2] открытый код который помогает отбиваться от некоторых поисковых систем препятствуя любому индексированию сайта.
Почему это важно? Потому что несколько AI ботов уже нюкнули множество проектов с открытым кодом [3] и те отбиваются от них Анубисом и пытаются ещё и добиться компенсации за DDoS атаки.
Ссылки:
[1] https://github.com/TecharoHQ/anubis
[2] https://anubis.techaro.lol/
[3] https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/
#opensource #ai #scraping
Почему это важно? Потому что несколько AI ботов уже нюкнули множество проектов с открытым кодом [3] и те отбиваются от них Анубисом и пытаются ещё и добиться компенсации за DDoS атаки.
Ссылки:
[1] https://github.com/TecharoHQ/anubis
[2] https://anubis.techaro.lol/
[3] https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/
#opensource #ai #scraping
Ещё одна любопытная СУБД для аналитики GreptimeDB [1] на высоких позициях в метриках JSONBench [2] и похоже что хорошо годится для сохранения логов и как JSON хранилище.
Существует в форме открытого кода, коммерческого продукта и облака. Открытый код под лицензией Apache 2.0
Не удалось найти какой движок внутри, похоже какой-то собственный.
Продукт относительно новый, менее 2-х лет, но с венчурным финансированием в 2022 и 2023 годах.
Даже странно что он не так уж популярен.
Ссылки:
[1] https://greptime.com
[2] https://jsonbench.com
#opensource #rdbms #data #datatools
Существует в форме открытого кода, коммерческого продукта и облака. Открытый код под лицензией Apache 2.0
Не удалось найти какой движок внутри, похоже какой-то собственный.
Продукт относительно новый, менее 2-х лет, но с венчурным финансированием в 2022 и 2023 годах.
Даже странно что он не так уж популярен.
Ссылки:
[1] https://greptime.com
[2] https://jsonbench.com
#opensource #rdbms #data #datatools
В рубрике как это устроено у них publiccode.yml [1] [2] стандарт публикации открытого кода созданного за счёт государственного или местных бюджетов (public software). Изначально разработан итальянскими госразработчиками, потом преобразованный в международный стандарт.
Пока не очень популярен на Github'е, поиск находит всего 24 репозитория path:**/publiccode.yml path:/, но вполне себе находится в Google за пределами Github'а inurl:publiccode.yml -site:github.com на сайтах gitlab.com, opencode.de, code.europe.eu и различных госинсталляций Gitlab'а
Структура метаданных чем-то похожа на стандарты описания датасетов и цифровых документов.
Хорошая идея, но пока не популярная, тем не менее постепенно развивающаяся как минимум в Италии и Германии.
Ссылки:
[1] https://yml.publiccode.tools/
[2] https://github.com/publiccodeyml/publiccode.yml
#opensource #government #standards
Пока не очень популярен на Github'е, поиск находит всего 24 репозитория path:**/publiccode.yml path:/, но вполне себе находится в Google за пределами Github'а inurl:publiccode.yml -site:github.com на сайтах gitlab.com, opencode.de, code.europe.eu и различных госинсталляций Gitlab'а
Структура метаданных чем-то похожа на стандарты описания датасетов и цифровых документов.
Хорошая идея, но пока не популярная, тем не менее постепенно развивающаяся как минимум в Италии и Германии.
Ссылки:
[1] https://yml.publiccode.tools/
[2] https://github.com/publiccodeyml/publiccode.yml
#opensource #government #standards
Полезные ссылки про данные, технологии и не только:
AI & Science
- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.
Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.
Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).
Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/
#opendata #opensource #openaccess #ai #science #government #data
AI & Science
- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.
Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.
Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).
Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/
#opendata #opensource #openaccess #ai #science #government #data
GitHub
GitHub - SakanaAI/AI-Scientist: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬
The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬 - SakanaAI/AI-Scientist
Marimo [1] альтернатива Jupyter Notebook по созданию аналитических и научных тетрадок. Среди многих альтернатив отличается наличием открытого кода под лицензией Apache 2.0. Даёт некоторое число фич которых нет у Jupyter, например, встраивание UI элементов, ячейки с SQL, визуализации и ряд других фич.
Конечно, объективно, сравнивать надо не только с Jupyter, но и с Deepnote, Hex, Google Collab, но те врядли будут доступны с исходным кодом.
Ссылки:
[1] https://marimo.io
#opensource #datascience #data #datatools
Конечно, объективно, сравнивать надо не только с Jupyter, но и с Deepnote, Hex, Google Collab, но те врядли будут доступны с исходным кодом.
Ссылки:
[1] https://marimo.io
#opensource #datascience #data #datatools
В США была расформирована команда 18F [1] [2] - это была уникальная по функциям ИТ команда, работавшая в Госдепартаменте в режиме инсорсинга, а то есть они не были сотрудниками господрядчиков и имели прямые многолетние контракты. Особенность 18F была в функциях пожарной команды. Когда у них были и постоянные задачи помощи отдельным агентствам и срочные задачи когда они спасали конкретные федеральные департаменты от ИТ провалов. Например, история с 3-х дневным проектом которая спасла $500 миллионный проект Департамента обороны [2].
Вообще только очень крупные компании или гос-ва могут себе позволить такие "пожарные команды", то что Элон Маск и DOGE инициировали их роспуск было поскольку их считали слишком либеральными из-за больших усилий по комфортности работы для меньшинств и инклюзивности в работе.
В любом случае теперь этой команды нет, остался их открытый код [3], который, возможно, стоило бы заархивировать.
Ссылки:
[1] https://donmoynihan.substack.com/p/skilled-technologists-are-being-forced
[2] https://substack.com/home/post/p-158259375
[3] https://github.com/18F
#opensource #usa #18F
Вообще только очень крупные компании или гос-ва могут себе позволить такие "пожарные команды", то что Элон Маск и DOGE инициировали их роспуск было поскольку их считали слишком либеральными из-за больших усилий по комфортности работы для меньшинств и инклюзивности в работе.
В любом случае теперь этой команды нет, остался их открытый код [3], который, возможно, стоило бы заархивировать.
Ссылки:
[1] https://donmoynihan.substack.com/p/skilled-technologists-are-being-forced
[2] https://substack.com/home/post/p-158259375
[3] https://github.com/18F
#opensource #usa #18F
Substack
Skilled technologists are being forced out of government
18F and USDS are gutted by DOGE
Для тех кто работает с CSV файлами, неплохой и даже немного смешной текст A love letter to the CSV format [1] где автор рассуждает и расхваливает преимущества CSV формата для данных и аргументы его неплохи, но... лично мне недостатки не перевешивают. На его 9 пунктов я могу пару десятков пунктов написать о недостатках CSV, но плюсы тоже есть, чего уж тут скрывать. И, правильнее сказать что не один автор, а авторы, создатели утилиты xan, the CSV magician [2] для обработки CSV файлов.
Утилита эта является переписанной и переработой утилиты xsv [3] и позволяет вытворять самое разное с CSV файлами, включая визуализации, параллельную обработку, просмотр с командной строки и ещё многое другое.
Хороший инструмент, у него только один недостаток, он работает только с CSV файлами😂
Для тех кто любит командную строку и CSV формат - незаменимая штука.
Ссылки:
[1] https://github.com/medialab/xan/blob/master/docs/LOVE_LETTER.md
[2] https://github.com/medialab/xan
[3] https://github.com/BurntSushi/xsv
#opensource #data #datatools
Утилита эта является переписанной и переработой утилиты xsv [3] и позволяет вытворять самое разное с CSV файлами, включая визуализации, параллельную обработку, просмотр с командной строки и ещё многое другое.
Хороший инструмент, у него только один недостаток, он работает только с CSV файлами😂
Для тех кто любит командную строку и CSV формат - незаменимая штука.
Ссылки:
[1] https://github.com/medialab/xan/blob/master/docs/LOVE_LETTER.md
[2] https://github.com/medialab/xan
[3] https://github.com/BurntSushi/xsv
#opensource #data #datatools
Полезные ссылки про данные, технологии и не только:
- DuckDB Roadmap [1] команда DuckDB опубликовала дорожную карту. Много любопытного, обещают шифрование базы данных в будущем, поддержку парсинга XML
- FastOpenAPI [2] библиотека для Python для быстрого создания документации и схемы API по стандарту OpenAPI. Поддерживает Flask, Falcon, Starlette, Sanic и Tornado. Полезно для очень быстрого развертывания API с помощью Python.
- CSVConf [3] пройдёт в сентябре 2025 года в Болонье, Италия. Это конференция больше про сообщество чем про индустрию, там про применение данных в исследованиях и гражданском обществе. Ещё есть время подать заявку на выступление [4]
- Streamlining access to tabular datasets stored in Amazon S3 Tables with DuckDB [5] в блоге Amazon о том как настраивать хранилище файлов для прямого доступа к S3 таблицам через DuckDB.
- Unstructuted [6] open source и SaaS сервис для обработки данных через извлечение их из PDF, HTML, Word и других документов. Интересная бизнес модель, открытый код доступен, а через его же библиотеку и утилиту командной строки можно подключить аккаунт их облачного продукта и преобразовывать данные быстрее с его помощью. Такая бизнес модель аллергии не вызывает, похоже на хороший, годный продукт.
Ссылки:
[1] https://duckdb.org/docs/stable/dev/roadmap.html
[2] https://github.com/mr-fatalyst/fastopenapi
[3] https://csvconf.com/
[4] https://docs.google.com/forms/d/e/1FAIpQLSdoCI37INVkMMI3tcRLJ5dr2Lfrd86TqH_NjvhT02xoSUMYmw/viewform
[5] https://aws.amazon.com/ru/blogs/storage/streamlining-access-to-tabular-datasets-stored-in-amazon-s3-tables-with-duckdb/
[6] https://github.com/Unstructured-IO/unstructured
#opensource #data #datatools
- DuckDB Roadmap [1] команда DuckDB опубликовала дорожную карту. Много любопытного, обещают шифрование базы данных в будущем, поддержку парсинга XML
- FastOpenAPI [2] библиотека для Python для быстрого создания документации и схемы API по стандарту OpenAPI. Поддерживает Flask, Falcon, Starlette, Sanic и Tornado. Полезно для очень быстрого развертывания API с помощью Python.
- CSVConf [3] пройдёт в сентябре 2025 года в Болонье, Италия. Это конференция больше про сообщество чем про индустрию, там про применение данных в исследованиях и гражданском обществе. Ещё есть время подать заявку на выступление [4]
- Streamlining access to tabular datasets stored in Amazon S3 Tables with DuckDB [5] в блоге Amazon о том как настраивать хранилище файлов для прямого доступа к S3 таблицам через DuckDB.
- Unstructuted [6] open source и SaaS сервис для обработки данных через извлечение их из PDF, HTML, Word и других документов. Интересная бизнес модель, открытый код доступен, а через его же библиотеку и утилиту командной строки можно подключить аккаунт их облачного продукта и преобразовывать данные быстрее с его помощью. Такая бизнес модель аллергии не вызывает, похоже на хороший, годный продукт.
Ссылки:
[1] https://duckdb.org/docs/stable/dev/roadmap.html
[2] https://github.com/mr-fatalyst/fastopenapi
[3] https://csvconf.com/
[4] https://docs.google.com/forms/d/e/1FAIpQLSdoCI37INVkMMI3tcRLJ5dr2Lfrd86TqH_NjvhT02xoSUMYmw/viewform
[5] https://aws.amazon.com/ru/blogs/storage/streamlining-access-to-tabular-datasets-stored-in-amazon-s3-tables-with-duckdb/
[6] https://github.com/Unstructured-IO/unstructured
#opensource #data #datatools
DuckDB
Development Roadmap
Overview The DuckDB project is governed by the non-profit DuckDB Foundation. The Foundation and DuckDB Labs are not funded by external investors (e.g., venture capital). Instead, the Foundation is funded by contributions from its members, while DuckDB Labs'…