Полезные ссылки про данные технологии и не только:
- Graph Databases after 15 Years – Where Are They Headed? [1] автор рассказывает об эволюции графовых баз данных и главный вывод что они стали очень нишевыми и в упадке, кроме очень узких применений.
- Keep Canvases Moving with DuckDB on the Server [2] count.io, сервис онлайн BI внедрили DuckDB для выполнения серверных запросов. Результаты в немедленном сокращении стоимости их выполнения.
- Polars Cloud; the distributed Cloud Architecture to run Polars anywhere [3] команда Polars запустила облачный сервис со своим продуктом, пока в режиме раннего доступа. Обещают масштабирование датафреймов и тд. Главное чтобы их открытый продукт при этом не пострадал или не оказался под какой-нибудь не совсем открытой лицензией.
- What Is a Flat File? [4] обзор текстовых форматов распространения файлов, поверхностный, но полезный для начинающих.
- Mistral OCR [5] переводчик PDF файлов в файлы Markdown от команды создателей Mistral AI. Говорят сами про себя что они лучшие в этом деле, но проверить пока не проверял.
- Aider is AI pair programming in your terminal [6] инструмент для подключения ИИ к написанию кода, умеет подключаться ко множеству моделей включая локальные. В том числе примеры по работе с данными [7]
Ссылки:
[1] https://www.youtube.com/watch?v=X_RFo616M_U
[2] https://count.co/blog/announcing-duckdb-on-the-server
[3] https://pola.rs/posts/polars-cloud-what-we-are-building/
[4] https://evidence.dev/blog/what-is-a-flat-file
[5] https://mistral.ai/news/mistral-ocr
[6] https://aider.chat/
[7] https://aider.chat/examples/census.html
#opensource #ai #data #datatools #rdbms
- Graph Databases after 15 Years – Where Are They Headed? [1] автор рассказывает об эволюции графовых баз данных и главный вывод что они стали очень нишевыми и в упадке, кроме очень узких применений.
- Keep Canvases Moving with DuckDB on the Server [2] count.io, сервис онлайн BI внедрили DuckDB для выполнения серверных запросов. Результаты в немедленном сокращении стоимости их выполнения.
- Polars Cloud; the distributed Cloud Architecture to run Polars anywhere [3] команда Polars запустила облачный сервис со своим продуктом, пока в режиме раннего доступа. Обещают масштабирование датафреймов и тд. Главное чтобы их открытый продукт при этом не пострадал или не оказался под какой-нибудь не совсем открытой лицензией.
- What Is a Flat File? [4] обзор текстовых форматов распространения файлов, поверхностный, но полезный для начинающих.
- Mistral OCR [5] переводчик PDF файлов в файлы Markdown от команды создателей Mistral AI. Говорят сами про себя что они лучшие в этом деле, но проверить пока не проверял.
- Aider is AI pair programming in your terminal [6] инструмент для подключения ИИ к написанию кода, умеет подключаться ко множеству моделей включая локальные. В том числе примеры по работе с данными [7]
Ссылки:
[1] https://www.youtube.com/watch?v=X_RFo616M_U
[2] https://count.co/blog/announcing-duckdb-on-the-server
[3] https://pola.rs/posts/polars-cloud-what-we-are-building/
[4] https://evidence.dev/blog/what-is-a-flat-file
[5] https://mistral.ai/news/mistral-ocr
[6] https://aider.chat/
[7] https://aider.chat/examples/census.html
#opensource #ai #data #datatools #rdbms
YouTube
Graph Databases after 15 Years – Where Are They Headed?
Speaker: Gábor Szárnyas (LDBC)
Event: Data Analytics developer room at FOSDEM 2025
Talk page: https://fosdem.org/2025/schedule/track/analytics/
Slides: https://szarnyasg.org/talks/fosdem-2025-graph-databases-szarnyasg.pdf
Event: Data Analytics developer room at FOSDEM 2025
Talk page: https://fosdem.org/2025/schedule/track/analytics/
Slides: https://szarnyasg.org/talks/fosdem-2025-graph-databases-szarnyasg.pdf
Общественная инициатива/сайт для отслеживания продвижения администрацией трампа инициатив из Project 2025 [1] это такая консервативная программа реформ меняющая структуру и принципы федерального пр-ва США. Там есть как очень системные, так и очень конкретные инициативы, про них можно почитать тут [2] и тут [3].
Сама инициатива по отслеживанию очень простая, нейтральная и понятная. Посмотреть на сайт стоит людям любых убеждений, лично мне для полноты счастья не хватает открытого кода и открытых данных, но есть таблица которую авторы сделали в Google Sheets [4] и там можно многое увидеть в структурированном виде.
Подробнее можно почитать в блоге автора [5]
Ссылки:
[1] https://www.project2025.observer
[2] https://www.project2025.org/
[3] https://en.wikipedia.org/wiki/Project_2025
[4] https://docs.google.com/spreadsheets/d/1QGG6wNHna-1tt91yXNkOauAJJ7snobFjfEnmxlmzhl4/edit?gid=0#gid=0
[5] https://keeptrack.substack.com/p/project-2025-tracker-is-now-live
#politics #data #trump #usa
Сама инициатива по отслеживанию очень простая, нейтральная и понятная. Посмотреть на сайт стоит людям любых убеждений, лично мне для полноты счастья не хватает открытого кода и открытых данных, но есть таблица которую авторы сделали в Google Sheets [4] и там можно многое увидеть в структурированном виде.
Подробнее можно почитать в блоге автора [5]
Ссылки:
[1] https://www.project2025.observer
[2] https://www.project2025.org/
[3] https://en.wikipedia.org/wiki/Project_2025
[4] https://docs.google.com/spreadsheets/d/1QGG6wNHna-1tt91yXNkOauAJJ7snobFjfEnmxlmzhl4/edit?gid=0#gid=0
[5] https://keeptrack.substack.com/p/project-2025-tracker-is-now-live
#politics #data #trump #usa
В рубрике как это устроено у них Суверенное Технологическое Агентство Германии ( Sovereign Tech Agency) [1] специализированное агентство при The Federal Agency for Disruptive Innovation при Правительстве страны со специализацией на поддержке проектов с открытым кодом. Причём поддерживают они не просто раздачей грантовых средств, а то что можно назвать системной поддержкой сообщества.
У агентства действует четыре программы:
- Sovereign Tech Fund - фонд распределяющий грантовые программы на продукты с открытым кодом
- Sovereign Tech Resilience - целевая программа повышения надёжности открытого кода (финансирование исправления ошибок, общей инфраструктуры и тд.)
- Sovereign Tech Fellowship - на русский язык сложно правильно перевести слово fellowship, так что это программа фэллоушипа для разработчиков открытого кода когда их, по сути, берут на работу для того чтобы они 100% занимались только открытым кодом по своим проектам
- Sovereign Tech Challenge - программа целевых конкурсов для разработчиков открытого ПО
Почему это важно? Потому что кроме просто открытого кода общего назначения агентство финансировало и финансирует проекты связанные с данными. Например, curl получил поддержку в 195 тысяч евро в 2022 и 2023 года [2] потому что curl - это инструменты выгрузки данных;) Это более всего похоже на то что пара человек работала над проектом фуллтайм 2 года. А в 2025 и 2026 году агентство будет финансировать команду OpenStreetMap на сумму в 384 тысячи евро [3].
Ограничение агентства в том что они финансирует только заявки от организаций и разработчиков находящихся в Германии, зато это именно финансирование общественного блага именно в той форме которая не вызывает вопросов.
Ссылки:
[1] https://www.sovereign.tech
[2] https://www.sovereign.tech/tech/curl
[3] https://www.sovereign.tech/tech/openstreetmap
#opensource #data #germany
У агентства действует четыре программы:
- Sovereign Tech Fund - фонд распределяющий грантовые программы на продукты с открытым кодом
- Sovereign Tech Resilience - целевая программа повышения надёжности открытого кода (финансирование исправления ошибок, общей инфраструктуры и тд.)
- Sovereign Tech Fellowship - на русский язык сложно правильно перевести слово fellowship, так что это программа фэллоушипа для разработчиков открытого кода когда их, по сути, берут на работу для того чтобы они 100% занимались только открытым кодом по своим проектам
- Sovereign Tech Challenge - программа целевых конкурсов для разработчиков открытого ПО
Почему это важно? Потому что кроме просто открытого кода общего назначения агентство финансировало и финансирует проекты связанные с данными. Например, curl получил поддержку в 195 тысяч евро в 2022 и 2023 года [2] потому что curl - это инструменты выгрузки данных;) Это более всего похоже на то что пара человек работала над проектом фуллтайм 2 года. А в 2025 и 2026 году агентство будет финансировать команду OpenStreetMap на сумму в 384 тысячи евро [3].
Ограничение агентства в том что они финансирует только заявки от организаций и разработчиков находящихся в Германии, зато это именно финансирование общественного блага именно в той форме которая не вызывает вопросов.
Ссылки:
[1] https://www.sovereign.tech
[2] https://www.sovereign.tech/tech/curl
[3] https://www.sovereign.tech/tech/openstreetmap
#opensource #data #germany
Sovereign Tech Agency
Home | Sovereign Tech Agency
Investing in the infrastructure of the 21st century
Полезные ссылки про данные, технологии и не только:
- The data validation landscape in 2025 [1] обзор библиотек для языка Python по проверке данных, охватывает только open source, без SaaS зависимостей типа Soda, но с перечислением альтернатив для great expectations. Полезно всем кто пишет тесты по проверке датасетов.
- Cutting-edge web scraping techniques workshop at NICAR 2025 [2] лонгрид/обзор/материал семинара по продвинутым техникам скрейпинга сайтов, включая использование LLM, GitHub Actions, Google AI Studio и других. Автор Simon Wilson хорошо известный многим дата журналистам, автор проекта Datasette
- NVIDIA-Ingest: Multi-modal data extraction [3] ускоренное извлечение метаданных из офисных документов и pdf с помощью сервисов NDIVIA. Не пробовал ещё, но потенциально важная штука для ускорения таких задач
- Defog Introspect: Deep Research for your internal data [4] выглядит как интересный пока ещё не продукт, но демо по исследованию датасетов и PDF файлов как структурированных источников, использует несколько внешних LLM.
- Introducing the New OpenAIRE Graph API: Enhanced functionalities and real-world applications [5] у проекта поисковика/агрегатора Евросоюза по научным результатам (статьи, данные, записи в базах и тд) появилось новое графовое API. Обещают представить его 3 апреля.
- Updating the Beneficial Ownership Data Standard RDF vocabulary to help linked data users [6] обновлённый стандарт публикации данных о конечных владельцах компаний, на сей раз для тех кто хочет использовать эти данные как связанные данные.
Ссылки:
[1] https://aeturrell.com/blog/posts/the-data-validation-landscape-in-2025/
[2] https://github.com/simonw/nicar-2025-scraping/
[3] https://github.com/NVIDIA/nv-ingest
[4] https://github.com/defog-ai/introspect
[5] https://www.openaire.eu/eventdetail/1427/introducing-the-new-openaire-graph-api-enhanced-functionalities-and-real-world-applications
[6] https://www.openownership.org/en/blog/updating-the-beneficial-ownership-data-standard-rdf-vocabulary-to-help-linked-data-users/
#opendata #linkeddat #opensource #webscraping #dataquality #openaire #openaccess
- The data validation landscape in 2025 [1] обзор библиотек для языка Python по проверке данных, охватывает только open source, без SaaS зависимостей типа Soda, но с перечислением альтернатив для great expectations. Полезно всем кто пишет тесты по проверке датасетов.
- Cutting-edge web scraping techniques workshop at NICAR 2025 [2] лонгрид/обзор/материал семинара по продвинутым техникам скрейпинга сайтов, включая использование LLM, GitHub Actions, Google AI Studio и других. Автор Simon Wilson хорошо известный многим дата журналистам, автор проекта Datasette
- NVIDIA-Ingest: Multi-modal data extraction [3] ускоренное извлечение метаданных из офисных документов и pdf с помощью сервисов NDIVIA. Не пробовал ещё, но потенциально важная штука для ускорения таких задач
- Defog Introspect: Deep Research for your internal data [4] выглядит как интересный пока ещё не продукт, но демо по исследованию датасетов и PDF файлов как структурированных источников, использует несколько внешних LLM.
- Introducing the New OpenAIRE Graph API: Enhanced functionalities and real-world applications [5] у проекта поисковика/агрегатора Евросоюза по научным результатам (статьи, данные, записи в базах и тд) появилось новое графовое API. Обещают представить его 3 апреля.
- Updating the Beneficial Ownership Data Standard RDF vocabulary to help linked data users [6] обновлённый стандарт публикации данных о конечных владельцах компаний, на сей раз для тех кто хочет использовать эти данные как связанные данные.
Ссылки:
[1] https://aeturrell.com/blog/posts/the-data-validation-landscape-in-2025/
[2] https://github.com/simonw/nicar-2025-scraping/
[3] https://github.com/NVIDIA/nv-ingest
[4] https://github.com/defog-ai/introspect
[5] https://www.openaire.eu/eventdetail/1427/introducing-the-new-openaire-graph-api-enhanced-functionalities-and-real-world-applications
[6] https://www.openownership.org/en/blog/updating-the-beneficial-ownership-data-standard-rdf-vocabulary-to-help-linked-data-users/
#opendata #linkeddat #opensource #webscraping #dataquality #openaire #openaccess
Arthur Turrell
Arthur Turrell is an economic data scientist.
Буду краток, давно хотел завести рубрику "без комментариев". И вот оно, казалось бы причём тут данные, но на чём-то же этого бота обучали.
Взято отсюда.
#nocomments #russia
Взято отсюда.
#nocomments #russia
DuckDB выпустили UI интерфейс к базе данных [1] с открытым кодом (встроено в клиентское приложение DuckDB начиная с версии 1.2.11).
Запустить его можно командой duckdb -ui в командной строке и работать словно с тетрадками Jupyter Notebook или инструментами вроде OpenRefine.
Для тех кто сталкивается с задачами вроде Exploratory data analysis (EDA), когда вручную анализируешь данные, инструмент будет бесценен.
Сам UI сделан через расширение DuckDB компанией MotherDuck и поэтому включает авторизацию в их облачный сервис, что, впрочем, не мешает использовать его только локально.
Исходный код на C++ и JS доступен под лицензией MIT [2], при желании можно форкнуть и создать интерфейс с собственными плюшками, командной работе, авторизацией через другие сервисы и тд. А можно доработать его и сделать полноценную замену OpenRefine, к примеру.
Полезная штука по всем параметрам.
Ссылки:
[1] https://duckdb.org/2025/03/12/duckdb-ui
[2] https://github.com/duckdb/duckdb-ui
#opensource #duckdb #ui #data #datatools
Запустить его можно командой duckdb -ui в командной строке и работать словно с тетрадками Jupyter Notebook или инструментами вроде OpenRefine.
Для тех кто сталкивается с задачами вроде Exploratory data analysis (EDA), когда вручную анализируешь данные, инструмент будет бесценен.
Сам UI сделан через расширение DuckDB компанией MotherDuck и поэтому включает авторизацию в их облачный сервис, что, впрочем, не мешает использовать его только локально.
Исходный код на C++ и JS доступен под лицензией MIT [2], при желании можно форкнуть и создать интерфейс с собственными плюшками, командной работе, авторизацией через другие сервисы и тд. А можно доработать его и сделать полноценную замену OpenRefine, к примеру.
Полезная штука по всем параметрам.
Ссылки:
[1] https://duckdb.org/2025/03/12/duckdb-ui
[2] https://github.com/duckdb/duckdb-ui
#opensource #duckdb #ui #data #datatools
В рубрике интересных открытых данных StanDat - International Standards Database [1] коллекция наборов данных и база данных по международным стандартам, представлено в разных разрезах, доступно для скачивания. Все данных из International Standardization Organization (ISO) представленные в виде таблиц, но без текстов самих стандартов, только метаданные и статистика. Полезно для тех кто отслеживает международную стандартизацию.
Лицензию и открытый код найти не удалось.
Ссылки:
[1] https://shiny.uio.no/standat/
#opendata #datasets #standards
Лицензию и открытый код найти не удалось.
Ссылки:
[1] https://shiny.uio.no/standat/
#opendata #datasets #standards
SQLRooms [1] свежий инструмент с открытым кодом в жанре "BI для небогатых". Под капотом DuckDB-WASM, снаружи приложение на React. Позволяет строить разные интерактивные дашборды, с графиками и без, с AI и без. Самое главное что небольшими усилиями. Не no-code, но ближе к low-code.
У них симпатичный пример аналитики через LLM [2] и много других примеров. В живых примерах также интересно посмотреть на Flowmap City [3] и Cosmograph [4].
Для участников хакатонов будет особенно полезно, можно быстро сделать красивую визуализацию.
Открытый код и лицензия MIT.
Ссылки:
[1] https://sqlrooms.org
[2] https://sqlrooms-ai.netlify.app/
[3] https://www.flowmap.city/
[4] https://cosmograph.app/
#opensource #duckdb #data #dataviz #datatools
У них симпатичный пример аналитики через LLM [2] и много других примеров. В живых примерах также интересно посмотреть на Flowmap City [3] и Cosmograph [4].
Для участников хакатонов будет особенно полезно, можно быстро сделать красивую визуализацию.
Открытый код и лицензия MIT.
Ссылки:
[1] https://sqlrooms.org
[2] https://sqlrooms-ai.netlify.app/
[3] https://www.flowmap.city/
[4] https://cosmograph.app/
#opensource #duckdb #data #dataviz #datatools
Для тех кто любит историю и работает с данными и цифровыми проектами ORBIS [1] интерактивная динамическая модель расчёта времени передвижения по дорогам Римской Империи.
За проектом большая работа по расчёту дистанций, оценке времени передвижения в зависимости от вида транспорта, сезона и многого другого. И всё это нанесено на карту и сделано в форме инструмента расчёта и визуализации.
Проекту много лет, более 12, его код доступен [2], правда, подозреваю что в текущей форме там всё надо было бы переделывать. Там же в репозитории есть и данные, всё под лицензией MIT.
Ссылки:
[1] https://orbis.stanford.edu
[2] https://github.com/emeeks/orbis_v2
#opendata #opensource #history #digitalhumanities #romanempire
За проектом большая работа по расчёту дистанций, оценке времени передвижения в зависимости от вида транспорта, сезона и многого другого. И всё это нанесено на карту и сделано в форме инструмента расчёта и визуализации.
Проекту много лет, более 12, его код доступен [2], правда, подозреваю что в текущей форме там всё надо было бы переделывать. Там же в репозитории есть и данные, всё под лицензией MIT.
Ссылки:
[1] https://orbis.stanford.edu
[2] https://github.com/emeeks/orbis_v2
#opendata #opensource #history #digitalhumanities #romanempire
Оказывается ещё в октябре прошлого года в США появился новый Стратегический план Национальной инфраструктуры геопространственных данных (NSDI) на 2025-2035 годы [1]. Кроме всего прочего там, ожидаемо, есть разделы посвящённые публикации датасетов, открытым данным, маркетплейсам геоданных и так далее. А общая установка на то что геоданные должны быть открыты для всех пользователей. Ну и сам план стал более универсальным и 10летним, предыдущие планы были на 5 и на 3 года.
Одно из главных отличий от предыдущего стратегического плана [2] в отсутствии упоминания конкретных платформ/продуктов. Например, в прошлой версии плана на 2021-2025 годы явным образом заявлялось развитие портала Geoplatform.gov, сейчас он не упоминается явным образом.
Важно помнить что кроме обновлённой стратегии NSDI с 2018 года в США действует Geospatial Data Act of 2018 (GDA) согласно которому органы власти публикуют собственные геопространственные стратегии [4].
На что ещё можно обратить внимание в новой стратегии? На большое число упоминаемых областей применения, от цифровых двойников городов до автономного транспорта.
Все эти примеры - это ответ на вопрос о том зачем нужны качественные открытые геоданные.
Ссылки:
[1] https://www.fgdc.gov/nsdi-plan/NSDI2035
[2] https://www.fgdc.gov/nsdi-plan/nsdi-strategic-plan-2021-2024.pdf
[3] https://www.fgdc.gov/gda
[4] https://www.fgdc.gov/gda/most-recent-gda-covered-agency-plans-and-reports
#opendata #policy #geodata #usa #strategies #government
Одно из главных отличий от предыдущего стратегического плана [2] в отсутствии упоминания конкретных платформ/продуктов. Например, в прошлой версии плана на 2021-2025 годы явным образом заявлялось развитие портала Geoplatform.gov, сейчас он не упоминается явным образом.
Важно помнить что кроме обновлённой стратегии NSDI с 2018 года в США действует Geospatial Data Act of 2018 (GDA) согласно которому органы власти публикуют собственные геопространственные стратегии [4].
На что ещё можно обратить внимание в новой стратегии? На большое число упоминаемых областей применения, от цифровых двойников городов до автономного транспорта.
Все эти примеры - это ответ на вопрос о том зачем нужны качественные открытые геоданные.
Ссылки:
[1] https://www.fgdc.gov/nsdi-plan/NSDI2035
[2] https://www.fgdc.gov/nsdi-plan/nsdi-strategic-plan-2021-2024.pdf
[3] https://www.fgdc.gov/gda
[4] https://www.fgdc.gov/gda/most-recent-gda-covered-agency-plans-and-reports
#opendata #policy #geodata #usa #strategies #government
В контексте цифровой архивации большой вопрос для меня лично, надо ли архивировать ресурсы Радио Свобода и Голос Америки и других недавно закрытых институтов и НКО?
Довод против - почти наверняка их должны архивировать многочисленные инициативы по архивации в США. Вокруг тех же научных и климатических данных там сейчас больше десятка инициативных групп. И тот же Интернет Архив наверняка их архивирует, хотя и вряд ли целиком.
Довод за - это значимые ресурсы, вне зависимости от политических убеждений кого бы то ни было и есть вероятность что даже если это проекты с финансированием в США, маловероятно что там основные заинтересованные в его сохранении.
Есть над чем подумать, но долго думать не получится, высока вероятность скорого закрытия.
P.S. А я напомню что мы ведём проект Национального цифрового архива ruarxive.org и у него есть свой телеграм канал
#digitalpreservation #webarchives
Довод против - почти наверняка их должны архивировать многочисленные инициативы по архивации в США. Вокруг тех же научных и климатических данных там сейчас больше десятка инициативных групп. И тот же Интернет Архив наверняка их архивирует, хотя и вряд ли целиком.
Довод за - это значимые ресурсы, вне зависимости от политических убеждений кого бы то ни было и есть вероятность что даже если это проекты с финансированием в США, маловероятно что там основные заинтересованные в его сохранении.
Есть над чем подумать, но долго думать не получится, высока вероятность скорого закрытия.
P.S. А я напомню что мы ведём проект Национального цифрового архива ruarxive.org и у него есть свой телеграм канал
#digitalpreservation #webarchives
Telegram
Национальный цифровой архив
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Прекрасный инструмент по визуализации климатических расходов в США [1] с отображением и поиске по карте и по почтовому индексу (что, кстати, отличная идея) чтобы можно было найти расходы рядом со своим домом.
Инструмент интерактивный и отражает расходы на $300 миллиардов, собранные из разных наборов данных. Всего более 73 тысяч проектов.
А также доступны код и документация [2]
Ссылки:
[1] https://grist.org/accountability/climate-infrastructure-ira-bil-map-tool/
[2] https://github.com/Grist-Data-Desk/ira-tracker
#usa #spending #datasets #climate #dataviz
Инструмент интерактивный и отражает расходы на $300 миллиардов, собранные из разных наборов данных. Всего более 73 тысяч проектов.
А также доступны код и документация [2]
Ссылки:
[1] https://grist.org/accountability/climate-infrastructure-ira-bil-map-tool/
[2] https://github.com/Grist-Data-Desk/ira-tracker
#usa #spending #datasets #climate #dataviz
Полезные ссылки про данные, технологии и не только:
- czkawka [1] утилита удаления дублирующихся файлов, музыки, видео и иных файлов. Полезна всем кто работает с большими личными архивами. Слово польское, произносится как чавка, переводится как икота. Называть программы телесными и душевными состояниями звучит как начало хорошего тренда, кто подхватит?
- glance [2] персональная читалка RSS и других новостей, open source и self hosted. Давно не пользовался подобным, но актуально для многих.
- coreutils [3] утилиты GNU переписанные на Rust. Просто уже массовое какое-то явление, перепиши это на Rust. Я лично не против, может быть даже они работают лучше.
- audaris.ai [4] в этот раз не открытый код, а стартап по превращению статей в подкасты. не первый раз вижу их на сайтах некоторых СМИ и сама идея мне нравится. Поддерживают всего 10 языков, так что тут есть пространство для их конкурентов. Подкидываю идею, анализировать книги с помощью AI, идентифицировать персонажи и диалоги и делать их озвучивание наиболее близкими к персонажам голосами, разными.
- Research Handbook on Open Government [5] - научное руководство по открытости гос-ва, полезная книжка, но открыта лишь частично, остальное за деньги. Про научные подходы к исследованию этой темы, важно для тех кто исследует тематику госуправления.
- Lacuna Fund [6] один из немногих фондов выдающий гранты на создание датасетов для ИИ, но... только для стран Юга. Грантовая программа за 2024 год закончена, но на сайте много датасетов, в основном африканских стран. Может быть туда можно подаваться из стран Центральной Азии и Армении? Может быть
- Fair Forward [7] германская государственная программа поддержки открытости (данных, кода, моделей для ИИ) для развивающихся стран. Они же финансируют, в том числе, Lacuna Fund
Ссылки:
[1] https://github.com/qarmin/czkawka
[2] https://github.com/glanceapp/glance
[3] https://github.com/uutils/coreutils
[4] https://www.adauris.ai/
[5] https://www.elgaronline.com/edcollbook/book/9781035301652/9781035301652.xml
[6] https://lacunafund.org
[7] https://www.bmz-digital.global/en/overview-of-initiatives/fair-forward/
#opendata #opensource #startups #ai #books #readings
- czkawka [1] утилита удаления дублирующихся файлов, музыки, видео и иных файлов. Полезна всем кто работает с большими личными архивами. Слово польское, произносится как чавка, переводится как икота. Называть программы телесными и душевными состояниями звучит как начало хорошего тренда, кто подхватит?
- glance [2] персональная читалка RSS и других новостей, open source и self hosted. Давно не пользовался подобным, но актуально для многих.
- coreutils [3] утилиты GNU переписанные на Rust. Просто уже массовое какое-то явление, перепиши это на Rust. Я лично не против, может быть даже они работают лучше.
- audaris.ai [4] в этот раз не открытый код, а стартап по превращению статей в подкасты. не первый раз вижу их на сайтах некоторых СМИ и сама идея мне нравится. Поддерживают всего 10 языков, так что тут есть пространство для их конкурентов. Подкидываю идею, анализировать книги с помощью AI, идентифицировать персонажи и диалоги и делать их озвучивание наиболее близкими к персонажам голосами, разными.
- Research Handbook on Open Government [5] - научное руководство по открытости гос-ва, полезная книжка, но открыта лишь частично, остальное за деньги. Про научные подходы к исследованию этой темы, важно для тех кто исследует тематику госуправления.
- Lacuna Fund [6] один из немногих фондов выдающий гранты на создание датасетов для ИИ, но... только для стран Юга. Грантовая программа за 2024 год закончена, но на сайте много датасетов, в основном африканских стран. Может быть туда можно подаваться из стран Центральной Азии и Армении? Может быть
- Fair Forward [7] германская государственная программа поддержки открытости (данных, кода, моделей для ИИ) для развивающихся стран. Они же финансируют, в том числе, Lacuna Fund
Ссылки:
[1] https://github.com/qarmin/czkawka
[2] https://github.com/glanceapp/glance
[3] https://github.com/uutils/coreutils
[4] https://www.adauris.ai/
[5] https://www.elgaronline.com/edcollbook/book/9781035301652/9781035301652.xml
[6] https://lacunafund.org
[7] https://www.bmz-digital.global/en/overview-of-initiatives/fair-forward/
#opendata #opensource #startups #ai #books #readings
GitHub
GitHub - qarmin/czkawka: Multi functional app to find duplicates, empty folders, similar images etc.
Multi functional app to find duplicates, empty folders, similar images etc. - qarmin/czkawka
Вакансия для тех кто ищет работу в области дата инженерии https://hh.ru/vacancy/118444436, но не в кровавом энтерпрайзе, а в общественных и научных проектах. Уметь строить конвееры данных обязательно, опыт не должен быть нулевым, но когда есть чему поучиться. Работа с общедоступными данными, их сбор, обработка и автоматизация и наблюдаемость этого всего.
#vacancy #dataengineering
#vacancy #dataengineering
hh.ru
Вакансия Data Engineer (Инженер данных (миддл) в Москве, работа в компании АНО Инфокультура
Зарплата: от 100000 до 150000 ₽ за месяц. Москва. Требуемый опыт: 3–6 лет. Полная. Дата публикации: 17.03.2025.
Ivan Begtin pinned «Вакансия для тех кто ищет работу в области дата инженерии https://hh.ru/vacancy/118444436, но не в кровавом энтерпрайзе, а в общественных и научных проектах. Уметь строить конвееры данных обязательно, опыт не должен быть нулевым, но когда есть чему поучиться.…»
В Евросоюзе множество крупных и средних компаний написали открытое письмо о необходимости "суверинизации ИТ" [1] с предложением создать «Суверенный инфраструктурный фонд» и странам ЕС сфокусироваться на локальных решениях для всей ИТ инфраструктуры. Триггером послужили речь вице-президента США Вэнса, санкции против Международного уголовного суда и всё более острое осознание зависимости бизнеса и органов власти в Европе от бигтехов, а бигтехи давно уже стали синонимом США.
Ничего не напоминает? Например, то как в РФ развивалось импортозамещение и "суверенизация ИТ".
Очевидная проблема в том что ЕС гораздо сильнее интегрирована с США экономически и технологически. Бигтехи доминируют в ЕС поскольку европейское регулирование не могло допустить аналогичного масштаба компаний внутри самого союза и поскольку всегда предлагали лучшие услуги за меньшие деньги чем местные компании.
Пусть экономисты считают во сколько может обойтись такой развод ЕС с США, мой прогноз - дорого. В любом случае если по этому пути всё пойдет то мир станет разнообразнее, что само по себе уже неплохо.
Ссылки:
[1] https://techcrunch.com/2025/03/16/european-tech-industry-coalition-calls-for-radical-action-on-digital-sovereignty-starting-with-buying-local/
#eu #usa #policy #it
Ничего не напоминает? Например, то как в РФ развивалось импортозамещение и "суверенизация ИТ".
Очевидная проблема в том что ЕС гораздо сильнее интегрирована с США экономически и технологически. Бигтехи доминируют в ЕС поскольку европейское регулирование не могло допустить аналогичного масштаба компаний внутри самого союза и поскольку всегда предлагали лучшие услуги за меньшие деньги чем местные компании.
Пусть экономисты считают во сколько может обойтись такой развод ЕС с США, мой прогноз - дорого. В любом случае если по этому пути всё пойдет то мир станет разнообразнее, что само по себе уже неплохо.
Ссылки:
[1] https://techcrunch.com/2025/03/16/european-tech-industry-coalition-calls-for-radical-action-on-digital-sovereignty-starting-with-buying-local/
#eu #usa #policy #it
TechCrunch
European tech industry coalition calls for 'radical action' on digital sovereignty — starting with buying local | TechCrunch
A broad coalition drawn from across the ranks of Europe's tech industry is calling for "radical action" from European Union lawmakers to shrink reliance
В рубрике интересных проектов на данных мексиканский проект Oja a las sanctiones [1] (Глаз на санкции) в виде онлайн поисковика и базы данных мексиканских компаний под местными и американскими санкциями.
В Мексике есть свои реестры недобросовестных юридических лиц и есть компании под санкциями США, в основном за связь с поставками наркотиков и картелями.
Всего 13+ тысяч организаций.
Открытые данные пока не отдают, но обещают делать это в будущем.
Вообще же крупнейший и хорошо организованный открытый ресурс с открытыми данными по санкциям в мире - это OpenSanctions [2], но крупнейший не значит что он полон. Например, мексиканских реестров компаний однодневок и компаний уличённых в незаконной деятельности там нет.
Ссылки:
[1] https://ojosanciones.sociedad.info/
[2] https://www.opensanctions.org/
#opendata #sanctions
В Мексике есть свои реестры недобросовестных юридических лиц и есть компании под санкциями США, в основном за связь с поставками наркотиков и картелями.
Всего 13+ тысяч организаций.
Открытые данные пока не отдают, но обещают делать это в будущем.
Вообще же крупнейший и хорошо организованный открытый ресурс с открытыми данными по санкциям в мире - это OpenSanctions [2], но крупнейший не значит что он полон. Например, мексиканских реестров компаний однодневок и компаний уличённых в незаконной деятельности там нет.
Ссылки:
[1] https://ojosanciones.sociedad.info/
[2] https://www.opensanctions.org/
#opendata #sanctions
Ещё один необычный каталог данных OpenForest [1] является каталогом датасетов для машинного обучения с данными связанными с лесом.
Необычность в том что у него нет интерфейса и сам каталог представлен в виде репозитория на Github с перечнем датасетов в CSV файле.
Это не первый на моей памяти пример использования Github/Gitlab/Git для публикации датасетов и дата каталогов, другой пример - это каталоги на базе движка JKAN, но там это скорее материалы статитических сайтов каталогов, а интерфейс, всё же присутствует.
Ссылки:
[1] https://github.com/RolnickLab/OpenForest
#opendata #datacatalogs #datasets
Необычность в том что у него нет интерфейса и сам каталог представлен в виде репозитория на Github с перечнем датасетов в CSV файле.
Это не первый на моей памяти пример использования Github/Gitlab/Git для публикации датасетов и дата каталогов, другой пример - это каталоги на базе движка JKAN, но там это скорее материалы статитических сайтов каталогов, а интерфейс, всё же присутствует.
Ссылки:
[1] https://github.com/RolnickLab/OpenForest
#opendata #datacatalogs #datasets
This media is not supported in your browser
VIEW IN TELEGRAM
В рубрике как это устроено у них Docs [1] альтернатива Notion и Outline с открытым кодом, годится для совместного написания документов и командной работы над ними. Распространяется под лицензией MIT.
У проекта много фич и он хорошо и быстро развивается, но интересно не только это.
Проект является совместной инициативой DINUM (Межминистерского цифрового директората во Франции) и ZenDiS (Zentrum Digitale Souveränität), Центр Цифрового Суверенитета при Министерстве цифры Германии.
Иначе говоря - это совместный государственный франко-германский проект по созданию аналога Notion, а также сейчас у них идет онбординг цифровой команды пр-ва Нидерландов.
У ZenDIS ещё есть продукт OpenDesk [2] по замене офисного ПО для проектной и офисной работы. И внутри него совместное написание документов как раз основано на Docs.
OpenDesk довольно новый продукт, анонсированный в октябре 2024 года, но весьма активный и его код также общедоступен [3]
И, заодно, стоит добавить что сообщество пользователей продукта они строят не как все в Slack или Discord, а в Matrix [4]. Скажу честно, куда менее удобный мессенжер, но зато не относящийся к Big tech.
Ссылки:
[1] https://github.com/suitenumerique/docs
[2] https://opendesk.eu/
[3] https://gitlab.opencode.de/bmi/opendesk/info
[4] https://matrix.to/#/#docs-official:matrix.org
#opensource #documentation #notion
У проекта много фич и он хорошо и быстро развивается, но интересно не только это.
Проект является совместной инициативой DINUM (Межминистерского цифрового директората во Франции) и ZenDiS (Zentrum Digitale Souveränität), Центр Цифрового Суверенитета при Министерстве цифры Германии.
Иначе говоря - это совместный государственный франко-германский проект по созданию аналога Notion, а также сейчас у них идет онбординг цифровой команды пр-ва Нидерландов.
У ZenDIS ещё есть продукт OpenDesk [2] по замене офисного ПО для проектной и офисной работы. И внутри него совместное написание документов как раз основано на Docs.
OpenDesk довольно новый продукт, анонсированный в октябре 2024 года, но весьма активный и его код также общедоступен [3]
И, заодно, стоит добавить что сообщество пользователей продукта они строят не как все в Slack или Discord, а в Matrix [4]. Скажу честно, куда менее удобный мессенжер, но зато не относящийся к Big tech.
Ссылки:
[1] https://github.com/suitenumerique/docs
[2] https://opendesk.eu/
[3] https://gitlab.opencode.de/bmi/opendesk/info
[4] https://matrix.to/#/#docs-official:matrix.org
#opensource #documentation #notion
Forwarded from Национальный цифровой архив
Национальный архив США начал публиковать материалы рассекречивания дела по убийству Президента Кеннеди [1]. Материалы эти в виде сканов и оцифрованных аналоговых аудиозаписей, уже опубликовано 61400 страниц, это более чем 2000 PDF документов и это только за 18 марта. Ждём пополнения коллекции.
Ссылки:
[1] https://www.archives.gov/research/jfk/release-2025
#digitalpreservation #archives #usa #kennedy
Ссылки:
[1] https://www.archives.gov/research/jfk/release-2025
#digitalpreservation #archives #usa #kennedy