Ivan Begtin
8.99K subscribers
2.59K photos
5 videos
114 files
5.39K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике интересных и малоизвестных проектов:
- PyDI малоизвестный широкой публике инструмент интеграции данных через LLM. Делается в Университете Маннхейма. Много полезного чтобы посмотреть как реализуют задачи schema matching, сопоставления структур данных для интеграции
- Web Data Commons коллекция огромного объёма (ну ладно, не огромного, просто не маленьких) наборов данных веб разметки объектов извлеченных из Common Crawl. Если проще - результаты извлечения объектов Schema.org из дампов Common Crawl. Уже год не добавляют нового, но и имеющееся весьма полезно
- DuckDB eurostat расширение для DuckDB для работы с данными Евростата. Я смотрю на это и думаю, ну почему, ну почему это сделал не я😱. Идея отличная, может сделать расширение поиска данных в Dateno через DuckDB? Но у нас нет SDK для C++, но можно и без SDK. Я вот не писал на C++ уже лет 30, только читал, патчил, собирал, но не вел полноценной разработки. Но самому такое делать и не надо, конечно. Надо привлечь кого-то к этому прекрасному делу.
- DOOMQL реализация игры DOOM на SQL в базе CedarDB. Для всех кто любит DOOM. В основе аналогичная реализация игры для DuckDB, на неё там приведены ссылки.

#opensource #data #datasets #dataengineering
👍8
Я как то рассказывал что я мэйнтейню репозиторий awesome-status-pages на Github'е и так исторически сложилось что до сих пор я не делал ни одного проекта который собрал бы такое же количество звезд (3 617). Совершенно непредсказуемая популярность от побочного awesome листа который я сварганил когда-то за час после того как сам исследовал эту тему. Тем не менее это оказалось именно тем куда потоком стекаются каждый новый создатель таких сервисов, а их сотни, иногда кажется что каждый разработчик хочет сделать свой велосипед проект status pages.

Пока массово не применяли ИИ - это было нормально, а теперь пошел поток ИИ запросов от Claude Code, и вот тут пришлось уже писать пугающее предупреждение и начать банить тех кто отправляет такие пулл реквесты через Claude Code. Их очень легко отличить от человеческих, они слишком грамотно написаны😉

Но чую это только начало, а дальше будет только хуже.

#opensource
😁10👍5