В рубрике интересных и малоизвестных проектов:
- PyDI малоизвестный широкой публике инструмент интеграции данных через LLM. Делается в Университете Маннхейма. Много полезного чтобы посмотреть как реализуют задачи schema matching, сопоставления структур данных для интеграции
- Web Data Commons коллекция огромного объёма (ну ладно, не огромного, просто не маленьких) наборов данных веб разметки объектов извлеченных из Common Crawl. Если проще - результаты извлечения объектов Schema.org из дампов Common Crawl. Уже год не добавляют нового, но и имеющееся весьма полезно
- DuckDB eurostat расширение для DuckDB для работы с данными Евростата. Я смотрю на это и думаю, ну почему, ну почему это сделал не я😱. Идея отличная, может сделать расширение поиска данных в Dateno через DuckDB? Но у нас нет SDK для C++, но можно и без SDK. Я вот не писал на C++ уже лет 30, только читал, патчил, собирал, но не вел полноценной разработки. Но самому такое делать и не надо, конечно. Надо привлечь кого-то к этому прекрасному делу.
- DOOMQL реализация игры DOOM на SQL в базе CedarDB. Для всех кто любит DOOM. В основе аналогичная реализация игры для DuckDB, на неё там приведены ссылки.
#opensource #data #datasets #dataengineering
- PyDI малоизвестный широкой публике инструмент интеграции данных через LLM. Делается в Университете Маннхейма. Много полезного чтобы посмотреть как реализуют задачи schema matching, сопоставления структур данных для интеграции
- Web Data Commons коллекция огромного объёма (ну ладно, не огромного, просто не маленьких) наборов данных веб разметки объектов извлеченных из Common Crawl. Если проще - результаты извлечения объектов Schema.org из дампов Common Crawl. Уже год не добавляют нового, но и имеющееся весьма полезно
- DuckDB eurostat расширение для DuckDB для работы с данными Евростата. Я смотрю на это и думаю, ну почему, ну почему это сделал не я😱. Идея отличная, может сделать расширение поиска данных в Dateno через DuckDB? Но у нас нет SDK для C++, но можно и без SDK. Я вот не писал на C++ уже лет 30, только читал, патчил, собирал, но не вел полноценной разработки. Но самому такое делать и не надо, конечно. Надо привлечь кого-то к этому прекрасному делу.
- DOOMQL реализация игры DOOM на SQL в базе CedarDB. Для всех кто любит DOOM. В основе аналогичная реализация игры для DuckDB, на неё там приведены ссылки.
#opensource #data #datasets #dataengineering
GitHub
GitHub - wbsg-uni-mannheim/PyDI: The PyDI framework provides methods for end-to-end data integration. The framework covers all…
The PyDI framework provides methods for end-to-end data integration. The framework covers all steps of the integration process, including schema matching, data translation, entity matching, and dat...
👍8
Я как то рассказывал что я мэйнтейню репозиторий awesome-status-pages на Github'е и так исторически сложилось что до сих пор я не делал ни одного проекта который собрал бы такое же количество звезд (3 617). Совершенно непредсказуемая популярность от побочного awesome листа который я сварганил когда-то за час после того как сам исследовал эту тему. Тем не менее это оказалось именно тем куда потоком стекаются каждый новый создатель таких сервисов, а их сотни, иногда кажется что каждый разработчик хочет сделать свой велосипед проект status pages.
Пока массово не применяли ИИ - это было нормально, а теперь пошел поток ИИ запросов от Claude Code, и вот тут пришлось уже писать пугающее предупреждение и начать банить тех кто отправляет такие пулл реквесты через Claude Code. Их очень легко отличить от человеческих, они слишком грамотно написаны😉
Но чую это только начало, а дальше будет только хуже.
#opensource
Пока массово не применяли ИИ - это было нормально, а теперь пошел поток ИИ запросов от Claude Code, и вот тут пришлось уже писать пугающее предупреждение и начать банить тех кто отправляет такие пулл реквесты через Claude Code. Их очень легко отличить от человеческих, они слишком грамотно написаны😉
Но чую это только начало, а дальше будет только хуже.
#opensource
😁10👍5