Самое частое что я наблюдаю на большинстве хакатонов - это то что многие приходящие участники, или не определились с идеей и могут потратить на поиск несколько часов, или не владеют/не знают о существовании ключевых инструментов которые позволяют очень быстро вести разработку.
Вот некоторые инструменты, полезные не только на хакатонах:
Огромный список программ скрейперов помогающих извлекать данные из веб-сайтов. Это инструменты на всех языках программирования и несложные в освоении
Ссылка: https://github.com/cassidoo/scrapers
Быстрая визуализация табличных данных с помощью React Visualized. Например, Вы берете любой более-менее большой набор данных в CSV и делаете над ним надстройку.
Ссылка: https://github.com/bvaughn/react-virtualized
Обработка текста с командной строки. Большая подборка инструментов позволяющих быстро обрабатывать CSV, JSON, XML и другие структурированные документы
Ссылка: https://github.com/dbohdan/structured-text-tools
Быстрая сборка статического сайта с использованием "Jekyll"
Ссылка: https://jekyllrb.com/
Малоизвестный в России открытый движок JKAN для быстрой сборки статического портала открытых данных. Очень просто устроен, очень быстро разворачивается.
Ссылка: https://jkan.io/
#opendata #hackathons
Вот некоторые инструменты, полезные не только на хакатонах:
Огромный список программ скрейперов помогающих извлекать данные из веб-сайтов. Это инструменты на всех языках программирования и несложные в освоении
Ссылка: https://github.com/cassidoo/scrapers
Быстрая визуализация табличных данных с помощью React Visualized. Например, Вы берете любой более-менее большой набор данных в CSV и делаете над ним надстройку.
Ссылка: https://github.com/bvaughn/react-virtualized
Обработка текста с командной строки. Большая подборка инструментов позволяющих быстро обрабатывать CSV, JSON, XML и другие структурированные документы
Ссылка: https://github.com/dbohdan/structured-text-tools
Быстрая сборка статического сайта с использованием "Jekyll"
Ссылка: https://jekyllrb.com/
Малоизвестный в России открытый движок JKAN для быстрой сборки статического портала открытых данных. Очень просто устроен, очень быстро разворачивается.
Ссылка: https://jkan.io/
#opendata #hackathons
GitHub
GitHub - cassidoo/scrapers: A list of scrapers from around the web.
A list of scrapers from around the web. Contribute to cassidoo/scrapers development by creating an account on GitHub.
Бизнес модель связанной с данными о которой я регулярно пишу - это предоставление большого объёма данных компаниями занимающимися хостингом и иной инфраструктурой. Хороший пример - Amazon с их реестром открытых данных большого объёма [1], данные можно скачивать откуда угодно, но гораздо удобнее из датацентров самого Amazon.
Другой пример - Microsoft Azure Open Datasets [2] с совершенно той же логикой и, похоже на них, Google BigQuery [3] и в этом списке я ранее не упоминал CreoDIAS (DIAS) [4], консорциум созданный CloudFerro, Wroclaw Institute of Spatial Information and Artificial Intelligence (WIZIPISI), Geomatys, Eversis и Sinergise [5] и имеющий контракт с Европейским космическим агенством (ESA).
CreoDIAS, как и все ранее упомянутые, работают преимущественно с открытыми данными от ESA, но и я рядом коммерческих поставщиков. Важнее объёмы данных - это 21.9 петабайт в архиве и около 20 терабайт ежедневные обновления. Большая часть данных, около 90%, это снимки спутников Sentinel 1, Sentinel 2, Sentinel 3.
Бизнес модель CreoDIAS в том что они предоставляют много тарифных планов для аренды серверов непосредственно подключённых к их ЦОДам и предположительно удешевляют стоимость обработки спутниковых данных и снимков.
В Евросоюзе организаторы хакатонов CASSINI [6] предоставляют доступ к инфраструктуре CreoDIAS для участников и дают возможность создавать космические ИТ проекты с доступом к этим данным.
Конечно этот пример не единственный, многие отраслевые банки данных всё более становятся гибридными сервисами совмещая доступ к данным, доступ к инструментам с облачной инфраструктурой. В нескольких формах такое уже есть в биоинформатике и иных data-rich областях медицины и фармацевтики и во многом другом.
Ссылки:
[1] http://registry.opendata.aws/
[2] https://azure.microsoft.com/en-us/services/open-datasets/
[3] https://cloud.google.com/bigquery/public-data
[4] https://creodias.eu
[5] https://creodias.eu/about-us
[6] https://hackathons.cassini.eu/
#opendata #satellite #hackathons #earthobservation #datahosting
Другой пример - Microsoft Azure Open Datasets [2] с совершенно той же логикой и, похоже на них, Google BigQuery [3] и в этом списке я ранее не упоминал CreoDIAS (DIAS) [4], консорциум созданный CloudFerro, Wroclaw Institute of Spatial Information and Artificial Intelligence (WIZIPISI), Geomatys, Eversis и Sinergise [5] и имеющий контракт с Европейским космическим агенством (ESA).
CreoDIAS, как и все ранее упомянутые, работают преимущественно с открытыми данными от ESA, но и я рядом коммерческих поставщиков. Важнее объёмы данных - это 21.9 петабайт в архиве и около 20 терабайт ежедневные обновления. Большая часть данных, около 90%, это снимки спутников Sentinel 1, Sentinel 2, Sentinel 3.
Бизнес модель CreoDIAS в том что они предоставляют много тарифных планов для аренды серверов непосредственно подключённых к их ЦОДам и предположительно удешевляют стоимость обработки спутниковых данных и снимков.
В Евросоюзе организаторы хакатонов CASSINI [6] предоставляют доступ к инфраструктуре CreoDIAS для участников и дают возможность создавать космические ИТ проекты с доступом к этим данным.
Конечно этот пример не единственный, многие отраслевые банки данных всё более становятся гибридными сервисами совмещая доступ к данным, доступ к инструментам с облачной инфраструктурой. В нескольких формах такое уже есть в биоинформатике и иных data-rich областях медицины и фармацевтики и во многом другом.
Ссылки:
[1] http://registry.opendata.aws/
[2] https://azure.microsoft.com/en-us/services/open-datasets/
[3] https://cloud.google.com/bigquery/public-data
[4] https://creodias.eu
[5] https://creodias.eu/about-us
[6] https://hackathons.cassini.eu/
#opendata #satellite #hackathons #earthobservation #datahosting
Microsoft
Open Datasets | Microsoft Azure
Use curated, public datasets to improve the accuracy of your machine learning models with Azure Open Datasets. Save time on data discovery and prep.
Я тут, внезапно, обнаружил что замечательный гайд Джошуа Тауберера по организации хакатонов [1] не переводился не то что на русский язык, но и на многие другие. Впрочем в том виде как он был написан ещё 10 лет назад его уже применять не стоит, очень многое перенеслось в онлайн и сами хакатоны стали уже другими, кроме них появилось немало других форм совместного кодирования/сбора данных/проведения конкурсов и многого другого.
С другой стороны я вижу отсутствие гайда/чеклиста для самих участников хакатонов. Понятно что в большинстве хакатонов участвуют начинающие разработчики, но одновременно - это тест на их способность расти дальше в навыках и карьере.
Ссылки:
[1] https://hackathon.guide/
#opensource #hackathons #guide
С другой стороны я вижу отсутствие гайда/чеклиста для самих участников хакатонов. Понятно что в большинстве хакатонов участвуют начинающие разработчики, но одновременно - это тест на их способность расти дальше в навыках и карьере.
Ссылки:
[1] https://hackathon.guide/
#opensource #hackathons #guide
NASA Space Apps Challenge 2024 [1] проходит в этом году по всему миру и включает множество локальных мероприятий, в том числе на постсоветском пространстве, за исключением России, Беларуси, Киргизии и Армении [2]. Почему не проходят в Киргизии я не знаю, удивительно что нет в Армении, чувствую надо было самим организовать, а не думать что кто-то из околокосмической тусовки это сделает.
У НАСА на хакатоне есть набор задач [3], большая часть которых связаны с данными, например, по задаче Landsat Reflectance Data: On the Fly and at Your Fingertips, множество ссылок на открытые данные в KML, Shapefile и других [4].
Для тех кто учится и находится в странах где есть местные события этого глобального хакатона - это отличная возможность потренировать навыки в работе с данными и сделать что-то полезное.
Ссылки:
[1] https://www.spaceappschallenge.org/nasa-space-apps-2024/
[2] https://www.spaceappschallenge.org/nasa-space-apps-2024/2024-local-events/
[3] https://www.spaceappschallenge.org/nasa-space-apps-2024/challenges/
[4] https://www.spaceappschallenge.org/nasa-space-apps-2024/challenges/landsat-reflectance-data-on-the-fly-and-at-your-fingertips/?tab=resources
#opendata #hackathons #space #nasa
У НАСА на хакатоне есть набор задач [3], большая часть которых связаны с данными, например, по задаче Landsat Reflectance Data: On the Fly and at Your Fingertips, множество ссылок на открытые данные в KML, Shapefile и других [4].
Для тех кто учится и находится в странах где есть местные события этого глобального хакатона - это отличная возможность потренировать навыки в работе с данными и сделать что-то полезное.
Ссылки:
[1] https://www.spaceappschallenge.org/nasa-space-apps-2024/
[2] https://www.spaceappschallenge.org/nasa-space-apps-2024/2024-local-events/
[3] https://www.spaceappschallenge.org/nasa-space-apps-2024/challenges/
[4] https://www.spaceappschallenge.org/nasa-space-apps-2024/challenges/landsat-reflectance-data-on-the-fly-and-at-your-fingertips/?tab=resources
#opendata #hackathons #space #nasa
www.spaceappschallenge.org
Space Apps Challenge
The NASA International Space Apps Challenge is a hackathon for coders, scientists, designers, storytellers, makers, builders, technologists, and innovators around the world to come together and use open data from NASA and its Space Agency Partners to create…
Для тех кто любит работать с открытыми данными свежий хакатон Data -> Sense от СберИндекса где прам-парам-парам будут муниципальные данные которые команда СберИндекса обещает дать на хакатон, а в будущем, очень надеюсь и предоставить как открытые данные.
Но, конечно, одними данными Сбербанка здесь можно и нужно не ограничиваться и это самая что не на есть супер возможность потренировать навыки аналитики, визуализации и работа с региональной экономической статистикой.
В том числе попробовать сделать AI помощника экономгеографа по российским данным.
К задачам которые есть на сайте я бы дополнительно добавил что-то вроде создания аналога DataCommons.org или DataUSA.io по российским региональным и муниципальным данным. Это посложнее на хакатон, но сложная и интересная задача.
#opendata #contests #ai #hackathons #data #economics #russia
Но, конечно, одними данными Сбербанка здесь можно и нужно не ограничиваться и это самая что не на есть супер возможность потренировать навыки аналитики, визуализации и работа с региональной экономической статистикой.
В том числе попробовать сделать AI помощника экономгеографа по российским данным.
К задачам которые есть на сайте я бы дополнительно добавил что-то вроде создания аналога DataCommons.org или DataUSA.io по российским региональным и муниципальным данным. Это посложнее на хакатон, но сложная и интересная задача.
#opendata #contests #ai #hackathons #data #economics #russia
Для тех кто ищет российские муниципальные данные и не знает где найти, я ранее писал о некоторых очевидных и неочевидных их источниках, но их, конечно же, гораздо больше.
Вот тут пополнение списка, с данными по городам и районам:
- ДомКлик - https://blog.domclick.ru/analytics
- ВЭБ Индекс - https://citylifeindex.ru/database?pageType=CITIES
- Единое Хранилище Данных Москвы - https://ehd.moscow/
- Показатели жилищного строительства - https://наш.дом.рф/аналитика/показатели_жилищного_строительства
Кроме того в ЕМИСС (fedstat.ru) есть, как минимум, 101 индикатор которые охватывают города, только крупнейшие, но хотя бы так.
С некоторыми разумными усилиями эти данные могут быть связаны с данными Сбербанка на хакатоне Сбериндекса, на который ещё можно податься.
#opendata #hyperlocal #hackathons #data #datasets
Вот тут пополнение списка, с данными по городам и районам:
- ДомКлик - https://blog.domclick.ru/analytics
- ВЭБ Индекс - https://citylifeindex.ru/database?pageType=CITIES
- Единое Хранилище Данных Москвы - https://ehd.moscow/
- Показатели жилищного строительства - https://наш.дом.рф/аналитика/показатели_жилищного_строительства
Кроме того в ЕМИСС (fedstat.ru) есть, как минимум, 101 индикатор которые охватывают города, только крупнейшие, но хотя бы так.
С некоторыми разумными усилиями эти данные могут быть связаны с данными Сбербанка на хакатоне Сбериндекса, на который ещё можно податься.
#opendata #hyperlocal #hackathons #data #datasets