В Kaggle, возможно наиболее известном сервисе соревнований алгоритмов на базе данных, появился раздел «Datasets» [1] с большим числом наборов данных, большая часть которых негосударственные, а собраны исследователями, предоставлены компаниями или энтузиастами. Например, данные с по футбольным матчам в Европе [2] или данные по кредитам выданным через Lending Club [3] или многое другое что каждый может найти для себя самостоятельно.
Ссылки:
[1] https://www.kaggle.com/datasets
[2] https://www.kaggle.com/hugomathien/soccer
[3] https://www.kaggle.com/wendykan/lending-club-loan-data
#opendata #datasets #contests
Ссылки:
[1] https://www.kaggle.com/datasets
[2] https://www.kaggle.com/hugomathien/soccer
[3] https://www.kaggle.com/wendykan/lending-club-loan-data
#opendata #datasets #contests
Ранее я уже писал о странностях в [не]прозрачности распределения средств через Российский фонд развития информационных технологий (РФРИТ) [1], а в пятницу фонд опубликовал итоги первого конкурса [2] в виде ранжированного списка победителей конкурсного отбора. В итоговом файле [3] перечислены 13 проектов 12 компаний:
- Акционерное общество «Концерн Радиоэлектронные технологии»
- Акционерное общество «ОДК-Пермские моторы»
- "Акционерное общество «Особая экономическая зона промышленно производственного типа «Алабуга»"
- "Общество с ограниченной ответственностью «Центр экологической безопасности»"
- Публичное акционерное общество «КАМАЗ»
- Акционерное общество «Татэнерго»
- "Общество с ограниченной ответственностью «Научно-технический центр «Бакор»"
- Общество с ограниченной ответственностью «Самараавтожгут»
- "Общество с ограниченной ответственностью «Научно производственный центр ""Пружина""»"
- Акционерное общество «СМАРТС»
- "Общество с ограниченной ответственностью «Управляющая компания «Предприятие жилищно-коммунального хозяйства»"
- "Общество с ограниченной ответственностью «Торговый дом «Ивановская мебельная фабрика»"
Что тут скажешь когда сказать нечего? Я всё же постараюсь
1. В отличие от Фонда содействия инновациям (Фонд Бортника) [4] или Фонда Президентских грантов [5] раскрытие информации хуже чем минимальное. Нет реквизитов получателей и, например, одних только организаций "Общество с ограниченной ответственностью «Центр экологической безопасности»" существует более 5 штук. Нет ни наименований ни описаний проектов, нет видеозаписей работы комиссии, нет протоколов. И самое главное - нет сумм выделяемых конкретным получателям грантов. Я в своей жизни такого ранее никогда не видел.
2. Из 13 проектов 4 из Республики Татарстан из которых в подчинении Правительства Республики Татарстан через Минимущества Татарстан - 2 организации. А из 12 получателей 3 являются дочерними предприятиями ГК Ростех.
3. Ни одной ИТ или даже около ИТ компании в победителях нет. Неизвестно есть ли они в заявителях, поскольку список всех заявок РФРИТ также не публикует (в отличие от ФСИ и ФПГ).
4. Как я уже упоминал Общество с ограниченной ответственностью «Центр экологической безопасности» существует во многих регионах. Какое победило тут? Никто не знает, деятельности ни одного из этих региональных ООО не выдаёт их победы.
5. Я напомню что согласно конкурсной документации распределяется 3 миллиарда с предельной суммой до 1 миллиарда на победителя. Поэтому отсутствие сумм у победителей в итоговом списке особенно настораживает:
—
2.1.5. Предельная сумма Грантов, которая может быть распределена по результатам
проведения настоящего конкурсного отбора, составляет 3 093 307 335 (Три миллиарда
девяносто три миллиона триста семь тысяч триста тридцать пять) рублей 88 копеек.
2.1.6. Предельный размер Гранта на реализацию одного Проекта в рамках
настоящего конкурсного отбора составляет 1 (Один) миллиард рублей.
—
Для всех тех кто хочет самостоятельно изучить список победителей по ссылке на Airtable [6] он доступен с привязкой к субъектам федерации, ИНН организаций, группы компаний и так далее (для Airtable требуется регистрация). Набор данных слишком маленький чтобы выкладывать его как базу данных.
—
Ссылки:
[1] https://t.me/begtin/1604
[2] https://рфрит.рф/konkursnyy-otbor-19
[3] https://xn--h1apajh.xn--p1ai/attachment/144/download/2_Pobediteli
[4] http://fasie.ru
[5] http://pgrants.ru
[6] https://airtable.com/invite/l?inviteId=inviRf00zG5pjnLiu&inviteToken=39efc31dab96d68cbc9b7d9e28e0d9e1cc4dee8057a9254f965a0e9d4a62c825
#rfrit #opendata #data #contests
- Акционерное общество «Концерн Радиоэлектронные технологии»
- Акционерное общество «ОДК-Пермские моторы»
- "Акционерное общество «Особая экономическая зона промышленно производственного типа «Алабуга»"
- "Общество с ограниченной ответственностью «Центр экологической безопасности»"
- Публичное акционерное общество «КАМАЗ»
- Акционерное общество «Татэнерго»
- "Общество с ограниченной ответственностью «Научно-технический центр «Бакор»"
- Общество с ограниченной ответственностью «Самараавтожгут»
- "Общество с ограниченной ответственностью «Научно производственный центр ""Пружина""»"
- Акционерное общество «СМАРТС»
- "Общество с ограниченной ответственностью «Управляющая компания «Предприятие жилищно-коммунального хозяйства»"
- "Общество с ограниченной ответственностью «Торговый дом «Ивановская мебельная фабрика»"
Что тут скажешь когда сказать нечего? Я всё же постараюсь
1. В отличие от Фонда содействия инновациям (Фонд Бортника) [4] или Фонда Президентских грантов [5] раскрытие информации хуже чем минимальное. Нет реквизитов получателей и, например, одних только организаций "Общество с ограниченной ответственностью «Центр экологической безопасности»" существует более 5 штук. Нет ни наименований ни описаний проектов, нет видеозаписей работы комиссии, нет протоколов. И самое главное - нет сумм выделяемых конкретным получателям грантов. Я в своей жизни такого ранее никогда не видел.
2. Из 13 проектов 4 из Республики Татарстан из которых в подчинении Правительства Республики Татарстан через Минимущества Татарстан - 2 организации. А из 12 получателей 3 являются дочерними предприятиями ГК Ростех.
3. Ни одной ИТ или даже около ИТ компании в победителях нет. Неизвестно есть ли они в заявителях, поскольку список всех заявок РФРИТ также не публикует (в отличие от ФСИ и ФПГ).
4. Как я уже упоминал Общество с ограниченной ответственностью «Центр экологической безопасности» существует во многих регионах. Какое победило тут? Никто не знает, деятельности ни одного из этих региональных ООО не выдаёт их победы.
5. Я напомню что согласно конкурсной документации распределяется 3 миллиарда с предельной суммой до 1 миллиарда на победителя. Поэтому отсутствие сумм у победителей в итоговом списке особенно настораживает:
—
2.1.5. Предельная сумма Грантов, которая может быть распределена по результатам
проведения настоящего конкурсного отбора, составляет 3 093 307 335 (Три миллиарда
девяносто три миллиона триста семь тысяч триста тридцать пять) рублей 88 копеек.
2.1.6. Предельный размер Гранта на реализацию одного Проекта в рамках
настоящего конкурсного отбора составляет 1 (Один) миллиард рублей.
—
Для всех тех кто хочет самостоятельно изучить список победителей по ссылке на Airtable [6] он доступен с привязкой к субъектам федерации, ИНН организаций, группы компаний и так далее (для Airtable требуется регистрация). Набор данных слишком маленький чтобы выкладывать его как базу данных.
—
Ссылки:
[1] https://t.me/begtin/1604
[2] https://рфрит.рф/konkursnyy-otbor-19
[3] https://xn--h1apajh.xn--p1ai/attachment/144/download/2_Pobediteli
[4] http://fasie.ru
[5] http://pgrants.ru
[6] https://airtable.com/invite/l?inviteId=inviRf00zG5pjnLiu&inviteToken=39efc31dab96d68cbc9b7d9e28e0d9e1cc4dee8057a9254f965a0e9d4a62c825
#rfrit #opendata #data #contests
Telegram
Ivan Begtin
Глядя на созданный (относительно) недавно Минкомсвязи России Российский фонд развития информационных технологий [1] и совершенно точно недавно объявивший огромный конкурс на гранты по сквозным технологиям [2] очень хочется задать множество вопросов:
1. Где…
1. Где…
Для тех кто одновременно является исследователем и работает в НКО - @infoculture Информационная культура проводит конкурс "Исследователь" - https://ngo-research.ru/contest. Конкурс идёт до конца февраля, времени ещё много.
А я напомню что портал Данные НКО - http://ngodata.ru - это один из порталов данных созданных Инфокультурой для публикации открытых данных. Например, многочисленные наборы данных самой НКО опубликованы там на странице организации http://ngodata.ru/organization/infoculture.
Например, я туда регулярно выкладываю данные из собственных архивов и относящиеся к некоммерческой деятельности и сектору НКО в частности, а из нескольких проектов АНО Инфокультура туда данные выгружаются автоматически, например, из проекта Открытые НКО http://ngodata.ru/dataset/ngo-dumps или данные субсидий из проекта Госзатраты http://ngodata.ru/dataset/subs-dumps
Возвращаясь к конкурсу исследований - если есть идеи, предложения и варианты партнерства, пишите на infoculture@infoculture.ru
#opendata #opengov #ngo #contests
А я напомню что портал Данные НКО - http://ngodata.ru - это один из порталов данных созданных Инфокультурой для публикации открытых данных. Например, многочисленные наборы данных самой НКО опубликованы там на странице организации http://ngodata.ru/organization/infoculture.
Например, я туда регулярно выкладываю данные из собственных архивов и относящиеся к некоммерческой деятельности и сектору НКО в частности, а из нескольких проектов АНО Инфокультура туда данные выгружаются автоматически, например, из проекта Открытые НКО http://ngodata.ru/dataset/ngo-dumps или данные субсидий из проекта Госзатраты http://ngodata.ru/dataset/subs-dumps
Возвращаясь к конкурсу исследований - если есть идеи, предложения и варианты партнерства, пишите на infoculture@infoculture.ru
#opendata #opengov #ngo #contests
ngo-research.ru
Конкурс Исследователь
Независимый конкурс исследований, проводимых некоммерческими организациями. Выиграй поддержку экспертов на разработку цифровых итогов своего исследования.
Тем временем в Финляндии организуют конкурс на создание приложений по преодолению энергетического кризиса [1], ключевое условие - использование открытых источников данных или частных данных и реализация проекта на принципах честной экономики данных (fair data economy) о которой их мозговой центр Sitra публиковал свод правил [2]. Идей для конкурса там много, например, рекомендации потребителям по времени использования электричества за меньшую цену или анализ энергопотребления домохозяйств или бизнеса и рекомендации по корректировке.
В целом публикация открытых данных и конкурсы и хакатоны и иные соревнования для этого и нужны, для решения актуальных задач.
Для участия не обязательно быть из Финляндии, но заявки из России врядли примут. Возможные суммы финансирования: от 5 до 15 тысяч евро на первом этапе и от 20 до 65 тысяч евро на втором.
Ссылки:
[1] https://www.sitra.fi/en/projects/call-for-solutions-using-data-to-curb-energy-use/
[2] https://www.sitra.fi/en/publications/rulebook-for-a-fair-data-economy/
#opendata #contests #energy #finland
В целом публикация открытых данных и конкурсы и хакатоны и иные соревнования для этого и нужны, для решения актуальных задач.
Для участия не обязательно быть из Финляндии, но заявки из России врядли примут. Возможные суммы финансирования: от 5 до 15 тысяч евро на первом этапе и от 20 до 65 тысяч евро на втором.
Ссылки:
[1] https://www.sitra.fi/en/projects/call-for-solutions-using-data-to-curb-energy-use/
[2] https://www.sitra.fi/en/publications/rulebook-for-a-fair-data-economy/
#opendata #contests #energy #finland
Sitra
Call for solutions: Using data to curb energy use - Sitra
What is it about? The energy crisis can be alleviated by saving energy and smoothing out society’s energy consumption peaks. There are major opportunities for innovation and business in new services alleviating the energy crisis. Sitra is making this call…
Совершенно незаслуженно упущенный мной и ранее не упомянутый вызов/challenge по созданию 30 дневных карт, 30DayMapChallenge [1]. Он организован специально для самых упоротых упорных дизайнеров, проходит 30 дней с 1 по 30 ноября в течение которых необходимо каждый день публиковать карту на заданную тему: точки, линии, полигоны и так далее. Каждый день надо публиковать результат в социальных медиа с хэштегом #30DayMapChallenge
Весь проект - это частная инициатива Topi Tjukanov который проводит эти конкурсы с 2019 года. Можно посмотреть, например, на работы 2022 года [2].
Никаких призов нет, только фан и репутации в сообществе. Это крутой челлендж, с оценкой результатов по "лайкам" и "ретвитам". Потому что это вызов (challenge), а не конкурс
Правил там немного, главное из которых я бы выделил Don’t be an asshole. Для тех кто хочет самому(-ой) себе бросить вызов - это будет прекрасная возможность, попробовать свои навыки, а потом ещё и рассказать об этом по завершению.
Ссылки:
[1] https://30daymapchallenge.com
[2] https://30daymapchallenge.com/2022/
#gis #contests #challenges #geodata #opendata
Весь проект - это частная инициатива Topi Tjukanov который проводит эти конкурсы с 2019 года. Можно посмотреть, например, на работы 2022 года [2].
Никаких призов нет, только фан и репутации в сообществе. Это крутой челлендж, с оценкой результатов по "лайкам" и "ретвитам". Потому что это вызов (challenge), а не конкурс
Правил там немного, главное из которых я бы выделил Don’t be an asshole. Для тех кто хочет самому(-ой) себе бросить вызов - это будет прекрасная возможность, попробовать свои навыки, а потом ещё и рассказать об этом по завершению.
Ссылки:
[1] https://30daymapchallenge.com
[2] https://30daymapchallenge.com/2022/
#gis #contests #challenges #geodata #opendata
Хорошая статья [1] о том как добиться высокой производительности Python при обработке очень больших файлов с данными на примере данных конкурса One Billion Row Challenge [2].
Ключевое что можно из статьи вынести:
- да, по умолчанию Python медленный, но есть много способов его очень сильно ускорить
- Polars и DuckDB дают сильнейшее ускорение, буквально 30кратное и делают обработку данных особенно быстрой
- Pandas - это медленно, пора отказываться от него где возможно
- замена CPython на PyPy заметно ускоряет процесс
- всё это без использования GPU, на ноутбуке
А я не могу не вспомнить что уже есть One Trillion Rows Challenge [3] где Dask претендуют на лучшую скорость обработки данных [4]
Больше соревнований хороших и разных!
Ссылки:
[1] https://towardsdatascience.com/python-one-billion-row-challenge-from-10-minutes-to-4-seconds-0718662b303e
[2] https://1brc.dev
[3] https://t.me/begtin/5529
[4] https://docs.coiled.io/blog/1trc.html
#data #dataengineering #contests #python
Ключевое что можно из статьи вынести:
- да, по умолчанию Python медленный, но есть много способов его очень сильно ускорить
- Polars и DuckDB дают сильнейшее ускорение, буквально 30кратное и делают обработку данных особенно быстрой
- Pandas - это медленно, пора отказываться от него где возможно
- замена CPython на PyPy заметно ускоряет процесс
- всё это без использования GPU, на ноутбуке
А я не могу не вспомнить что уже есть One Trillion Rows Challenge [3] где Dask претендуют на лучшую скорость обработки данных [4]
Больше соревнований хороших и разных!
Ссылки:
[1] https://towardsdatascience.com/python-one-billion-row-challenge-from-10-minutes-to-4-seconds-0718662b303e
[2] https://1brc.dev
[3] https://t.me/begtin/5529
[4] https://docs.coiled.io/blog/1trc.html
#data #dataengineering #contests #python
Medium
Python One Billion Row Challenge — From 10 Minutes to 4 Seconds
The one billion row challenge is exploding in popularity. How well does Python stack up?