Среди мировых порталов по открытым данным прибавилось, и относительно давно, GARDIAN [1], проект по консолидации открытых исследований и наборов данных [2] в области агрокультуры.
Более 93 тысяч публикаций и более 2100 наборов данных, все в открытом доступе и в самых разных форматах от HDF до Microsoft Access (MDB).
Проект создан CGIAR (Consultative Group for International Agricultural Research) [3], партнёрством в области агрокультуры и является частью их платформы для работы с большими данными [4]
У них же, кстати, немало работ ведется по онтологиям в агрокультуре таким как Crop Ontology [5] и Planteome [6]
Ссылки:
[1] http://gardian.bigdata.cgiar.org
[2] http://gardian.bigdata.cgiar.org/search.php#!/*/all/and/%7B%7D
[3] http://cgiar.org
[4] https://bigdata.cgiar.org/
[5] http://www.cropontology.org/
[6] http://planteome.org/
#opendata #opengov
Более 93 тысяч публикаций и более 2100 наборов данных, все в открытом доступе и в самых разных форматах от HDF до Microsoft Access (MDB).
Проект создан CGIAR (Consultative Group for International Agricultural Research) [3], партнёрством в области агрокультуры и является частью их платформы для работы с большими данными [4]
У них же, кстати, немало работ ведется по онтологиям в агрокультуре таким как Crop Ontology [5] и Planteome [6]
Ссылки:
[1] http://gardian.bigdata.cgiar.org
[2] http://gardian.bigdata.cgiar.org/search.php#!/*/all/and/%7B%7D
[3] http://cgiar.org
[4] https://bigdata.cgiar.org/
[5] http://www.cropontology.org/
[6] http://planteome.org/
#opendata #opengov
Тем временем французы собираются запустить transport.data.gouv.fr [1], единую систему работы с транспортными данными. Проект долгосрочный, а со 2 октября откроют портал.
Основные его особенности:
- открытые данные всего собранного
- тесная работа с ре-публикаторами данных. 8 участников подтвердили и 6 участвуют в диалогею
- разработчики сервисов возвращают в data.gouv.fr очищенные и исправленные данные
- предоставление сервисам конечным пользователям через разработчиков приложений
- партнёрство со всеми регионами Франции, на предоставление данных
Подробнее в презентации [2]
Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/documents/TransportDataGouv-2846b8fb4cd5f07ed134a4c112e0c9e8.pdf?vsn=d
#opendata #france
Основные его особенности:
- открытые данные всего собранного
- тесная работа с ре-публикаторами данных. 8 участников подтвердили и 6 участвуют в диалогею
- разработчики сервисов возвращают в data.gouv.fr очищенные и исправленные данные
- предоставление сервисам конечным пользователям через разработчиков приложений
- партнёрство со всеми регионами Франции, на предоставление данных
Подробнее в презентации [2]
Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/documents/TransportDataGouv-2846b8fb4cd5f07ed134a4c112e0c9e8.pdf?vsn=d
#opendata #france
Минфин, зачем-то, очень хочет не просто систематизировать данные, но и получить контроль над данными всех и вся воспользовавшись замешательством Минцифры и Минэка с созданием Национальной системы управления данными.
Прокомментировал вчера Ведомостям эту ситуацию https://www.vedomosti.ru/technology/articles/2018/08/07/777504-minfinu-bolshim-bratom
#data
Прокомментировал вчера Ведомостям эту ситуацию https://www.vedomosti.ru/technology/articles/2018/08/07/777504-minfinu-bolshim-bratom
#data
www.vedomosti.ru
Минфину не дают стать Большим братом
Власти Москвы и операторы раскритиковали законопроект, дающий ему контроль над единой информационной системой
За половину 2018 года в России было принято 250 законов, в Новой Зеландии 2 закона
В пропорции к числу жителей это:
- 1,7 закона на миллион человек в России
- 0,4 закона на миллион человек в Новой Зеландии
Разница в 4 раза. Если сравнить масштаб всего того что в России называют НПА, то разница будет в 10-20 раз
Интересно, есть ли в мире рейтинг стран по legaslation burden ?
В пропорции к числу жителей это:
- 1,7 закона на миллион человек в России
- 0,4 закона на миллион человек в Новой Зеландии
Разница в 4 раза. Если сравнить масштаб всего того что в России называют НПА, то разница будет в 10-20 раз
Интересно, есть ли в мире рейтинг стран по legaslation burden ?
К вопросу о продуктах на открытых данных.
Правительство провинции Нарино в Колумбии выпускает журнал инфографики "Le tengo el data" основанный на открытых данных страны.
Уже вышло 4 выпуска которые можно скачать в PDF по ссылке https://gana.nariño.gov.co/colaboracion/letengoeldato
#dataviz #opendata
Правительство провинции Нарино в Колумбии выпускает журнал инфографики "Le tengo el data" основанный на открытых данных страны.
Уже вышло 4 выпуска которые можно скачать в PDF по ссылке https://gana.nariño.gov.co/colaboracion/letengoeldato
#dataviz #opendata
gana.nariño.gov.co
LeTengoElDato
Gobierno Abierto
Это ещё один довод к вопросу о том почему нужна архивация онлайн проектов.
Forwarded from Roskomsvoboda
Правообладатели вынуждают энтузиастов ретро-игр закрывать свои проекты
➡️ https://roskomsvoboda.org/40878
После иска компании Nintendo против ряда «пиратских» сайтов, популярный портал с 18-летней историей EmuParadise заявил, что больше не будет предлагать классические игры для скачивания.
Ранее Nintendo наехала на интернет-ресурсы LoveROMS.com и LoveRETRO.co
➡️ https://roskomsvoboda.org/40878
После иска компании Nintendo против ряда «пиратских» сайтов, популярный портал с 18-летней историей EmuParadise заявил, что больше не будет предлагать классические игры для скачивания.
Ранее Nintendo наехала на интернет-ресурсы LoveROMS.com и LoveRETRO.co
Роскомсвобода
Правообладатели вынуждают энтузиастов ретро-игр закрывать свои проекты
После иска компании Nintendo против ряда «пиратских» сайтов, популярный портал с 18-летней историей EmuParadise заявил, что больше не будет предлагать классические игры для скачивания. «Ретро-игры - это и времяпрепровождение, и страсть к бесчисле
Не говорите, пожалуйста, что данные это новая нефть! Ну серьёзно.
А то договоритесь до того что Яндекс, Mail.ru, Ростелеком и Мегафон и прочих признают ресурсодобывающими компаниями и им по "списку Белоусова" https://t.me/russica2/8917 тоже подсчитают EBITDA и попросят поделиться с государством "избыточными доходами".
Всё таки их жалко. Немного.
А то договоритесь до того что Яндекс, Mail.ru, Ростелеком и Мегафон и прочих признают ресурсодобывающими компаниями и им по "списку Белоусова" https://t.me/russica2/8917 тоже подсчитают EBITDA и попросят поделиться с государством "избыточными доходами".
Всё таки их жалко. Немного.
Telegram
НЕЗЫГАРЬ
Один из самых простых внешне и сложных внутри общественно полезных проектов которыми я занимался - это "Простой русский язык" http://plainrussian.ru
Это сервис который проверяет текст на предмет его простоты и измеряет эту простоту в годах обучения и возрасте аудитории.
Визуально сервис простой для безобразия, просто форма в которой можно ввести ссылку или, во вкладке рядом, текст и получить измерение сложности по нескольким формулам. Самое сложное в том что в России не было формул измерения этой самой понятности текста. Они есть для английского, испанского, португальского, немецкого и ещё многих языков, но в России не проводились научные исследования, а мне очень хотелось измерять эту понятность и желательно простым образом.
Поэтому много лет назад я потратил несколько месяцев на то чтобы такие формулы адаптировать под русский язык. В статье на Хабре "Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов" [1] в 2014 году я рассказывал как это делалось. Не имея возможности проверить эти формулы на разных аудиториях, я, по сути, на базе обучающей выборки из текстов внеклассного чтения методом грубого перебора коэффициентов подобрал такие их показатели при которых среднее отклонение расчётного и предобученного значений было минимальным.
Тогда же и появился сервис plainrussian.ru и тогда же было доступно его API [2]. И тогда же я выложил исходный код формул [3], каждый желающий может реализовать это в своём приложении.
А моей изначальной идеей, как ни странно, было автоматически измерить сложность несколько сотен тысяч текстов с государственных сайтов и других источников. Потом, когда оказалось что формулы потребовали не 1-2 дней как я планировал, а нескольких месяцев, то я и не завершил создание базы сложности текстов.
Это один из тех проектов которые, на мой взгляд, могут быть исключительно некоммерческими. Многое можно ещё сделать к нему в довесок. Например, в телеграме @PlainRussianBot написан поверх этого API. Это наш внутренний бот в Инфокультуре для проверки текстов, но его можно использовать и извне. Он понимает команды /help, /url, /text и если ему переслать файл doc то он извлечет из него текст и измерит его сложность.
Ссылки:
[1] https://habr.com/company/infoculture/blog/238875/
[2] https://github.com/ivbeg/readability.io/wiki/API
[3] https://github.com/infoculture/plainrussian
#plainlanguage #plainrussian
Это сервис который проверяет текст на предмет его простоты и измеряет эту простоту в годах обучения и возрасте аудитории.
Визуально сервис простой для безобразия, просто форма в которой можно ввести ссылку или, во вкладке рядом, текст и получить измерение сложности по нескольким формулам. Самое сложное в том что в России не было формул измерения этой самой понятности текста. Они есть для английского, испанского, португальского, немецкого и ещё многих языков, но в России не проводились научные исследования, а мне очень хотелось измерять эту понятность и желательно простым образом.
Поэтому много лет назад я потратил несколько месяцев на то чтобы такие формулы адаптировать под русский язык. В статье на Хабре "Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов" [1] в 2014 году я рассказывал как это делалось. Не имея возможности проверить эти формулы на разных аудиториях, я, по сути, на базе обучающей выборки из текстов внеклассного чтения методом грубого перебора коэффициентов подобрал такие их показатели при которых среднее отклонение расчётного и предобученного значений было минимальным.
Тогда же и появился сервис plainrussian.ru и тогда же было доступно его API [2]. И тогда же я выложил исходный код формул [3], каждый желающий может реализовать это в своём приложении.
А моей изначальной идеей, как ни странно, было автоматически измерить сложность несколько сотен тысяч текстов с государственных сайтов и других источников. Потом, когда оказалось что формулы потребовали не 1-2 дней как я планировал, а нескольких месяцев, то я и не завершил создание базы сложности текстов.
Это один из тех проектов которые, на мой взгляд, могут быть исключительно некоммерческими. Многое можно ещё сделать к нему в довесок. Например, в телеграме @PlainRussianBot написан поверх этого API. Это наш внутренний бот в Инфокультуре для проверки текстов, но его можно использовать и извне. Он понимает команды /help, /url, /text и если ему переслать файл doc то он извлечет из него текст и измерит его сложность.
Ссылки:
[1] https://habr.com/company/infoculture/blog/238875/
[2] https://github.com/ivbeg/readability.io/wiki/API
[3] https://github.com/infoculture/plainrussian
#plainlanguage #plainrussian
Хабр
Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов
Так сложилось что в последние годы мне лично приходится всё больше и больше сталкиваться с различными государственными текстами, особенно законами и финансовыми...
Вчера, 10 августа, в эфире на ОТР [1] я обозначил некоторые тезисы насчёт принимаемых госпрограмм, в первую очередь по цифровизации государства, а сейчас повторюсь в том о чём много лет говорю в том что происходит в российском окологосударственном ИТ в связке с тем что вообще происходит.
Фрагментированность. Все программы: Электронная Россия, Информационное общество и сейчас Цифровая экономика состоят из огромного числа несвязанных мероприятий, с тяжело прослеживаемой логикой между мероприятиями и показателями, а также между показателями и декларируемыми целями.
Отсутствие общей инфраструктуры. Хуже всего идет с разработкой общих компонентов инфраструктуры, интеграцией системы и тд. Каждое ведомство старается строить свой насколько возможно изолированный от других сегмент. Это не только в России такое происходит. В Великобритании это явление называют "it-mandarin" или "data-mandarin", когда CIO/CDO занимают оборонительную позицию и ориентированы на защиту их бюджетов, а не общее дело.
Импортозамещение вместо открытого кода. Вместо поддержки и использования проектов на открытом коде декларируется импортозамещение в довольно экзотической форме когда всё равно продаются тяжелые корпоративные решения, вместо поддержки разработки собственных.
Импортозамещение вместо защиты приватности. Разговоры российских чиновников и бизнеса о защите данных граждан сводятся не к тому что данные граждан не надо собирать, а к тому что вместо зарубежных компаний это должны делать российские компанию. Интересы граждан практически никто не защищает, кроме, обять же, немногочисленных людей внутри того-же государства. Общественные организации или бизнес ориентирующийся на приватность представлены очень слабо.
Технологический унитаризм. В России всё большее число государственных информационных систем создаются на федеральном уровне, и минуя уровни ниже напрямую стыкуют пользователей системы минуя их региональных регуляторов. Я писал об этом ещё в 2012 году
Отсутствие гибкой разработки. То что называют agile, по факту, в России сейчас невозможно из-за процедур торгов и процедур изменения госконтрактов. Фактически и в России сейчас гибкая разработка в гос ИТ возможна только in-house. О необходимости глубокой реформы закупок разработки ПО я писал неоднократно.
Отсутствие общих актуальных стандартов и руководств. Все по прежнему живут в мире ГОСТов 19 и 34 и в куче разрозненных методических рекомендаций. Такого чтобы более-менее унифицированно в одном месте было бы сведены все руководства на развитие систем - такого мало.
Это всё не полный список того что в России происходит минимум последние лет 15. И, к сожалению, именно по этим пунктам сдвига в госполитике нет.
Изначально в моём блоге: https://begtin.tech/it-government/
Ссылки:
[1] https://otr-online.ru/programmy/segodnya-v-rossii/ivan-begtin-33218.html
#digital #privacy
Фрагментированность. Все программы: Электронная Россия, Информационное общество и сейчас Цифровая экономика состоят из огромного числа несвязанных мероприятий, с тяжело прослеживаемой логикой между мероприятиями и показателями, а также между показателями и декларируемыми целями.
Отсутствие общей инфраструктуры. Хуже всего идет с разработкой общих компонентов инфраструктуры, интеграцией системы и тд. Каждое ведомство старается строить свой насколько возможно изолированный от других сегмент. Это не только в России такое происходит. В Великобритании это явление называют "it-mandarin" или "data-mandarin", когда CIO/CDO занимают оборонительную позицию и ориентированы на защиту их бюджетов, а не общее дело.
Импортозамещение вместо открытого кода. Вместо поддержки и использования проектов на открытом коде декларируется импортозамещение в довольно экзотической форме когда всё равно продаются тяжелые корпоративные решения, вместо поддержки разработки собственных.
Импортозамещение вместо защиты приватности. Разговоры российских чиновников и бизнеса о защите данных граждан сводятся не к тому что данные граждан не надо собирать, а к тому что вместо зарубежных компаний это должны делать российские компанию. Интересы граждан практически никто не защищает, кроме, обять же, немногочисленных людей внутри того-же государства. Общественные организации или бизнес ориентирующийся на приватность представлены очень слабо.
Технологический унитаризм. В России всё большее число государственных информационных систем создаются на федеральном уровне, и минуя уровни ниже напрямую стыкуют пользователей системы минуя их региональных регуляторов. Я писал об этом ещё в 2012 году
Отсутствие гибкой разработки. То что называют agile, по факту, в России сейчас невозможно из-за процедур торгов и процедур изменения госконтрактов. Фактически и в России сейчас гибкая разработка в гос ИТ возможна только in-house. О необходимости глубокой реформы закупок разработки ПО я писал неоднократно.
Отсутствие общих актуальных стандартов и руководств. Все по прежнему живут в мире ГОСТов 19 и 34 и в куче разрозненных методических рекомендаций. Такого чтобы более-менее унифицированно в одном месте было бы сведены все руководства на развитие систем - такого мало.
Это всё не полный список того что в России происходит минимум последние лет 15. И, к сожалению, именно по этим пунктам сдвига в госполитике нет.
Изначально в моём блоге: https://begtin.tech/it-government/
Ссылки:
[1] https://otr-online.ru/programmy/segodnya-v-rossii/ivan-begtin-33218.html
#digital #privacy
Ivan Begtin blog
ИТ и цифровизация в государстве сегодня
Вчера, 10 августа, в эфире на ОТР я обозначил некоторые тезисы насчёт принимаемых госпрограмм, в первую очередь по цифровизации государства, а сейчас повторюсь в том о чём много лет говорю в том что происходит в российском окологосударственном ИТ
Data discovery - это одна из важнейших тем в работе с данными которой мало учат и мало объясняют. Её смысл в поиске источников данных для Вашего проекта на основанного на данных. Это могут быть данные коммерческие, государственные, общественные и любые иные, главное знать где их находить.
Ещё в прошлом году я занимался таким структурированием по данным государственных финансов, именно по открытым данным, обозначая их хотя бы на верхнем уровне. В результате родилась карта из вопросов и ответов которую я стараюсь поддерживать в актуальном состоянии.
Визуальные карты есть приложением к этому посту и можно также скачать PDF для печати:
- на русском языке http://files.begtin.tech/f/4d1b7fbe9be84304810b/
- на английском языке http://files.begtin.tech/f/30c5e9bcf22844199e84/
Каждое подобное картирование - это очень дорогое удовольствие. Оно занимает очень много времени и требует компетенций не только и не столько в данных, сколько в понимании устройства самой отрасли. И даже в этой карте я охватываю не всё, а только открытую часть, полная карта всех государственных информационных систем куда больше.
По другим областям: здравоохранение, образование, транспорт или банковская система, эти карты окажутся не менее сложными. Когда-нибудь руки дойдут и до них.
Оригинальный текст на: https://begtin.tech/govfinances-map/
#opendata #govfinances
Ещё в прошлом году я занимался таким структурированием по данным государственных финансов, именно по открытым данным, обозначая их хотя бы на верхнем уровне. В результате родилась карта из вопросов и ответов которую я стараюсь поддерживать в актуальном состоянии.
Визуальные карты есть приложением к этому посту и можно также скачать PDF для печати:
- на русском языке http://files.begtin.tech/f/4d1b7fbe9be84304810b/
- на английском языке http://files.begtin.tech/f/30c5e9bcf22844199e84/
Каждое подобное картирование - это очень дорогое удовольствие. Оно занимает очень много времени и требует компетенций не только и не столько в данных, сколько в понимании устройства самой отрасли. И даже в этой карте я охватываю не всё, а только открытую часть, полная карта всех государственных информационных систем куда больше.
По другим областям: здравоохранение, образование, транспорт или банковская система, эти карты окажутся не менее сложными. Когда-нибудь руки дойдут и до них.
Оригинальный текст на: https://begtin.tech/govfinances-map/
#opendata #govfinances
Для всех кто меня расспрашивал про новостного бота в телеграме - инструкция с картинками https://begtin.tech/feedbot/
Ivan Begtin blog
FeedBot для Telegram
Пример такого - это FeedRetranslatorBot в телеграме которые перенаправляет новости из RSS каналов на сайте и просто страниц где есть новости в телеграм каналы.
Интернет компаниям приготовиться. ТАСС сообщает что "ФАС определила долю рынка для монополистов среди российских цифровых платформ" [1] и это будет 35% от рынка, главный вопрос в том как ФАС будет считать эти рынки. Рынок такси или рынок агрегаторов такси? Рынок поисковых систем? Или рынок онлайн коммерции? А может быть рынок онлайн объявлений?
Эта новость мною была давно ожидаемой, интерес государства к Цифровой экономике всегда заканчивается регуляторными ограничениями. Для интернет бизнеса самое время:
1. Резко начать прибедняться. Поубирать с сайтов что мол мы "лидер в xxx по версии xxx". Срочно заказывать публичные исследования рынка показывающие что у них меньше 35% рынка. Я бы даже сказал сверхсрочно. И стараться не светить публичной отчетностью без нужды
2. Начать вкладываться в GR и срочно формировать GR подразделения тем кто ещё это не сделал. Ходить и общаться придётся не только с ФАС.
Ссылки:
[1] http://tass.ru/ekonomika/5457343
#digitaleconomy #digital #fas
Эта новость мною была давно ожидаемой, интерес государства к Цифровой экономике всегда заканчивается регуляторными ограничениями. Для интернет бизнеса самое время:
1. Резко начать прибедняться. Поубирать с сайтов что мол мы "лидер в xxx по версии xxx". Срочно заказывать публичные исследования рынка показывающие что у них меньше 35% рынка. Я бы даже сказал сверхсрочно. И стараться не светить публичной отчетностью без нужды
2. Начать вкладываться в GR и срочно формировать GR подразделения тем кто ещё это не сделал. Ходить и общаться придётся не только с ФАС.
Ссылки:
[1] http://tass.ru/ekonomika/5457343
#digitaleconomy #digital #fas
ТАСС
ФАС определила долю рынка для монополистов среди российских цифровых платформ
В Ассоциации электронных коммуникаций отметили, что основной интерес для ФАС будут представлять B2B2C предприятия