Ivan Begtin
8.07K subscribers
1.49K photos
3 videos
99 files
4.23K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Открытые данные часто и даже чаще раскрываются не государством, а научными центрами. Примеров этому много, я регулярно их привожу и вот ещё один.

Allen Institute for Artificial Intelligence [1] разместили в открытом доступе базу SUPP.AI [2], научно подтвержденных взаимодействий разного рода лекарственных препаратов и иных веществ. Так называемых supplementals (вспомогательные вещества). Вся база собрана на основе публикаций которые в институте Аллена собирают в другом их проекте Semantic Scholar [3] где собраны практически все научные статьи, разобранные и проанализированные.

Тем временем в SUPP.AI можно найти информацию о взаимодействию:
- кофеина [4]
- никотина [5]
- витамин C [6]
и многое другое

А также все данные общедоступны, хотя и не под открытой лицензией [7]

Ссылки:
[1] https://allenai.org/
[2] https://supp.ai/
[3] https://www.semanticscholar.org/
[4] https://supp.ai/a/caffeine/C0006644?q=Caffeine
[5] https://supp.ai/a/nicotine/C0028040?q=Nikotine
[6] https://supp.ai/a/vitamin-c/C2349136?q=Vitamin
[7] https://api.semanticscholar.org/supp/legal/

#opendata #openscience #healthcare
Почему открытые данные - это всегда культура и далее технологии на примере данных о COVID-19 в России. Если кто-то не знает, в России за 2.5 года ковида Пр-во и Минздрав РФ в частности не публиковали наборы данных по эпидемии. Вместо этого они создали портал стопкоронавирус.рф имеющий скорее PR функцию и некоторые графики с отображением цифр. Да, были те энтузиасты кто эти графики преобразовывал в данные (используя парсинг), но в целом официальной публикации данных не было. А с декабря 2022 года, ещё и этот портал перестали обновлять.

Однако всё это время публиковался и продолжает публиковаться Еженедельный бюллетень по гриппу [1] в котором, в том числе, есть информация по заболеваемости COVID-19, но сам бюллетень публикуется в формате "не сказать бы лишнего". Там есть слова и графики и нет таблиц, нет разбивки заболеваемости по регионам и по городам, хотя такие сведения совершенно точно собираются и есть у составителей бюллетеня из ФГБУ «НИИ гриппа им. А.А. Смородинцева». Эти данные совершенно точно есть у сотрудников Минздрава РФ и знаете что самое удивительное? Что даже этот бюллетень доступен.

Минздрав РФ чуть ли не худшее ведомство в России по уровню открытости, я очень рекомендую послушать и посмотреть выступление Ксении Бабихиной из проекта Если быть точным [2] об опыте взаимодействия, отрицательном опыте, к сожалению.

А возвращаясь к данным о COVID-19, то, казалось бы, что мешает НИИ Гриппа публиковать развернутую статистику, что мешает Минздраву РФ размещать эти данные на портале открытых данных РФ, что мешало АНО "Диалог" или кто там вёл проект стопкоронавирус.рф предоставлять данные в машиночитаемом формате. Тем более что все они действовали и действуют на деньги налогоплательщиков.
Можно было бы посмотреть на пример Швейцарии и их опыта раскрытия не просто статистики, а всех случаях заболевания в обезличенном виде [3].

Вопрос о том "что мешает?" риторический.

Ссылки։
[1] https://www.influenza.spb.ru/system/epidemic_situation/laboratory_diagnostics/
[2] https://www.youtube.com/live/zYSr8gYJd4c?feature=share&t=3141
[3] https://t.me/begtin/4662

#opendata #healthcare #covid19
К вопросу о публикации данных, госполитике в этой области и тд. В прошлом году страховые компании в США начали публиковать данные о ценах на услуги в рамках требований так называемого Health Plan Transparency in Coverage Rule [1] регулирования в США обязывающего страховые компании раскрывать сведения о стоимости медицинских услуг.

Согласно этому регулированию ряд страховые компании начали выкладывать данные размером ... до 50 терабайт в сжатом виде! Пример, компании Humana [2] и United Healthcare [3]. В общей сложности там более 100ТБ в сжатом виде и более 600ТБ в распакованном и ещё и с ежемесячным обновлением, об этом писали ребята из DoltHub ещё в сентябре 2022 г. [4]

Очень много данных тоже может быть проблемой, потому что нужно ну очень много ресурсов чтобы такое не только хранить и скачать, но и обработать.

А сейчас эти же ребята из Dolthub их дообработали и начали публиковать расхождения между ценами страховщиков и ценами которые госпитали указывают на сайтах [5].

Очень интересно, хотя и Dolthub не правозащитники, а просто стартап создателей одноимённой платформы а ля Git-для-данных, с хранением данных довольно большого объёма.

Но ведь интересен масштаб, не правда ли? Всё таки 600ТБ - это очень много данных, причём по социально значимой теме.

Роль государства в этом - роль регулятора, государство имеет все необходимые механизмы принуждения к открытости естественные монополии и социально значимые компании олигопольных рынков к раскрытию данных в машиночитаемых форматах. Такие действия усиливают не госконтроль, а влияние граждан. Открытость данных и информации - это всегда, в принципе, про усиление граждан .

Ссылки:
[1] https://www.cms.gov/healthplan-price-transparency
[2] https://developers.humana.com/syntheticdata/healthplan-price-transparency
[3] https://transparency-in-coverage.uhc.com/
[4] https://www.dolthub.com/blog/2022-09-02-a-trillion-prices/
[5] https://www.dolthub.com/blog/2023-03-23-illusion-of-transparency/

#opendata #usa #healthcare #datasets