Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Появляется всё больше и больше публикаций о том что big data - это необязательно манна небесная, но наоборот, меняет и разрушает существующие социальные и экономические отношения. Oliver Ralph в статье в Financial Times [1] пишет о том что некоторые граждане рискуют стать (и становятся) нестрахуемыеми, даже точнее, «непригодными для страхования».

Всё дело как раз в современных алгоритмах и накопленным данным которые позволяют страховым компаниям отказывать потенциальным получателям страховки в виду их высокой рискованности.

Однако такая выгода для страховых компаний оборачивается разрушением роли страховых компаний для общества. В мире где страховка необходима для зарубежных поездок, получения работы и многого другого где она является обязательной, в этом мире мы сталкиваемся с ситуацией «новых неприкасаемых». Это люди чьи поступки, действия или чьё окружение в прошлом привели к тому что они исключаются из значительных областей человеческой жизни. Ими могут оказаться как те кто ранее был осуждёт, пережил серьёзную болезнь, так и те у кого может быть обнаружена генетическая болезнь.

В особенности это касается медицинского страхования и особенные риски создаёт как раз доступность генетических данных. Уже сейчас медицинское страхование устроено так что если у Вас выявлено серьёзное хроническое заболевание, то стоимость медицинской страховки при платном страховании значительно вырастает. А в ситуации когда будущие хронические заболевания можно предсказать по генетическим данным мы окажемся в ситуации появления активной генетической дискриминации, очень похожей на ту которую можно было увидеть в фильме Гаттака [2].

Здесь нельзя не напомнить о Genetic Information Nondiscrimination Act of 2008 законе США, пока единственной известной мне стране где подобная практика запрещена законом, что впрочем не означает что она не будет практиковаться там и в других странах, включая Россию.

Ссылки:
[1] http://www.ft.com/cms/s/0/1900a88c-4e71-11e6-88c5-db83e98a590a.html#axzz4F2wBoLG3 (требует регистрации и подписки)
[2] https://ru.wikipedia.org/wiki/%D0%93%D0%B0%D1%82%D1%82%D0%B0%D0%BA%D0%B0
[3] https://www.genome.gov/10002328/genetic-discrimination-fact-sheet/

#bigdata #opendata #privacy #genetics
Comparitech выпустили сравнение 96 стран по тому как те используют биометрические данные [1]. Согласно исследованию хуже всего ситуация в Китае и лучше всего в Эфиопии и Туркменистане (видимо из-за неразвитости технологий). В целом исследование не претендует на научность и практически полностью основано на публикациях в СМИ, которые и приведены в списке источников.

Уровень использования биометрических данных в России лучше чем в США или в Иране, но хуже чем в Польше, Германии или Казахстане.

Опять же, поскольку методология исследования вызывает очень много вопросов, интереснее приводимые там факты. Например, национальная биометрическая база в Китае включающая теперь ещё и данные ДНК [2] или разрешение компаниям собирать данных о мозговых волнах работниках [3].

И так далее, ещё много примеров по другим странам.

Что находится за пределами этого исследования так это то что биометрические данные концентрируются не только в государстве. Если говорить про Россию, то из актуального - это вхождение Яндекса в капитал Генотек'а [4], где хоть и сделано множество оговорок про не передачу Яндексу каких-либо данных, но не тревожить не может.

Впрочем, если говорить про Россию, то у нас наиболее вероятен китайский путь с построением одной или нескольких национальных баз данных с биометрическими данными и постепенное введение регуляторки по сдачи в государственную информационную систему(-ы) биометрических данных собираемых частными компаниями.

P.S. Не все знают и не все понимают природу биометрических данных. Приведу несколько примеров, без ссылок:
- кроме распознавания лиц есть немало других технологий бесконтактного снятия биометрических данных, например, распознавание радужной оболочки возможно на расстоянии до 10 метров, распознавание походки, распознавание по форме рук и кистей и др.
- расшифровка генома - это передача третьей стороне данных не только о себе, но и о своих ближайших родственниках;
- отпечатки пальцев родственников имеют много схожих признаков и, при наличии финансирования исследований в этом направлении, можно научиться выявлять взаимосвязи;

По биометрии не так много хорошей литературы, многие технологии в этой области очень наукоёмки и требуют длительных исследований, с другой стороны, если запреты на именно распознавание по лицам получит распространение, то пойдут инвестиции в исследования в других направлениях: распознавание одежды, формы горла и ушей и иных биометрических признаков.

Ссылки:
[1] https://www.comparitech.com/blog/vpn-privacy/biometric-data-study/
[2] https://www.rfa.org/english/news/china/collect-08232019115209.html
[3] https://www.businessinsider.com/china-emotional-surveillance-technology-2018-4?r=US&IR=T
[4] https://blog.genotek.ru/genotek-and-yandex

#privacy #biometrics #genetics
В каждой профессии есть большие вызовы, иногда кажущиеся смешными, иногда невозможными. Например, в генетике восстановление вымерших видов может показаться невозможным или чертовски сложным, но, тем не менее учёные всё ближе к этому подступают. В статье Why ‘De-Extinction’ Is Impossible (But Could Work Anyway) [1] о том почему "воскрешение" уже несуществующих видов возможно если доступен генетический материал, а иногда и другими способами.

Очень скоро спасение вымирающих животных может заключаться в в ускоренном создании банков генетических данных чтобы будущие поколения могли бы восстановить их популяции в будущем.

Ссылки:
[1] https://www.quantamagazine.org/why-de-extinction-is-impossible-but-could-work-anyway-20220509/

#data #genetics
В рубрике крупнейших наборов данных в мире GenBank [1] база геномной информации о человеке от Национального центра биотехнологической информации США. В общей сложности размер последней 263 версии базы GenBank составляет около 6.4 ТБ первичных данных и около 2.7 ТБ данных закодированных по ASN.1 [2]. Все эти данные доступны на сайте через веб интерфейс и для скачивания через FTP сервер.

В общей сложности база GenBank включает 5.13 миллиардов записей и 36.5 триллионов атрибутов/значений.

Много ли это? Да, безусловно это большие данные требующие существенных ресурсов для их обработки и анализа. И в мире геномной информации это далеко не единственный крупный архив данных.

Если сравнить его с открытыми данными публикуемыми на госпорталах открытых данных, то GenBank будет больше их всех вместе взятых, за исключением порталов с геоданными.

Ссылки:
[1] https://www.ncbi.nlm.nih.gov/genbank/
[2] https://ncbiinsights.ncbi.nlm.nih.gov/2024/10/24/genbank-release-263/

#opendata #datasets #openaccess #genetics