Баланс приватного и открытого - это важнейшая тема на повестке. Это же одна из причин почему я считаю что существование тематики открытых данных самой по себе в России невозможно без диалога со сторонами отвечающих за приватность и безопасность данных. И "Совет по открытым данным" при Правительственной комиссии в текущей своей форме не имеет сколь бы то ни было шансов на системное развитие темы открытых данных именно по причине игнорирования баланса между открытостью и приватностью.
Ссылки:
[1] https://ru.wikipedia.org/wiki/OSINT
[2] https://clearspending.ru/media/analytics/Open%20data%20as%20a%20tool%20for%20civil%20society%20and%20expert%20control%20in%20public%20procurement.pdf
[3] http://www.automatingosint.com/blog/2016/12/vacuuming-image-metadata-from-the-wayback-machine/
[4] http://www.automatingosint.com/blog/2015/08/osint-python-common-crawl/
[5] http://ceur-ws.org/Vol-1748/paper-19.pdf
[6] https://pralab.diee.unica.it/sites/default/files/The_dark_side_of_open_data_Mauri_KDWEB_2016_609x914.pdf
[7] https://www.linkedin.com/pulse/open-government-data-analysis-retrieve-osint-insights-abhinav-biswas
[8] https://censys.io/
[9] https://www.kaggle.com/c/outbrain-click-prediction
[10] http://www.aph.gov.au/Parliamentary_Business/Bills_Legislation/Bills_Search_Results/Result?bId=s1047
[11] http://www.zdnet.com/article/australian-data-re-identification-defendants-will-need-to-prove-their-innocence/
#opendata #osint
Ссылки:
[1] https://ru.wikipedia.org/wiki/OSINT
[2] https://clearspending.ru/media/analytics/Open%20data%20as%20a%20tool%20for%20civil%20society%20and%20expert%20control%20in%20public%20procurement.pdf
[3] http://www.automatingosint.com/blog/2016/12/vacuuming-image-metadata-from-the-wayback-machine/
[4] http://www.automatingosint.com/blog/2015/08/osint-python-common-crawl/
[5] http://ceur-ws.org/Vol-1748/paper-19.pdf
[6] https://pralab.diee.unica.it/sites/default/files/The_dark_side_of_open_data_Mauri_KDWEB_2016_609x914.pdf
[7] https://www.linkedin.com/pulse/open-government-data-analysis-retrieve-osint-insights-abhinav-biswas
[8] https://censys.io/
[9] https://www.kaggle.com/c/outbrain-click-prediction
[10] http://www.aph.gov.au/Parliamentary_Business/Bills_Legislation/Bills_Search_Results/Result?bId=s1047
[11] http://www.zdnet.com/article/australian-data-re-identification-defendants-will-need-to-prove-their-innocence/
#opendata #osint
Wikipedia
Разведка по открытым источникам
разведывательная дисциплина на основе открытых источников
Ещё вчера поиск Яндекса выдавал множество интереснейших результатов при поиске по общедоступным документам в Google Documents (docs.google.com), например, многие находили там общедоступные списки паролей, паспортные данные и списки ДСП и иных непубличных документов.
Всё это происходило по причине того Google позволял индексировать эти документы [1], а Яндекс выдавал эти результаты. Сработала комбинация факторов, начиная с пользователей кто делал общедоступными по ссылке документы, и продолжая поисковиками которые, с ненулевой вероятностью, получали эти ссылки не интернет-краулинга, а из истории посещений браузеров и из ссылок при переписке по электронной почте.
Сейчас поиск по "passwords site:docs.google.com" уже не работает [2], по крайней мере на утро 5 июля.
То что вскрылось сейчас это не единственный такой случай. Какое-то время назад аналогично и гугл индексировал disk.yandex.ru, yadi.sk и другие домены Яндекс.Диска с содержащимися там файлами и находки там были ничуть не менее нелестными, но не получили публичного освещения.
Всё это совсем не новость для всех кто более-менее серьёзно занимался темой Open Source Intelligence. Индексы поисковых систем - это один из источников информации при составлении досье, анализе информации о компании или о человеке и не только.
Большинство тех кто знает такие механизмы утечки информации не афишируют свои знания, используют их по мере практической необходимости.
Для Google даже существует Google Hacking Database (GHDB) [3] с большой коллекцией запросов по поиску уязвимостей в серверах и устройствах и утечек данных на сайтах. Для Яндекса я ничего подобного и публичного не встречал, отчасти из-за значительно более слабого общедоступного языка запросов к поисковому индексу (внутри то я не сомневаюсь возможностей гораздо больше).
Надо помнить что такие утечки не редкость. Один из малоизученных пока каналов утечки - это сканы документов. Google, Яндекс, Bing и остальные поисковики постепенно учатся индексировать текст с картинок, из PDF'ов состоящих из изображений, заглядывают в файлы архивов и вообще вгрызаются в ранее не индексируемые документы. Это вытаскивает на свет документы содержащие персональные данные и много другой чувствительной информации.
Увы, те кто до сих пор публикуют сканы документов этого не понимают. Впрочем и без сканированных документов и даже на государственных сайтах часто исполнители просто не проверяют что они публикуют и в открытом доступе оказываются документы и другие материалы которых там не должно было бы быть никогда.
Ссылки:
[1] https://docs.google.com/robots.txt
[2] https://yandex.ru/search/?text=passwords&lr=213&site=docs.google.com
[3] https://www.exploit-db.com/google-hacking-database/
#opendata #osint #security #privacy
Всё это происходило по причине того Google позволял индексировать эти документы [1], а Яндекс выдавал эти результаты. Сработала комбинация факторов, начиная с пользователей кто делал общедоступными по ссылке документы, и продолжая поисковиками которые, с ненулевой вероятностью, получали эти ссылки не интернет-краулинга, а из истории посещений браузеров и из ссылок при переписке по электронной почте.
Сейчас поиск по "passwords site:docs.google.com" уже не работает [2], по крайней мере на утро 5 июля.
То что вскрылось сейчас это не единственный такой случай. Какое-то время назад аналогично и гугл индексировал disk.yandex.ru, yadi.sk и другие домены Яндекс.Диска с содержащимися там файлами и находки там были ничуть не менее нелестными, но не получили публичного освещения.
Всё это совсем не новость для всех кто более-менее серьёзно занимался темой Open Source Intelligence. Индексы поисковых систем - это один из источников информации при составлении досье, анализе информации о компании или о человеке и не только.
Большинство тех кто знает такие механизмы утечки информации не афишируют свои знания, используют их по мере практической необходимости.
Для Google даже существует Google Hacking Database (GHDB) [3] с большой коллекцией запросов по поиску уязвимостей в серверах и устройствах и утечек данных на сайтах. Для Яндекса я ничего подобного и публичного не встречал, отчасти из-за значительно более слабого общедоступного языка запросов к поисковому индексу (внутри то я не сомневаюсь возможностей гораздо больше).
Надо помнить что такие утечки не редкость. Один из малоизученных пока каналов утечки - это сканы документов. Google, Яндекс, Bing и остальные поисковики постепенно учатся индексировать текст с картинок, из PDF'ов состоящих из изображений, заглядывают в файлы архивов и вообще вгрызаются в ранее не индексируемые документы. Это вытаскивает на свет документы содержащие персональные данные и много другой чувствительной информации.
Увы, те кто до сих пор публикуют сканы документов этого не понимают. Впрочем и без сканированных документов и даже на государственных сайтах часто исполнители просто не проверяют что они публикуют и в открытом доступе оказываются документы и другие материалы которых там не должно было бы быть никогда.
Ссылки:
[1] https://docs.google.com/robots.txt
[2] https://yandex.ru/search/?text=passwords&lr=213&site=docs.google.com
[3] https://www.exploit-db.com/google-hacking-database/
#opendata #osint #security #privacy
Exploit-Db
OffSec’s Exploit Database Archive
The GHDB is an index of search queries (we call them dorks) used to find publicly available information, intended for pentesters and security researchers.
Возможно ли применение искусственного интеллекта или, хотя бы, умных алгоритмов предсказания в геополитике? Вполне возможно.
Уже второе онлайн соревнование Geopolitical Forecasting Challenge 2 [1] для специалистов по работе с данными организует The Intelligence Advanced Research Projects Activity [2], исследовательское подразделение при руководители национальной разведки [3] США.
Вопросы на которые ищут ответы участники выглядят так:
- Сколько событий с тестированием ракет в Северной Корее будет в августе 2019 года?
- Появится ли случай, локально-передающийся вирус Зика в Бразилии в июле 2019 года?
- Какой будет ежедневная цена закрытия на золото в июне 2019 года в USA ?
- Какая политическая партия выиграет большую часть мест во время Польских Парламентских выборов?
И это только примеры вопросов, на практике их гораздо больше и ответы на них должны находится автоматически на основе данных которые предоставляют организаторы по прогнозам аналитиков и на основе тех данных что участники найдут/соберут сами. Данные которые IARPA предоставляет, также из весьма интересного источника. Cultivate Labs [4] собирают огромное число предсказаний от людей в режиме краудсорсинга, и они предоставляют своё API участникам.
Этот конкурс не единственный организуемый государством. В США помимо портала challenge.gov [5], конкурсы публикуются на платформах HeroX [6], Kaggle и многих других.
Лично я считаю что потенциал таких технологических конкурсов сильно недооценён в России.
Ссылки:
[1] https://www.herox.com/IARPAGFChallenge2
[2] http://www.iarpa.gov
[3] https://www.dni.gov/
[4] https://www.cultivatelabs.com/
[5] http://www.challenge.gov
[6] https://www.herox.com/crowdsourcing-projects/government
#challenges #data #osint #opendata
Уже второе онлайн соревнование Geopolitical Forecasting Challenge 2 [1] для специалистов по работе с данными организует The Intelligence Advanced Research Projects Activity [2], исследовательское подразделение при руководители национальной разведки [3] США.
Вопросы на которые ищут ответы участники выглядят так:
- Сколько событий с тестированием ракет в Северной Корее будет в августе 2019 года?
- Появится ли случай, локально-передающийся вирус Зика в Бразилии в июле 2019 года?
- Какой будет ежедневная цена закрытия на золото в июне 2019 года в USA ?
- Какая политическая партия выиграет большую часть мест во время Польских Парламентских выборов?
И это только примеры вопросов, на практике их гораздо больше и ответы на них должны находится автоматически на основе данных которые предоставляют организаторы по прогнозам аналитиков и на основе тех данных что участники найдут/соберут сами. Данные которые IARPA предоставляет, также из весьма интересного источника. Cultivate Labs [4] собирают огромное число предсказаний от людей в режиме краудсорсинга, и они предоставляют своё API участникам.
Этот конкурс не единственный организуемый государством. В США помимо портала challenge.gov [5], конкурсы публикуются на платформах HeroX [6], Kaggle и многих других.
Лично я считаю что потенциал таких технологических конкурсов сильно недооценён в России.
Ссылки:
[1] https://www.herox.com/IARPAGFChallenge2
[2] http://www.iarpa.gov
[3] https://www.dni.gov/
[4] https://www.cultivatelabs.com/
[5] http://www.challenge.gov
[6] https://www.herox.com/crowdsourcing-projects/government
#challenges #data #osint #opendata
Herox
Geopolitical Forecasting [GF] Challenge 2 | HeroX
We’re on a mission to improve the accuracy and timeliness of geopolitical forecasts by advancing the science of forecasting.