Ivan Begtin

Баланс приватного и открытого - это важнейшая тема на повестке. Это же одна из причин почему я считаю что существование тематики открытых данных самой по себе в России невозможно без диалога со сторонами отвечающих за приватность и безопасность данных. И "Совет по открытым данным" при Правительственной комиссии в текущей своей форме не имеет сколь бы то ни было шансов на системное развитие темы открытых данных именно по причине игнорирования баланса между открытостью и приватностью.

Ссылки:
[1] https://ru.wikipedia.org/wiki/OSINT
[2] https://clearspending.ru/media/analytics/Open%20data%20as%20a%20tool%20for%20civil%20society%20and%20expert%20control%20in%20public%20procurement.pdf
[3] http://www.automatingosint.com/blog/2016/12/vacuuming-image-metadata-from-the-wayback-machine/
[4] http://www.automatingosint.com/blog/2015/08/osint-python-common-crawl/
[5] http://ceur-ws.org/Vol-1748/paper-19.pdf
[6] https://pralab.diee.unica.it/sites/default/files/The_dark_side_of_open_data_Mauri_KDWEB_2016_609x914.pdf
[7] https://www.linkedin.com/pulse/open-government-data-analysis-retrieve-osint-insights-abhinav-biswas
[8] https://censys.io/
[9] https://www.kaggle.com/c/outbrain-click-prediction
[10] http://www.aph.gov.au/Parliamentary_Business/Bills_Legislation/Bills_Search_Results/Result?bId=s1047
[11] http://www.zdnet.com/article/australian-data-re-identification-defendants-will-need-to-prove-their-innocence/

#opendata #osint

1.48K views03:39

Ivan Begtin

Ещё вчера поиск Яндекса выдавал множество интереснейших результатов при поиске по общедоступным документам в Google Documents (docs.google.com), например, многие находили там общедоступные списки паролей, паспортные данные и списки ДСП и иных непубличных документов.

Всё это происходило по причине того Google позволял индексировать эти документы [1], а Яндекс выдавал эти результаты. Сработала комбинация факторов, начиная с пользователей кто делал общедоступными по ссылке документы, и продолжая поисковиками которые, с ненулевой вероятностью, получали эти ссылки не интернет-краулинга, а из истории посещений браузеров и из ссылок при переписке по электронной почте.

Сейчас поиск по "passwords site:docs.google.com" уже не работает [2], по крайней мере на утро 5 июля.

То что вскрылось сейчас это не единственный такой случай. Какое-то время назад аналогично и гугл индексировал disk.yandex.ru, yadi.sk и другие домены Яндекс.Диска с содержащимися там файлами и находки там были ничуть не менее нелестными, но не получили публичного освещения.

Всё это совсем не новость для всех кто более-менее серьёзно занимался темой Open Source Intelligence. Индексы поисковых систем - это один из источников информации при составлении досье, анализе информации о компании или о человеке и не только.

Большинство тех кто знает такие механизмы утечки информации не афишируют свои знания, используют их по мере практической необходимости.

Для Google даже существует Google Hacking Database (GHDB) [3] с большой коллекцией запросов по поиску уязвимостей в серверах и устройствах и утечек данных на сайтах. Для Яндекса я ничего подобного и публичного не встречал, отчасти из-за значительно более слабого общедоступного языка запросов к поисковому индексу (внутри то я не сомневаюсь возможностей гораздо больше).

Надо помнить что такие утечки не редкость. Один из малоизученных пока каналов утечки - это сканы документов. Google, Яндекс, Bing и остальные поисковики постепенно учатся индексировать текст с картинок, из PDF'ов состоящих из изображений, заглядывают в файлы архивов и вообще вгрызаются в ранее не индексируемые документы. Это вытаскивает на свет документы содержащие персональные данные и много другой чувствительной информации.

Увы, те кто до сих пор публикуют сканы документов этого не понимают. Впрочем и без сканированных документов и даже на государственных сайтах часто исполнители просто не проверяют что они публикуют и в открытом доступе оказываются документы и другие материалы которых там не должно было бы быть никогда.

Ссылки:
[1] https://docs.google.com/robots.txt
[2] https://yandex.ru/search/?text=passwords&lr=213&site=docs.google.com
[3] https://www.exploit-db.com/google-hacking-database/

#opendata #osint #security #privacy

Exploit-Db

OffSec’s Exploit Database Archive

The GHDB is an index of search queries (we call them dorks) used to find publicly available information, intended for pentesters and security researchers.

856 viewsIvan Begtin, 02:36

Ivan Begtin

Возможно ли применение искусственного интеллекта или, хотя бы, умных алгоритмов предсказания в геополитике? Вполне возможно.

Уже второе онлайн соревнование Geopolitical Forecasting Challenge 2 [1] для специалистов по работе с данными организует The Intelligence Advanced Research Projects Activity [2], исследовательское подразделение при руководители национальной разведки [3] США.

Вопросы на которые ищут ответы участники выглядят так:
- Сколько событий с тестированием ракет в Северной Корее будет в августе 2019 года?
- Появится ли случай, локально-передающийся вирус Зика в Бразилии в июле 2019 года?
- Какой будет ежедневная цена закрытия на золото в июне 2019 года в USA ?
- Какая политическая партия выиграет большую часть мест во время Польских Парламентских выборов?

И это только примеры вопросов, на практике их гораздо больше и ответы на них должны находится автоматически на основе данных которые предоставляют организаторы по прогнозам аналитиков и на основе тех данных что участники найдут/соберут сами. Данные которые IARPA предоставляет, также из весьма интересного источника. Cultivate Labs [4] собирают огромное число предсказаний от людей в режиме краудсорсинга, и они предоставляют своё API участникам.

Этот конкурс не единственный организуемый государством. В США помимо портала challenge.gov [5], конкурсы публикуются на платформах HeroX [6], Kaggle и многих других.

Лично я считаю что потенциал таких технологических конкурсов сильно недооценён в России.

Ссылки:
[1] https://www.herox.com/IARPAGFChallenge2
[2] http://www.iarpa.gov
[3] https://www.dni.gov/
[4] https://www.cultivatelabs.com/
[5] http://www.challenge.gov
[6] https://www.herox.com/crowdsourcing-projects/government

#challenges #data #osint #opendata

Herox

Geopolitical Forecasting [GF] Challenge 2 | HeroX

We’re on a mission to improve the accuracy and timeliness of geopolitical forecasts by advancing the science of forecasting.

1.32K viewsIvan Begtin, edited 01:46

1 comment

Ivan Begtin

В 404media статья [1] за пэйволом и подскаст [2] о том что иммиграционная служба США наняла подрядчика ShadowDragon который занимается OSINT по паре сотен сайтов социальных сетей, шоппинга и тд. для идентификации активности мигрантов. В фонде Mozilla уже объявили кампанию [3] сбора подписей против такой слежки и приводят список из этих 200+ сайтов [4].

Про ShadowDragon [5] мне лично мало что известно, на их сайте есть краткое, нетехническое описание их продуктов которые, в основном, про кибербезопасность и OSINT в глобальных расследованиях.

В целом же новость такая что сложно быть безучастным. В том что правоохранительные органы имеют возможность формировать профили пользователей давно нет сомнений, в том что массовая слежка присутствует тоже общеизвестно, но привлечение OSINT компании и сбор данных из коммерческих сервисов - это не то чтобы новое, но нечасто выплывает наружу.

Ссылки:
[1] https://www.404media.co/the-200-sites-an-ice-surveillance-contractor-is-monitoring/
[2] https://www.404media.co/podcast-the-websites-an-ice-contractor-is-monitoring/
[3] https://foundation.mozilla.org/en/campaigns/no-data-for-surveillance-tech/
[4] https://docs.google.com/spreadsheets/d/1VyAaJaWCutyJyMiTXuDH4D_HHefoYxnbGL9l02kyCus/edit?ref=404media.co&gid=0#gid=0
[5] https://shadowdragon.io/

#privacy #osint #usa #immigration #masssurveillance

404 Media

The 200+ Sites an ICE Surveillance Contractor is Monitoring

404 Media has obtained the list of sites and services that ICE contractor ShadowDragon pulls data from. ShadowDragon sources data from all over the web and lets government analysts easily search it and draw connections between people.

❤‍🔥3❤2👍2✍1

1.64K viewsIvan Begtin, 16:43

Ivan Begtin

Свежая модель o3 от OpenAI умеет неплохо в местоположение по фотографии, угадывает с большой точностью не всё, но многое. Для OSINT бесценный инструмент.

Думаю что загрузив несколько фотографий из одного места можно получить ещё более точный результат, пока не проверял.

Но что важно это то что результат зависит от языка запроса. Один и тот же вопрос на русском и на армянском языках даёт разные результаты, пересекающиеся, но... разные.

#ai #photo #tools #osint

🔥13

1.67K viewsIvan Begtin, 10:40

Ivan Begtin

В продолжение истории про документы выложенные Минюстом США и в которых замазанный текст легко распознается я скажу вам что совершенно не удивлен и косяков госорганов и корпоратов в работе с документами и данными я знаю много, хотя и рассказывать про большую часть не могу и не хочу потому что не чувствую своей принадлежности к рынкам инфобеза и OSINT. Расскажу лишь некоторые примеры не называя имен

1. Скрытые, но доступные данные в недокументированном API
Госорган создает общедоступный портал с некоторой информацией и портал построен по уже классической трехзвенной структуре: База данных -> Слой API -> Веб интерфейс. При этом все ограничения в доступе к данным делаются только на уровне веб интерфейса, а через API вполне можно собирать записи имеющие статус "удаленные" или "черновики". Ситуация вообще не редкая и возникает от недостатка квалификации постановщика задачи, разработчиков и недостаточного тестирования

2. Скрытые данные в общедоступных материалах
Многие форматы публикации текстов, таблиц и изображений имеют свои особенности позволяющие как скрывать часть содержания так и "раскрывать" его. Пример с закрашиванием PDF файлов всем хорошо известен, а есть, к примеру, случаи когда публикуются Excel файлы со скрытыми вкладками, частенько когда публикуют статистику ее рассчитывают на более детальных первичных данных в другой вкладке, а потом эту вкладку скрывают, а не удаляют. Так чувствительные данные внутри Excel файлов становятся общедоступными. Есть и другие случаи когда одни файлы MS Office погружают в другие, а когда запускают процесс удаления метаданных он вырезает метаданные из основного контейнера, но не удаляет их из внедренных файлов. И так далее, это только то что совсем на поверхности

3. Доступное API стандартизированного ПО
Организация выбирает стандартизированное ПО для сайта, а у этого стандартизированного ПО (CMS) есть какое-то количество опять же стандартно общедоступных API о которых они могут и не подозревать. Я привожу часто в пример WordPress у которого есть открытые эндпоинты дающие возможность находить документы ссылок на которые может не быть на сайте, но сами файлы остаются. Например, если кто-то загружает документ в WordPress и потом делиться на него с кем-то по прямой ссылке, то даже если на страницах сайта этого документа нет, то в API он доступен. WordPress - это пример, кроме него есть немало других CMS и веб фреймворков имеющих такую особенность
—
Насмотревшись всего этого в больших количествах я совершенно не удивляюсь когда вижу как в очередной раз кто-то попадается на такой лаже как "затереть текст в PDF файле", думаю что еще не раз такое будет.

А я про такое пишу пореже потому что лично мне открытые данные и дата инженерия куда интереснее, кроме того рассказывая какой-либо кейс с такими утечками данных всегда велика вероятность что канал утечки исчезнет;)

#thoughts #osint #data #privacy

Ivan Begtin

Любопытные граждане нашли в выложенных документах по делу Эпштейна что текст там замарывали в виде слоя к PDF файлу и содержание под слоем читается даже без спецсредств, просто выделением текста

Думаю что в ближайшее время Минюст США эти документы начнет…

🔥12

1.37K viewsIvan Begtin, 07:54

About

Blog

Apps

Platform