Ivan Begtin
8.08K subscribers
1.46K photos
3 videos
98 files
4.19K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Для всех кто не просто интересуется журналистикой данных, но и уже почувствовал в себе амбиции к чему-то большему - появилась программа поддержки медиа стартапов. Лондонский акселератор Founders Factory [1] до 23 сентября принимает заявки от медиа стартапов [2]. Форма заявки доступна по ссылке [3], помните что приём идёт до 23 сентября!

В России, насколько я знаю, пока нет выделенного стартап фонда поддержки медийных стартапов, хотя и таких фондов и инкубаторов явно нехватает. В то же время для медиа стартапов остаётся немало возможностей и в рамках таких фондов как ФРИИ да и других существующих инкубаторов.

Ссылки:
[1] https://foundersfactory.co
[2] https://foundersfactory.co/accelerator/
[3] https://podio.com/webforms/12695852/867095

#opendata #opengov #datajournalism
Дата-журналистика популярная тема в современных медиа стартапах, но с ней вполне успешно конкурирует краудсорсинг и все формы его использования.

Относительно недавний, вот уже 2-х летний стартап Fresco News [1] сводит вместе медиа которые ищут видео и фото событий и людей с камерами которые рядом с этими событиями. И платят тем кто предоставит им свой контент.

Идея, безусловно, не нова. И тот же LifeCorr [2], приложение российского издания Life имеет куда больший охват, однако в случае Fresco News интересен подход платформы как посредника между изданиями и поставщиками медиа в лице неограниченного числа лиц. Это заодно и решает проблему заимствования материалов из социальных сетей.

Из других интересных медиа-стартапов я бы выделил:
- Scoop Analytics [3] - выявление новостей из соц сетей до того как они станут новостями
- Typewriter Plus [4] - редактора для ваших текстов по запросу онлайн
- FOIA Mapper [5] - сервис и база запросов к органам власти в США для работы журналистов

Ссылки:
[1] https://fresconews.com/
[2] https://play.google.com/store/apps/details?id=com.babo.lifefun
[3] https://www.scoopanalytics.com/
[4] https://www.typewriter.plus/
[5] https://foiamapper.com

#opengov #datajournalism #journalism
Анонсирована новая версия Data Journalism Handbook [1], руководства по журналистике данных написанное Саймоном Роджерсом в 2011 году и через 6 лет обновленное и готовящееся к выпуску сразу на 4-х языках в 2018 году. Согласно официальному анонсу [2] руководство выпускается совместно Европейским центром журналистики [3] и Google News Lab [4].

Автор руководства, Саймон Роджерс, изначально был автором Guardian Datablog, непрерывно обновляемого блога на сайте Guardian где публиковались графики, данные, инфографика и другие примеры работы журналиста данных. Сейчас он является редактором и журналистом данных в Google [6].

Обратите внимание на то что он не толькок datajournalist, но и dataeditor. Роль которая может показаться новой в российских медиареалиях, но вполне понятная в крупных международных медиахолдингах.

Google News Lab практически не представлены в России, хотя они и регулярно делают и публикуют очень интересные интерактивные проекты. Например, Rhythm of Food [7] о том как и в какой сезон ищут еду через поиск Google сделанное при поддежке Google News Lab в студии Truth-and-Beauty [8].

Другой интересный проект при их поддержке Tilegrams [9] визуализация регионов США, Франции и Германии в виде 6-ти угольников (хексагонов) с возможностью довольно тонкой настройки и подборки. Основной смысл в создании размерности регионов при котором они отображаются в пропорциях набора данных, например, населения. Создан этот проект в Pitch Interactive [10].

Ссылки:
[1] http://datajournalismhandbook.org/
[2] https://medium.com/we-are-the-european-journalism-centre/say-hello-to-the-new-data-journalism-handbook-6f8bc8f32c22
[3] http://ejc.net/
[4] https://newslab.withgoogle.com/
[5] https://www.theguardian.com/data
[6] https://medium.com/@smfrogers
[7] http://rhythm-of-food.net/
[8] http://truth-and-beauty.net/
[9] https://pitchinteractiveinc.github.io/tilegrams/
[10] http://pitchinteractive.com/

#opendata #data #datajournalism
Может ли журналистика остаться коммерческой? Чем отличается журналист от сотрудника некоммерческой органиации? Очень часто ничем, в России многие НКО одновременно являются СМИ и наоборот, многие СМИ являются НКО. Если в России это чаще связано с простотой получения госсубсидий для СМИ, то в мире похожий тренд связан с общим падением доходов СМИ от рекламы.

Journalism Funders Forum [1] организованный Европейским центром журналистики и Фондом Билла и Мелинды Гейтс с начала 2017 года выпустил три отчета и провел три сессии в Лондоне, Париже и Гамбурге посвященные некоммерческому финансированию журналистике.

В каждом из отчетов много примеров фондов финансирующих медиа проекты в этих странах, примеры конкретных проектов и о том как некоммерческое финансирование развивается за эти годы.

Ссылки:
[1] https://journalismfundersforum.com/

#datajournalism #newmedia
Минутка рекламы на канале

Если Вы еще не решили куда поступать в этом году и где становиться магистром, то без зазрения совести рекомендую магистерскую программу "Журналистику данных" https://www.hse.ru/ma/datajourn/

Кроме возможности заняться интересной ветвью журналистики - это еще и возможность совместить знания медиа рынки с навыками программирования. Учиться делать спецпроекты и еще многое другое.

Все связано с открытыми данными, конечно же.

Инфокультура является индустриальным партнером программы и мы берем на практику и стажировку студентов.

#opendata #datajournalism
В блоге Гугл интересный обзор текущего состояния журналистики данных [1]. Что характерно, исследование было довольно обстоятельно, они сделали 56 глубоких интервью и в 900 ньюсрумах в 4-х странах провели опросы.

Главный тезис - теперь "Дата журналистика" это и есть журналистика.

Главные выводы:
- 14% журналистов используют данные ежедневно
- 42% журналистов используют данные не менее 2-х раз в неделю
- более 50% журналистов не считаю что журналистика данных требует специальных навыков
- а среди журналистов работающих в области технологий таких более 70%
- более 50% респондентов указали что у них есть журналисты работающие именно с данными (dedicated data journalists)
- более всего журналистика данных используется для визуализаций связанных с политикой и с финансами
- более 2/3 дата историй во Франции создаются не дольше 1 дня
и так далее.

Подробнее можно узнать в отчете в PDF [2].

Ссылки:
[1] https://www.blog.google/topics/journalism-news/data-journalism-2017/
[2] https://newslab.withgoogle.com/assets/docs/data-journalism-in-2017.pdf

#opendata #opengov #datajournalism
О том как на базе данных делают работу исследователи-журналисты данных в публикации Paul Bradshow [1]

Он разбирает 4 истории:
1. Анализ 300 тысяч песен из MusicNotes и выявление певцов с наиболее широким диапазоном голосом и публикация в The Mirror [2]
2. She Giggles, He Gallops (Она хихикает, он скачет). Гендерные диалоги в фильмах [3] , исследование Julia Silge с анализом более 2000 диалогов из фильмов с выявлением гендерных стереотипов.
3. Исследование BuzzFeed по теннисным матчам [4]
4. ... и работа David Robinson о том как и кто публикует твиты Дональда Трампа [5], вплоть до выявления времени когда больше вероятности что твит написал он сам и когда, наоборот, пишут его помощники.

И у того же Paul Bradshow есть отличная публикация о том как делать красивые графики прямо в тексте используя шрифт AtF Spark [6]. Я пока не видел ни одного российского издания которое бы его использовало. Так что это может быть забавной фичей. Подробнее о шрифте и его создателях у них на сайте [7]

Ссылки:
[1] https://medium.com/@paulbradshaw/introducing-computational-thinking-to-journalists-23d7c260ef16
[2] http://www.mirror.co.uk/news/uk-news/singer-best-vocal-range-uk-4323076
[3] https://pudding.cool/2017/08/screen-direction/
[4] https://www.buzzfeed.com/johntemplon/how-we-used-data-to-investigate-match-fixing-in-tennis?utm_term=.xyqaBVVBXJ#.jxYYaMMaXp
[5] http://varianceexplained.org/r/trump-tweets/
[6] https://medium.com/@paulbradshaw/how-to-use-the-atf-spark-font-to-create-charts-with-just-text-6925b978fed3
[7] http://aftertheflood.co/projects/atf-spark

#opendata #datajournalism
К вопросу о медиастартапах. Шведский Newsworthy http://www.newsworthy.se мониторят кучу статистических данных Евросоюза и генерят новостные лиды.

Тоже дата журналистика с элементами робожурналистики, с той лишь разницей что они не текст финальный создают, а значительно облегчают поисковые возможности.

Кстати создать такой сервис в России можно, даже не супер сложно на самом деле, но покупателей на него будет 5-10 изданий, в основном федерального значения и рынок совсем скромный. Так что у нас в можно запускать это скорее как некий in-house проект.

Другой интересный проект - это нидерландский LocalFocus https://www.localfocus.nl/en/ по созданию интерактивной инфографики с данными. Они так и пишут что превращают данные в истории.

#opendata #ddj #datajournalism
Дата журналистам на заметку.

1. Заходите на сайт Газпроммежрегионгаза в раздел "Крупнейшие должники за газ"
http://mrg.gazprom.ru/implementation/spisok-dolzhnikov/

2. Парсите данные любым удобным Вам образом и превращаете в CSV или JSON где у Вас должны быть поля:
- наименование организации должника
- сумма задолженности
- наименование субъекта федерации
- наименование федерального округа в который субъект федерации входит

3. Открываете Википедию (или Wikidata) и скачиваете таблицу с населением страны по субъектам https://ru.wikipedia.org/wiki/Население_субъектов_Российской_Федерации

4. Открываете Википедию (или Wikidata) и скачиваете таблицу ВРП по субъектам https://ru.wikipedia.org/wiki/Список_субъектов_Российской_Федерации_по_валовому_продукту

5. На этих данных считаете рейтинги:
- субъектов по общей задолженности
- субъектов по задолженности на 1 человека
- субъектов по задолженности к ВРП

6. Аналогично для федеральных округов

7. Полученные цифры визуализируете любым удобным Вам образом

8. Вуаля! Отдавайте результат в любое федеральное издание, особенно в те которые сейчас активно чморят власти Московской области.

Потому что кто будет анти-лидером рейтинга я уже вам как бы подсказал.
#datajournalism #ddj #opendata
New York Times выложили в открытый доступ материалы по обучению журналистов дата-журналистике [1], со всеми материалами и датасетами [2]. Неплохой курс/тренинг, очень практичный, про работу с таблицами, очистку данных, брейншторм на данных и так далее.

Такой гайд был бы хорош и на русском языке. Благо материалов предостаточно.

Ссылки:
[1] https://www.niemanlab.org/2019/06/the-new-york-times-has-a-course-to-teach-its-reporters-data-skills-and-now-theyve-open-sourced-it/
[2] https://drive.google.com/drive/u/0/folders/1ZS57_40tWuIB7tV4APVMmTZ-5PXDwX9w

#opendata #ddj #data #datajournalism
Для тех кому долго самостоятельно искать тот слив из банка на каймановых островах, вот прямая ссылка [1]. Он там под кодом "Sherwood"

Только помните - там 2 терабайта. Для опытного специалиста это несколько часов работы, для неопытного может занять месяцы. Для современного журналиста расследователя это должно быть по силам, а если чувствуете что "сложно это всё", то срочно беритесь за журналистику данных.

Ссылки:
[1] https://ddosecrets.com/data/corporations/

#leaks #data #datajournalism
Роботизированная журналистика иногда пугает журналистов, но она, скорее про автоматизацию чернового труда и избавление этой профессии от чернорабочих рерайтеров. Хотя ещё и неизвестно станет ли профессии лучше от роботизации этого рерайта.

А вот технологические стартапы близкие к этой области возникают, хотя и часто называются по другому. Например, Ax Semantics [1], германский стартап по автоматизации копиратинга. Привлекли неизвестную сумму от 6 инвесторов [2] и продают сервис автоматизации отчетов, написания тестов, описания продуктов и так далее.

На самом деле такие авто-пишущие продукты наиболее востребованы именно в написании текстов для потребителей с описанием товаров.

Поэтому журналистам пока опасаться стоит гораздо меньше чем рядовым копирайтерам. Но в The Stuttgarter Zeitung уже автоматизируют с их помощью спортивные обзоры и обзоры качества воздуха, развивая у себя робожурналистику [3]

Ссылки:
[1] https://en.ax-semantics.com/
[2] https://www.crunchbase.com/organization/ax-semantics
[3] https://en.ax-semantics.com/portfolio/stuttgarter-zeitung

#opendata #data #robojournalism #datajournalism #germany #startups
Data Journalism Handbook [1] книга о журналистике данных за авторством Liliana Bounegru и Jonathan Gray выйдет в конце марта 2021 года, а пока доступна для предзаказа.

Значительная её часть и ранее была доступна онлайн [2] на DataJournalism.com вместе с другими курсами и руководствами созданными в European Journalism Centre при поддержке Google News Initiative

Ссылки:
[1] https://www.aup.nl/en/book/9789462989511/the-data-journalism-handbook
[2] https://datajournalism.com/read/handbook/two

#datajournalism #data
Для тех кто очень любит расследования, но не всегда имеет нужные инструменты под рукой Aleph Data Desktop [1] [2] изначально создано для проекта Aleph с данными расследований OCCRP, а также само по себе является простым инструментом построения диаграм взаимосвязей разных сущностей. Удобный и бесплатный инструмент не только для тех кто занимается цифровым дознанием на общественных началах, но и тем для кого это профессиональная деятельность. Инструмент не идеальный, очень простой, всё ещё в разработке, но быстрого описания кейсов более чем удобный.

С тем как развивается стек инструментов OCCRP я бы даже предположил что через 2-3 года их инструменты начнут использовать в правоохранительных органах как базовый инструментарий.

Хорошая тема для мероприятий - это совместно превращать в инфографику расследования в виде текстов.

Ссылки:
[1] https://github.com/alephdata/datadesktop
[2] https://docs.alephdata.org/guide/building-out-your-investigation/network-diagrams

#opendata #opensource #datajournalism
Ко дню открытых данных завершилось голосование по Moscow Dataviz Awards 2021 [1] это ежегодная международная премия за достижения в области инфографики, визуализации данных и дата-арта.

Посмотрите на победителей, достойны не только они, но и огромное число других заявок. Лично я особенно рад что эта премия стала международной, много заявок было и из других стран.

О победителях подробнее в блоге Максима Осовского в Facebook [2]

Ссылки:
[1] https://moscowdatavizawards.com
[2] https://www.facebook.com/osovskiy/posts/10221955712660074

#opendata #dataviz #datajournalism #moscow #awards
Вышла свежая редакция The Data Journalism Handbook [1] руководства для дата-журналистов по работе с данными. Книга хорошая для начинающих и полезна для продолжающих, состоит из десятков статей о том как работает дата журналистика, стандартах, инструментах и многом другом.


Ссылки:
[1] http://lilianabounegru.org/2021/03/23/data-journalism-handbook/

#data #datajournalism #opendata
Свежее расследование в The Markup о том как Amazon манипулирует выдачей в своём магазине и подсовывает свои товары в результаты поиска и просмотра так чтобы их чаще покупали. При этом продукты Amazon оказываются в топе выдачи даже если у их конкурентов выше оценки потребителей, их больше покупают и так далее. У The Markup получаются очень интересные лонгриды, с интерактивом, и с результатами соцопросов и обработки данных. А в этой статье они ещё и выложили весь код и все данные которые собрали проверяя теорию что Amazon продвигает свои бренды в первую очередь. Этот код и данные - это почти 300 ГБ в распакованном виде и около 11 ГБ в сжатом виде. Очень много данных, собранных на февраль 2021.

Лично мне нравится как The Markup подходит к расследованиям и акцент редакции на Big Tech. Не знаю воспроизводима ли их модель в стране отличной от США, но читать интересно.

#opendata #datasets #datajournalism #ddj #bigtech
Census Mapper - проект по визуализации переписи США 2020 года [1], позволяет узнать подробные данные и изменения в расовом составе по каждому отдельному графству (аналог российского муниципалитета). Проект создавался Big Local News и Pitch Interactive за счёт гранта Google News Initiative.

Проект наглядный, не первый такой в мире, мне в вспоминается что в прошлом разного рода похожие проекты были в Канаде и Австралии, но это не отменяет самого факта возможности наглядной визуализации переписи.

Ссылки:
[1] https://censusmapper.biglocalnews.org

#opendata #infographics #datajournalism
В рубрике интересные наборы данных.

Политический журналист Derek Willis в течение нескольких лет заходил на сайты всех кандидатов в конгрессмены и партийных комитетов связанных с выборами и заполнял формы подписки на письма на специально созданный для этого email адрес. В итоге у него накопилась база в 100 000+ писем общим объёмом более 673 мегабайт. Об этом он пишет у себя в блоге [1] и выложил всю базу в открытый доступ [2] предварительно забрав её с помощью Google Takeout.

Забавный эксперимент который можно повторить и в наших реалиях, например, подписавшись на рассылки российских "инфоромалов" или разного рода религиозных групп или тех же кандидатов в депутаты/кого-там-ещё-выбирают и так далее.

Ссылки:
[1] https://createsend.com/t/t-97F63A7D578A8F0B2540EF23F30FEDED
[2] https://political-emails.herokuapp.com/emails

#opendata #datasets #email #politicaljournalism #datajournalism
Не могу не поделиться мыслями о том тяжкий груз незавершённого - это то что лично меня, и наверняка, не только меня преследует регулярно. Из 20 проектируемых проектов, до создания доходит 5, а до публикации 1-2 и так регулярно, во всяком случае когда жизнь чаще построена не в продуктовом, а в проектном смысле.

За эти годы я сам и наша команда чего только не проектировала:
- многочисленные порталы данных
- систему сбора муниципальной статистики из всевозможных источников
- систему аналитически и мониторинга некоммерческого сектора
- агрегатор новостных лент из источников где нет новостных лент
- систему сбора информации о деятельности и площадках работы лоббистов
- систему сбора активности и голосований депутатов
- мониторинг нефтегазовых доходов бюджета, компаний и тд
- аналитику по государственным информационным системам и их структуре
- систему сбора данных из неструктурированных источников
- систему мониторинга принятых НПА и проектов НПА

И ещё многое другое.

Проблема в том что многие из проектов не переживает стадию проектирования и почти всегда упираются в отсутствие ключевых данных или отсутствие институциональной среды. К примеру, доходы нефтегазового бюджета и прозрачность этой сферы - это тема любой нормальной политической партии. Но, в России, как бы сейчас нет политики в общепринятом (нормальном) понимании.

Или мониторинг НПА, очень понятная и нужная задача для любых лоббистких задач, не обязательно дурных. Проблема в том что её невозможно сделать хорошо без рисков вскрытия коррупции и много чего другого. И так далее. Общественные проекты на данных находятся между Сциллой резкой оппозиционности, Харибдой прогосударственной обессмысленности. Проекты вроде Госзатрат существуют скорее как исключение, с кучей ограничений, например, отсутствия реальной подсветки коррупции и нарушений, хотя делать это и возможно, но сложно управлять возникающей от этого публичной ситуацией.

Приведу пример, есть проект Открытые НКО, сейчас недоступен, мы скоро его восстановим, с базой по всем НКО, на базе ЕГРЮЛ, реестра субсидий, госконтрактов и их отчетности.

В реальности у нас примерно в 5-6 раз больше данных по тем же НКО. Как внешних источников данных, так и аналитики на имеющихся. Например, НКО холдинги (РПЦ, ДОСААФ и др.), гендерная структура, помощь от гос.ва во всех формах, образовательные и иные лицензии и ещё много чего. Но, в итоге, кто аудитория? Минюст с карательными функции в отношении НКО? Оппозиционные СМИ признанные инагентами? НКО сообщество?

Нет, увы, главный кризис использования открытых данных в общественных целях и, отчасти это и кризис журналистики данных, выборе между политизацией и бессмысленностью (жёсткой самоцензурой).

Вот такие мысли, пока без ответов что делать в сложившейся ситуации.

#thoughts #datajournalism #russia #dataprojects