490660-636132569888264802-16x9

Розслідування на основі відкритих даних та етика

Цікаву думку про етику розслідувань на основі відкритих даних та ресурсів опублікував россійский активіст та лоббіст відкритих даних Іван Бегтін. Наводимо переклад цієї публікації.

Одна з важливих областей застосування відкритих даних – це розслідування на відкритих джерелах інформації. Ці розслідування використовують, як правило, не тільки відкриті дані, але і дані отримані іншими шляхами або загальнодоступну інформацію, не обов’язково під вільними ліцензіями.

Цей напрямок називається Open Source Intelligence (OSINT) і в останні роки він особливо активно використовується державними розвідувальними службами та приватними агентствами. Аналогічно розслідування проводять і багато організацій займаються публічними розслідуваннями, на кшталт OCCRP.

Але не всі знають про те як з відкритих джерел використовуються приховані знання.

Наприклад, Justin Seitz, автор блогу по автоматизації розслідувань регулярно пише про застосування баз даних. Рекомендовані до ознайомлення матеріали: Vacuuming Image Metadata from The Wayback Machine та Using Python to Mine Common Crawl. У першому випадку це витяг метаданих з глобального інтернет-архіву, а в другому з найбільшого зліпка всіх веб-сторінок в інтернеті.

В обох випадках ці джерела даних використовуються для приховування інтересу дослідника до об’єкта дослідження. Наприклад, часто щоб зібрати інформацію про ту чи іншу організацію необхідно провести аналіз даних. В цьому випадку, при використанні відкритих джерел інформації – дослідник може приховати свій інтерес до організації та вдатися до контрзаходів. Витяг даних з Archive.org і з Common Crawl – це один із способів подібного приховування дослідження.

Я не відкрию великої таємниці в тому що, іноді, чиновники задають питання “А навіщо Вам ці дані? Їх же будуть використовувати проти нас” бувають праві. Відкриті дані добре лягають в ідею приховування інтересу розслідувача від розслідуваної. Опублікування даних про держзакупівлі в Росії, наприклад, призвело до значного сплеску інтересу до публічними розслідувань.

Аналогічно і в багатьох інших темах, відкриті дані активно застосовуються для самих різних завдань, дослідження інфраструктури, підготовки злочинів і багато чого іншого. У статті “The Dark side of Open Data” Matteo Mauri, Alessio Mulas, Davide Ariu пишуть про можливості застосування відкритих даних в злочинних цілях.Що ще наочніше видно з їх презентації, яку можна переглянути за посиланням. Про що пише і Abhinav Biswas в замітці Open Government Data Analysis to retrieve OSINT insights into Critical Infrastructure.

Такі відкриті проекти як Censys з самого початку налаштовані саме на Open Source Intelligence, так само як і безліч інших, менш відомих відкритих баз даних та заснованих на них інструментів використовуються так само.

Відкриті дані в світі завжди знаходяться в протистоянні з приватних даних. Наприклад, в змаганні Outbrain click prediction учасникам змагання з аналізу даних явно забороняється їх повторно ідентифікувати, проводити реідентіфікацію. В Австралії вже розглядається законопроект про відповідальність за реідентіфікацію анонімізувати даних причому презумпція невинності в даному випадку не діє.

Одним з прикладів використання відкритих даних для проведення розслідувань можна навести проект Пошуково-аналітична система 007, що дозволяє шукати та візуалізувати аналіти про публічні фінанси України.

Переклад з Telegram каналу Івана Бегтіна.