Data-Map-2

Корисні сервіси для учасників хакатонів

Маючи великий досвід проведення хакатонів, ми помітили, що не усі учасники приходять з конкретними ідеями або проектами та витрачують купу часу на операційну роботу. Ми зібрали кілька корисних посилань, що можуть стати у нагоді у пошуку ідеї проекту або організації його роботи.

Пошук ідеї

Як створити стартап на основі відритих та великих даних

 

Проблематика українських об’єднаних громад
Посилання: http://1991.vc/2017/02/07/otg-problems/

Приклад корупційних схем, виявлених у транспортній сфері
Посилання: http://1991.vc/2016/11/29/18-problems-for-miu/

Портал з понад 500 проектами з усього світу на основі відкритих даних. Можна переглядати проекти за країнами або тематиками.
Посилання: http://www.opendata500.com/

Сервіс, що допомагає сфокусувати та розробити вашу ідею соціального стартапу. За допомогою різноманітних матриць типових проектів ви можете чіткіше зрозуміти що саме потрібно вам.
Посилання: http://diytoolkit.org/tools/

Інтерактивний каталог стартапів Європи.
Посилання: http://diytoolkit.org/tools/

40 проектів для розумних міст на основі відкритих даних.
Посилання: https://carto.com/blog/forty-brilliant-open-data-projects

І ще 80 стартапів, що працюють у напрямку смарт сіті
Посилання: https://www.cbinsights.com/blog/iot-smart-cities-market-map-company-list/

Збір даних

Єдиний державний портал відкритих даних України.

Посилання: http://data.gov.ua/

Величезний список програм скрейперів, що допомагають вилучати з веб-сайтів дані. Ці інструменти на всіх мовах програмування та не складні в освоєнні.
Посилання: https://github.com/cassidoo/scrapers

Швидка візуалізація даних з таблиць за допомогою React Visualized.
Посилання: https://github.com/bvaughn/react-virtualized

Обробка тексту з командної строки. Велика добірка інструментів, що дозволяють швидко оброблювати CSV, JSON, XML  та інші структуровані документи.
Посилання: https://github.com/dbohdan/structured-text-tools

Швидка обробка статичного сайту з використанням “Jekyll”
Посилання: https://jekyllrb.com/

Відкриті дані комерційних компаній

Microsoft
– Microsoft Research dataset directory https://www.microsoft.com/en-us/research/academic-program/data-science-at-microsoft-research/ – багато дослідницьких даних на різні тему
– Common objects in context http://mscoco.org/
– Логи сайту Microsoft.com з 1998 року https://archive.ics.uci.edu/ml/datasets/Anonymous+Microsoft+Web+Data
– Microsoft MAchine Reading COmprehension Dataset http://www.msmarco.org/

Google
– Google Ngram dataset – http://storage.googleapis.com/books/ngrams/books/datasetsv2.html величезна база Ngram від Гугл
– Google Webgraph (2002) – https://snap.stanford.edu/data/web-Google.html
– Google Open Images – https://github.com/openimages/dataset
– Google Syntactic N-grams http://commondatastorage.googleapis.com/books/syntactic-ngrams/index.html
– FreeBase https://developers.google.com/freebase/

Yahoo
– Webscope datasets https://webscope.sandbox.yahoo.com/

Facebook
– Датасет по взаємозв’язках 2005 року – https://lists.ufl.edu/cgi-bin/wa?A2=ind1102&L=SOCNET&T=0&P=22841

Intel
– Intel Science and Technology Center for Big Data http://istc-bigdata.org/index.php/our-research-data-sets/ колекція дата сетів з дослідницької лабораторії Intel

Інструменти візуалізації даних

– Orange – http://orange.biolab.si/
– Rapidminer – https://rapidminer.com/
– R Analytic Flow – http://r.analyticflow.com/
– R Studio – https://www.rstudio.com/
– Deducer – http://www.deducer.org/pmwiki/pmwiki.php
– Alterix – http://www.alteryx.com/ (платно)
– Microsoft R Server – https://www.microsoft.com/en-us/cloud-platform/r-server (платно)
– Daidaku DSS – http://www.dataiku.com/ (платно)

Перевірка даних

– Додаток до Google Chrome, що допомагає перевірити валідність даних Comma Chameleon – https://github.com/theodi/comma-chameleon/releases/tag/0.4.0
– CSVLint http://csvlint.io/
– Онлайн сервіс з валідації CSV файлів і з відкритим кодом https://github.com/theodi/csvlint
– CSVkit https://github.com/wireservice/csvkit
– Textql https://github.com/dinedal/textql
– PapaParse https://github.com/mholt/PapaParse
– Countries https://mledoze.github.io/countries/
– Tablib https://github.com/kennethreitz/tablib
– Ще 3 інструменти перевірки даних http://infographica.com.ua/2016/05/30/2423/