Hoofdstuk 3 Les 5: Big data, Pagina 1

Het analyseren van Amerikaanse babynamen

Op deze pagina, leer je over het analyseren van grote datasets.

Hoe werkt het als je gegevens gaat analyseren die uit miljoenen stukjes informatie bestaan, in plaats van een paar honderd? Grote datasets bieden uitdagingen en kansen voor het ontdekken van nieuwe informatie.

Baby Name Voyager

Als de grafiek niet meer reageert of leeg is, laad hem dan opnieuw.

Wat was de populairste meisjesnaam in de jaren 1900? En in de jaren 1960?
Welke jongensnamen zijn tegenwoordig veel minder populair dan in 1880?
Typ in wat je denkt dat de meest populaire naam op jouw school is. Is deze naam nog steeds populair voor nieuwe baby's?
Wat kun je nog meer vinden? Zoek wat interessante informatie in de gegevens en bereid je vervolgens voor om het aan je klas te laten zien.
Had je moeite bij het beantwoorden van een van deze vragen? Wat is er niet zo duidelijk aan deze visualisatie? Hoe zou je het kunnen verbeteren?

De Baby Name Voyager is een indrukwekkende visualisatie van een grote dataset. Deze gegevens zijn afkomstig van de Social Security Administration, een tekstbestand voor elk jaar van 1880 tot 2014. Het bekijken van de gegevens in dit tekstbestand zou je niet bepaald veel inzicht geven!

Grote datasets bieden unieke uitdagingen en kansen:

Grote datasets kunnen complex of bijna onhandelbaar zijn. Het opslaan, verwerken en bewerken van grote datasets is moeilijk.
Vanwege hun omvang en complexiteit kunnen grote datasets moeilijk te analyseren zijn. Voor zulke analyses heb je vaak veel rekenkracht nodig, die toegang bieden tot trends of verbindingen die anders niet zichtbaar zouden zijn.
Met "crowdsourcing" kunnen hele complexe berekeningen toch gedaan worden. Hierbij stellen mensen de rekenkracht van hun computers ter gebruik. Voorbeelden hiervan zijn SETI @ Home en Folding @ Home, waarbij een hele grote dataset geanalyseerd wordt door talloze computers tegelijkertijd. Bij SETI wordt er gezocht naar een patroon in achtergrondstraling uit het universum. Het doel is het ontdekken van een teken van buitenaards leven.
Een aantal datasets worden gemaakt door samenwerking met andere mensen, die voegen bijvoorbeeld afbeeldingen of video's toe.
Wikipedia, YouTube en Twitter zijn voorbeelden van grote datasets. De lijst met Trends van Twitter wordt gegenereerd door te kijken naar een dataset met alle berichten op een bepaald moment.
Een gezamenlijke analyse is vaak heel handig als je met grote datasets werkt, hierdoor kan je vaak resultaten krijgen die je niet had gevonden als je in je eentje had gewerkt.
Werken met grote datasets betekent vaak dat je nieuwe verbindingen zoekt tussen tussen de datapunten en dat je onderzoek doet naar trends binnen de dataset.
Grote datasets bevatten vaak persoonlijke informatie zoals namen, adressen en wachtwoorden. Hierdoor is het moeilijk die data te analyseren en tegelijkertijd de persoonlijke privacy te respecteren.

Visuele en interactieve applicaties zijn vooral waardevol Geen Afbeelding om te gebruiken als je grote datasets bekijkt. Zonder deze applicaties kunnen grote datasets onbegrijpelijk zijn. In de kaart rechts wordt YesYesNo gebruikt om de paden van hardlopers in kaart te brengen.

Met de data van het CBS kun je zelf een data-analyse maken. Je kunt de data van 2014 hier vinden. Voor andere jaren kun je hier kijken.

Denk eens aan een grote dataset die je zelf hebt gemaakt en probeer deze visueel te maken met Snap!. Let op, grote datasets kunnen teksten, geluiden, plaatjes en video’s bevatten.