Aan de slag met R

De meeste web analytics tools zijn zowel briljant als gehandicapt.

Briljant omdat je snel mooie rapporten en prima visualisaties uit een enorme bak data kan halen. Via drill-down en segmentatie kan je snel en makkelijk tot inzichten komen.

Gehandicapt omdat de berekeningen die je wil maken vaak net niet mogelijk zijn, en dat er vaak precies andere dingen berekend worden dan je zou willen. Of je wil nog andere data betrekken in je cijfers.

En wat doe je dan? De data exporteren, en inlezen in een andere tool. Meestal is dit Excel. Soms Tableau. En als je de portemonnee trekt, kan je een tools als SPSS gebruiken.

Maar ken je R al? Dit prachtige analysepakket is Open Source (en gratis te downloaden), werkt op Windows, Mac en Linux, en heeft heel veel voordelen t.o.v. Excel.

Ik raad elke analist iets verder wil kijken dan een web analytics tool aan zich te verdiepen in R.

In deze blogpost zal ik kort beschrijven op welke gebieden ik R beter vind dan Excel, en kort beschrijven hoe je te werk gaat.

Als je daarna nog verder wil kijken, geef ik je links: naar een simpele, luchtige tutorial en naar een “echte”, serieuze cursus. Succes!

De voordelen van R boven Excel

R heeft mijns inziens veel voordelen boven Excel. Hieronder een greep:

  • De databronnen (die je in erg veel formaten kan inlezen) staan los van de analyse. Dat wil zeggen: de data is de data, en de bewerkingen hierop staan in een los R script.
    • De analyse die je doet is hierdoor leesbaar. Je kan een script (inclusief documentatie) veel makkelijker lezen dan de formules die her en der in een excel sheet staan.
    • De analyse is herhaalbaar. Je kan hetzelfde script toepassen op een nieuwere versie van de data
    • De analyse (of stukken daaruit) zijn meerdere keren toepasbaar
  • Je formules en syntax zijn altijd hetzelfde.
    • Nooit problemen met Engelse versus Nederlandse versies van de software
    • Nooit problemen tussen Windows versies en Mac versies
  • Er zijn enorm veel uitbreidingen beschikbaar, en een vriendelijke online community die je graag verder helpt
  • Je kan (persoonlijke mening) makkelijker focussen op wat je wil weten, omdat je niet de hele tijd bezig bent met het selecteren van cellen en bedenken waar je je formule moet zetten
  • R is enorm krachtig, snel, en makkelijk om data te transformeren van het ene formaat naar het andere. Hierdoor is de analysemethode schaalbaar en kan het de groeiende hoeveelheden data makkelijk aan. 

De nadelen van R

Zoals elk pakket, heeft R ook zijn nadelen.

  • steile leercurve: vooral in het begin zal het erg lang duren voor je R skills op hetzelfde niveau zijn als Excel
  • hoge drempel: voor een ad-hoc simpele analyse duurt het vaak wat langer om het in R te doen
  • Er zijn nog niet veel mensen die R kunnen. Als je werkt in een team, zal in het begin niet iedereen je snappen.

Wanneer R en wanneer Excel?

Ik zou zeggen…

gebruik Excel:

  • voor ad-hoc werk, waarbij je al werkt met excel brondata
  • als documentatie niet belangrijk is, en datasets klein
  • voor het simpele werk
  • als je data wil koppelen binnen Office

gebruik R:

  • voor uitgebreide analyses
  • als de methode van analyseren onderdeel is van je verhaal
    • de selectie van brongegevens (wat doe je met missende waardes, laat je rijen weg, etc)
    • als je meerdere methodes gebruikt op dezelfde data
  • voor analyses die je vaker dan 1 keer op dezelfde manier moet uitvoeren (weekrapportages iemand?)
  • als je te maken hebt met databronnen in verschillende formaten of bronnen (excel sheet, tekst files, web-bestanden, etc.)

Hoe ziet R er uit, en hoe begin ik er mee?

Het makkelijkste is om het programma R Studio te downloaden en installeren. Hiermee heb je in een keer het pakket R zelf, en een werkomgeving die gebruiksvriendelijk is.

Als je R Studio opstart, heb je vier panelen:

Schermafdruk 26-01-15 10:17

Linksboven: ruimte voor je R-script bestanden

Linksonder: de console. Hier verschijnt de uitvoer, en hierin kan je ook commando’s typen.

Rechtsboven: je environment en commando-geschiedenis. Hierin kan je zien wat voor data je in geheugen hebt, en wat je allemaal hebt ingetypt.

Rechtsonder: een deelvenster met o.a. een file-browser, help-viewer en de uitvoer van grafieken.

Stap voor stap introductie? → Try R

De site van Code Academy geeft je een gratis tutorial in R.  En hier heb je een R console online om eens uit te proberen, en een gevoel krijgen hoe R datastructuren in elkaar zitten, en hoe de commando’s werken.

Serieus beginnen? → Coursera

Elke maand start Coursera een cursus R programmeren: https://www.coursera.org/course/rprog

Hierbij leer je de belangrijkste R kneepjes, met gerenommeerde R guru’s als docent. Je krijgt videolessen, en praktijkopdrachten. Bovendien kan je je vragen op het forum kwijt. Aanrader!

Oproep aan de lezers

Gebruik jij R al voor data-analyses? Of liever een andere tool? Laat je mening horen en laat je tips achter in de comments!

Reacties (1) Schrijf een reactie

Geef een reactie

Verplichte velden zijn gemarkeerd met een *.