Big Data: wat is dat eigenlijk?

Data-analyse is mijn hobby. Geen werkdag is compleet zonder excel sheet en/of een stevig onderbouwd data gedreven inzicht. Goed nieuws dus dat er elke dag weer méér data wordt opgeslagen en… geanalyseerd moet worden! Wie de laatste maanden niet onder een steen geleefd heeft, weet het: dé business trend van het moment heet “Big Data”.

Hieronder een beknopt antwoord op de belangrijkste vragen rondom Big Data, voor iedereen die – net als ik – zo snel mogelijk wil kunnen meepraten over deze belangrijke ontwikkeling.

Wat is Big Data?

Dat hangt af aan wie je het vraagt. Volgens aanbieders van data-opslag en databases is Big Data dé reden om klanten nieuwe systemen te verkopen. Anderen stellen nuchter “Big Data is alle data die niet meer fysiek of logisch in één locatie of in één systeem kan worden opgeslagen”.

Weer anderen doen een stapje terug en maken allereerst onderscheid tussen “Big Data opslag” en “Big Data analytics” [1]. Deze twee zijn wat mij betreft echter onlosmakelijk met elkaar verbonden: niet de hoeveelheid, maar de manier waarop men data wil gebruiken maakt data al-dan-niet “Big”. De eisen die gesteld worden aan Big Data opslag volgen uit de analyses die men wil uitvoeren op data.

Big Data analytics

Technisch is er sprake van “Big Data analytics” als de data:

  1. Alléén waardevol is voor de business bij snelle beschikbaarheid (near real-time);
  2. Afkomstig is uit meerdere bronnen;
  3. Flexibel “verrijkt” kan worden met andere (ongestructureerde) data.

Door Gartner is dit pakkend samengevat als “Volume, Variety en Velocity” [2].

Dave Raffo (Storage Media group) legt aan de hand van een voorbeeld uit wat Big Data niet en wél is:

  • De (enorme) database met transacties van Amazon is géén Big Data: uniform, gearchiveerd en zonder potentie tot toegevoegde waarde;
  • De (enorme) database van Amazon met klik- en aankoopgedrag die het mogelijk maakt een klant direct een aanbieding op maat te doen wanneer deze de website opnieuw bezoekt is wél Big Data: divers, pluriform, direct beschikbaar én gebruikt met het doel om waarde te creëren [3].

Bekende voorbeelden van Big Data [4]: het human genome project, Google Analytics, Google’s Automated Self Driving Cars[10]  en Amazon’s product recommendation engine [5].

Big Data opslag

Big Data analytics vraagt dus om totaal andere data-systemen dan de bestaande data-warehousing oplossingen. Big Data storage systemen zijn snel, schaalbaar, flexibel en in staat om zowel gestructureerde als ongestructureerde data te kunnen integreren. Technisch een enorme uitdaging voor aanbieders van databases.

Wat je in elk geval moet weten over Big Data opslag

Big Data systemen zijn in de praktijk steeds vaker gedistribueerde netwerken van eenvoudige PC’s en servers. Dit maakt Big Data systemen schaalbaar: opslag- en rekencapaciteit kan eenvoudig worden toegevoegd (tegen het alternatief: één keer in de paar jaar een nieuwe supercomputer kopen).

Speciale “Big Data software” knipt de data in stukken en verdeelt en kopieert deze vervolgens naar meerdere lokaties binnen het netwerk. Deze manier van de data-verdeling geeft een dergelijk “gedistribueerd netwerk” een aantal bijzondere eigenschappen. Een Big Data netwerk is:

  1. Snel: bij het opvragen van data worden de snelst beschikbare data-fragmenten parallel vanaf meerderde locaties ingeladen; [6]
  2. Redundant: alle data is op minstens twee fysieke locaties in het netwerk beschikbaar;
  3. Flexibel en altijd online: in tegenstelling tot klassieke IT-systemen hoeft een systeem nooit ‘offline’ voor onderhoud. Een gedistribueerd Big Data netwerk heeft geen “single point of failure”.

Waarom Big Data?

Is het een hype? Kun je als organisatie wachten met het strategisch inzetten van data of is Big Data eigenlijk al een realiteit [7]? Volgens een door McKinsey aangehaalde wetenschappelijke publicatie verhoogt effectief gebruik van data en analytics de productiviteit, winstgevendheid en marktwaarde van bedrijven met 5 à 6 procent [8]. In sommige industrieën zal de strategische inzet van data-analyse zelfs het verschil gaan maken tussen winst en verlies [9].

Big Data en webanalytics

In mijn dagelijkse werk als webanalist merk ik dat nagenoeg alle opdrachtgevers bezig zijn met “closing the loop”: ze verbinden hun webstatistieken(pakket) met hun CRM-systeem. Met een dergelijke “end-to-end” integratie willen ze periodiek bepalen welke marketingcampagnes leiden tot de meeste verkopen (in plaats de meeste leads genereren).

Eén technische stap verder en je kunt deze systemen real-time aanroepen om optimaal met online bezoekers te communiceren en productaanbiedingen op maat te doen [5]. Big Data is dan opeens geen toekomstmuziek meer, maar werkelijkheid.

In de praktijk worden Big Data analytics ontwikkelingen op dit moment vaak gedreven door analyse vraagstukken vanuit het web (webanalytics). De uitvoer vanuit IT vindt echter vaker plaats zónder medewerking van een webanalist dan mét, terwijl de met het systeem beoogde Big Data analytics direct impact heeft op de technische randvoorwaarden en uitvoering. Webanalisten moeten betrokken zijn bij de implementatie van Big Data.

Daarom mijn interesse in het onderwerp en de reden waarom Big Data voor webanalisten zo relevant is om te begrijpen en binnen organisaties verder te helpen ontwikkelen. Ik ga er in ieder geval meer over lezen, mee werken en over schrijven.

Aanvullingen, commentaren en correcties van experts zijn van harte welkom!


Bronnen

[1] John Webster – searchstorage.techtarget.com – Understanding Big Data analytics
[2] Gartner Says Solving ‘Big Data’ Challenge Involves More Than Just Managing Volumes of Data, juni 2011
[3] Big Data: Senior News Director Dave Raffo’s take (podcast)
[4] Frank Ohlhorst – Weighing the balance of Big Data, Web analytics and compliance, september 2010
[5] Quora – Was Amazon’s recommendation engine crucial to the company’s success?
[6] Tweakers.net – Wat is Hadoop?
[7] The Age of Big Data: Is It Coming or has It Arrived?
[8] Erik Brynjolfsson e.a. – “Strength in numbers: How does data-driven decisionmaking affect firm performance?” – Social Science Research Network (SSRN), april 2011
[9] Brad Brown e.a – McKinsey & Company – Are you ready for the era of ‘big data’? – Oktober 2011
[10] Google Automatic Self-Driving Cars

Image harddisk: © Adehughes; Image bookpile: © Paha_lStock Free Images & Dreamstime Stock Photos

Reacties (7)

  1. andre.scholten@gmail.com'

    Jij vindt Google Analytics Big Data? Ik weet niet of ik het daar mee eens ben. Er is wel veel data, en er worden meerdere bronnen gebruikt om de rapportages te vullen. Maar het systeem is gesloten en biedt weinig mogelijkheden tot integratie met andere systemen.

    Je kunt de data vanuit Google Analytics wel gebruiken om een extern systeem te voeden. Je kunt bijvoorbeeld in Qlikview data uit je CRM, Google Analytics, Bannersystemen, mailproviders, enz samen laten komen. Qlikview is dan het BIG data systeem.

  2. koen@algoritmica.nl'

    Goed artikel hoor. Sommige voorbeelden zou ik zelf wel big data noemen, maar het is dan ook een containerbegrip. Ik denk dat de (voorspellende) analyse van big data veel interessanter is dan vraagstukken over de opslag(IT). Je noemt clickstream data, maar sensordata is vaak net zo vaak een aanleiding tot big data oplossingen..

    • arend.zwaneveld@onlinedialogue.com'

      Dank voor ‘t compliment. Ik wilde in dit artikel niet teveel ingaan op sensordata, maar je hebt gelijk: voor webanalisten zijn de clickstreams natuurlijk de eerste vorm van Big Data waarover ze kunnen meepraten, maar sensor-data is waarschijnlijk ‘Bigger’: de Automated Cars van Google zijn hiervan een goed voorbeeld.

      Het bijbehorende begrip ‘Internet of Things’ had zeker aan de orde moeten komen in dit artikel 🙂

      Hierbij dan alsnog een link naar een relevante bron: https://www.mckinseyquarterly.com/The_Internet_of_Things_2538

  3. grathenau@gmail.com'

    Interessant artikel Arend. Jij hebt het over opdrachtgevers, die hun webanalytics pakket verbinden aan hun CRM.

    Zijn daaruit actiegerichte inzichten uitgekomen? Worden daar ook nog andere bronnen in meegenomen? online surveys, WIA (web interactie analyse)?

    • arend.zwaneveld@onlinedialogue.com'

      Dank voor je compliment Gerard. Zoals in het artikel vermeld, is bij de meeste opdrachtgevers de integratie tussen Webstatistieken en CRM nog in volle gang of recent afgerond. Interessant is hierbij dat we de CRM-data in de webstatistieken integreren in plaats van andersom.

      Ook andere bronnen worden met het CRM-systeem geintegreerd, doordat we deelname aan enquêtes, de antwoorden hierop en de orientatiefase (komen, kijken, kiezen, kopen, klant) van bezoekers (geanonimiseerd) vastleggen in de webstatistieken.

      Online Dialogue presenteert op OnDiDo’
      s
      en congressen geregeld nieuwe klant-cases en inzichten. We verwachten binnenkort de eerste voorbeelden van inzichten uit integratie van CRM en webstatistieken te kunnen presenteren!

  4. barry.adams@gmail.com'

    Uitstekend stuk, Arend, legt het prima uit. Mag ik voorstellen dat je hier een Engelstalige versie van schrijft en dan kunnen we die op bv. State of Search publiceren, want dit is een vraagstuk wat zich internationaal afspeelt.

Reacties zijn gesloten.