Beginnen met big data in 8 stappen

Big data is ook wel te vergeleken met een spijsverteringssysteem. Het zo gezien, lijkt de meeste hype rond big data te draaien om Inname en Vertering (het verzamelen en gebruiken van data), ten koste van Absorptie en Assimilatie (nieuwe inzichten creëren en deze inzetten). Een nieuwe tool aanschaffen, deze installeren en leren hoe je deze moet runnen kan maanden duren. Hoewel sommige verkopers je zullen vertellen dat je binnen een paar uur nieuwe inzichten kan krijgen, kost alleen het opzetten van een Hadoop cluster en alles installeren al een veelvoud daarvan. Wat je echt wilt is om de inzichten zo snel mogelijk te krijgen om ze in te zetten. Dan valideer je de resultaten en werk je weer terug naar technologie om, indien nodig, de inzichten op een nog robuustere manier te implementeren. Hoe? Dat wordt uitgelegd in deze blogpost van analyticbridge.

8 stappen om te beginnen

Dit zijn 8 simpele stappen om te beginnen met big (of small) data.

  1. Begin met een kleine data sample. Je hoeft niet gelijk te beginnen met het binnenstebuiten keren van je data om interessante dingen te vinden. Begin klein. Het bespaart je dan ook een hoop technologische hoofdpijn aan het begin.
  2. Kies een simpel te gebruiken tool om een eerste voorspellingsmodel te bouwen dat je kunt begrijpen en snel kunt integreren. Een goed uitgangspunt is deze serie blog posts, waarin sommige van de SaaS machine learning-oplossingen op de markt vergeleken worden. De belangrijkste dingen om op te letten is dat dat tool simpel (in gebruik), uitvoerbaar en begrijpelijk is. Je wilt niet teveel tijd spenderen om uit te vogelen hoe een tool te gebruiken. Je wilt ook geen tijd verliezen in het vertalen en coderen van de uitkomsten. En je wilt de uitkomsten begrijpen zodat je stap drie uit kunt voeren.
  3. Bekijk of het model je praktische inzichten geeft. Probeer het model en bekijk of je hiermee goud hebt aangeboord. Zo niet, laat het dan voor wat het is.
  4. Gebruik het model om voorspelling te genereren en bekijk of het de prestaties van je bedrijf kan verbeteren. Gebruik het model. Vind een speeltuin binnen je bedrijf om een test te doen en meet de veranderingen in afzet, conversie, risico of wat je dan ook modeleert.
  5. Probeer hoe meer data het model kan verbeteren. Je kunt data op twee manieren toeveoegen: voeg simpelweg meer datapunten toe. Of je kunt meer features toevoegen aan de dataset, nieuwe stukken informatie om het model te verbeteren en nieuwe relaties te vinden met mogelijke betere prestaties. Om in termen van spreadsheets te praten: voeg meer rijen of kolommen toe.
  6. Bekijk of dit meer geavanceerde model het beter doet dan het vorige model. Ook hier weet, gebruik het model en kijk hoe het presteert. Verbeterd het de vorige resultaten?
  7. Herhaal. Het geheim is om meerdere modellen te gebruiken om te zien welke op dit moment de beste resultaten geeft. Blijf herhalen tot je het beste model voor jou vindt.
  8. Kijk of het technologie concept bij jouw situatie past. Nu dat je enkele succesvolle implementaties hebt gezien van voorspellingsmodellen ben je veel beter uitgerust om de verschillende beschikbare paketten te evalueren en te beslissen welk concept het beste bij jouw behoeftes en budget past.

Begin nu

Mocht je eerdergenoemde serie vergelijkende blog posts pver voorspellings-software niet helemaal duidelijk zijn, of wil je gewoon makkelijk en snel aan de slag, dan zijn de mannen van het eerder genoemde BigML met hun weboplossing voor voorspellingsmodellen een goed beginpunt.

Hebben jullie nog tips?

Een programma voor voorspellingsmodellen dat iedereen moet kennen? Een niet te missen stap voor de nieuwe big data scientists in de dop? Deel ze in de comments.

Reacties (1)

  1. Leuk artikel. Heb me meteen aangemeld bij ML.

    Iemand praktijkvoorbeelden van successen m.b.v. voorspellingsmodellen?

Reacties zijn gesloten.