Business Intelligence is dood: Leve Data Intelligence!

Het is tijd om het beestje een naam te geven. Big Data, Data Science, allemaal mooie termen maar dekken de lading niet: ik ben eigenlijk altijd een beetje jaloers op de Business Intelligence (BI) specialisten die zo’n mooie pakkende titel hebben voor hun vak. Het uitgangspunt van de BI specialist is het bedrijfsproces. De bovengenoemde recente disciplines als Data Science komen van de andere kant: de data is het uitgangspunt. Wat zou er dan niet logischer zijn om de – overigens steeds vaker opduikende naam – Data Intelligence (DI) te gaan voeren voor dit vak?

Eerst een korte uitleg van de titel van dit stuk. Sorry, het is een beetje een lokkertje: Ik ben het totaal niet eens met dit statement. Business Intelligence is een volwassen en belangrijk vakgebied; het zal dan ook in mijn optiek nog jaren blijven bestaan en blijft ook een prima discipline om je in te specialiseren. Waar ik eigenlijk de nadruk op wil leggen is dat Data Science en de ontstluiting van Big Data bronnen vaak onterecht bij deze vaklui neergelegd wordt. Dit is een heel andere tak van sport!

Ik zal uitleggen wat ik bedoel, en tevens proberen te onderbouwen waarom we hier een (eigen) vaknaam voor nodig hebben. BI specialisten richten zich in de basis op het inrichten van een Data Warehouse. Dit is een (relationele) database met een wat afwijkend schema, zodat ook veranderingen en daarmee trendanalyses over de tijd inzichtelijk gemaakt kunnen worden. Heel waardevol maar eigenlijk uitsluitend van toepassing op systemen die gebaseerd zijn op (relationele) databases; of de mogelijkheid hebben om gestructureerde informatie te kunnen exporteren. Daarnaast is een data warehouse ook slechts schaalbaar in de ordegrootte van Gigabytes (dus geen Terabytes, laat staan Petabytes).

Datawarehouses worden over het algemeen gevuld met geautomatiseerde processen die bestaan uit de stappen ExtractTransform, en Load (ETL). De data wordt in een eerste stap uit de bestaande systemen geëxtraheerd, vervolgens getransformeerd naar het model van het data warehouse, en daar vervolgens in geladen. Om deze processen zo licht mogelijk te houden wordt vanuit de informatievraag bepaald welke informatie er door dit proces heengaat; typisch alleen de gegevens die nodig zijn om in het uiteindelijke rapport dat de businessvraag moet beantwoorden worden meegenomen.

Samengevat: BI omvat een breed scala aan technieken die gezamenlijk vaak leiden tot een rapportage die inzichten verschaft over bedrijfsproces-gedreven vragen. Datzelfde geldt ook als we als uitgangspunt de data nemen: misschien zelfs wel nog sterker. De bronsystemen voor datagedreven analyses kunnen immers veel diverser van aard zijn: we hebben het niet alleen meer over relationele databases maar ook over videostreams en ander beeldmateriaal, natuurlijke tekst, of telemetrie.

Omdat we de extractie niet langer kunnen laten leiden door een rapportagevraag – en daarmee de opgeslagen data dus kunnen verkleinen – wordt deze stap eigenlijk wat eenvoudiger. Eigenlijk wordt het min of meer ‘replicatie’ van alle beschikbare data, in een zo puur mogelijke vorm. Dit omdat we mogelijk op later moment de data willen kunnen analyseren en dus gebruik kunnen maken van de meest rijke vorm zonder filteringen of aggregaties.

Het data lake wordt een min of meer platte kopie van alle binnenkomende datastromen. Dat impliceert natuurlijk nogal wat: dit heeft de potentie om een gigantische omvang te krijgen over de jaren. Waar we bij BI de transformatie uitvoeren vóór de opslag in het data warehouse, stellen we bij DI de transformatie uit en doen we dit pas als we een zinnige analyse of rapportage doen. ETL wordt dus ELT, waarbij de Transformatie wordt uitgevoerd bij het creëeren van het rapport. Typisch is dit de stap ‘Data Science’.

Dit plaatje illustreert mijn punt. Om zinnig bezig te zijn met Big Data en Data Science technieken in je organisatie is het van groot belang om hier een passende verwerkingsstraat bij te ontwerpen en beheren. Hier komen veel meer zaken bij kijken dan een kratje ‘Data Scientists’ vers van de opleiding op te zetten; de bronsystemen zullen ontsloten moeten worden. het data lake gevuld en tevens ontsloten, met alle kennis en kunde van dien.

Aangezien we het hier ook eigenlijk (op wellicht enkele bronsystemen na) helemaal niet meer over relationele databases hebben is het tevens geen goed idee om dit in de schoot van de reeds aanwezige BI professionals te werpen. Het begint met het onderkennen van de behoefte aan een “Data Intelligence Competence Centre” (DICC) in mijn optiek.

Leave a Reply

Your email address will not be published. Required fields are marked *

Copyright ICRIS BV