6 tips voor wie zijn datasets door Chat GPT wil laten analyseren

investdata
Jan 28, 2024
5 min read

Updated: Jan 29, 2024

Voor wie zich al aan de betalende versie heeft gewaagd van Chat GPT, de mogelijkheden worden navenant groter. Dan zijn we al snel eens geneigd om die kunstmatige hersenen te testen op hun pertinentie: hoe brengt Chat GPT het er van af met een (privacy proof) dataset? Herkent hij patronen in surfgedrag? Kan hij conversie voorspellen? We deden de test… en lijsten meteen enkele aandachtspunten op voor wie zelf aan de slag wil gaan.

Wie de betalende versie van Chat GPT gebruikt, kan sowieso al rekenen op een geavanceerdere 4.0 versie om zijn zoektocht op te laten draaien. Naar verluidt is in die versie recentere webdata geïntegreerd, begrijpt Chat GPT beter de context en de complexiteit van een vraag, kan hij fijnmazigere antwoorden formuleren & zet hij nog meer in op veiligheid.

We geloven het graag, wat aan de gebruikerskant echter een groot verschil maakt in de betalende versie is de mogelijkheid om documenten op te laden. Zo kan je je pdf, word of excel naadloos bij de analyse betrekken. Uit eenvoud & voor het gemak zullen we Chat GPT in onderstaande tekst maar in de menselijke “hij”-vorm benoemen.

1-anonimiseer

Vooraleer documenten op te laden op een vreemde plaats, moet je er op toezien dat er geen persoonlijke data aan gekoppeld is. Die best practice is sinds de invoering van GDPR al ingeburgerd. Soms kan het zijn dat in datasets nog sommige PII-informatie (personally identifiable information) blijft hangen in een kolom (zoals IP-adres, email-adres, …). Alles wat niet voor een externe lezer tot de identificatie van een individuele gebruiker kan leiden mag blijven staan. Idealiter behoud je een unieke code per user voor het geval je na een externe analyse (zoals door Chat GPT) nog een reality check wil doen op de gevonden patronen.

2-splits logfiles in strakke kolommen met strakke titels

Van zodra Chat GPT aan het analyseren slaat, probeert hij een structuur te vinden in de file. Hij probeert een index te maken van parameters die hij in zijn analyse zal kunnen betrekken.

Eenvoudige kolommen met heldere inhoud zijn een must. Liever een extra kolom met een uitgesplitste parameter dan een vage kolom die meerdere parameters overschouwt (bv. ratio’s). Ook duidelijke kolomtitels zijn daarbij een hulp. Te meer omdat je achteraf de queries kunt opvragen die hij heeft gebruikt. Dan helpt het als je met duidelijke kolomtitels werkt die je achteraf kan thuiswijzen in het query-overzicht.

Ook inhoudelijk kan je de analyse helpen door bepaalde kolommen op te kuisen. Irrelevante data, dubbele data. Zorg er ook voor dat je doel vervat zit in een duidelijke aanwijsbare kolom (bv. landingspagina gezien, conversie bereikt, canceled subscription, …). In de casus van patroonherkenning is het belangrijk dat Chat GPT kan zoeken naar de correlaties die voorafgaan aan die ene gebeurtenis.

Als je toch eigen ratio’s voorrekent, plaats ze dan in een aparte kolom naast de initiële parameters. Zo zorg je voor extra volume aan datapunten waardoor je Chat GPT ook voedt met datapunten die kunnen leiden tot out-of-the-box inzichten:

bv. een engagement-score die je berekent per gebruiker op basis van recency-frequency-value)
bv. arpu (average revenu per user door een omzet te delen over eenzelfde tijdseenheid)
bv. historiek (hoe lang is de gebruiker al gekend op je platform

3- splits grotere files over meerdere documenten heen

Hoewel Chat GPT zich niet beperkt tot een maximum aantal tabbladen, rijen of kolommen, soms wordt het hem teveel. Hoe langer de analysetijd oploopt, hoe hoger het risico dat een foutmelding opdoemt. Bereid je voor in de setup van je tabellen dat je ze mogelijks in diverse fases zult moeten opladen. Naderhand beweert Chat GPT de tabellen achterliggend te kunnen mappen. Uit de resultaten blijkt dat ook zo.

4-stel niet teveel vragen in één keer

De “data-analyst”-functie van Chat GPT crasht toch vrij regelmatig tijdens zijn analyses. Dan moet je alles ‘regenereren’ zoals hij het zelf noemt. Herbeginnen zeg maar. Maar dan overschrijft hij ook de antwoorden die hij mogelijks al had gegeven op deelvragen. Vermijd dus lange vragen met subvragen. Je vergroot enkel het risico op crashen en je verliest telkens weer je antwoord. Vraag per vraag is niet slecht.

Weet ook dat er een limiet is aan wat je kan genereren. Soms word je een half uurtje de wacht aangezegd omdat je te intensief bezig bent & om een “eerlijke verdeling van middelen te garanderen” (dixit Chat GPT).

5-doublecheck de resultaten.

De analyses die Chat GPT loslaat op je dataset gaan, zeker in het geval van patroonherkenning. gepaard met correlatie-analyses, Je krijgt daar ook inzicht in de gebruikte python-code. Daar valt weinig op aan te merken: transparant & relevant.

Afhankelijk van het doel van je analyse is het altijd aangeraden om te doublechecken met je eigen inzichten & berekeningen. Chat GPT wijst je de richting aan van mogelijke inzichten waardoor je mogelijks tijd wint. Maar het valt aan te raden om de bevindingen die Chat GPT aanwijst nog eens over te doen op je je eigen dataset.

Er kunnen zich diverse soorten fouten voordoen:

i-wiskundig: zo berekende Chat GPT op eenzelfde dataset twee verschillende resultaten op exact dezelfde vraag op exact dezelfde dataset. De ene keer was het antwoord “3,6 dagen” en de andere keer was het antwoord “1,23 dagen”. Vreemd. En dus niet volledig betrouwbaar.

ii-methodologisch: het voordeel bij Chat GPT is dat hij je stapsgewijs uitlegt welke parameters hij zal gebruiken om tot een resultaat te komen. Je kan dus tijdig bijsturen. Het risico bestaat immers dat hij een kolom in rekening nam dan degene die jij bedoelde (bv. om de winst te duiden van een bedrijf kunnen diverse accenten gelegd worden). Daarbij moet je de voorgestelde werkwijze soms overrulen. Zo blijf je meester van je analyse maar heb je wel veel tijd (en mogelijks wat serendipiteit) gewonnen in je ganse flow!

6- Doe een tegenanalyse

Van zodra alle resultaten zijn bekomen die je wilde, laad dan nog eens een willekeurig document op met willekeurige situaties die het vooropgestelde doel niet bereikten, bij wijze van tegenanalyse (bv. users die niet converteerden naar een aankoop) . Stel de vraag aan Chat GPT als de alternatieve dataset de conclusies van de patroonherkenning a contrario bevestigt.

een slimme & veelbelovende tool maar op vandaag nog niet betrouwbaar in de basisversie van Chat GPT PLUS.

Conclusie:

Tijdrovend en onnauwkeurig. Maar ook inspirerend en verfrissend.

De tijd die je er in steekt om de vragen te stellen, te herformuleren, te regenereren, te wachten (een analyse fase neemt soms enkele minuten in beslag), etc… zorgt ervoor dat je al snel voor enkele uren bent vertrokken… met een uitkomst die je dan nog eens moet doublechecken.

Chat GPT is een Large Language Model (LLM) die tekstueel analyseert & genereert. Dat model botst op rekenkundige & statistische limieten. Maar de omliggende chatbots (en anderen die in sneltempo opduiken) creëren wel de illusie om met je data te kunnen chatten. Dat het die richting uitgaat is een zekerheid. Dat je het al voor waarheid mag aannemen is het nog allerminst.

Zo blijven data-analyses nog wat in de gimmick-sfeer hangen. Het kan je op weg helpen op correlaties op te sporen, om out-of-the-box verbanden op te sporen, etc. … maar de gefundeerde analyse doe je best zelf over in je eigen vertrouwde omgeving. Met de dataset die je hebt voorbereid kan dat niet zo veel extra werk meer vergen. Het toont vooral aan dat goeie brondata de sleutel is voor AI-toepassingen. Ook ownership van data zal daarbij aan belang winnen.

Kortom, een slimme & veelbelovende tool maar op vandaag nog niet betrouwbaar in de basisversie van Chat GPT PLUS. Maar dat het een schot voor de boeg is voor hetgeen we ons in de toekomst aan mogen verwachten…. geen twijfel mogelijk! De Enterprise-versie kan naar verluidt meer met data-analyse. We testen het graag voor een volgende bijdrage!

Vermoedelijk zijn deze bevindingen ook geldig in andere LLM-modellen. En hopelijk doen wiskundigere AI-modellen het beter. Ook die testen we graag in toekomstige bijdrages. Laat maar weten welke op jullie radar staan! Heb je zelf ervaring of bijsturingen? Share your thoughts! Alle feedback welkom via comments of per mail: info@investdata.be!

Ter aanvulling: voor deze test werd gebruik gemaakt van een opgeladen Excel-file(s) met geanonimiseerde & vereenvoudigde data in Chat GPT 4.0 onder een betalend PLUS-account in de periode van januari 2024.

6 tips voor wie zijn datasets door Chat GPT wil laten analyseren

Recent Posts

Comments