[Dieser Artikel ist auch so erschienen auf marktforschung.de]
[English version below!]
Eine Woche nach dem ESOMAR Kongress in Athen kreisen meine Gedanken immer noch um das zentrale Thema des Kongresses: Künstliche Intelligenz (KI), und wie sie in der Marktforschung eingesetzt werden kann (und bereits wird).
Aktuell zeichnen sich drei Bereiche ab, in denen KI mehr oder weniger erfolgreich eingesetzt wird:
1. Datenerhebung, zum Beispiel durch intelligente ChatBots
2. Datengenerierung, zum Beispiel um fehlende Daten oder Respondenten zu ersetzen
3. Datenauswertung, zum Beispiel von großen Mengen qualitativer Daten
Beginnen wir mal mit dem letzten Einsatzfeld: Auswertung! Das ist meines Wissens fast schon ein alter Hut (und das nach wenigen Jahren). Es liegt auf der Hand, dass die Algorithmen eines Large Language Models auf der Basis großer Datenmengen besonders gut trainiert werden können. Die Zusammenfassung und Verdichtung eines großen Datensatzes zu handhabbaren Kategorien ist somit naheliegend. Und wird auch bereits von verschiedenen Dienstleistern (meist auf Grundlage von Chat GPT) eingesetzt. Survalizer, einer dieser Anbieter, hat das in einem Vortrag step-by-step demonstriert. Es wurde dabei deutlich, dass mindestens in der Trainingsphase der Mensch noch eingreifen und steuern muss. Manche künstlich erzeugten Kategorien waren inhaltlich unscharf, andere auch schlichtweg unbedeutend. Aber einmal (bis zweimal) trainiert und getuned leistet der Algorithmus dann seinen Dienst und kann sehr große Datenmengen (Texte) zuverlässig kategorisieren. Ist natürlich nichts für kleine Ad hoc Samples. Aber sehr hilfreich bei dauerhaft sprudelnden Datenquellen, wie Kundenfeedbacks oder Social Media.
Was mich sehr beeindruckt hat, war der Einsatz der KI bei der Datenerhebung. Phil Sutcliff von Nexxt Intelligence hat den ChatBot der inca Plattform vorgestellt, der online qualitative Interviews durchführt. Und wir reden hier nicht von ein oder zwei Fragen, sondern von einem ausführlichen Tiefeninterview mit Nachfragen und Vertiefungen. In einer zweigleisig angelegten Studie mit ChatBot und menschlichen Interviewern haben sich die Befragten länger mit dem ChatBot unterhalten, als mit den menschlichen Interviewern. Gleichzeitig haben sie die Dauer des Interviews als kürzer empfunden. Und waren bei sensiblen Fragen dem ChatBot gegenüber offener.
Was könnte das für zukünftige Projekte der qualitativen Forschung bedeuten? Ich könnte mir vorstellen, dass zum ersten Mal wirklich große Stichproben mit dem Anspruch auf Repräsentativität für qualitative Studien erhoben werden. Die Datenerhebung mit ChatBots würde einen Bruchteil der Kosten im Gegensatz zu den von menschlichen Interviewern durchgeführten Interviews verursachen. Und würde nur wenig Zeit beanspruchen. Die immens großen Datenmengen, die dabei anfallen, könnten dann ebenfalls KI-gestützt ausgewertet werden. Natürlich müsste hier (beim jetzigen Stand der Technik) der Mensch noch in der Trainingsphase eingreifen. Aber im Ergebnis hätten wir qualitative Insights, die verallgemeinerbar wären (zumindest in den Grenzen, welche das Auswahlverfahren der Stichprobe setzt).
Wo ich dagegen eher skeptisch bin, ist das oben aufgeführte zweite Einsatzfeld. Mehrere Vorträge haben demonstriert, wie KI-generierte Daten menschliche Befragungsdaten ergänzen oder sogar ersetzen könn(t)en. Ein Anwendungsfeld war unter anderem das Auffüllen einer Stichprobe, aus der fragwürdige Datensätze zuvor dem Datacleaning zum Opfer gefallen sind. In einem Experiment wurde vorgestellt, wie aus einer Stichprobe menschliche Fälle entfernt und dann durch künstlich erzeugt Fälle ersetzt wurden. Interessant: Auf aggregierter Ebene haben sich die Ergebnisse zwischen den beiden Stichproben (rein menschliche Stichprobe vs. Stichprobe mit einem Anteil künstlicher Fälle) praktisch nicht unterschieden. Aber im 1-zu1-Vergleich auf individueller Ebene haben die künstlich generierten Daten nur zu rund 30% mit den menschlichen Daten übereingestimmt. Somit mag diese künstlich angereicherte Stichprobe zwar das Große und Ganze angemessen widerspiegeln. Aber Analysen, welche die individuelle Ebene mit einbeziehen, wie zum Beispiel Segmentierungen, wären fehlerbehaftet.
Ein weiterer Anwendungsfall war die Generierung von Befragten mit selten anzutreffenden Profilen. Also quasi die Generierung der „Nadel im Heuhaufen“. Das wurde am Beispiel von Sushi-Liebhabern eine ganz bestimmten Marke getestet. Da diese Konsumenten nur selten anzutreffen waren, wurde der Datensatz mit künstlichen Sushi-Liebhabern dieser Marke angereichert, die dann tatsächlich auch „interviewt“ wurden. Die Ergebnisse (also deren Antworten) waren durchaus verblüffend, aber am Ende doch eher allgemeiner Natur und wenig bis gar nicht emotional gefärbt.
Mein Fazit: Hier ist die Technik noch (!) nicht soweit.
Aber wo führt uns das hin? Ich war vor 12 Jahren zum ersten Mal auf einem ESOMAR Kongress. Das war in Istanbul. Das Megathema damals: System 1 und System2! Also die Frage, wie schaffen wir es, zu den wirklich wesentlichen Motivationen und Einstellungen der Befragten vorzudringen? Weg von verbalem (kognitiven) Verhalten zu den intrinsischen Antrieben der Menschen. Der Mensch, das Menschliche, stand im Fokus.
Und heute sprechen wir darüber, wie wir den Menschen durch künstlich generierte Daten ersetzen. Wollen wir nicht mehr wissen, was uns Menschen antreibt? Vielleicht bin ich ja auch nur ein hoffnungsloser Romantiker? Aber ich frage mich ernsthaft, ob hier nicht vor lauter Euphorie über das technisch Machbare unser eigentlicher Antrieb als Marktforscher, die Neugierde auf das, was uns Menschen im Innersten bewegt, auf der Strecke bleibt.
Vielleicht ist die Antwort „42“? Ich hoffe es nicht.
English version
AI … a turning point in market research? Thoughts on the ESOMAR Congress 2024 in Athens
A week after the ESOMAR Congress in Athens, my thoughts are still revolving around the central theme of the congress: artificial intelligence (AI) and how it can be (and is already being) used in market research.
Three areas are currently emerging in which AI is being used more or less successfully:
1. data collection, for example through intelligent chatbots
2. data generation, for example to replace missing data or respondents
3. data analysis, for example of large amounts of qualitative data
Let’s start with the last field of application: data analysis! As far as I know, this is almost old hat (and that after only a few years). It is obvious that the algorithms of a large language model can be trained particularly well on the basis of large amounts of data. Summarising and condensing a large data set into manageable categories is therefore obvious. And it is already being used by various service providers (mostly on the basis of Chat GPT). Survalizer, one of these providers, demonstrated this step-by-step in a presentation. It became clear that, at least in the training phase, humans still have to intervene and control the process. Some artificially generated categories were blurred in terms of content, others were simply insignificant. But once (or twice) trained and tuned, the algorithm does its job and can reliably categorise very large amounts of data (texts). Of course, this is not applicable for small ad hoc samples. But it is very helpful for permanently bubbling data sources, such as customer feedbacks or social media.
What really impressed me was the use of AI in data collection. Phil Sutcliff from Nexxt Intelligence presented the inca platform’s ChatBot, which conducts qualitative interviews online. And we’re not talking about one or two questions here, but a detailed in-depth interview with follow-up questions and in-depth analyses. In a two-pronged study with ChatBot and human interviewers, the interviewees spent more time talking to the ChatBot than to the human interviewers. At the same time, they perceived the duration of the interview as shorter. And they were more open to the ChatBot when it came to sensitive questions.
What could this mean for future qualitative research projects? I could imagine that, for the first time, really large samples with a claim to representativeness will be collected for qualitative studies. Collecting data with chatbots would be a fraction of the cost of interviews conducted by human interviewers. And it would take very little time. The immense amounts of data generated could then also be analysed with the help of AI. Of course, humans would still have to intervene in the training phase (given the current state of technology). But as a result, we would have qualitative insights that could be generalised (at least within the limits set by the sample selection procedure).
Where I am rather sceptical, however, is the second field of application mentioned above. Several presentations have demonstrated how AI-generated data can supplement or even replace human survey data. One field of application was, among other things, the replenishment of a sample from which questionable data records had previously fallen victim to data cleansing. An experiment showed how human cases were removed from a sample and then replaced by artificially generated cases. Interesting: On an aggregated level, the results between the two samples (purely human sample vs. sample with a proportion of artificial cases) practically did not differ. However, in a 1-to-1 comparison at an individual level, the artificially generated data only matched the human data by around 30%. This artificially enriched sample may therefore adequately reflect the big picture. However, analyses that include the individual level, such as segmentation, would be prone to errors.
Another use case was the generation of respondents with rarely encountered profiles. In other words, the generation of a ‘needle in a haystack’. This was tested using the example of sushi lovers of a very specific brand. As these consumers were rarely encountered, the data set was enriched with artificial sushi lovers of this brand, who were then actually ‘interviewed’. The results (i.e. their answers) were quite astonishing, but in the end they were of a more general nature and had little or no emotional colouring.
My conclusion: technology is not yet (!) ready for this.
But where does that lead us to? I attended an ESOMAR congress for the first time 12 years ago. That was in Istanbul. The megatopic back then was System 1 and System 2! So the question was, how do we manage to get to the really essential motivations and attitudes of the interviewees? Moving away from verbal (cognitive) behaviour to people’s intrinsic drives. The focus was on people, the human element.
And today we are talking about how we are replacing people with artificially generated data. Do we no longer want to know what drives us humans? Maybe I’m just a hopeless romantic? But I seriously wonder whether our actual drive as market researchers, our curiosity about what moves us humans at our core, isn’t falling by the wayside because of all the euphoria about what is technically feasible.
Perhaps the answer is ‘42’? I hope not.