Der zunehmende Einsatz von computergestützten Erhebungsverfahren in der quantitativen Marktforschung ermöglicht es, während der Feldzeit oder kurz nach Feld ende Ergebnisse für geschlossene Fragen zu liefern. Um ein möglichst umfassendes Ergebnis einer Befragung zu erhalten, sind allerdings Fragestellungen mit freien Textantworten unabdingbar, zum Beispiel ungestützte Awareness-Fragen bei Selbstausfüllern. Die offenen Textantworten müssen vor einer Analyse zeit- und kostenintensiv manuell quantifiziert werden.
Im Gegensatz zu den Erhebungsverfahren hat sich die Vorgehensweise für das Kategorisieren der Freitexte (Verbatims) kaum verändert. Der von der Paper-Pen-Erhebung bekannte Prozess, mit Hilfe eines Codeplanes die einzelnen Verbatims per Nummerncode zu kategorisieren, wurde meist als einzige technische Neuerung auf eine Tabellenkalkulation, wie Microsoft Excel, übertragen. Hierbei werden die Codepläne separat im gleichen oder in anderen Programmen bereitgestellt. Das kann zu Fehlermöglichkeiten und Kostenfallen führen.
Hilfe beim Codieren
Die verbaco systems AG entwickelt mit verbaco seit 2007 ein web-basiertes Tool für das Codieren von offenen Fragen. Das Tool ist eine Web-Applikation, die von jedem Standort via Internet und einem einfachen Webbrowser zu bedienen ist, und unterstützt sowohl das manuelle Codieren wie auch das halbautomatische Maschinencodieren. Zusätzliche Programme müssen nicht installiert werden. Somit können mehrere an einer Studie Beteiligte gleichzeitig an den offenen Fragen arbeiten.
Mehr Effizienz und Qualität - geringere Kosten
Durch den zeitgleichen Ablauf von Datenerhebung und Coding offener. Fragen - einer Vorgehensweise, die im herkömmlichen Prozedere nur schwer zu realisieren ist - lässt sich die Effizienz im Codingprozess drastisch erhöhen. Durch die web-basierte Lösung mit zentraler Datenhaltung kann sich der Anwender mit Hilfe einer Real-time-Übersicht des Projektstandes jederzeit im Detail über Kosten, Qualität und den zeitlichen Verlauf informieren.
Die Qualität der Codierung steigt signifikant durch die sofortige globale Verfügbarkeit von Codeplan-Änderungen sowie einfach zu handhabende und wirkungsvolle Kontrollmöglichkeiten der Ergebnisse noch während des Codierungsprozesses. Die Kosten an sich werden durch die Vermeidung sich stetig wiederholender und unnötiger Arbeitsschritte in der Nachbearbeitung stark gesenkt. Beispielsweise entfallen die nachträgliche Synchronisation von Codeplänen und dezentral codierten Verbatims vollständig.
Transparenz beim Codieren
Eine mögliche Zeitaufzeichnung aller Bearbeitungsschritte dient der Dokumentation aller Maßnahmen, die zur Qualitätssicherung getroffen wurden. Die bis jetzt nur schwer nachvollziehbare Tätigkeit des Codierens offener Fragen wird transparent und erfüllt die Qualitätsanforderungen für Coding der ISO-Norm 20252.
Im manuellen Coding selbst wird der Benutzer unterstützt durch moderne Such- und Validierungsfunktionen, optimierte Eingabemasken sowie die kontinuierliche Verfügbarkeit des elektronischen Codeplans innerhalb der Anwendungsmaske.
Automatische Zuordnung
Das Bestreben, den manuellen Vorgang des Kategorisierens durch computergestützte, linguistische und statistische Algorithmen zu automatisieren, besteht schon lange. Bei Fragen, die keiner interpretativen Zuordnung bedürfen, wie nach Marken, Produkten oder Namen, bietet verbaco eine Lösung, die auf einem modifizierten Mustererkennungs-Algorithmus basiert und mit Hilfe von Übereinstimmungswahrscheinlichkeiten kategorisiert. Durch diesen Ansatz ist es möglich, verschiedene Schreibweisen einer Marke zu erkennen und automatisch der richtigen Kategorie zuzuordnen. Um die Anwendung und Pflege dieses „Precoders" für den User möglichst einfach zu gestalten, verwendet der Precoder einen durch Worthäufigkeit generierten oder bereits vorhandenen Codeplan. Hierbei wird eine automatische Codierung von rund 90 Prozent erreicht. Eine nachfolgende visuelle Kontrolle des automatisierten Codings gewährleistet die Erzielung qualitativ hochwertiger Ergebnisse. Abschließend müssen lediglich die verbleibenden zehn Prozent nicht zugeordneter Nennungen manuell codiert werden.
Eine automatische inhaltliche Kategorisierung von offenen Fragen der quantitativen Forschung ist mit den bekannten linguistisch-statistischen Verfahren schwer möglich, da für die Algorithmen in der Regel zu kleine Fallzahlen vorliegen (Anforderung: Anzahl Nennungen pro Kategorie > 100) und die Freitexte häufig eine geringe Länge, meist ein bis fünf Sätze, aufweisenrüber hinaus erschweren orthographische und grammatikalische Schwächen in den Freitexten die Analyse und sollten daher vorab weitgehend eliminiert werden. Ferner müssen die linguistisch statistischen Ansätze für jede Befragung aufwendig konfiguriert und trainiert werden. Dieser Handlingaufwand für ein automatisches Kategorisieren von inhaltlichen Fragen kann somit den Aufwand einer manuellen Codierung noch übersteigen.
Freitexte werden als Bibliothek verwendet
Um ein automatisches Kategorisieren von Freitexten mit vertretbarem Aufwand zu ermöglichen, beschreitet verbaco derzeit einen neuen Weg. Alle mit dem Tool verbaco manuell codierten Verbatims eines Kunden gleicher oder ähnlicher Fragestellung werden als Bibliothek verwendet. Anhand des so vorliegenden „Trainingsmaterials" kann die spezifische Art und Weise der Kategorisierung für jeden Kunden nachgebildet werden. Die zu codierenden Freitexte werden automatisch linguistisch aufbereitet und mit einem bayesischen, selbstlernenden Filter analysiert, der um einen modifizierten Mustererkennungsalgorithmus erweitert wurde. Alle vollständig codierten Verbatims werden anschließend für eine visuelle Qualitätskontrolle zur Verfügung gestellt.
Erste Ergebnisse mit Symcoder
Die ersten Ergebnisse dieses neuen Verfahrens zeigen, dass rund 40 Prozent der Verbatims vollständig und korrekt automatisch kategorisiert werden.
Obwohl rund die Hälfte der Verbatims nach wie vor manuell codiert werden muss, reduziert der geringe Aufwand für Setup und Ablauf des „Autocodings" von Freitexten den Zeitbedarf und die Kosten im Codingprozess erheblich.
In Kürze ist der laufende Optimierungsprozess für dieses innovative Modul abgeschlossen und steht Kunden von verbaco zur Verfügung.
Fachartikel
Ausgabe 4/2009, Seite 44
Artikelnummer: 09-04-44-1
Gut codiert ist halb gewonnen
Online-Tool kategorisiert freie Textantworten
Das Codieren von offenen Fragen ist in der quantitativen Marktforschung meist sehr aufwendig. Das webbasierte Tool verbaco unterstützt sowohl das manuelle Codieren wie auch das halbautomatische Maschinencodieren. Erste Ergebnisse für automatisches Codieren mit Symcoder präsentiert Helmut Heinlein.
