Fachartikel

JUL2019
Ausgabe 4/2019, Seite 18 | 19-07-18-1

Künstliche Intelligenz: Begriffe, Erklärungen, Anwendungen

KI – ein Blick in Black Box

Ob in Fach- oder Publikumsmedien, es vergeht kaum ein Tag, an dem künstliche Intelligenz (KI) nicht entweder für eine glorreiche Zukunft oder aber die Auslöschung der Menschheit herhalten muss. Paul Simmering betrachtet die Sache unaufgeregt. Hier sein Überblick und mögliche Anwendungsfelder für Consumer Insights.
Fachartikel zu \\\Foto: © elenabsl – fotolia.com, Renee Fisher/Unsplash: https://unsplash.com/photos/ZlJABjsolik,
KI bezeichnet Software, deren Fähigkeit zur Entscheidungsfindung so effektiv und flexibel ist, dass sie von Menschen als intelligent betrachtet wird. Was die Definition so schwer macht, ist, dass sich die Kriterien über die Zeit ändern. Software, die bei Erscheinen als KI bezeichnet wird und fast schon an Magie zu grenzen scheint, wird über die Zeit alltäglicher und bekommt einen konkreteren Namen. So war es beispielsweise der Fall bei „maschineller Übersetzung“ oder „Bilderkennung“. Eine praktische Definition ist daher „Intelligence is whatever machines haven’t done yet“ (Larry Tesler, ca. 1970).


Machine Learning – der Teilbereich, der den KI-Boom antreibt

Machine Learning ist das, was gegenwärtig als KI verstanden wird. Es ist eine Sammlung von Algorithmen, mit der Computer flexibel anhand von Beispielen selbständig lernen können, eine Aufgabe zu bewältigen. Der gegenläufige Ansatz sind Expertensysteme, bei denen Menschen explizite Entscheidungsregeln vorgeben.
Im Machine Learning gibt es drei Paradigmen:
  • Supervised Learning
  • Unsupervised Learning
  • Reinforcement Learning

Supervised Learning – Regression weitergedacht
Bei Supervised Learning werden Paare von Inputs und Outputs als Trainingsdaten genutzt. Mit mathematischer Optimierung werden die Gewichte des Modells dahingehend angepasst, dass sie auf Basis der Inputs möglichst gut die Outputs vorhersagen können. Eine der einfachsten Supervised-Learning-Methoden ist die lineare Regression. Im Gegensatz zu Statistikern sind Anwender von Machine Learning nicht an den Koeffizienten selbst interessiert, sondern möchten ein Modell, dessen Schätzfehler klein ist. In der Marktforschung kann Supervised Learning zum Forecasting von KPIs wie Absatzzahlen auf der Basis von Umfragedaten oder Social-Media-Daten genutzt werden.

Unsupervised Learning – selbstständiges Erkennen von Mustern
Bei Unsupervised Learning stehen dem Modell keine Beispiele zur Verfügung. Statt einen unbekannten Wert zu schätzen, soll ein Algorithmus die Daten nach Ähnlichkeit clustern. So etwa in der Hauptkomponentenanalyse, bei der Variablen in Linearkombinationen zusammengefasst werden, welche einen möglichst hohen Anteil der Varianz erklären. Dem Modell stehen zwar keine konkreten Beispiele zur Verfügung, aber es gibt ein Maß für die Qualität eines Clusterings.

Reinforcement Learning – Next Level
Bei Reinforcement Learning gibt es auch keine Beispiele – und noch wenig kommerzielle Anwendungsfelder. Der Unterschied zu Unsupervised Learning liegt in der Fragestellung. Unsupervised Learning sucht eine optimale Datenstruktur, für deren Güte es ein statistisches Maß gibt. Reinforcement Learning sucht Verhaltensregeln, um eine Aufgabe zu bewältigen, und der Nutzer bewertet den Erfolg der Versuche.
Zu Beginn des Trainings verhält sich das Modell zufällig. Bei Abschluss einer Aufgabe gibt es Feedback, beispielsweise einen Punkt für Erfolg und null Punkte für Misserfolg. Das Feedback wird beim nächsten Versuch genutzt. Durch viele Versuche sammelt das Modell immer mehr implizites Wissen über die Aufgabe, denn es sieht, welche Handlungen zu welchen Ergebnissen führen.
Die berühmteste Anwendung ist AlphaZero von Google DeepMind, ein System, das mittels einer Kombination von Suchen in einem Entscheidungsbaum und einem neuronalen Netzwerk verschiedene Brettspiele wie Schach und Go erlernt.


Neuronales Netzwerk – der Star unter den Algorithmen

Neuronale Netzwerke verarbeiten Inputs wie Zahlen, Texte oder Bilder zu Outputs wie Vorhersagen, Übersetzungen oder Klassifikationen. Sie können sowohl für Supervised, Unsupervised als auch für Reinforcement Learning eingesetzt werden. Sie sind bei weitem nicht der einzige Machine-Learning-Algorithmus, aber sie erreichen derzeit in vielen Anwendungen die höchste Genauigkeit und sind maßgeblich für den KI-Hype verantwortlich. Die Grundsätze sind nicht neu, denn das erste neuronale Netzwerk wurde schon 1943 von Warren McCulloch und Walter Pitts erfunden.
Doch erst in den späten 2000ern wurden durch leistungsstärkere Hardware, Durchbrüche bei der Effizienz der Algorithmen und durch das Vorhandensein großer Datenmengen die modernen Anwendungen möglich.

Aufbau
Die kleinste Einheit im Netzwerk ist das Neuron, ein Behälter für eine Zahl. Die Neuronen sind miteinander verbunden und geben Informationen weiter. Das Netzwerk ist in Layer gegliedert. Informationen werden von links nach rechts weitergegeben. Im Input Layer nimmt das System Informationen auf. In einem oder mehreren Hidden Layers werden die Informationen verarbeitet, und im Output Layer wird das Ergebnis abgelegt.



Info-Weitergabe

Die Weitergabe von Informationen ähnelt einer Regressionsgleichung. Der Wert eines Neurons ist die gewichtete Summe der damit verbundenen Neuronen aus dem vorherigen Layer. Auf diese Summe wird eine nicht-lineare Aktivierungsfunktion ausgeübt. Dazu wird eine Konstante addiert.

Lernkapazität
Je mehr Neuronen das Netzwerk hat, desto komplexere Zusammenhänge können mittels der Gewichte und Konstanten modelliert werden. Man spricht von Deep Learning, wenn es eine hohe Zahl von Layers mit vielen Neuronen gibt. Die Architektur von neuronalen Netzwerken ist flexibel und wird je nach Aufgabe angepasst.

Gewichte und Konstanten
Anhand von Beispielkombinationen aus Inputs und Outputs können die Gewichte und Konstanten trainiert werden, wie bei der linearen Regression. Da es weit mehr Gewichte gibt, ist die Optimierungsaufgabe komplizierter. Große Netzwerke haben Millionen von Gewichten.

Gradient Descent
Die Methode zur Optimierung von so vielen Gewichten heißt Gradient Descent. Der Output des neuronalen Netzwerks ist eine Funktion der Gewichte. Von dieser Funktion wird die Steigung in Abhängigkeit der Gewichte berechnet. Dann werden die Gewichte der Funktion so verändert, dass die Steigung sich verringert. Im Laufe vieler Iterationen nähern sich die Gewichte dem Optimum, also der geringsten Abweichung vom richtigen Schätzwert.

Image Recognition – der Computer lernt sehen

Um Bilder zu verarbeiten, werden sie in drei Matrizen von Pixeln zerlegt, je eine für die Farbwerte Rot, Grün und Blau. Jeder Wert dieser Matrizen fließt in ein Neuron im Input-Layer. Bei hochauflösenden Bildern kommen Millionen von Neuronen zusammen, was zu immensem Rechenaufwand für das Training führt.
Eine neue Art von Layer in neuronalen Netzwerken, der Convolutional Layer, schafft Abhilfe, indem er Muster in Bildern erkennt. Dazu wird das Originalbild in viele kleine Quadrate aufgeteilt, welche gefiltert werden. Ein Convolutional Layer besteht aus mehreren Filtern, deren Gewichte trainiert werden. Jeder Filter isoliert andere Merkmale, beispielsweise vertikale und horizontale Linien.

Facial Coding
Ein Verfahren in der Marktforschung, bei dem Image Recognition genutzt wird, um Emotionen in Gesichtern zu erkennen, ist Facial Coding. Die Abbildung zeigt, wie das Schwarzweiß-Bild eines Gesichts verarbeitet wird. Muster werden mittels Convolutional Layers erfasst und dann in einem Pooling Layer verdichtet. Diese Abfolge von Convolutional und Pooling Layer wiederholt sich einige Male. Die Informationen werden immer weiter verdichtet, bis sie als Vektor von Zahlen ausgedrückt werden können. Auf den Vektor wird eine Aktivierungsfunktion angewendet, um sie in Wahrscheinlichkeiten umzurechnen, welche dann im Output Layer herausgegeben werden. Die Technik kann beispielsweise bei Produkttests Insights liefern.

Natural Language Processing – aus Worten werden Zahlen

Neben Zahlen und Bildern können neuronale Netzwerke auch Text verarbeiten. Mittels word2vec, einem Unsupervised-Learning-Algorithmus, können Wörter als vieldimensionale Vektoren von Zahlen modelliert werden. Dazu verarbeitet word2vec Millionen von Wörtern – etwa den gesamten Text des deutschen Wikipedia. Die Wörter werden in einem vieldimensionalen Raum so geclustert, dass solche, die eine ähnliche Bedeutung haben, nahe aneinander stehen. Mit den beschriebenen Layers können diese Textvektoren verarbeitet werden. Besonders Recurrent Layers spielen für die Textverarbeitung eine Rolle. Dabei wird der Output vorheriger Durchläufe, beispielsweise der Output der Verarbeitung des vorherigen Satzes, bei der Bearbeitung des aktuellen Inputs miteinbezogen. Mit genügend Beispielen können Modelle neben der Bedeutung der Wörter in Form ihrer Vektoren auch die Grammatik einer Sprache erlernen und beispielsweise Satzteile wie Adjektive und Substantive markieren.

Anwendungen von Natural Language Processing
Mögliche Outputs von neuronalen Netzwerken für Natural Language Processing in der Marktforschung sind:
  • Sentiment-Einschätzungen,
  • die Identifikation von Merkmalen eines Autors wie Alter und Geschlecht oder
  • Sammlungen von Adjektiven, die in Zusammenhang mit einem Markennamen stehen.
Paul Simmering ist Data Analyst bei Q | Agentur für Forschung. Nach seiner Masterarbeit zu Entscheidungsprozessen von Menschen und KI arbeitet er nun mit Natural Language Processing, Netzwerkanalyse und interaktiver Datenvisualisierung.
www.teamq.de 

 


Diese Webseite verwendet Cookies. Cookies ermöglichen uns zu verstehen, wie Besucher unsere Webseite nutzen, damit wir sie verbessern und Ihnen das bestmögliche Erlebnis bieten können. Durch den Besuch unserer Website stimmen Sie der Verwendung von Cookies zu. Durch die Cookie-Einstellungen Ihres Internet-Browsers können Sie die Verwendung von Cookies blockieren. Weitere Informationen finden Sie unter Datenschutz.
akzeptieren