MikeOnAI S01E07 – ChatGPT im Bild und multimodal

Willkommen zur siebten Episode von ‚Mike on AI‘, meiner persönlichen Reihe, in der ich meine Entdeckungsreise in die faszinierende Welt der Künstlichen Intelligenz teile. In der heutigen Folge befassen wir uns mit ChatGPT in visueller Form, da ChatGPT nun multimodal wird und sowohl Bilder als auch Töne verarbeiten kann. Ich habe diese spannende neue Funktion getestet und stelle die Ergebnisse anhand von vier spezifischen Beispielen vorstellen.

1. Vintage Computer Festival

Ein Foto vom Vintage Computer Festival Berlin 2023, das verschiedene alte Computergeräte zeigt, darunter der Commodore 64 und zugehörige Peripheriegeräte. ChatGPT erkennt die meisten Objekte korrekt und gibt sogar an, dass das Foto vom Vintage Computer Festival 2023 stammt. Es gibt jedoch kleinere Fehler/Unsicherheiten bei der Identifizierung einiger spezifischer Objekte. Erfolgsquote: ChatGPT hat etwa 80-85% der Inhalte korrekt identifiziert.

2. Erkennung eines elektronischen Bauteils

Es wird ein IC (integrierter Schaltkreis) gezeigt, und ChatGPT wird gebeten, einen logischen Schaltplan dafür zu liefern. ChatGPT erkennt den IC als 7400 NAND-Gate und beschreibt seine Funktion sowie die Pinbelegung. ChatGPT beschreibt die allgemeine Funktion des ICs korrekt, aber gibt es einige Ungenauigkeiten in der spezifischen Pinbelegung und der physischen Beschreibung des ICs. Erfolgsquote: Die genaue Erfolgsquote wird nicht erwähnt, aber es wird darauf hingewiesen, dass es signifikante Fehler in den Details gibt.

3. Audiokassette und Bleistift Meme

Ein klassisches Meme, das eine Audiokassette und einen Bleistift zeigt, wird präsentiert. ChatGPT erklärt zutreffen, warum die Kombination von Kassette und Bleistift für Menschen, die in den 80er und 90er Jahren aufgewachsen sind, nostalgisch ist, insbesondere im Zusammenhang mit dem Zurückspulen von Kassettenbändern. Erfolgsquote: geschätzte Trefferquote 95%.

4. Interpretation einer Handzeichnung

Eine handgezeichnete Skizze, die die technische Aufstellung für hybride Veranstaltungen zeigt, wird analysiert. ChatGPT interpretiert die verschiedenen Elemente der Skizze, einschließlich des Sprechers, der Kamera, des Mischpults und der Bedeutung der Notizen des Moderators. ChatGPT bietet eine umfassende Interpretation der Skizze und ihrer Elemente in Bezug auf hybride Veranstaltungen. Erfolgsquote: Eine spezifische Erfolgsquote wird nicht erwähnt, aber die Interpretation wird als detailliert und zutreffend dargestellt. Insgesamt demonstriert das Video die beeindruckenden multimodalen Fähigkeiten von ChatGPT, hebt jedoch auch Bereiche hervor, in denen es zu Ungenauigkeiten kommen kann, insbesondere bei detaillierten oder sehr spezifischen Anfragen.