Talking Portraits
Von Rembrandt bis Real-Time: Das KI-gesteuerte Porträt, das sieht und spricht
( Services )
- AI Transformation
- Tech & Data
Für die Generation, die in der Welt von Harry Potter aufgewachsen ist, waren sprechende Gemälde eine Fantasie, die nur in Büchern und Filmen möglich war.
Bei DEPT® waren wir schon immer davon besessen, Storytelling und Technologie zu verbinden. Und mit den Fortschritten in der generativen KI, wie digitalem Klonen, LLMs und Sprachsynthese, wussten wir, dass der Moment gekommen war, um „lebende“, von Hogwarts inspirierte Kunst in die reale Welt zu bringen.
Wir waren nicht an geskripteten Interaktionen oder einmaligen Demos interessiert. Wir wollten etwas Dynamisches kreiren, indem ein digitaler Charakter die Zuschauer:innen sehen und verstehen sowie in Echtzeit reagieren kann.
Das Talking Portraits-Konzept entwickelte sich schnell von einem Gedankenexperiment zu einem funktionierenden Prototypen: ein System zur Erstellung emotional reaktionsfähiger, KI-gesteuerter Porträts, die Live-Gespräche führen können. Ganz nach dem Vorbild historischer Persönlichkeiten, fiktionaler Charaktere oder völlig neuer Personas.
Für die Interaktion geschaffen
Das Talking Portrait ist nicht nur ein cleverer Chatbot mit Gesicht. Die Kombination mehrerer Layer generativer Technologie ermöglicht eine nahtlose Echtzeit-Interaktion zwischen einer Person und einem digitalen Charakter.
Es beginnt mit der Generierung von Videoinhalten, um einen digitalen Klon des Charakters zu trainieren, wobei KI-gestützte Sprach-, Bild- und Videogenerierung kombiniert werden. Dieser Klon wird dann über eine maßgeschneiderte Schnittstelle und ein Backend zum Leben erweckt, das Streaming, Warteschlangen, Ruhemodi und alle Dienste verwaltet, die für die Live-Interaktion erforderlich sind.
Das Porträt ist mit einer Kamera und einem Mikrofon verbunden, sodass es die davor stehende Person sowohl hören als auch sehen kann. Mithilfe von Computer Vision kann es Details in der Umgebung identifizieren, wie z.B. Mimik, Gesten oder Text, und entsprechend reagieren. All dies wird durch ein LLM gefiltert, das darauf trainiert wurde, flüssige, natürliche Gespräche zu führen, die alles andere als geskriptet wirken. Das Ergebnis ist eine Interaktion, die sich persönlich, intelligent und manchmal – auf die bestmögliche Weise – unheimlich anfühlt.
Kunst als Interface
In Anlehnung an die niederländischen Wurzeln von DEPT® haben wir uns entschieden, die Technologie mit Rembrandt zu launchen. Genauer gesagt verwendeten wir das sofort erkennbare, ausdrucksstarke und historisch reiche Selbstporträt als Apostel Paulus des Malers aus dem 17. Jahrhundert.
Die Verwendung einer historischen Figur und eines ikonischen Kunstwerks als Motiv war nicht nur wegen der Menge des Ausgangsmaterials sinnvoll, sondern auch, weil Kultureinrichtungen zu den logischsten frühen Anwender:innen dieser Art von Technologie gehören. Sie sind bereits auf Interpretation, Storytelling und Besucher:innenbindung spezialisiert. Talking Portraits fügen eine neue Ebene hinzu: Interaktion.
Während der Kulturbereich ein natürlicher Einstiegspunkt ist, haben wir die Technologie so entwickelt, dass sie branchenübergreifend skaliert werden kann. Vor allem im Bildungsbereich bietet sich ein starker Use Case. Stellen Sie sich vor, Schüler:innen interagieren zu jeder Stunde, in jedem Klassenzimmer, in jeder Sprache mit Fachexpert:innen, fiktionalen Charakteren oder historischen Figuren. Die Fähigkeit, personalisierten, persistenten und kostengünstigen Unterricht oder Mentoring zu liefern, eröffnet neue Möglichkeiten an Orten, an denen menschliche Ressourcen begrenzt sind.
Und das ist nur ein Weg. Von Trainingssimulationen über Hospitality Erlebnisse, Marken-Einzelhandel bis hin zu Unterhaltung sind die potenziellen Anwendungen emotional bewusster, KI-gesteuerter Charaktere so breit gefächert wie die Vorstellungskraft, die hinter ihnen steckt.
Realistischer und reaktionsfähiger.
Die Version, die wir bisher gezeigt haben, ist nur der Anfang. Version 2 ist bereits in Arbeit, mit wesentlichen Verbesserungen in Bezug auf die Genauigkei der Animation, Gesprächsnuancen und dem Realismus insgesamt. Jede Iteration bringt die Interaktion einen Schritt näher an ein wirklich nahtloses und lebendiges Gefühl.
Doch selbst in ihrer frühesten Form hat Talking Portraits Momente geliefert, die Menschen innehalten lassen. Während eines internen Tests fragte das Porträt ein Teammitglied unaufgefordert, ob es Geburtstag habe. Das System hatte ein Badge, das er trug, aufgegriffen und es natürlich in das Gespräch integriert. Es war ein kleiner Moment, aber einer, der deutlich machte, dass das Porträt nicht nur reagierte. Es nahm wahr, interpretierte und passte sich an.
“Nach 20 Jahren in der Tech-Branche ist es ein gutes Gefühl, diese kleinen Momente zu haben, in denen man nicht begreifen kann, was vor sich geht. Sie sind selten, aber wenn sie passieren, ist es absolute Magie.
”Henry Daubrez, Head of Design at DOGSTUDIO/DEPT®
Das ist die Kraft der Kombination von generativer KI, kreativer Technologie und ein wenig Ehrgeiz. Es ist mehr als nur die Schaffung eines digitalen Produkts. Es ist die Verwandlung von etwas, das einst nur mit Magie möglich war, in etwas, das Menschen im wirklichen Leben erleben können.
Interessiert an einem Gespräch mit einem Talking Portrait oder möchten Sie Anwendungsfälle für Ihr Unternehmen identifizieren? Kontaktieren Sie uns gerne.