Phenaki
28.7.2023
Phenaki ist ein KI-Modell, das Videos von mehreren Minuten Länge direkt aus Text erzeugen kann. Es ermöglicht auch die Generierung von Videos aus einem Standbild und einer Eingabeaufforderung. Mit seinem vorgeschlagenen Video-Encoder-Decoder übertrifft es alle aktuellen in der Literatur verwendeten Referenzmodelle hinsichtlich der räumlich-zeitlichen Qualität und der Anzahl der Tokens pro Video. Für die Generierung von Video-Tokens aus Text verwendet es einen bidirektionalen maskierten Transformer, der auf vorkalkulierten Text-Tokens basiert, welche anschließend zur Erstellung des tatsächlichen Videos de-tokenisiert werden.