Generative-AI-Dienste im Überblick

Diese KI-Tools sollten Sie kennen

15.02.2023 von Heinrich Vaske

Generative AI verändert die Welt: Mit wenigen Kommandos können Anwender Präsentationen erstellen, Videos manipulieren und Texte schreiben lassen. Lesen Sie, welche KI-Tools Spaß machen und Ihnen weiterhelfen.

Ein Redakteur sitzt am Schreibtisch und versucht, eine Fliege zu fangen. So hat DALL-E diesen Prompt umgesetzt.
Foto: DALL E2

Der Erfolg von ChatGPT hat die Aufmerksamkeit auf künstliche Intelligenz (KI) und hier vor allem auf genrative KI gelenkt. Wir stellen Ihnen einige Tools vor, die Sie sich anschauen sollten - weil Sie Ihren Arbeitsalltag verbessern, oder weil sie einfach cool sind.

bHuman - personalisierte Videos at scale

Sie arbeiten in Marketing oder Vertrieb und möchten personalisierte Videos in Massen verschicken? bHuman erlaubt Ihnen, vorgefertigte Videos zu versenden und darin individuelle Ansprachen und Elemente einzubauen, so dass sich Empfänger persönlich angesprochen fühlen. Als Basis können Sie dazu auf branchen- oder funktionsspezifische Templates zurückgreifen, die Kunden, Partner oder sonstige Konsumenten interessieren sollten. Oder Sie wenden sich selbst im Video an Ihre Klientel, und die KI erlaubt es Ihnen, die Adressaten automatisiert einzufügen und einzeln in Ihrer Stimme anzusprechen.

So werden personalisierte Massen-Mailings möglich. Vorlagen gibt es für viele Themen: Lead-Generierung etwa, Customer Care & Support oder Finanzen. Attraktiv kann das etwa im E-Commerce sein, um Kaufabbrüchen zu begegnen. Die Kundin enthält dann folgendes vorgefertigte Video: "Liebe Frau Müller (Name wird in der passenden Video-Stimme personalisiert eingefügt), ich habe gesehen, dass Sie Ihren Warenkorb gefüllt, aber den Kauf noch nicht abgeschlossen haben…" So etwas lässt sich auch in eine E-Mail-Marketing-Suite integrieren, Tabellen mit Kundennamen können dann hinterlegt werden. User können auch selbst Videos vorfertigen und die Lücke, in die die Namen gehören, von der KI füllen lassen. Die Stimmen sind nicht zu unterscheiden.

Browse AI - Websites monitoren

Dieser Website-Scraper hilft Nutzern, ständig Veränderungen auf Webseiten zu monitoren und Inhalte zu extrahieren, ohne dass dafür codiert oder eine API geschrieben werden müsste. Mit vorgefertigten Bots können Sie beispielsweise Unternehmensinformationen oder Jobangebote von LinkedIn abgreifen, App-Listen vom Google-Workspace-Marktplatz, Online-Events von Eventbrite, bestimmte Suchen auf Amazon, landesspezifische Google-Trends und vieles mehr.

Browse AI eignet sich gut dazu, ständig die veränderten Inhalte und Preise auf Websites nachzuvollziehen. Webseiten, die selbst keine oder die falsche API anbieten, stellen kein Hindernis dar: User können auf die Schnelle selbst APIs für die Datenextraktion generieren, über die sich der gewünschte Inhalt tracken lässt.

ChatGPT - texten und programmieren auf Kommando

Über den im November 2022 vorgestellten Chatbot von OpenAI muss nicht mehr viel gesagt werden. Er kann selbständig Texte unterschiedlicher Art verfassen, Programmcode erstellen und auch für das Debuggen von Softwarecode hilfreich sein kann. Da ChatGPT einfache Fragen schnell und oft richtig beantwortet, baut Microsoft das Tool in seine Suche und in diverse Office-Anwendungen ein.

Lesen Sie auch:

ClipDrop - der intelligente Designassistent

Als "Designassistent" bezeichnet sich das KI-Tool ClipDrop, das die Qualität von Bildern zu verbessern hilft, indem es Belichtung, Farbe und Qualität optimiert und nach Bedarf auch Hintergründe entfernt. Doch ClipDrop kann noch mehr: Mit wenigen Klicks lassen sich einzelne Objekte, Personen, Texte oder Mängel aus Bildern löschen. Zudem gibt es eine "Replace"-Option: Personen und Objekte können vor neue Hintergründe projiziert werden. ClipDrop ist auch als App für iOS und Android erhältlich.

Compose AI - die KI beantwortet Mails

Hierbei handelt es sich um eine Extension für Googles Chrome-Browser, die helfen soll, E-Mails schneller zu beantworten. Auch Compose AI funktioniert ähnlich wie ChatGPT. Auf den Prompt "Sag Wolfgang, dass ich gerade beschäftigt bin, aber nächste Woche antworten werde", verfasst das Tool eine elaborierte E-Mail-Antwort und lernt sogar im Laufe der Zeit den Schreibstil des Auftraggebers.

DALL-E2 - Malen auf Befehl

Von DALL-E2 haben Sie sicher auch schon gehört: Sie sagen der generativen KI, welches Bild sie für Sie schaffen soll. Dabei kommt es, wie so oft, auf den Prompt an, also auf die Exaktheit und Plausibilität Ihrer Vorgabe. Bei DALL-E2 bekommen Sie monatlich kostenlose Credits, die Sie aufbrauchen können. Sie können auch eigene Bilder hochladen und DALL-E beauftragen, diese zu verändern.

Descript Overdub klont Ihre Stimme

Eine Audio- und Video-Editing-Software, mit der sich eine Stimme exakt kopieren lässt, ist Descript Overdub. Das realistische Stimm-Cloning-Feature ist ein wenig unheimlich. Nach einem Versuch möchte man die Großmutter umgehend vor unseriösen Telefonanrufen warnen, in denen der in Not geratene Enkel um Geld bittet.

Anwender können die KI mit Aufnahmen trainieren, die mindestens zehn Minuten, idealerweise aber 30 bis 180 Minuten gesprochene Sprache enthalten. Ist das Modell fertig, können User eingesprochene Texte am Bildschirm schriftlich editieren, bevor sie dann mit der eigenen oder einer Fake-Stimme vorgetragen werden. Dabei werden neu hinzugefügte Wörter so in den gesprochenen Text integriert, dass Hörer den Unterschied nicht merken. Describt bietet eine Vielzahl an Profi-Stimmen an, mit denen Anwender ihre Videos professioneller wirken lassen können.

D-ID.com - Videos auf die Schnelle

Die KI-gestützte Videoplattform Creative Reality Studio von D-ID.com ist geeignet, sehr einfach und schnell Videos zu produzieren. Hier können User sich ein fotorealistisches oder ein illustriertes Gesicht als Avatar auswählen. Ebenso können Sie Ihr eigenes Bild hochladen (JPG, PNG - maximal 4,5 MB) und zum Sprechen bringen (Photo-to-Video). Suchen Sie sich einfach eine angenehme Stimme aus und geben in der Sidebar rechts den Text ein, den Ihr Avatar vortragen soll.

D-ID bietet auch an, einen Avatar mithilfe der Text-to-Image-Funktionalität von Stable Diffusion selbst zu kreieren. Die Videos werden im MP4-Format bereitgestellt und können maximal fünf Minuten lang sein. Wer das kostenpflichtige API von D-ID.com verwendet, kann Videos in bis zu zehnminütiger Länge erzeugen. Texte lassen sich entweder als Sprachdatei hochladen, in eine Sidebar schriftlich eingeben oder via eines GPT3-Editors automatisiert kreieren. Unterstützt werden 119 Sprachen. Zum Spielen bekommen Nutzer 20 kostenlose Credits (á 15 Sekunden).

Durable - Webseiten bauen in 30 Sekunden

Mithilfe von KI lassen sich in 30 Sekunden einfache Webseiten mit Text, Bildern und Kontaktformular bauen - das verspricht Durable. Anwender geben ein, um was für ein Business es gehen soll und wie die Firma oder Person heißt. Dann schlägt die KI ein Website-Design mit passenden Bildern, Beschreibungen und Elementen vor. Durable bietet außerdem einen "Business Name Generator" und einen "Google Ad Writer" an, mit dem automatisiert Werbebotschaften erstellt werden können.

Kaiber - Videos auf Knopfdruck

Nicht nur Texte und Bilder, auch Videos und kunstvolle Animationen lassen sich mit KI erstellen. Einfach kurz die Idee beschreiben und - optional - ein Bild hochladen. Kaiber wandelt den Input in visuelle Animationen um. Neue Kunden erhalten 50 Credits kostenlos, die für fünf Videos ausreichen. Diese sind mit einem Wasserzeichen gekennzeichnet und dürfen nicht kommerziell verwendet werden. Ansonsten müssen Kunden einen kostenpflichtigen Standard-Account einrichten.

Midjourney - Text to Image in Qualität

Auch Midjourney, zurzeit noch in der Betaphase, kreiert aus Textbeschreibungen Bilder. Voraussetzung ist, dass Anwender die aus der Gaming-Welt bekannte kostenlose Kommunikations- und Chat-App Discord installieren. Mit Midjourney erzeugte Werke sind oft hochwertig und realistisch. Sie stehen grundsätzlich auch anderen Nutzern für Remixes zur Verfügung. Wer exklusive Rechte an einem Bild will, muss dafür zahlen.

Midjourney kann schon jetzt hier und da die Arbeit von Grafikern und Designern ergänzen oder ersetzen. Wie immer bei Generative AI sind die Prompts die Herausforderung. Je präziser und auf den Punkt sie ausfallen, desto besser das Ergebnis. Midourney stellt die besten Kreationen inklusive der Text Prompts auf der eigenen Website aus. Erstellte KI-Bilder können nicht abgeändert werden.

Notion AI - intelligente Zusammenarbeit

Viele Anwender organisieren ihre Projekte und Tasks mit der Workspace-Plattform Notion. Sie können damit Dokumente kreieren, Datenbanken managen, den Projekterfolg nachvollziehen und mit anderen zusammenarbeiten. Mit Notion AI bekommen die Nutzerinnen und Nutzer nun einen intelligenten Assistenten, der ihnen beim Schreiben, Editieren, Brainstormen und Zusammenfassen hilft. Wie ChatGPT übernimmt Notion AI den ersten Entwurf zu einem Thema, liefert Listen mit Ideen zu bestimmten Aspekten, prüft Texte auf Ausdruck und Grammatik, übersetzt und fasst lange Texte zusammen.

Pictory - Allrounder für Videobearbeitung

KI-basierte Videobearbeitung ermöglicht Pictory. Das Tool verhilft zu einer schnellen Nachbearbeitung von Videos einschließlich dem Herausschneiden unliebsamer Sequenzen oder Kürzungen. Aus langen Videos lassen sich auf Knopfdruck kurze Trailer generieren, die die Highlights des Videos aufgreifen. Mit der "ReelFast"-Technologie können auch Skripte oder Blogposts in Videos umgewandelt werden. Und schließlich lassen sich auch Texte automatisiert in Videos einblenden - gegebenenfalls auch übersetzt. Pictory ermöglicht all dies, ohne dass technische Kenntnisse benötigt werden.

Rewind.ai - der Blick zurück, nur auf dem Mac

Als "Suchmaschine für Dein Leben" preist sich Rewind an, das gilt allerdings nur für Apple-Mac-User. Alles, was Anwender an ihrem Rechner tun, wird auf dem Mac oder einer externen Festplatte aufgezeichnet: konsumierte Videos, aufgesuchte Webpages, eigens produzierter Content. Das Ganze lässt sich in einer Timeline nachvollziehen. User können so jederzeit nachsehen, was sie zum Beispiel vor drei Wochen zu einer bestimmten Uhrzeit gemacht haben.

Rewind nutzt native MacAPIs und OCR, um den Bildschirminhalt zu analysieren. Auch Zoom- oder Teams-Meetings werden nach Bedarf konserviert. Dazu nutzt das Tool eine besonders leistungsfähige, KI-basierte Komprimierungstechnik als Herzstück. Die aufgezeichneten Daten werden um den Faktor 3.750 komprimiert. So können Anwender schon auf einer durchschnittlichen Festplatte über Jahre hinweg ihren Computerverlauf ablegen.

Runway - Videos manipulieren leicht gemacht

Dass die Sorgen vor Deepfakes berechtigt sind, wird spätestens jeder dann verstehen, wenn er sich mit Runway beschäftigt hat. Das Unternehmen bietet eine breite Palette an KI-Lösungen, macht derzeit aber vor allem mit einem Next-Generation-Tool für die Videobearbeitung auf sich aufmerksam. Mit Runway können aus vorhandenen Videos neue gemacht werden, indem gerenderte Elemente durch eigene Bilder ausgetauscht oder manipuliert werden.

Das Unternehmen steht kurz vor der Markteinführung des neuen Generative-AI-Modells Gen-1, das die Videosynthese mithilfe von Diffusionsmodellen auf ein noch höheres Level heben soll. In verschiedenen Modi können Anwender Videos nach Gusto manipulieren.

Stable Diffusion - Text-to-Image auf eigenem PC

Ein Text-to-Image-Generator, der auf Deep Learning basiert, ist Stable Diffusion. Wie bei DALL-E und Midjourney werden anhand von Textbeschreibungen Bilder generiert, doch während diese proprietären Modelle nur über die Cloud zugänglich sind, können bei Stable Diffusion der Code und die frei verfügbaren Modelle auf Consumer-Hardware ausgeführt werden. Voraussetzung ist eine GPU mit mindestens 8 GB Grafikspeicher. Der Unterschied zu den Konkurrenten besteht unter anderem darin, dass Stable Diffusion viel billiger ist, freizügiger mit Trainings-Bildern berühmter Persönlichkeiten und expliziten Inhalten umgeht. Auch werden Bilder in einer höheren Auflösung (1024x1024 Pixel) angeboten, DALL-E-Images sind nur halb so hoch aufgelöst.

Synthesia - schnelle Videoproduktion für Profis

Wer schnell einfache Videos erstellen möchte, beispielsweise um etwas zu erklären, kann sich auf der kostenpflichtigen Website Synthesia einen von 65 Avataren auswählen, einen schriftlichen Text eingeben - und schon plappert der Avatar drauf los. Für 1.000 Dollar im Jahr können User sich sogar einen eigenen, personalisierten Avatar mit ihrem Gesicht bauen lassen, der sich in zehn bis 15 Minuten erstellen und anlernen lässt.

Synthesia eignet sich für Präsentationen im Videoformat, da auch Bilder (Shutterstock), Grafiken, Hintergrundmusik und MP4-Videos eingebunden werden können. Für das Tool spricht zudem die Vielsprachigkeit (auch Deutsch wird unterstützt). Die Lizenzkosten beginnen bei 26 Dollar pro Person und Monat.

Tome - Präsentation auf Knopfdruck

Sie sind müde, müssen aber noch schnell eine Präsentation erstellen? Überlassen Sie die Arbeit Tome! Sie wählen ein Template, geben möglichst exakt Ihre Anforderung (Prompt) ein, und wie von Geisterhand entsteht Ihre Präsentation am Bildschirm (momentan allerdings nur auf Englisch).

Für die Texterstellung nutzt das Tool ChatGPT, für die Bebilderung DALL-E 2 - beides von OpenAI. Nach dem Fertigungsprozess können Sie Ihre Präsentation noch mit Editing-Werkzeugen individuell überarbeiten, wenn Sie wollen. In jedem Fall kann Tome.ai Ihnen eine Basispräsentation entwerfen - und damit einiges an Arbeit ersparen.

VALL-E - Stimmen klonen in drei Sekunden

Microsofts KI-Modell VALL-E - der Name lehnt sich zweifellos an das OpenAI-Produkt DALL-E an - zeichnet sich dadurch aus, dass es Stimmen imitieren kann. Das Besondere daran: VALL-E braucht als Trainingsvorlage nur ein Sample von wenigen Sekunden. Das Tool wurde mit 60.000 Stunden an englischen Sprachdaten trainiert. Die KI-Stimme ist dabei in der Lage, auch den Tonfall und die Emotionen eines Sprechers nachzuahmen. VALL-E ist derzeit noch nicht öffentlich verfügbar, die Qualität der Ergebnisse soll ersten Berichten zufolge schwanken - abhängig nicht zuletzt vom Umfang der Trainingsdaten.