Der KI-Damm ist gebrochen. War das Thema noch vor einem halben Jahr für die meisten Menschen das berühmte Buch mit sieben Siegeln, hält die Text- und Bildprognose nun Einzug in jeden erdenklichen Aspekt des Alltags, auch des Büroalltags. Was gibt es Neues?
Ist es nicht unfassbar? Das Thema Künstliche Intelligenz hat große Teile der Diskussionen rund um das Generieren von Inhalten in kürzester Zeit belegt. Kaum ein Medium kann sich dem Zwang entziehen, darüber zu berichten und zu spekulieren, welche Auswirkungen die Vorhersage, welche Wortfolgen oder Bilder wohl am ehesten den Erwartungen eines Nutzers entsprechen, auf unser Leben hat. Zu Recht: Dank der diversen Tools ist heute jeder in Augenblicken in der Lage, selbst umfangreichste Texte zu erstellen. Zu Themen, von denen er keinerlei Ahnung hat. Möglich machen das nicht nur die großen Tools selber, sondern mittlerweile eine Unzahl von Programmen und Websites, die sich schlicht der Schnittstellen zu den Tools bedienen (APIs) und ihren Nutzern diese Dienstleistung anbieten und verkaufen.
„futurepedia.io listet zum Redaktionsschluss unfassbare 1437 KI-Tools in 50 Kategorien auf“
Unser Lieblingstool zur Erkundung neuer Dienste, die Website futurepedia.io, listet zum Redaktionsschluss satte 1437 Tools in 50 Kategorien auf. Von der schlichten Textgenerierung bis zum Dienst, der anhand einiger Stichwörter und eines Namens gleich eine ganze Website generiert, ist hier alles vertreten. Zu den populärsten gehört natürlich ChatGPT, dazu Fliki, das aus Texten und einem Fundus an Videos und Memes einen kompletten Film erstellt.
Die folgende Auswahl an Tools erhebt keinen Anspruch auf Vollständigkeit, wie sollte sie auch. Wir haben uns allerdings bemüht, Programme und Websites herauszusuchen, die eine besondere Bedeutung für den Büroalltag haben könnten.
ChatGPT 4
Klar, an der neuen Variante von ChatGPT kommen wir nicht vorbei. Die jüngste Version des Sprachmodells trägt die Versionsnummer 4 und soll auch einem deutlich größeren Fundus an ausgewerteten Dokumenten basieren. Klar, dass der Ansturm direkt nach der Ankündigung so groß war, dass ChatGPT die 4er-Variante einerseits nur zahlenden „plus“-Kunden zur Verfügung stellt und zudem noch die Anzahl der Zugriffe
limitieren musste. Zu unserem Testzeitpunkt generierte GPT 4 seine Inhalte allerdings sehr langsam.
Spannend die unterschiedlichen Betrachtungsweisen. Unsere Frage nach einer Zusammenfassung der ersten drei Filme der Star Wars Sage führte bei GPT 3.5 zu den Episoden IV, V und VI, also den zuerst gedrehten Filmen, während GPT 4 uns als Antwort die Episoden I bis III servierte.
Noch spannender als die größere „Bibliothek“ ist allerdings eine Entwicklung, die das Team von OpenAI Ende März verkündet hat. ChatGPT wird nämlich einerseits zeitnah mit Plugins aufgerüstet werden können. Für den Start hat man hier Anbindungen an die Suchmaschine Wolfram Alpha, Expedia und Kayak für Reisen sowie OpenTable für Restaurant-Reservierungen bereitgestellt. „plus“ Nutzer werden diese Plugins zuerst ausprobieren können.
„Spätestens jetzt ist der Zeitpunkt, an dem man sich bei Google Gedanken um sein Geschäftsmodell machen muss“
Zudem kann ChatGPT experimentell auch schon einen internen Browser nutzen. Mit diesem können aktuelle Suchresultate in das Ergebnis eingebunden werden. Diese werden dann im ausgegebenen Text mit einem Quellverweis versehen. Außerdem kann man GPT gewissermaßen dabei zusehen, wie das Tool unterschiedliche Seiten befragt. Das macht einerseits die Hoffnung, dass das Sprachtool bald einen vollwertigen Ersatz für klassische Suchmaschinen darstellt, wirft aber auch Fragen auf, wie umfänglich Webseiten dabei berücksichtigt werden. Spätestens jetzt ist der Zeitpunkt, an dem man sich bei Google Gedanken um sein Geschäftsmodell machen muss.
Adobe Firefly
Klar, dass auch Bild- und Videobearbeitungs-Platzhirsch Adobe auf den KI-Zug aufspringen muss und will. Das neue Tool wird Adobe Firefly heißen und bietet sehr spannende Funktionen. Neben den üblichen Text-to-Picture-Funktionen kann man bei realen Fotos Bereiche intelligent maskieren und dann den jeweiligen Inhalt manipulieren oder austauschen. Es lassen sich auch
einfache Layouts erstellen oder mehrere Bilder zu einem Motiv kombinieren. Aktuell ist Firefly noch eine geschlossene Beta, zu der man mit einer vorhandenen Adobe-ID Zugang beantragen kann.
Microsoft Copilot
Microsoft, die ja zu den Investoren hinter ChatGPT gehören, hat jetzt seinen Ansatz der Integration vorgsetellt und der kann sich sehen lassen. Microsoft Copilot ermöglicht die Nutzung des KI-Sprachmodells aus Anwendungen wie Word, Excel, PowerPoint oder Outlook heraus. Der clevere Assistent erstellt Zusammenfassungen aus Team-Meetings, wertet Präsentationen aus oder erstellt
diese gleich, verfasst Antworten auf Mails und hilft bei der Vorbereitung auf Meetings. Dabei übernimmt Copilot nicht unbesehen den Output der KI, sondern gleicht diesen mit den jeweiligen persönlichen Daten, Infos und Dokumenten ab, um so möglichst optimale Resultate zu erzielen. Im Augenblick läuft das Ganze noch n einer geschlossenen Beta mit ein paar Großkunden. Sobald für uns eine Testmöglichkeit besteht, liefern wir einen ausführlichen Bericht nach.
Rewind
Rewind bezeichnet sich selbst als “Kopilot für das Gehirn“. Die App, die es aktuell nur für Apple Macintosh mit M1 oder M2 Prozessoren gibt, zeichnet praktisch das komplette Bildschirmgeschehen auf und extrahiert daraus die Inhalte. Ob man also im Web surft, Mails liest oder verfasst oder auch ein Videomeeting abhält, überall hört und sieht Rewind mit und archiviert die Inhalte lokal auf dem Rechner in einer Datenbank. Ist man nun auf der Suche nach der Website, auf der man vor einigen Tagen zu einem beliebigen Thema fündig geworden ist, die man sich aber nicht gebookmarkt hat, dann hilft Rewind bei der Suche danach. Gleiches gilt für gesprochene Inhalte in Videomeetings etc. Man kann bestimmte Inhalte
MacWhisper
Noch ein extrem cooles Tool für den Mac. MacWhisper extrahiert Texte aus Audioaufnahmen und Videos. In der Version mit der kleinen Datenbank kann man das Tool kostenlos nutzen, für die größeren und somit präziseren Databases zahlt man einmalig einen Obolus von 16 Euro für eine Lizenz. Möchte man dann die Inhalte eines Videos oder
einer Tonaufnahme als Text haben, zieht man einfach die entsprechende Datei in MacWhisper und schon startet der Transkriptionsprozess. Als Ergebnis bekommt man dann eine Ansicht, in der man die erfassten texte nochmals mit dem jeweiligen Part des Videos abgleichen kann, um Fehler zu korrigieren.
Bei unserem Test mit der großen Datenbank klappte das aus dem Stand schlichtweg hervorragend. Für ein 7,5 Minuten langes Video benötigte MacWhisper auf einem MacBook mit M1-Prozessor gerade mal 3,5 Minuten. Selbst komplizierte Wörter oder Eigennamen wurden weitestgehend fehlerfrei erkannt. MacWhisper notiert auch die entsprechenden Timecodes, sodass man spielend einfach eine Datei für Videountertitel generieren kann. Benötigt man den reinen Text, blendet man die Zeitstempel einfach aus. Für den Export stehen unterschiedliche Formate vom einfachen Text über PDF bis hin zu HTML zur Verfügung und selbstverständlich kann man auch die Untertitel-Formate SRT und VTT generieren. MacWhisper kommt übrigens nicht nur mit Aufzeichnungen klar, sondern kann auch „live“ Gespräche mitschneiden. Wenn Sie also keine Lust haben, im nächsten Meeting umständlich Protokoll zu führen, dann lassen Sie doch das Programm einfach mithören.
Was MacWhisper im Gegensatz zu anderen Diensten, bei denen allerdings jede Übersetzung einzeln berechnet wird, noch nicht kann, ist das automatische Erkennen unterschiedlicher Sprecher. Man kann allerdings für jede Aufzeichnung Sprecher händisch anlegen und diese dann den entsprechenden Ausschnitten zuweisen. Für 16 Euro ist MacWhisper ein unschlagbares Tool, das gerade Content-Produzenten das Leben erleichtert, sich aber auch im Büroalltag vielfach bewährt. MacWhisper gibt es direkt in Apples App Store oder unter folgendem Link: