Drei Visionäre ebneten Weg für Durchbruch des Deep Learning

Trotz Skepsis von Kollegen trugen Geoffrey Hinton, Jensen Huang und Fei-Fei Li maßgeblich zur Revolution des Deep Learning bei, schreibt Timothy B. Lee. Hinton forschte jahrzehntelang an neuronalen Netzen und entwickelte den Backpropagation-Algorithmus für deren effizientes Training. Huang, CEO von Nvidia, erkannte das Potenzial von GPUs für Nicht-Grafik-Anwendungen und startete 2006 die CUDA-Plattform, die ein … Weiterlesen …

OmniGen: Erstes einheitliches Modell für Bildgenerierung

Forscher haben OmniGen vorgestellt, das erste Diffusionsmodell, das verschiedene Bildgenerierungsaufgaben in einem einzigen Framework vereinen kann. Im Gegensatz zu bestehenden Modellen wie Stable Diffusion benötigt OmniGen keine zusätzlichen Module, um unterschiedliche Steuerbedingungen zu verarbeiten, so die Autoren Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan et al. Das Modell kann Text-zu-Bild-Generierung, Bildbearbeitung, subjektgesteuerte Generierung, visuell-bedingte … Weiterlesen …

SynthID-Text: Wie gut funktioniert Googles Wasserzeichen für KI-Texte?

Die Google-Tochter DeepMind hat mit SynthID-Text ein System entwickelt, um von Large Language Models (LLMs) erzeugte Texte mit digitalen Wasserzeichen zu versehen. Durch subtile Änderungen der Wortwahrscheinlichkeiten während der Textgenerierung bettet SynthID-Text eine erkennbare statistische Signatur ein, ohne Qualität, Genauigkeit oder Geschwindigkeit der Ausgabe zu beeinträchtigen. Das Tool wurde erfolgreich an 20 Millionen Eingabeaufforderungen getestet … Weiterlesen …

KI lernt, wann externe Werkzeuge sinnvoll sind

Forscher der University of California San Diego und der Tsinghua University haben eine Methode entwickelt, die die Fähigkeit künstlicher Intelligenz verbessert, zu erkennen, wann der Einsatz externer Werkzeuge sinnvoller ist als sich auf integriertes Wissen zu verlassen. Ähnlich wie menschliche Experten lernt die KI, Probleme nach ihrer Komplexität zu kategorisieren und entsprechend Werkzeuge einzusetzen oder … Weiterlesen …

KI-Boom könnte weltweites Elektroschrott-Aufkommen deutlich erhöhen

Der Aufstieg der KI könnte bis 2030 zu einem Anstieg des weltweiten Elektroschrotts um 3-12% führen. Das ist das Ergebnis einer Studie von Forschern der Chinesischen Akademie der Wissenschaften und der Reichman Universität in Israel, veröffentlicht in der Fachzeitschrift Nature Computational Science. Dies entspräche jährlich bis zu 2,5 Millionen Tonnen zusätzlichem Abfall. Die Analyse basierte … Weiterlesen …

Chain-of-Thought ist kein Allheilmittel

Das Forschungspapier „Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse“ untersucht die Wirksamkeit von Chain-of-Thought (CoT) Prompting in großen Sprach- und multimodalen Modellen. Während CoT im Allgemeinen die Leistung des Modells bei verschiedenen Aufgaben verbessert, untersuchen die Autoren Szenarien, in denen CoT die Leistung sogar behindern kann, … Weiterlesen …

Studie: KI-Modelle erkennen eigene Fehler

Forschende von Technion, Google Research und Apple haben herausgefunden, dass große Sprachmodelle (LLMs) ein tieferes Verständnis von Wahrheit besitzen als bisher angenommen. Die Studie untersuchte die internen Repräsentationen von LLMs anhand verschiedener Datensätze, berichtet VentureBeat. Dabei zeigte sich, dass Informationen zur Wahrheit in bestimmten Antwort-Token konzentriert sind. Durch das Training von Klassifikator-Modellen auf diesen Token … Weiterlesen …

Entropix: KI-Technik verbessert logisches Denken durch Erkennen von Unsicherheit

Forscher von XJDR haben eine neue Technik namens Entropix entwickelt, die die logischen Denkfähigkeiten in Sprachmodellen verbessern soll. Sie trifft intelligentere Entscheidungen, wenn das Modell unsicher ist. Thariq Shihipar stellt sie in einem Blogpost vor. Die Methode verwendet adaptive Stichproben auf der Grundlage von zwei Metriken, Entropie und Varentropie, die die Unsicherheit in den Vorhersagen … Weiterlesen …

DeepMind stellt Talker-Reasoner-Framework für KI-Agenten vor

Forscher von DeepMind haben ein neues agentenbasiertes Framework namens Talker-Reasoner vorgestellt, das von dem „Zwei-Systeme“-Modell der menschlichen Kognition inspiriert ist. Das Framework unterteilt den KI-Agenten in zwei verschiedene Module, berichtet VentureBeat: den Talker, der Echtzeit-Interaktionen mit dem Benutzer und der Umgebung verarbeitet, und den Reasoner, der komplexe Überlegungen und Planungen durchführt. Die beiden Module interagieren … Weiterlesen …

OpenAIs neues Modell generiert Medien 50-mal schneller

OpenAI hat ein neues KI-Modell entwickelt, das Medieninhalte wie Bilder, Videos und Audio 50-mal schneller generieren kann als bisherige Systeme. Das neue Modell, ein sogenanntes „continuous-time consistency model“, benötigt für die Erstellung eines Bildes nur noch etwa eine Zehntelsekunde statt der üblichen fünf Sekunden, berichten die OpenAI-Forscher Cheng Lu und Yang Song in einem Fachartikel. … Weiterlesen …