Das KI-Startup Deep Cogito hat vier neue Open-Source-Sprachmodelle veröffentlicht. Die Modelle sollen laut dem Unternehmen die Fähigkeit besitzen, ihre eigenen Denkprozesse mit der Zeit selbstständig zu verbessern. Darüber berichtet Carl Franzen in einem Artikel für VentureBeat.
Die Modelle der Familie Cogito v2 nutzen ein besonderes Trainingsverfahren. Dabei analysieren sie ihre eigenen Lösungswege. Erfolgreiche Denkmuster werden anschließend wieder in die Modelle integriert. Deep Cogito bezeichnet dies als eine Art „Maschinenintuition“. Sie soll den Modellen helfen, Probleme effizienter zu lösen.
Die Modellfamilie umfasst Größen von 70 Milliarden bis 671 Milliarden Parametern. Es gibt zwei sogenannte Dense-Modelle und zwei Mixture-of-Experts-Modelle (MoE). Das größte Modell mit 671 Milliarden Parametern erreicht oder übertrifft laut internen Tests die Leistung führender offener Modelle. Dabei benötige es deutlich weniger Rechenschritte.
Das Unternehmen gibt an, alle seine Modelle für unter 3,5 Millionen US-Dollar trainiert zu haben. CEO Drishan Arora erklärt, der Fokus liege auf intelligenterem Training statt auf größeren Datenmengen. Diese Effizienz könnte zu geringeren Nutzungskosten führen. Die Modelle sind für Entwickler über Plattformen wie Hugging Face und verschiedene APIs verfügbar.