Home
Themen
News
Die besten KI-Modelle versagen bei der Lösung der meisten Programmierprobleme

Patrick Hediger

26. Feb 2025

Lesedauer 3 Min.

Künstliche Intelligenz

Die besten KI-Modelle versagen bei der Lösung der meisten Programmierprobleme

Eine aktuelle Studie zeigt, dass selbst modernste KI-Modelle den menschlichen Codern nicht gewachsen sind. OpenAI-Forscher bringen neue Erkenntnisse über die Grenzen von KI in der Softwareentwicklung

In einer Studie haben Forscher von OpenAI festgestellt, dass selbst die fortschrittlichsten KI-Modelle nicht in der Lage sind, die meisten Programmierprobleme zu lösen. Dies geschieht zu einem Zeitpunkt, an dem OpenAI-CEO Sam Altman sagt, dass "Programming at the beginning of 2025 and at the end of 2025 will be very different".

Der Bericht stützt sich auf die Ergebnisse des neu eingesetzten Benchmarks SWE-Lancer, der auf über 1400 Software-Engineering-Aufgaben basiert, die von der Freelancer-Plattform Upwork stammen.

Die Forscher testeten die drei Sprachmodelle (LLMs) o1 und GPT-4o von OpenAI und Anthropics Claude 3.5 Sonnet. Die Tests umfassten sowohl individuelle Aufgaben, wie das Beheben von Bugs, als auch Managementaufgaben, bei denen die Modelle strategische Entscheidungen treffen sollten.Die Modelle hatten keinen Zugriff auf das Internet, was bedeutete, dass sie nicht auf bereits online enthaltene Lösungen zurückgreifen konnten.

Trotz der enormen finanziellen Ressourcen, die in die analysierten Aufgaben investiert wurden, schafften es die KI-Modelle nur, oberflächliche Softwareprobleme zu beheben. Sie waren nicht in der Lage, grössere Bugs aufzuspüren oder deren Ursachen zu verstehen. Diese mangelhaften Lösungen sind wohlbekannt für jede Person, die mit KI gearbeitet hat, da diese Modelle zwar schnell agieren, jedoch oft an einem Mangel an Tiefe und Kontext leiden.

Obwohl alle getesteten LLMs in der Lage waren, "deutlich schneller als ein Mensch" zu arbeiten, können sie nicht mit der breiten Palette von Bugs und den damit verbundenen Kontexten, die ein menschlicher Entwickler versteht, umgehen. Dies führt zu ungenauen und unzureichenden Lösungen.

Claude 3.5 Sonnet schnitt dabei besser ab als die beiden Modelle von OpenAI, allerdings waren die meisten Antworten dennoch fehlerhaft.

Die Forscher stellen klar, dass kein Modell zuverlässig genug ist, um reale Programmieranliegen zu übernehmen.

Die Thematik wirft zudem ein Schlaglicht auf die bestehenden Bedenken in der Branche: Trotz der schnell voranschreitenden Entwicklung von LLMs sind diese Technologien noch nicht in der Lage, qualifizierte menschliche Ingenieure zu ersetzen.

Diese Erkenntnisse könnten für Unternehmen von Bedeutung sein, die in Erwägung ziehen, menschliche Codierer durch KI-Modelle zu ersetzen, was zu einem erheblichen Marktverdrängungsfaktor führen kann. Letztlich bleibt abzuwarten, wie sich KI im Bereich der Softwareentwicklung weiterentwickeln wird, doch die Hürden sind bis jetzt noch hoch. Das Potenzial ist vorhanden, sicher, jedoch ist es wichtig, die realistischen Grenzen der heutigen KI-Technologien im Blick zu behalten.

Testsuite "SWE-Lancer"

SWE-Lancer ist ein neuer Benchmark zur Erfassung der Fähigkeiten von fortschrittlichen KI-Modellen im Bereich Software Engineering. Diese Benchmark bündelt mehr als 1400 freiberufliche Aufgaben von der Plattform Upwork, die insgesamt mit einem Wert von einer Million US-Dollar dotiert sind. Mit einem breiten Spektrum an Aufgaben, die von einfachen Bugfixes im Wert von 50 US-Dollar bis hin zu komplexen Implementierungen von Features für bis zu 32000 US-Dollar reichen, bietet SWE-Lancer einen vielschichtigen Einblick in die Leistungsfähigkeit von KI-Modellen in der realen Welt.

LLMs sind nicht in der Lage, die Mehrheit an Coding-Problemen zu lösen

Kommentare

Künstliche Intelligenz Softwareentwicklung KI & Trends

Neueste Beiträge

News

Schweizer KI-Innovation schliesst die Lücke zwischen Denken und Handeln

Die Schweiz macht erneut mit einer spannenden KI-Innovation auf sich aufmerksam. Das Zürcher Unternehmen Gieni bringt mit GieniABX ein Agentensystem auf den Markt, das einen Schritt weiter gehen soll als klassische Chatbots oder KI-Assistenten.

4 Minuten

Christian Bühlmann

27. Jul 2026

Mehr erfahren

News

Die besten PCtipp-Artikel aus der Kalenderwoche 29

In der Kalenderwoche 29 vom 13. bis zum 19. Juli 2026 standen die Artikel «Kleiner Excel-Spick von Microsoft» und «Finanzen im Griff» ganz oben in der Gunst unserer Leserschaft.

2 Minuten

Patrick Hediger

24. Jul 2026

Mehr erfahren

News

In eigener Sache

Kurze Newsletter-Sommerpause

Vom 27. Juli bis zum 9. August macht die PCtipp-Redaktion eine kurze Newsletter-Sommerpause. Sie bekommen in diesem Zeitraum keinen Newsletter. Den nächsten Newsletter erhalten Sie dann wieder am 10. August.

2 Minuten

Patrick Hediger

26. Jul 2026

Mehr erfahren

Das könnte Sie auch interessieren

News

Europäisches Smartphone Punkt. MC03 ist ab sofort erhältlich

Das MC03 des Schweizer Unternehmens Punkt ist ein Smartphone, das mit dem Android-basierten Betriebssystem Aphy OS konsequent auf Datenschutz und Kontrolle durch den Anwender ausgerichtet sein soll. Es ist ab sofort in Europa erhältlich.

2 Minuten

Boris Boden

6. Jul 2026

News

Publireportage

Eine Kamera. Alles im Blick: Die Reolink OMVI 3i PoE

Die neue Reolink OMVI 3i PoE (P931) vereint eine 180°-Panoramakamera mit einem motorisierten PT-Objektiv. So behält die smarte Kamera gleichzeitig das grosse Ganze im Blick und verfolgt Bewegungen in Echtzeit. Sie ist ab sofort für 279 Fr. bei digitech.ch erhältlich.

4 Minuten

Reolink RM

6. Jul 2026

News

E-Mail «Neue Sprachnachricht» ist Phishing

Betrüger versenden E-Mails, in denen sie behaupten, dass eine neue Sprachnachricht bereitstehe. Damit versuchen sie, an Zugangsdaten von persönlichen Benutzerkonten zu gelangen.

3 Minuten

Patrick Hediger

1. Jul 2026

Künstliche Intelligenz

Die besten KI-Modelle versagen bei der Lösung der meisten Programmierprobleme

Kommentare

Neueste Beiträge

Schweizer KI-Innovation schliesst die Lücke zwischen Denken und Handeln

Die besten PCtipp-Artikel aus der Kalenderwoche 29

Kurze Newsletter-Sommerpause

Das könnte Sie auch interessieren

Kommentare

Kommentar schreiben