Gesjoemel in benchmarks van Reflection 70B

Update, 10/09, 09u10: Er lijkt gesjoemeld te zijn met de benchmarktesten van Reflection 70B. De onafhankelijke AI-tester Artificial Analysis plaatsen het voorbije weekend eigen resultaten en beweerde daarin dat de prestaties dezelfde waren als Llama 3 70B, maar “aanzienlijk lager dan Meta’s Llama 3.1 70B.” Volgens de ontwikkelaar van het nieuwe AI-model, Matt Shumer, ligt dat aan het uploaden op Hugging Face waar de prestaties omlaag worden gehaald, maar zelfs met de private API kon Artificial Analysis niet de resultaten behalen waar Shumer mee uitpakte. Dus, toch nog niks verloren voor OpenAI?

Reflection 70B update: Quick note on timeline and outstanding questions from our perspective

Timeline:
– We tested the initial Reflection 70B release and saw worse performance than Llama 3.1 70B.

– We were given access to a private API which we tested and saw impressive…
— Artificial Analysis (@ArtificialAnlys) September 9, 2024

Origineel, 6/09, 11u25: Reflection 70B is het nieuwe leidende open-source-model. Het model is gespecialiseerd in de techniek ‘reflection tuning’, wat houdt dat in?

Reflection 70B is gebouwd op de fundamenten van Llama 3.1-70B Instruct. Het LLM vormt zo een product uit de open-source-gemeenschap. Vanuit die hoek is de concurrentie naar de commerciële modellen steeds sterker, want Reflection 70B zou goed scoren op de benchmarks. Volgens ontwikkelaar Matt Schumer is Reflection 70B ” ’s werelds beste open-source AI-model”.

I'm excited to announce Reflection 70B, the world’s top open-source model.

Trained using Reflection-Tuning, a technique developed to enable LLMs to fix their own mistakes.

405B coming next week – we expect it to be the best model in the world.

Built w/ @GlaiveAI.

Read on ⬇️: pic.twitter.com/kZPW1plJuo
— Matt Shumer (@mattshumer_) September 5, 2024

Reflection tuning

In de naam van het bedrijf wordt weerspiegeld welke techniek het LLM kan toepassen. Reflection tuning is een techniek waarbij LLM’s fouten kunnen halen uit hun eigen redenering. Nog voordat het model het volledige antwoord heeft opgeschreven, zijn de fouten er al uitgehaald.

Op de demo-site wordt de capaciteit getoond in een prompt die vraagt hoe vaak de letter r voorkomt in ‘strawberry’. Dat is een verwijzing naar de GPT-modellen van OpenAI die momenteel beschikbaar zijn en deze vraag consequent beantwoorden met twee. OpenAI heeft een model in de maak dat deze fouten niet langer maakt. Het bedrijf heeft dit model de codenaam ‘Strawberry‘ gegeven. Het project wordt al lang aangekondigd en met Reflection is het eigenlijk al achterhaald voor lancering.

Voldoende rekenkracht gevonden

Een dag na het lanceren van Reflection 70B nam Meta al contact op met Schumer. Het model krijgt daardoor meer rekenkracht en capaciteit om de vraag naar het model aan te kunnen. De nieuwe naam van het model is Reflection-Llama-3.1-70B en is te vinden op Hugging Face.

Lees ook: Open-source LLM’s van Aleph Alpha voldoen volledig aan AI Act

Lees meer over Applications

Voormalig hoofd AI bij Meta noemt xAI van Musk een “mislukking”

In een ongewoon openhartige beoordeling van een AI-concurrent heeft Yann LeCun, oprichter van AMI Labs en voo...

Erik van Klinken 18 juni 2026

Topartikel

Claude Fable 5 is Mythos voor het grote publiek

Na maanden van speculatie is een LLM op het niveau van Mythos Preview eindelijk een volledig beschikbaar AI-m...

Erik van Klinken 9 juni 2026

Topartikel

De paniekzaaierij van Anthropic over AI is niet wat het lijkt

"Recursieve AI" blijft puur speculatief

Erik van Klinken 5 juni 2026

Kleine groep gebruikers houdt toegang tot Mythos

Anthropic heeft de toegang tot zijn meest geavanceerde AI-modellen voor een groot deel van de gebruikers stil...

Mels Dees 3 dagen geleden

Expert aan het woord

Tech calendar

Gesjoemel in benchmarks van Reflection 70B

Reflection tuning

Voldoende rekenkracht gevonden

Blijf op de hoogte, abonneer!

Claude Fable 5 en Mythos 5 geblokkeerd: is AI nu te gevaarlijk?

Chris Wright: Metal-to-agent staat aan de basis van schaalbare enterprise AI

Van app-centrisch naar open en datacentrisch: kan Everpure de belofte waarmaken?

Claude-maker Anthropic lijkt OpenAI voor te zijn met beursgang

SAP executive addresses API policy and openness concerns

Why enterprises are choosing HPE for private cloud AI

Discover how edge AI transforms manufacturing with private 5G

Why observability is critical for AI code generation success

De strategische opdracht: bouwen aan een AI-stack waar Europa op kan vertrouwen

De rol van een WMS systeem in de moderne IT-architectuur

Liquid cooling dwingt datacenters tot andere ontwerpkeuzes

Slimmer vergaderen begint met het juiste ecosysteem

GITEX AI EUROPE 2026

GOTO Copenhagen 2026

Tijd om virtualisatie te evalueren

Klarrio: Architectuur is grootste knelpunt of grootste versneller

Zo gaat jouw IT-organisatie van reactief trainen naar roadmap-gedreven skills-opbouw