Mixture-of-recursions liefert 2x schnellere Inferenz – So implementieren Sie es

Mixture-of-Recursions (MoR) ist eine neue KI-Architektur, die verspricht, die Kosten für die Inferenz von LLMs und den Speicherbedarf zu senken, ohne die Leistung zu beeinträchtigen.