Sliding Window Attention (SWA) treibt moderne hybride Modelle für Effizienz an. Gibt es etwas Besseres? Wir stellen Phalanx vor, einen schnelleren und qualitativ besseren Drop-in-Ersatz für Sliding Window Attention (SWA). Phalanx ist eine neue Familie von hardware- und numerikbewussten Fenster-Schichten, die mit einem Fokus auf Datenlokalität und gezackten, blockausgerichteten Fenstern entwickelt wurden, die direkt auf GPUs abgebildet werden. Beim Training liefert Phalanx 10–40 % höhere End-to-End-Durchsatzraten bei 4K–32K Kontextlängen im Vergleich zu optimierten SWA-Hybriden und Transformern, indem kostspielige Inter-Warp-Kommunikation reduziert wird. Heute veröffentlichen wir sowohl den technischen Bericht, einen Blog als auch Phalanx-Kerne in Spear, unserer Forschungs-Kernel-Bibliothek. Wir stellen ein.