In den frühen Tagen von Instagram mussten praktisch alle IG-Infrastruktur-Ingenieure die Benutzer-ID von @justinbieber auswendig lernen... denn jedes Mal, wenn Bieber postete, hatten wir Probleme mit Hotkeys auf CassandraDB und Instagram stürzte ab. 🥵🥵 Mehrere Webserver versuchten, dieselben Daten aus dem Cache abzurufen (z. B. Anzahl der Likes), hatten einen Cache-Fehler und überfluteten die Datenbank, was ein klassisches Thundering Herd-Problem auslöste. Die Oncalls hatten buchstäblich ein Handbuch: Wenn ein Alarm ausgelöst wurde, überprüfe, ob es die Benutzer-ID von Bieber war, und führe dann eine Killswitch-Operation durch... Heißdaten zu bedienen ist schwierig, global genutzte Ressourcen wie Zähler zu bedienen ist schwierig. Aber Infrastruktur-Stacks wie @Aptos sind genau dafür gebaut, mit Aggregatoren und Block-STM, die grundlegende Koordinationsprobleme nativ lösen. Und mit @shelbyserves, das die Datenbereitstellungsleistung noch weiter optimiert und eine neue Datenwirtschaft ermöglicht, bin ich gespannt zu sehen, wie Shelby + Aptos in Zukunft eine wichtige Rolle bei der Störung des Cloud-Geschäfts spielen werden. (P.S. Eine Gruppe von Ingenieuren, die an der Skalierung von Instagram gearbeitet haben, trat später einem Projekt namens Libra/Diem bei und landete schließlich bei @AptosLabs. Einer von ihnen, @zekun000, ist der Head of Blockchain bei Aptos und baut das Shelby-Protokoll.)