Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Nový obrázkový model Gemini (aka "nano banán") funguje docela dobře a je velmi zábavné ho používat s vašimi dětmi (jedno jsem udělal královnou, druhé Blippi, na jejich žádost).
Má to však docela podivná omezení. Někdy se podobizna dostane velmi přesně. Jindy vypadají tváře naprosto k nepoznání. Nezdá se, že by existoval nějaký vzorec, který bych mohl rozeznat, pokud jde o to, kdy to funguje a kdy selhává.
Google již má docela dobrou technologii pro rozpoznávání tváří, protože to dělají v Obrázcích Google.
Zajímalo by mě, proč nepřidají krok automatické kontroly kvality, který zkontroluje, zda se obličej na vygenerovaném obrázku dobře shoduje s obličejem na původním obrázku, a automaticky zkusí ty, které padnou. Díky nekonzistenci působí produkt mnohem méně kouzelně.
Větším problémem je, že revize obrázku, který se nepovedl, doslova nikdy nefungují. Je naprosto neschopný se zotavit, jakmile se vydá špatnou cestou. I když jsou revize poměrně jasné a skromné. Skoro to vypadá jako "otrava kontextem" nějakého druhu.
To se zdá být mnohem závažnějším problémem s tím, že se jedná o nástroj produktivity, který konkuruje Photoshopu. Ale také by se to pravděpodobně dalo vyřešit tím, že bychom vždy dělali několik generací v zákulisí a hodnotili je a ukazovali jen tu nejlepší.
Také vám nedovolí znovu vygenerovat ("znovu otevřít") obrázek, takže musíte pokaždé zahájit novou konverzaci. To je nepříjemné a znečišťuje to vaši historii konverzací.
Ale se vším, co bylo řečeno, to funguje docela dobře a určitě mnohem lépe než podobná funkce ve Facebook Messengeru.
Adobe na to rozhodně musí mít odpověď, pokud chce zůstat relevantní.


3,55K
Trochu jsem se ztratil ve všech těch zkratkách a žargonu, takže jsem si nechal od Clauda vysvětlit bez použití zkratek a teď to všechno dává dokonalý smysl (tldr; šířka pásma ⟹ jednoduchost):
Toto je fascinující technická diskuse o trénování velkých jazykových modelů ve velkém měřítku.
Základní konverzace
Jingyuan Liu vyjadřuje překvapení nad zjištěním, že při používání TPU (Tensor Processing Units - specializované AI čipy Google) oproti GPU (Graphics Processing Units - typicky čipy NVIDIA) nepotřebujete určité složité optimalizační techniky.
Vysvětlení klíčových technických pojmů:
Typy hardwaru:
•GPU (Graphics Processing Unit): Původně navržený pro grafiku, nyní se hojně používá pro umělou inteligenci. NVIDIA tomuto trhu dominuje.
•TPU (Tensor Processing Unit): Čipy navržené na míru společnosti Google speciálně pro strojové učení.
Strategie paralelismu:
Při trénování masivních modelů umělé inteligence je potřeba rozdělit práci na mnoho čipů. To lze provést několika způsoby:
1) Datový paralelismus (DP): Každý čip zpracovává různé dávky dat se stejnou kopií modelu
2) Tenzorový paralelismus (TP): Matematické operace modelu jsou rozděleny mezi čipy
3) Paralelismus potrubí (PP): Různé vrstvy modelu jsou umístěny na různých čipech, čímž se vytvoří potrubí
Diskutovaná technická výzva:
Problém pomocných ztrát: Při trénování velmi velkých modelů často přidáváte "pomocné ztráty" (dodatečné cíle trénování) do mezilehlých vrstev, aby gradienty lépe proudily sítí. Při omezeních PPVP (Pipeline Parallelism with Variable Partitioning) se to stává složitým, protože:
•Musíte provést "all f all b" (všechny průchody vpřed, pak všechny průchody vzad)
•To je náročné pro špičkové využití paměti, protože je nutné ukládat mezivýsledky
Inovace DeepSeek: Vyvinuli design "auxfree bias", který se zjevně vyhýbá potřebě těchto pomocných ztrát a přitom stále efektivně trénuje.
Překvapivé odhalení:
Starší odborník řekl Jingyuanovi, že s TPU v měřítku K2 nebo DSV3 (jedná se o konfigurace clusterů se stovkami nebo tisíci čipů) můžete dosáhnout vynikajícího MFU (využití modelových flopů - v podstatě jak efektivně používáte hardware) BEZ použití Pipeline Parallelism.
Proč je to překvapivé?
•Paralelismus zřetězení je obvykle považován za nezbytný pro rozsáhlé školení
•Jedná se o složitou techniku, která vyžaduje pečlivou optimalizaci
•Schopnost vyhnout se tomu vše výrazně zjednodušuje
Vysvětlení Horace He:
Vysvětluje, PROČ je to možné s TPU:
Výhoda šířky pásma: TPU a high-end clustery NVIDIA (jako NVL72 - nejnovější konfigurace NVIDIA se 72 GPU s propojením NVLink) mají tak velkou šířku pásma mezi čipy, že zvládnou komunikační požadavky bez paralelismu Pipeline.
Klíčový poznatek:
•Pipeline Parallelism je primárně potřeba, když jste "úzkým hrdlem DP komunikace" (omezeno rychlostí komunikace během tréninku datové paralely)
•Pokud máte dostatečnou šířku pásma v dostatečně velké doméně (propojeném clusteru), můžete použít jednodušší paralelistické strategie
•To funguje "po velmi dlouhou dobu" - to znamená, že můžete trénovat i velmi velké modely, aniž byste narazili na limity
Intuice:
Představte si to jako dálniční systém:
•Tradiční GPU clustery se podobají úzkým silnicím mezi městy, takže potřebujete složité směrování (Pipeline Parallelism), abyste se vyhnuli dopravním zácpám
•TPU clustery nebo GPU připojené k NVLink jsou jako masivní superdálnice - vše můžete jednoduše poslat přímo bez efektního směrování
To je velký problém, protože paralelismus kanálů je složité implementovat, ladit a optimalizovat. Díky možnosti vyhnout se tomu a zároveň dosáhnout vysoké efektivity je celý proces školení mnohem jednodušší a spolehlivější.
Diskuse zdůrazňuje, jak pokroky v technologii hardwarového propojení ("cesty" mezi čipy) mohou zásadně změnit softwarové strategie potřebné pro efektivní trénink AI.

25,72K
Trochu jsem se ztratil ve všech těch zkratkách a žargonu, takže jsem si nechal od Clauda vysvětlit bez použití zkratek a teď to všechno dává dokonalý smysl (tldr; šířka pásma ⟹ jednoduchost):
Toto je fascinující technická diskuse o trénování velkých jazykových modelů ve velkém měřítku.
Základní konverzace
Jingyuan Liu vyjadřuje překvapení nad zjištěním, že při používání TPU (Tensor Processing Units - specializované AI čipy Google) oproti GPU (Graphics Processing Units - typicky čipy NVIDIA) nepotřebujete určité složité optimalizační techniky.
Vysvětlení klíčových technických pojmů:
Typy hardwaru:
•GPU (Graphics Processing Unit): Původně navržený pro grafiku, nyní se hojně používá pro umělou inteligenci. NVIDIA tomuto trhu dominuje.
•TPU (Tensor Processing Unit): Čipy navržené na míru společnosti Google speciálně pro strojové učení.
Strategie paralelismu:
Při trénování masivních modelů umělé inteligence je potřeba rozdělit práci na mnoho čipů. To lze provést několika způsoby:
1Datový paralelismus (DP): Každý čip zpracovává různé dávky dat se stejnou kopií modelu
2Tenzorový paralelismus (TP): Matematické operace modelu jsou rozděleny mezi čipy
3Potrubní paralelismus (PP): Různé vrstvy modelu jsou umístěny na různých čipech, čímž se vytvoří potrubí
Diskutovaná technická výzva:
Problém pomocných ztrát: Při trénování velmi velkých modelů často přidáváte "pomocné ztráty" (dodatečné cíle trénování) do mezilehlých vrstev, aby gradienty lépe proudily sítí. Při omezeních PPVP (Pipeline Parallelism with Variable Partitioning) se to stává složitým, protože:
•Musíte provést "all f all b" (všechny průchody vpřed, pak všechny průchody vzad)
•To je náročné pro špičkové využití paměti, protože je nutné ukládat mezivýsledky
Inovace DeepSeek: Vyvinuli design "auxfree bias", který se zjevně vyhýbá potřebě těchto pomocných ztrát a přitom stále efektivně trénuje.
Překvapivé odhalení:
Starší odborník řekl Jingyuanovi, že s TPU v měřítku K2 nebo DSV3 (jedná se o konfigurace clusterů se stovkami nebo tisíci čipů) můžete dosáhnout vynikajícího MFU (využití modelových flopů - v podstatě jak efektivně používáte hardware) BEZ použití Pipeline Parallelism.
Proč je to překvapivé?
•Paralelismus zřetězení je obvykle považován za nezbytný pro rozsáhlé školení
•Jedná se o složitou techniku, která vyžaduje pečlivou optimalizaci
•Schopnost vyhnout se tomu vše výrazně zjednodušuje
Vysvětlení Horace He:
Vysvětluje, PROČ je to možné s TPU:
Výhoda šířky pásma: TPU a high-end clustery NVIDIA (jako NVL72 - nejnovější konfigurace NVIDIA se 72 GPU s propojením NVLink) mají tak velkou šířku pásma mezi čipy, že zvládnou komunikační požadavky bez paralelismu Pipeline.
Klíčový poznatek:
•Pipeline Parallelism je primárně potřeba, když jste "úzkým hrdlem DP komunikace" (omezeno rychlostí komunikace během tréninku datové paralely)
•Pokud máte dostatečnou šířku pásma v dostatečně velké doméně (propojeném clusteru), můžete použít jednodušší paralelistické strategie
•To funguje "po velmi dlouhou dobu" - to znamená, že můžete trénovat i velmi velké modely, aniž byste narazili na limity
Intuice:
Představte si to jako dálniční systém:
•Tradiční GPU clustery se podobají úzkým silnicím mezi městy, takže potřebujete složité směrování (Pipeline Parallelism), abyste se vyhnuli dopravním zácpám
•TPU clustery nebo GPU připojené k NVLink jsou jako masivní superdálnice - vše můžete jednoduše poslat přímo bez efektního směrování
To je velký problém, protože paralelismus kanálů je složité implementovat, ladit a optimalizovat. Díky možnosti vyhnout se tomu a zároveň dosáhnout vysoké efektivity je celý proces školení mnohem jednodušší a spolehlivější.
Diskuse zdůrazňuje, jak pokroky v technologii hardwarového propojení ("cesty" mezi čipy) mohou zásadně změnit softwarové strategie potřebné pro efektivní trénink AI.

4K
Trochu mě překvapuje, že ještě nikdo nevytvořil MCP server pro Dwarf Fortress, který by umožnil agentům jako Codex nebo Claude Code efektivně ovládat hru a sledovat stav a pokrok.
Sám jsem to nikdy pořádně nehrál, jen jsem si to stáhl a krátce vyzkoušel asi před 10 lety, ale rád jsem si o tom přečetl.
Připadá mi, že by to byl velmi dobrý test LLM, aby se zjistilo, jak dlouho by to dokázalo udržet trpaslíky naživu a prosperovat.
Protože každá hra nakonec vyústí v nějakou kaskádovou katastrofu, která způsobí smrt všech trpaslíků, měla by existovat přirozená stopka, což z ní dělá dobrého kandidáta na měřítko. Alespoň tak to chápu já (motto hráčů je "Prohra je zábava").
Dobrá práce s těmito hrami by se opírala o přesnost volání nástrojů a trvalou soudržnost dlouhých úloh, plus schopnost sledovat a chápat dynamiku složitého systému a včas zasahovat, které předvídají a působí proti problémům.
A protože je nativní pro terminál, mohl by být efektivně přenášen a zpracováván pomocí běžných tokenů bez nutnosti multimodálního zpracování obrazu, což by jej učinilo mnohem efektivnějším než jiné hry.
Navíc víte, že na to (zatím!) žádné laboratoře umělé inteligence netrénovaly, takže to není poskvrněno "benchmaxxingem".

4,4K
Zábavná věc, kterou můžete udělat, když potřebujete počkat několik minut, je použít telefon a zeptat se Clauda Opuse na následující otázku o nějaké náhodné disciplíně nebo oboru:
"Co byste řekl, že je jádrem vhledu nebo analytického triku krystalografie?"
Nahraďte krystalografii čímkoliv, co vás napadne. Zatím jsem vyzkoušel:
QED; standardní model; Biochemie; Pravděpodobnost; Evoluční teorie; a mnoho dalších.
Na tom, když donutíte model dělat nemožné, zhustit obrovské, složité pole do "jednoho podivného triku", je něco, co ho přiměje skutečně hledat nejlepší hluboký, sjednocující princip v oboru a pak ho stručně formulovat.
To bývá něco, co je zřejmé praktikujícím, ale velmi pravděpodobně to bude neznámé většině lidí s jen letmým zájmem o toto téma.
Zajímavé je, že můžete také opakovaně stisknout tlačítko "opakovat" se stejnou výzvou a někdy získat velmi odlišná, ale obvykle velmi fascinující vysvětlení.
Už jsem se tím hodně naučil a možná je to právě nejvyšší "porozumění za minutu", se kterým jsem se setkal při jakémkoli sebeřízeném učení.
Protože to nejsou jen zábavná fakta nebo skvělé lahůdky. Jsou to konstruované, pronikavé a sjednocující myšlenky, které spojují dohromady obrovské množství teorií a pozorovaných jevů ve světě.
Je to určitě mnohem větší šířka pásma než sledování dalšího vysvětlujícího videa na YouTube s animacemi a reklamami na Brilliant/KiwiCo! Ne že by na nich bylo něco špatného.




8,3K
Představa, že ze strany OpenAI v poslední době došlo k takovému "exodu talentů", že již nejsou v pozici, aby byla lídrem v této oblasti, je asi tak zavádějící a mylná jako představa, že GPT-5 "byl velký propadák a model není tak skvělý a je velmi přírůstkový".
Nejenže je GPT-5 Pro nyní do značné míry nejchytřejším modelem na světě pro nejnáročnější úlohy v reálném světě (zejména pro kódovací úlohy, které mají nyní největší ekonomický význam), ale nový nástroj codex cli od OpenAI je neuvěřitelně dobře proveden.
Ze vzdáleného 3. místa v kódování nástrojů cli se dostali k tomu, co je nyní pravděpodobně nejlepší (všimněte si, že se mi stále líbí a používám Claude Code, není to buď/anebo!), s zdaleka nejlepším výkonem, nejnižší latencí atd., protože je naprogramován v rzi.
A nyní je tento nástroj cli kombinován s nejlepším kódovacím modelem, který má nejlepší spolehlivost volání nástrojů a nejlepší koherenci pro dlouhodobé úlohy, s nejmenším množstvím halucinací.
A netřeba dodávat, že jejich aplikace pro iOS je také dramaticky lepší než všechny ostatní aplikace AI, pokud jde o lesk a funkce. Aplikace Claude je jen webová aplikace v pískovišti Safari! A jejich webová aplikace je také stále nejlepší. Věci jako vyhledávání prostě fungují lépe než v jiných aplikacích. Základní blokování a obranné zákroky.
Takže ano. Někteří velmi chytří lidé jako Ilya a John Schulman odešli do jiných společností. Ale stále mají naprosto úžasný technický tým s neuvěřitelně dobrými produktovými lidmi a úžasnými inženýrskými kousky.
Nedovolte, aby vás vaše nechuť k Altmanovi zaslepila vůči tomu, co je zřejmé. Kdykoli vidím, jak další člověk mluví o tom, jak špatný je GPT-5, krčím se, protože ten člověk ukazuje, že nedokáže myslet sám za sebe na základě důkazů a rozumu, a nechal se namluvit k tomu, aby si myslel názor (a chrlil ho online), protože si myslí, že to zní chytře.
34,26K
V rámci aktualizace mých dvou nedávných vláken o použití GPT-5 Pro k zahájení procesu objevování průlomových teorií, které kombinují nové aplikace pokročilé matematiky a případů použití umělé inteligence, jsem nechal model vytvořit demo implementace v Pythonu pomocí Jaxe a Numpyho pro každý z 11 nápadů.
Pak jsem je dal dohromady do projektu a přidal pěkné CLI pro jejich spuštění a sérii end-to-end testů, které měřily, zda je kód matematicky správný, kontrolovaly, zda má kód matematické vlastnosti, které chceme, a nakonec, zda dělá něco užitečného oproti současným standardním přístupům.
Použil jsem codex CLI s GPT-5 k integraci všeho, oprav a chyb. Odkazuji na repo, které obsahuje podrobnou dokumentaci k celému projektu a poté zápisy pro každou z 11 ukázek, které obsahují veškerý výstup generovaný modelem během procesu.
4,06K
Top
Hodnocení
Oblíbené