Konec levných tokenů a Copilotova facka

Výplatní páska za AI vám vyrazí dech: Proč LLM končí a nastupuje éra autonomních agentů

Představte si, že si v restauraci objednáte kuchaře, který umí brilantně recitovat Shakespeara, zná nazpaměť složení každé omáčky na světě a dokáže vám napsat báseň o vaší brokolici. Ale když mu řeknete, aby tu brokolici uvařil, jen na vás tupě kouká a začne vysvětlovat, že "jako jazykový model nemá ruce". Přesně v téhle pasti teď vězí tisíce firem. Nalily miliony do velkých jazykových modelů (LLM), jen aby zjistily, že mají sice nejdražšího kecálka v historii korporátu, ale práce stojí.

Zatímco se svět opájel generováním obrázků koček v kosmu, v zákulisí začala tvrdá bitva o hardware, peníze a především o to, co ta AI vlastně reálně dělá. GitHub Copilot právě hodil granát do rozpočtů vývojářských týmů svým novým modelem nacenění podle spotřeby. Federálové v USA se pokoušejí ukrást superpočítač z centra pro výzkum klimatu, protože zkrátka není kde počítat. A my se musíme ptát: Opravdu budeme dál pálit gigawatty jen proto, aby nám chatbot opravil čárky v e-mailu?

Konec levných tokenů a Copilotova facka

Éra "AI zdarma" nebo za fixních dvacet dolarů měsíčně končí rychleji, než stačíte říct "H100". GitHub Copilot, miláček všech líných i efektivních programátorů, přešel na systém založený na využití. Pro manažery, kteří si mysleli, že náklady na vývoj s AI klesnou k nule, je to studená sprcha. Najednou vidíte, že každý řádek kódu, který vám AI navrhne, má svou cenovku. A není malá. Pokud necháte juniora tupě odklepávat návrhy, které pak senior musí hodinu přepisovat, zjistíte, že ta "levná AI" vás vyjde dráž než tři další vývojáři v Praze na Vinohradech.

Problém je v tom, že LLM samy o sobě jsou neuvěřitelně neefektivní. Každý dotaz, který pošlete do cloudu, vyžaduje masivní výpočetní výkon na straně serveru. Firmy jako Microsoft nebo Google už nechtějí dotovat vaše experimenty. Chtějí marži. A tu marži zaplatíte vy. Právě proto se teď pozornost obrací k agentní logice. Agent není jen model, který odpovídá. Agent je systém, který má nástroje, paměť a hlavně — schopnost rozhodovat se, jestli ten drahý model vůbec potřebuje volat.

Když se podíváte na náklady, zjistíte, že provozovat GPT-4o pro triviální úkoly je jako jezdit do sámošky pro rohlíky tankem. Spotřeba paliva (v našem případě elektřiny a výpočetního času) je absurdní. Právě proto roste hlad po hardwaru. Bitva o superpočítač v americkém Wyomingu, kde se federální agentury snaží přetáhnout stroj určený pro modelování klimatu na stranu "národní bezpečnosti a AI", jasně ukazuje, kde jsme. Hardware je nová ropa. A pokud ho nemáte u sebe v racku, jste jen nájemníci v drahém bytě, kde vám majitel může kdykoliv zvednout činži na trojnásobek.

Proč agenti vyhrávají tam, kde chatboti selhali

Rozdíl mezi chatbotem a AI agentem je v tom, co nazýváme "action loop". Chatbot končí tečkou za poslední větou. Agent začíná tím, že si uvědomí, co neví. Pokud firmě nasadíte agentní systém, neptáte se ho "Jaké máme prodeje?", ale řeknete mu "Stáhni reporty z ERP, porovnej je s loňskem, najdi anomálie a pošli varování obchodnímu řediteli na Slack". To vyžaduje logiku, kterou čisté LLM bez obalové architektury prostě nezvládne.

V enterprise sféře se teď masivně řeší Direct Preference Optimization (DPO) mimo rámec pouhého chatování. Jde o to naučit modely, aby preferovaly akce, které vedou k cíli, ne jen slova, která dobře zní. Když model "ví", že volat externí API stojí peníze, začne být kreativnější v používání lokální cache nebo menších, levnějších modelů. To je ta skutečná inteligence — ne vygenerovat odstavec o ničem, ale ušetřit pět dolarů na jednom workflow.

Mnoho firem už pochopilo, že cesta nevede přes jeden obří model, který umí všechno. Budoucnost je v rojové inteligenci (Swarm Intelligence) malých, specializovaných agentů. Jeden umí skvěle SQL, druhý rozumí dokumentaci v PDF, třetí umí ovládat webový prohlížeč. Nad nimi sedí orchestrátor, který jim rozděluje úkoly. Výsledek? Rychlost, přesnost a především zlomkové náklady. Místo abyste platili za 128k kontextové okno u GPT-4 Turbo, krmíte malé modely jen tím, co nutně potřebují vědět.

Lokální hardware: Když vám cloud začne lézt do peněz

Pokud to s AI v podniku myslíte vážně, dřív nebo později skončíte u otázky: Proč to vlastně neběží u nás? Cloud je pohodlný, ale z hlediska soukromí dat a dlouhodobých nákladů je to past. Dneska už nepotřebujete superpočítač za miliardu, abyste rozjeli solidní agentní workflow. Díky projektům jako Ollama nebo llama.cpp můžete provozovat modely s 70 miliardami parametrů na jedné nebo dvou slušných workstationech s kartami RTX 3090 nebo 4090 z druhé ruky.

Klíčem k úspěchu je kvantizace a LoRA (Low-Rank Adaptation). Místo abyste trénovali celý model (což stojí miliony), vezmete hotový základ z HuggingFace a "přiohnete" si ho na svých datech pomocí LoRA. Stačí vám k tomu pár stovek vzorových příkladů a pár hodin času na jedné grafice. Výsledkem je model, který rozumí vašim vnitrofiremním zkratkám, zná vaše produkty a přitom neposílá ani bajt dat do OpenAI.

Hardware pro lokální AI se dneska dá postavit za cenu lepší ojeté Octavie. Pokud koupíte server s 256 GB RAM a čtyřmi GPU, máte vystaráno na roky. Náklady na elektřinu jsou sice nezanedbatelné, ale ve srovnání s fakturami od Azure nebo AWS za miliony tokenů je to zanedbatelná položka. Navíc, v kombinaci s chytrou energetikou, se tyto náklady dají srazit na minimum. A tady se dostáváme k tomu, proč AI a energetika patří k sobě jako pivo a guláš.

Energetika a AI: Jak agenti řídí baterky a šetří miliony

AI modely jsou hladové po energii. To je fakt, který se nezmění. Ale co kdyby ta samá AI, která požírá elektřinu, zároveň pomáhala s její optimalizací? Tady nastupuje energetická platforma SES. V moderním podniku, který má na střeše fotovoltaiku a v suterénu bateriové úložiště (BESS), se bez inteligentního řízení neobejdete.

Agentní logika v energetice vypadá takto: Agent sleduje předpověď počasí, ceny na spotovém trhu s elektřinou a plánovanou výrobu v továrně. Pokud vidí, že zítra bude svítit a elektřina bude levná, nenabije baterku ze sítě v noci, ale počká si na slunce. Pokud naopak hrozí špička v odběru, kterou by firma draze zaplatila, agent včas přepne na baterie. SmartEnergyShare nabízí přesně tuhle úroveň kontroly — sdílení energie, obchodování s bateriemi o výkonu 50-250 kW a využití flexibility.

Díky AI agentům je možné realizovat i day trading elektřiny nebo obchodování odchylek. To jsou věci, které dřív dělaly armády traderů u monitorů. Dneska to zvládne dobře nastavený algoritmus s LLM mozkem pro vyhodnocování textových zpráv z trhu a rychlou logikou pro exekuci příkazů. Pokud vaše firma vlastní BESS, AI agent z něj udělá profitabilní aktivum, které se zaplatí mnohem dýchleji, než jen "ukládáním přebytků ze slunce". O tom, jak efektivně využít baterie, se dočtete více na bess-global-blog.vercel.app.

Otevřený kód versus korporátní vězení

Největší riziko dnešní AI adopce je vendor lock-in. Pokud postavíte celou svou firmu na API od OpenAI, jste jejich rukojmí. Změní podmínky? Máte smůlu. Zvýší ceny? Zaplatíte. Zakážou vám určité typy dotazů, protože jsou "politicky nekorektní" nebo "rizikové"? Vaše procesy se zastaví. Proto je open-source v oblasti AI naprosto kritický.

Na smartenergyshare.info často rozebíráme, jak důležité je mít kontrolu nad vlastní infrastrukturou, a u AI to platí dvojnásob. Používání modelů jako Llama 3, Mistral nebo Mixtral vám dává svobodu. Můžete je používat bez cenzury, můžete je modifikovat a hlavně — můžete je vypnout a zapnout, kdy chcete vy. Necenzurované modely nejsou jen pro lidi, co chtějí psát divné věci. Jsou pro firmy, které potřebují objektivní analýzu dat bez toho, aby jim nějaký algoritmus v San Franciscu házel klacky pod nohy, protože vyhodnotil větu o "likvidaci konkurence" jako násilnou.

Adopce AI v podnicích se musí posunout od hraní si s chatem k tvrdé integraci. To znamená propojení s databázemi, řízení fyzických zařízení (jako jsou právě baterie nebo výrobní linky) a neustálé hlídání nákladů. AI není magie, je to nástroj. A jako každý nástroj, i tento vyžaduje údržbu, strategii a hlavně někoho, kdo rozumí tomu, kolik to celé stojí. Pokud nevíte, kolik vás stojí jeden "vyřešený ticket" pomocí AI, tak tu AI nepoužíváte — ona používá vás (a vaši peněženku).

Budoucnost patří těm, kteří přestanou uctívat modely jako božstva a začnou je vnímat jako programovatelné komponenty v širším systému. Autonomní agenti, lokální hardware a chytré energetické propojení — to je trojice, která rozhodne o tom, kdo v příští dekádě přežije. Ti ostatní budou jen dál platit faktury za cloud a divit se, proč jejich "digitální transformace" stále nepřináší zisk.

Zdroje

- GitHub Copilot Usage-based Pricing - HuggingFace: Models and Datasets - oEnergetice.cz: Akumulace a flexibilita - OTE ČR: Krátkodobé trhy s elektřinou - Solar Novinky: Bateriová úložiště pro firmy

Obchodujete s batteriovými úložišti nebo hledáte partnera pro flexibilitu a day trading elektřiny? SmartEnergyShare nabízí kompletní řešení pro BESS projekty od 50 do 250 kW - obchodování odchylek, regulační elektřiny a intraday trading. Zjistěte víc na SmartEnergyShare.

Další články na toto téma najdete na: ShareElectric.cz - sdílení FVE a úspory ElectricShare.cz - inovace a kybernetická bezpečnost