GPT-4 nezvládne ani polovinu firemních IT úkolů. Pořád platíte za výkon, který nevyužijete?

Napíšu článek teď.

GPT-4 nezvládne ani polovinu firemních IT úkolů. Pořád platíte za výkon, který nevyužijete?

Výzkumníci z IBM a Artificial Analysis právě zveřejnili výsledky benchmarku ITBench-AA — a jsou trapné. Nejlepší frontier modely, GPT-4o, Claude 3.5 Sonnet, Gemini Ultra, všechny skórovaly pod 50 % v reálných agentech úlohách enterprise IT. Polovina. V úkolech, pro které podniky utrácejí desítky tisíc dolarů měsíčně na API volání.

Tohle není technický detail. Je to strategický budíček pro každého CTO nebo IT manažera, který právě schvaluje licenci na "největší a nejlepší" AI model na trhu.

Benchmark, který změnil pravidla hry

ITBench-AA není další akademická hračka. Artificial Analysis a IBM sestavili benchmark ze skutečných enterprise IT scénářů: incident response, log analýza, konfigurace síťových zařízení, orchestrace Kubernetes klusterů, automatizace ITSM ticketů. Reálné věci, které IT oddělení řeší každý den.

Výsledky jsou konzistentně špatné napříč celým spektrem modelů. GPT-4o: 47 %. Claude 3.5 Sonnet: 43 %. Gemini 1.5 Pro: 41 %. To znamená, že v průměrně více než polovině úkolů buď agent selže, nebo vygeneruje špatné řešení, které potřebuje lidskou korekci.

Proč? Protože tyto modely jsou navrženy jako generalisté. Trénují se na stovkách miliard tokenů textu z celého internetu, takže vědí trochu o všem, ale hluboce o ničem konkrétním. Pochopí haiku i kvantovou fyziku, ale zmatkují, když mají debugovat specifický Ansible playbook nebo interpretovat logy ze zákaznického SAP systému s nestandardní konfigurací.

Čím je systém specifičtější a čím více závisí na interních konvencích firmy, tím víc frontier model tápe. A enterprise IT je definičně specifické, plné interních zkratek, legacy systémů, a postupů zděděných z doby, kdy ještě nikdo netušil, co je to kontejner.

Blue Origin jako metafora: větší raketa neznamená lepší raketa

Začátkem letošního roku selhal třetí start New Glenn — rakety Blue Origin, která měla konkurovat Falconu 9 od SpaceX. New Glenn je obrovský. Výš než Falcon 9, s větším nákladovým prostorem, s masivním motorem BE-4. Všechno je větší. A přesto raketa stojí, zatímco Falcon 9 létá čtyřikrát měsíčně a úspěšně přistává zpátky.

Problém není v tom, že New Glenn je špatná raketa. Problém je, že SpaceX neoptimalizovalo pro velikost — optimalizovalo pro opakovatelnost, konkrétní operační profil, a systematické redukování nákladů u každého letu. Specializace na konkrétní misi vede k lepším výsledkům než honba za co největším stroje.

Totéž platí pro AI. Manažeři kupují "New Glenn modely" — největší, nejdražší, s nejvíc parametry — a pak se diví, proč výsledky neodpovídají faktuře. Přitom menší, specializovaný model natrénovaný na datech konkrétní domény je při specifickém úkolu rychlejší, levnější, a v benchmarcích přesnější.

Falcon 9 nemůže létat na Měsíc. Ale SpaceX to nevadí, protože to nebylo v zadání. Vaše AI pro zákaznický servis také nemusí psát básně v jambickém pentametru — musí rychle a přesně odpovídat na dotazy o fakturách.

NVIDIA Cosmos 3: fyzická AI ukazuje cestu

Zatímco IT manažeři stále debatují o GPT vs. Claude, NVIDIA tiše vypustila Cosmos 3 — první open omni-model navržený specificky pro physical AI reasoning. Tzn. roboty, autonomní vozidla, průmyslovou automatizaci.

Co je na Cosmos 3 zajímavého z perspektivy specializace? NVIDIA se rozhodla explicitně obětovat obecné schopnosti ve prospěch fyzického porozumění světu. Model rozumí prostorovým vztahům, fyzikálním zákonům, trajektoriím objektů. Nepíše Python skripty, ale zato chápe, že pokud robotické rameno pustí krabici ve výšce 80 cm nad dopravníkem, krabice přijme náraz přibližně za 0,4 sekundy.

Cosmos 3 je open-source, dostupný přes HuggingFace s licencí, která umožňuje komerční použití. Parametry: 7 miliard, optimalizované pro edge deployment na NVIDIA Jetson hardware. Cena inference? Prakticky nulová, pokud běžíte lokálně.

Tohle je přesně ten model, který má smysl. Neplatíte za to, že model napíše esej nebo přeloží japonštinu. Platíte za to, že váš průmyslový robot správně identifikuje polohu dílu na výrobní lince a neničí zboží.

Specializace v praxi: jak vybrat a nasadit správný model

Dobře, dost teorie. Jak to udělat konkrétně?

Krok 1: Identifikujte úzký use case. Nevybírejte model pro "AI v naší firmě". Vyberte model pro jednu konkrétní věc: klasifikace supportních ticketů, extrakce dat z faktur, generování reportů z databázových dotazů. Čím užší, tím lépe.

Krok 2: Baseline s malým modelem. Začněte s Mistral 7B nebo Llama 3.1 8B přes Ollama — zdarma, lokálně, bez závislosti na API. Instalace trvá deset minut:

```bash ollama pull llama3.1:8b ollama run llama3.1:8b "Kategorizuj tento support ticket: [text]" ```

Otestujte na 100 reálných příkladech z vaší firmy. Změřte přesnost. Je nad 70 %? Pak máte základ.

Krok 3: LoRA fine-tuning. Pokud baseline nestačí, přidejte doménová data. LoRA (Low-Rank Adaptation) umožňuje doladit model na vašich datech bez nutnosti trénovat celý model od nuly. Potřebujete cca 500–2000 příkladů ve formátu otázka/odpověď, GPU s 16 GB VRAM (RTX 4080 stojí kolem 22 000 Kč), a framework jako Unsloth nebo Axolotl.

Výsledek? Model specifický pro váš business, běžící lokálně, bez API nákladů. Na jednom RTX 4080 zvládnete inference desítek dotazů za sekundu — pro většinu firemních use cases naprosto dostačující.

Krok 4: Benchmark na interních datech. ITBench-AA ukázal, jak vypadá selhání frontier modelů. Vy si udělejte vlastní mini-benchmark: 50 reprezentativních úkolů z vaší domény, ručně anotovaných. Spusťte na nich GPT-4o a váš specializovaný model. Čísla vás překvapí.

Krok 5: Náklady. GPT-4o: cca 5 USD za milion input tokenů, 15 USD za output. Při tisíci ticketech denně, každý průměrně 500 tokenů, jste na 75 USD/den = 2250 USD/měsíc. Lokální specializovaný model: jednorázově hardware za 25 000 Kč + elektřina cca 500 Kč/měsíc. Návratnost investice pod šest měsíců.

Proč podniky stále kupují špatně a jak to změnit

Existuje psychologický důvod, proč manažeři sahají po největším modelu. Největší model = nejmenší osobní riziko. Pokud GPT-4 selže, "no, selhal nejlepší model, co jsem mohl dělat." Pokud selže vaše specializované řešení, "proč jsi neinvestoval do ověřeného poskytovatele?"

Tohle je klasická institutionální averze k riziku. Výsledkem jsou předražené licence na generalistické modely, které odvádějí průměrnou práci u specifických úkolů.

Správný procurement AI v roce 2026 vypadá jinak: definujte úkol přesně, nastavte měřitelná kritéria úspěchu (přesnost, latence, cena za inferenci), otestujte minimálně tři různé přístupy včetně open-source alternativ, a teprve pak rozhodněte. Celý proces může trvat dva týdny. Úspora nákladů klidně 60–80 % oproti "koupíme OpenAI Enterprise".

V energetickém sektoru, kde se AI začíná nasazovat pro predikci spotřeby, optimalizaci baterií nebo obchodování s elektřinou, je specializace ještě kritičtější. Model trénovaný na spotových cenách z ENTSO-E a datách z chytrých měřičů bude v predikci výrazně překonávat GPT-4, který sice ví, co je megawatthodina, ale nikdy neviděl křivku spotřeby české domácnosti v lednu. Platformy jako smartenergyshare.com integrují AI přímo do procesů sdílení energie, BESS optimalizace a day tradingu elektřiny — tam generalistický model nestačí, tam potřebujete model, který chápe balancing trh a regulační elektřinu.

Více o praktickém nasazení AI v energetice a správě baterií najdete na bess-global-blog.vercel.app nebo sdilenienergie.info, kde se pravidelně probírají konkrétní implementace pro česká a slovenská distribuovaná energetická řešení.

Předpověď: frontier modely se stanou komoditou, specializace bude zdrojem hodnoty

Do dvou let budou frontier modely de facto zdarma nebo téměř zdarma — stejně jako dnes je zdarma Google Search. Tržní tlak Meta (Llama), Google (Gemma), Alibaba (Qwen) a dalších open-source hráčů tlačí inference náklady k nule.

Kde bude hodnota? V datech. V doménovém know-how. V pipeline, který správně předzpracuje vstupy pro konkrétní úkol. V tom, kdo ví, jak natrénovat LoRA adaptér na interních datech zákazníka.

ITBench-AA toto jen potvrzuje: frontier modely jsou úžasné v obecných testech a bídné v specifických enterprise scénářích. A enterprise scénáře jsou tam, kde jsou peníze.

Takže příště, až bude někdo na boardu navrhovat "pojďme vzít GPT-4 Enterprise za 30 tisíc dolarů ročně na všechno", zeptejte se: na co konkrétně? A co dostaneme za 5 tisíc dolarů a dva týdny práce s open-source alternativou? Odpověď vás možná překvapí.

Zdroje

Obchodujete s batteriovými úložišti nebo hledáte partnera pro flexibilitu a day trading elektřiny? SmartEnergyShare nabízí kompletní řešení pro BESS projekty od 50 do 250 kW - obchodování odchylek, regulační elektřiny a intraday trading. Zjistěte víc na SmartEnergyShare.

Další články na toto téma najdete na: BESS Global - bateriová úložiště a trading SdileniEnergie.info - komunitní energetika