Instalace | Share-Electric.cz

Frontier modely mají pod 50 % úspěšnost na firemních úlohách. A přesto za ně firmy platí tisíce dolarů měsíčně.

Tohle číslo stojí za zopakování: nejlepší dostupné AI modely — GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro — v benchmarku ITBench-AA od IBM a Artificial Analysis nedosáhly ani na 50 % správných odpovědí při řešení reálných podnikových IT úloh. Ne nejaké akademické hračky. Skutečné scénáře: správa incidentů, automatizace workflow, diagnostika infrastruktury.

Průměrné skóre špičkových modelů: 47 %. To je horší než náhodné hádání u otázek se čtyřmi odpověďmi.

Přitom firmy po celém světě masivně investují do „scale" — do největších, nejdražších, nejsilnějších modelů. Logika je lákavá: čím větší model, tím chytřejší AI. Jenže tahle logika selhává přesně tak, jako selhalo Blue Origin s jejich New Glenn raketou.

Lekce od Blue Origin: Velikost sama o sobě nestačí

New Glenn byl impozantní stroj. Obří raketa, miliardy investic, ambice konkurovat SpaceX. A přesto — první pokus o orbitální misi skončil selháním pohonného systému ještě před dosažením oběžné dráhy. Problém nebyl v nedostatku financí ani v nedostatku inženýrů. Problém byl v přístupu: honba za universálním řešením, které dělá všechno, místo optimalizovaného systému pro konkrétní úkol.

AI průmysl dělá přesně to samé.

Firmy kupují přístup k GPT-4 Turbo za 30 dolarů za milion tokenů (výstupní cena), nasadí ho na helpdesk, na analýzu smluv, na generování reportů, na zákaznický servis — a diví se, proč výsledky nejsou konzistentní. Model je navržený tak, aby byl průměrně dobrý na všechno. Ale průměrně dobrý na všechno znamená konkrétně špatný na váš specifický use case.

SpaceX Falcon 9 mezitím letí opakovaně, spolehlivě, s přistávajícím boosterem. Ne proto, že je největší. Ale proto, že je optimalizovaný.

NVIDIA Cosmos 3 ukazuje správnou cestu: specializace pro fyzický svět

Přesně v době, kdy Blue Origin sbírá střepy, NVIDIA vydala Cosmos 3 — a ten je zajímavý z úplně jiného důvodu než „aha, další velký model". Cosmos 3 je první open omni-model navržený specificky pro fyzické AI uvažování: robotika, průmyslová automatizace, navigace v prostoru.

Není to „větší GPT". Je to model trénovaný na fyzikálních simulacích, pohybových datech, senzorických vstupech. Dělá jednu věc — chápe fyzický svět — a dělá ji skvěle. Benchmark výsledky na robotických úlohách jsou dramaticky lepší než u generalistů GPT-4 nebo Gemini.

Poučení je jednoduché: NVIDIA neřekla „uděláme největší model na světě". Řekla „identifikujeme doménu, kde generalisté selhávají, a vybudujeme specializovaný nástroj".

To je přesná strategie, kterou většina firem při nákupu AI ignoruje.

Kód a váhy Cosmos 3 jsou dostupné na HuggingFace — pokud vás zajímá fyzická AI nebo robotika, je to první zastávka. A celá architektura je open source, což znamená: můžete ji fine-tunovat na vlastní data.

ITBench-AA: Proč frontier modely hoří na enterprise IT

Podívejme se blíže na čísla z ITBench-AA. Benchmark obsahuje 1 000 reálných scénářů z podnikového IT prostředí: orchestrace Kubernetes, ladění CI/CD pipeline, incident response, správa cloudových prostředků. Scénáře dodaly reálné firmy — nejsou to vykonstruované hádanky.

Výsledky: - GPT-4o: 44 % - Claude 3.5 Sonnet: 47 % - Gemini 1.5 Pro: 43 % - Llama 3 70B: 31 %

Nejlepší model se dostal na 51 % — stěží nad hranici náhody při úlohách s binárními výstupy.

Proč takové selhání? Protože enterprise IT je plné implicit knowledge — nepsaných pravidel, firemních konvencí, historického kontextu. Generalistický model nikdy neviděl váš Terraform stav, vaše runbooky, vaši architekturu. Ví o Kubernetes obecně, ale neví nic o tom, jak jste ho nakonfigurovali vy.

Fine-tunovaný model o velikosti 7B parametrů, trénovaný na vašich vlastních ticketech a runbookách, může generalistovi o 70B parametrech velmi snadno přejít přes hlavu. A stojí zlomek ceny.

Více o strategickém nasazení AI v technologickém byznysu najdete na electricshare.cz, kde pravidelně vychází analýzy inovativních přístupů k enterprise technologiím.

Jak na to prakticky: Specializace AI za rozumné peníze

Tady přichází konkrétní návod. Nemáte miliardy jako Microsoft a nemusíte mít.

Krok 1: Identifikujte jednu doménu

Ne „chceme AI na všechno". Zvolte jeden konkrétní use case: odpovídání na zákaznické dotazy z vaší dokumentace, kategorizace příchozích objednávek, analýza smluv ve vašem formátu. Jeden use case, měřitelný výsledek.

Krok 2: Sestavte dataset

Potřebujete minimum 200–500 příkladů ve formátu prompt/response. Ideálně 2 000+. Zdroje: historické tickety, e-maily, zákaznická komunikace, interní dokumentace. Formát JSONL, každý řádek: `{"instruction": "...", "output": "..."}`.

Krok 3: Fine-tuning s LoRA

LoRA (Low-Rank Adaptation) je technika, která fine-tunuje model bez nutnosti přetrénovat všechny váhy. Výsledek: potřebujete zlomek VRAM a výpočetního výkonu.

```bash pip install transformers peft datasets trl

# Základní fine-tuning s TRL python train.py \ --model_name_or_path mistralai/Mistral-7B-v0.1 \ --dataset_path ./muj-dataset.jsonl \ --lora_r 16 \ --lora_alpha 32 \ --num_train_epochs 3 \ --output_dir ./finetuned-model ```

Na GPU RTX 4090 (cena ~30 000 Kč nebo pronájem na RunPod za ~0,75 $/hod) zvládnete fine-tuning 7B modelu za 2–4 hodiny. Celkové náklady: 3–5 dolarů.

Krok 4: Nasazení s Ollama

Po fine-tuningu exportujte model do formátu GGUF a spusťte lokálně:

```bash # Konverze do GGUF python llama.cpp/convert.py ./finetuned-model --outtype q4_k_m

# Spuštění přes Ollama ollama create muj-firemni-model -f Modelfile ollama run muj-firemni-model "Jak zpracovat objednávku č. X?" ```

Lokální inference na serveru s RTX 3080 (cena ~15 000 Kč ojetý): přibližně 30–50 tokenů za sekundu pro 7B model. Žádné API poplatky, žádné úniky dat, žádné výpadky.

Měsíční náklady při lokálním provozu: elektřina serveru (~500 Kč) + amortizace HW. Srovnejte s GPT-4o API při 1 milionu tokenů denně: ~900 dolarů měsíčně.

Energetický sektor jako ukázkový příklad: kde specializace rozhoduje

Vezměte energetiku — konkrétně obchodování s elektřinou, správu flexibility a predikci spotřeby. Generalistický model neví nic o OTE, o denním trhu, o regulační energii, o specifickém chování FVE v zimě versus v létě v českém prostředí.

Fine-tunovaný model trénovaný na: - historických datech z OTE (hodinové ceny, odchylky) - výrobních datech konkrétní FVE instalace - spotřebním profilu konkrétní lokality

...bude dramaticky lepší v předpovídání optimálního okamžiku pro nabití/vybití baterie nebo pro vstup na vyrovnávací trh.

Platformy jako platforma pro sdílení elektřiny SmartEnergyShare pracují přesně s tímto typem dat — sdílení energie, obchodování s bateriemi (BESS 50–250 kW), day trading elektřiny, obchodování odchylek a regulační elektřina. Specializovaný AI model trénovaný na datech z takové platformy může optimalizovat výnosy způsobem, který žádný generalistický chatbot nikdy nedosáhne.

O technické stránce bateriových úložišť a jejich integraci s AI optimalizátory se více dočtete na bess-global-blog.vercel.app, kde vychází detailní analýzy BESS projektů v průmyslovém měřítku.

Strategická doporučení pro vedení firem

Nákupní rozhodnutí o AI v roce 2026 by měla vypadat jinak než v roce 2023. Tehdy bylo rozumné „vzít GPT a vyzkoušet". Dnes víme, co funguje a co ne.

Tři konkrétní kroky:

1. Auditujte stávající AI výdaje. Kolik platíte za API přístupy? Jaká je skutečná úspěšnost modelu na vašich úlohách — ne na jejich benchmarku, ale na vašich datech? Pokud to nevíte, zjistěte to tento týden.

2. Identifikujte jednu high-value doménu pro specializaci. Kde vám AI selhává nejdramatičtěji? Kde by 90% přesnost (místo 47%) dramaticky změnila provozní efektivitu? Tam začněte.

3. Počítejte TCO (Total Cost of Ownership). Fine-tuning 7B modelu stojí čas jednoho ML inženýra na 2–4 týdny. Výsledek běží lokálně bez API poplatků, bez SLA rizika, bez vendor lock-in. U high-volume use casů se to vrátí za 2–3 měsíce.

Frontier modely mají své místo — pro exploratívní analýzu, pro úlohy, kde šíře znalostí překonává hloubku specializace, pro prototypování. Ale jako produkční systém pro specifické firemní procesy jsou předražené a podvýkonné.

New Glenn selhal, protože scale bez optimalizace nestačí. Vaše AI strategie by neměla opakovat stejnou chybu.

Zdroje

Obchodujete s batteriovými úložišti nebo hledáte partnera pro flexibilitu a day trading elektřiny? SmartEnergyShare nabízí kompletní řešení pro BESS projekty od 50 do 250 kW - obchodování odchylek, regulační elektřiny a intraday trading. Zjistěte víc na SmartEnergyShare.

Další články na toto téma najdete na: Electric-Share.cz - legislativa a dotace BESS Global - bateriová úložiště a trading