Generuji článek...

Cosmos 2.5 + LoRA = robot, který se naučí z vašich videí za cenu dovolené. Tady je celý návod.

Zní to jako sci-fi: nahrajete pár stovek videí z průmyslové kamery, spustíte skript, počkáte dva dny — a výsledkem je model, který předpovídá, jak se bude váš robot pohybovat v prostředí, které nikdy předtím neviděl. Přesně to dnes umožňuje NVIDIA Cosmos Predict 2.5 v kombinaci s technikami LoRA a DoRA. A ne, nepotřebujete osm H100 karet. Stačí pronajatý A100 na Lambda Labs za zhruba čtyři dolary za hodinu.

Cosmos Predict 2.5 je video-difuzní model navržený specificky pro fyzikálně konzistentní generování scén. Na rozdíl od Sory (která stále sedí za zdí placeného přístupu) nebo OlmoEarth v1.1 — efektivní rodiny modelů zaměřené na geospatální data — je Cosmos otevřeně dostupný přes HuggingFace a licence umožňuje komerční využití, pokud souhlasíte s NVIDIA otevřenou licencí pro World Foundation Models. Přičemž tohle se v robotice mění na zásadní výhodu: simulátor, který rozumí fyzice vašeho konkrétního skladu, lepicí linky nebo AGV vozidla.

Co přesně je Cosmos Predict 2.5 a proč na něm záleží

Cosmos Predict 2.5 není jen další text-to-video model. NVIDIA ho trénovala na datasetech fyzikálních simulací, průmyslových kamer a robotických trajektorií. Výsledek: model, který generuje video konzistentní s Newtonovou mechanikou. Padající objekty dopadají správně. Robot, který zvedá krabici, ji nezvedne přes zeď. Kapaliny se chovají jako kapaliny.

Architektura staví na DiT (Diffusion Transformer) s 7 miliardami parametrů v základní verzi a 14 miliardami v plné variantě. Inference plné verze na jednom A100 80 GB trvá při 57 snímcích (cca 3 sekundy videa při 16 FPS) přibližně 8 minut. To pro produkci nestačí, ale pro tréninkové syntetické datasety v robotice je to zcela přijatelné.

Model přijímá podmínění ve dvou módech: textový prompt nebo video-podmínění (video-to-video). Druhá varianta je pro robotiku klíčová — zadáte referenční pohyb robota a model vygeneruje, jak bude situace vypadat z jiného úhlu nebo za jiných světelných podmínek.

Na HuggingFace najdete checkpointy 2.5B, 7B i 14B varianty. Stahování 7B modelu zabere zhruba 28 GB — počítejte s tím do rozpočtu na úložiště.

LoRA vs. DoRA: Který adaptér vybrat a proč na tom záleží víc, než si myslíte

LoRA (Low-Rank Adaptation) je v komunitě známá technika: místo fine-tuningu všech 7 miliard vah trénujete dvě malé matice A a B, jejichž součin aproximuje změny vah. Výsledek má typicky 50–200 MB místo desítek gigabajtů. Paměťová náročnost při tréninku klesne z přibližně 80 GB VRAM (plný fine-tuning) na 24–40 GB (LoRA se rank=16).

DoRA (Weight-Decomposition Low-Rank Adaptation) přidává jeden rozměr navíc: dekomponuje váhy na magnitudu a směr a trénuje je separátně. V praxi to u video-generativních modelů přináší 3–8% zlepšení metriky FVD (Fréchet Video Distance) za cenu přibližně 15% delšího tréninku. Pro robotické aplikace, kde záleží na přesnosti trajektorií, DoRA obvykle vyhraje.

Technicky: DoRA přidává jeden parametr `magnitude` per vrstvu. Ve frameworku `peft` (Python) ji aktivujete jedním přepínačem:

```python from peft import LoraConfig, get_peft_model

config = LoraConfig( r=16, lora_alpha=32, target_modules=["q_proj", "k_proj", "v_proj", "out_proj"], use_dora=True, # přepínač pro DoRA lora_dropout=0.05, ) model = get_peft_model(cosmos_model, config) ```

Rank `r=16` je dobrý výchozí bod. Pro velmi specifické průmyslové scény (jeden typ robota, jeden typ prostředí) zkuste `r=8` — menší adaptér, rychlejší konvergence, téměř stejná kvalita. Pro obecnější aplikace `r=32` nebo výš.

Příprava dat: Kde se dělají největší chyby

Tady to kazí většina týmů. Cosmos byl trénován na videích se specifickými vlastnostmi: 16 FPS, rozlišení 640×352 nebo 1280×704, délka 3–10 sekund. Pokud dodáte 4K video při 60 FPS z průmyslové kamery, model sice data přijme, ale výsledky budou chaotické.

Minimální doporučený dataset: 500 klipů pro jednu scénu, 2000+ pro generalizaci. Každý klip by měl zachycovat kompletní akci (pick-and-place, svařování, montáž) od začátku do konce. Klíčový detail: variabilita osvětlení. Snímejte ve stejném prostoru za různých podmínek — jiné denní světlo, různé pozice objektů, různé rychlosti pohybu.

Předzpracování pomocí FFmpeg:

```bash ffmpeg -i vstup.mp4 -vf "scale=1280:704,fps=16" \ -c:v libx264 -crf 18 -an \ vystup_%04d.mp4 ```

Pak doporučuji nástroj `cosmos-data-toolkit` (dostupný přes pip), který automaticky ořeže statické úvody, detekuje rozmazané snímky a generuje JSON metadata soubory, které Cosmos tréninkový skript očekává.

Metadata formát je přímočarý:

```json { "video_path": "data/clip_0042.mp4", "caption": "Robot arm picks metal bracket from conveyor belt", "duration": 4.2, "fps": 16 } ```

Texty captionů pište v angličtině — model byl pretrénovaný na anglickém textu a přeložené popisy snižují kvalitu.

Hardware, ceny a realistický časový odhad

Tady je přehled, který vám ušetří pár hodin googlování:

Varianta A — pronájem cloudu (doporučeno pro první pokusy): - Lambda Labs A100 80 GB SXM: 2,49 USD/hod (spot) až 3,99 USD/hod (on-demand) - Trénink 7B modelu s LoRA, rank=16, 2000 klipů, 3 epochy: cca 36–48 hodin - Celková cena: 90–192 USD

Varianta B — vlastní hardware: - RTX 4090 (24 GB): Musíte použít gradient checkpointing + 8-bit Adam optimalizátor. Trénink trvá 4–5× déle než na A100. Pro 5B variantu zvládnutelné, 7B na hraně. - RTX 3090 Ti (24 GB): Totéž, ale ještě pomalejší. Není doporučeno pro doRA. - H100 NVL (96 GB): Nejkomfortnější varianta, trénink 7B modelu zvládnete za 18–22 hodin.

Pro trénink použijte fork `cosmos-finetune` od komunity na GitHubu (NVIDIA zatím nemá oficiální fine-tuning toolkit, pracuje se na něm). Spuštění základního tréninku:

```bash python train_cosmos.py \ --model_path nvidia/Cosmos-Predict-7B \ --dataset_path ./data/metadata.jsonl \ --output_dir ./checkpoints \ --use_dora True \ --lora_rank 16 \ --learning_rate 1e-4 \ --num_epochs 3 \ --gradient_checkpointing True \ --mixed_precision bf16 ```

Sledujte metriku FVD na validační sadě. Pokud po první epoše FVD neroste nebo roste velmi pomalu, zkuste snížit learning rate na `5e-5`. U DoRA je konvergence stabilnější než u čisté LoRA, ale citlivější na warmup fázi — přidejte `--warmup_steps 200`.

Proč tohle přichází právě teď a co za tím stojí

Není to náhoda. NVIDIA uvolnila Cosmos otevřeně v době, kdy geopolitika začíná narušovat dostupnost AI infrastruktury. Írán například aktuálně požaduje poplatky od velkých technologických společností za použití podmořských kabelů procházejících Hormuzským průlivem — a latence nebo výpadky takových kabelů přímo ovlivňují dostupnost cloudové AI pro průmyslové firmy v Evropě i Asii. Mít model nasazený lokálně, bez závislosti na vzdálené inferenci, přestává být luxusem a stává se rizikovým managementem.

Souběžně prohrál Elon Musk soudní spor proti OpenAI — porota rozhodla jednomyslně, žaloba přišla příliš pozdě. OpenAI si tak zachovává kontrolu nad Sorou i dalšími video-modely a nemusí je zpřístupnit pod otevřenou licencí. Pro průmyslové uživatele to de facto znamená: buď platíte API poplatky OpenAI, nebo sáhnete po Cosmos od NVIDIA nebo open-source alternativách.

OlmoEarth v1.1, efektivní rodina modelů zaměřená na geospatální data a energetické aplikace, naznačuje trend: specializace vítězí nad obecností. Cosmos jde stejnou cestou — místo univerzálního generátoru nabízí fyzikálně věrohodný simulátor. A v robotice je fyzikální věrohodnost klíčová.

Kde fine-tuned Cosmos skutečně pomáhá — a kde ne

V průmyslové automatizaci se Cosmos uplatní jako syntetický generátor trénovacích dat. Máte 500 skutečných videí z jedné výrobní linky? Fine-tuningem vygenerujete dalších 10 000 variant za zlomek ceny skutečného snímání. Výsledný detektor objektů nebo odhad pózy robota trénujete na syntetických datech — a funguje.

V predikci pohybu robota (model-based reinforcement learning) používáte Cosmos jako "world model": robot se v simulaci naučí pohybovat pomocí vygenerovaných videí předtím, než poprvé fyzicky uchopí reálný objekt. Boston Dynamics a Toyota Research Institute podobné přístupy veřejně testují.

Kde Cosmos zatím selhává: dlouhé horizonty (videa nad 10 sekund), více robotů interagujících navzájem, a scény s průhlednými objekty nebo kapalinami s nízkou viskozitou. FVD metriky v těchto scénářích klesají strmě.

Pro energetické aplikace a správu průmyslových zařízení existují specializovanější nástroje — například energetická platforma SES, která kombinuje AI optimalizaci s obchodováním flexibility a regulační elektřiny pro průmyslové provozy. Video-generativní modely jsou v tomto kontextu spíše doplňkový nástroj pro vizualizaci a plánování než produkční komponenta.

Více o tom, jak AI transformuje energetické systémy na úrovni smart gridu, najdete na smartenergyshare.info. A pokud vás zajímá, jak velká virtuální elektrárna (VPP) integruje heterogenní zdroje s pomocí podobných prediktivních modelů, doporučuji smartenergyshare.cz.

Závěr: Průmyslová robotika se mění — a kdo čeká, zaplatí dvakrát

Predikce pro rok 2027: fine-tuned video-difuzní modely typu Cosmos se stanou standardní součástí robotického vývojového řetězce ve stejné míře, jako dnes patří simulátory jako Isaac Sim nebo Gazebo. Cena tréninku klesne pod 50 USD díky kvantizovaným 4-bit variantám a efektivnějším PEFT technikám. Společnosti, které si tuto kompetenci vybudují dnes — i za cenu 200 USD na experimentování — budou mít dvouroční náskok.

Začněte s 5B modelem, LoRA rank=8, a 500 klipů z vašeho konkrétního prostředí. Výsledek vás buď příjemně překvapí, nebo přesně identifikuje slabé místo ve vašich datech. Oboje je cenná informace.

Kompletní kód, příklady datasetů a benchmarky různých konfigurací najdete na HuggingFace.