AI na vlastním hardwaru. Jaké jsou výhody a co se mění oproti cloudovým řešením
i Zdroj: PCTuning
Článek AI na vlastním hardwaru. Jaké jsou výhody a co se mění oproti cloudovým řešením

AI na vlastním hardwaru. Jaké jsou výhody a co se mění oproti cloudovým řešením

Lukáš Tauc

Lukáš Tauc

Výkon AI modelů je zásadně ovlivněn nejen výběrem grafické karty, ale také její pamětí VRAM. V tomto shrnutí se zaměřujeme na to, proč je důležité zajistit, aby modely běžely na Tensor jádrech grafické karty, a jak nedostatek paměti ovlivňuje celkový výkon. Celý článek si poté můžete přečíst na webu PCTuning.

Reklama

Nároky na výkon

Po nainstalování a prvním spuštění modelů se ujistěte, že model k akceleraci používá grafickou kartu a konkrétně jádra Tensor. Pokud by model byl omylem počítán třeba na procesoru, výrazně by se zpomalil a na některých systémech by se ani nedal zprovoznit.

Celý test jsem prováděl na grafické kartě Nvidia RTX 4070 se 12 GB VRAM. Na ní AI modely začaly odepisovat téměř okamžitě po zadání promptu a celkový čas odpovědi trval podle její délky. Jednoduchou odpověď generoval v řadech sekund a další text stíhal psát rychleji, než jsem ho já zvládal číst. Obrázky se generovaly v řádech sekund až desítek sekund na jeden obrázek podle zvolených parametrů kvality.

Musíme zde rozlišovat výkon samotné karty, ale i kapacitu VRAM. Každý model bude mít ve specifikacích požadavky právě na velikost VRAM; co se stane, pokud ji přesáhnete? Některé modely nepůjde spustit, ale například Mistral-small (22B) mi fungoval, jen byl při odpovídání pomalejší.

Prvním limitem je tedy paměť, když nebude dostačovat, AI model následně nedokáže plně vytížit jádra Tensor. Když se model do VRAM vejde, limitem začne být výkon Tensor jader. Tedy uvidíte jejich plné vytížení na několik sekund, než model přestane odpovídat v chatu.

Situace při nedostatku VRAM
i Zdroj: PCTuning
Situace při nedostatku VRAM

V praxi nedostatečná paměť vypadala tak, že se zaplnila VRAM grafické karty téměř na maximum, grafická karta byla vytěžována jen na nižší desítky procent, ale vložil se do toho procesor. Ten byl ovšem vytížený ne zcela, ale okolo 70 %. Model se tedy výpočetně rozložil do celého systému, což způsobilo viditelně pomalejší odezvu. Stejné chování bylo i na modelu solar-pro, který má také 22B parametrů.

Podrobný návod, jak lokální AI rozjet a různé příklady najdete zde.

jak-jednoduse-na-lokalne-akcelerovanou-ai-ukazeme-co-umi-i-jak-ji-zprovoznit

Jak jednoduše na lokálně akcelerovanou AI. Ukážeme, co umí i jak ji zprovoznit

Používání lokálně akcelerované AI je snadné a přináší výhody jako lepší soukromí a nezávislost na cloudu. Jak AI rozjet a co umí?


Reklama
Reklama

Komentáře

Nejsi přihlášený(á)

Pro psaní a hodnocení komentářů se prosím přihlas ke svému účtu nebo si jej vytvoř.

Reklama
Reklama