Předpokládejme, že správný štítek je 1, to znamená, že první DigitCap je zodpovědný za kódování přítomnosti číslice 1. Pro tuto funkci ztráty DigitCap bude T_c jedna a pro všech zbývajících devět číslic T_c bude 0. Když je T_c 1, vypočítá se první člen ztrátové funkce a druhý se stane nulou. Pro náš příklad, abychom vypočítali ztrátu první DigitCap, vezmeme výstupní vektor tohoto Digitcapu a odečteme jej od m+, který je pevně stanoven na 0,9. Výslednou hodnotu pak ponecháme pouze v případě, že je větší než nula a čtvercová. V opačném případě vraťte 0. Jinými slovy, ztráta bude nulová, pokud správný DigitCap předpovídá správný štítek s větší pravděpodobností než 0,9 a bude nenulová, pokud je pravděpodobnost menší než 0,9.
pro DigitCaps, které neodpovídají správnému štítku, bude T_c nula, a proto bude vyhodnocen druhý termín (odpovídající (1-t_c) části). V tomto případě vidíme, že ztráta bude nulová, pokud neshoda DigitCap předpovídá nesprávný štítek s pravděpodobností menší než 0,1 a nenulový, pokud předpovídá nesprávný štítek s pravděpodobností větší než 0,1.
konečně, ve vzorci lambda koeficient je zahrnut pro numerickou stabilitu během tréninku (jeho hodnota je stanovena na 0,5). Dva termíny ve vzorci mají čtverce, protože tato ztrátová funkce má normu L2 a autoři zřejmě považují tuto normu za lepší.
Část II.dekodér.
dekodér vezme 16-dimenzionální vektor ze správného Digitcapu a naučí se jej dekódovat do obrazu číslice (všimněte si, že během tréninku používá pouze správný vektor DigitCap a ignoruje nesprávné). Dekodér se používá jako regularizer, bere výstup správného DigitCap jako vstup a naučí se znovu vytvořit obraz 28 x 28 Pixelů, přičemž ztrátová funkce je euklidovská vzdálenost mezi rekonstruovaným obrazem a vstupním obrazem. Dekodér nutí kapsle naučit se funkce, které jsou užitečné pro rekonstrukci původního obrazu. Čím blíže je rekonstruovaný obraz ke vstupnímu obrazu, tím lépe. Příklady rekonstruovaných snímků lze vidět na obrázku níže.
vrstva 4. Plně připojeno # 1
vstup: 16×10.
výstup: 512.
počet parametrů: 82432.
každý výstup nižší úrovně je vážen a směrován do každého neuronu plně připojené vrstvy jako vstup. Každý neuron má také termín zkreslení. Pro tuto vrstvu existuje 16×10 vstupů, které jsou všechny směrovány na každý z 512 neuronů této vrstvy. Proto existují (16×10 + 1)x512 trénovatelné parametry.
pro následující dvě vrstvy je výpočet stejný: počet parametrů = (počet vstupů + zkreslení) x počet neuronů ve vrstvě. Proto neexistuje žádné vysvětlení pro plně Spojené vrstvy 2 a 3.
vrstva 5. Plně připojeno # 2
vstup: 512.
výstup: 1024.
počet parametrů: 525312.
vrstva 6. Plně připojeno # 3
vstup: 1024.
výstup: 784 (který po přetvoření vrátí dekódovaný obraz 28×28).
počet parametrů: 803600.
celkový počet parametrů v síti: 8238608.