Varijacijski autoenkoder

U mašinskom učenju varijacijski autoenkoder (VAE) jest arhitektura vještačke neuronske mreže koju su 2013. uveli Diederik P. Kingma i Max Welling.^[1] Pripada porodicama probabilističkih grafičkih modela i varijacijskih Bayesovih metoda.^[2]

Osim što se može posmatrati kao arhitektura autoenkoderske neuronske mreže, varijacijski autoenkoderi mogu se proučavati i u matematičkoj formulaciji varijacijskih Bayesovih metoda, gdje se neuronska enkoderska mreža povezuje s dekoderom preko probabilističkog latentnog prostora. Taj prostor može biti, naprimjer, opisan kao višedimenzionalna normalna raspodjela koja odgovara parametrima varijacijske raspodjele.

Enkoder zato preslikava svaku tačku, kao što je slika, iz velikog i složenog skupa podataka u raspodjelu unutar latentnog prostora, a ne u jednu tačku tog prostora. Dekoder ima suprotnu funkciju: preslikava iz latentnog prostora u ulazni prostor, također prema raspodjeli, iako se u praksi šum rijetko dodaje tokom dekodiranja. Preslikavanjem tačke u raspodjelu umjesto u jednu tačku mreža može izbjeći preprilagođavanje podacima za treniranje. Obje mreže obično se treniraju zajedno pomoću trika reparametrizacije, iako se varijansa modela šuma može učiti odvojeno.

Iako je ova vrsta modela prvobitno oblikovana za nenadzirano učenje,^[3]^[4] njegova djelotvornost potvrđena je i u polunadziranom učenju^[5]^[6] i nadziranom učenju.^[7]

Pregled arhitekture i rada

Varijacijski autoenkoder jeste generativni model s prethodnom raspodjelom i raspodjelom šuma. Takvi modeli obično se treniraju pomoću meta-algoritma očekivanja i maksimizacije, kao u probabilističkoj analizi glavnih komponenti ili rijetkom kodiranju tipa "spike and slab". Ova shema optimizira donju granicu vjerovatnosti podataka, koja je obično računski neizvodljiva, i pritom zahtijeva pronalaženje q-raspodjela, odnosno varijacijskih posteriornih raspodjela. Takve q-raspodjele obično se parametriziraju za svaku pojedinačnu tačku podataka u zasebnom optimizacijskom procesu. Međutim, varijacijski autoenkoderi koriste neuronsku mrežu kao amortizirani pristup za zajedničku optimizaciju preko tačaka podataka. Na taj način isti parametri ponovo se koriste za više tačaka podataka, što može dovesti do velikih ušteda memorije. Prva neuronska mreža kao ulaz prima same tačke podataka i daje parametre varijacijske raspodjele. Budući da preslikava iz poznatog ulaznog prostora u niskodimenzionalni latentni prostor, naziva se enkoderom.

Dekoder je druga neuronska mreža ovog modela. On je funkcija koja preslikava iz latentnog prostora u ulazni prostor, naprimjer kao srednje vrijednosti raspodjele šuma. Moguće je koristiti još jednu neuronsku mrežu koja preslikava u varijansu, ali se to radi jednostavnosti može izostaviti. U tom slučaju varijansa se može optimizirati gradijentnim spustom.

Za optimizaciju ovog modela potrebno je poznavati dva člana: "grešku rekonstrukcije" i Kullback–Leiblerovu divergenciju (KL-D). Oba člana izvode se iz izraza slobodne energije probabilističkog modela, pa se razlikuju zavisno od raspodjele šuma i pretpostavljene prethodne raspodjele podataka, koja se ovdje naziva p-raspodjelom. Naprimjer, za standardni VAE zadatak kao što je IMAGENET obično se pretpostavlja gausovski raspodijeljen šum, dok zadaci kao što je binarizirani MNIST zahtijevaju Bernoullijev šum. KL-D iz izraza slobodne energije maksimizira vjerovatnosnu masu q-raspodjele koja se preklapa s p-raspodjelom, što nažalost može dovesti do ponašanja usmjerenog na modus. Član "rekonstrukcije" ostatak je izraza slobodne energije i za računanje svoje očekivane vrijednosti zahtijeva uzorkovnu aproksimaciju.^[8]

Formulacija

Iz ugla probabilističkog modeliranja želi se maksimizirati vjerovatnost podataka $x$ njihovom izabranom parametriziranom vjerovatnosnom raspodjelom $p_{\theta }(x)=p(x|\theta )$ . Ova raspodjela obično se bira kao Gaussova raspodjela $N(x|\mu ,\sigma )$ , parametrizirana s $\mu$ i $\sigma$ , i kao član eksponencijalne porodice pogodna je za rad kao raspodjela šuma. Jednostavne raspodjele dovoljno je lako maksimizirati, ali raspodjele u kojima se pretpostavlja prethodna raspodjela nad latentnim promjenljivim $z$ dovode do neizvodljivih integrala. Neka se $p_{\theta }(x)$ pronađe marginaliziranjem preko $z$ :

p_{\theta }(x)=\int _{z}p_{\theta }({x,z})\,dz,

gdje $p_{\theta }({x,z})$ predstavlja zajedničku raspodjelu pod $p_{\theta }$ posmatranih podataka $x$ i njihove latentne reprezentacije ili kodiranja $z$ . Prema lančanom pravilu, jednačina se može prepisati kao

p_{\theta }(x)=\int _{z}p_{\theta }({x|z})p_{\theta }(z)\,dz

U osnovnom varijacijskom autoenkoderu $z$ se obično uzima kao konačnodimenzionalni vektor realnih brojeva, a $p_{\theta }({x|z})$ kao Gaussova raspodjela. Tada je $p_{\theta }(x)$ mješavina Gaussovih raspodjela.

Sada je moguće definirati skup odnosa između ulaznih podataka i njihove latentne reprezentacije kao:

prethodna raspodjela $p_{\theta }(z)$
vjerovatnost $p_{\theta }(x|z)$
posteriorna raspodjela $p_{\theta }(z|x)$

Nažalost, računanje $p_{\theta }(z|x)$ skupo je i u većini slučajeva neizvodljivo. Da bi se računanje ubrzalo i učinilo izvodljivim, potrebno je uvesti dodatnu funkciju kojom se aproksimira posteriorna raspodjela:

q_{\phi }({z|x})\approx p_{\theta }({z|x})

pri čemu je $\phi$ definiran kao skup realnih vrijednosti koje parametriziraju $q$ . To se ponekad naziva amortizirana inferencija, jer se "ulaganjem" u pronalaženje dobre funkcije $q_{\phi }$ kasnije može brzo izvesti $z$ iz $x$ , bez računanja integrala.

Na taj način problem je pronaći dobar probabilistički autoenkoder, u kojem uslovnu raspodjelu vjerovatnosti $p_{\theta }(x|z)$ računa probabilistički dekoder, a aproksimiranu posteriornu raspodjelu $q_{\phi }(z|x)$ računa probabilistički enkoder.

Enkoder se parametrizira kao $E_{\phi }$ , a dekoder kao $D_{\theta }$ .

Donja granica evidencije (ELBO)

Kao i mnogi pristupi dubokog učenja koji koriste optimizaciju zasnovanu na gradijentu, VAE-ovi zahtijevaju diferencijabilnu funkciju gubitka da bi se težine mreže ažurirale propagacijom unazad.

Kod varijacijskih autoenkodera ideja je zajednički optimizirati parametre generativnog modela $\theta$ kako bi se smanjila greška rekonstrukcije između ulaza i izlaza, te $\phi$ kako bi $q_{\phi }({z|x})$ bila što bliža $p_{\theta }(z|x)$ . Kao rekonstrukcijski gubitak često se koriste srednja kvadratna greška i unakrsna entropija.

Kullback–Leiblerova divergencija $D_{KL}(q_{\phi }({z|x})\parallel p_{\theta }({z|x}))$ može se koristiti kao funkcija gubitka kojom se $q_{\phi }({z|x})$ sabija pod $p_{\theta }(z|x)$ .^[8]^[9] Ovaj divergencijski gubitak razvija se u

{\begin{aligned}D_{KL}(q_{\phi }({z|x})\parallel p_{\theta }({z|x}))&=\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln {\frac {q_{\phi }(z|x)}{p_{\theta }(z|x)}}\right]\\&=\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln {\frac {q_{\phi }({z|x})p_{\theta }(x)}{p_{\theta }(x,z)}}\right]\\&=\ln p_{\theta }(x)+\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln {\frac {q_{\phi }({z|x})}{p_{\theta }(x,z)}}\right].\end{aligned}}

Sada se definira donja granica evidencije (ELBO):

$L_{\theta ,\phi }(x):=\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln {\frac {p_{\theta }(x,z)}{q_{\phi }({z|x})}}\right]=\ln p_{\theta }(x)-D_{KL}(q_{\phi }({\cdot |x})\parallel p_{\theta }({\cdot |x}))$

Maksimiziranje ELBO-a

$\theta ^{*},\phi ^{*}={\underset {\theta ,\phi }{\operatorname {argmax} }}\,L_{\theta ,\phi }(x)$

ekvivalentno je istovremenom maksimiziranju $\ln p_{\theta }(x)$ i minimiziranju $D_{KL}(q_{\phi }({z|x})\parallel p_{\theta }({z|x}))$ . Drugim riječima, maksimizira se log-vjerovatnost posmatranih podataka i minimizira divergencija od aproksimirane posteriorne raspodjele $q_{\phi }(\cdot |x)$ do tačne posteriorne raspodjele $p_{\theta }(\cdot |x)$ .

Navedeni oblik nije posebno pogodan za maksimizaciju, ali sljedeći, ekvivalentan oblik jeste:

$L_{\theta ,\phi }(x)=\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln p_{\theta }(x|z)\right]-D_{KL}(q_{\phi }({\cdot |x})\parallel p_{\theta }(\cdot ))$

gdje se $\ln p_{\theta }(x|z)$ implementira kao $-{\frac {1}{2}}\|x-D_{\theta }(z)\|_{2}^{2}$ , jer je to, do aditivne konstante, rezultat pretpostavke $x|z\sim {\mathcal {N}}(D_{\theta }(z),I)$ . To znači da se raspodjela $x$ uslovljena s $z$ modelira kao Gaussova raspodjela centrirana u $D_{\theta }(z)$ . Raspodjele $q_{\phi }(z|x)$ i $p_{\theta }(z)$ često se također biraju kao Gaussove, i to $z|x\sim {\mathcal {N}}(E_{\phi }(x),\sigma _{\phi }(x)^{2}I)$ i $z\sim {\mathcal {N}}(0,I)$ . Tada se, prema formuli za KL-divergenciju Gaussovih raspodjela, dobija:

$L_{\theta ,\phi }(x)=-{\frac {1}{2}}\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\|x-D_{\theta }(z)\|_{2}^{2}\right]-{\frac {1}{2}}\left(N\sigma _{\phi }(x)^{2}+\|E_{\phi }(x)\|_{2}^{2}-2N\ln \sigma _{\phi }(x)\right)+Const$

Ovdje je $N$ dimenzija $z$ .

Reparametrizacija

Za efikasno traženje

$\theta ^{*},\phi ^{*}={\underset {\theta ,\phi }{\operatorname {argmax} }}\,L_{\theta ,\phi }(x)$

uobičajeni metod je gradijentni spust.

Lako je pronaći

$\nabla _{\theta }\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln {\frac {p_{\theta }(x,z)}{q_{\phi }({z|x})}}\right]=\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\nabla _{\theta }\ln {\frac {p_{\theta }(x,z)}{q_{\phi }({z|x})}}\right]$

Međutim,

$\nabla _{\phi }\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln {\frac {p_{\theta }(x,z)}{q_{\phi }({z|x})}}\right]$

ne dopušta da se $\nabla _{\phi }$ premjesti unutar očekivanja, jer se $\phi$ pojavljuje u samoj vjerovatnosnoj raspodjeli. Trik reparametrizacije (poznat i kao stohastička propagacija unazad^[10]) zaobilazi ovu teškoću.^[8]^[11]^[12]

Najvažniji primjer javlja se kada je $z\sim q_{\phi }(\cdot |x)$ normalno raspodijeljeno kao ${\mathcal {N}}(\mu _{\phi }(x),\Sigma _{\phi }(x))$ .

To se može reparametrizirati tako što se uzme da je ${\boldsymbol {\varepsilon }}\sim {\mathcal {N}}(0,{\boldsymbol {I}})$ "standardni generator slučajnih brojeva" i konstruira $z$ kao $z=\mu _{\phi }(x)+L_{\phi }(x)\epsilon$ . Ovdje se $L_{\phi }(x)$ dobija Choleskyjevom dekompozicijom:

$\Sigma _{\phi }(x)=L_{\phi }(x)L_{\phi }(x)^{T}$

Tada vrijedi:

$\nabla _{\phi }\mathbb {E} _{z\sim q_{\phi }(\cdot |x)}\left[\ln {\frac {p_{\theta }(x,z)}{q_{\phi }({z|x})}}\right]=\mathbb {E} _{\epsilon }\left[\nabla _{\phi }\ln {\frac {p_{\theta }(x,\mu _{\phi }(x)+L_{\phi }(x)\epsilon )}{q_{\phi }(\mu _{\phi }(x)+L_{\phi }(x)\epsilon |x)}}\right]$

i tako se dobija nepristran estimator gradijenta, što omogućava stohastički gradijentni spust.

Pošto je $z$ reparametriziran, potrebno je pronaći $q_{\phi }(z|x)$ . Neka je $q_{0}$ funkcija gustoće vjerovatnoće za $\epsilon$ ; tada je

$\ln q_{\phi }(z|x)=\ln q_{0}(\epsilon )-\ln |\det(\partial _{\epsilon }z)|$

gdje je $\partial _{\epsilon }z$ Jakobijeva matrica od $z$ po $\epsilon$ . Budući da je $z=\mu _{\phi }(x)+L_{\phi }(x)\epsilon$ , dobija se

$\ln q_{\phi }(z|x)=-{\frac {1}{2}}\|\epsilon \|^{2}-\ln |\det L_{\phi }(x)|-{\frac {n}{2}}\ln(2\pi )$

Varijacije

Mnoge primjene i proširenja varijacijskih autoenkodera korišteni su za prilagođavanje arhitekture drugim domenima i poboljšavanje njenog učinka.

$\beta$ -VAE je izvedba s ponderiranim članom Kullback–Leiblerove divergencije, namijenjena automatskom otkrivanju i tumačenju faktoriziranih latentnih reprezentacija. Uz ovu izvedbu moguće je forsirati razdvajanje mnogostrukosti za vrijednosti $\beta$ veće od jedan. Ova arhitektura može otkriti razdvojene latentne faktore bez nadzora.^[13]^[14]

Uslovni VAE (CVAE) umeće informaciju o oznaci u latentni prostor kako bi forsirao determinističku ograničenu reprezentaciju naučenih podataka.^[15]

Neke strukture neposredno se bave kvalitetom generiranih uzoraka^[16]^[17] ili uvode više od jednog latentnog prostora radi daljeg poboljšavanja učenja reprezentacija.

Neke arhitekture miješaju VAE i generativne suparničke mreže kako bi dobile hibridne modele.^[18]^[19]^[20]

Nije nužno koristiti gradijente za ažuriranje enkodera. Zapravo, enkoder nije neophodan za generativni model.^[21]

VAE varijante sa statističkom udaljenošću

Nakon početnog rada Diederika P. Kingme i Maxa Wellinga,^[22] predloženo je nekoliko postupaka za apstraktnije formuliranje rada VAE-a. U tim pristupima funkcija gubitka sastoji se od dva dijela:

uobičajenog rekonstrukcijskog člana, koji nastoji osigurati da preslikavanje enkoderom pa dekoderom $x\mapsto D_{\theta }(E_{\psi }(x))$ bude što bliže identičnom preslikavanju; uzorkovanje se u vrijeme izvršavanja vrši iz empirijske raspodjele $\mathbb {P} ^{real}$ dostupnih objekata, naprimjer za MNIST ili IMAGENET to je empirijski zakon vjerovatnoće svih slika u skupu podataka. Time se dobija član: $\mathbb {E} _{x\sim \mathbb {P} ^{real}}\left[\|x-D_{\theta }(E_{\phi }(x))\|_{2}^{2}\right]$ .
varijacijskog člana koji osigurava da se, kada se empirijska raspodjela $\mathbb {P} ^{real}$ propusti kroz enkoder $E_{\phi }$ , dobije ciljna raspodjela, ovdje označena kao $\mu (dz)$ , koja se obično uzima kao višedimenzionalna normalna raspodjela. Ovdje se $E_{\phi }\sharp \mathbb {P} ^{real}$ označava kao pushforward mjera, što je u praksi empirijska raspodjela dobijena propuštanjem svih objekata iz skupa podataka kroz enkoder $E_{\phi }$ . Da bi se osiguralo da je $E_{\phi }\sharp \mathbb {P} ^{real}$ blizu ciljne raspodjele $\mu (dz)$ , uvodi se statistička udaljenost $d$ i u gubitak dodaje član $d\left(\mu (dz),E_{\phi }\sharp \mathbb {P} ^{real}\right)^{2}$ .

Dobija se konačna formula za gubitak:

$L_{\theta ,\phi }=\mathbb {E} _{x\sim \mathbb {P} ^{real}}\left[\|x-D_{\theta }(E_{\phi }(x))\|_{2}^{2}\right]+d\left(\mu (dz),E_{\phi }\sharp \mathbb {P} ^{real}\right)^{2}$

Statistička udaljenost $d$ mora imati posebna svojstva; naprimjer, mora posjedovati formulu u obliku očekivanja, jer će se funkcija gubitka optimizirati stohastičkim optimizacijskim algoritmima. Može se izabrati nekoliko udaljenosti, što je dovelo do više varijanti VAE-a:

rezana Wassersteinova udaljenost koju su Soheil Kolouri i saradnici koristili u svom VAE-u;^[23]
energetska udaljenost implementirana u Radon–Soboljevljevom varijacijskom autoenkoderu;^[24]
maksimalna srednja diskrepancija korištena u MMD-VAE-u;^[25]
Wassersteinova udaljenost korištena u WAE-ovima;^[26]
udaljenosti zasnovane na jezgrama, korištene u Kerneliziranom varijacijskom autoenkoderu (K-VAE).^[27]

Također pogledajte

Reference

↑ Kingma, Diederik P.; Welling, Max (10. 12. 2022). "Auto-Encoding Variational Bayes". arXiv:1312.6114 [stat.ML].
↑ Pinheiro Cinelli, Lucas; et al. (2021). "Variational Autoencoder". Variational Methods for Machine Learning with Applications to Deep Networks. Springer. str. 111–149. doi:10.1007/978-3-030-70679-1_5. ISBN 978-3-030-70681-4.
↑ Dilokthanakul, Nat; Mediano, Pedro A. M.; Garnelo, Marta; Lee, Matthew C. H.; Salimbeni, Hugh; Arulkumaran, Kai; Shanahan, Murray (13. 1. 2017). "Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders". arXiv:1611.02648 [cs.LG].
↑ Hsu, Wei-Ning; Zhang, Yu; Glass, James (12. 2017). "Unsupervised domain adaptation for robust speech recognition via variational autoencoder-based data augmentation". 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). str. 16–23. arXiv:1707.06265. doi:10.1109/ASRU.2017.8268911. ISBN 978-1-5090-4788-8. S2CID 22681625. Provjerite vrijednost datuma u parametru: |date= (pomoć)
↑ Ehsan Abbasnejad, M.; Dick, Anthony; van den Hengel, Anton (2017). Infinite Variational Autoencoder for Semi-Supervised Learning. str. 5888–5897.
↑ Xu, Weidi; Sun, Haoze; Deng, Chao; Tan, Ying (12. 2. 2017). "Variational Autoencoder for Semi-Supervised Text Classification". Proceedings of the AAAI Conference on Artificial Intelligence (jezik: engleski). 31 (1). doi:10.1609/aaai.v31i1.10966. S2CID 2060721.
↑ Kameoka, Hirokazu; Li, Li; Inoue, Shota; Makino, Shoji (1. 9. 2019). "Supervised Determined Source Separation with Multichannel Variational Autoencoder". Neural Computation. 31 (9): 1891–1914. doi:10.1162/neco_a_01217. PMID 31335290. S2CID 198168155.
1 2 3 Kingma, Diederik P.; Welling, Max (20. 12. 2013). "Auto-Encoding Variational Bayes". arXiv:1312.6114 [stat.ML].
↑ "From Autoencoder to Beta-VAE". Lil'Log (jezik: engleski). 12. 8. 2018.
↑ Rezende, Danilo Jimenez; Mohamed, Shakir; Wierstra, Daan (18. 6. 2014). "Stochastic Backpropagation and Approximate Inference in Deep Generative Models". International Conference on Machine Learning (jezik: engleski). PMLR: 1278–1286. arXiv:1401.4082.
↑ Bengio, Yoshua; Courville, Aaron; Vincent, Pascal (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. arXiv:1206.5538. Bibcode:2013ITPAM..35.1798B. doi:10.1109/TPAMI.2013.50. ISSN 1939-3539. PMID 23787338. S2CID 393948.
↑ Kingma, Diederik P.; Rezende, Danilo J.; Mohamed, Shakir; Welling, Max (31. 10. 2014). "Semi-Supervised Learning with Deep Generative Models". arXiv:1406.5298 [cs.LG].
↑ Higgins, Irina; Matthey, Loic; Pal, Arka; Burgess, Christopher; Glorot, Xavier; Botvinick, Matthew; Mohamed, Shakir; Lerchner, Alexander (4. 11. 2016). beta-VAE: Learning Basic Visual Concepts with a Constrained Variational Framework. NeurIPS (jezik: engleski).
↑ Burgess, Christopher P.; Higgins, Irina; Pal, Arka; Matthey, Loic; Watters, Nick; Desjardins, Guillaume; Lerchner, Alexander (10. 4. 2018). "Understanding disentangling in β-VAE". arXiv:1804.03599 [stat.ML].
↑ Sohn, Kihyuk; Lee, Honglak; Yan, Xinchen (1. 1. 2015). Learning Structured Output Representation using Deep Conditional Generative Models (PDF). NeurIPS (jezik: engleski).
↑ Dai, Bin; Wipf, David (30. 10. 2019). "Diagnosing and Enhancing VAE Models". arXiv:1903.05789 [cs.LG].
↑ Dorta, Garoe; Vicente, Sara; Agapito, Lourdes; Campbell, Neill D. F.; Simpson, Ivor (31. 7. 2018). "Training VAEs Under Structured Residuals". arXiv:1804.01050 [stat.ML].
↑ Larsen, Anders Boesen Lindbo; Sønderby, Søren Kaae; Larochelle, Hugo; Winther, Ole (11. 6. 2016). "Autoencoding beyond pixels using a learned similarity metric". International Conference on Machine Learning (jezik: engleski). PMLR: 1558–1566. arXiv:1512.09300.
↑ Bao, Jianmin; Chen, Dong; Wen, Fang; Li, Houqiang; Hua, Gang (2017). "CVAE-GAN: Fine-Grained Image Generation Through Asymmetric Training". str. 2745–2754. arXiv:1703.10155 [cs.CV].
↑ Gao, Rui; Hou, Xingsong; Qin, Jie; Chen, Jiaxin; Liu, Li; Zhu, Fan; Zhang, Zhao; Shao, Ling (2020). "Zero-VAE-GAN: Generating Unseen Features for Generalized and Transductive Zero-Shot Learning". IEEE Transactions on Image Processing. 29: 3665–3680. Bibcode:2020ITIP...29.3665G. doi:10.1109/TIP.2020.2964429. ISSN 1941-0042. PMID 31940538. S2CID 210334032.
↑ Drefs, J.; Guiraud, E.; Panagiotou, F.; Lücke, J. (2023). "Direct evolutionary optimization of variational autoencoders with binary latents". Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Lecture Notes in Computer Science. 13715. Springer Nature Switzerland. str. 357–372. arXiv:2011.13704. doi:10.1007/978-3-031-26409-2_22. ISBN 978-3-031-26408-5.
↑ Kingma, Diederik P.; Welling, Max (10. 12. 2022). "Auto-Encoding Variational Bayes". arXiv:1312.6114 [stat.ML].
↑ Kolouri, Soheil; Pope, Phillip E.; Martin, Charles E.; Rohde, Gustavo K. (2019). "Sliced Wasserstein Auto-Encoders". International Conference on Learning Representations. International Conference on Learning Representations. ICPR.
↑ Turinici, Gabriel (2021). "Radon-Sobolev Variational Auto-Encoders". Neural Networks. 141: 294–305. arXiv:1911.13135. doi:10.1016/j.neunet.2021.04.018. ISSN 0893-6080. PMID 33933889 Provjerite vrijednost parametra |pmid= (pomoć).
↑ Gretton, A.; Li, Y.; Swersky, K.; Zemel, R.; Turner, R. (2017). "A Polya Contagion Model for Networks". IEEE Transactions on Control of Network Systems. 5 (4): 1998–2010. arXiv:1705.02239. doi:10.1109/TCNS.2017.2781467.
↑ Tolstikhin, I.; Bousquet, O.; Gelly, S.; Schölkopf, B. (2018). "Wasserstein Auto-Encoders". arXiv:1711.01558 [stat.ML].
↑ Louizos, C.; Shi, X.; Swersky, K.; Li, Y.; Welling, M. (2019). "Kernelized Variational Autoencoders". arXiv:1901.02401 [astro-ph.CO].

Dalje čitanje

Kingma, Diederik P.; Welling, Max (2019). "An Introduction to Variational Autoencoders". Foundations and Trends in Machine Learning. Now Publishers. 12 (4): 307–392. arXiv:1906.02691. doi:10.1561/2200000056. ISSN 1935-8237.
Katić, Mislav (2024). Primjena evolucijskih algoritama u latentnom prostoru modela dubokog učenja (Diplomski rad). Zagreb: Sveučilište u Zagrebu, Fakultet elektrotehnike i računarstva. Pristupljeno 2. 6. 2026.
Grubelić, Damjan (2024). Otkrivanje prijevara kreditnim karticama korištenjem varijacijskog autoenkodera (Diplomski rad). Zagreb: Sveučilište u Zagrebu, Fakultet elektrotehnike i računarstva. Pristupljeno 2. 6. 2026.
Šušnjara, Josip (2018). Generiranje slika iz tekstualnih opisa (Diplomski rad). Zagreb: Sveučilište u Zagrebu, Fakultet elektrotehnike i računarstva. Pristupljeno 2. 6. 2026.

[1] Kingma, Diederik P.; Welling, Max (10. 12. 2022). "Auto-Encoding Variational Bayes". arXiv:1312.6114 [stat.ML].

[2] Pinheiro Cinelli, Lucas; et al. (2021). "Variational Autoencoder". Variational Methods for Machine Learning with Applications to Deep Networks. Springer. str. 111–149. doi:10.1007/978-3-030-70679-1_5. ISBN 978-3-030-70681-4.

[3] Dilokthanakul, Nat; Mediano, Pedro A. M.; Garnelo, Marta; Lee, Matthew C. H.; Salimbeni, Hugh; Arulkumaran, Kai; Shanahan, Murray (13. 1. 2017). "Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders". arXiv:1611.02648 [cs.LG].

[4] Hsu, Wei-Ning; Zhang, Yu; Glass, James (12. 2017). "Unsupervised domain adaptation for robust speech recognition via variational autoencoder-based data augmentation". 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). str. 16–23. arXiv:1707.06265. doi:10.1109/ASRU.2017.8268911. ISBN 978-1-5090-4788-8. S2CID 22681625. Provjerite vrijednost datuma u parametru: |date= (pomoć)

[5] Ehsan Abbasnejad, M.; Dick, Anthony; van den Hengel, Anton (2017). Infinite Variational Autoencoder for Semi-Supervised Learning. str. 5888–5897.

[6] Xu, Weidi; Sun, Haoze; Deng, Chao; Tan, Ying (12. 2. 2017). "Variational Autoencoder for Semi-Supervised Text Classification". Proceedings of the AAAI Conference on Artificial Intelligence (jezik: engleski). 31 (1). doi:10.1609/aaai.v31i1.10966. S2CID 2060721.

[7] Kameoka, Hirokazu; Li, Li; Inoue, Shota; Makino, Shoji (1. 9. 2019). "Supervised Determined Source Separation with Multichannel Variational Autoencoder". Neural Computation. 31 (9): 1891–1914. doi:10.1162/neco_a_01217. PMID 31335290. S2CID 198168155.

[Kingma2013-8] 1 2 3 Kingma, Diederik P.; Welling, Max (20. 12. 2013). "Auto-Encoding Variational Bayes". arXiv:1312.6114 [stat.ML].

[9] "From Autoencoder to Beta-VAE". Lil'Log (jezik: engleski). 12. 8. 2018.

[10] Rezende, Danilo Jimenez; Mohamed, Shakir; Wierstra, Daan (18. 6. 2014). "Stochastic Backpropagation and Approximate Inference in Deep Generative Models". International Conference on Machine Learning (jezik: engleski). PMLR: 1278–1286. arXiv:1401.4082.

[11] Bengio, Yoshua; Courville, Aaron; Vincent, Pascal (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. arXiv:1206.5538. Bibcode:2013ITPAM..35.1798B. doi:10.1109/TPAMI.2013.50. ISSN 1939-3539. PMID 23787338. S2CID 393948.

[12] Kingma, Diederik P.; Rezende, Danilo J.; Mohamed, Shakir; Welling, Max (31. 10. 2014). "Semi-Supervised Learning with Deep Generative Models". arXiv:1406.5298 [cs.LG].

[13] Higgins, Irina; Matthey, Loic; Pal, Arka; Burgess, Christopher; Glorot, Xavier; Botvinick, Matthew; Mohamed, Shakir; Lerchner, Alexander (4. 11. 2016). beta-VAE: Learning Basic Visual Concepts with a Constrained Variational Framework. NeurIPS (jezik: engleski).

[14] Burgess, Christopher P.; Higgins, Irina; Pal, Arka; Matthey, Loic; Watters, Nick; Desjardins, Guillaume; Lerchner, Alexander (10. 4. 2018). "Understanding disentangling in β-VAE". arXiv:1804.03599 [stat.ML].

[15] Sohn, Kihyuk; Lee, Honglak; Yan, Xinchen (1. 1. 2015). Learning Structured Output Representation using Deep Conditional Generative Models (PDF). NeurIPS (jezik: engleski).

[16] Dai, Bin; Wipf, David (30. 10. 2019). "Diagnosing and Enhancing VAE Models". arXiv:1903.05789 [cs.LG].

[17] Dorta, Garoe; Vicente, Sara; Agapito, Lourdes; Campbell, Neill D. F.; Simpson, Ivor (31. 7. 2018). "Training VAEs Under Structured Residuals". arXiv:1804.01050 [stat.ML].

[18] Larsen, Anders Boesen Lindbo; Sønderby, Søren Kaae; Larochelle, Hugo; Winther, Ole (11. 6. 2016). "Autoencoding beyond pixels using a learned similarity metric". International Conference on Machine Learning (jezik: engleski). PMLR: 1558–1566. arXiv:1512.09300.

[19] Bao, Jianmin; Chen, Dong; Wen, Fang; Li, Houqiang; Hua, Gang (2017). "CVAE-GAN: Fine-Grained Image Generation Through Asymmetric Training". str. 2745–2754. arXiv:1703.10155 [cs.CV].

[20] Gao, Rui; Hou, Xingsong; Qin, Jie; Chen, Jiaxin; Liu, Li; Zhu, Fan; Zhang, Zhao; Shao, Ling (2020). "Zero-VAE-GAN: Generating Unseen Features for Generalized and Transductive Zero-Shot Learning". IEEE Transactions on Image Processing. 29: 3665–3680. Bibcode:2020ITIP...29.3665G. doi:10.1109/TIP.2020.2964429. ISSN 1941-0042. PMID 31940538. S2CID 210334032.

[21] Drefs, J.; Guiraud, E.; Panagiotou, F.; Lücke, J. (2023). "Direct evolutionary optimization of variational autoencoders with binary latents". Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Lecture Notes in Computer Science. 13715. Springer Nature Switzerland. str. 357–372. arXiv:2011.13704. doi:10.1007/978-3-031-26409-2_22. ISBN 978-3-031-26408-5.

[22] Kingma, Diederik P.; Welling, Max (10. 12. 2022). "Auto-Encoding Variational Bayes". arXiv:1312.6114 [stat.ML].

[23] Kolouri, Soheil; Pope, Phillip E.; Martin, Charles E.; Rohde, Gustavo K. (2019). "Sliced Wasserstein Auto-Encoders". International Conference on Learning Representations. International Conference on Learning Representations. ICPR.

[24] Turinici, Gabriel (2021). "Radon-Sobolev Variational Auto-Encoders". Neural Networks. 141: 294–305. arXiv:1911.13135. doi:10.1016/j.neunet.2021.04.018. ISSN 0893-6080. PMID 33933889 Provjerite vrijednost parametra |pmid= (pomoć).

[25] Gretton, A.; Li, Y.; Swersky, K.; Zemel, R.; Turner, R. (2017). "A Polya Contagion Model for Networks". IEEE Transactions on Control of Network Systems. 5 (4): 1998–2010. arXiv:1705.02239. doi:10.1109/TCNS.2017.2781467.

[26] Tolstikhin, I.; Bousquet, O.; Gelly, S.; Schölkopf, B. (2018). "Wasserstein Auto-Encoders". arXiv:1711.01558 [stat.ML].

[27] Louizos, C.; Shi, X.; Swersky, K.; Li, Y.; Welling, M. (2019). "Kernelized Variational Autoencoders". arXiv:1901.02401 [astro-ph.CO].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]