Nega chuqur o’rganish (Deep Learning)? Nima motivatsiya?

https://www.deeplearningbook.org/contents/ml.html

5.11.1 O’lchovlar la’nati (The Curse of Dimensionality)

Ma’lumotlar tarkibidagi o’lchovlar (dimensions) soni yuqori bo’lganda, ko’plab mashinali o’rganish muammolari haddan tashqari murakkablashib ketadi. Ushbu hodisa o’lchovlar la’nati deb ataladi. Ayniqsa, o’zgaruvchilar soni ortishi bilan, ushbu o’zgaruvchilar to’plami hosil qilishi mumkin bo’lgan turli xil konfiguratsiyalar (holatlar) sonining eksponentsial ravishda o’sib borishi jiddiy tashvish tug’diradi.

O’lchovlar la’nati kompyuter fanlarining ko’plab sohalarida, ayniqsa, mashinali o’rganishda yuzaga keladi.

O’lchovlar la’nati keltirib chiqaradigan muammolardan biri statistik qiyinchilikdir.

Muammoni tushunish uchun kirish fazosini rasmdagidek to’r (grid) shaklida tashkil qilingan deb tasavvur qilaylik. Past o’lchamli fazoni ma’lumotlar bilan to’ldirilgan kichik miqdordagi yacheykalar bilan tavsiflashimiz mumkin. Yangi ma’lumot nuqtasi uchun natijani bashorat qilishda, biz odatda o’sha yangi kirish ma’lumoti bilan bir xil yacheykada joylashgan o’quv namunalarini tekshirish orqali nima qilish kerakligini bilib olamiz.

Masalan, agar biror x nuqtadagi ehtimollik zichligini baholayotgan bo’lsak, shunchaki x bilan bir xil hajm birligidagi yacheykada joylashgan o’quv namunalari sonini umumiy namunalar soniga bo’lishimiz kifoya. Agar biz klassifikatsiya (tasniflash) qilayotgan bo’lsak, o’sha yacheykadagi o’quv namunalari orasida eng ko’p uchraydigan klassni qaytaramiz. Agar regressiya qilayotgan bo’lsak, shu yacheykadagi namunalar bo’yicha maqsadli qiymatlarning o’rtachasini olamiz.

Ammo biz birorta ham namuna ko’rmagan yacheykalar haqida nima deya olamiz? Yuqori o’lchamli fazolarda konfiguratsiyalar soni juda ulkan va bizdagi namunalar sonidan ancha ko’p bo’lgani uchun, odatda har bir yacheykaga birorta ham o’quv namunasi to’g’ri kelmaydi. Bunday yangi konfiguratsiyalar haqida qanday qilib biror mazmunli xulosa chiqarishimiz mumkin? Ko’plab an’anaviy mashinali o’rganish usullari ishlamaydilar.

5.11.2 Local Constancy and Smoothness Regularization (Lokal barqarorlik va silliqlik regulyarizatsiyasi) Yaxshi umumlashtirish (generalization) uchun mashinali o’rganish algoritmlari qanday turdagi funksiyani o’rganishi kerakligi haqidagi dastlabki ishonchlarga (prior beliefs) tayanishi lozim. Biz ushbu “prior”larni model parametrlarining ehtimollik taqsimoti ko’rinishidagi aniq ishonchlar sifatida ko’rib chiqdik. Norasmiyroq aytganda, biz dastlabki ishonchlarni funksiyaning o’ziga bevosita ta’sir etuvchi, parametrlar va funksiya o’rtasidagi bog’liqlik natijasida esa parametrlarga faqat bilvosita ta’sir ko’rsatuvchi omil sifatida ham muhokama qilishimiz mumkin. Bundan tashqari, biz dastlabki ishonchlarni ma’lum bir funksiyalar sinfini boshqasidan afzal ko’radigan algoritmlarni tanlash orqali ham (bu moyilliklar ehtimollik taqsimoti orqali ifodalanmasa-da) bildirilishi mumkinligini ko’rib chiqamiz.

Eng keng tarqalgan “yashirin” priorlardan biri — silliqlik priori (smoothness prior) yoki lokal barqarorlik priori (local constancy prior). Ushbu priorga ko’ra, biz o’rganayotgan funksiya kichik bir soha doirasida juda katta o’zgarib ketmasligi kerak.

Ko’pgina sodda algoritmlar yaxshi umumlashtirish uchun faqatgina ushbu priorga tayanadi (e.g. linear regression) va natijada ular sun’iy intellekt darajasidagi vazifalarni hal qilishdagi statistik qiyinchiliklarga bardosh bera olmaydi. Ushbu kitob davomida biz murakkab vazifalarda umumlashtirish xatoligini kamaytirish uchun chuqur o’rganish (deep learning) qanday qilib qo’shimcha aniq va yashirin priorlarni olib kirishini tasvirlaymiz. Bu yerda esa nima uchun faqatgina silliqlik priorining o’zi ushbu vazifalar uchun yetarsiz ekanligini tushuntiramiz.

Silliqlik priori O(2^k) fazo (qatlami borligi) klassic ML model uchun, or’gatish uchun 2^k ta training set kerak bo’ladi. Ammo, deep learching bilan esa, k ta training set yetarlichadir yoki ancha kam miqdorda. “Mustaqil” holatlar soni katta bo’lsa, kerakli misollar soni eksponensial (2^k yoki undan ham kattaroq) bo’lib ketadi. Masalan, bitta gapdagi so’z tartibi, sinonimlar, kontekst — bu millionlab “mintaqa” hosil qiladi. Oddiy model buni hech qachon qamrab olmaydi.

5.11.3 Qatlamli fazo (Manifold Learning) Manifold hypothesis is gipoteza qaysiki text, rasm, audiolar uchun yuqori qatlamda ham o’sha local step qilsa bo’ladi. The hypothesis that the network compress the data in the high spacea and in the high space latent space we can move to certain directions and as result affect the actual image in the real dimension. Like in King - man + woman = queen.

Oddiy misol: Rasmlar 1000×1000 piksel (1 million oʻlcham) boʻlsa ham, “realistik yuz rasmlari” faqat past oʻlchamli manifoldda joylashgan (yuzning shakli, yorugʻlik, pozitsiya, ifoda kabi bir necha oʻnlab “haqiqiy” oʻlchamlar). Text uchun: Millionlab soʻzlik lugʻat boʻlsa ham, “maʼnoli jumlalar” ancha past oʻlchamli semantik manifoldda joylashgan. Audio uchun: Xuddi shunday — tovush signallari yuqori oʻlchamli, lekin “tabiiy nutq” past oʻlchamli strukturada.

Adabiyotlar: - Gemini yordam berdi - Grok yordam berdi - Ian Goodfellow “Deep Learning” 5-Chapter