වෙළඳ ජාල කාණ්ඩයේ එදිරිව. ස්නායුක ජාලයක් පුහුණු කිරීම සඳහා පුනරාවර්තන ගණන

254

ස්නායුක ජාලයක් පුහුණු කිරීමේදී, එය සැකසීමට ඇති වෙනස කුමක්ද:

කණ්ඩායම් ප්‍රමාණය සිට පුනරාවර්තන ගණන $a$ $b$
එදිරිව කාණ්ඩයේ ප්‍රමාණය සිට පුනරාවර්තන ගණන $c$ $d$

කොහෙද ? $ab = cd$

වෙනත් ආකාරයකින් කිවහොත්, අපි ස්නායුක ජාලය එකම පුහුණු උදාහරණ සමඟ පුහුණු කරමු යැයි උපකල්පනය කරමින්, ප්‍රශස්ත කණ්ඩායම් ප්‍රමාණය සහ පුනරාවර්තන ගණන සකසන්නේ කෙසේද? (එහිදී කණ්ඩායම් ප්‍රමාණය * පුනරාවර්තන ගණන = ස්නායුක ජාලයට පෙන්වන පුහුණු උදාහරණ ගණන, එකම පුහුණු උදාහරණය කිහිප වතාවක් පෙන්විය හැක)

කණ්ඩායමේ ප්‍රමාණය වැඩි වන තරමට මතක අවකාශය අවශ්‍ය බව මම දනිමි. එය බොහෝ විට ගණනය කිරීම් වේගවත් කරයි. නමුත් පුහුණු කළ ජාලයේ ක්‍රියාකාරිත්වය අනුව, එහි ඇති වෙනස කුමක්ද?

neural-networks train

— ෆ්‍රෑන්ක් ඩර්නන්කෝට්
source

2

සිෆාර් -10 දත්ත කට්ටලයේ නිරවද්‍යතාව මත විවිධ කණ්ඩායම් ප්‍රමාණයන්හි බලපෑම සංසන්දනය කරන අතරම නිවැරදි කණ්ඩායම් ප්‍රමාණය තෝරා ගන්නේ කෙසේද යන්න විස්තර කරන මෙම බ්ලොගය බලන්න .

— තේජා ශ්‍රීනිවාස්

236

නිතිෂ් ශිරිෂ් කෙස්කර්, දීවාට්සා මුදගෙරේ, ජෝර්ජ් නොසෙඩාල්, මිහායිල් ස්මෙලියන්ස්කි, පිං තක් පීටර් ටැන්ග් වෙතින්. ගැඹුරු ඉගෙනීම සඳහා විශාල කණ්ඩායම් පුහුණුව පිළිබඳ: සාමාන්‍යකරණ පරතරය සහ තියුණු මිනිමා. https://arxiv.org/abs/1609.04836 :

බොහෝ ගැඹුරු ඉගෙනුම් කාර්යයන් සඳහා තෝරා ගැනීමේ ඇල්ගොරිතම වන්නේ ස්ථිතික ශ්‍රේණියේ බැසීමේ ක්‍රමය සහ එහි ප්‍රභේදයන් ය. මෙම ක්‍රම ක්‍රියාත්මක වන්නේ කුඩා කණ්ඩායම් තන්ත්‍රයක් තුළ වන අතර පුහුණු දත්තවලින් කොටසක්, සාමාන්‍යයෙන් 32--512 දත්ත ලක්ෂ්‍ය, සාම්පලයට ආසන්න වශයෙන් ගණනය කිරීම සඳහා නියැදි කරනු ලැබේ. ප්‍රායෝගිකව නිරීක්ෂණය කර ඇත්තේ විශාල කණ්ඩායමක් භාවිතා කිරීමේදී සාමාන්‍යකරණය කිරීමේ හැකියාව අනුව මනිනු ලබන පරිදි ආකෘතියේ ගුණාත්මක භාවයේ සැලකිය යුතු පිරිහීමක් සිදුවන බවයි.විශාල කණ්ඩායම් තන්ත්‍රයේ මෙම සාමාන්‍යකරණය පහත වැටීමට හේතුව සොයා බැලීමට යම් යම් උත්සාහයන් දරා ඇත, කෙසේ වෙතත් මෙම සංසිද්ධිය සඳහා නිශ්චිත පිළිතුර මෙතෙක් නොදන්නා කරුණකි. මෙම ලිපියෙන්, විශාල කණ්ඩායම් ක්‍රම මඟින් පුහුණුවීම් සහ පරීක්ෂණ කාර්යයන් තියුණු අවම කරුවන් වෙත අභිසාරී වන බවට වන මතයට සහය දක්වන ඕනෑ තරම් සංඛ්‍යාත්මක සාක්ෂි අපි ඉදිරිපත් කරමු. ඊට හාත්පසින්ම වෙනස්ව, කුඩා කණ්ඩායම් ක්‍රම නිරන්තරයෙන් පැතලි අවමකරන්නන් සමඟ අභිසාරී වන අතර, අපගේ පරීක්ෂණ මගින් සාමාන්‍යයෙන් ඇස්තමේන්තු කර ඇත්තේ මෙය ශ්‍රේණිගත ඇස්තමේන්තුවේ ආවේනික ශබ්දය නිසා බවය. සාමාන්‍ය කණ්ඩායම් පරතරය තුරන් කිරීමට සහ අනාගත පර්යේෂණ අදහස් සහ විවෘත ප්‍රශ්න සමූහයක් සමඟ අවසන් කිරීමට විශාල කණ්ඩායම් ක්‍රමවලට උපකාර වන ආනුභවික උපායමාර්ග කිහිපයක් ගැනද අපි සාකච්ඡා කරමු.

[…]

$\nabla^2 f(x)$ $\nabla^2 f(x)$

[…]

එසේම, ඉයන් ගුඩ්ෆෙලෝගේ හොඳ අවබෝධයක්, ශ්‍රේණිය ගණනය කිරීම සඳහා සම්පූර්ණ පුහුණු කට්ටලයම භාවිතා නොකරන්නේ මන්දැයි පිළිතුරු සපයයි. Quora මත:

ඉගෙනීමේ අනුපාතයේ ප්‍රමාණය බොහෝ දුරට සීමා වන්නේ පිරිවැය ක්‍රියාකාරිත්වය කෙතරම් වක්‍රද යන්න වැනි සාධක මගිනි. ශ්‍රේණියේ සම්භවය පිරිවැය ශ්‍රිතයට රේඛීය දළ විශ්ලේෂණයක් කිරීම, පසුව එම දළ පිරිවැය දිගේ පහළට ගමන් කිරීම ලෙස ඔබට සිතිය හැකිය. පිරිවැය ශ්‍රිතය ඉතා රේඛීය නොවන (ඉහළ වක්‍ර) නම්, ආසන්න වශයෙන් බොහෝ දුරට එතරම් හොඳ නොවනු ඇත, එබැවින් කුඩා පියවර ප්‍රමාණ පමණක් ආරක්ෂිත වේ. ගැඹුරු ඉගෙනුම් පෙළපොතේ 4 වන පරිච්ඡේදයෙන් සංඛ්‍යාත්මක ගණනය කිරීම් පිළිබඳව ඔබට වැඩිදුර කියවිය හැකිය: http://www.deeplearningbook.org/contents/numerical.html

ඔබ m උදාහරණ මිනිබැච් එකක තැබූ විට, ඔබට O (m) ගණනය කිරීමක් කළ යුතු අතර O (m) මතකය භාවිතා කළ යුතුය, නමුත් ඔබ ශ්‍රේණියේ ඇති අවිනිශ්චිතතාවයේ ප්‍රමාණය O (sqrt (m)) සාධකයකින් අඩු කරයි. වෙනත් වචන වලින් කිවහොත්, මිනිබැච් හි තවත් උදාහරණ තැබීම සඳහා ආන්තික ප්‍රතිලාභ අඩුවෙමින් පවතී. ගැඹුරු ඉගෙනුම් පෙළපොතේ 8 වන පරිච්ඡේදයේ, ගැඹුරු ඉගෙනීම සඳහා ප්‍රශස්තිකරණ ඇල්ගොරිතම පිළිබඳව ඔබට වැඩිදුර කියවිය හැකිය: http://www.deeplearningbook.org/contents/optimization.html

එසේම, ඔබ ඒ ගැන සිතන්නේ නම්, සම්පූර්ණ පුහුණු කට්ටලයම භාවිතා කිරීමෙන් පවා ඔබට නියම ශ්‍රේණිය ලබා නොදේ. සත්‍ය ශ්‍රේණිය වනුයේ අපේක්ෂිත ශ්‍රේණිය වන අතර එය හැකි සෑම උදාහරණයකටම වඩා වැඩි ප්‍රමාණයක් ලබා ගනී. සම්පූර්ණ පුහුණු කට්ටලයම භාවිතා කිරීම යනු ඉතා විශාල මිනිබැච් ප්‍රමාණයක් භාවිතා කිරීමයි, එහිදී ඔබේ මිනිබැච් ප්‍රමාණය ඔබ ගණනය කිරීම සඳහා වැය කරන මුදලට වඩා දත්ත එකතු කිරීම සඳහා වැය කරන මුදලින් සීමා වේ.

ආශ්‍රිත: කණ්ඩායම් ශ්‍රේණියේ සම්භවය හා එදිරිව ස්ථායී ශ්‍රේණියේ සම්භවය

— ෆ්‍රෑන්ක් ඩර්නන්කෝට්
source

Batch_size මඟින් පුහුණු දත්ත කාණ්ඩ වශයෙන් පමණක් බෙදී ඇති හෙයින්, සියලු කාණ්ඩ අතර ඒකාකාරී විචල්‍යතාවයක් ඇති කිරීම සඳහා දත්ත කට්ටලය (තාවකාලික නොවන) නැවත සකස් කිරීම අර්ථවත්ද? එසේ කිරීමෙන් කණ්ඩායම් ප්‍රමාණ ප්‍රශස්තිකරණයේ අවශ්‍යතාවය අඩු විය හැකි අතර එය වේගවත් අභිසාරීතාවයක් සොයා ගැනීම පමණක් හොඳය. එසේ නම් එය සිදු කරන්නේ කෙසේද? මම හිතුවේ එය පැතලි මිනිමාවක් ලබා නොදෙන බවයි. සවිස්තරාත්මක මග පෙන්වීම අගය කරනු ඇත.

— user12348

@ user12348 ඔබ දත්ත කට්ටලය නැවත සකස් කරන්නේ කෙසේද? පුහුණුවීමෙන් පසු ලබා දී ඇති දත්ත මානයන් නිශ්චිත විශේෂාංග දෛශිකයක් නිපදවනු ඇතැයි ඔබ තක්සේරු කරන්නේ කෙසේද?

— ක්ලවුඩ් චෝ

54

මම හිතන්නේ ඔබ කතා කරන්නේ කුඩා කණ්ඩායමේ ස්ටෝචැස්ටික් ග්‍රේඩියන්ට් ඩෙසෙන්ට් ඇල්ගොරිතමයේ කණ්ඩායම් ප්‍රමාණය අඩු කිරීම සහ අඩු පුනරාවර්තන අවශ්‍ය වන විශාල කණ්ඩායම් ප්‍රමාණයන් සමඟ සංසන්දනය කිරීම ගැන ය.

ඇන්ඩ rew එන්. එම්එල් සහ ස්නායුක ජාල පිළිබඳ ඔහුගේ මාර්ගගත පා course මාලා පන්තියේ මේ පිළිබඳව සහ දර්ශන කිහිපයක් පිළිබඳ හොඳ සාකච්ඡාවක් සපයයි. එබැවින් මෙම තනතුරේ ඉතිරි කොටස බොහෝ දුරට එම පන්තියේ ඔහුගේ ඉගැන්වීම්වල පුනර්ජීවනයකි.

අපි අන්ත දෙක ගනිමු, එක් පැත්තකින් එක් එක් ශ්‍රේණියේ බැසීමේ පියවර සමස්ත දත්ත කට්ටලයම භාවිතා කරයි. ඔබ සෑම නියැදියක් සඳහාම ශ්‍රේණි ගණනය කරයි. මෙම අවස්ථාවේ දී ඔබ දන්නා හරියටම සෘජුවම දේශීය අවම දෙසට හොඳම. ඔබ වැරදි දිශාවකට යාමට කාලය නාස්ති නොකරන්න. එබැවින් සංඛ්‍යා ශ්‍රේණියේ බැසීමේ පියවර අනුව, ඔබ අවම වශයෙන් එහි පැමිණෙනු ඇත.

ඇත්ත වශයෙන්ම සමස්ත දත්ත කට්ටලය පුරා ශ්‍රේණිය ගණනය කිරීම මිල අධිකය. ඉතින් දැන් අපි අනෙක් අන්තයට යමු. කාණ්ඩ විශාලත්වය සාම්පල 1 ක් පමණි. මෙම අවස්ථාවේ දී එම නියැදියේ ප්‍රමිතිය ඔබව සම්පූර්ණයෙන්ම වැරදි දිශාවට ගෙන යා හැකිය. නමුත් හේයි, එක් ශ්‍රේණියක් ගණනය කිරීමේ පිරිවැය ඉතා සුළුය. එක් නියැදියක් සම්බන්ධයෙන් ඔබ පියවර ගන්නා විට, ඔබ ටිකක් එහා මෙහා "ඉබාගාතේ" යයි, නමුත් සාමාන්‍යයෙන් ඔබ සම්පූර්ණ කණ්ඩායම් ශ්‍රේණියේ සම්භවයක් ඇති ආකාරයටම සාධාරණ දේශීය අවම මට්ටමකට ගමන් කරයි.

මෙය සාම්පල 1 ක ස්ථායී ශ්‍රේණියේ සම්භවයක් වටා පැනීම ඔබට සම්පූර්ණ කණ්ඩායම් මාදිලිය මග හැරිය නොහැකි දේශීය මිනිමයකින් පිටතට පැනීමට උපකාරී වනු ඇතැයි යෝජනා කරන සමහර සාහිත්‍යයන් මා දැක ඇති බව පෙන්වා දීමට මෙය මොහොතක් විය හැකිය, නමුත් එය විවාදාත්මක ය. මෙහි ඇති වෙනත් හොඳ පිළිතුරු මට වඩා සෘජුවම මෙම ප්‍රශ්නයට ආමන්ත්‍රණය කරයි.

පරිගණකමය බලය සම්බන්ධයෙන් ගත් කල, තනි නියැදි ස්ථිතික ජීඩී ක්‍රියාවලියට තවත් බොහෝ පුනරාවර්තන අවශ්‍ය වන අතර, ඔබ "සාමාන්‍යයෙන්" සම්පූර්ණ කණ්ඩායම් මාදිලියට වඩා අඩු වියදමකින් එහි පැමිණේ. ඇන්ඩ rew එන්ග් එය තබන්නේ එලෙසයි.

දැන් අපි ඔබෙන් ඇසූ මැද භූමිය සොයා ගනිමු. නවීන BLAS පුස්තකාල පරිගණක දෛශික ගණිතය තරමක් කාර්යක්ෂම කරන බව අපට වැටහෙනු ඇත, එබැවින් සාම්පල 10 ක් හෝ 100 ක් එකවර ගණනය කිරීම, ඔබ ඔබේ කේතය නිසියාකාරව දෛශිකකරණය කර ඇතැයි උපකල්පනය කිරීම, නියැදි 1 ගණනය කිරීමට වඩා වැඩි වැඩ කොටසක් වනු ඇත (ඔබ මතක ඇමතුම් කාර්යක්ෂමතාව මෙන්ම වඩාත්ම කාර්යක්ෂම ගණිත පුස්තකාල තුළට ගොඩනගා ඇති පරිගණක උපක්‍රම). සාම්පල 10, 100, 1000 ක සාමාන්‍යයකට වඩා වැඩි ප්‍රමාණයක් සත්‍ය, පූර්ණ කණ්ඩායම් මාදිලියේ ශ්‍රේණියේ වඩාත් සාධාරණ දළ විශ්ලේෂණයක් වන ශ්‍රේණියක් නිපදවීමට යන්නේ ය. එබැවින් අපගේ පියවර දැන් වඩාත් නිවැරදියි, එයින් අදහස් වන්නේ අපට අභිසාරී වීමට ඒවායින් අඩුවෙන් අවශ්‍ය වන අතර පිරිවැයකින් තනි නියැදි ජීඩී වලට වඩා සුළු වශයෙන් ඉහළ අගයක් ගනී.

ඔබ භාවිතා කළ යුතු කුඩා කණ්ඩායමේ ප්‍රමාණය ප්‍රශස්ත කිරීම සාමාන්‍යයෙන් අත්හදා බැලීමට හා දෝෂයට ඉතිරි වේ. දත්ත කට්ටලයේ නියැදියක සමහර පරීක්ෂණ දස දහස් ගණනක සිට දහස් ගණනක් දක්වා සංඛ්‍යා සමඟ ධාවනය කර වේගවත්ම අභිසාරීතාවයන් බලන්න, ඉන්පසු ඒ සමඟ යන්න. එම පරාසයන්හි කණ්ඩායම් ප්‍රමාණය සාහිත්‍යය පුරා සුලභ බව පෙනේ. ඔබේ දත්ත සැබවින්ම IID නම්, අහඹු ක්‍රියාවලීන්හි විචලනය පිළිබඳ කේන්ද්‍රීය සීමාවේ ප්‍රමේයයෙන් ද යෝජනා කරනුයේ එම පරාසයන් පූර්ණ ශ්‍රේණියේ සාධාරණ තක්සේරුවක් බවයි.

පුනරාවර්තනය නැවැත්විය යුත්තේ කවදාදැයි හරියටම තීරණය කිරීම සාමාන්‍යයෙන් සිදු කරනු ලබන්නේ නුපුහුණු වලංගුකරණ කට්ටලයකට එරෙහිව ඔබේ සාමාන්‍යකරණ දෝෂය නිරීක්ෂණය කිරීම සහ වලංගු කිරීමේ දෝෂය එහි අවම ස්ථානයේ ඇති ස්ථානය තෝරා ගැනීමෙනි. ඕනෑවට වඩා පුනරාවර්තන සඳහා පුහුණුව අවසානයේදී අධික ලෙස ගැලපීමට තුඩු දෙනු ඇත, එම අවස්ථාවේදී ඔබගේ වලංගු කිරීමේ කට්ටලයේ ඔබගේ දෝෂය ඉහළ යාමට පටන් ගනී. මෙය නැවත සිදුවන බව ඔබ දකින විට ප්‍රශස්ත ස්ථානයේ නතර වන්න.

— ඩේවිඩ් පාක්ස්
source

27

ටීඑල්; ඩීආර්: කුඩා කණ්ඩායම් ප්‍රමාණයක් විශාල වශයෙන් සාමාන්‍යයෙන් අඩු නිරවද්‍යතාවයකට මඟ පාදයි !

උනන්දුවක් දක්වන අය සඳහා, මෙන්න පැහැදිලි කිරීමක්.

වේගය පිළිබඳ සංකල්ප දෙකක් තිබේ:

පරිගණක වේගය
ඇල්ගොරිතමයක අභිසාරී වේගය

පරිගණක වේගය යනු දෘඩාංගවල සංඛ්‍යාත්මක ගණනය කිරීම් සිදු කිරීමේ වේගයයි. ඔබ කී පරිදි, එය සාමාන්‍යයෙන් විශාල කුඩා කණ්ඩායම් ප්‍රමාණයක් සමඟ ඉහළ ය. එයට හේතුව රේඛීය වීජ ගණිත පුස්තකාල දෛශික හා අනුකෘති මෙහෙයුම් සඳහා දෛශිකකරණය වේගවත් කිරීම සඳහා වැඩි මතකයක් භාවිතා කිරීමේ වියදමින් භාවිතා කිරීමයි. යම් ස්ථානයක් දක්වා වාසි සැලකිය යුතු ය. මගේ අත්දැකීම් අනුව, වේගයෙහි ආන්තික වාසි පමණක් තිබේ නම්, යම් කරුණක් තිබේ. ලක්ෂ්‍යය දත්ත කට්ටලය, දෘඩාංග සහ සංඛ්‍යාත්මක ගණනය කිරීම් සඳහා භාවිතා කරන පුස්තකාලයක් මත රඳා පවතී (හුඩ් යටතේ).

නමුත්, අපගේ ඇල්ගොරිතම කෙතරම් ඉක්මණින් අභිසාරී වේ දැයි පවසන වේගය පිළිබඳ වෙනත් සංකල්පයක් ද ඇති බව අපි අමතක නොකරමු.

පළමුව, අපගේ ඇල්ගොරිතම අභිසාරී වීම යන්නෙන් අදහස් කරන්නේ කුමක්ද? වලංගුකරණ කට්ටලය මත ගණනය කරනු ලබන නිරවද්‍යතාවයක් හෝ දෝෂයක් පිළිබඳව අප සෑහීමකට පත්වන විට නිර්වචනය කර තීරණය කිරීම අප සතු ය. අපට එය කල්තියා නිර්වචනය කර ඇල්ගොරිතම එම ස්ථානයට පැමිණෙන තෙක් බලා සිටිය හැකිය, නැතහොත් පුහුණු ක්‍රියාවලිය අධීක්ෂණය කර වලංගු කිරීමේ දෝෂය සැලකිය යුතු ලෙස ඉහළ යාමට පටන් ගත් විට එය නැවැත්වීමට තීරණය කළ හැකිය (ආකෘතිය දත්ත කට්ටලය ඉක්මවා යාමට පටන් ගනී). අපි සැබවින්ම එය වහාම නැවැත්විය යුතු නැත, පළමු මොහොතේ දෝෂය ඉහළ යාමට පටන් ගනී, අපි කුඩා කණ්ඩායම් සමඟ වැඩ කරන්නේ නම්, අප භාවිතා කරන්නේ ස්ටෝචැස්ටික් ග්‍රේඩියන්ට් ඩෙසන්ට්, එස්ජීඩී ය. (සම්පූර්ණ කණ්ඩායම) ග්‍රේඩියන්ට් සම්භවය නම්, එක් එක් යුගයෙන් පසුව, ඇල්ගොරිතම අවම වශයෙන් දේශීය හෝ ගෝලීය වේවා සමථයකට පත් වේ. SGD කිසි විටෙකත් අවම වශයෙන් සමථයකට පත් නොවේ. එය වටා දෝලනය වෙමින් පවතී. එය දින නියමයක් නොමැතිව ඉදිරියට යා හැකිය,

දැන්, එම න්‍යායෙන් පසුව, අප අවධානය යොමු කළ යුතු "අල්ලා ගැනීමක්" තිබේ. කුඩා කණ්ඩායම් ප්‍රමාණයක් භාවිතා කරන විට, දෝෂය ගණනය කිරීමේදී අප විශාල කණ්ඩායම් ප්‍රමාණයක් භාවිතා කරන විට වඩා වැඩි ශබ්දයක් ඇත. යමෙක් කියයි, හොඳයි, එය නරකයි, එහෙම නේද? කාරණය නම්, එම ශබ්දය මඟින් ඇල්ගොරිතම නරක දේශීය අවම මට්ටමෙන් ඉවතට පැන වඩා හොඳ දේශීය අවමයක් හෝ ගෝලීය අවමයක් සොයා ගැනීමට වැඩි අවස්ථාවක් ලබා ගත හැකිය.

මේ අනුව, “අනවශ්‍ය” ශබ්දයේ ආධාරයෙන්, විශාල එකක් වෙනුවට කුඩා කණ්ඩායම් ප්‍රමාණයක් භාවිතා කිරීමෙන් අපට වඩා හොඳ විසඳුමක් සොයා ගත හැකි නම්, අපගේ ඇල්ගොරිතම සතුටුදායක බව සොයා ගැනීමට ගතවන මුළු කාලය අතර සුසර කළ හැකිය. විසඳුම සහ ඉහළ නිරවද්‍යතාව.

මට කියන්නට අවශ්‍ය වන්නේ, ලබා දී ඇති නිරවද්‍යතාවයකට (හෝ දෝෂයකට), කුඩා කණ්ඩායම් ප්‍රමාණය බොහෝ දෙනා විශ්වාස කරන පරිදි කෙටි කාලයක් තුළ සම්පූර්ණ පුහුණු කාලය සඳහා වැඩි කාලයක් ගත නොවනු ඇත.

නැතහොත්, පෙර මෙන් එකම පුහුණු කාලය තබා ගැනීමට අපි තීරණය කළහොත්, අපට කුඩා කණ්ඩායම් ප්‍රමාණයක් සමඟ තරමක් ඉහළ නිරවද්‍යතාවයක් ලබා ගත හැකි අතර, බොහෝ විට අපි අපේ ඉගෙනුම් අනුපාතය නිසි ලෙස තෝරාගෙන තිබේ නම්,

ඔබට කාලය තිබේ නම්, මෙම පත්‍රය බලන්න: ඉමේජ් නෙට් හි සීඑන්එන් අත්තිකාරම් ක්‍රමානුකූලව ඇගයීම, විශේෂයෙන් "3.7. කණ්ඩායම් ප්‍රමාණය සහ ඉගෙනුම් අනුපාතය" සහ රූපය 8 බලන්න. විශාල කුඩා කණ්ඩායම් ප්‍රමාණ වඩාත් නරක නිරවද්‍යතාවයකට මඟ පෙන්වන බව ඔබට පෙනෙනු ඇත. , ඉගෙනීමේ වේගය සුවදායී තත්වයකට සුසර කළත්.

පොදුවේ ගත් කල, කණ්ඩායම් ප්‍රමාණය 32 හොඳ ආරම්භයක් වන අතර, ඔබ 64, 128 සහ 256 සමඟද උත්සාහ කළ යුතුය. වෙනත් දත්ත කට්ටල සඳහා වෙනත් අගයන් (අඩු හෝ වැඩි) හොඳ විය හැකි නමුත් ලබා දී ඇති පරාසය සාමාන්‍යයෙන් හොඳම වේ අත්හදා බැලීම ආරම්භ කරන්න. 32 ට අඩු වුවද, ගණනය කිරීමේ වේගය සැලකිය යුතු ලෙස අඩු වීම නිසා දෛශිකකරණය පූර්ණ ලෙස සූරාකෑම නිසා එය මන්දගාමී විය හැකිය. ඔබට "මතකයෙන් පිටත" දෝෂයක් ලැබුනේ නම්, ඔබ කෙසේ හෝ කුඩා කණ්ඩායමේ ප්‍රමාණය අඩු කිරීමට උත්සාහ කළ යුතුය.

ඉතින්, එය හුදෙක් මතකයට ගැලපෙන විශාලතම කුඩා කණ්ඩායම් ප්‍රමාණය භාවිතා කිරීම ගැන නොවේ.

ඔබේ ප්‍රශ්නයට නිගමනය කිරීමට සහ පිළිතුරු දීමට, කුඩා කුඩා කණ්ඩායම් ප්‍රමාණයක් (ඉතා කුඩා නොවේ) සාමාන්‍යයෙන් විශාල කණ්ඩායම් ප්‍රමාණයකට වඩා පුහුණු ඇල්ගොරිතමයක කුඩා පුනරාවර්තන ගණනකට පමණක් නොව සමස්තයක් වශයෙන් ඉහළ නිරවද්‍යතාවයකට ද මග පාදයි. වඩා හොඳ, එකම පුහුණු කාලය හෝ ඊට අඩු කාලයක් තුළ ක්‍රියා කරන ස්නායුක ජාලයක්.

ඉහළ ශබ්දය එය තුළ සිරවී සිටීමට වඩා නරක දේශීය අවම මට්ටමෙන් පැනීමට උපකාරී වන බව අමතක නොකරන්න.

— ivanbgd
source

23

ගූගල් වෙතින් නව (2018) අයිසීඑල්ආර් සම්මන්ත්‍රණ පත්‍රිකාවක් යොමු කිරීම සඳහා මම මෙම ප්‍රශ්නයට තවත් පිළිතුරක් එක් කරමි.

මාතෘකාව: ඉගෙනීමේ වේගය ක්ෂය නොකරන්න, කණ්ඩායම් ප්‍රමාණය වැඩි කරන්න

https://arxiv.org/abs/1711.00489

ඉහත කඩදාසි වල සාරාංශය මෙහි පිටපත් කර ඇත:

ඉගෙනීමේ වේගය දිරාපත් වීම සාමාන්‍ය සිරිතකි. මෙහිදී අපි පෙන්වන්නේ කෙනෙකුට සාමාන්‍යයෙන් පුහුණු හා පරීක්ෂණ කට්ටල දෙකෙහිම එකම ඉගෙනුම් වක්‍රය ලබා ගත හැකි බවයි. මෙම ක්‍රියා පටිපාටිය ස්ථිතික ශ්‍රේණියේ සම්භවය (SGD), ගම්‍යතාව සහිත SGD, නෙස්ටරොව් ගම්‍යතාව සහ ඇඩම් සඳහා සාර්ථක වේ. එකම පුහුණු යුග ගණනාවකට පසුව එය සමාන පරීක්ෂණ නිරවද්‍යතාවන් කරා ළඟා වේ, නමුත් අඩු පරාමිති යාවත්කාලීන කිරීම් සමඟ, වැඩි සමාන්තරකරණයකට හා කෙටි පුහුණු කාලයකට මග පාදයි. ඉගෙනීමේ වේගය වැඩි කිරීමෙන් සහ කණ්ඩායම් ප්‍රමාණය B∝ϵ පරිමාණය කිරීමෙන් අපට පරාමිති යාවත්කාලීන කිරීම් තවදුරටත් අඩු කළ හැකිය. අවසාන වශයෙන්, කෙනෙකුට ගම්‍යතා සංගුණකය m සහ පරිමාණය B∝1 / (1 - m) වැඩි කළ හැකි නමුත් මෙය පරීක්ෂණ නිරවද්‍යතාව තරමක් අඩු කරයි. තීරණාත්මක ලෙස, අධි-පරාමිති සුසර කිරීමකින් තොරව විශාල කණ්ඩායම් පුහුණුව සඳහා පවත්නා පුහුණු කාලසටහන් නැවත සකස් කිරීමට අපගේ ශිල්පීය ක්‍රම අපට ඉඩ දෙයි. අපි ImageNet හි ResNet-50 මිනිත්තු 30 ට අඩු කාලයකදී 76.1% වලංගු කිරීමේ නිරවද්‍යතාවයකට පුහුණු කරමු.

— ඩේවිඩ් පාක්ස්
source

2

විශාල මතක අවශ්‍යතාවයක් අගය අඩු කිරීම වළක්වා ගැනීම සඳහා නරක වෙළඳාමක් ලෙස පෙනේ. පුහුණුව අතරතුර මතක පාද සටහන වර්ධනය වන IMHO අඩු, වැඩි නොව, පරිමාණය කළ හැකි ඇල්ගොරිතමයක් ඇති කරයි.

— P-Gn

1

විශාල කණ්ඩායම් ප්‍රමාණ සඳහා වැඩි මතකයක් අවශ්‍ය නොවේ. එක් පොදු ක්‍රමයක් නම් සාමාන්‍ය ප්‍රමාණයේ කණ්ඩායම් කිහිපයකට වඩා ශ්‍රේණි එක්රැස් කිරීම සහ පසුව ශ්‍රේණියේ සාමාන්‍ය / එකතුව භාවිතා කරමින් එක් බරක් යාවත්කාලීන කිරීම සිදු කිරීමයි. මෙහි ප්‍රති results ලය වනුයේ විශාල කණ්ඩායම් ප්‍රමාණයක් පාහේ භාවිතා කිරීමයි. උදාහරණය: stackoverflow.com/questions/46772685/…

— jlh

3

මම මෙහි ආනුභවික අත්දැකීම් කිහිපයක් පෙන්වමි . මම කණ්ඩායම් ප්‍රමාණය 4 සහ කණ්ඩායම් ප්‍රමාණය 4096 සමඟ අත්හදා බැලීමක් කළෙමි. 4096 ප්‍රමාණයෙන් 1024x අඩු පසුගාමී ක්‍රියා සිදු කරයි. ඉතින් මගේ අභිප්‍රාය වන්නේ විශාල කණ්ඩායම් ප්‍රශස්ත විසඳුම සඳහා අඩු හා රළු සෙවුම් පියවරයන් කරන අතර ඉදිකිරීම් මගින් ප්‍රශස්ත විසඳුම සමඟ අභිසාරී වීමට ඇති ඉඩකඩ අඩු වීමයි.

— ලාර්ස් එරික්සන්
source