ගැඹුරු ස්නායුක ජාලයන්හි සිග්මොයිඩ් ක්‍රියාකාරිත්වයට වඩා ReLU හි ඇති වාසි මොනවාද?


155

රේඛීය නොවන කලාවේ තත්වය නම් ගැඹුරු ස්නායුක ජාලයේ සිග්මොයිඩ් ක්‍රියාකාරිත්වය වෙනුවට නිවැරදි කරන ලද රේඛීය ඒකක (ReLU) භාවිතා කිරීමයි. වාසි මොනවාද?

ReLU භාවිතා කරන විට ජාලයක් පුහුණු කිරීම වේගවත් වන බව මම දනිමි. එය වඩාත් ජීව විද්‍යාත්මක ආනුභාවයෙන් යුක්ත වන අතර අනෙක් වාසි මොනවාද? (එනම්, සිග්මොයිඩ් භාවිතා කිරීමේ අවාසි)?


විරල එදිරිව performance න කාර්ය සාධන විවාදය සම්පූර්ණ කිරීම සඳහා අමතර පිළිතුරක් . එන්එන් ගැන තවදුරටත් සිතන්න එපා, රේඛීය වීජ ගණිතය සහ අනුකෘති මෙහෙයුම් ගැන පමණක් සිතන්න, මන්ද ඉදිරි හා පසුගාමී ප්‍රචාරණයන් අනුකෘති මෙහෙයුම් මාලාවක් වන බැවිනි. දැන් මතක තබා ගන්න විරල අනුකෘතියට අයදුම් කිරීමට ප්‍රශස්තිකරණය කළ ක්‍රියාකරුවන් විශාල ප්‍රමාණයක් සිටින අතර අපගේ ජාලය තුළ එම මෙහෙයුම් ප්‍රශස්ත කිරීම මඟින් ඇල්ගොරිතමයේ ක්‍රියාකාරිත්වය නාටකාකාර ලෙස වැඩි දියුණු කළ හැකිය. මම හිතනවා ඒක ඔයාලට උදව් කරයි කියලා ...
මයිකල් බී

Answers:


144

a = W x + bh=max(0,a)a=Wx+b

එක් ප්‍රධාන වාසියක් වන්නේ ශ්‍රේණිය අතුරුදහන් වීමේ සම්භාවිතාව අඩු වීමයි. විට මෙය පැන නගී . මෙම පාලන තන්ත්‍රය තුළ ශ්‍රේණියට නියත අගයක් ඇත. ඊට වෙනස්ව, x හි නිරපේක්ෂ වටිනාකම වැඩි වන විට සිග්මොයිඩ් වල ශ්‍රේණිය වඩ වඩාත් කුඩා වේ. ReLUs හි නිරන්තර ශ්‍රේණිය වේගවත් ඉගෙනීමට හේතු වේ.a>0

ReLUs හි අනෙක් වාසිය වන්නේ විරලතාවයයි. විට පරතරය ඇතිවේ . ස්තරයක පවතින එවැනි ඒකක වැඩි වන තරමට එහි ප්‍රති represent ලය නිරූපණය වේ. අනෙක් අතට සිග්මොයිඩ් සෑම විටම ශුන්‍ය නොවන අගයක් ජනනය කිරීමට ඉඩ ඇත. විරල නිරූපණයන් represent න නිරූපණයන්ට වඩා ප්‍රයෝජනවත් බව පෙනේ.a0


2
ඔබ ශ්‍රේණිය කියන විට, ඔබ අදහස් කරන්නේ පඩි හෝ ආදාන x සම්බන්ධයෙන්ද? A ඩේමන්මේකර්
මාස්

5
පඩි සම්බන්ධයෙන්. ශ්‍රේණිය මත පදනම් වූ ඉගෙනුම් ඇල්ගොරිතම සෑම විටම ඉගෙනුම්කරුගේ පරාමිතීන්ට සාපේක්ෂව ශ්‍රේණිය රැගෙන යයි, එනම් එන්එන් හි බර සහ නැඹුරුව.
ඩීමන්මේකර්

2
"Ense න" සහ "විරල" "නිරූපණයන්" යන්නෙන් ඔබ අදහස් කරන්නේ කුමක්ද? ගූගල් "විරල නිරූපණ ස්නායුක ජාල" වෙත විමසීම අදාළ කිසිවක් සමඟ එන බවක් නොපෙනේ.
හායි-ඒන්ජල්

8
"විරල නිරූපණයන් නිරූපණයට වඩා ප්‍රයෝජනවත් බව පෙනේ." ඔබට ප්‍රභවයක් හෝ පැහැදිලි කිරීමක් ලබා දිය හැකිද?
රොහාන් සක්සේනා

3
මෙම පිළිතුර කිසිසේත්ම නිවැරදි වන්නේ කෙසේදැයි මට තේරෙන්නේ නැත. “ශ්‍රේණිය අතුරුදහන් වීමේ සම්භාවිතාව අඩු වීම” අපේක්‍ෂා කළ යුතු යමක් ඉතිරි කරයි. ReLu යනු ප්‍රමාණවත් තරම් කුඩා සඳහා ZERO වේ . ඉගෙනීමේදී, ඔබ මෙම පාලන තන්ත්‍රයේ සිටින විට සමහර නියුරෝන සඳහා ශ්‍රේණි අතුරුදහන් වනු ඇත. ඇත්ත වශයෙන්ම, එය පැහැදිලිවම වැළැක්විය නොහැක, මන්ද එසේ නොවුවහොත් ඔබේ ජාලය රේඛීය වනු ඇත. කණ්ඩායම් සාමාන්‍යකරණය මෙය බොහෝ දුරට විසඳයි. මෙය වැදගත්ම හේතුව පවා සඳහන් නොකරයි: රෙලූ සහ ඒවායේ ශ්‍රේණි. සිග්මොයිඩ් සමඟ සසඳන විට ගණනය කිරීම අතිශයින් වේගවත් ය. x
ඇලෙක්ස් ආර්.

69

වාසිය:

  • සිග්මොයිඩ්: සක්‍රීය කිරීම පුපුරවා නොගැනීම
  • රේලු: ශ්‍රේණිය අතුරුදහන් නොවේ
  • රෙලූ: සිග්මොයිඩ් වලට වඩා ගණනය කිරීමට වඩා කාර්යක්ෂම වන්නේ රෙලූට උපරිම (0, ) තෝරා ගත යුතු අතර සිග්මොයිඩ් වල මෙන් මිල අධික on ාතීය මෙහෙයුම් සිදු නොකිරීමයි.x
  • Relu: ප්‍රායෝගිකව, Relu සමඟ ඇති ජාලයන් සිග්මොයිඩ් වලට වඩා හොඳ අභිසාරී කාර්ය සාධනයක් පෙන්වයි. ( ක්‍රිෂෙව්ස්කි සහ වෙනත් අය )

අවාසිය:

  • සිග්මොයිඩ්: ශ්‍රේණිය අතුරුදහන් වීමට නැඹුරු වේ (හේතුව “ශ්‍රේණිය ” වැඩි ලෙස අඩු කිරීමේ යාන්ත්‍රණයක් ඇති අතර , එහිදී “ ” යනු සිග්මොයිඩ් ශ්‍රිතයක ආදානයයි. සිග්මොයිඩ් ශ්‍රේණිය: . " " අනන්ත විශාල වන විට, ).a S ( a ) = S ( a ) ( 1 - S ( a ) ) a S ( a ) = S ( a ) ( 1 - S ( a ) ) = 1 × ( 1 - 1 ) = 0aaS(a)=S(a)(1S(a))aS(a)=S(a)(1S(a))=1×(11)=0

  • රෙලූ: සක්‍රීය කිරීම වේගවත් කිරීමට නැඹුරු වේ (නියුරෝන වල ප්‍රතිදානය සීමා කිරීමට යාන්ත්‍රණයක් නොමැත, මන්ද “ ” යනු ප්‍රතිදානයයි)a

  • රෙලූ: මියයන රේලු ගැටළුව - බොහෝ ක්‍රියාකාරීත්වයන් බිංදුවට වඩා අඩු වුවහොත්, රේලූ සමඟ ජාලයේ ඇති බොහෝ ඒකක (නියුරෝන) හුදෙක් ශුන්‍යය ප්‍රතිදානය කරනු ඇත, වෙනත් වචන වලින් කිවහොත්, මිය යන අතර එමඟින් ඉගෙනීම තහනම් කරයි. (මෙය යම් දුරකට හැසිරවිය හැකිය. ඒ වෙනුවට කාන්දු-රේලු භාවිතා කිරීමෙන්.)

2
රේලු: ශ්‍රේණිය අතුරුදහන් නොවේ. හහ්? සඳහා . x < - b / aRelu(ax+b)=0x<b/a
ඇලෙක්ස් ආර්.

48

අනෙක් පිළිතුරු වලට අනුපූරකව:

අතුරුදහන් වන ශ්‍රේණි

අනෙක් පිළිතුරු විශාල ආදානය (නිරපේක්ෂ වටිනාකමෙන්) සිග්මොයිඩ් ශ්‍රිතයේ ශ්‍රේණිය කුඩා බව පෙන්වා දීමට හරි ය. එහෙත්, බොහෝ විට ඊටත් වඩා වැදගත් බලපෑමක් වන්නේ සිග්මොයිඩ් ශ්‍රිතයේ ව්‍යුත්පන්නය සෑම විටම එකකට වඩා කුඩා වීමයි. ඇත්ත වශයෙන්ම එය 0.25 ක් පමණ වේ!

මෙහි පහළ පැත්ත නම්, ඔබට බොහෝ ස්ථර තිබේ නම්, ඔබ මෙම ශ්‍රේණි ගුණ කරනු ඇති අතර, අගයන් 1 ට වඩා කුඩා බොහෝ නිෂ්පාදන ඉතා ඉක්මණින් ශුන්‍යයට යයි.

ගැඹුරු ඉගෙනීමේ කලාවේ තත්වය වැඩි ස්ථර බොහෝ සෙයින් උපකාරී වන බව පෙන්වා දී ඇති හෙයින්, සිග්මොයිඩ් ක්‍රියාකාරිත්වයේ මෙම අවාසිය ක්‍රීඩා ler ාතකයෙකි. ඔබට සිග්මොයිඩ් සමඟ ගැඹුරු ඉගෙනීමක් කළ නොහැක.

අනෙක් අතට ReLu උළෙල ඵලය අනුක්රමික එක්කෝ සඳහා හෝ සඳහා . එයින් අදහස් කරන්නේ ඔබට කැමති තරම් ස්ථර තැබිය හැකි බවයි, මන්දයත්, ශ්‍රේණි ගුණ කිරීම අතුරුදහන් හෝ පුපුරා නොයන බැවිනි.< 0 1 > 00a<01a>0


12
මම සොයන පිළිතුර මෙයයි. මිනිසුන් "අතුරුදහන් වන ප්‍රමිතීන්" ගැන කතා කරන විට කෙනෙකුට පුදුම වීම නතර කළ නොහැක "රේලූගේ ශ්‍රේණිය එහි පරාසයෙන් අඩකට හරියටම 0 යි. එය 'අතුරුදහන් වීම' නොවේද? බොහෝ ස්ථර වලට වඩා ශ්‍රේණීන් ගුණ කර ඇති බව අපට මතක් කර දීමෙන් ඔබ ගැටලුව විස්තර කරන ආකාරය බොහෝ පැහැදිලි බවක් ගෙන එයි.
බොරිස් ගෝරලික්

4
මෙය ප්‍රධාන හේතුව නම්, අපට සිග්මොයිඩ් 1 / (1 + exp (-4x)) වෙත නැවත ලබා ගත නොහැකිද? එවිට ව්‍යුත්පන්නය උපරිම 1 වේ (නැතහොත් ඊටත් වඩා නැවත සකස් කරන්න, අපට 1 ට ඉහළින් සහ පහළින් විකල්ප ලබා දීමට). නැවත සැකසීමෙන් ව්‍යුත්පන්නය 0 සිට වෙන්කර හඳුනාගත හැකි ප්‍රදේශය අඩු වන හෙයින් මෙය වඩාත් නරක අතට හැරෙනු ඇතැයි මම සැක කරමි. නමුත් මෙම පිළිතුර සම්පූර්ණ කතාවම පවසන බව මට විශ්වාස නැත.
පීටර්

එය ඉතා හොඳ කරුණකි. අනෙක් පිළිතුරු වලින් මඟ හැරී ඇති කරුණ නම්, අතුරුදහන් වීමට බොහෝ දුරට ඉඩ ඇති ස්ථර අතර සංයෝග කිරීමේ බලපෑමයි.
ගිල්හර්ම් ද ලාසරී

5
මෙම පිළිතුර විකාරයකි. නිරන්තර පරාමිතිය 1 සමග sigmoid සන්තතික 1. වඩා අඩු වේ එහෙත් වඩා පොදුවේ ඒක යනු අත්තනෝමතික විශාල ව්යුත්පන්න (හුදෙක් ගත හැකි, , ඇත්තටම විශාල වීමට sigmoid එසේ වේගයෙන් 0 සිට 1 දක්වා යයි). a1/(1+exp(ax))a
ඇලෙක්ස් ආර්.

9
ඔබට සිග්මොයිඩ් සමඟ ගැඹුරු ඉගෙනීමක් කළ හැකිය, ඔබට යෙදවුම් සාමාන්‍යකරණය කළ යුතුය, උදාහරණයක් ලෙස Batch Normalization හරහා. මෙය සිග්මොයිඩ් සංතෘප්ත වීම වළක්වා ගැනීම සඳහා ඔබේ යෙදවුම් කේන්ද්‍රගත කරයි. Batch Normalization පිළිබඳ මුල් පත්‍රිකාවේ, සිග්මොයිඩ් සක්‍රීය කිරීමේ ස්නායුක ජාලය ReLus හා සමානය. Arxiv.org/pdf/1502.03167.pdf
ඇලෙක්ස් ආර්.

9

අතුරුදහන් වන ශ්‍රේණියේ ගැටළුව මඟහරවා ගැනීම හැරුණු විට ReLU ට ඇති වාසියක් වන්නේ එයට අඩු ධාවන කාලයක් තිබීමයි. උපරිම (0, අ) ඕනෑම සිග්මොයිඩ් ශ්‍රිතයකට වඩා වේගයෙන් ධාවනය වේ (නිදසුනක් ලෙස ලොජිස්ටික් ශ්‍රිතය = 1 / (1 + ඊ ^ (- අ)) on ාතයක් භාවිතා කරන අතර එය බොහෝ විට සිදු කරන විට පරිගණක මන්දගාමී වේ). සිග්මොයිඩ් හා සසඳන විට ReLU හි ශ්‍රේණිය (<0, = 0 වෙනත් = 1 නම්) ගණනය කිරීම ඉතා පහසු බැවින් ආහාර ඉදිරියට හා පසු ප්‍රචාරණය සඳහා මෙය සත්‍ය වේ (ලොජිස්ටික් වක්‍රය සඳහා = e ^ a / ((1 + e ^ a) ^ 2)).

ReLU සතුව ජාලයේ ධාරිතාව සීමා කරන මියයන සෛලවල අවාසිය ඇතත්. මෙය මඟහරවා ගැනීම සඳහා ඉහත විස්තර කර ඇති ගැටළුව ඔබ දුටුවහොත් කාන්දු වන ReLU, ELU වැනි ReLU හි ප්‍රභේදයක් භාවිතා කරන්න.


1
+1. මෙහි ඇති එකම නිවැරදි පිළිතුර මෙයයි. මියගිය නියුරෝන වලට ප්‍රතිරෝධය දැක්වීම සඳහා යෙදවුම් මධ්‍යගත කිරීම සඳහා ඔබට කණ්ඩායම් සාමාන්‍යකරණය භාවිතා කළ හැකිය.
ඇලෙක්ස් ආර්.

1
Lex ඇලෙක්ස්ආර්. මෙම ලිපිය පුරාවටම ඔබේ අදහස් දැක්වුවහොත්, ඔබ ඔබේම පිළිතුරක් තැබුවහොත් එය ප්‍රයෝජනවත් වනු ඇත.
baxx

3

ප්‍රධාන වාසිය නම් ReLu හි ව්‍යුත්පන්නය 0 හෝ 1 වීමයි, එබැවින් එය ගුණ කිරීමෙන් පාඩු ක්‍රියාකාරිත්වයේ අවසාන ප්‍රති result ලයෙන් තවත් away ත්වී ඇති බර අතුරුදහන් වන ශ්‍රේණියේ ගැටලුවෙන් පීඩා විඳින්නේ නැත:

රූප විස්තරය මෙහි ඇතුළත් කරන්න


2

ReLu භාවිතා කිරීමට ප්‍රධාන හේතුව එය සරල, වේගවත් හා ආනුභවිකව එය හොඳින් ක්‍රියාත්මක වන බැවිනි.

සිග්මොයිඩ් සක්‍රීය කිරීම සමඟ ගැඹුරු ජාලයක් පුහුණු කිරීමට වඩා රීලූ සමඟ ගැඹුරු ජාලයක් පුහුණු කිරීම ඉතා ඉක්මණින් හා විශ්වාසදායක ලෙස අභිසාරී වන බව ආනුභවික ලෙස නිරීක්ෂණය විය. මුල් දිනවල, රෙලූ සමඟ ගැඹුරු ජාල පුහුණු කිරීමට මිනිසුන්ට හැකි වූ නමුත් සිග්මොයිඩ් පැතලි-අවුට් සහිත ගැඹුරු ජාල පුහුණු කිරීම අසාර්ථක විය. මෙය විය හැක්කේ මන්දැයි පැහැදිලි කිරීමට උත්සාහ කළ බොහෝ උපකල්පන තිබේ.

  • පළමුව, සම්මත සිග්මොයිඩ් සක්‍රීය කිරීමත් සමඟ, සිග්මොයිඩ් වල ශ්‍රේණිය සාමාන්‍යයෙන් 0 සහ 1 අතර යම් භාගයකි; ඔබට බොහෝ ස්ථර තිබේ නම්, මේවා ගුණනය වන අතර on ාතීය වශයෙන් කුඩා වන සමස්ත ශ්‍රේණියක් ලබා දිය හැකිය, එබැවින් ශ්‍රේණියේ බැසීමේ සෑම පියවරක්ම බරෙහි සුළු වෙනසක් පමණක් සිදු කරනු ඇත, එය මන්දගාමී අභිසාරීතාවයට මඟ පාදයි (අතුරුදහන් වන ශ්‍රේණියේ ගැටළුව). ReLu සක්‍රියතාවයට හාත්පසින්ම වෙනස්ව, ReLu හි ශ්‍රේණිය 0 හෝ 1 වේ, එබැවින් බොහෝ ස්ථර වලින් පසුව බොහෝ විට ශ්‍රේණිය 1 හි පොකුරක නිෂ්පාදනයක් ඇතුළත් වන අතර එමඟින් සමස්ත ශ්‍රේණිය ඉතා කුඩා හෝ විශාල නොවේ. නමුත් මෙම කථාව ඉතා සරල විය හැකිය, මන්දයත් අප බරින් ගුණ කර අභ්‍යන්තර ක්‍රියාකාරකම් එකතු කරන ආකාරය සැලකිල්ලට නොගන්නා බැවිනි.

  • දෙවනුව, සිග්මොයිඩ් සක්‍රීය කිරීමත් සමඟ ආදානය ඉතා විශාල හෝ ඉතා කුඩා නම් ශ්‍රේණිය ශුන්‍යයට යයි. ශ්‍රේණිය ශුන්‍යයට ගිය විට, ශ්‍රේණියේ සම්භවය ඉතා මන්දගාමී අභිසාරීතාවයක් ඇති කරයි. ReLu සක්‍රීය කිරීම හා සසඳන විට, ආදානය negative ණ නම් ශ්‍රේණිය ශුන්‍යයට යයි, නමුත් ආදානය විශාල නම් නොවේ, එබැවින් එයට සිග්මොයිඩ් ගැටළු වලින් "අඩක්" පමණක් තිබිය හැකිය. Negative ණාත්මක අගයන් තවමත් ශුන්‍ය ශ්‍රේණියක් ලබා දෙන බව පැහැදිලි බැවින් මෙයද තරමක් බොළඳ බවක් පෙනේ.

එතැන් සිට, අපි ස්නායුක ජාල පුහුණු කිරීම සඳහා භාවිතා කළ හැකි වැඩි අත්දැකීම් සහ උපක්‍රම එකතු කර ඇත්තෙමු. උදාහරණයක් ලෙස, කණ්ඩායම් සාමාන්‍යකරණය ඉතා ප්‍රයෝජනවත් වේ. ඔබ එම උපක්‍රම එකතු කරන විට, සංසන්දනය අඩු පැහැදිලි වේ. ඔබ නිවැරදි උපක්‍රම භාවිතා කරන්නේ නම් සිග්මොයිඩ් හෝ රෙලූ සමඟ ගැඹුරු ජාලයක් සාර්ථකව පුහුණු කළ හැකිය.

අද දින රෙලූ පුළුල් ලෙස භාවිතා කිරීමට හේතු කිහිපයක් ඇතැයි මම සැක කරමි:

  1. Accident තිහාසික අනතුර: අපි එම උපක්‍රම ගැන දැන ගැනීමට පෙර මුල් දිනවල රෙලූව සොයා ගත්තෙමු, එබැවින් මුල් දිනවල වැඩ කළ එකම තේරීම රෙලූ වන අතර සෑම කෙනෙකුටම එය භාවිතා කිරීමට සිදුවිය. දැන් සෑම කෙනෙකුම එය භාවිතා කරන බැවින් එය ආරක්ෂිත තේරීමක් වන අතර මිනිසුන් එය දිගටම භාවිතා කරයි.

  2. කාර්යක්ෂමතාව: සිග්මොයිඩ් ක්‍රියාකාරිත්වයට වඩා ReLu ගණනය කිරීමට වේගවත් වන අතර එහි ව්‍යුත්පන්නය ගණනය කිරීමට වේගවත් වේ. මෙය ස්නායුක ජාල සඳහා පුහුණුව හා අනුමාන කාලය සඳහා සැලකිය යුතු වෙනසක් කරයි: නියත සාධකයක් පමණක් වන නමුත් නියතයන්ට වැදගත් වේ.

  3. සරල බව: ReLu සරලයි.

  4. අස්ථාවරත්වය: ආනුභවිකව, රෙලූ තව ටිකක් සමාව දෙන බව පෙනේ (ජාල දුම්රිය සාර්ථකව සිදු කිරීමට අවශ්‍ය උපක්‍රම අනුව), සිග්මොයිඩ් වඩාත් විචක්ෂණශීලී වන අතර (ගැඹුරු ජාලයක් පුහුණු කිරීම සඳහා ඔබට තවත් උපක්‍රම අවශ්‍ය වන අතර එය වඩාත් බිඳෙන සුළුය).

  5. ප්‍රමාණවත් තරම්: ආනුභවිකව, බොහෝ වසම්වල, වෙනත් සක්‍රීය කිරීමේ කාර්යයන් ReLu ට වඩා හොඳ නැත, නැතහොත් ඒවා වඩා හොඳ නම්, ඉතා සුළු ප්‍රමාණයකින් වඩා හොඳය. එබැවින්, ReLu සරල, වේගවත් හා බොහෝ සැකසුම් වල ඇති ඕනෑම දෙයක් තරම් හොඳ නම්, එය සාධාරණ පෙරනිමියක් කරයි.


1
  1. රෙලූට අතුරුදහන් වන ශ්‍රේණියේ ගැටලුවක් නොමැත. අතුරුදහන් වන ප්‍රමිතීන් දෝෂ ශ්‍රිතයේ අර්ධ ව්‍යුත්පන්නයට සමානුපාතිකව බරෙහි ඉතා සුළු වෙනස්කම් වලට තුඩු දෙයි . පහළ ස්ථරවල ප්‍රමිතීන් ලබා ගැනීම සඳහා ශ්‍රේණිය පසුපස ප්‍රචාරණයෙහි n ගුණයකින් ගුණ කරනු ලැබේ. ශ්‍රේණිය n ගුණනය කිරීමේ බලපෑම පහළ ස්ථර සඳහා ශ්‍රේණිය ඊටත් වඩා කුඩා වන අතර එය ඉතා කුඩා වෙනසකට හෝ පහළ ස්ථරවල බරෙහි කිසිදු වෙනසක් සිදු නොකරයි. එම නිසා, ජාලය ගැඹුරු වන තරමට, අතුරුදහන් වන ශ්‍රේණිවල බලපෑම වැඩි වේ. අතුරුදහන් වන ශ්‍රේණි වලින් පීඩා විඳින සක්‍රිය කිරීමේ කාර්යයන් භාවිතා කරන විට මෙය නැවත නැවත ඉගෙනීම මන්දගාමී කරයි. උදා: සිග්මොයිඩ් සහ ටැන් ශ්‍රිත. කරුණාකර මෙහි යොමු වන්න

  2. සිග්මොයිඩ් ශ්‍රිතයට සාපේක්ෂව ReLU ශ්‍රිතය ගණනය කිරීමට බරක් නොවේ. මෙය හොඳින් ඉහළින් ආවරණය කර ඇත.

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.