K- ගුණයකින් හරස් වලංගු කිරීමේ දී K තේරීම


149

මම භාවිතා කර තියෙනවා සමහර ඉගෙනුම් දක්නට නොමැත්තේ කාර්යසාධනය ඇගයීමට දැන් හරස් වලංගු කිහිප වතාවක් -fold, නමුත් මම හැමදාම අගය තෝරා ගත යුතු ආකාරය පුදුම කර තියෙනවා .KK

මම බොහෝ විට අගයක් දැක ඇති අතර භාවිතා කර ඇත , නමුත් මෙය මට සම්පූර්ණයෙන්ම අත්තනෝමතික ලෙස පෙනේ, මම දැන් පුරුද්දක් ලෙස සිතීම වෙනුවට භාවිතා කරමි . මට පෙනේ, ඔබ හි අගය වැඩි දියුණු කරන විට ඔබට වඩා හොඳ කැටි ගැසීමක් ලැබෙන බව පෙනේ , එබැවින් ඔබ ඔබේ ඉතා විශාල කළ යුතුය , නමුත් පක්ෂග්‍රාහී වීමේ අවදානමක් ද ඇත.K=1010KK

හි වටිනාකම රඳා පැවතිය යුත්තේ කුමක් ද යන්නත්, මගේ ඇල්ගොරිතම තක්සේරු කිරීමේදී මම මේ ගැන සිතිය යුත්තේ කෙසේද යන්නත් දැන ගැනීමට මා කැමතිය . මම හරස් වලංගුකරණයේ ස්ථරීකෘත අනුවාදය භාවිතා කළත් නැතත් එය යමක් වෙනස් කරයිද ?K


Answers:


80

තේරීම k=10තරමක් අත්තනෝමතික ය. මෙන්න මම තීරණය කරන ආකාරයk:

  • පළමුවෙන්ම, CV ප්‍රති result ලයේ විචල්‍යතාවය අඩු කිරීම සඳහා, ඔබට නව අහඹු බෙදීම් සමඟ CV නැවත නැවත කළ හැකිය.
    මෙය ඉහළ තර්කයක් බවට පත් කරයිk=> ඔබට බොහෝ ආකෘති ගණනය කිරීමට අවශ්‍ය බැවින් වැඩි ගණනය කිරීමේ කාලය බොහෝ දුරට අදාළ නොවේ. මම ප්‍රධාන වශයෙන් ගණනය කරන ලද මුළු ආකෘති ගණන ගැන සිතීමට නැඹුරු වෙමි (බූට්ස්ට්‍රැපින් හා සැසඳීමේදී). එබැවින් මම 100 x 10 ගුණයකින් යුත් සීවී හෝ 200 x 5 ගුණයකින් යුත් සීවී සඳහා තීරණය කළ හැකිය.

  • සාමාන්‍යයෙන් විශාල බව @ogrisel දැනටමත් පැහැදිලි කර ඇත kඅඩු (අශුභවාදී) නැඹුරුවක්. (සමහර ව්‍යතිරේකයන් විශේෂයෙන් දන්නා කරුණකිk=n, එනම් නිවාඩු-එක්-පිටතට).

  • හැකි නම්, මම a භාවිතා කරමි k එය නියැදි ප්‍රමාණයෙන් බෙදන්නකි, නැතහොත් නියැදියෙහි ඇති කාණ්ඩවල ප්‍රමාණය ස්ථරීකරණය කළ යුතුය.

  • ඉතා විශාලයි k එයින් අදහස් කරන්නේ අඩු නියැදි සංයෝජන සංඛ්‍යාවක් පමණක් කළ හැකි වන අතර එමඟින් වෙනස් පුනරාවර්තන ගණන සීමා කරයි.

    • නිවාඩු-එක්-පිටවීම සඳහා: විවිධ ආකෘති / පරීක්ෂණ නියැදි සංයෝජන හැකි ය. අනුකරණයන් කිසිසේත්ම තේරුමක් නැත.(n1)=n=k
    • උදා: සහ : විවිධ ආකෘති / පරීක්ෂණ නියැදි සංයෝජන පවතී. ෆෝල්ඩ් සීවී පුනරාවර්තන 19 ක් හෝ ආකෘති 190 ක් එතරම් ප්‍රමාණවත් නොවන බැවින් ඔබට හැකි සෑම සංයෝජනයක්ම හරහා යාම සලකා බැලිය හැකිය .n=20 යිk=10(n=20 යි2)=190 යි=19kk
  • මෙම සිතුවිලි කුඩා නියැදි ප්‍රමාණ සමඟ වැඩි බරක් දරයි. ලබා ගත හැකි තවත් සාම්පල සමඟ එතරම් වැදගත් නැත. හැකි සංයෝජන ගණන ඉතා ඉක්මණින් විශාල වන අතර (කියන්න) 10 ගුණයක සීවී 100 පුනරාවර්තන අනුපිටපත් වීමේ විශාල අවදානමක් නොපෙන්වයි. එසේම, වැඩි පුහුණු සාම්පල සාමාන්‍යයෙන් අදහස් කරන්නේ ඔබ ඉගෙනීමේ වක්‍රයේ පැතලි කොටසක සිටින බැවින් අන්‍යාගමික ආකෘති සහ සියලු සාම්පල මත පුහුණු කරන ලද “සැබෑ” ආකෘතිය අතර වෙනස නොසැලකිලිමත් වන බවයි.kn


7
(+1) විස්තාරණය සඳහා, නමුත් (-1) CV හි පුනරාවර්තන ගණන් සඳහා. එය නිර්මාණය කිරීමේ අවදානමක්, සැබෑ ය නිශ්චිත duplicats (නිරීක්ෂණ පිළිබඳ හැඳුනුම් පත් දෙස) කුඩා (ප්රමාණවත් දත්ත ආදිය ලබා දී), නමුත් නිර්මාණය අවදානම රටාව / දත්ත ව්යුහය අනුපිටපත් ඉතා ඉහළ ය. K යනු කුමක් වුවත් මම CV එක 10 වතාවකට වඩා පුනරාවර්තනය නොකරමි ... විචලනය අවතක්සේරු කිරීමෙන් වළකින්න.
ස්ටෙෆන්

3
ඔස්ට්‍රිෆෙන්, ඔග්‍රිසෙල් දැනටමත් පෙන්වා දී ඇත්තේ එය නොවේ: (අන්‍යාගමික) ආකෘති සැබවින්ම ස්වාධීන නොවන බව? මෙය එසේ බව මම සම්පූර්ණයෙන්ම එකඟ වෙමි. ඇත්ත වශයෙන්ම, මම මෙය සැලකිල්ලට ගැනීමට උත්සාහ කරන්නේ (ආදේශක) ආකෘති වල ස්ථායිතාව අනුව ප්‍රති results ල අර්ථ නිරූපණය කිරීමෙනි. "කිහිපයක්" සාම්පල හුවමාරු කර ගැනීම (මට මෙහි විස්තාරණය කිරීමට අවශ්‍ය නොවීය - නමුත් උදා: stats.stackexchange.com/a/26548/4598 බලන්න ). මම කියලා නෑ ගණනය සම්මත දෝෂයක් නොව උදා: මධ්යම තරමේ වාර්තා හා කිරීමට මෙම අනුකරණ පුරා නිරීක්ෂණය වැරදි percentile. මම ඒ ගැන වෙනම ප්‍රශ්නයක් පළ කරමි. 5ටීh95 යිටීh
එස්එක්ස්

2
මට පේනවා. අන්‍යාගමිකයාගේ ස්ථායිතාව තක්සේරු කිරීම සඳහා ප්‍රවේශය වලංගු බව මම එකඟ වෙමි. මගේ මතකයේ තිබුනේ එක් ආකෘතියක් තවත් ආකෘතියක් අභිබවා යනවාද යන්න තීරණය කිරීම සඳහා පසු විපරම්-සංඛ්‍යාන පරීක්ෂණයයි. සීවී ක්‍රමයක් පුනරාවර්තනය කිරීම බොහෝ විට අනපේක්ෂිත ලෙස ඇල්ෆා දෝෂයක් ඇතිවීමේ අවස්ථාව වැඩි කරයි. ඒ නිසා මම පිටත වලංගුකරණය සමඟ අභ්‍යන්තරය ව්‍යාකූල කළෙමි (දික්රාන් එය මෙහි දමා ඇති පරිදි ).
ස්ටෙෆන්

2
becbeleites: මම ඔබ සමඟ එකඟයි. සීමිත නියැදි ප්‍රමාණය නිසා විචලනය සාමාන්‍යයෙන් ආදර්ශ අවිනිශ්චිතතාවයට වඩා ආධිපත්‍යය දරයි.
jpcgandre

2
pjpcgandre: අවම වශයෙන් සංවේදීතාව, නිශ්චිතතාව වැනි වර්ගීකරණ දෝෂ සඳහා, පරීක්ෂා කරන ලද මුළු නඩු ගණන හේතුවෙන් අවිනිශ්චිතතාව ගණනය කළ හැකිය. මෙය සම්පුර්ණ විචල්‍යතාවයේ කොටසක් පමණක් බව සත්‍යයක් වන අතර, අවම වශයෙන් මගේ කාර්යයේදී මට හමු වන අවස්ථාවන්හිදී, මෙම අවිනිශ්චිතතාව බොහෝ විට විශාල වන අතර නිගමන දැඩි ලෙස සීමිත බව පැහැදිලි කිරීමට දළ වශයෙන් අනුමාන කිරීමක් පවා ප්‍රමාණවත් වේ. 40x 10 ගුණයක හරස් වලංගුකරණය වෙනුවට 50x 8-ගුණයකින් හෝ 80x 5 ගුණයකින් භාවිතා කිරීමෙන් මෙම සීමාව පවතින්නේ නැත.
එස්එක්ස්

41

විශාල K යන්නෙන් අදහස් කරන්නේ සත්‍ය අපේක්ෂිත දෝෂය අධිතක්සේරු කිරීම සඳහා අඩු නැඹුරුවක් (පුහුණු ගුණයන් මුළු දත්ත කට්ටලයට වඩා සමීප වනු ඇති බැවින්) නමුත් ඉහළ විචල්‍යතාවයක් සහ වැඩි ධාවන කාලයක් (ඔබ සීමිත නඩුවට ළං වන විට: නිවාඩු-එක්-අවුට් සීවී).

පුහුණු_සයිස් = මුළු දත්ත කට්ටලයේ 90% ක්ම ඉගෙනීමේ වක්‍රයේ බෑවුම ප්‍රමාණවත් නම්, එවිට නැඹුරුව නොසලකා හැරිය හැකි අතර K = 10 සාධාරණ වේ.

ඔබ ඇස්තමේන්තු කර ඇති වඩාත් නිවැරදි විශ්වාසනීය පරතරයක් තක්සේරු කිරීම සඳහා ඉහළ K ඔබට තවත් සාම්පල ලබා දෙයි (CV පරීක්ෂණ දෝෂ බෙදා හැරීමේ සාමාන්‍ය බව උපකල්පනය කරන පරාමිතික සම්මත දෝෂයක් හෝ පරාමිතික නොවන බූට්ස්ට්‍රැප් CI භාවිතා කරමින් සත්‍ය වශයෙන්ම සත්‍ය නොවන බව උපකල්පනය කරයි. CV ගුණයන් එකිනෙකාගෙන් ස්වාධීන නොවන බැවින්).

සංස්කරණය කරන්න: අවතක්සේරු කිරීම => සත්‍ය අපේක්ෂිත දෝෂය අධි තක්සේරු කිරීම

සංස්කරණය කරන්න: විශාල K හෝ LOOCV සඳහා ඉහළ විචල්‍යතා පිළිබඳ මෙම පිළිතුරේ කොටස බොහෝ විට වැරදියි (සැමවිටම සත්‍ය නොවේ). මෙම පිළිතුරෙහි අනුකරණයන් සමඟ වැඩි විස්තර: නිවාඩු-එක්-පිටත එදිරිව කේ-ගුණයකින් හරස් වලංගු කිරීමෙහි නැඹුරුව සහ විචලනය (මෙම කාර්යයට ස්තූතියි සේවියර් බෝරෙට් සිකෝට්ටේ).


1
විශාල සමඟ ඉහළ විචලනය ගැන ඔබට තව ටිකක් පැහැදිලි කළ හැකිද? k? පළමු දළ වශයෙන්, සීවී ප්‍රති result ලයේ සම්පූර්ණ විචලනය (= සියල්ලෙන් ගණනය කරන ලද යම් ආකාරයක දෝෂයක්) යැයි මම පැවසුවෙමිn ඕනෑම එකක් විසින් පරීක්ෂා කරන ලද සාම්පල k surrogate models) = පරීක්ෂා කිරීම නිසා විචලනය n අතර ඇති වෙනස්කම් නිසා සාම්පල පමණක් + විචලනය වේ kආකෘති (අස්ථාවරත්වය). මට නැති වී ඇත්තේ කුමක්ද?
එස්එක්ස්

6
විචල්‍යතාවයෙන් මා අදහස් කරන්නේ සීවී ගුණයක දෝෂවල මධ්‍ය හෝ මධ්‍යන්‍යය ලබා ගැනීමෙන් ලබාගත් ඇස්තමේන්තුගත අපේක්ෂිත පරීක්ෂණ දෝෂයේ විචල්‍යතාවය “සත්‍ය ව්‍යාප්තිය” මිස සීවී ගුණයකින් නොවේ. K විශාල වන විට ඔබ අත ඇති විශේෂිත පුහුණු කට්ටලය මත බෙහෙවින් රඳා පවතින LOO-CV වෙත සමීප වේ: සාම්පල ගණන කුඩා නම් එය සත්‍ය ව්‍යාප්තිය නියෝජනය කළ නොහැකි බැවින් විචලනය වේ. K විශාල වන විට, k- ගුණයකින් යුත් CV මඟින් පුහුණු කට්ටලයේ එවැනි අත්තනෝමතික දෘඩ සාම්පල අනුකරණය කළ හැකිය.
ogrisel

8
මීට අමතරව: කොහාවි සිය ආචාර්ය උපාධි නිබන්ධනයේ 3 වන පරිච්ඡේදයේ වලංගු කිරීමේ නැඹුරුව-විචල්‍යතාව-වෙළඳාම අධ්‍යයනය කරයි . මම එය බෙහෙවින් නිර්දේශ කරමි.
ස්ටෙෆන්

3
+1, btw "විශාල K යන්නෙන් වැඩි විචල්‍යතාවයක් අදහස් වේ", මා තේරුම් ගත් පරිදි, විශාල වශයෙන් කේ, මුළු කේ පුහුණු කට්ටලවල විශාල දත්ත පොදු වන බැවින් පුහුණුකරුවන් කේ ආකෘති තරමක් සහසම්බන්ධ වනු ඇත, එහි ප්‍රති ing ලයක් ලෙස කේසහසම්බන්ධිත පරීක්ෂණ දෝෂ , එබැවින් පරීක්ෂණ දෝෂයේ මධ්‍යන්‍යයට වැඩි විචල්‍යතාවයක් ඇත, නේද?
අලිගැට පේර

ඔව්, මම හිතන්නේ මෙය නිවැරදි බුද්ධියක්.
ogrisel

0

Kනිරවද්‍යතාවයට සහ සාමාන්‍යකරණයට බලපාන්නේ කෙසේදැයි මම නොදනිමි , මෙය ඉගෙනීමේ ඇල්ගොරිතම මත රඳා පවතී, නමුත් එය නියත වශයෙන්ම ගණකාධිකරණ සංකීර්ණතාවයට රේඛීයව (අසමමිතිකව, රේඛීයව) බලපායි. පුහුණු K-1අවස්ථා ගණන අනුව පුහුණු කාලය රේඛීය නම් පුහුණුව සඳහා ගණනය කිරීමේ කාලය වැඩි වේ. එබැවින් කුඩා පුහුණු කට්ටල සඳහා මම නිරවද්‍යතාව සහ සාමාන්‍යකරණ අංශ සලකා බලමි, විශේෂයෙන් සීමිත පුහුණු අවස්ථා ගණනකින් උපරිම ප්‍රයෝජන ලබා ගත යුතුය.

කෙසේ වෙතත්, පුහුණු අවස්ථා ගණනෙහි (අවම වශයෙන් රේඛීය) ඉහළ අසමමිතික සංයුක්ත සංකීර්ණතා වර්ධනයක් සහිත විශාල පුහුණු කට්ටල සහ ඉගෙනුම් ඇල්ගොරිතම සඳහා, මම තෝරා ගන්නේ K=2එම සංඛ්‍යාවේ අසමමිතික සංකීර්ණ රේඛීය සහිත පුහුණු ඇල්ගොරිතමයක් සඳහා පරිගණක කාලය වැඩි නොවන ලෙස ය. පුහුණු අවස්ථා.


-6

විසඳුමක්:

K = N/N*0.30
  • N = දත්ත කට්ටලයේ ප්‍රමාණය
  • කේ = ගුණ කරන්න

සටහන: ඔබේ පරීක්ෂණ කට්ටලය ලෙස ඔබට තෝරා ගැනීමට අවශ්‍ය ප්‍රමාණය අනුව අපට 30% වෙනුවට 20% තෝරා ගත හැකිය.

උදාහරණයක්:

දත්ත කට්ටල ප්‍රමාණය නම්: N = 1500; කේ = 1500/1500 * 0.30 = 3.33; අපට K අගය 3 හෝ 4 ලෙස තෝරා ගත හැකිය

සටහන:

නිවාඩු වල ඇති විශාල K අගය එක් හරස් වලංගු කිරීමක් නිසා අධික ලෙස ගැලපේ. නිවාඩු වල ඇති කුඩා K අගය එක් හරස් වලංගු කිරීමක් හේතුවෙන් අඩු ගැළපීමක් ඇති වේ.

ප්‍රවේශය බොළඳ විය හැකි නමුත් විවිධ ප්‍රමාණයේ දත්ත කට්ටලයක් සඳහා k = 10 තෝරා ගැනීමට වඩා හොඳ වනු ඇත.


4
(-1) එන්එන්0.3=10.33.33=onsටී.එබැවින් නියැදි ප්‍රමාණය නොසලකා k = 3 හෝ 4 භාවිතා කිරීමට ඔබ සැමවිටම යෝජනා කරයි - මෙය IMHO නියැදි ප්‍රමාණය නොසලකා k = 10 සමානව භාවිතා කිරීමට වඩා සැලකිය යුතු ලෙස වෙනස් නොවේ.
එස්එක්ස්

K = N / N * 0.3 = 10/3 එය නියතයකි. එබැවින් සෑම කොන්දේසියක් සඳහාම එම අගය භාවිතා කිරීම තර්කානුකූල නොවේ.
කමල් තාපා
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.