දත්ත විද්‍යා ist යෙක් යනු කුමක්ද?


183

සංඛ්‍යාලේඛන පිළිබඳ මගේ ආචාර්ය උපාධි පා program මාලාවෙන් මෑතකදී උපාධිය ලබා ඇති මම පසුගිය මාස කිහිපය තුළ සංඛ්‍යාලේඛන ක්ෂේත්‍රයේ රැකියාවක් සෙවීම ආරම්භ කළෙමි. මා සලකා බැලූ සෑම සමාගමකම පාහේ " දත්ත විද්‍යා ient යා " යන මාතෘකාව සහිත රැකියා පළ කිරීමක් තිබුණි . ඇත්ත වශයෙන්ම, සංඛ්‍යාන විද්‍යා ient යෙකුගේ හෝ සංඛ්‍යාලේඛන ician යෙකුගේ රැකියා නාම දැකීමේ කාලය බොහෝ කලක් ගෙවී ගොස් ඇති බවක් දැනුනි . දත්ත විද්‍යා ist යෙකු වීම ඇත්ත වශයෙන්ම සංඛ්‍යාලේඛන ician යෙකු වීම යනු කුමක්ද යන්න වෙනුවට ආදේශ කර තිබේද?

හොඳයි, රැකියා සඳහා වන බොහෝ සුදුසුකම් සංඛ්‍යාලේඛන ician යා යන මාතෘකාව යටතේ සුදුසුකම් ලැබිය හැකි දේවල් ලෙස හැඟුණි. වැඩි රැකියා (සංඛ්යා ලේඛන ආචාර්යය උපාධිය අවශ්ය ), බොහෝ අවශ්ය අවබෝධය පර්යේෂණාත්මක නිර්මාණ ( ), රේඛීය අවගමනය සහ anova ( ), පොදු රේඛීය ආකෘති ( ), සහ එවැනි පීසීඒ (අනෙකුත් multivariate ක්රම ) , R හෝ SAS ( ) වැනි සංඛ්‍යානමය පරිගණක පරිසරයක දැනුම . දත්ත විද්‍යා ist යෙකු යනු සංඛ්‍යා ලේඛකයාගේ කේත නාමයක් පමණි.

කෙසේ වෙතත්, මා ගිය සෑම සම්මුඛ පරීක්ෂණයක්ම ආරම්භ වූයේ: "ඉතින් ඔබ යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතම ගැන හුරුපුරුදුද?" බොහෝ විට, විශාල දත්ත, ඉහළ කාර්යසාධනය සහිත පරිගණක, සහ ස්නායුක ජාල, CART, ආධාරක දෛශික යන්ත්‍ර, ගස් නැංවීම, අධීක්ෂණය නොකළ ආකෘති යනාදිය පිළිබඳ ප්‍රශ්න අත්හදා බැලීමට මට සිදු විය. සංඛ්යානමය ප්රශ්න හදවතින්ම, නමුත් සෑම සම්මුඛ සාකච්ඡාවක් අවසානයේම මට උදව් කිරීමට නොහැකි නමුත් දත්ත විද්යා ist යෙකු යනු කුමක්ද යන්න පිළිබඳව මා අඩුවෙන් දැන සිටි බවක් දැනේ.

මම සංඛ්‍යාලේඛන ian යෙක්, නමුත් මම දත්ත විද්‍යා ist යෙක්ද? මම විද්‍යාත්මක ගැටලු මත වැඩ කරමි, එබැවින් මම විද්‍යා ist යෙකු විය යුතුය! ඒ වගේම මම දත්ත සමඟ වැඩ කරනවා, ඒ නිසා මම දත්ත විද්‍යා ist යෙක් විය යුතුයි! විකිපීඩියාවට අනුව, බොහෝ විද්වතුන් මා සමඟ එකඟ වනු ඇත ( https://en.wikipedia.org/wiki/Data_science , ආදිය)

"පරිසර විද්‍යාව" යන යෙදුම ව්‍යාපාරික පරිසරය තුළ පුපුරා ගොස් ඇතත්, බොහෝ ශාස්ත්‍ර ics යින් සහ මාධ්‍යවේදීන් දත්ත විද්‍යාව හා සංඛ්‍යාලේඛන අතර වෙනසක් නොපෙනේ.

නමුත් මම මේ සියලු රැකියා සම්මුඛ සාකච්ඡා දත්ත විද්‍යා ist යෙකු සඳහා යන්නේ නම්, ඔවුන් කිසි විටෙකත් මාගෙන් සංඛ්‍යානමය ප්‍රශ්න අසන්නේ නැතැයි හැඟෙන්නේ ඇයි?

මගේ අවසාන සම්මුඛ පරීක්ෂණයෙන් පසුව ඕනෑම හොඳ විද්‍යා ist යෙකු කිරීමට මට අවශ්‍ය වූ අතර මෙම ගැටළුව විසඳීම සඳහා මම දත්ත සෙව්වෙමි (ඒයි, මම සියල්ලටම පසු දත්ත විද්‍යා ist යෙක්). කෙසේ වෙතත්, පසුව ගූගල් සෙවුම් ගණනාවකට පසුව, දත්ත විද්‍යා ist යෙකු යනු කුමක්ද යන්න පිළිබඳ අර්ථ දැක්වීම සමඟ යළිත් වරක් ග්‍රහණය වී ඇති බවක් මට දැනෙන්නට පටන් ගත්තේය. මම දත්ත විද්යාඥ හරියටම මොකක්ද කියලා නොදැන එය එසේ බොහෝ අර්ථකථන නොතිබුන නිසා, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scioist/ ) නමුත් සෑම කෙනෙකුම මට පවසන පරිදි මට එක් අයෙකු වීමට අවශ්‍යයි:

හොඳයි දවස අවසානයේදී, මම සොයාගත්තේ "දත්ත විද්‍යා ist යෙක් යනු කුමක්ද" යන්න පිළිතුරු දීමට ඉතා අසීරු ප්‍රශ්නයකි. හෙක්, ඇම්ස්ටැට්හි මාස දෙකක් මුළුල්ලේම ඔවුන් මෙම ප්‍රශ්නයට පිළිතුරු දීමට කාලය කැප කළහ:

දත්ත විද්‍යා ist යෙකු වීමට මට දැන් සරාගී සංඛ්‍යාලේඛන ician යෙකු විය යුතු නමුත් හරස් වලංගු කරන ලද ප්‍රජාවට යම් ආලෝකයක් විහිදුවාලීමට සහ දත්ත විද්‍යා ist යෙකු වීම යන්නෙන් අදහස් කරන්නේ කුමක්ද යන්න තේරුම් ගැනීමට මට හැකි වනු ඇතැයි මම බලාපොරොත්තු වෙමි. සියලුම සංඛ්‍යාලේඛන ians යින් දත්ත විද්‍යා scientists යන් නොවේද?


(සංස්කරණය / යාවත්කාලීන කිරීම)

මම හිතුවේ මේක සංවාදය රසවත් කරයි කියලා. දත්ත විද්‍යා ient යෙකු සොයමින් මයික්‍රොසොෆ්ට් සමඟ රැකියාවක් කිරීම පිළිබඳව මට ඇමරිකානු සංඛ්‍යාලේඛන සංගමයෙන් විද්‍යුත් තැපෑලක් ලැබුණි. මෙන්න සබැඳිය: දත්ත විද්‍යා ient යින්ගේ ස්ථානය . මෙය සිත්ගන්නාසුළු යැයි මම සිතන්නේ තනතුරේ භූමිකාව අප කතා කරමින් සිටි විශේෂිත ගතිලක්ෂණ රාශියකට බලපාන නමුත් මම සිතන්නේ ඒවායින් බොහොමයක් සංඛ්‍යාලේඛනවල ඉතා දැඩි පසුබිමක් අවශ්‍ය වන අතර පහත සඳහන් බොහෝ පිළිතුරු වලට පටහැනි වේ. සබැඳිය අක්‍රිය වුවහොත්, දත්ත විද්‍යා ist යෙකු තුළ මයික්‍රොසොෆ්ට් අපේක්ෂා කරන ගුණාංග මෙන්න:

මූලික රැකියා අවශ්‍යතා සහ කුසලතා:

විශ්ලේෂණ භාවිතා කරමින් ව්‍යාපාර වසම් පළපුරුද්ද

  • සංකීර්ණ ව්‍යාපාර ගැටලු සංකල්පනය කිරීම සඳහා විවේචනාත්මක චින්තන කුසලතා උපයෝගී කර ගැනීමේදී අදාළ ව්‍යාපාර වසම් කිහිපයක අත්දැකීම් තිබිය යුතුය.
  • විශ්ලේෂණ ව්‍යාපෘති ස්වාධීනව ක්‍රියාත්මක කිරීමට අපේක්ෂකයාට හැකි විය යුතු අතර අපගේ අභ්‍යන්තර සේවාදායකයින්ට සොයාගැනීම් තේරුම් ගැනීමට සහ ඔවුන්ගේ ව්‍යාපාරයට වාසි සැලසෙන පරිදි ඒවා ක්‍රියාවට නැංවීමට උපකාර කළ යුතුය.

පුරෝකථන ආකෘති නිර්මාණය

  • පුරෝකථන ආකෘති නිර්මාණයේ කර්මාන්ත හරහා පළපුරුද්ද
  • වැදගත් සම්බන්ධතා ඉස්මතු කිරීමට සහ පද්ධති විෂය පථය නිර්වචනය කිරීමට සේවාදායකයා සමඟ ව්‍යාපාර ගැටළු අර්ථ දැක්වීම සහ සංකල්පීය ආකෘති නිර්මාණය

සංඛ්‍යාලේඛන / ආර්ථිකමිතික

  • අඛණ්ඩ සහ වර්ගීකරණ දත්ත සඳහා ගවේෂණාත්මක දත්ත විශ්ලේෂණ
  • ව්‍යවසාය සහ පාරිභෝගික හැසිරීම, නිෂ්පාදන පිරිවැය, සාධක ඉල්ලුම, විවික්ත තේරීම සහ අවශ්‍ය තාක්‍ෂණික සම්බන්ධතා සඳහා ව්‍යුහාත්මක ආකෘති සමීකරණ පිරිවිතර හා ඇස්තමේන්තු කිරීම
  • අඛණ්ඩ හා වර්ගීකරණ දත්ත විශ්ලේෂණය කිරීම සඳහා උසස් සංඛ්‍යාන ශිල්පීය ක්‍රම
  • කාල ශ්‍රේණි විශ්ලේෂණය සහ ප්‍රක්ශේපණ ආකෘති ක්‍රියාත්මක කිරීම
  • බහු විචල්‍යතා ගැටලු සමඟ වැඩ කිරීමේ දැනුම සහ පළපුරුද්ද
  • ආකෘති නිරවද්‍යතාවය තක්සේරු කිරීමට සහ රෝග විනිශ්චය පරීක්ෂණ පැවැත්වීමේ හැකියාව
  • සංඛ්‍යාලේඛන හෝ ආර්ථික ආකෘති අර්ථ නිරූපණය කිරීමේ හැකියාව
  • විවික්ත සිදුවීම් සමාකරණය සහ ගතික අනුකරණ ආකෘති ගොඩනැගීමේ දැනුම සහ පළපුරුද්ද

දත්ත කළමනාකරණය

  • දත්ත පරිවර්තනය සඳහා ටී-එස්කියුඑල් සහ විශ්ලේෂණ භාවිතා කිරීම පිළිබඳ හුරුපුරුදුකම සහ ඉතා විශාල තාත්වික දත්ත කට්ටල සඳහා ගවේෂණාත්මක දත්ත විශ්ලේෂණ ක්‍රම භාවිතා කිරීම.
  • දත්ත අතිරික්තය, දත්ත නිරවද්‍යතාවය, අසාමාන්‍ය හෝ ආන්තික අගයන්, දත්ත අන්තර්ක්‍රියා සහ නැතිවූ අගයන් ඇතුළුව දත්ත අඛණ්ඩතාව කෙරෙහි අවධානය යොමු කිරීම.

සන්නිවේදන හා සහයෝගීතා කුසලතා

  • ස්වාධීනව වැඩ කරන්න සහ අභියෝගාත්මක ව්‍යාපාරික ගැටළු සඳහා නව්‍ය විසඳුම් ගවේෂණය කරන අතථ්‍ය ව්‍යාපෘති කණ්ඩායමක් සමඟ වැඩ කිරීමට හැකියාව ඇත
  • හවුල්කරුවන් සමඟ සහයෝගයෙන් කටයුතු කරන්න, විවේචනාත්මක චින්තන කුසලතා සහ විශ්ලේෂණ ව්‍යාපෘති අවසානය දක්වා ධාවනය කරන්න
  • වාචික හා ලිඛිත උසස් සන්නිවේදන කුසලතා
  • විශ්ලේෂණාත්මක ප්‍රති results ල දෘශ්‍යකරණය කිරීම විවිධ පාර්ශවකරුවන් සමූහයක් විසින් පරිභෝජනය කළ හැකි ආකාරයකට

මෘදුකාංග පැකේජ

  • උසස් සංඛ්‍යාන / ආර්ථිකමිතික මෘදුකාංග පැකේජ: පයිතන්, ආර්, ජේඑම්පී, එස්ඒඑස්, දර්ශන, එස්ඒඑස් එන්ටර්ප්‍රයිස් මයිනර්
  • දත්ත ගවේෂණය, දෘශ්‍යකරණය සහ කළමනාකරණය: T-SQL, Excel, PowerBI, සහ සමාන මෙවලම්

සුදුසුකම්:

  • අවම වශයෙන් අවුරුදු 5+ ආශ්‍රිත අත්දැකීම් අවශ්‍ය වේ
  • ප්‍රමාණාත්මක ක්ෂේත්‍රයේ පශ්චාත් උපාධි උපාධිය යෝග්‍ය වේ.

6
හොඳ ප්‍රශ්නයක්! මම මේ ගැන බොහෝ කලක සිට කල්පනා කර ඇත්තෙමි. මගේ ඇස් හමුවේ, විස්තරයේ දත්ත විද්‍යා ist යා ඇතුළත් රැකියා සොයන්නේ සංඛ්‍යාලේඛන / එම්එල් ක්‍රමවේදයන් හොඳින් පරිමාණයට යොදා ගත හැකි පුද්ගලයන් මිස න්‍යාය සමඟ කටයුතු කළ හැකි පුද්ගලයන් නොවේ. මෙම රැකියා විස්තර වල යම් අතිරික්තයක් ඇතැයි මම තවමත් සිතමි. ආචාර්ය උපාධියක් අවශ්‍ය වන්නේ බොහෝ විට සුදුසුකම් ලැබීම නිසා වන අතර මෙම රැකියා විස්තර කරන මානව සම්පත් පුද්ගලයින් විශාල දත්ත වටා ඇති අවුල් සහගත බලපෑම්වලට බෙහෙවින් බලපායි. දත්ත විද්‍යා ist යෙක් සංඛ්‍යාලේඛන ian යෙක්ද නැත්නම් අනෙක් අතට මට පිළිතුරු දැකීමට අවශ්‍ය ප්‍රධාන ප්‍රශ්නයයි.
ගුමියෝ

4
සංඛ්‍යාලේඛන
ician යෙකු

7
"නමුත් මම මේ සියලු රැකියා සම්මුඛ සාකච්ඡා දත්ත විද්‍යා ist යෙකු සඳහා යන්නේ නම්, ඔවුන් කිසි විටෙකත් මගෙන් සංඛ්‍යාලේඛන ප්‍රශ්න අසන්නේ නැතැයි හැඟෙන්නේ ඇයි" ... මගේ ජීවිතයේ කතාව ... වචනාර්ථයෙන් LOL !!! මම හිතන්නේ දත්ත විද්‍යාව, සංඛ්‍යාලේඛන, ඉකොනොමෙට්‍රික්ස්, බයෝස්ටැට්, ආදිය. සැලකිය යුතු අතිච්ඡාදනය ඇති නමුත් ඔවුන් සියල්ලන්ම සන්නිවේදනය කිරීම දුෂ්කර කරන විවිධ ප්‍රභාෂයන් භාවිතා කරයි (විශේෂයෙන් ඔබ දැනුම නොදක්වන සහ ප්‍රධාන වචන කෙරෙහි අවධානය යොමු කරන මානව සම්පත් පුද්ගලයෙකු විසින් සම්මුඛ සාකච්ඡාවට භාජනය කරන විට). අන්තර් විනය ප්‍රයත්නයන් වැඩි කිරීම සහ බොහෝ විවෘත මනසකින් යුතුව අනාගතයේදී මෙය වෙනස් වනු ඇතැයි අපේක්‍ෂා කරමු.
සැකරි බ්ලූමන්ෆෙල්ඩ්

9
2008 දී පමණ "දත්ත විද්‍යා ist යාගේ නැගීම" මම අනුගමනය කර ඇත්තෙමි. මට එය බොහෝ දුරට ජනප්‍රියත්වයට හේතු වන අලෙවිකරණ යෙදුමකි - සංඛ්‍යාලේඛන, යන්ත්‍ර ඉගෙනීම, දත්ත ඉංජිනේරු විද්‍යාව, දත්ත විශ්ලේෂණය යන සියල්ලම වෙනස් අවධාරණයකින්. අක්ෂර වින්‍යාසය ජී. ඔව් කියන්න".
මෝමෝ

11
Om මෝමෝ: කෙසේ වෙතත්, යමෙකු පිටු 600+ කින් යුත් “පොත් ඉගෙනීම” (හෝ ඊට සමාන) සහ “සංඛ්‍යාලේඛන” (හෝ ඒ හා සමාන) නම් පෙළපොත් එකක් විවෘත කළහොත් අතිච්ඡාදනය වනු ඇත. මගේ බිෂොප්ගේ රටා හඳුනාගැනීම සහ යන්ත්‍ර ඉගෙනීම හෝ මර්ෆිගේ යන්ත්‍ර ඉගෙනීම , ලෙමන් සහ කැසෙල්ලා න්‍යාය, ලක්ෂ්‍ය ඇස්තමේන්තු න්‍යාය , කැසෙල්ලා සහ බර්ගර් සංඛ්‍යානමය අනුමානයන් හෝ මැක්ස්වෙල් සහ ඩෙලනි සැලසුම් අත්හදා බැලීම් සහ දත්ත විශ්ලේෂණය සමඟ ශුන්‍ය මංසන්ධියක් ඇත . ඒවා කොතරම් වෙනස්ද යත්, එක් පොත් කට්ටලයක් ගැන හුරුපුරුදු අයට අනෙක් පොත් කියවීමට අපහසු විය හැකි යැයි මම සිතමි.
amoeba

Answers:


54

හාස්‍යජනක අර්ථකථන කිහිපයක් තවමත් ලබා දී නොමැත:

දත්ත විද්‍යා ient යා: මැක්හි සංඛ්‍යාලේඛන කරන කෙනෙක්.

මම මේකට කැමතියි, එය ද්‍රව්‍යයට වඩා අතිශයෝක්තියට වඩා හොඳින් ක්‍රියා කරයි.

දත්ත විද්‍යා ient යා: සැන් ෆ්රැන්සිස්කෝ හි වෙසෙන සංඛ්යාන ician යෙක්.

ඒ හා සමානව, බටහිර වෙරළ තීරයේ මේ සියල්ලේ රසය මත මෙම රයිෆල්.

පුද්ගලිකව, මම සාකච්ඡාව (පොදුවේ, සහ මෙහි) තරමක් කම්මැලි සහ පුනරාවර්තනයක් ලෙස දකිමි. මට අවශ්‍ය දේ ගැන සිතමින් සිටියදී --- සමහර විට සියවසකට හෝ ඊට වැඩි කාලයකට පෙර --- මම ප්‍රමාණාත්මක විශ්ලේෂකයෙකු ඉලක්ක කර ගතිමි. එය තවමත් මා කරන දෙයයි (සහ ආදරය!) එය බොහෝ දුරට අතිච්ඡාදනය වන අතර විවිධ පිළිතුරු වලින් මෙහි දී ඇති දේ ආවරණය කරයි.

(සටහන: දෙවන උපුටා දැක්වීම සඳහා පැරණි ප්‍රභවයක් ඇත, නමුත් මට දැන් එය සොයාගත නොහැක.)


27
+1. I find the discussion (in general, and here) somewhat boring and repetitiveට්‍රයිෆල් හෝ අළුත් කතාබහට ලක්වන වචන පිළිබඳ නිෂ් ain ල කතා, මම එකතු කරමි. දත්ත විද්‍යා scientists යින්, ක්‍රිස්තියානි විද්‍යා scientists යින් සහ දත්ත විද්‍යා ologists යින් අතර වෙනස මට තවමත් හඳුනාගත නොහැකිය.
ttnphns

1
LOL @ දත්ත විද්‍යා ologists යින්.
dsaxton

4
මම (ඇත්තෙන්ම නිර්නාමික) ඉතා බැරෑරුම් පුද්ගලයාට මගේ තොප්පිය ඉඟි කරමි . ඉඟිය: සාකච්ඡාව වැඩි දියුණු වන්නේ එලෙස නොවේ.
ඩර්ක් එඩෙල්බුටෙල්

1
දකුණු සැන් ෆ්රැන්සිස්කෝ හි සංඛ්යාන ician යෙකු වීම, දත්ත විද්යා ist යා යන මාතෘකාවට ඉතා ක්රියාශීලීව සටන් වදින අතර, දෙවන අර්ථ දැක්වීම ගෙදරට සමීප වේ (නමුත් මම පහත් තැනැත්තා නොවේ).
ක්ලිෆ් ඒබී

1
(+1) l ක්ලිෆ්ඒබ් මම ඇත්ත වශයෙන්ම දකුණු සැන් ෆ්රැන්සිස්කෝහි සංඛ්යාන ician යෙක් වෙමි.
රස්ටිස්ටැටිස්ටික්

88

මිනිසුන් දත්ත විද්‍යාව වෙනස් ලෙස අර්ථ දක්වයි, නමුත් මම සිතන්නේ පොදු කොටස:

  • ප්‍රායෝගික දැනුම දත්ත සමඟ කටයුතු කරන්නේ කෙසේද,
  • ප්‍රායෝගික ක්‍රමලේඛන කුසලතා.

එහි නමට පටහැනිව, එය කලාතුරකින් "විද්‍යාව" වේ. එනම්, දත්ත විද්‍යාවේ දී අවධාරණය කෙරෙන්නේ ප්‍රායෝගික ප්‍රති results ල (ඉංජිනේරු විද්‍යාව වැනි) මිස සාක්‍ෂි, ගණිතමය පාරිශුද්ධත්වය හෝ ශාස්ත්‍රීය විද්‍යාවේ දැඩි ලක්ෂණය නොවේ. දේවල් වැඩ කිරීමට අවශ්‍ය වන අතර, එය ශාස්ත්‍රීය කඩදාසියක්, පවත්නා පුස්තකාලයක් භාවිතා කිරීම, ඔබේම කේතය හෝ පෙර නොවූ විරූ හැක් කිරීම මත පදනම් වී ඇත්නම් සුළු වෙනසක් ඇත.

සංඛ්‍යාලේඛන ian යා ක්‍රමලේඛකයෙකු අවශ්‍ය නොවේ (පෑන සහ කඩදාසි සහ විශේෂිත මෘදුකාංගයක් භාවිතා කළ හැකිය). එසේම, දත්ත විද්‍යාවේ සමහර රැකියා ඇමතුම් සංඛ්‍යාලේඛන සමඟ කිසිදු සම්බන්ධයක් නැත. උදා: එය විශාල දත්ත සැකසීම වැනි දත්ත ඉංජිනේරු විද්‍යාවයි, එහි වඩාත්ම දියුණු ගණිතය සාමාන්‍යය ගණනය කළත් (පුද්ගලිකව මම මෙම ක්‍රියාකාරකම "දත්ත විද්‍යාව" ලෙස නොකියමි). එපමණක් නොව, "දත්ත විද්‍යාව" අතිශයෝක්තියට නංවා ඇත, එබැවින් ස්පර්ශක සම්බන්ධ රැකියා මෙම මාතෘකාව භාවිතා කරයි - අයදුම්කරුවන් ආකර්ෂණය කර ගැනීමට හෝ වත්මන් සේවකයින්ගේ ඊගෝව ඉහළ නැංවීමට.

Quora පිළිබඳ මයිකල් හොක්ස්ටර්ගේ පිළිතුරෙන් වර්ගීකරණයට මම කැමතියි :

දත්ත විද්‍යා ient යකු ටයිප් කරන්න: A යනු විශ්ලේෂණය සඳහා ය. මෙම වර්ගය මූලික වශයෙන් සැලකිලිමත් වන්නේ දත්ත පිළිබඳ හැඟීමක් ඇති කිරීම හෝ එය සමඟ තරමක් ස්ථිතික ආකාරයකින් වැඩ කිරීම ය. දත්ත විද්‍යා ient යා සංඛ්‍යාලේඛන ician යෙකුට බෙහෙවින් සමාන ය (නමුත් එකක් විය හැකිය) නමුත් සංඛ්‍යාලේඛන විෂය මාලාවේ උගන්වනු නොලබන දත්ත සමඟ වැඩ කිරීමේ සියලු ප්‍රායෝගික තොරතුරු දනී: දත්ත පිරිසිදු කිරීම, ඉතා විශාල දත්ත කට්ටල සමඟ කටයුතු කිරීමේ ක්‍රම, දෘශ්‍යකරණය , විශේෂිත වසමක් පිළිබඳ ගැඹුරු දැනුමක්, දත්ත ගැන හොඳින් ලිවීම සහ යනාදිය.

B දත්ත විද්‍යා ient යා: B යනු ගොඩනැගීම සඳහා ය. B වර්ගයේ දත්ත විද්‍යා ists යින් A වර්ගය සමඟ සංඛ්‍යානමය පසුබිමක් බෙදාගනී, නමුත් ඔවුන් ද ඉතා ශක්තිමත් කේත රචකයන් වන අතර පුහුණු මෘදුකාංග ඉංජිනේරුවන් විය හැකිය. බී වර්ගයේ දත්ත විද්‍යා ient යා ප්‍රධාන වශයෙන් උනන්දු වන්නේ “නිෂ්පාදනයේදී” දත්ත භාවිතා කිරීමට ය. ඔවුන් පරිශීලකයින් සමඟ අන්තර් ක්‍රියා කරන ආකෘති සාදයි, බොහෝ විට නිර්දේශයන්ට සේවය කරයි (නිෂ්පාදන, ඔබ දන්නා පුද්ගලයින්, දැන්වීම්, චිත්‍රපට, සෙවුම් ප්‍රති results ල).

ඒ අර්ථයෙන් ගත් කල, ටයිප් ඒ ඩේටා සයන්ටිස්ට් යනු වැඩසටහන් කළ හැකි සංඛ්‍යාලේඛන ian යෙකි. එහෙත්, ප්‍රමාණාත්මක කොටසකට වුවද, සාමාන්‍ය සංඛ්‍යාලේඛනවලට වඩා පරිගණක විද්‍යාවේ පසුබිමක් ඇති පුද්ගලයින් (උදා: යන්ත්‍ර ඉගෙනීම) හෝ දත්ත දෘශ්‍යකරණය කෙරෙහි අවධානය යොමු කරන අය සිටිය හැකිය.

සහ දත්ත විද්‍යා වෙන්න් රූප සටහන (මෙහි: අනවසරයෙන් ඇතුළුවීම ~ ක්‍රමලේඛනය):

දත්ත විද්‍යා වෙන් රූප සටහන

විකල්ප වෙන් රූප සටහන් ද බලන්න ( මෙය සහ ). හෝ ට්වීට් එකක් පවා හාස්‍යජනක වන අතර දත්ත විද්‍යා ist යෙකුගේ සාමාන්‍ය කුසලතා හා ක්‍රියාකාරකම් පිළිබඳ සමබර ලැයිස්තුවක් පෙන්වයි:

දත්ත විද්‍යා ist යෙකුට හැකි විය යුතුය

මෙම ලිපියද බලන්න: දත්ත විද්‍යා ist - සංඛ්‍යාලේඛන ian, ක්‍රමලේඛක, උපදේශක සහ දෘශ්‍යකරණය? .


14
මම ට්වීටයට කැමතියි. පීසා පුළුස්සන්න, පාරිසරික එළවළු වගා කරන්න, කවි ලිවීමට හා සල්සා ලිවීමට ඔහු දැන සිටිය යුතු බව මම දනිමි :)
ටිම්

3
සුළු විවාදාත්මක: සෑම “විද්‍යාවකටම” “සාක්ෂි හෝ ගණිතමය පාරිශුද්ධත්වය” අවධාරණය නොකෙරේ. උදා: ජීව විද්‍යාව.
amoeba

2
P- අගයක් හැක් කිරීම යන්නෙන් අදහස් කරන්නේ කුමක්ද? යමෙකුට (සේවාදායකයාට) නිශ්චිත p- වටිනාකමක් ඇති ඉලක්කයක් ඇති බව මට පෙනේ. දත්ත විද්‍යා ist යා විසින් p- අගය ඉලක්කය සපුරා ගත හැකි වන පරිදි දත්ත කපා කොටා දැමිය යුතුය. නැතහොත් එය වෙනස් දෙයක් අදහස් කළ යුතුද?
emory

2
@amory මෙම ට්වීට් හාස්‍යජනක ය (එය en.wikiquote.org/wiki/Time_Enough_for_Love වෙතින් ලබාගත් ඡේදයක පැස්ටියකි , "මිනිසෙකුට [ලැයිස්තු ගත කිරීමට] හැකි විය යුතුය. විශේෂීකරණය කෘමීන් සඳහා වේ."). "P-value හැක් කරන්න" නිසැකවම අඳුරු පුරුද්දකි (කනගාටුවට කරුණක් නම්, සමහර ශාස්ත්‍රීය විෂයයන්හි ප්‍රචලිතයි), සහ (මම බලාපොරොත්තු වෙමි) මෙහි විහිළුවක් ලෙස සලකමි.
පියොටර් මිග්ඩාල්

4
දැවැන්ත දත්ත කට්ටල පිළිබඳ සරල “සංඛ්‍යාලේඛන” ගණනය කරන දත්ත විද්‍යා ient යෙකු ලෙස කිසිවෙකු නොපැමිණීම පිළිබඳ ප්‍රකාශය සඳහා +1. මම හිතන්නේ අපි දත්ත විද්‍යාවේ අවධියකින් පිටතට යමින් පොකුරු පරිගණකකරණය පිළිබඳ විශේෂ specialized යන් (හදූප් යනාදිය) “දත්ත විද්‍යා ient යන්” ලෙස ලේබල් කරන ලදී. මම එම කුසලතා පහත් කොට සලකන්නේ නැත, නමුත් ඒවා සංඛ්‍යාන / තර්කන / විමර්ශන කුසලතා තරම් වැදගත් නොවන අතර තාක්‍ෂණය සිතියම් අඩුකිරීමෙන් ඔබ්බට ගමන් කරයි.
වේන්

42

දත්ත විද්‍යා ක්ෂේත්‍රයේ සමීක්ෂණ ගණනාවක් තිබේ. මම වගේ මේ එක් ඒක ඇත්තටම දත්ත විද්යා රැකියා පැවැත්වීමට අය පිළිබඳව තොරතුරු විශ්ලේෂණය කිරීමට උත්සාහ නිසා. සාර්‍ථක සාක්ෂි හෝ කතුවරයාගේ පක්ෂග්‍රාහීත්වය භාවිතා කරනවා වෙනුවට, දත්ත විද්‍යා scient ඩීඑන්ඒ විශ්ලේෂණය කිරීම සඳහා ඔවුන් දත්ත විද්‍යා ශිල්පීය ක්‍රම භාවිතා කරයි.

දත්ත විද්‍යා .යින් විසින් ලැයිස්තුගත කර ඇති කුසලතා දෙස බැලීම තරමක් හෙළි කරයි. ඉහළම කුසලතා 20 තුළ තොරතුරු තාක්ෂණ කුසලතා රාශියක් ඇති බව සැලකිල්ලට ගන්න.

වර්තමාන ලෝකයේ, දත්ත විද්‍යා ist යෙකු සියලු ගනුදෙනු වල ජැක් එකක් වනු ඇතැයි අපේක්ෂා කෙරේ; solid න ප්‍රමාණාත්මක පදනමක්, ක්‍රමලේඛනය සඳහා යෝග්‍යතාවයක්, අසීමිත බුද්ධිමය කුතුහලය සහ විශිෂ්ට සන්නිවේදන කුසලතා ඇති ස්වයං ඉගෙනුම්කරුවෙකි.

රූප විස්තරය මෙහි ඇතුළත් කරන්න

යාවත්කාලීන කිරීම:

මම සංඛ්‍යාලේඛන ian යෙක්, නමුත් මම දත්ත විද්‍යා ist යෙක්ද? මම විද්‍යාත්මක ගැටලු මත වැඩ කරමි, එබැවින් මම විද්‍යා ist යෙකු විය යුතුය!

ඔබ ආචාර්ය උපාධිය කරන්නේ නම්, ඔබ දැනටමත් විද්‍යා ist යෙකු විය හැකිය, විශේෂයෙන් ඔබ පුවත්පත් සහ ක්‍රියාකාරී පර්යේෂණ ප්‍රකාශයට පත් කර ඇත්නම්. දත්ත විද්‍යා ist යෙකු වීමට ඔබ විද්‍යා ist යෙකු වීමට අවශ්‍ය නැත. වොල්මාට් වැනි සමහර ආයතනවල ආචාර්ය උපාධි අවශ්‍ය වන සමහර භූමිකාවන් ඇත, නමුත් සාමාන්‍යයෙන් දත්ත විද්‍යා scientists යින්ට පහත උදාහරණ වලින් දැකිය හැකි පරිදි BS සහ MS උපාධි ඇත.

ඉහත වගුවෙන් ඔබට ගණනය කළ හැකි පරිදි, බොහෝ විට ඔබට හොඳ ක්‍රමලේඛන සහ දත්ත හැසිරවීමේ කුසලතා තිබිය යුතුය. එසේම, බොහෝ විට දත්ත විද්‍යාව යන්ත්‍ර ඉගෙනීමේ විශේෂ expert තාවයේ යම් මට්ටමක, බොහෝ විට “ගැඹුරු” සමඟ සම්බන්ධ වේ. ඔබට සංඛ්‍යාලේඛන පිළිබඳ ආචාර්ය උපාධියක් තිබේ නම් ඔබ නිසැකවම දත්ත විද්‍යා ist යෙකු ලෙස හැඳින්විය හැකිය. කෙසේ වෙතත්, ඉහළ පාසල්වල පරිගණක විද්‍යාව පිළිබඳ ආචාර්ය උපාධිය සංඛ්‍යාලේඛන උපාධිධාරීන්ට වඩා තරඟකාරී විය හැකිය, මන්ද ඔවුන්ට ශක්තිමත් ක්‍රමලේඛන කුසලතාවන්ගෙන් පරිපූරක වන තරමක් ප්‍රබල ව්‍යවහාරික සංඛ්‍යාලේඛන දැනුමක් තිබිය හැකි බැවිනි. ඒවාට එරෙහිව සටන් කිරීම සඳහා ඔබට ශක්තිමත් ක්‍රමලේඛන කුසලතා ලබා ගත යුතුය, එබැවින් සමබරතාවයකින් ඔබ ඉතා තරඟකාරී වනු ඇත. සිත්ගන්නා කරුණ නම් සාමාන්‍යයෙන් සියලුම සංඛ්‍යාලේඛන ආචාර්ය උපාධිධාරීන්ට යම් ක්‍රමලේඛන අත්දැකීමක් තිබීමයි, නමුත් දත්ත විද්‍යාවේ බොහෝ විට අවශ්‍යතාවය ඊට වඩා බෙහෙවින් වැඩි ය,

මට සංඛ්‍යාලේඛන පිළිබඳ ආචාර්ය උපාධියක් තිබීමේ වාසිය ඇත්තේ සාමාන්‍යයෙන් අතහැර දමා ඇති “සියලු ගනුදෙනු වල ජැක්” යන වාක්‍ය ඛණ්ඩයේ ඉතිරි කොටසයි. සෑම දෙයක්ම මඳක් දන්නා පුද්ගලයින් සිටීම සතුටක්, නමුත් මම සෑම විටම ගැඹුරින් යමක් දන්නා පුද්ගලයින් සොයමි, එය සංඛ්‍යාලේඛන හෝ පරිගණක විද්‍යාව එතරම් වැදගත් නොවේ. වැදගත්ම දෙය නම් මිනිහාට පහළට යාමට හැකියාව තිබීම, ඔබට එය අවශ්‍ය වූ විට එය ඉතා හොඳ ගුණාංගයකි.

දත්ත විද්‍යා .යින්ගේ ඉහළම සේවා යෝජකයින් ද සමීක්ෂණයෙන් ලැයිස්තුගත කර ඇත. මයික්‍රොසොෆ්ට් ඉහළින්ම සිටින බව පෙනේ. ඔවුන් සොයන දේ පිළිබඳ වඩා හොඳ අදහසක් ලබා ගැනීමට ඔබට අවශ්‍ය නම්, රැකියා අංශයේ “දත්ත විද්‍යාව” සමඟ ලින්ක්ඉන් සෙවීම ප්‍රයෝජනවත් වේ. පහත දැක්වෙන්නේ එම්.එස්. සහ වෝල්මාර්ට් ලින්ක්ඩ්ඉන් හි රැකියා වලින් උපුටා ගත් කරුණු දෙකකි.

  • මයික්‍රොසොෆ්ට් දත්ත විද්‍යා ient යා

    • දත්ත සැකසුම් පද්ධති / සේවා ගොඩනැගීමේ අවුරුදු 5+ මෘදුකාංග සංවර්ධන පළපුරුද්ද
    • සංඛ්‍යාලේඛන, දත්ත කැණීම් හෝ යන්ත්‍ර ඉගෙනීම පිළිබඳ විශේෂ ization තාවයක් ඇති පරිගණක විද්‍යාව, ඊඊ හෝ ගණිතය පිළිබඳ උපාධියක් හෝ උසස් සුදුසුකම්.
    • මහා පරිමාණ දත්ත හැසිරවීමේදී විශිෂ්ට ක්‍රමලේඛන කුසලතා (සී #, ජාවා, පයිතන්, ආදිය)
    • හැඩූප් හෝ වෙනත් විශාල දත්ත සැකසුම් තාක්ෂණය පිළිබඳ වැඩ කරන දැනුම
    • විශ්ලේෂණ නිෂ්පාදන පිළිබඳ දැනුම (උදා: R, SQL AS, SAS, Mahout, ආදිය) වැඩි වීමකි.

සංඛ්‍යාලේඛන පැකේජ දැන ගැනීම ප්ලස් එකක් පමණක් බව සලකන්න, නමුත් ජාවා හි විශිෂ්ට ක්‍රමලේඛන කුසලතා අවශ්‍යතාවයකි.

  • වෝල්මාර්ට්, දත්ත විද්‍යා ient

    • පරිගණක විද්‍යාව හෝ ඒ හා සමාන ක්ෂේත්‍රයක ආචාර්ය උපාධිය හෝ අවම වශයෙන් අවුරුදු 2-5 ක පළපුරුද්දක් ඇති එම්.එස්
    • C ++ හෝ Java හි හොඳ ක්‍රියාකාරී කේතීකරණ කුසලතා (ජාවා වඩාත් කැමති වේ)
    • C ++ / Java / Hadoop / Hive යන දෙකින්ම නිෂ්පාදන කේතය ලිවීම සඳහා දෛනික වැඩ කරන දින 10% ක් දක්වා වියදම් කිරීමේ හැකියාව තිබිය යුතුය.
    • පයිතන් හෝ පර්ල් වැනි ස්ක්‍රිප්ටින් භාෂාවක් පිළිබඳ විශේෂ level මට්ටමේ දැනුම.
    • විශාල දත්ත කට්ටල හා බෙදා හරින ලද පරිගණක මෙවලම් සමඟ වැඩ කිරීමේ පළපුරුද්ද (සිතියම / අඩු කිරීම, හැඩූප්, වඩාත් කාර්යබහුල අවධියක්, ස්පාර්ක් ආදිය)

මෙන්න, ආචාර්ය උපාධිය වඩාත් කැමති නමුත් පරිගණක විද්‍යා මේජර් පමණක් නම් කර ඇත. හැඩූප් හෝ ස්පාර්ක් සමඟ බෙදා හරින ලද පරිගණකකරණය සංඛ්‍යාලේඛන ician යෙකුගේ අසාමාන්‍ය කුසලතාවයක් විය හැකි නමුත් සමහර න්‍යායාත්මක භෞතික විද්‍යා and යින් සහ ව්‍යවහාරික ගණිත ians යින් සමාන මෙවලම් භාවිතා කරයි.

යාවත්කාලීන කිරීම 2:

“දත්ත විද්‍යා ient යා” මාතෘකාව මරා දැමීමට දැනටමත් කාලය පැමිණ තිබේ ” යනුවෙන් තෝමස් ඩේවන්පෝට් පවසයි. 2012 දී හාවඩ් බිස්නස් රිවීව් හි “ දත්ත විද්‍යා ient යා: 21 වන සියවසේ සරාගිතම රැකියාව ” යන මාතෘකාව යටතේ ලිපියක් රචනා කළ තෝමස් ඩේවන්පෝට් , දත්ත විද්‍යා ist යන්ගේ උමතුව ආරම්භ කළේ මෙසේ ය:

“දත්ත විද්‍යා ist යෙකු” ලෙස ඔබ හෝ එසේ වීමට කැමති හෝ කුලියට ගැනීමට අවශ්‍ය යැයි කීමෙන් අද අදහස් කරන්නේ කුමක්ද? බොහෝ නොවේ, අවාසනාවකට.


3
+1 දත්ත භාවිතා කිරීම සහ හොඳ දත්ත පදනම් කරගත් වාර්තාවකට සම්බන්ධ කිරීම සඳහා. නමුත් තිර පිටපතට වෙබ් බ්‍රව්සර අතුරු මුහුණතක් අවශ්‍යද?
පියොටර් මිග්ඩාල්

OtPiotrMigdal, මම කම්මැලි වීම නතර කිරීමට හෝ කම්මැලි වීම නැවැත්විය යුතුයි
අක්ෂකල්

4
මම එය ඔබ වෙනුවෙන් කැපුවා.
amoeba

1
අද යාවත්කාලීන කිරීමෙන් පසු පහත් කොට සැලකීමට මා පෙළඹී ඇත: මෙම ත්‍රෙඩ් එක දැනටමත් ඉතා කාර්යබහුල වන අතර පහළට අනුචලනය කිරීමට දැවැන්ත උපුටා දැක්වීමක් මගේ මතයට එතරම් ප්‍රයෝජනවත් නොවේ ... සමහර විට සබැඳි + කෙටි සාරාංශය ප්‍රමාණවත් විය හැකිද?
amoeba

1
@amoeba, මම ලැයිස්තුව ඉවත් කළා. එය සාධාරණ අදහස් දැක්වීමකි
අක්ෂකල්

39

කොහේ හරි මම මෙය කියවා ඇත්තෙමි (සංස්කරණය කරන්න: ජොෂ් විල් ඔහුගේ ට්වීට් එක පැහැදිලි කරයි ):

දත්ත විද්‍යා ist යා යනු ඕනෑම ක්‍රමලේඛකයෙකුට වඩා සංඛ්‍යාලේඛන හා උසස් සංඛ්‍යාලේඛන ician යෙකුට වඩා හොඳ අයෙකි.

මෙම දත්ත විද්‍යා ක්‍රියාවලිය මඟින් මෙම උපුටා දැක්වීම කෙටි කලකින් පැහැදිලි කළ හැකිය . මෙම යෝජනා ක්‍රමය පිළිබඳ පළමු බැල්ම "හොඳයි, ක්‍රමලේඛන කොටස කොහේද?" ලෙස පෙනේ, නමුත් ඔබට දත්ත ටොන් ගණනක් තිබේ නම් ඒවා සැකසීමට ඔබට හැකි විය යුතුය.


11
සංඛ්‍යාලේඛන ician යෙකු වන සෑම R දායකයෙක්ම දත්ත විද්‍යා ist යෙක් විය හැකිද? ;)
ටිම්

15
ඇවැත්නි, මම වෙබ් අඩවියේ සැරිසැරූ අතර, මෙම ප්‍රශ්නය ගැන කල්පනා කරමින් ( දත්ත විද්‍යාව ඇති බව සලකන විට ) පසුව සම්මත කිරීමේදී මට ෆ්‍රිජින් විකිපීඩියා පිටුවක් ඇති බව දැන ගන්න ? එය මට ප්‍රවෘත්තියක් විය ... තවද එය වටින දෙය නම් මම සංඛ්‍යාන නොව ආර්ථික විද්‍යාව පිළිබඳ පුහුණුව ලබා ඇති නමුත් වසර 20+ ක් තිස්සේ 'ප්‍රමාණයක්' ලෙස වැඩ කර තිබීමයි. බව ය ඵලදායී ... දත්ත විද්යාව මෙන් ම
ඩර්ක් Eddelbuettel

3
-1. මම පහත් කොට සලකන්නේ මා උපුටා දැක්වීමට අකමැති නිසා නොවේ (එය බොහෝ විට කම්මුලෙහි දිව විය හැක), නමුත් පිළිතුර ඉතා කෙටි හා සනාථ කළ නොහැකි නිසා, විශේෂයෙන් මෙහි වෙනත් බොහෝ පිළිතුරු සමඟ සසඳන විට. සමහර විට ඔබ එය කෙසේ හෝ පුළුල් නොකළහොත් එය අදහස් දැක්වීමක් බවට පරිවර්තනය කිරීමට මම යෝජනා කරමි.
amoeba

3
එහි කර්තෘ ජොෂ් විල්ස් විසින් මෙම උපුටා දැක්වීම පිළිබඳ පැහැදිලි කිරීමක් මෙන්න . උපුටා දැක්වීමෙන් පසු පළමු ඡේද තුන මෙම සාකච්ඡාවට බෙහෙවින් අදාළ වේ.
amoeba

3
@amoeba: මේ මොහොත දක්වාම මම ජොෂ් විල්ස්ගේ ලිපියට කැමතියි: “පරාමිතික නොවන ආකෘති වෙනුවට විශාල ගණනය කිරීම් අවශ්‍ය වන පරාමිතික ආකෘති කෙරෙහි අවධානය යොමු කිරීමෙන් පරිගණක විද්‍යා scientists යින් බිය ගැන්වීමට හැකි වන පරිදි අපි උසස් සංඛ්‍යාලේඛන මිනිසුන්ට උගන්වනු ඇතැයි මම සැක කරමි. ඒවා මූලික වශයෙන් පරිගණකමය වේ ”. සංඛ්‍යාලේඛන ians යින්ට හොඳින් වැඩ සටහන් කරන්නේ කෙසේද යන්නට වඩා උසස් සංඛ්‍යාලේඛන සීඑස් පුද්ගලයින්ට ඉගැන්වීම පහසු බව මම ඔහු සමඟ එකඟ නොවෙමි (බොහෝ සංඛ්‍යාලේඛන ians යින් භයානක ක්‍රමලේඛකයින් බව මම නිසැකවම එකඟ වෙමි).
ක්ලිෆ් ඒබී

16

මම පිළිතුරු කිහිපයක් ලියා ඇති අතර, ඒවා දිගු වූ සෑම අවස්ථාවකම මම අවසානයේ තීරණය කළේ මම සබන් පෙට්ටියක නැගී සිටින බවය. නමුත් මෙම සංවාදය වැදගත් සාධක දෙකක් සම්පූර්ණයෙන් ගවේෂණය කර නැතැයි මම සිතමි.

  1. මෙම විද්යා දත්ත විද්යා. විද්‍යාත්මක ප්‍රවේශයක් යනු ඔබේම ආකෘති, න්‍යායන්, විශේෂාංග, තාක්‍ෂණික තේරීම් යනාදිය විනාශ කිරීමට ඔබ උත්සාහ කරන අතර ඔබට එය කළ නොහැකි වූ විට පමණක් ඔබේ ප්‍රති results ල ප්‍රයෝජනවත් විය හැකි බව ඔබ පිළිගනී. එය මානසිකත්වයක් වන අතර මට හමු වූ හොඳම දත්ත විද්‍යා ists යින් බොහෝ දෙනෙකුට දෘ science විද්‍යා පසුබිම් ඇත (රසායන විද්‍යාව, ජීව විද්‍යාව, ඉංජිනේරු විද්‍යාව).

  2. දත්ත විද්‍යාව යනු පුළුල් ක්ෂේත්‍රයකි. හොඳ දත්ත විද්‍යා ප්‍රති come ලයකට සාමාන්‍යයෙන් දත්ත විද්‍යා ient යින් කුඩා කණ්ඩායමක් සම්බන්ධ වන අතර, ඒ සෑම කෙනෙකුටම ඔවුන්ගේ විශේෂත්වය ඇත. නිදසුනක් වශයෙන්, එක් කණ්ඩායම් සාමාජිකයෙකු වඩාත් දැඩි හා සංඛ්‍යානමය, තවත් අය ඉංජිනේරු පසුබිමක් ඇති වඩා හොඳ ක්‍රමලේඛකයෙක් වන අතර තවත් අයෙක් ව්‍යාපාරික බුද්ධිමත් අය සමඟ ශක්තිමත් උපදේශකයෙකි. තිදෙනාම විෂය කරුණු ඉගෙන ගැනීමට ඉක්මන් වන අතර, තිදෙනාම කුතුහලයෙන් සිටින අතර සත්‍යය සොයා ගැනීමට අවශ්‍යය - කෙසේ වෙතත් වේදනාකාරී - සහ පාරිභෝගිකයා (අභ්‍යන්තර හෝ බාහිර) ගනුදෙනුකරුගේ යහපතට හේතුවන දේ කිරීමට පාරිභෝගිකයා අකමැති වුවද. තේරෙන්නේ නැහැ.

පසුගිය වසර කිහිපය තුළ පැවති පරතරය - දැන් මැකී යමින්, මම සිතන්නේ - පොකුරු තාක්‍ෂණයන් (හදූප් පරිසර පද්ධතිය යනාදිය) ප්‍රගුණ කළ පරිගණක විද්‍යා ists යින් බඳවා ගැනීම සහ එය පරිපූර්ණ දත්ත විද්‍යා ist යා යැයි පැවසීමයි. මම හිතන්නේ එය OP ට මුහුණ දී ඇති අතර, ඔවුන්ගේ ශක්තීන් දැඩි, නිවැරදි බව සහ විද්‍යාත්මක චින්තනය තුළට තල්ලු කරන ලෙස මම OP ට උපදෙස් දෙමි.


UstRustyStatistician: ඔබව සාදරයෙන් පිළිගනිමු. මා වැඩ කරන උපදේශනයට ආචාර්ය උපාධි (ඉංජිනේරු, ජීව විද්‍යාව, තාරකා විද්‍යාව, පරිගණක විද්‍යාව) ඇති බව මම දනිමි, නමුත් පොදුවේ ගත් කල එම්එස් උපාධි - බොහෝ විට රැකියා පළපුරුද්ද ඇති අය විශ්ලේෂණ පිළිබඳ එම්එස් සඳහා ආපසු යන - මිහිරි ස්ථානයක් ලෙස . එයින් කියැවෙන්නේ, මම තාක්‍ෂණික නායකයා වන ව්‍යාපෘතියක දැනට සිටින මගේ ජීව විද්‍යාව පිළිබඳ ආචාර්ය උපාධිධාරී සේවකයාට මම සෑම දිනකම ස්තූතිවන්ත වන බවයි. ආර්ථික පසුබිමක් ඇති (සහ විශ්ලේෂණ පිළිබඳ එම්.එස්.) ව්‍යාපෘති නායකයා සමඟ, අපි විශිෂ්ට කණ්ඩායමක්! (මගේ එම්එස් කෘතිම බුද්ධියේ ඇත.)
වේන්

+1, නමුත් මම [හොඳ] දත්ත විද්යාව බව පවසමින් ඔබේ පළමු වෙඩි ස්ථානය ගැන පුදුම වෙනවා වේ විද්යා. එසේ නම්, එය කුතුහලය දනවන හා සමහර විට නොමඟ යවන (?) යෙදුමකි, මන්ද “දත්ත විද්‍යාව” “දත්ත” අධ්‍යයනය නොකිරීම; දී ඇති යෙදුමකට උනන්දුවක් දක්වන වෙනත් දෙයක් අධ්‍යයනය කිරීමට එය දත්ත භාවිතා කරයි. ඊට වෙනස්ව, උදා: "දේශපාලන විද්‍යාව" දේශපාලනය හැදෑරීමට නියමිත අතර "ස්නායු විද්‍යාව" නියුරෝන අධ්‍යයනය කරයි.
amoeba

1
@amoeba: ඇත්ත වශයෙන්ම, මම අදහස් කළේ දත්ත විද්‍යා ient යෙකු විසින් දත්ත තේරුම් ගන්නා හා භාවිතා කරන ආකාරයෙහි කොටසක් ලෙස ඇල රිචඩ් ෆේන්මන් නම් විද්‍යාත්මක ක්‍රමය භාවිතා කළ යුතු බවයි. (ඔබ පවසන පරිදි, විශේෂිත යෙදුමක් ලුහුබැඳීමේදී.) එය කාර්යයේ සංඛ්‍යානමය කොටසයි: "මෙම විචල්‍යය ඉතා වැදගත් බව පෙනේ - එය අනාගතයෙන් කාන්දු වීමක්ද?" නැතහොත් "මෙම ආකෘතිය සාධාරණ බව පෙනේ, නමුත් අපි සමස්ත ආකෘති නිර්මාණය කිරීමේ ක්‍රියාවලියම CV ක්‍රියාත්මක කරමු. ඉන්පසු අපි ඒ මත නැවත සකස් කිරීමක් කරමු." එය ඔබගේ ආකෘතිය / න්‍යාය සනාථ කිරීමට දැඩි උත්සාහයක් දරන අතර එසේ කිරීමට අන් අය සම්බන්ධ කර ගනී. "හරිත එම් ඇන්ඩ් එම්එස් පිළිකා ඇති කරයි" යනුවෙන් පිළිගැනීම.
වේන්

Science මෙතෙක් “විද්‍යාත්මක ක්‍රමය” සඳහන් කළ එකම තැනැත්තා වේන් ය. මේක හරිම කනගාටුදායකයි.
jgomo3

ඕනෑම දෙයක් පිළිබඳ හැඟීමක් ඇති කර ගැනීමට උත්සාහ කරන ඕනෑම කෙනෙකුට භෞතික විද්‍යාව පිළිබඳ අවබෝධයක්, විශේෂයෙන් ඒකක අවශ්‍ය වේ. කෙසේ වෙතත්, අපේ මේ නිර්භීත නව ලෝකය තුළ බොහෝ විට උප ප්‍රශස්ත පුරෝකථන වටිනාකමක් ඇති “ගොබ්-ස්ටොපර්ස්” ලෙස හියුමස් නිරීක්ෂණ කිරීම ප්‍රමාණවත් නමුත් සැබෑ විසඳුම් නොවේ.
කාල්

14

මම හිතන්නේ බිට්වයිස් මගේ පිළිතුරෙන් වැඩි ප්‍රමාණයක් ආවරණය කරන නමුත් මම මගේ 2 සී එකතු කරන්නෙමි.

නැත, මට කණගාටුයි, නමුත් සංඛ්‍යාලේඛන ician යෙකු දත්ත විද්‍යා ist යෙකු නොවේ, අවම වශයෙන් අද බොහෝ සමාගම් විසින් භූමිකාව අර්ථ දක්වන ආකාරය මත පදනම් වේ. කාලයත් සමඟ අර්ථ දැක්වීම වෙනස් වී ඇති බව සලකන්න. වෘත්තිකයන්ගේ එක් අභියෝගයක් වන්නේ ඒවා අදාළ වන බවට වග බලා ගැනීමයි.

"දත්ත විද්‍යා ient" භූමිකාවන් සඳහා අප අපේක්ෂකයින් ප්‍රතික්ෂේප කිරීමට පොදු හේතු කිහිපයක් මම බෙදා ගන්නෙමි:

  • රැකියාවේ විෂය පථය පිළිබඳ අපේක්ෂාවන් . සාමාන්‍යයෙන් DS ට ස්වාධීනව වැඩ කිරීමට හැකියාව තිබිය යුතුය. ඒ කියන්නේ ඔහුට පවරා ඇති ගැටලුව විසඳීම සඳහා ඔහු වෙනුවෙන් දත්ත කට්ටලය නිර්මාණය කිරීමට වෙනත් කිසිවෙක් නැත. එබැවින්, දත්ත ප්‍රභවයන් සොයා ගැනීමට, ඒවා විමසීමට, විසඳුමක් ආදර්ශනය කිරීමට සහ බොහෝ විට ගැටළුව විසඳන මූලාකෘතියක් නිර්මාණය කිරීමට ඔහුට හැකි විය යුතුය. බොහෝ විට එය උපකරණ පුවරුවක්, අනතුරු ඇඟවීමක් හෝ නිරන්තරයෙන් යාවත්කාලීන වන සජීවී වාර්තාවක් නිර්මාණය කිරීමකි.
  • සන්නිවේදනය . බොහෝ සංඛ්‍යාලේඛන ians යින්ට ඔවුන්ගේ අදහස් ව්‍යාපාරිකයින්ට “සරල කිරීම” සහ “විකිණීම” දුෂ්කර බව පෙනේ. ඔබට එක් ප්‍රස්ථාරයක් පමණක් පෙන්විය හැකි අතර කාමරයේ සිටින සෑම කෙනෙකුටම එය ලබා ගත හැකි වන පරිදි දත්ත වලින් කතාවක් පැවසිය හැකිද? මෙය අභියෝගයට ලක් වුවහොත් සෑම විශ්ලේෂණයක්ම ආරක්ෂා කර ගත හැකි බව ඔබ සුරක්ෂිත කිරීමෙන් පසුව බව සලකන්න.
  • කේතීකරණ කුසලතා . අපට නිෂ්පාදන මට්ටමේ කේතීකරණ කුසලතා අවශ්‍ය නොවේ, ඒ සඳහා අපට සංවර්ධකයින් සිටින බැවින්, කෙසේ වෙතත්, ඇයට මූලාකෘතියක් ලිවීමට සහ එය AWS EC2 අවස්ථාවකදී වෙබ් සේවාවක් ලෙස යෙදවීමට හැකියාව තිබිය යුතුය. එබැවින් කේතීකරණ කුසලතා යනු ආර් ස්ක්‍රිප්ට් ලිවීමේ හැකියාව නොවේ. මට මෙහි කොතැනක හෝ ලිනක්ස් චතුරත්වයක් එක් කළ හැකිය. එබැවින්, බොහෝ සංඛ්‍යාලේඛන ians යින් විශ්වාස කිරීමට වඩා බාර්එක ඉහළ ය.
  • SQL සහ දත්ත සමුදායන් . නැත, ඔහුට එය රැකියාවෙන් තෝරා ගත නොහැක, මන්දයත් ඔහු දැනටමත් දන්නා මූලික SQL අනුවර්තනය කර අපට අවශ්‍ය වන අතර රෙඩ්ෂිෆ්ට්, එච්අයිවී සහ ප්‍රෙස්ටෝ ඇතුළු අප අවයව හරහා භාවිතා කරන විවිධ ඩීබී පද්ධති විමසන්නේ කෙසේදැයි ඉගෙන ගත යුතුය. එය SQL හි තමන්ගේම රසය භාවිතා කරයි. ප්ලස්, රැකියාව පිළිබඳ SQL ඉගෙනීම යන්නෙන් අදහස් කරන්නේ අපේක්ෂකයා කාර්යක්ෂම විමසුම් ලිවීමට ඉගෙන ගන්නා තෙක් අනෙක් සෑම විශ්ලේෂකයෙකු තුළම ගැටලු ඇති කරන බවයි.
  • යන්ත්‍ර ඉගෙනීම . දී ඇති දත්ත කට්ටලයක් (කග්ගල් ශෛලිය) මත පදනම් වූ ගැටළුවක් විසඳීම සඳහා ඔවුන් සාමාන්‍යයෙන් ලොජිස්ටික් රෙග්‍රේෂන් හෝ වෙනත් ශිල්පීය ක්‍රම කිහිපයක් භාවිතා කර ඇත. කෙසේ වෙතත්, සම්මුඛ පරීක්ෂණය ඇල්ගොරිතම හා ක්‍රම වලින් ආරම්භ වුවද, එය ඉතා ඉක්මණින් විශේෂාංග උත්පාදනය වැනි මාතෘකා කෙරෙහි අවධානය යොමු කරයි (ඔබට දත්ත කට්ටලය නිර්මාණය කළ යුතු බව මතක තබා ගන්න, එය ඔබ වෙනුවෙන් නිර්මාණය කිරීමට වෙනත් කිසිවෙක් නැත), නඩත්තු කිරීමේ හැකියාව, පරිමාණය සහ කාර්යසාධනය මෙන්ම අදාළ වෙළඳාම. කිසියම් සන්දර්භයක් සඳහා ඔබට NIPS 2015 හි ප්‍රකාශයට පත් කරන ලද ගූගල් වෙතින් අදාළ පත්‍රිකාවක් පරීක්ෂා කළ හැකිය .
  • පෙළ විශ්ලේෂණය . අනිවාර්යයෙන්ම තිබිය යුතු නැත, නමුත් ස්වාභාවික භාෂා සැකසුම් පිළිබඳ යම් අත්දැකීමක් තිබීම හොඳය. සියල්ලට පසු, දත්ත වලින් විශාල කොටසක් පෙළ ආකෘතියෙන් ඇත. එම්එල් හෝ වෙනත් සංඛ්‍යානමය ප්‍රවේශයකින් පරිභෝජනය කළ හැකි වන පරිදි පරිවර්තනයන් සිදු කර ඔබ වෙනුවෙන් පෙළ පිරිසිදු කිරීමට වෙන කිසිවෙකු නැත. අද දින සීඑස් උපාධිධාරීන් පවා මෙම කොටුව සලකුණු කරන යම් ව්‍යාපෘතියක් කර ඇති බව සලකන්න.

ඇත්ත වශයෙන්ම කනිෂ් role භූමිකාවක් සඳහා ඔබට ඉහත සියල්ල තිබිය නොහැක. එහෙත්, මෙම කුසලතා කීයක් ඔබට මග හැරී ගොස් රැකියාව තෝරා ගත හැකිද?

අවසාන වශයෙන්, පැහැදිලි කිරීම සඳහා, සංඛ්‍යාලේඛන නොවන අය ප්‍රතික්ෂේප කිරීමට වඩාත්ම පොදු හේතුව හරියටම සංඛ්‍යාලේඛන පිළිබඳ මූලික දැනුමක් නොමැතිකමයි. කොතැනක හෝ දත්ත ඉංජිනේරුවෙකු සහ දත්ත විද්‍යා ist යෙකු අතර වෙනසක් තිබේ. එසේ වුවද, දත්ත ඉංජිනේරුවන් මෙම භූමිකාවන් සඳහා ඉල්ලුම් කිරීමට පෙළඹේ, මන්ද “සංඛ්‍යාලේඛන” යනු සාමාන්‍යය, විචල්‍යතාවය සහ සාමාන්‍ය ව්‍යාප්තිය පමණක් බව බොහෝ විට විශ්වාස කරති. එබැවින්, "සංඛ්‍යාලේඛන" යන්නෙන් අප අදහස් කරන්නේ කුමක්ද යන්න පැහැදිලි කිරීම සහ ව්‍යාකූලත්වය වළක්වා ගැනීම සඳහා රැකියා විස්තර වල අදාළ නමුත් බියජනක සංඛ්‍යානමය වචන කිහිපයක් අපි එකතු කළ හැකිය .


4
2006 සිට මම විශ්ව විද්‍යාල දෙකක "ව්‍යාපාර තොරතුරු" නමින් වැඩසටහන් වල ව්‍යවහාරික සංඛ්‍යාන හා දත්ත විශ්ලේෂණ පා courses මාලා උගන්වන අතර මෙය මගේ සිසුන් ඉගෙන ගන්නා දේට 100% ක් අදාළ වේ. 1. ඔවුන්ගේ ව්‍යාපාරය, වෙබය, සමීක්ෂණය යනාදියෙන් සැබෑ, සමහර විට අවුල් සහගත දත්ත එක්රැස් කිරීම අවශ්‍ය වේ. 2. පා .මාලාව සඳහා SQL දත්ත පදනමක් තුළ දත්ත පිරිසිදු කිරීම, සකස් කිරීම සහ ගබඩා කිරීම. 3. දත්ත පිළිබඳ විවිධ සංඛ්‍යාන විශ්ලේෂණ සිදු කරන්න. 4. පිටු 1-2 ක කෙටි විධායක කෙටිකතා සකස් කර වචනාර්ථයෙන් ක්‍රමලේඛනය (knitr හෝ ඒ හා සමාන) සමඟ ගැඹුරු වාර්තාවක් ලියන්න. එම දත්ත විද්‍යාවෙන් අතිරේක සංඛ්‍යාලේඛන / එම්එල් පා course මාලාවක් සහිත ව්‍යාපාර තොරතුරු වේ, නැත?
මෝමෝ

4
ඔබේ පා course මාලාවට අවශ්‍ය කුසලතා බොහොමයක් ආවරණය වන බව සහතිකයි. බොහෝ සංඛ්‍යාලේඛන පා courses මාලා සමඟ පරිගණක විද්‍යා උපාධිය සහ ව්‍යාපාර එම්එල් පදනම් කරගත් ගැටලුවක් පිළිබඳ නිබන්ධනයක් / සීමාවාසික පුහුණුවක් අපට සොයා ගත හැකි යැයි මම සිතමි. දවස අවසානයේදී, වැදගත් වන්නේ අපේක්ෂකයා මේසය මත ගෙන එන අදාළ කුසලතාවන්ගේ ගැඹුර සහ පළලයි .
iliasfl

11

උපකල්පනය සහ බස පද නොසලකා හැරීමට මට ඉඩ දෙන්න. මම හිතන්නේ "දත්ත විද්‍යා ient යා" (හෝ ඔබට එය හැඳින්වීමට අවශ්‍ය ඕනෑම දෙයක්) සැබෑ දෙයක් වන අතර එය සංඛ්‍යාලේඛන ician යෙකුට වඩා වෙනස් ය. Scientists ලදායි ලෙස දත්ත විද්‍යා scientists යින් වන නමුත් එම නම ලබා නොදෙන බොහෝ තනතුරු ඇත - එක් උදාහරණයක් නම් ජාන විද්‍යාවේ වැඩ කරන පුද්ගලයින් ය.

මා දකින ආකාරයට, දත්ත විද්‍යා ist යෙකු යනු සංකීර්ණ දත්ත විශාල ප්‍රමාණයක් පිළිබඳ පර්යේෂණ සැලසුම් කිරීම හා ක්‍රියාත්මක කිරීම සඳහා කුසලතා සහ විශේෂ ise තාව ඇති අයෙකි (උදා: යටින් පවතින යාන්ත්‍රණයන් නොදන්නා සහ සංකීර්ණ වූ ඉහළ මානයන්).

මෙයින් අදහස් වන්නේ:

  • ක්‍රමලේඛනය: විශ්ලේෂණයන් සහ නල මාර්ග ක්‍රියාත්මක කිරීමට හැකිවීම, බොහෝ විට දත්ත සමුදායන් හා ඉහළ කාර්යසාධනයක් සහිත පරිගණක සම්පත් සමඟ සමාන්තරකරණය හා අන්තර් සම්බන්ධතා අවශ්‍ය වේ.
  • පරිගණක විද්‍යාව (ඇල්ගොරිතම): තෝරාගත් විශ්ලේෂණය කළ හැකි සහ දෝෂ අනුපාතය පාලනය වන කාර්යක්ෂම ඇල්ගොරිතම සැලසුම් කිරීම / තෝරා ගැනීම. සමහර විට මේ සඳහා සංඛ්‍යාත්මක විශ්ලේෂණය, ප්‍රශස්තිකරණය යනාදිය පිළිබඳ දැනුම ද අවශ්‍ය විය හැකිය.
  • පරිගණක විද්‍යාව / සංඛ්‍යාලේඛන (සාමාන්‍යයෙන් යන්ත්‍ර ඉගෙනීමට අවධාරණය කිරීම): දත්ත පිළිබඳ ප්‍රශ්න ඇසීමට හෝ එහි “රටා” සොයා ගැනීමට රාමුවක් සැලසුම් කිරීම සහ ක්‍රියාත්මක කිරීම. මෙයට විවිධ පරීක්ෂණ / මෙවලම් / ඇල්ගොරිතම පිළිබඳ දැනුම පමණක් නොව නිසි ලෙස රඳවා තබා ගැනීම, හරස් වලංගුකරණය සහ යනාදිය ඇතුළත් වේ.
  • ආකෘති නිර්මාණය: බොහෝ විට දත්ත වලට සරල නිරූපණයක් ලබා දෙන යම් ආකෘතියක් නිපදවීමට අප කැමති වනු ඇත, එමඟින් අපට ප්‍රයෝජනවත් අනාවැකි පළ කළ හැකි අතර දත්ත යටින් පවතින යාන්ත්‍රණයන් පිළිබඳ අවබෝධයක් ලබා ගත හැකිය. සම්භාවිතා ආකෘති මේ සඳහා ඉතා ජනප්රියයි.
  • වසම්-විශේෂිත විශේෂ ise තාව: සංකීර්ණ දත්ත සමඟ සාර්ථකව වැඩ කිරීමේ එක් ප්‍රධාන අංගයක් වන්නේ වසම්-විශේෂිත තීක්ෂ්ණ බුද්ධිය ඇතුළත් කිරීමයි. එබැවින් දත්ත විද්‍යා ist යාට වසම පිළිබඳ විශේෂ ise දැනුමක් තිබීම, නව ක්ෂේත්‍ර ඉක්මනින් ඉගෙන ගැනීමට හැකි වීම හෝ දත්ත වෙත ප්‍රවේශ වන ආකාරය පිළිබඳ ප්‍රයෝජනවත් අවබෝධයක් ලබා දිය හැකි ක්ෂේත්‍රයේ ප්‍රවීණයන් සමඟ හොඳින් සම්බන්ධ වීමට හැකි වීම ඉතා වැදගත් බව මම කියමි. .

6
ඔබේ මතය අනුව සංඛ්‍යාලේඛන ician යෙක් කවුද? මෙම සංඛ්‍යාලේඛන ician යෙකුට තිබිය යුතු කුසලතාවන්ට වඩා මෙම කුසලතා ලැයිස්තුව වෙනස් වන්නේ කෙසේද?
amoeba

4
@amoeba මම වැරදියි, නමුත් බොහෝ සංඛ්‍යාලේඛන ians යින්ට මෙම කුසලතා සමහරක් නොමැත (උදා: දැවැන්ත දත්ත කට්ටල සහිත පුළුල් වැඩසටහන්කරණය, පරිගණක විද්‍යාව පිළිබඳ උපාධි මට්ටමේ පුහුණුව). එසේම, සමහර සංඛ්‍යානමය කුසලතා බොහෝ විට දත්ත විද්‍යා ist යෙකුට අදාළ නොවේ (සමහර න්‍යායන්, සමහර උප ක්ෂේත්‍ර).
බිට්වයිස්

4
@rocinante: “දැවැන්ත දත්ත කට්ටල සමඟ වැඩසටහන් කිරීම ඇත්තෙන්ම බාධාවක් නොවේ” යැයි මම තරයේ එකඟ නොවෙමි. සේවාදායකයක එන පැකට් මත පදනම්ව තත්‍ය කාලීන තීරණ ගන්නා මෘදුකාංග ක්‍රියාත්මක කළ හැකි “සංඛ්‍යාන ician යා” යන මාතෘකාව ඇති කිසිවෙකු මා දන්නා බව මම නොසිතමි. නිසැකවම සියලු දත්ත විද්‍යා scientists යින්ට නොහැකි විය, නමුත් අනුපාතය ඊට වඩා වැඩිය.
ක්ලිෆ් ඒබී

3
crocinante සංඛ්‍යාලේඛන පිළිබඳ මනා අවබෝධයක් අවශ්‍ය නමුත් මගේ මතය අනුව එය ප්‍රමාණවත් නොවේ. සංඛ්‍යාලේඛන හා එදිරිව වෙනත් කුසලතාවන්හි ගැඹුරු බව / දුෂ්කරතාවය සම්බන්ධයෙන්, පරිගණක විද්‍යා පැත්ත ගැන මනා අවබෝධයක් ලබා ගැනීම ගැඹුරු / දුෂ්කර යැයි මම සිතමි. එසේම, එම SE හි ඇති ප්‍රශ්න සම්බන්ධයෙන්, ඔබ ඕනෑම SE හි (මෙවැනි ප්‍රශ්නයක් ඇතුළුව) එවැනි ප්‍රශ්න සොයා ගනී - සමහර අයට තේරුම් නොගෙන පහසු විසඳුම් අවශ්‍ය බව හැර වෙන කිසිවක් අදහස් නොවේ.
බිට්වයිස්

7
මෙම “දත්ත විද්‍යාව එදිරිව සංඛ්‍යාලේඛන” විවාද වලදී වෙහෙසට පත්වන එක් දෙයක් නම් දත්ත විද්‍යා scientists යන් සංඛ්‍යාලේඛන ian යන්ගේ උසස් ප්‍රභේදයකට සමාන ය යන සියුම් ඇඟවීමයි. කාරණය නම්, ඔබේ දැනුමේ පළල වැඩි වන විට ගැඹුර පහත වැටෙන අතර, “දත්ත විද්‍යා ist යෙකු” වීමට අවශ්‍ය සියලු කාර්යයන් පිළිබඳව හෝඩුවාවක් නැති අයට වඩා හොඳ යැයි මම සිතමි. තරමක් මතුපිටින්. පොදුවේ ගත් කල, මෙම මිථ්‍යා දත්ත විද්‍යා scientists යින් ප්‍රගුණ කර ඇතැයි ජනතාව අපේක්ෂා කරන ඕනෑම වසමක ප්‍රවීණයෙකු වීමට ආසන්න වීම අතිශයින් දුෂ්කර ය.
dsaxton

7

සියලු විශිෂ්ට පිළිතුරු, කෙසේ වෙතත්, මගේ රැකියා දඩයම් අත්දැකීම් තුළ, මා සම්බන්ධ කර ගත් බඳවා ගන්නන්ගේ මනසෙහි “දත්ත විද්‍යා ist යා” යන යෙදුම “කනිෂ් data දත්ත විශ්ලේෂක” සමඟ ව්‍යාකූල වී ඇති බව මම සටහන් කර ඇත්තෙමි. මීට වසර කිහිපයකට පෙර ඔවුන් කළ හඳුන්වාදීමේ එක් කාලීන පා course මාලාවක් හැරුණු විට සංඛ්‍යාලේඛන නොමැති බොහෝ හොඳ පුද්ගලයින් දැන් දත්ත විද්‍යා .යින් ලෙස හඳුන්වයි. පරිගණක විද්‍යා පසුබිමක් සහ දත්ත විශ්ලේෂකයෙකු ලෙස වසර ගණනාවක පළපුරුද්දක් ඇති අයෙකු ලෙස, මම මගේ වෘත්තීය ජීවිතයේ පසුකාලීනව සංඛ්‍යාලේඛන පිළිබඳ ආචාර්ය උපාධියක් කළ අතර එය සමූහයාගෙන් කැපී පෙනෙනු ඇතැයි සිතමින්, මම අනපේක්ෂිත ලෙස විශාල දත්ත විද්‍යා scientists යින් පිරිසක් තුළ සිටිමි. ". මම "සංඛ්‍යාන ician යා" වෙත ආපසු යා හැකි යැයි මම සිතමි!


5
මම මූලිකවම දකින්නේ එකම දෙයයි. දත්ත හෝ යම් විශ්ලේෂණයක් සමඟ යම් වැඩක් ඉල්ලා සිටින ඕනෑම රැකියාවක් "දත්ත විද්‍යාව" ලෙස හැඳින්වේ. මම හිතන්නේ මූල්‍යයේ “ක්වාන්ට්” ට සමාන දෙයක් සිදුවී ඇති අතර, දත්ත සමඟ යම් වැඩක් කළ ඕනෑම අයෙකු තමන් “ක්වාන්ට්” ලෙස හැඳින්වූවා.
අකවාල්

7

මම කනිෂ් employee සේවකයෙක්, නමුත් මගේ රැකියා මාතෘකාව "දත්ත විද්‍යා ist යා" යන්නයි. මම හිතන්නේ බිට්වේස්ගේ පිළිතුර මා විසින් කුලියට ගත් දේ පිළිබඳ උචිත විස්තරයක් වන නමුත් මගේ එදිනෙදා වැඩ කටයුතු පිළිබඳ අත්දැකීම් මත පදනම්ව තවත් එක් කරුණක් එක් කිරීමට මම කැමතියි:

Data ScienceStatistics,
StatisticsData Science.

විද්‍යාව යනු විමසීමේ ක්‍රියාවලියකි. දත්ත යනු එම පරීක්ෂණය සිදුකරන මාධ්‍යය වන විට, දත්ත විද්‍යාව සිදුවෙමින් පවතී. දත්ත සමඟ අත්හදා බැලීම් කරන හෝ පර්යේෂණ කරන සෑම කෙනෙක්ම අනිවාර්යයෙන්ම දත්ත විද්‍යා ist යෙකු බව එයින් අදහස් නොකෙරේ, ඒ ආකාරයටම වයර් සමඟ අත්හදා බැලීම් කරන හෝ පර්යේෂණ කරන සෑම කෙනෙක්ම අනිවාර්යයෙන්ම විදුලි ඉංජිනේරුවෙකු නොවේ. නමුත් එයින් අදහස් කරන්නේ කෙනෙකුට වෘත්තීය “දත්ත විමසීමක්” කිරීමට ප්‍රමාණවත් පුහුණුවක් ලබා ගත හැකි අතරම වෘත්තීය විදුලි කාර්මිකයෙකු වීමට ප්‍රමාණවත් පුහුණුවක් ලබා ගත හැකි බවයි. එම පුහුණුව වැඩි වශයෙන් හෝ අඩුවෙන් සමන්විත වන්නේ බිට්වේස්ගේ පිළිතුරේ ඇති කරුණු වලින් වන අතර, සංඛ්‍යාලේඛන යනු අංගයක් වන නමුත් සමස්තයක් නොවේ.

පියෝටර්ගේ පිළිතුර ද මා විසින් කළ යුතු සියලු දේවල සාරාංශයකි . මේ දක්වා මගේ රැකියාව බොහෝ දුරට වීන් රූප සටහනේ "අන්තරා කලාප" සංරචකයට අයත් හිටපු සේවකයින් විසින් සිදු කරන ලද හානිය ඉවත් කිරීමට උපකාරී වේ.


2
+1. "දත්ත විද්‍යා .යින්" ලෙස සැබවින්ම සේවයේ යොදවා ඇති පුද්ගලයින්ගෙන් ඇසීම මෙම ත්‍රෙඩ් එකේ ඉතා වටිනා යැයි මම සිතමි.
amoeba

(+1) @amoeba මම ඔබේ හැඟීම සමඟ 100% ක් එකඟ වෙමි.
රස්ටිස්ටැටිස්ටික්

8
Data ScienceStatisticsStatisticsData ScienceStatisticsData Science

1

1
StatisticsData ScienceStatisticsData ScienceData Science

3

මම මෑතකදී දත්ත විද්‍යාව වෘත්තියක් ලෙස උනන්දු කර ඇති අතර, මා විසින් ලබාගත් (හා විනෝද වූ!) සංඛ්‍යාලේඛන පා courses මාලා හා සැසඳීමේදී දත්ත විද්‍යා රැකියාව ගැන මා ඉගෙන ගත් දේ ගැන සිතන විට, මම දත්ත විද්‍යා scientists යින් ලෙස සිතීමට පටන් ගතිමි. දත්ත කෙරෙහි අවධානය යොමු කළ පරිගණක විද්‍යා scientists යින්. විශේෂයෙන්, මම පහත සඳහන් ප්රධාන වෙනස්කම් සටහන් කළෙමි. වෙනස්කම් මනෝභාවය ලෙස පෙනෙන බව සලකන්න. පහත දැක්වෙන්නේ මගේ ආත්මීය හැඟීම් පිළිබිඹු කරන අතර මම සාමාන්‍ය බව නොකියමි. මගේ හැඟීම් පමණි!

  1. සංඛ්‍යාලේඛන වලදී, ඔබ බෙදාහැරීම්, සම්භාවිතාවන් සහ අනුමාන ක්‍රියා පටිපාටි ගැන බොහෝ සෙයින් සැලකිලිමත් වේ (උපකල්පිත පරීක්ෂණ කරන්නේ කෙසේද, ඒවා යටි බෙදාහැරීම් යනාදිය). මා තේරුම් ගත් පරිදි, දත්ත විද්‍යාව බොහෝ විට අනාවැකි ගැන නොවේ, සහ අනුමාන ප්‍රකාශ පිළිබඳ කනස්සල්ල යම් දුරකට පරිගණක විද්‍යාවේ ක්‍රියා පටිපාටි වන හරස් වලංගුකරණය වැනි දේ මගින් උකහා ගනී.

  2. සංඛ්‍යාන පා courses මාලා වලදී, මම බොහෝ විට මගේම දත්ත නිර්මාණය කළෙමි, නැතහොත් තරමක් පිරිසිදු ආකෘතියකින් ලබා ගත හැකි සූදානම් කළ දත්ත භාවිතා කළෙමි. ඒ කියන්නේ එය ලස්සන සෘජුකෝණාස්රාකාර ආකෘතියකින්, සමහර එක්සෙල් පැතුරුම්පතක් හෝ RAM එකට හොඳින් ගැලපෙන දෙයක්. දත්ත පිරිසිදු කිරීම නිසැකවම සම්බන්ධ වන නමුත්, කිසි විටෙකත් RAM වලට නොගැලපෙන දත්ත ප්‍රමාණයක් රඳවා තබා ගැනීම සඳහා සැකසිය යුතු දත්ත සමුදායන්ගෙන් බැහැරව, වෙබයෙන් දත්ත උපුටා ගැනීම සමඟ කටයුතු කිරීමට මට කිසි විටෙකත් සිදු නොවීය. මගේ හැඟීම නම් මෙම ගණිතමය අංශය දත්ත විද්‍යාවේ වඩා ප්‍රබල බවයි.

  3. සාමාන්‍ය සංඛ්‍යාලේඛන රැකියාවලදී සංඛ්‍යාලේඛන ians යින් කරන්නේ කුමක්ද යන්න පිළිබඳ මගේ නොදැනුවත්කම මෙයින් පිළිබිඹු විය හැකි නමුත් දත්ත විද්‍යාවට පෙර මා කිසි විටෙකත් ආකෘති විශාල නිෂ්පාදනයක් බවට පත් කිරීම ගැන නොසිතුවෙමි. කළ යුතු විශ්ලේෂණයක්, විසඳිය යුතු සංඛ්‍යානමය ගැටලුවක්, ඇස්තමේන්තු කළ යුතු පරාමිතියක් සහ එය එයයි. දත්ත විද්‍යාවේදී, බොහෝ විට (සැමවිටම නොවුනත්) පුරෝකථන ආකෘති විශාල දෙයකට ගොඩනගා ඇති බව පෙනේ. උදාහරණයක් ලෙස, ඔබ කොතැනක හෝ ක්ලික් කළ විට, මිලි තත්පර තුළ, පුරෝකථන ඇල්ගොරිතමයක් මඟින් එහි ප්‍රති show ලයක් ලෙස පෙන්වන්නේ කුමක්ද යන්න තීරණය කරනු ඇත. එබැවින්, සංඛ්‍යාලේඛන වලදී, මම නිතරම කල්පනා කළේ "අපට කුමන පරාමිතිය තක්සේරු කළ හැකිද, අප එය අලංකාර ලෙස කරන්නේ කෙසේද", දත්ත විද්‍යාවේ දී වැඩි අවධානයක් යොමු වී ඇත්තේ "දත්ත නිෂ්පාදනයක් සඳහා ප්‍රයෝජනවත් විය හැකි යැයි අපට පුරෝකථනය කළ හැකි දේ" කෙරෙහි ය. .

නැවතත්, ඉහත කරුණු පොදු අර්ථ දැක්වීමක් කිරීමට උත්සාහ නොකරයි. මම මා විසින්ම වටහාගෙන ඇති ප්‍රධාන වෙනස්කම් පෙන්වා දෙමි. මම තවම දත්ත විද්‍යාවේ නොසිටි නමුත් ඉදිරි වර්ෂයේදී සංක්‍රමණය වීමට බලාපොරොත්තු වෙමි. මේ අර්ථයෙන් ගත් කල මගේ ශත දෙක ලුණු ධාන්‍යයක් සමඟ රැගෙන යන්න.


3

මම සෑම විටම කාරණයේ සාරය කපා හැරීමට කැමතියි.

statistics - science + some computer stuff + hype = data science

2
එය "යන්ත්‍ර ඉගෙනීම" පිළිබඳ හැඟීම මෙන් පෙනේ, එය "මෘදුකාංගයක් ඇත්ත වශයෙන්ම ක්‍රියාත්මක වන්නේ කෙසේද යන්න තේරුම් නොගෙන එය ක්‍රියාත්මක කරන්නේ කෙසේද යන්න ඉගෙන ගැනීම" ලෙස සංකේතවත් කරයි (ඇත්ත වශයෙන්ම අසාධාරණ නමුත් අපට “යන්ත්‍ර ඉගෙනීම” විශාල ප්‍රමාණයක් පෙනේ විවිධ ස්නායුක දැල්වල සුසර කිරීමේ පරාමිතීන් නියෝජනය කරන්නේ කුමක්ද යන්න හැර වෙන කිසිවක් තේරුම්
නොගන්නා

2

දත්ත විද්‍යා ient යෙකු යනු ව්‍යාපාරයක් සඳහා මිනිසුන්ට කියවිය හැකි ප්‍රති results ල ලබා දෙන භූමිකාවක් වන අතර, ප්‍රති using ල සංඛ්‍යානමය වශයෙන් (න (සැලකිය යුතු) බවට පත් කිරීමේ ක්‍රම භාවිතා කරයි.

මෙම නිර්වචනයේ කිසියම් කොටසක් අනුගමනය නොකරන්නේ නම් අපි සංවර්ධකයෙකු, සැබෑ විද්‍යා ist යෙකු / සංඛ්‍යාලේඛන ician යෙකු හෝ දත්ත ඉංජිනේරුවෙකු ගැන කතා කරමු.


1

දත්ත විද්‍යාව යනු විශ්ලේෂණාත්මකව සංකීර්ණ ගැටළු විසඳීම සඳහා දත්ත අනුමානය, ඇල්ගොරිතම සංවර්ධනය සහ තාක්‍ෂණය යන බහුකාර්ය සම්මිශ්‍රණයකි. නමුත් දත්ත විද්‍යා ient යින්ගේ හිඟය හේතුවෙන් දත්ත විද්‍යාවේ වෘත්තියකට සැබවින්ම බොහෝ අවස්ථාවන් නිර්මාණය කළ හැකිය. කෙසේ වෙතත්, සංවිධාන SAS, දත්ත විද්‍යා කවුන්සිලය (DASCA), හෝර්ටන්වර්ක්ස් වැනි සහතිකලත් වෘත්තිකයන් සොයමින් සිටී. මෙය හොඳ තොරතුරක් යැයි සිතමු!


1

දත්ත විද්‍යා scientists යින්ට පයිතන්, MySQL සහ ජාවා සංවර්ධනය පිළිබඳ ඉතා ප්‍රවීණ කුසලතා ඇත.

විශ්ලේෂණාත්මක කාර්යයන් පිළිබඳ ඔවුන්ට ඉතා පැහැදිලි අවබෝධයක් ඇත, ගණිතය, සංඛ්‍යාලේඛන, දත්ත කැණීම්, පුරෝකථන විශ්ලේෂණ කුසලතා පිළිබඳ මනා දැනුමක් ඇති අතර පයිතන් සහ ආර් වැනි කේතීකරණ භාෂා පිළිබඳ මනා දැනුමක් ඔවුන්ට ඇත.

බොහෝ දත්ත විද්‍යා scientists යින් මේ වන විට ඔවුන්ගේ ආචාර්ය උපාධිය ලබා ඇත. හෝ ඔවුන්ගේ ශාස්ත්‍රපති උපාධිය ඇත්ත වශයෙන්ම පර්යේෂණයට අනුව 8% ක් පමණක් උපාධිය ලබා ඇති බැවින් එය වඩාත් ගැඹුරු වේ.

දත්ත මත පදනම්ව තීරණ ගන්නා සංඛ්‍යාන ආකෘති ගොඩනැගීම. සෑම තීරණයක්ම අසීරු විය හැකිය, උදා: පිටුවක් විදැහුම්කරණයෙන් අවහිර කිරීම හෝ මෘදු කිරීම, උදා: පිටුවක අනිෂ්ටභාවය සඳහා ලකුණු ලබා දීම, එය පහත් පද්ධති හෝ මිනිසුන් විසින් භාවිතා කරයි.

නිරීක්ෂණය කරන ලද සංසිද්ධියක මූල හේතුව ආරෝපණය කිරීමට උත්සාහ කරන හේතු සාධක පරීක්ෂණ පැවැත්වීම. A / B අත්හදා බැලීම් සැලසුම් කිරීමෙන් මෙය කළ හැකිය. නැතහොත් A / B අත්හදා බැලීම මඟින් වසංගත රෝග විද්‍යාත්මක ප්‍රවේශය යෙදීමට නොහැකි නම්, උදා: @ රූබින් හේතු ආකෘතිය

දත්තවල අගුළු ඇරීමෙන් ලැබෙන නව නිෂ්පාදන හෝ විශේෂාංග හඳුනා ගැනීම; දත්තවල වටිනාකම පිළිබඳ සිතීමේ නායකයෙකු වීම. ඒ සඳහා හොඳ උදාහරණයක් වන්නේ ඇමසන් විසින් ප්‍රථම වරට මහජන ප්‍රේක්ෂකයින්ට ලබා දුන් නිෂ්පාදන නිර්දේශ ලක්ෂණයයි.


2
හොඳයි, නැහැ. මම ඔබට දත්ත විද්‍යා ist යාගේ රැකියා දාමය ලබා ගත හැකි තරම් ඉහළ මට්ටමක සිටිමි, මම ජාවා ගැන කිසිසේත් නොදනිමි, මම පයිතන් පිළිබඳ මනා දැනුමක් ඇති අයෙක් නොවෙමි, මගේ MySQL කුසලතා සාමාන්‍ය ගුණාත්මකභාවයෙන් යුක්තය. මගේ කණ්ඩායමේ අපට කුඩා පයිතන් දන්නා, R ට වැඩි කැමැත්තක් දක්වන තවත් පුද්ගලයින් දෙදෙනෙකු සිටින අතර, එක් පුද්ගලයෙකු පමණක් ජාවා දන්නා නමුත් ඔහු ප්‍රධාන වශයෙන් R සහ C / C ++ කේත කරයි (මා වැනි.) තිදෙනෙක් පයිතන් දන්නා නමුත් ඇත්ත වශයෙන්ම කිසිවක් නොදනිති පහළ මට්ටමේ භාෂාව. මට පයිතන් වී ආර් ගිනි දැල් යුද්ධවලට හෝ ජාවා වී සී / සී ++ වලට සම්බන්ධ වීමට අවශ්‍ය නැත, නමුත් එය කිසිසේත් ඔබගේ ක්‍රමලේඛනය හා සම්බන්ධ නිපුණතා ලැයිස්තුවක් අවශ්‍ය නොවේ.
jbowman

0

ඔබේ ප්‍රශ්නයට පිළිතුරු දීමට "දත්ත විද්‍යා ist යෙක් යනු කුමක්ද?" Http://sites.temple.edu/deepstat/data-scioist-and-data-mechanic/ හි සඳහන් පරිදි දත්ත විද්‍යා ient යෙකු හා දත්ත කාර්මිකයෙකු අතර වෙනස දැන සිටීම වටී.


1
මෙය සම්පුර්ණ පිළිතුරක් වීමට නම්, කරුණාකර ඔබේ පිළිතුරේ ලිපියේ ප්‍රධාන කරුණු ඉස්මතු කරන්න, එවිට OP සහ අනෙකුත් පා readers කයන්ට ප්‍රධාන කරුණු ලබා දේ.
ග්‍රීන්පාර්කර්
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.