ප්‍රසිද්ධියේ ලබා ගත හැකි දත්ත කට්ටල


176

දත්ත විද්‍යාවේ පොදු ගැටළුවක් වන්නේ විවිධ ප්‍රභවයන්ගෙන් දත්ත කෙසේ හෝ පිරිසිදු කළ (අර්ධ ව්‍යුහගත) ආකෘතියකින් රැස් කිරීම සහ ඉහළ මට්ටමේ විශ්ලේෂණයක් කිරීම සඳහා විවිධ ප්‍රභවයන්ගෙන් ප්‍රමිතික ඒකාබද්ධ කිරීමයි. අනෙක් පුද්ගලයින්ගේ උත්සාහය, විශේෂයෙන් මෙම වෙබ් අඩවියේ ඇති වෙනත් ප්‍රශ්න දෙස බලන විට, මෙම ක්ෂේත්‍රයේ බොහෝ අය තරමක් පුනරාවර්තන කටයුතු කරන බව පෙනේ. උදාහරණයක් ලෙස ට්වීට්, ෆේස්බුක් පෝස්ට්, විකිපීඩියා ලිපි ආදිය විශ්ලේෂණය කිරීම විශාල දත්ත ගැටළු රාශියක කොටසකි.

මෙම දත්ත කට්ටල සමහරක් සැපයුම්කරුගේ වෙබ් අඩවිය විසින් සපයනු ලබන පොදු ඒපීඅයි භාවිතයෙන් ප්‍රවේශ විය හැකි නමුත් සාමාන්‍යයෙන් මෙම API වලින් සමහර වටිනා තොරතුරු හෝ ප්‍රමිතික අස්ථානගත වී ඇති අතර සෑම කෙනෙකුම එකම විශ්ලේෂණයන් නැවත නැවතත් කළ යුතුය. නිදසුනක් ලෙස, පොකුරු භාවිතා කරන්නන් විවිධ භාවිත අවස්ථා සහ විශේෂාංග තෝරා ගැනීම මත රඳා පැවතියද, ට්විටර් / ෆේස්බුක් භාවිතා කරන්නන්ගේ මූලික පොකුරු කිරීම බොහෝ විශාල දත්ත යෙදුම් සඳහා ප්‍රයෝජනවත් විය හැකිය, ඒවා API විසින් සපයනු නොලැබේ හෝ ස්වාධීන දත්ත කට්ටලවල ප්‍රසිද්ධියේ ලබාගත නොහැක. .

වෙනත් විශාල දත්ත ගැටළු විසඳීමේදී නැවත භාවිතා කළ හැකි වටිනා දත්ත කට්ටල අඩංගු දර්ශකයක් හෝ ප්‍රසිද්ධියේ ලබා ගත හැකි දත්ත කට්ටල සත්කාරක වෙබ් අඩවියක් තිබේද? මා අදහස් කළේ දත්ත විද්‍යාව සඳහා GitHub (හෝ අඩවි සමූහයක් / පොදු දත්ත කට්ටල හෝ අවම වශයෙන් පුළුල් ලැයිස්තුවක්) වැනි දෙයක්. එසේ නොවේ නම්, දත්ත විද්‍යාව සඳහා එවැනි වේදිකාවක් නොතිබීමට හේතු මොනවාද? දත්තවල වාණිජ වටිනාකම, නිතර දත්ත කට්ටල යාවත්කාලීන කිරීම අවශ්‍ය වේ, ...? දත්ත විද්‍යා scientists යින් සඳහා සකස් කරන ලද දත්ත කට්ටල බෙදා ගැනීම සඳහා අපට විවෘත මූලාශ්‍ර ආකෘතියක් තිබිය නොහැකිද?


20
කැපවූ ඔපෙන්ඩාටා මත මෙම ප්‍රශ්නය වඩාත් යෝග්‍ය වේ . එයින් කියැවෙන්නේ , මම දත්ත සඳහා මගේ ඇඟිලි තරණය කරන අතර එය "දත්ත සඳහා Git" බවට පත්වීමට අපේක්ෂා කරන බවයි.
ojdo

2
@ojdo ස්තූතියි, මම මීට පෙර opendata.SE අසා නැහැ, මම ද සොයා මෙම රසවත් (සහ ඉතා සමාන) ප්රශ්නයක් තිබේ.
අමීර් අලි අක්බරි


සාමාන්‍ය ව්‍යාපාර බුද්ධි යෙදුම් සඳහා හොඳ නිදහස් විස්තීර්ණ දත්ත කට්ටලයක් මට හමු නොවීය. මෙම නිල මයික්රොසොෆ්ට් බාගත මධ්යස්ථානයේ සිල්ලර, කර්මාන්ත සඳහා මයික්රොසොෆ්ට් Contoso බීඅයි Demo දත්ත සමුදාය බාගත (බලන්න සමහර Microsoft නිෂ්පාදන හා කටයුතු කරන අංකිත හා වෙනත් ව්යාපාරික මෘදුකාංග පිළිබඳ AndyGett ), නමුත් මම ඒ ගැන කිසිදු සරල SQL හෝ CSV ගබඩා හෝ බලපත්ර තොරතුරු බලන්න එපා .
nealmcb

1
ඔබ විවෘත දත්ත තොග හුවමාරුවට සම්බන්ධ වී තිබේද? opendata.stackexchange.com
sss4r

Answers:


96

ඇත්ත වශයෙන්ම, විවිධ ව්‍යවසායන් / ප්‍රභවයන් විසින් සහාය දක්වන, ප්‍රසිද්ධියේ ලබා ගත හැකි දත්ත කට්ටලවල ඉතා සාධාරණ ලැයිස්තුවක් තිබේ.

ඒවායින් සමහරක් පහතින්:

දැන්, ඔබේ ප්‍රශ්නය පිළිබඳ සලකා බැලීම් දෙකක්. පළමුවැන්න, දත්ත සමුදා බෙදාගැනීමේ ප්‍රතිපත්ති සම්බන්ධයෙන්. පුද්ගලික අත්දැකීම් වලින්, රහස්‍යතා සීමා කිරීම් (සමහර සමාජ ජාල තොරතුරු සඳහා) හෝ රජයේ තොරතුරු සම්බන්ධව (සෞඛ්‍ය පද්ධති දත්ත සමුදායන් වැනි) ප්‍රසිද්ධියේ ලබා ගත නොහැකි සමහර දත්ත සමුදායන් ඇත.

තවත් කරුණක් දත්ත සමුදාය භාවිතය / යෙදුම ගැන සැලකිලිමත් වේ. යෙදුමේ අවශ්‍යතාවන්ට සරිලන පරිදි සමහර පදනම් නැවත සැකසිය හැකි වුවද , දත්ත කට්ටලවල අරමුණ අනුව හොඳ සංවිධානයක් තිබීම සතුටක් . මෙම වර්ගීකරණය තිබිය හැකි සමාජ ප්රස්තාරය විශ්ලේෂණය, itemset පතල් කැනීම, වර්ගීකරණය, සහ වෙනත් ක්ෂේත්රයන්හි පර්යේෂණ ගොඩක් සම්බන්ධ කළ යුතුය.


67

39

විවෘතව ලබා ගත හැකි දත්ත කට්ටල බොහොමයක් ඇත, බොහෝ අය නොසලකා හරින එක් දත්තයක් වන්නේ data.gov ය . කලින් සඳහන් කළ පරිදි ෆ්‍රීබේස් විශිෂ්ටයි, එසේම සියලුම උදාහරණ ub රූබන්ස් විසින් පළ කරන ලදී


35

ෆ්‍රීබේස් යනු ප්‍රජාව විසින් මෙහෙයවනු ලබන නිදහස් දත්ත ගබඩාවක් වන අතර එය සිත්ගන්නාසුලු මාතෘකා රාශියකට විහිදෙන අතර යන්ත්‍ර කියවිය හැකි ආකෘතියෙන් බිලියන 2,5 ක් පමණ අඩංගු වේ. දත්ත විමසීම් සිදු කිරීමට එය හොඳ API ද ඇත.

විවෘත දත්ත කට්ටලවල තවත් සම්පාදනය කළ ලැයිස්තුවක් මෙන්න: http://www.datapure.co/open-data-sets


ෆ්‍රීබේස් වසා දමා ඇති අතර එහි දත්ත සමුදාය ඉක්මනින් විකිදත්ත වෙත ගෙන යනු ඇත .
cynddl


25

විශේෂයෙන් කාල ශ්‍රේණි දත්ත සඳහා, ක්වාන්ඩ්ල් යනු විශිෂ්ට සම්පතකි - (බොහෝ විට) පිරිසිදු කාල ශ්‍රේණියේ පහසුවෙන් ගවේෂණය කළ හැකි නාමාවලියකි.

ඔවුන්ගේ සිසිල්ම ලක්ෂණවලින් එකක් වන්නේ විවෘත-දත්ත කොටස් මිල ගණන් ය - එනම් විකී ශෛලිය සංස්කරණය කළ හැකි මූල්‍ය දත්ත සහ බලපත්‍ර ලබා දීමෙන් එය වට කර නැත.


21

එනිග්මා යනු පොදු ලබා ගත හැකි දත්ත කට්ටලවල ගබඩාවකි. එහි නොමිලේ සැලසුම මඟින් මසකට 10k API ඇමතුම් සමඟ පොදු දත්ත සෙවීමක් සිදු කරයි. සියලුම පොදු දත්ත සමුදායන් ලැයිස්තුගත කර නැත, නමුත් පොදු අවස්ථා සඳහා ලැයිස්තුව ප්‍රමාණවත් වේ.

මම එය ශාස්ත්‍රීය පර්යේෂණ සඳහා භාවිතා කළ අතර එය මට බොහෝ කාලයක් ඉතිරි කළේය.


දත්ත පිළිබඳ තවත් සිත්ගන්නා ප්‍රභවයක් වන්නේ එක්සත් ජනපදය (කොන්ග්‍රසයේ සාමාජිකයන්, භූගෝලීය හැඩයන්…) පිළිබඳ දත්ත සහ මෙවලම් අඩංගු @ යුනයිටඩ් ස්ටේට්ස් ව්‍යාපෘතියයි .


20

විවෘත දත්ත සංගණනයට යොමු කිරීමට මම කැමතියි . එය ලොව පුරා විවෘත දත්ත උපදේශකයින්ගේ සහ විශේෂ experts යන්ගේ දායකත්වය මත පදනම් වූ විවෘත දැනුම පදනමේ මුලපිරීමකි.

විවෘත දත්ත සංගණනයේ වටිනාකම විවෘතව, ප්‍රජාව විසින් මෙහෙයවනු ලබන අතර ගෝලීය වශයෙන් රට තුළ සහ සමහර අවස්ථාවලදී එක්සත් ජනපදය වැනි නගර මට්ටමින් විවෘත දත්ත කට්ටලවල දත්ත සමුදාය එකතු කර යාවත්කාලීන කිරීමට ක්‍රමානුකූල උත්සාහයකි .

එසේම, තෝරාගත් ක්ෂේත්‍රයන්හි විවිධ රටවල් සහ නගර සංසන්දනය කිරීමට මෙය අවස්ථාවක් සපයයි.


19

ඔවුන්ගේ වෙබ් අඩවියේ ද ගාර්ඩියන්, බ්‍රිතාන්‍ය ඩේලි විසින් සපයන ලද තවත් සම්පතක් තිබේ. ගාඩියන් දත්ත සමුදාය විසින් ප්‍රකාශයට පත් කරන ලද දත්ත කට්ටල සියල්ලම සත්කාරකත්වය දරයි. පාපන්දු ප්‍රිමියර් ලීග් සමාජ ශාලා වල ගිණුම්, එක්සත් රාජධානියේ උද්ධමනය සහ දළ දේශීය නිෂ්පාදිතය, ග්‍රැමී සම්මාන දත්ත ආදිය සම්බන්ධ දත්ත කට්ටල.

තවත් සම්පත් කිහිපයක්. සමහර දත්ත කට්ටල R ආකෘතියෙන් හෝ R වෙත සෘජුවම දත්ත ආනයනය කිරීම සඳහා R කොමාඩ් පවතී.


18

අභිරුචි ගූගල් සෙවුම

දත්ත කට්ටල සඳහා ඔබට අභිරුචි ගූගල් සෙවුම භාවිතා කළ හැකිය:

ගූගල් අභිරුචි සෙවීම: දත්ත කට්ටල

මෙම ප්‍රශ්නයේ සඳහන් සියල්ල ඇතුළුව දත්ත කට්ටලවල ප්‍රභව 230 ක් සහ මෙටා ප්‍රභවයන් එයට ඇතුළත් ය. කරුණාකර, .gov සහ වෙනත් වෙබ් අඩවි සෙවුම් රේඛාවට "-.gov" හෝ "-site.com" එකතු කිරීමෙන් ප්‍රති results ල වලින් බැහැර කිරීමට නිදහස් වන්න. වෙනත් ගූගල් සෙවුම් ක්‍රියාකරුවන් ක්‍රියා කරයි.

කුමන වෙබ් අඩවි එකතු කළ යුතු දැයි ඔබට අදහස් ඇත්නම් මා සම්බන්ධ කර ගැනීමට පසුබට නොවන්න.

IOGDS

පහත දැක්වෙන සේවාව පොදු දත්ත කට්ටල 1,000,000 කට වඩා වර්ගීකරණය කරයි:

IOGDS: ජාත්‍යන්තර විවෘත රජයේ දත්ත කට්ටල සෙවීම


ඔබ ලබා දුන් අභිරුචි සෙවුම් සබැඳිය සඳහා පරාමිතීන් මොනවාද? එය වෙබ් අඩවි, මූල පද ආදිය ලැයිස්තුවක් තුළ සොයන්නේද?
අමීර් අලි අක්බාරි

M අමීර්අලිඅක්බාරි එය Data.gov, Quandl සහ වෙනත් ප්‍රධාන දත්ත ගබඩාවන් හරහා සොයා ගනී.
ඇන්ටන් ටාරසෙන්කෝ

17

ප්‍රමාද පිළිතුර, නමුත් මෙන්න 100+ සිත්ගන්නා දත්ත කට්ටලවල තෝරාගත් ලැයිස්තුවක්

බ්ලොග් සටහන විනෝදජනක වන අතර කියවීමට පහසුය (මට කිසිදු සම්බන්ධයක් නොමැත). එය පරිලෝකනය කිරීම සහ ඉහළ සිට කිහිපයක් සීරීම වටී:

  • 1984 සිට uted ාතනය කරන ලද සෑම ටෙක්සාස් රැඳවියෙකුගේම අවසාන වචන

  • බළලුන්ගේ විවරණ රූප 10,000 ක්

  • චෙස් තරඟ මිලියන 2.2 ක්



16

පූමා මිණුම් සලකුණු සහ දත්ත කට්ටල බාගැනීම් ගැන ඔබ දැන සිටියාද? https://sites.google.com/site/farazahmad/pumadatasets

එයට පහත සඳහන් දෑ ඇතුළත් වේ:

  1. ටෙරාසෝර්ට්
  2. විකිපීඩියා
  3. ලැයිස්තු අයිතමය
  4. ස්වයං-සම්බන්ධ වීම
  5. යාබද-ලැයිස්තුව
  6. චිත්‍රපට-දත්ත සමුදාය
  7. ශ්‍රේණිගත-ප්‍රතිලෝම-දර්ශකය

16

එක්සත් රාජධානි රජය රජයේ දෙපාර්තමේන්තු පුරා එකතු කරන ලද පුද්ගලික නොවන දත්තවල විශිෂ්ට ප්‍රභවයක් සපයයි: http://data.gov.uk


15

මම මෙම සංසදයට අලුත් ය. මෙම ප්‍රශ්නයට ප්‍රමාද වී චිමිනි. මම ප්‍රසිද්ධියේ ලබා ගත හැකි දත්ත ද්වාරවල නාමාවලියක් පවත්වා ගෙන යමි (මම සම-නිර්මාතෘවරයෙකි). ලොව පුරා ජාත්‍යන්තර, ෆෙඩරල්, ප්‍රාන්ත, නාගරික හා අධ්‍යයන මට්ටම්වල ලැයිස්තුගත කර ඇති සහ ආවරණය කරන ලද ද්වාර 1000 කට අධික සංඛ්‍යාවක් දැන් ඇත.

http://www.opengeocode.org/opendata/


15

තරමක් පැහැදිලිව පෙනෙන පරිදි යමෙක් මේ ගැන සඳහන් නොකිරීම ගැන මම පුදුම වෙමි: http://www.kaggle.com නිරන්තරයෙන් නව හා ඉතා රසවත් දත්ත කට්ටල ඇත. තොරතුරු සම්පතක් ලෙස සලකනු ලැබේ, එබැවින් බොහෝ විට සමාගම්වලට එම දත්ත මුදා හැරීමට අවශ්‍ය නොවේ (පුද්ගලිකත්ව අවශ්‍යතා). Kaggle ඔබට දත්ත ලබා දෙන අතර හුවමාරුවෙන් ඔබ එය සමඟ ව්‍යාපාර ගැටලු විසඳනු ඇතැයි ඔවුන් බලාපොරොත්තු වේ.


15

දත්ත කාණ්ඩ

දත්ත කට්ටල සිට නියමයි-datascience


1
කරුණාකර අපට දත්ත කට්ටල / සබැඳි යන දෙකෙහිම තොරතුරු ලබා දිය හැකිද? මෙය නිශ්චිත වර්ගවල දත්ත කට්ටලයක් සොයන අයගේ බර සැබවින්ම ලිහිල් කරනු ඇත. ඔබගේ යොමු කිරීම් නැතිවී ඇති තොරතුරු බැලීමට වෙනත් සටහන් දෙස බලන්න.
රූබන්ස්

12

ඔබ සඳහන් කළ පරිදි, API යනු දත්ත නොවේ. Quandl මෙම ගැටළුව විසඳන බව පෙනෙන්නේ එක් පහසු, RESTful API යටතේ මිලියන 10 කට අධික ප්‍රසිද්ධියේ දත්ත කට්ටල ලබා දීමෙනි. ක්‍රමලේඛනය ඔබේ ශක්තිමත් ඇඳුම නොවේ නම්, එක්සෙල් වෙත දත්ත පැටවීම ඉතා පහසු කිරීමට නිදහස් මෙවලමක් තිබේ. මීට අමතරව, ඔබ නම් කළ වැඩසටහන්, විනෝද ස්වදේශික පුස්තකාල කිහිපයක් ඇති R, Python, Java හා වැඩි .



12

ගිතුබ් හි මෙම එකතුව මට හමු විය. එකතුව ද වර්ගීකරණය කර ඇත.

https://github.com/caesar0301/awesome-public-datasets

සහ කොටස සම්බන්ධයෙන්

දත්ත විද්‍යා scientists යින් සඳහා සකස් කරන ලද දත්ත කට්ටල බෙදා ගැනීම සඳහා විවෘත මූලාශ්‍ර ආකෘතියක් කළ නොහැකිද?

දත්ත හුවමාරුව සඳහා ඔබට ලීක් කණ්ඩායම් මාර්ගෝපදේශය යොමු කළ හැකිය



9

ලැයිස්තුගත කර නොතිබූ තවත් දත්ත ප්‍රභවයක් වන්නේ ජීඩෙල්ට් ව්‍යාපෘතියයි . වෙබ් අඩවියෙන්:

GDELT ව්‍යාපෘතිය සෑම රටකම සෑම අස්සක් මුල්ලක් නෑරම භාෂා 100 කට වඩා වැඩි ගණනකින් ලොව විකාශනය, මුද්‍රණය සහ වෙබ් ප්‍රවෘත්ති අධීක්ෂණය කරන අතර සෑම තත්පරයකම අපගේ ගෝලීය සමාජය මෙහෙයවන පුද්ගලයින්, ස්ථාන, සංවිධාන, ගණන්, තේමාවන්, ප්‍රභවයන් සහ සිදුවීම් හඳුනා ගනී. මුළු ලෝකයම ගණනය කිරීම සඳහා නිදහස් විවෘත වේදිකාවක් නිර්මාණය කිරීම.


8

මෙම උපසිරැසි දන්නා දත්ත කට්ටල රාශියක් ලැයිස්තුගත කරයි

රෙඩිට් දත්ත කට්ටල

එම උපසිරැසි සඳහා දත්ත කට්ටල ඉල්ලීම් රාශියක් ඇති අතර ඒවායින් කිහිපයකට පිළිතුරු ලබා දී ඇත.


6

මම මේ සඳහා ගිතුබ් රෙපෝවක් නිර්මාණය කළෙමි. දත්ත කට්ටල විශාල නොවේ, නමුත් පුරෝකථන-ආකෘති නිර්මාණ ශිල්ප ක්‍රම පුහුණු කිරීමට සහ ගවේෂණය කිරීමට අදහස් කරන අවම උදාහරණ වන අතර ඒවා පසුව විශාල දත්ත කට්ටල දක්වා ව්‍යාප්ත කළ හැකිය.

යන්ත්‍ර ඉගෙනීමේ ගැටළු බයිබලය (MLPB)

මෙම repo හි ඇති සිසිල් / අද්විතීය දෙය නම් සෑම ගැටළුවක්ම [බහු පංතිය], [අසමතුලිත දත්ත], [ප්‍රතිගාමීත්වය] වැනි ටැග් වලින් ටැග් කර තිබීමයි. ඇතැම් ආකාරයේ ගැටළු / දත්ත කට්ටල සොයා ගැනීම පහසු කරයි.



6

මෙම සියලු දත්ත කට්ටල වලට අමතරව, ඔබ ඉන්දියාවට අදාළ දත්ත ගැන උනන්දුවක් දක්වන්නේ නම්. ඉන්දියානු රජයේ ප්‍රසිද්ධ නිල ස්ථානය වේ

එය විශාල දත්ත විශ්ලේෂණය සහ යන්ත්‍ර ඉගෙනීම සඳහා හොඳින් භාවිතා කළ හැකි ඉන්දියානු රජයේ විවිධ දෙපාර්තමේන්තු වල දත්ත කට්ටල සපයයි.



4

අපි R හි MASS පැකේජය පටවන විට අපි බහු දත්ත රාමු හෝ දත්ත කට්ටල වෙත ප්‍රවේශ වෙමු.

install.packages ("MASS") අවශ්‍යයි ("MASS")


3

Https://www.jc-bingo.com/about වෙතින් දත්ත කට්ටල 3 ක්

  • visitor-interests.csv සති 1 ක වෙබ් ප්‍රවේශ ලොග් මත පදනම්ව සම්පාදනය කරන ලද අමුත්තන්ගේ අවශ්‍යතා. නරඹන්නන්ගේ IP ලිපිනය, පරිශීලක-නියෝජිත නූල්, ආගන්තුක රට, ප්‍රවේශ වූ පිටු භාෂා සහ මාතෘකා ඇතුළත් වේ. වාර්තා 19,926, 2.9 Mb.
  • user-agent.csv ජනප්‍රියත්වය අනුව ඇණවුම් කරන ලද සැබෑ ආගන්තුක පරිශීලක නියෝජිතයන්. වාර්තා 4,826, 716 කේ.බී.
  • bots.csv වෙබ් ප්‍රවේශ ලොග් වලින් උපුටා ගත් රොබෝ IP ලිපින සහ පරිශීලක-නියෝජිත නූල්. 1,293 වාර්තා, 122 Kb.

3

නිසැකවම, පොදු දත්ත සමුදායන් විශාල ප්‍රමාණයක් පවතී.

තවම සඳහන් කර නැති එකක් FAO (එක්සත් ජාතීන්ගේ ආහාර හා කෘෂිකර්ම සංවිධානය) වෙතින් ලබා ගත හැකිය.

http://www.fao.org/faostat/

ලොව පුරා රටවල් සඳහා ආහාර නිෂ්පාදනය පිළිබඳ දත්ත එහි අඩංගු වේ.

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.