දත්ත විද්යාවේ පොදු ගැටළුවක් වන්නේ විවිධ ප්රභවයන්ගෙන් දත්ත කෙසේ හෝ පිරිසිදු කළ (අර්ධ ව්යුහගත) ආකෘතියකින් රැස් කිරීම සහ ඉහළ මට්ටමේ විශ්ලේෂණයක් කිරීම සඳහා විවිධ ප්රභවයන්ගෙන් ප්රමිතික ඒකාබද්ධ කිරීමයි. අනෙක් පුද්ගලයින්ගේ උත්සාහය, විශේෂයෙන් මෙම වෙබ් අඩවියේ ඇති වෙනත් ප්රශ්න දෙස බලන විට, මෙම ක්ෂේත්රයේ බොහෝ අය තරමක් පුනරාවර්තන කටයුතු කරන බව පෙනේ. උදාහරණයක් ලෙස ට්වීට්, ෆේස්බුක් පෝස්ට්, විකිපීඩියා ලිපි ආදිය විශ්ලේෂණය කිරීම විශාල දත්ත ගැටළු රාශියක කොටසකි.
මෙම දත්ත කට්ටල සමහරක් සැපයුම්කරුගේ වෙබ් අඩවිය විසින් සපයනු ලබන පොදු ඒපීඅයි භාවිතයෙන් ප්රවේශ විය හැකි නමුත් සාමාන්යයෙන් මෙම API වලින් සමහර වටිනා තොරතුරු හෝ ප්රමිතික අස්ථානගත වී ඇති අතර සෑම කෙනෙකුම එකම විශ්ලේෂණයන් නැවත නැවතත් කළ යුතුය. නිදසුනක් ලෙස, පොකුරු භාවිතා කරන්නන් විවිධ භාවිත අවස්ථා සහ විශේෂාංග තෝරා ගැනීම මත රඳා පැවතියද, ට්විටර් / ෆේස්බුක් භාවිතා කරන්නන්ගේ මූලික පොකුරු කිරීම බොහෝ විශාල දත්ත යෙදුම් සඳහා ප්රයෝජනවත් විය හැකිය, ඒවා API විසින් සපයනු නොලැබේ හෝ ස්වාධීන දත්ත කට්ටලවල ප්රසිද්ධියේ ලබාගත නොහැක. .
වෙනත් විශාල දත්ත ගැටළු විසඳීමේදී නැවත භාවිතා කළ හැකි වටිනා දත්ත කට්ටල අඩංගු දර්ශකයක් හෝ ප්රසිද්ධියේ ලබා ගත හැකි දත්ත කට්ටල සත්කාරක වෙබ් අඩවියක් තිබේද? මා අදහස් කළේ දත්ත විද්යාව සඳහා GitHub (හෝ අඩවි සමූහයක් / පොදු දත්ත කට්ටල හෝ අවම වශයෙන් පුළුල් ලැයිස්තුවක්) වැනි දෙයක්. එසේ නොවේ නම්, දත්ත විද්යාව සඳහා එවැනි වේදිකාවක් නොතිබීමට හේතු මොනවාද? දත්තවල වාණිජ වටිනාකම, නිතර දත්ත කට්ටල යාවත්කාලීන කිරීම අවශ්ය වේ, ...? දත්ත විද්යා scientists යින් සඳහා සකස් කරන ලද දත්ත කට්ටල බෙදා ගැනීම සඳහා අපට විවෘත මූලාශ්ර ආකෘතියක් තිබිය නොහැකිද?