Machine Learning Algorithms: ऐसी दुनिया में जहाँ लगभग सभी मैनुअल कार्य स्वचालित हो रहे हैं, मैनुअल की परिभाषा बदल रही है। अब मशीन लर्निंग एल्गोरिदम के कई अलग-अलग प्रकार हैं, जिनमें से कुछ कंप्यूटर को शतरंज खेलने, सर्जरी करने और अधिक स्मार्ट और व्यक्तिगत बनने में मदद कर सकते हैं।
यह भी पढ़ें – Artificial Intelligence Trends 2024 | AI ट्रेंड्स: नई तकनीक और इनोवेशन
Machine Learning Algorithms | मशीन लर्निंग एल्गोरिदम: प्रमुख तकनीकें
हम निरंतर तकनीकी प्रगति के युग में रह रहे हैं, और पिछले कुछ वर्षों में कंप्यूटिंग में हुई प्रगति को देखते हुए, हम यह अनुमान लगा सकते हैं कि आने वाले दिनों में क्या होने वाला है।इस क्रांति की एक मुख्य विशेषता यह है कि कैसे कंप्यूटिंग उपकरणों और तकनीकों का लोकतंत्रीकरण किया गया है। डेटा वैज्ञानिकों ने पिछले 5 वर्षों में उन्नत तकनीकों को सहजता से क्रियान्वित करके परिष्कृत डेटा-क्रंचिंग मशीनें बनाई हैं। परिणाम आश्चर्यजनक रहे हैं।
मशीन लर्निंग एल्गोरिदम के कई अलग-अलग प्रकार ऐसे गतिशील समय में डिज़ाइन किए गए हैं ताकि वास्तविक दुनिया की जटिल समस्याओं को हल करने में मदद मिल सके। एमएल एल्गोरिदम स्वचालित और स्व-संशोधित होते हैं ताकि समय के साथ सुधार जारी रहे। इससे पहले कि हम उन शीर्ष 10 मशीन लर्निंग एल्गोरिदम के बारे में जानें जिन्हें आपको जानना चाहिए, आइए मशीन लर्निंग एल्गोरिदम के विभिन्न प्रकारों और उन्हें कैसे वर्गीकृत किया जाता है, इस पर एक नज़र डालते हैं।
“मशीन लर्निंग एल्गोरिदम” पर सिम्पलीलर्न का वीडियो देखें। AI और मशीन लर्निंग में सफल करियर की उम्मीद है। हमारे Caltech पोस्ट ग्रेजुएट प्रोग्राम इन AI & ML में दाखिला लें ।
What are the 10 Popular Machine Learning Algorithms?
नीचे शीर्ष 10 सामान्यतः प्रयुक्त मशीन लर्निंग (एमएल) एल्गोरिदम की सूची दी गई है:
- रेखीय प्रतिगमन
- संभार तन्त्र परावर्तन
- निर्णय वृक्ष
- एसवीएम एल्गोरिथ्म
- नैवे बेयस एल्गोरिथ्म
- केएनएन एल्गोरिथम
- कश्मीर साधन
- यादृच्छिक वन एल्गोरिथ्म
- आयाम न्यूनीकरण एल्गोरिदम
- ग्रेडिएंट बूस्टिंग एल्गोरिदम और एडाबूस्टिंग एल्गोरिदम
Types of Machine Learning Algorithms
1. Supervised Learning
सुपरवाइज्ड लर्निंग एल्गोरिदम को लेबल किए गए डेटा का उपयोग करके प्रशिक्षित किया जाता है, जिसका अर्थ है कि इनपुट डेटा को सही आउटपुट के साथ टैग किया जाता है। इन एल्गोरिदम का लक्ष्य इनपुट से आउटपुट तक मैपिंग सीखना है, जिससे नए डेटा के लिए आउटपुट की भविष्यवाणी करना संभव हो सके। सामान्य सुपरवाइज्ड लर्निंग एल्गोरिदम में शामिल हैं:
- रैखिक प्रतिगमन: निरंतर परिणामों की भविष्यवाणी करने के लिए उपयोग किया जाता है। यह एक रैखिक समीकरण को प्रेक्षित डेटा पर फिट करके एक आश्रित चर और एक या अधिक स्वतंत्र चर के बीच संबंध को मॉडल करता है।
- लॉजिस्टिक रिग्रेशन: बाइनरी वर्गीकरण कार्यों के लिए उपयोग किया जाता है (जैसे, हाँ/नहीं परिणामों की भविष्यवाणी करना)। यह लॉजिस्टिक फ़ंक्शन का उपयोग करके संभावनाओं का अनुमान लगाता है।
- निर्णय वृक्ष: ये मॉडल डेटा विशेषताओं से प्राप्त सरल निर्णय नियमों को सीखकर लक्ष्य चर के मूल्य का पूर्वानुमान लगाते हैं।
- रैंडम फॉरेस्ट (Random Forest): निर्णय वृक्षों का एक समूह, जिसका उपयोग आम तौर पर वर्गीकरण और प्रतिगमन के लिए किया जाता है, जिससे मॉडल की सटीकता में सुधार होता है और ओवरफिटिंग पर नियंत्रण होता है।
- सपोर्ट वेक्टर मशीन (एस.वी.एम.): उच्च-आयामी स्थानों में प्रभावी, एस.वी.एम. का उपयोग मुख्य रूप से वर्गीकरण के लिए किया जाता है, लेकिन इसका उपयोग प्रतिगमन के लिए भी किया जा सकता है।
- न्यूरल नेटवर्क: ये शक्तिशाली मॉडल हैं जो जटिल गैर-रैखिक संबंधों को पकड़ सकते हैं। इनका व्यापक रूप से डीप लर्निंग अनुप्रयोगों में उपयोग किया जाता है।
2. Unsupervised Learning
अनसुपरवाइज्ड लर्निंग एल्गोरिदम का उपयोग लेबल किए गए प्रतिक्रियाओं के बिना डेटा सेट के साथ किया जाता है। यहाँ लक्ष्य डेटा बिंदुओं के एक सेट के भीतर मौजूद प्राकृतिक संरचना का अनुमान लगाना है। आम अनसुपरवाइज्ड लर्निंग तकनीकों में शामिल हैं:
- क्लस्टरिंग: K-मीन्स, पदानुक्रमित क्लस्टरिंग और DBSCAN जैसे एल्गोरिदम वस्तुओं के एक समूह को इस तरह से समूहीकृत करते हैं कि एक ही समूह की वस्तुएं अन्य समूहों की तुलना में एक-दूसरे से अधिक समान होती हैं।
- एसोसिएशन: ये एल्गोरिदम आपके डेटा के बड़े हिस्से का वर्णन करने वाले नियम ढूंढते हैं, जैसे कि मार्केट बास्केट विश्लेषण।
- प्रमुख घटक विश्लेषण (पीसीए): एक सांख्यिकीय प्रक्रिया जो संभावित रूप से सहसंबद्ध चरों के अवलोकनों के एक सेट को रैखिक रूप से असंबद्ध चरों के मानों के एक सेट में परिवर्तित करने के लिए ऑर्थोगोनल परिवर्तन का उपयोग करती है।
- ऑटोएनकोडर: विशेष प्रकार का तंत्रिका नेटवर्क जिसका उपयोग लेबल रहित डेटा की कुशल कोडिंग सीखने के लिए किया जाता है।
3. Reinforcement Learning
सुदृढीकरण सीखने के एल्गोरिदम निर्णयों का एक क्रम बनाना सीखते हैं। एल्गोरिदम अनिश्चित, संभावित रूप से जटिल वातावरण में लक्ष्य प्राप्त करना सीखता है। सुदृढीकरण सीखने में, एक एजेंट कौन सी कार्रवाई करनी है, इसके आधार पर एक नीति का पालन करके निर्णय लेता है, और वह पुरस्कार या दंड के माध्यम से इन कार्यों के परिणामों से सीखता है।
- क्यू-लर्निंग: यह एक मॉडल-मुक्त सुदृढीकरण सीखने का एल्गोरिदम है जो किसी विशेष स्थिति में किसी क्रिया का मूल्य सीखता है।
- डीप क्यू-नेटवर्क्स (डीक्यूएन): यह क्यू-लर्निंग को डीप न्यूरल नेटवर्क्स के साथ जोड़ता है, जिससे उच्च-आयामी संवेदी इनपुट से सीधे सफल नीतियों को सीखने की सुविधा मिलती है।
- नीति ग्रेडिएंट विधियाँ: ये विधियाँ कार्यों के मूल्य का अनुमान लगाने के बजाय सीधे नीति के मापदंडों को अनुकूलित करती हैं।
- मोंटे कार्लो ट्री सर्च (एमसीटीएस): परिदृश्यों को चलाकर इष्टतम निर्णय लेने के लिए निर्णय प्रक्रियाओं में उपयोग किया जाता है, विशेष रूप से गो जैसे खेलों में इसका उपयोग किया जाता है।
ये श्रेणियाँ मशीन लर्निंग एल्गोरिदम के सबसे आम प्रकारों का एक व्यापक अवलोकन प्रदान करती हैं। प्रत्येक की अपनी ताकत और आदर्श उपयोग के मामले हैं, जो उन्हें दूसरों की तुलना में कुछ प्रकार के कार्यों के लिए बेहतर अनुकूल बनाते हैं।
List of Popular Machine Learning Algorithms
1. Linear Regression
रैखिक प्रतिगमन की कार्यप्रणाली को समझने के लिए , कल्पना करें कि आप लकड़ी के यादृच्छिक लॉग को उनके वजन के बढ़ते क्रम में कैसे व्यवस्थित करेंगे। हालाँकि, इसमें एक समस्या है – आप प्रत्येक लॉग का वजन नहीं कर सकते। आपको लॉग की ऊँचाई और परिधि (दृश्य विश्लेषण) को देखकर और इन दृश्यमान मापदंडों के संयोजन का उपयोग करके उन्हें व्यवस्थित करके इसके वजन का अनुमान लगाना होगा। मशीन लर्निंग में रैखिक प्रतिगमन ऐसा ही है।
इस प्रक्रिया में, स्वतंत्र और आश्रित चरों को एक रेखा में फिट करके उनके बीच संबंध स्थापित किया जाता है। इस रेखा को प्रतिगमन रेखा के रूप में जाना जाता है और इसे रैखिक समीकरण Y= a *X + b द्वारा दर्शाया जाता है।
इस समीकरण में:
- Y – आश्रित चर
- ए – ढलान
- X – स्वतंत्र चर
- बी – अवरोधन
गुणांक a और b को डेटा बिंदुओं और प्रतिगमन रेखा के बीच की दूरी के वर्ग अंतर के योग को न्यूनतम करके प्राप्त किया जाता है।
2. Logistic Regression
लॉजिस्टिक रिग्रेशन का उपयोग स्वतंत्र चरों के एक सेट से असतत मानों (आमतौर पर 0/1 जैसे बाइनरी मान) का अनुमान लगाने के लिए किया जाता है। यह डेटा को लॉगिट फ़ंक्शन में फ़िट करके किसी घटना की संभावना का अनुमान लगाने में मदद करता है। इसे लॉगिट रिग्रेशन भी कहा जाता है।
नीचे सूचीबद्ध इन विधियों का उपयोग अक्सर लॉजिस्टिक रिग्रेशन मॉडल को बेहतर बनाने में किया जाता है:
- बातचीत की शर्तें शामिल करें
- सुविधाएँ समाप्त करें
- तकनीकों को नियमित करें
- गैर-रैखिक मॉडल का उपयोग करें
3. Decision Tree
मशीन लर्निंग में निर्णय वृक्ष एल्गोरिथ्म आज उपयोग में आने वाले सबसे लोकप्रिय एल्गोरिदम में से एक है; यह एक पर्यवेक्षित शिक्षण एल्गोरिथ्म है जिसका उपयोग समस्याओं को वर्गीकृत करने के लिए किया जाता है। यह श्रेणीबद्ध और सतत आश्रित चर दोनों को वर्गीकृत करने में अच्छा काम करता है। यह एल्गोरिथ्म जनसंख्या को सबसे महत्वपूर्ण विशेषताओं/स्वतंत्र चर के आधार पर दो या अधिक समरूप सेटों में विभाजित करता है।
4. SVM (Support Vector Machine) Algorithm
एसवीएम एल्गोरिथ्म एक वर्गीकरण एल्गोरिथ्म की विधि है जिसमें आप कच्चे डेटा को n-आयामी स्थान (जहाँ n आपके पास मौजूद सुविधाओं की संख्या है) में बिंदुओं के रूप में प्लॉट करते हैं। फिर प्रत्येक सुविधा का मान एक विशेष निर्देशांक से बंधा होता है, जिससे डेटा को वर्गीकृत करना आसान हो जाता है। क्लासिफायर नामक रेखाओं का उपयोग डेटा को विभाजित करने और उन्हें ग्राफ़ पर प्लॉट करने के लिए किया जा सकता है।
5. Naive Bayes Algorithm
एक भोला बेयस क्लासिफायर यह मानता है कि किसी वर्ग में किसी विशेष विशेषता की उपस्थिति किसी अन्य विशेषता की उपस्थिति से संबंधित नहीं है।
भले ही ये विशेषताएं एक-दूसरे से संबंधित हों, फिर भी एक नैवे बेयस वर्गीकारक किसी विशेष परिणाम की संभावना की गणना करते समय इन सभी गुणों पर स्वतंत्र रूप से विचार करेगा।
नैव बायेसियन मॉडल बनाना आसान है और बड़े डेटासेट के लिए उपयोगी है। यह सरल है और अत्यधिक परिष्कृत वर्गीकरण विधियों से भी बेहतर प्रदर्शन करने के लिए जाना जाता है।
6. KNN (K- Nearest Neighbors) Algorithm
इस एल्गोरिथ्म को वर्गीकरण और प्रतिगमन दोनों समस्याओं पर लागू किया जा सकता है। जाहिर है, डेटा साइंस उद्योग के भीतर, वर्गीकरण समस्याओं को हल करने के लिए इसका अधिक व्यापक रूप से उपयोग किया जाता है। यह एक सरल एल्गोरिथ्म है जो सभी उपलब्ध मामलों को संग्रहीत करता है और अपने k पड़ोसियों के बहुमत वोट लेकर किसी भी नए मामले को वर्गीकृत करता है। फिर मामले को उस वर्ग को सौंपा जाता है जिसके साथ इसकी सबसे अधिक समानता होती है। एक दूरी फ़ंक्शन यह माप करता है।
KNN को वास्तविक जीवन से तुलना करके आसानी से समझा जा सकता है। उदाहरण के लिए, यदि आप किसी व्यक्ति के बारे में जानकारी चाहते हैं, तो उसके दोस्तों और सहकर्मियों से बात करना समझदारी है!
निकटतम पड़ोसी एल्गोरिथ्म का चयन करने से पहले विचार करने योग्य बातें:
- KNN कम्प्यूटेशनल रूप से महंगा है
- चरों को सामान्यीकृत किया जाना चाहिए, अन्यथा उच्च श्रेणी के चर एल्गोरिथम को पूर्वाग्रहित कर सकते हैं
- डेटा को अभी भी पूर्व-प्रसंस्कृत करने की आवश्यकता है।
7. K-Means
यह एक अप्रशिक्षित शिक्षण एल्गोरिथ्म है जो क्लस्टरिंग समस्याओं को हल करता है। डेटा सेट को एक विशेष संख्या में क्लस्टर (चलिए उस संख्या को K कहते हैं) में इस तरह वर्गीकृत किया जाता है कि एक क्लस्टर के भीतर सभी डेटा बिंदु अन्य क्लस्टर के डेटा से समरूप और विषम होते हैं।
K-मीन्स किस प्रकार क्लस्टर बनाता है:
- K-मीन्स एल्गोरिथ्म प्रत्येक क्लस्टर के लिए k संख्या में बिंदु चुनता है, जिन्हें सेंट्रोइड्स कहा जाता है।
- प्रत्येक डेटा बिंदु निकटतम केन्द्रक, अर्थात् K क्लस्टर के साथ एक क्लस्टर बनाता है।
- यह अब मौजूदा क्लस्टर सदस्यों के आधार पर नए सेंट्रोइड बनाता है।
- इन नए सेंट्रोइड्स के साथ, प्रत्येक डेटा बिंदु के लिए निकटतम दूरी निर्धारित की जाती है। यह प्रक्रिया तब तक दोहराई जाती है जब तक कि सेंट्रोइड्स में बदलाव नहीं होता।
8. Random Forest Algorithm
निर्णय वृक्षों के समूह को रैंडम फ़ॉरेस्ट कहा जाता है। किसी नई वस्तु को उसकी विशेषताओं के आधार पर वर्गीकृत करने के लिए, प्रत्येक वृक्ष को वर्गीकृत किया जाता है, और वृक्ष उस वर्ग के लिए “मतदान” करता है। फ़ॉरेस्ट सबसे ज़्यादा वोट पाने वाले वर्गीकरण को चुनता है (फ़ॉरेस्ट के सभी वृक्षों में से)।
प्रत्येक पेड़ को निम्न प्रकार से लगाया और उगाया जाता है:
- यदि प्रशिक्षण सेट में मामलों की संख्या N है, तो N मामलों का एक नमूना यादृच्छिक रूप से लिया जाता है। यह नमूना पेड़ को बढ़ाने के लिए प्रशिक्षण सेट होगा।
- यदि M इनपुट चर हैं, तो एक संख्या m<<M निर्दिष्ट की जाती है, ताकि प्रत्येक नोड पर, M में से m चर यादृच्छिक रूप से चुने जाएँ, और इस m पर सबसे अच्छा विभाजन नोड को विभाजित करने के लिए उपयोग किया जाता है। इस प्रक्रिया के दौरान m का मान स्थिर रखा जाता है।
- प्रत्येक पेड़ को यथासंभव पर्याप्त मात्रा में उगाया जाता है। इसमें कोई छंटाई नहीं की जाती।
9. Dimensionality Reduction Algorithms
आज की दुनिया में, कॉर्पोरेट, सरकारी एजेंसियों और शोध संगठनों द्वारा बहुत अधिक मात्रा में डेटा संग्रहीत और विश्लेषित किया जा रहा है। एक डेटा वैज्ञानिक के रूप में, आप जानते हैं कि इस कच्चे डेटा में बहुत सारी जानकारी होती है – चुनौती महत्वपूर्ण पैटर्न और चर की पहचान करना है।
आयाम न्यूनीकरण एल्गोरिदमनिर्णय वृक्ष, कारक विश्लेषण, लुप्त मान अनुपात और रैंडम फ़ॉरेस्ट जैसे
10. Gradient Boosting Algorithm and AdaBoosting Algorithm
ग्रेडिएंट बूस्टिंग एल्गोरिदम और एडाबूस्टिंग एल्गोरिदम बूस्टिंग एल्गोरिदम हैं जिनका उपयोग तब किया जाता है जब उच्च सटीकता के साथ पूर्वानुमान लगाने के लिए डेटा के बड़े लोड को संभालना होता है। बूस्टिंग एक एन्सेम्बल लर्निंग एल्गोरिदम है जो मजबूती को बेहतर बनाने के लिए कई बेस एस्टीमेटर्स की भविष्य कहने वाली शक्ति को जोड़ता है।
संक्षेप में, यह कई कमज़ोर या औसत भविष्यवाणियों को मिलाकर एक मज़बूत भविष्यवक्ता बनाता है। ये बूस्टिंग एल्गोरिदम हमेशा डेटा साइंस प्रतियोगिताओं जैसे कि कागल, एवी हैकाथॉन, क्राउडएनालिटिक्स में अच्छा काम करते हैं। ये आज सबसे ज़्यादा पसंद किए जाने वाले मशीन लर्निंग एल्गोरिदम हैं। सटीक परिणाम प्राप्त करने के लिए, पायथन और आर कोड के साथ इनका उपयोग करें।