एक शॉट की नकल सीखने के लिए OpenAI का नया दृष्टिकोण, AI के भविष्य में एक झलक

वन-शॉट इमीटेशन लर्निंग यान डुआन, मारसिन एंड्रीचोविक्ज़, ब्रैडली सी। स्टैडी, जोनाथन हो, जोनास श्नाइडर, इल्या सुतस्वर, पीटर एबील, वोज्शिएक ज़म्म्बा

16 मई को, OpenAI के शोधकर्ताओं ने अपनी एक परियोजना का एक वीडियो साझा किया जिसमें महत्व के दो कागजात के साथ वर्तमान एआई विकास के तीन महत्वपूर्ण बाधाओं का समाधान खोजा गया: मेटा-लर्निंग, वन-शॉट लर्निंग, और स्वचालित डेटा उत्पादन। अपनी पिछली पोस्ट में, मैंने एक शॉट सीखने की आकर्षक समस्या के लिए समर्पित एक लेख का वादा किया था, इसलिए यहाँ जाता है। आप उनके द्वारा जारी किए गए वीडियो पर एक नज़र डालकर शुरू कर सकते हैं जो उनके अद्भुत काम की व्याख्या करता है:

इस वीडियो में आप एक हाथ वाले शारीरिक रोबोट को एक दूसरे के ऊपर क्यूब्स को ढेर करते हुए देखते हैं। उन जटिल कार्यों को जानना, जो वर्तमान में औद्योगिक रोबोट प्रदर्शन करने में सक्षम हैं, यदि शोधकर्ता यह समझाने की कोशिश नहीं कर रहा था कि क्या चल रहा है, तो कई खातों पर यह बहुत कम हो जाएगा। नियंत्रित वातावरण में कार्य सरल है, प्रक्रियात्मक (कठोर-कोडित) दृष्टिकोणों ने इस समस्या को पहले ही हल कर दिया है, जो कि आशाजनक है और क्रांतिकारी है कि कितने सामान्य ढांचे के नीचे कई, अधिक जटिल और अनुकूली व्यवहारों को नोइज़ियर वातावरण में रखा जा सकता है।

मनुष्य और उच्चतर जानवरों के बीच मन में अंतर, जैसा कि महान है, निश्चित रूप से डिग्री में से एक है और दयालु नहीं है।
- चार्ल्स डार्विन

सादृश्य से, यह लेख एक मजबूत सबूत है कि वर्तमान सन्निहित एआई (भौतिक प्रणालियों की कृत्रिम बुद्धिमत्ता) और 22 वीं शताब्दी के रोबोटों के बीच संज्ञानात्मक प्रणालियों में अंतर एक तरह का होगा और प्रकार का नहीं। 2012 की इमेजनेट प्रतियोगिता * के बाद से, गहन शिक्षण अनुसंधान फलफूल रहा है, एक तंत्रिका नेटवर्क द्वारा किए गए वितरित संगणना की प्रकृति को संशोधित करने के लिए नहीं, बल्कि एक विशिष्ट कार्य सीखने के लिए संरचना नेटवर्क के नए तरीके खोजने से। एक तंत्रिका नेटवर्क फ़ंक्शन के लिए संरचना है, यह संरचना हार्ड-कोडित नहीं है (हाथ से डिज़ाइन नहीं किया गया है) लेकिन यह परमाणु कम्प्यूटेशनल इकाइयों के परिणाम हैं जो शुरू में इनपुट और आउटपुट के बीच जुड़े हुए हैं, जो उनकी संरचना और कनेक्शन को संशोधित करने में सक्षम हैं। यह नेटवर्क की समग्र संरचना को संशोधित करके है कि यह एक विशिष्ट कार्य सीखता है।

इस लेख में उन्होंने एक सामान्य ढांचे का निर्माण किया जो एक एजेंट को एक सार तरीके से कार्यों का प्रतिनिधित्व करने में सक्षम बनाता है, और इस ज्ञान को नए अनदेखी कार्यों (ट्रांसफर लर्निंग) को उपन्यास कार्य (केवल एक शॉट नकल सीखने) के केवल एक प्रदर्शन के बाद स्थानांतरित करना सीखता है।

कार्य

यद्यपि सटीक स्थापत्य कार्यान्वयन भिन्न होता है, वे सामान्य दृष्टिकोण के प्रदर्शन को दिखाने के लिए उदाहरण के रूप में दो कार्य करते हैं।

कण तक पहुँचना

पहले उदाहरण में सिस्टम को एक विमान पर रंगीन लक्ष्य स्थितियों के इनपुट प्राप्त होते हैं और नकली एजेंट का एक एकल वीडियो प्रदर्शन निर्दिष्ट लक्ष्य पर जा रहा है।

चित्रा 2. रोबोट 2-आयामी बल के साथ नियंत्रित एक बिंदु द्रव्यमान है। कार्यों का परिवार लक्ष्य लैंडमार्क तक पहुंचना है। मील का पत्थर की पहचान कार्य से भिन्न होती है, और मॉडल को यह पता लगाना होता है कि प्रदर्शन के आधार पर किस लक्ष्य का पीछा करना है। (बाएं) रोबोट का चित्रण; (मध्य) कार्य नारंगी बॉक्स तक पहुंचने के लिए है, (दाएं) कार्य हरे त्रिकोण तक पहुंचने के लिए है।

प्रशिक्षण के दौरान सिस्टम को एक ही कार्य (नारंगी तक पहुंचना) को पुन: उत्पन्न करना होता है, लेकिन दूसरे कॉन्फ़िगरेशन से, रोबोट और लक्ष्यों के लिए अलग-अलग शुरुआती स्थिति के साथ। यह स्पष्ट नहीं है कि परीक्षण के दौरान एजेंट को उस कार्य पर परीक्षण किया जाता है जिसे वह (नारंगी तक पहुंच) पर प्रशिक्षित किया गया था या उस कार्य पर जिसे उसने पहले कभी नहीं देखा था (उदाहरण के लिए हरे रंग तक पहुंच) या दोनों।

प्रशिक्षित नीति का मूल्यांकन नए परिदृश्यों पर किया जाता है और प्रशिक्षण के दौरान अनदेखी किए गए नए प्रदर्शन प्रक्षेपवक्रों पर वातानुकूलित किया जाता है।

यह निश्चित है कि एजेंट को एक अद्वितीय प्रदर्शन से लक्ष्य लक्ष्य का अनुमान लगाना होगा और फिर से दूसरे कॉन्फ़िगरेशन से शुरू करना होगा। इसका तात्पर्य यह है कि परीक्षण से पहले सटीक मोटर अनुक्रम नहीं सीखा जा सकता था और कार्य और मोटर नियोजन के अमूर्त (उच्च-स्तरीय संरचित प्रतिनिधित्व) के माध्यम से अनुमान लगाया जाना था।

ब्लॉक स्टैकिंग

दूसरे उदाहरण में एजेंट को क्यूब्स को स्टैक करना सीखना होता है (अलग-अलग रंगों से पहचाना जाता है) उसी क्रम में एक एकल प्रदर्शन में दिखाया गया है। यह नकली प्रदर्शन एक 3 डी भौतिकी इंजन द्वारा उत्पन्न 2D छवियों की एक श्रृंखला है जिसमें रोबोट की मोटर और संवेदी तंत्र के गुणों को मॉडल किया गया है।

एक-शॉट नीति। कई कार्यों को हल करने के लिए प्रशिक्षित एक एकल नीति। शीर्ष कार्य: {abc, def}, निचला कार्य: {ab, cd, ef}

दोनों उदाहरणों में प्रदर्शन में क्यूब्स की प्रारंभिक स्थिति और वास्तविक परीक्षण अलग हैं, प्रत्येक कार्य एक अन्य प्रारंभिक स्थिति से शुरू हो रहा है। रोबोट प्रदर्शन की प्रारंभिक स्थिति से मेल खाने के लिए क्यूब्स को बदलने की कोशिश नहीं करता है, यह क्यूब को जमा करने के उच्च स्तर के कार्य को स्थानांतरित करता है जो भी वह शुरू करता है।

डोमेन रैंडमाइजेशन का उपयोग करके प्रशिक्षण

दोनों मामलों में प्रशिक्षण के दौरान उपयोग की जाने वाली सभी छवियां सिमुलेशन के माध्यम से प्राप्त की जाती हैं, जिसमें डोमेन रैंडमाइजेशन का उपयोग किया जाता है जिसमें वे नमूनों के निम्नलिखित पहलुओं को यादृच्छिक करेंगे:

टेबल पर डिस्ट्रैक्टर ऑब्जेक्ट्स की संख्या और आकार टेबल पर सभी ऑब्जेक्ट्स की स्थिति और बनावट टेबल, फ्लोर, स्काईबॉक्स, और रोबोट पोजीशन, ओरिएंटेशन, और कैमरा के दृश्य का बनावट दृश्य स्थिति, ओरिएंटेशन, में लाइट्स की संख्या और रोशनी की विशिष्ट विशेषताएं छवियों में जोड़े गए यादृच्छिक शोर के प्रकार और मात्रा

कण तक पहुँचने के लिए प्रशिक्षण सेट

हम कार्य परिवारों के एक मुश्किल से मुश्किल सेट पर विचार करते हैं, जहां स्थलों की संख्या 2 से बढ़कर 10 हो जाती है। प्रत्येक कार्य परिवार के लिए, हम प्रशिक्षण के लिए 10000 प्रक्षेपवक्र एकत्र करते हैं, जहां स्थलों की स्थिति और बिंदु रोबोट की प्रारंभिक स्थिति यादृच्छिक होती है। हम कुशलता से प्रदर्शनों को उत्पन्न करने के लिए एक हार्ड-कोडेड विशेषज्ञ नीति का उपयोग करते हैं। हम पर्यावरण के लिए उन्हें लागू करने से पहले गणना की गई क्रियाओं को रोकने के द्वारा प्रक्षेपवक्र में शोर जोड़ते हैं, और हम तंत्रिका नेटवर्क नीति को प्रशिक्षित करने के लिए सरल व्यवहार क्लोनिंग का उपयोग करते हैं

ब्लॉक स्टैकिंग के लिए प्रशिक्षण सेट

लगातार, हम 140 प्रशिक्षण कार्यों और 43 परीक्षण कार्यों को इकट्ठा करते हैं, जिनमें से प्रत्येक ब्लॉक का एक अलग वांछित लेआउट है। प्रत्येक कार्य में ब्लॉकों की संख्या 2 और 10 के बीच भिन्न हो सकती है। हम प्रशिक्षण के लिए प्रति कार्य 1000 प्रक्षेपवक्र एकत्र करते हैं, और मूल्यांकन के लिए उपयोग किए जाने वाले प्रक्षेपवक्र और प्रारंभिक कॉन्फ़िगरेशन का एक अलग सेट बनाए रखते हैं। कार्य तक पहुंचने वाले कण के समान, हम शोर को प्रक्षेपवक्र संग्रह प्रक्रिया में इंजेक्ट करते हैं। प्रक्षेपवक्र एक हार्ड-कोडित नीति का उपयोग करके एकत्र किए जाते हैं।

हार्ड-कोडित नीति का उपयोग करके सफल प्रदर्शन एकत्र किए जाते हैं

ध्यान दें कि सीखने के दौरान सही प्रक्षेपवक्र एक प्रक्रियात्मक "हार्ड-कोडेड" नीति द्वारा उत्पन्न होते हैं, जो मेरा मानना ​​है कि सिस्टम पहचान और नियंत्रण की क्लासिक तकनीकों पर निर्भर करता है। इसलिए प्रशिक्षण के दौरान और एजेंट के पास दो इनपुट होते हैं: ए) एक कॉन्फ़िगरेशन ए में प्रदर्शन, और बी) एक प्रारंभिक कॉन्फ़िगरेशन बी। केवल प्रशिक्षण के दौरान, सीखने का एल्गोरिथ्म भी एक आदर्श प्रतिक्रिया तक पहुंचता है: कॉन्फ़िगरेशन बी से शुरू होने वाला एक प्रक्षेपवक्र। समस्या का जवाब देता है और जिसके साथ सीखने के दौरान एजेंट की प्रतिक्रिया की तुलना की जाएगी - यह एक पर्यवेक्षित सीखने की समस्या बना देगा।

प्रत्येक प्रशिक्षण कार्य के लिए हम सफल प्रदर्शनों के एक सेट की उपलब्धता मानते हैं।

यदि यह स्पष्ट नहीं है, तो मैं अगले खंड में विभिन्न प्रकार के सीखने के प्रतिमानों के बीच के अंतरों पर जाऊंगा।

अनुकूलन एल्गोरिथ्म और नुकसान समारोह

पर्यवेक्षित अधिगम प्रशिक्षण प्रतिमानों को संदर्भित करता है जिसमें प्रत्येक निर्णय पर नेटवर्क के पास सही विकल्प तक पहुंच होती है जिसे उसे बनाया जाना चाहिए, और इसलिए त्रुटि की धारणा। उदाहरण के लिए, कुत्तों और बिल्लियों के बीच एक वर्गीकरण कार्य में, प्रशिक्षण के दौरान कुत्तों और बिल्लियों की छवियों के लेबल को पहले से जाना जाता है और त्रुटियों का तुरंत पता लगाया जाता है। इस अर्थ में, यह बिना पढ़े-लिखे सीखने से अलग है, जहां सामान्य तौर पर एजेंट को उसके द्वारा प्राप्त इनपुट्स में एक पूर्व अज्ञात संरचना को खोजने के लिए कहा जाता है, और बिल्लियों और कुत्तों के लेबल के बिना यह पता लगाना होगा कि अलग-अलग वस्तुओं के दो समूह हैं डेटा में निहित जानकारी। यह सुदृढीकरण सीखना से भी अलग है कि यह वास्तविक समय प्रणाली पर लागू होता है जिसमें निर्णय का सटीक अनुक्रम अज्ञात होता है, लेकिन केवल एक अंतिम "इनाम" ही तय करेगा कि अनुक्रम सही था या नहीं। नकल सीखने का उपयोग करके वे एक क्लासिक सुदृढीकरण सीखने की समस्या को एक पर्यवेक्षित सीखने की समस्या में बदल देते हैं, जिसमें त्रुटि की गणना दूरी से एक मनाया प्रक्षेपवक्र तक की जाती है।

जैसा कि किसी भी पर्यवेक्षित प्रशिक्षण सेटअप के लिए मामला है, हाथ में कार्य पूरी तरह से नुकसान फ़ंक्शन द्वारा परिभाषित किया गया है, जिसका उद्देश्य यह निर्धारित करना है कि इच्छित व्यवहार से कितनी दूर एजेंट था। इस फ़ंक्शन को परिभाषित करना अक्सर महत्वपूर्ण कदम होता है, क्योंकि यह निर्धारित करता है कि अनुकूलन एल्गोरिदम मॉडल के मापदंडों को कैसे अपडेट करते हैं। अभिकलन समय की अवधि में उन एल्गोरिदम का महत्व होता है, और अक्सर सभी के लिए, यदि यह करने में सक्षम होने के लिए कुछ tweaking की आवश्यकता होती है। वास्तव में वे समाधान जो बहुत उच्च आयाम में कार्य को कम करेंगे, पैरामीटर स्पेस के एक बहुत छोटे शेल में रहते हैं, उनके बीच एक छोटी बाधा दूरी के साथ, जैसे ही आप उस छोटे डोमेन से दूर होते हैं, समाधानों के बीच की दूरी तेजी से बढ़ती है। जेनिफर चायेस द्वारा अन्य लोगों के बीच किए गए उस विषय पर बहुत दिलचस्प काम है, वह टॉकिंग मशीनों के अंतिम एपिसोड में एक बहुत ही दिलचस्प साक्षात्कार में इस विषय पर ब्रश करती है।

पॉलिसी नेटवर्क के प्रशिक्षण के दौरान (पूरा नेटवर्क, इनपुट से तय करने में सक्षम है कि कौन सी कार्रवाई करनी है) वे पहले सफल प्रदर्शन प्रक्षेपवक्र की प्रक्रिया करते हैं। इस भाग के लिए वे दो दृष्टिकोणों की तुलना करेंगे, क्लासिक बिहेवियरल क्लोनिंग (उनके द्वारा उपयोग किए गए कार्यान्वयन के बारे में बिल्कुल निश्चित नहीं) और DAGGER एल्गोरिदम। इसके बाद एल 2 या क्रॉस-एन्ट्रापी लॉस के माध्यम से नुकसान फ़ंक्शन के पुनरावृत्ति को कम करने की अनुमति होगी, जो कि निरंतर या असतत हैं (अनुक्रम में घटनाओं के वितरण के आधार पर)। सभी प्रयोगों के पार, उन्होंने 0.001 सीखने की दर के साथ अनुकूलन करने के लिए एडमैक्स एल्गोरिथ्म का उपयोग किया।

चरण का आकार छोटा शुरू होता है और तेजी से घटता है।

अपने आप में एल्गोरिथ्म स्थानांतरण के लिए अनुमति नहीं देता है, यह है कि आप अपने प्रशिक्षण सेट और अपने नुकसान फ़ंक्शन को कैसे बनाते हैं जो हस्तांतरण के लिए अनुमति देगा।

कार्यों में दो प्रकार के स्थानांतरण मौजूद हैं। पहली तरह को "वास्तविकता खाई को पाटना" के रूप में जाना जाता है, यह प्राकृतिक उत्तेजनाओं पर परीक्षण करने के लिए सिम्युलेटेड इनपुट पर प्रशिक्षण के बीच स्थानांतरण के लिए सीखने की अनुमति में एक सामान्यीकरण है। सिमुलेशन डेटा अक्सर वास्तविक दुनिया की एक बिगड़ा हुआ अनुमान है, बहुत सही, वास्तविक वस्तु की जटिलता में कमी है। वास्तविक दुनिया में कैमरा दोषपूर्ण और नॉइज़ियर हो सकता है, मोटर नियंत्रण कम सटीक होगा, रंग बदल जाएंगे, बनावट अधिक समृद्ध होगी आदि। इस पहले हस्तांतरण के लिए वे एक विधि का उपयोग करने की अनुमति देते हैं जिसे वे "डोमेन रैंडमाइजेशन" के रूप में संदर्भित करते हैं। : यह इनपुट्स के लिए शोर जोड़कर है कि नेटवर्क सामान्य प्रासंगिक संरचना को सीख सकता है जो इसे वास्तविक दुनिया में उचित रूप से सामान्य बनाने की अनुमति देगा। वे उदाहरण के लिए प्रशिक्षण के उदाहरणों के बीच कैमरे के कोण को बदलते हैं, बनावट बदलते हैं, या प्रक्षेपवक्र को कम परिपूर्ण बनाते हैं। प्रशिक्षण के दौरान शोर को जोड़कर हम मजबूती लाते हैं।

यहां परीक्षण किया गया दूसरा हस्तांतरण कॉन्फ़िगरेशन और लक्ष्य के पहले अनदेखे सेट में एक प्रासंगिक मोटर अनुक्रम का उत्पादन करने की क्षमता है, जो एक अन्य प्रारंभिक कॉन्फ़िगरेशन में शुरू होने वाले एकल प्रदर्शन के आधार पर लेकिन इसी तरह के अंतिम लक्ष्य के साथ है। यहां फिर से स्थानांतरण संभव है कि हम प्रशिक्षण सेट का निर्माण कैसे करें, और नुकसान फ़ंक्शन को मॉडल करें। प्रशिक्षण के दौरान प्रदर्शनों को प्रस्तुत करने से जो समान लक्ष्य तक पहुंचने के लिए एक ही प्रारंभिक स्थिति से शुरू नहीं होते हैं, आप नेटवर्क को पूर्ण पदों का उपयोग किए बिना लक्ष्य के उच्च-स्तरीय प्रतिनिधित्व को सीखने की अनुमति देते हैं, साथ ही साथ एक उच्च-क्रम प्रतिनिधित्व भी करते हैं। मोटर अनुक्रम जो एक सरल नकल नहीं है। भोली प्रारंभिक वास्तुकला संरचना को एक प्रासंगिक तरीके से संशोधित करने के लिए प्रशिक्षण की अनुमति देता है, और यह प्रशिक्षित संरचना अंतिम कार्य का अर्थ है।

उद्देश्य

ब्लॉक स्टैकिंग प्रतिमान के लिए उनके पास कई अड़चनें थीं जो वे चाहते थे कि उनके सीखने के एजेंट मिलें।

ब्लॉक के अलग-अलग संख्या वाले कार्य उदाहरणों पर लागू करना आसान होना चाहिए।
यह स्वाभाविक रूप से एक ही कार्य के विभिन्न क्रमपरिवर्तन के लिए सामान्यीकरण करना चाहिए। उदाहरण के लिए, नीति को कार्य {dcba} पर अच्छा प्रदर्शन करना चाहिए, भले ही वह केवल कार्य {abcd} पर ही प्रशिक्षित हो।
इसे चर लंबाई के प्रदर्शनों को समायोजित करना चाहिए।

इस कार्य के लिए उनके पास कई सवाल थे जिनका वे जवाब चाहते थे

व्यवहार क्लोनिंग के साथ प्रशिक्षण DAGGER के साथ तुलना कैसे करता है, यह देखते हुए कि पर्याप्त डेटा ऑफ़लाइन एकत्र किया जा सकता है?
संपूर्ण प्रदर्शन पर कंडीशनिंग अंतिम वांछित कॉन्फ़िगरेशन पर कंडीशनिंग की तुलना कैसे करती है, तब भी जब अंतिम कॉन्फ़िगरेशन में कार्य को पूरी तरह से निर्दिष्ट करने के लिए पर्याप्त जानकारी होती है?
पूरे प्रदर्शन पर कंडीशनिंग कैसे प्रक्षेपवक्र के "स्नैपशॉट" पर कंडीशनिंग की तुलना करती है, जो कि सबसे अधिक जानकारी वाले फ़्रेमों का एक छोटा सबसेट है
क्या हमारा ढांचा उन प्रकारों के कार्यों का सफलतापूर्वक सामान्यीकरण कर सकता है जो उन्होंने प्रशिक्षण के दौरान कभी नहीं देखे हैं? (++)
विधि की वर्तमान सीमाएँ क्या हैं?

आर्किटेक्चर

कण पहुँचना

इस पहले उदाहरण के लिए उन्होंने लॉन्ग टर्म टर्म मेमोरी (LSTM) न्यूरल नेटवर्क पर आधारित तीन आर्किटेक्चर की तुलना की। उन नेटवर्क का विवरण स्मृति और ध्यान के बारे में भविष्य की पोस्ट में जाएगा, जो संज्ञानात्मक और कम्प्यूटेशनल विज्ञान दोनों में बिल्कुल आकर्षक विषय हैं। संक्षेप में एक LSTM प्रत्येक नए समय बिंदु पर नेटवर्क के इनपुट के हिस्से के रूप में (समय में) पिछले नेटवर्क आउटपुट खिलाता है, जो अतीत के राज्यों को वर्तमान (इसलिए उनके अल्पकालिक मेमोरी नेटवर्क का नाम) को सूचित करने की अनुमति देता है। वे समय श्रृंखला (एलेक्सा, सिरी आदि) से निपटने वाली कई अत्याधुनिक तकनीकों के मूल में हैं।

यहां वे उन तीन विशिष्ट स्थितियों का उपयोग करते हैं:

  1. प्लेन LSTM: मोटर एक्शन पैदा करने वाले मल्टीलेयर परसेप्ट्रॉन को फीड करने के लिए प्रक्षेपवक्र और वर्तमान स्थिति को एम्बेड करना सीखता है
  2. ध्यान के साथ LSTM: प्रक्षेपवक्र के स्थलों पर एक भारित प्रतिनिधित्व का उत्पादन
  3. ध्यान के साथ अंतिम स्थिति: पिछले आर्किटेक्चर के समान स्थलों पर भार का उत्पादन करने के लिए केवल अंतिम स्थिति के प्रशिक्षण में उपयोग करें

ब्लॉक स्टैकिंग

हालांकि, सिद्धांत रूप में, एक सामान्य तंत्रिका नेटवर्क प्रदर्शन और वर्तमान अवलोकन से मानचित्रण को उचित कार्रवाई के लिए सीख सकता है, हमने एक उपयुक्त वास्तुकला का उपयोग करना महत्वपूर्ण पाया। ब्लॉक स्टैकिंग सीखने के लिए हमारी वास्तुकला इस पेपर के मुख्य योगदानों में से एक है, और हमारा मानना ​​है कि भविष्य में अधिक जटिल कार्यों के एक-शॉट नकली सीखने के लिए यह क्या आर्किटेक्चर का प्रतिनिधि है।

ध्यान मॉड्यूल

कार्य को सीखने के लिए उपयोग किए जाने वाले नेटवर्क की संरचना का वर्णन करने में लेख अपेक्षाकृत उच्च स्तर पर रहता है। वास्तुकला का एक प्रमुख घटक उनका ध्यान मॉड्यूल है, लेकिन मेरा मानना ​​है कि इस विषय को अपनी आवश्यक भूमिका में विस्तार से एक विशिष्ट पोस्ट की आवश्यकता है। निरंतर ध्यान की संज्ञानात्मक विज्ञान अवधारणा के अनुरूप, ध्यान मॉड्यूल का उपयोग अंतरिक्ष और समय के अलग-अलग क्षेत्रों में निहित प्रासंगिक informations पर ध्यान केंद्रित करने के लिए किया जाता है। यह एक निश्चित आकार के आउटपुट का उत्पादन करता है जिसमें एक सूचना सामग्री का एक एम्बेडिंग होता है जिसे समय और स्थान में बढ़ाया गया था। टोपोलॉजी के अनुरूप, गणितज्ञ की एक शाखा जो मुझे विश्वास है कि हम भविष्य में वितरित प्रतिनिधित्व को कैसे समझते हैं, इस बारे में बहुत जानकारी देंगे, एक ध्यान नेटवर्क सूचना का एक सामयिक समरूपता, एक ही वक्रता, अलग आकार का कार्य करता है। ध्यान दें कि ये नेटवर्क अनपेक्षित डिटेक्टर की भूमिका नहीं निभाते हैं जो अप्रत्याशित या दुर्लभ घटनाओं पर ध्यान केंद्रित करने में सक्षम होते हैं, जो तंत्रिका विज्ञान में ध्यान की धारणा से जुड़ा एक कार्य है।

यहां वे दो प्रकार के ध्यान नेटवर्क का उपयोग करते हैं: ए) एक टेम्पोरल ध्यान नेटवर्क जो मेमोरी में संग्रहीत सामग्री (क्वेरी, संदर्भ और मेमोरी वैक्टर) पर एक भारित राशि का उत्पादन करता है, और बी) एक पड़ोस का ध्यान नेटवर्क जो ब्लॉक के सापेक्ष जानकारी को पुनर्प्राप्त करने में सक्षम है। एजेंट की वर्तमान क्वेरी के आधार पर पद।

अस्थायी ध्यान नेटवर्क, सी के साथ: संदर्भ वेक्टर, मी: मेमोरी वेक्टर, क्यू: क्वेरी वेक्टर, वी: सीखा वेक्टर वजन। आउटपुट मेमोरी वेक्टर के समान आकार का है। यह उन वेक्टर का एक रैखिक संयोजन है जो कुछ मेमोरी वेक्टर को संदर्भ और क्वेरी वैक्टर के आधार पर आउटपुट पर अधिक प्रभाव डालने की अनुमति देता है।यहां एक ही विचार, स्थानिक जानकारी के बीच प्रतिस्पर्धा को ध्यान प्रणाली द्वारा गतिशील रूप से बनाए रखा जाता है।

नीति नेटवर्क

पूरा नेटवर्क तीन अलग-अलग उप-नेटवर्क से बना है: प्रदर्शन नेटवर्क, संदर्भ नेटवर्क और हेरफेर नेटवर्क।

प्रदर्शन नेटवर्क इनपुट के रूप में एक प्रदर्शन प्रक्षेपवक्र प्राप्त करता है, और नीति द्वारा उपयोग किए जाने वाले प्रदर्शन के एम्बेडिंग का उत्पादन करता है। इस एम्बेडिंग का आकार प्रदर्शन की लंबाई के साथ-साथ पर्यावरण में ब्लॉकों की संख्या के कार्य के रूप में रैखिक रूप से बढ़ता है।

जैसा कि यहां दिखाया गया है कि प्रदर्शन नेटवर्क अलग-अलग जटिलता और आकार के प्रदर्शन को एक सामान्य प्रारूप में एम्बेड करने में सक्षम है जिसका उपयोग संदर्भ नेटवर्क द्वारा कार्य का प्रतिनिधित्व करने के लिए किया जाएगा। यह शायद पहले से ही इस स्तर पर है कि सामान्यीकरण होता है, प्रदर्शन एम्बेडिंग को प्रदर्शनों के दौरान देखे जाने वाले सटीक प्रक्षेपवक्र और घन निरपेक्ष पदों के बारे में जानकारी छोड़नी चाहिए।

संदर्भ नेटवर्क की संरचना को देखते हुए, हालांकि बहुत उच्च-स्तर से, हम इंटरफ़ेस को केंद्रीय टेम्पोरल ध्यान मॉड्यूल के प्रदर्शन के एक एम्बेडिंग फीडिंग नेटवर्क के साथ देखते हैं। हम यह भी देखते हैं कि पिछले क्रियाओं (LSTM) और वर्तमान स्थिति को इनपुट के रूप में खिलाया जाता है, जो प्रदर्शन के साथ मोटर नेटवर्क पर भेजे गए वैश्विक संदर्भ एम्बेडिंग उत्पादन को एम्बेड करता है।

नेटवर्क फ़ंक्शन का उनका वर्णन मेरी राय में कागज का सबसे महत्वपूर्ण हिस्सा है:

संदर्भ नेटवर्क वर्तमान स्थिति के एक फ़ंक्शन के रूप में एक क्वेरी वेक्टर की गणना करके शुरू होता है, जो तब प्रदर्शन एम्बेडिंग में अलग-अलग समय चरणों में भाग लेने के लिए उपयोग किया जाता है। एक ही समय कदम के दौरान एक ही वजन का उत्पादन करने के लिए एक ही समय कदम के भीतर विभिन्न ब्लॉकों पर ध्यान दिया गया है। इस लौकिक ध्यान का परिणाम एक वेक्टर है जिसका आकार पर्यावरण में ब्लॉकों की संख्या के लिए आनुपातिक है। फिर हम प्रत्येक ब्लॉक के एम्बेडिंग के बारे में जानकारी का प्रचार करने के लिए पड़ोस पर ध्यान देते हैं। यह प्रक्रिया कई बार दोहराई जाती है, जहां राज्य एक एलएसटीएम सेल का उपयोग करते हुए बिना तौल के उन्नत होता है।
संचालन का पिछला अनुक्रम एक एम्बेडिंग पैदा करता है जिसका आकार प्रदर्शन की लंबाई से स्वतंत्र है, लेकिन फिर भी ब्लॉकों की संख्या पर निर्भर करता है। हम तब निर्धारित-आयामी वैक्टर का उत्पादन करने के लिए मानक नरम ध्यान लागू करते हैं, जहां मेमोरी सामग्री में केवल प्रत्येक ब्लॉक की स्थिति होती है, जो रोबोट की स्थिति के साथ मिलकर हेरफेर नेटवर्क में पारित इनपुट बनाता है।
सहजता से, यद्यपि हेरफेर ओपेरा के प्रत्येक चरण में पर्यावरण में वस्तुओं की संख्या भिन्न हो सकती है, प्रासंगिक वस्तुओं की संख्या छोटी है और आमतौर पर तय की जाती है। विशेष रूप से ब्लॉक स्टैकिंग वातावरण के लिए, रोबोट को केवल उस ब्लॉक की स्थिति पर ध्यान देने की आवश्यकता होनी चाहिए जिसे वह लेने की कोशिश कर रहा है (स्रोत ब्लॉक), साथ ही उस ब्लॉक की स्थिति जिसे वह शीर्ष पर रखने की कोशिश कर रहा है ( लक्ष्य ब्लॉक)। इसलिए, एक ठीक से प्रशिक्षित नेटवर्क प्रदर्शन में इसी अवस्था के साथ वर्तमान स्थिति से मेल खाना सीख सकता है, और स्रोत और लक्ष्य ब्लॉकों की पहचान को अलग-अलग ब्लॉकों पर नरम ध्यान भार के रूप में व्यक्त करता है, जो तब संबंधित पदों को निकालने के लिए उपयोग किया जाता है। हेरफेर नेटवर्क के लिए पारित किया।

जिस तरह से वे अपना विवरण समाप्त करते हैं वह एक विशेषज्ञ प्रणाली के दृष्टिकोण से एक सीखने की प्रणाली के दृष्टिकोण के एआई अनुसंधान के वर्तमान बहाव का एक आदर्श उदाहरण है, और यह इस बात पर भी चर्चा करता है कि मस्तिष्क नीचे कैसे विकसित हुआ।

यद्यपि हम प्रशिक्षण में इस व्याख्या को लागू नहीं करते हैं, हमारा प्रयोग विश्लेषण इस व्याख्या का समर्थन करता है कि सीखी गई नीति आंतरिक रूप से कैसे काम करती है।

वे नहीं जानते कि यह कैसे काम करता है! वे एक संरचना का निर्माण करते हैं जो कुछ संगणना करने में सक्षम होती है और कुछ विशेष प्रकार के उत्पादों को संचित करने के लिए जो हमें लगता है कि एक प्राथमिकताओं के लिए उपयोगी है, और इसे एक प्रशिक्षण सेट खिलाएं, जिससे पूरी संरचना सीख जाएगी! वृद्धि पर एक तरह का आर्टिफिशियल इंटेलिजेंस रिसर्च वूडू है, एक कला, सही दिशा में हेयुरिस्टिक खोज को निर्देशित करने का एक तरीका है। और ऐसा लगता है कि उन सभी जादूगर अब ओपनएआई के लिए काम कर रहे हैं।

अपने स्वयं के शब्दों में हेरफेर नेटवर्क सबसे सरल संरचना है, मल्टी-लेयर परसेप्ट्रान को खिलाए गए संदर्भ से, एक मोटर एक्शन उत्पन्न होता है।

परिणाम

परिणाम अक्सर एक हिस्सा होता है जिसके लिए मुझे बहुत कम रुचि होती है, विशेष रूप से इस तरह के आश्चर्यजनक शानदार तकनीकी पत्रों के लिए। मैं तेजी से, नीचे की रेखा पर जा रहा हूं कि यह दृष्टिकोण काम करता है, यह हार्ड-कोडित विशेषज्ञ नीतियों के समान सटीकता के साथ प्रदर्शन करता है और, उन विशिष्ट प्रक्रियात्मक दृष्टिकोण के विपरीत, कार्यों की एक महान सरणी के लिए सामान्य है।

कण पहुँचना

ब्लॉक स्टैकिंग

इन प्रयोगों में उन्होंने विभिन्न स्थितियों का परीक्षण भी किया। DAGGER का उपयोग करके उन्होंने तीन अलग-अलग इनपुट स्थिति की तुलना प्रदर्शन प्रक्षेपवक्र द्वारा की गई स्थिति से की: पूर्ण प्रक्षेपवक्र, प्रक्षेपवक्र का स्नैपशॉट, या केवल अंतिम स्थिति का उपयोग करके। उन्होंने प्रदर्शन के पूर्ण प्रक्षेपवक्र के साथ व्यवहार क्लोनिंग एल्गोरिथ्म की तुलना की।

क्यूब पहचान पर सामान्यीकरण करने की प्रणाली की क्षमता का एक मजबूत सबूत

विचार-विमर्श

इन पिछले महीनों में OpenAI द्वारा की गई तेज गति अग्रिमों को पढ़ते हुए, मुझे लगता है कि उनके काम के बारे में बात करने और अपने काम के बारे में अपने विचारों को साझा करने के लिए एक बढ़ते आग्रह को महसूस करता हूं, और एआई के क्षेत्र में आगे बढ़ने के बारे में हमारी समझ, कैसे जैविक दिमाग काम करते हैं। विशेष रूप से इस बढ़ते विचार में कि मनुष्यों के बीच प्रतीत होने वाला संज्ञानात्मक कार्य एक साझा संरचना के कारण इतना अधिक नहीं है कि सहज रूप से जानता है कि किसी कार्य को कैसे करना है, लेकिन इसके बजाय अपेक्षाकृत समान अनुभवहीन संरचनाओं का परिणाम है, जो एक ही वातावरण से टकराते हैं, इसी तरह के कार्य करना सीखें। फ़ंक्शन एक फ़ंक्शनलेस संरचना का परिणाम है जो केवल एक विशिष्ट वातावरण के बजाय एक विशिष्ट कार्य को सीखने में सक्षम है, जो संरचना के बजाय कार्य को मूल रूप से करने में सक्षम है, बस पर्यावरण के अनुकूल होने के लिए कुछ मापदंडों को ट्विक कर रहा है।

कार्य बनाम विन्यास: एक प्रतीत होता है मनमाना परिभाषा

मुझे यह स्वीकार करना चाहिए कि मुझे समझ नहीं आ रहा है कि उन्होंने अलग-अलग कार्यों के बारे में बात करने का विकल्प क्यों चुना। एक कार्य को ब्लॉक स्टैकिंग प्रयोग में परिभाषित किया गया है, एक दूसरे के सापेक्ष ब्लॉक की स्थिति का प्रतिनिधित्व करने वाले तारों के एक सेट के रूप में, सेट में तत्वों की संख्या ढेर की संख्या और वर्णों की संख्या को परिभाषित करती है, जिन्हें ब्लॉक की व्यवस्था करने की आवश्यकता होती है । एक कार्य तब ढेर में ब्लॉक की व्यवस्था है, भले ही स्टैक की पूर्ण स्थिति के बावजूद।

कुछ ब्लॉक टेबल पर हो सकते हैं लेकिन टास्क का हिस्सा नहीं

अलग-अलग कार्य के मानदंड के रूप में सापेक्ष स्थिति और ढेर की संख्या को परिभाषित करने का उनका विकल्प मनमाना लगता है। वास्तव में, यह ब्लॉक के निरपेक्ष आरंभिक स्थितियों (जिसे वे कॉन्फ़िगरेशन के रूप में संदर्भित करते हैं) के आधार पर विभिन्न कार्यों के बारे में बात करने के लिए भी समझ में आ सकता है। मेरा मानना ​​है कि समस्या की सामान्य प्रकृति उनके लिए स्पष्ट है, लेकिन स्पष्टता प्रयोजनों के लिए वे विवरण में नहीं जाना पसंद करते हैं। नीति निर्धारण को दो प्रकार के सामान्यीकरणों के रूप में फ्रेम करने का अधिक अर्थ है, जिस तरह से वे बाद में करते हैं:

ध्यान दें कि सामान्यीकरण का मूल्यांकन कई स्तरों पर किया जाता है: सीखी गई नीति को न केवल पहले से देखे गए कार्यों के नए कॉन्फ़िगरेशन और नए प्रदर्शनों को सामान्य करने की आवश्यकता है, बल्कि नए कार्यों के लिए सामान्यीकरण करने की भी आवश्यकता है।

बस "कार्य" को "स्टैक ऑर्डर" से बदलें। कार्य को सही ढंग से सीखने का मतलब है कि एजेंट क्यूब्स (कॉन्फ़िगरेशन) की स्थिति को अमूर्त करने में सक्षम सीखता है, लेकिन उनकी पहचान (कार्य), ढेर की संख्या (कार्य), और प्रदर्शन के प्रक्षेपवक्र (आमतौर पर प्रस्तुत) उद्धरण) एक प्रासंगिक मोटर प्रतिक्रिया का उत्पादन करने के लिए।

वे सामान्यीकरण विरोधाभासी लगते हैं, कैसे एक ही नेटवर्क क्यूब के प्रारंभिक विन्यास या उनकी पहचान को अमूर्त कर सकता है और फिर भी मोटर प्रतिक्रिया के लिए उनकी पूर्ण स्थिति को पुनर्प्राप्त कर सकता है?

यह सीखने के दौरान अलग-अलग सहकारी उप-नेटवर्क्स की आवश्यकता को बताता है, अलग-अलग इनपुट प्राप्त करता है, और यह बताता है कि संदर्भ नेटवर्क में कार्य का एक सार प्रतिनिधित्व अवरोही कमांड से पहले क्यूब्स निरपेक्ष पदों की तरह निचले क्रम की जानकारी खिलाया जाता है।

आप सोच सकते हैं कि कार्य और विन्यास के इस अंतर पर टिप्पणी करना मूर्खतापूर्ण है, लेकिन यह समझना आवश्यक है कि यह विभिन्न वस्तुओं पर खेलने में अमूर्तता की एक ही प्रक्रिया है (और यह निम्न अनुभाग के लिए खुलता है)।

इनविजिंस के बिना कोई सीख नहीं है

ट्रांसफर लर्निंग शायद अनुभूति की सबसे आकर्षक अवधारणा है चाहे वह इन-सिलिको या इन-विवो हो, यह एआई शोधकर्ताओं और न्यूरोसाइंटिस्ट दोनों के लिए एक बहुत ही गर्म विषय है, और यह मेरी पीएचडी थीसिस का विषय है। ध्यान दें कि मशीन-लर्निंग से पहले कई क्षेत्रों में बारीकी से संबंधित अवधारणाओं का पता लगाया गया है, और इस सार और हमेशा आंशिक रूप से परिभाषित अवधारणा के कई नाम हैं। दार्शनिक, मानवविज्ञानी और समाजशास्त्री इसे (पोस्ट-) संरचनावाद (क्लाउड लेवी-स्ट्रॉस, मिशेल फाउकॉल्ट) के रूप में संदर्भित कर सकते हैं, भाषाविद् सिंटगमा और नेस्टेड ट्री संरचनाओं (नोम्स चॉम्स्की) के बारे में बात करेंगे, गणितज्ञ शायद होमोमोर्फिज्म या आक्रमणकारियों, शिक्षा और शिक्षा के बारे में सोचेंगे। शोधकर्ता या न्यूरोसाइंटिस्ट इसे स्ट्रक्चरल लर्निंग के रूप में संदर्भित कर सकते हैं। आप मशीन लर्निंग के क्षेत्र में संबंधित अवधारणा को भी देख सकते हैं जैसे कि प्रतिनिधित्व सीखने और मेटा-लर्निंग, जो लेखक पर निर्भर करता है कि वह ट्रांसफर लर्निंग को संदर्भित कर सकता है या ट्रांसफर लर्निंग को सीखने के लिए इस्तेमाल किया गया प्रतिमान। जब डीप न्यूरल नेटवर्क्स के बारे में बात की जाती है तो ये अंतर धुंधले हो जाते हैं, क्योंकि संक्षेप में एक न्यूरल नेट एक निश्चित समस्या (रिप्रेजेंटेशन लर्निंग) को अपनी संरचना (मेटा-लर्निंग) को संशोधित करके सीख रहा है, जो आमतौर पर एक शोर वाले वातावरण में होता है, जो ट्रांसफर लर्निंग का एक रूप है।

एआई शोधकर्ताओं और संज्ञानात्मक वैज्ञानिक के पास अक्सर स्थानांतरण सीखने की एक बहुत ही ठोस परिभाषा होती है, यह एक ऐसी प्रक्रिया है जो एक प्रणाली को एक निश्चित कार्य में प्राप्त ज्ञान का उपयोग करने की अनुमति देती है ताकि एक सामान्य रचना संरचना साझा करने के लिए एक और कार्य किया जा सके। संज्ञानात्मक विज्ञान की यह धारणा निकट और दूर हस्तांतरण की है, यह इस बात पर निर्भर करता है कि दोनों कार्य कैसे भिन्न हैं। लेकिन अधिक सारगर्भित परिप्रेक्ष्य से, शोरगुल और जटिल वातावरण में, सभी अधिगम हस्तांतरण अधिगम का एक रूप है और बहुत निकट और बहुत दूर स्थानान्तरण के बीच का अंतर केवल साझा जानकारी का विषय है - फिर से प्रकृति की नहीं बल्कि पैमाने की बात।

नियंत्रित वातावरण में, वास्तविकता के एक कठोर कोडित विवेक का निर्माण करने के लिए पहले से प्रयास किए जाते हैं, लेकिन वास्तव में यह विवेक प्रक्रियात्मक रूप से पुनरुत्पादित करता है कि स्थानांतरण शिक्षा क्या करती है, यह एक आम सांकेतिक ढांचे के तहत वास्तविकता में पाए जाने वाले राज्यों के एक अनंत सेट को एकजुट करता है। संक्षेप में, लर्निंग ट्रांसफर सीधे या उस प्रक्रिया के विस्तार के माध्यम से होता है, जिसके माध्यम से सीखने वाले एजेंट दुनिया के मॉडल के निर्माण के लिए अपरिवर्तनों का उपयोग करते हैं। यह एक ऐसी प्रक्रिया है जो समान रूप से अमूर्त और रचित प्रतिनिधित्व बनाने के लिए समानताएं, दोहराव और रूपांतरों का उपयोग करती है, जो इनपुट द्वारा विचरण अवधि में संरचना को बनाए रखता है। एक सामान्य अर्थ में यह बुनियादी संचालन बनाने की अनुमति देता है जिसके माध्यम से हम सूचना समूहों में हेरफेर करते हैं, जैसे कि गणित में यह संघ और चौराहों के लिए अनुमति देता है। यह पहचान की अनुमति देता है, यह वस्तुओं को वर्गीकृत करने की हमारी क्षमता की व्याख्या करता है। जोश तेनबेम एक उदाहरण देता है जो वास्तव में मुझसे बात करता है: कल्पना करें कि आप पहली बार घोड़े को पहचानने के लिए एक दो साल के बच्चे को सिखा रहे हैं, आप उसे विभिन्न घोड़ों की तस्वीर दिखाते हैं और फिर आप उसे दूसरे घोड़े की तस्वीर दिखाते हैं और एक घर की तस्वीर और उसे यह बताने के लिए कहें कि कौन सा घोड़ा है। एक बच्चा इस कार्य को काफी आसानी से कर लेगा, लेकिन यह अभी भी कुछ ऐसा है जो कंप्यूटर कुछ इनपुट्स (एक-शॉट सीखने) के साथ अच्छा नहीं कर सकता है।

बच्चे ने कैसे किया?

जानवरों की पहचान का अध्ययन बच्चों में किया गया है और प्रासंगिक भागों में वस्तुओं को फिर से बनाने की हमारी क्षमता से संबंधित है, फर की रंग सीमा, गर्दन का आकार, समग्र आकार आदि .. यह क्षमता भी है जो आपको एक दरवाजा खोलने की अनुमति देती है पहले कभी नहीं देखा है, आपने एक मोटर अनुक्रम सीखा है जो किसी भी स्थिति (डोमेन सामान्यीकरण) को सामान्य करता है। यह वह भी है जो आप व्याख्यात्मक मॉडल बनाने के लिए उपयोग करते हैं जो दुनिया को सरल बनाते हैं, आप वास्तव में एक प्रसिद्ध स्विस घड़ी में कोयल की अचानक छाप से शुरू में आश्चर्यचकित हो सकते हैं, लेकिन दूसरी उपस्थिति के बाद आप इसकी उम्मीद करेंगे। अदर्शन खोजना एक तंत्रिका नेटवर्क कैसे सीखता है और उन मॉडलों को अनजाने में बनाया गया है। एक उदाहरण यह है कि गणित और संख्याओं के बारे में सुनने से पहले ही हम भौतिकी के बारे में कैसे सीखते हैं।

उदाहरण के लिए पूछ सकते हैं कि कितनी तेजी से माइक्रोग्रैविटी में पैदा हुआ बच्चा पृथ्वी के गुरुत्वाकर्षण के अनुकूल होगा और सहजता से सीखेगा कि वस्तुएं जमीन पर गिर जाएगी?

हम इस बात की परिकल्पना कर सकते हैं कि शिशु और अधिकांश जानवर अपने मॉडल को अनजाने में संशोधित कर देंगे, बहुत पसंद है जब आप एक कुत्ते के पंजे पर मोज़े डालते हैं और नए informations के अनुकूल होने में कुछ समय लगता है।

लेकिन एक छोटे बच्चे के लिए जिज्ञासा से, भाषा, प्रतीकों और विश्वासों के माध्यम से, उसके सहज मॉडल का एक सचेत पूछताछ और संशोधन होगा। सचेत रूप से पूछताछ करने और हमारे मॉडल को बदलने की हमारी क्षमता आकर्षक है, और एक विचार के रूप में, मनुष्य प्रक्रिया को मौखिक रूप से सक्षम करने वाली एकमात्र प्रजाति हो सकती है, लेकिन अन्य प्रजातियां इसी तरह के जागरूक संशोधन कर सकती हैं।

Invariance समय की एक अनिवार्य संपत्ति है, अगर सब कुछ हमेशा नया था और किसी भी तरह से अनुमान लगाने योग्य नहीं था, तब भी यह अनूठा आक्रमणकारी रहेगा कि सब कुछ हमेशा नया और अप्रत्याशित है। बिना आक्रमण के दुनिया की कल्पना करना असंभव है, क्योंकि संदर्भित करने के लिए दुनिया नहीं हो सकती है, बिना आक्रमण के जीवन असंभव होगा और हमारा दिमाग बेकार होगा। जीवन एक मशीन है जो जीवों में ऊर्जा के चक्रीय पुनरुत्पादन की घटनाओं, कारणों और प्रभावों की पुनरावृत्ति, पूर्वानुमान और पुनरावृत्ति द्वारा ही काम करता है। और उन आवश्यक चक्रों के उपयोग को बेहतर बनाने के लिए जीवन की खोज में, हमारा मस्तिष्क अंतिम उपकरण है। यह एक भविष्यवाणी मशीन है, एक अनुकूली अंग जो दोहराव से गतिशील रूप से खोजने और दुनिया के साथ बेहतर बातचीत करने के लिए इसका उपयोग करने में सक्षम है।

यह विधि जिसे जीवन ने चुना है, संरचना में मामूली बदलाव के लिए बेहद मजबूत है। वही रहता है जो दुनिया है, पर्यावरण के सांख्यिकीय गुण हैं, लेकिन यह मुठभेड़ करने वाली तंत्रिका संरचना तब तक भिन्न हो सकती है जब तक कि यह प्रासंगिक जानकारी को इलाज के लिए विकसित कर सके। यह बताता है कि हमारा दिमाग व्यक्ति से व्यक्तिगत, यहां तक ​​कि प्राथमिक कॉर्डिसेस से इतना अलग क्यों हो सकता है, और फिर भी समान कार्य साझा कर सकता है।

तंत्रिका तंत्र अनुकूली हैं, उन्हें प्रासंगिक तरीकों से व्यवहार को बदलने के लिए विकास और धीमी आनुवंशिक उत्परिवर्तन की आवश्यकता नहीं है। एक साधारण तंत्रिका तंत्र, जैसे कि सी। एलिगेंस में पाए जाने वाले, एक आंतरिक आंतरिक समन्वयक और बाहरी संवेदक के रूप में कार्य करते हैं: भावना भोजन और इसकी ओर बढ़ते हैं, दर्द से पलायन करते हैं, प्रजनन करते हैं। उन सरल प्रणालियों को शुरू में कठोर अवस्था में किया गया था और हमारी अत्यधिक शोर-शराबे वाली दुनिया का चरम सन्निकटन संभव राज्यों के एक छोटे समूह में किया गया था (बाईं ओर भोजन, नीचे गर्मी आदि)। हमारी मोटर और संवेदी क्षमताओं ने हमारे तंत्रिका तंत्र के पूर्वानुमान क्षमताओं के साथ हाथ से हाथ मिलाया। जैसे-जैसे हमारे सेंसर अधिक सटीक होते गए, तंत्रिका तंत्र धीरे-धीरे सूचनाओं को संग्रहीत करने और अनुभव से सीखने के लिए अपनी संरचना को संशोधित करने में सक्षम हो गया। शुरू में यह कुछ श्रेणियों की इनपुट को पहचानने में सक्षम हो गया, जैसे कि गंध या प्रकाश पैटर्न, और इसके जटिल मोटर सिस्टम को नियंत्रित करने के लिए परीक्षण और त्रुटि के माध्यम से सीखने में भी सक्षम हो गया। ध्यान दें कि दुनिया इतनी जटिल है कि हमारा मस्तिष्क स्वाभाविक रूप से एक सहज प्रक्रियात्मक दृष्टिकोण के बजाय एक सीखने के प्रतिमान की ओर विकसित हुआ है। कम्प्यूटेशनल रूप से यह सही समझ में आता है, गो के एक साधारण खेल में ब्रह्मांड (10⁸⁰) में परमाणुओं की संख्या की तुलना में कहीं अधिक बड़ा (2.10 than) होता है, और जीवों के लिए सभी जटिल हार्ड कोड सन्निकटन की कोशिश में अधिक जटिल हो जाते हैं। राज्यों में यह तेजी से हो सकता है दहनशील विस्फोट के कारण अव्यावहारिक हो जाता है।

कुछ लोगों का मानना ​​हो सकता है कि हमारा मस्तिष्क इस तरह से बनाया गया है कि यह सहज रूप से उस स्थान का प्रतिनिधित्व करता है जो इसमें विकसित होने जा रहा है, कि कहीं न कहीं डीएनए में एक जीन होता है जो एक चेहरे का निर्माण करता है, या ध्वनि तरंगों का अस्थायी संगठन अप शब्द। उन्हें विश्वास हो सकता है कि यह जन्मजात ज्ञान कहीं न कहीं जन्म के समय कूटबद्ध है। दूसरों का मानना ​​है कि मेरे दर्शन शिक्षक की तरह, जब मैं हाई स्कूल में था, तब अस्तित्व का सार होता है, और यह कि हमारा मस्तिष्क पूरी तरह से और पूरी तरह से जीव और दुनिया की मुठभेड़ से परिभाषित होता है। वास्तविकता निश्चित रूप से अधिक जटिल है, और अभी तक अध्ययन किए गए अधिकांश टेलिसेन्फेलिक सिस्टम के लिए, मस्तिष्क सहज रूप से उस फ़ंक्शन को एनकोड नहीं करता है जो यह प्रदर्शन करेगा, लेकिन इसके इनपुट में निहित जानकारी के आधार पर इसे सीख लेगा। यदि संबंधित जानकारी में इनपुट बहुत खराब है, तो उन संरचना में सीखने की क्षमता की समाप्ति तिथि हो सकती है (जैसे Amblyopia)। लेकिन अगर जन्मजात संरचना अंतिम कार्य को एन्कोड नहीं करती है, तो मस्तिष्क की एक विशिष्ट संरचना होती है। यह संरचना व्यक्तियों में संरक्षित है, और एक ही प्रजाति के व्यक्ति सामान्य कार्य और ड्राइव साझा करते हैं। डीएनए एक निश्चित संरचना की स्थापना करता है, एक संरचना जो अपने अंतिम कार्य को सहज रूप से करने में सक्षम नहीं है, लेकिन एक संरचना जो व्यक्तिगत अनुभव के आधार पर विशिष्ट कार्यों की जटिलता को जानने में सक्षम है। यह आश्चर्य की बात नहीं है कि विकास एक अत्यधिक प्रभावी रक्त-मस्तिष्क बाधा के रूप में शरीर के बाकी हिस्सों से मस्तिष्क को अलग करने के साथ-साथ मेनिंगेस और कठोर हड्डी के खोल को बाहरी दुनिया से बचाने के लिए प्रेरित करता है, क्योंकि अन्य अंगों के विपरीत जिसमें संरचना जीनोम में एन्कोडेड है, एक प्रशिक्षित मस्तिष्क की संरचना को एक सहज रूप से संग्रहीत मॉडल से पुनर्जीवित नहीं किया जा सकता है। जो आकर्षक है वह यह है कि हम समान रूप से जटिल कार्य करते हुए गहन नेटवर्क के विकास के माध्यम से सादृश्य द्वारा उत्पन्न होने वाले समान शिक्षण तंत्रों को देखते हैं।

संरचनात्‍मक संरचनाएं देखना कठिन है लेकिन हर जगह

एक विचारधारा के रूप में यह अजीब है कि यहां तक ​​कि लेखक भी नहीं पहचानते हैं कि लक्ष्य तक पहुंचने के उनके पहले कार्य की एक संरचना है।

कार्यों तक पहुंचने वाला कण एक सरलीकृत परिदृश्य में सामान्यीकरण में चुनौतियों को अच्छी तरह से प्रदर्शित करता है। हालांकि, कार्य एक संरचनागत संरचना को साझा नहीं करते हैं, जिससे सामान्यीकरण का मूल्यांकन नए कार्यों को चुनौती देता है।

यद्यपि संरचना वास्तव में ब्लॉक स्टैकिंग से निम्न स्तर की है, और प्रयोगात्मक हेरफेर के लिए आसानी से सुलभ नहीं है, कार्य वास्तव में साझा संरचना से बना है। एक विमान को दुनिया के बारे में बताते हुए, एक संरचना संरचना यह है कि क्यूब पहचान (रंग) को अनुवाद के साथ संरक्षित किया जाता है, और ब्लॉक ए से-के लिए एक यादृच्छिक प्रारंभिक स्थिति- स्थिति (Xa1, Ya1) पर B को स्थिति में ब्लॉक करने के लिए (Xb1, Yb2) ) स्थिति A (Xa2, Ya2) से B को स्थिति B (Xb2, Yb2) पर ब्लॉक करने की तुलना में समान उच्च संरचना वाले संरचना का हिस्सा है।

नेटवर्क के बीच इंटरफेस

अमूर्तता के विभिन्न स्तरों पर आदानों का इलाज करने में सक्षम तंत्रिका नेटवर्क की वृद्धि के लिए इंटरफेस की आवश्यकता होगी, एक डोमेन जो मुझे लगता है कि खोज के लिए बहुत कुछ प्रस्तुत करता है। वे इंटरफेस कई प्रकार के हो सकते हैं। उदाहरण के लिए उन्हें दो नेटवर्क के बीच एक आम भाषा के रूप में देखा जा सकता है, जैसा कि लेख में दिखाया गया है, एक निचले स्तर का नेटवर्क जो एक ध्यान प्रणाली (प्रदर्शन नेटवर्क) से लैस है, एक प्रदर्शन को दूसरे नेटवर्क (संदर्भ नेटवर्क) में उपयोग कर सकता है। प्रदर्शन की लंबाई या प्रारंभिक विन्यास जो भी हो कार्रवाई करना।

इस भाषा की सतह यहां एक विमान है, जो आकार में तय है, लेकिन एक संभव परिवर्तन की कल्पना कर सकता है जो नेटवर्क के बीच संचार में सुधार कर सकता है। उदाहरण के लिए सतह का आकार गतिशील रूप से बढ़ने या सिकुड़ने के लिए निर्धारित किया जा सकता है क्योंकि नेटवर्क सीखने के दौरान बातचीत करते हैं, इसलिए भाषा की सांस्कृतिकता को संकुचित या विस्तारित करते हैं। हम उदाहरण के लिए प्रतिक्रिया के माध्यम से अधिक गतिशील बातचीत की भी कल्पना कर सकते हैं। हम सुविधा नेटवर्क के अस्तित्व की कल्पना कर सकते हैं जो नेटवर्क के बीच संचार को सुचारू बनाना सीखेगा, जो एक समानांतर नेटवर्क के रूप में विद्यमान है जो दूसरे नेटवर्क के इनपुट और आउटपुट के आधार पर पहले नेटवर्क के इनपुट को संशोधित करना सीखता है। हम जटिल संदर्भ नेटवर्क की कल्पना कर सकते हैं जो टॉनिक (धीमी गति से भिन्न) के रूप में कार्य करते हुए कई और अधिक विशिष्ट नेटवर्क के लिए ... भविष्य के शोध के आकर्षक क्षेत्र!

नए मामलों में संभावित भूमिकाओं में विफलता के मामले संकेत दे सकते हैं

यह ध्यान देने योग्य है कि अक्सर मोटर की गलतियों के कारण त्रुटियां होती हैं, और यह कि कार्यों की जटिलता के साथ गलतियों की संख्या बढ़ जाती है।

मोटर फ़ंक्शन को केवल लक्ष्य की संख्या बढ़ाकर खराब नहीं किया जाना चाहिए, यह एक मजबूत सबूत है कि जिस तरह से प्रजनन नेटवर्क मोटर नेटवर्क से बात करना सीखता है वह बहुत सार है। यह अजीब है क्योंकि वे कहते हैं कि उनके परीक्षण से पता चलता है कि संदर्भ नेटवर्क और मोटर नेटवर्क के बीच का इंटरफ़ेस अपेक्षाकृत ठोस है (रोबोट की स्थिति, लक्ष्य की स्थिति)।

संभावित समाधान हो सकता है, क्योंकि यह एक मॉड्यूलर आर्किटेक्चर है, जो विभिन्न नुकसान कार्यों का उपयोग करने के लिए है, या कार्य के प्रत्येक विशिष्ट पहलू का प्रतिनिधित्व करने वाले मॉड्यूलर नुकसान फ़ंक्शन का उपयोग करता है। यह मस्तिष्क के पूर्व-मोटर क्षेत्रों के समतुल्य द्वारा भी मदद करेगा ताकि प्रदर्शन और संदर्भ नेटवर्क का बीमा किया जा सके और मोटर कमांड को खराब किए बिना अमूर्त रह सके। प्रेमोटर क्षेत्र लक्ष्य (अमूर्त नेटवर्क से) और संवेदी आदानों के आधार पर बेहतर मोटर कमांड का चयन करने के लिए आवश्यक वस्तुओं को बेहतर बनाने के लिए आवश्यक हैं। ऐसा लगता है कि संदर्भ नेटवर्क प्रदर्शन को उच्च स्तर के एम्बेडिंग में स्थानांतरित करने और एक वर्तमान संदर्भ में एक ही समय में मोटर कार्रवाई तैयार करने की कोशिश कर रहा है। मोटर-लर्निंग और तेजी से अनुकूलन के लिए प्रीमोटर और सेरिबैलम दोनों के कार्यों को मिलाकर एक मोटर-मोटर नेटवर्क की भूमिका एक लक्ष्य उन्मुख और अनुकूली तरीके से मोटर प्रणाली के साथ संवाद करना सीखना होगा।

एक दिलचस्प सिद्धांत है, मोरवेक का विरोधाभास, भविष्यवाणी करता है कि यह उच्च स्तर का अनुभूति नहीं होगा जो कम्प्यूटेशनल रूप से कर देगा लेकिन संवेदी आदानों और मोटर सिस्टम आउटपुट का उपचार। यह वास्तव में हमारे सेरिबैलम (हमारे मस्तिष्क के बाकी हिस्सों की तुलना में अधिक) में मौजूद न्यूरॉन्स की बड़ी मात्रा के लिए अनुकूल रूप से मोटर कार्रवाई को नियंत्रित कर सकता है। इस विरोधाभास को एक समय (80 के दशक) में तैयार किया गया था जब हम अभी भी मानते थे कि हम अपने स्वयं के ज्ञान को एक मशीन में अनियंत्रित शोर वातावरण में जटिल कार्य करने के लिए एम्बेड कर सकते हैं। बेशक यह विरोधाभास समझ में आता है अगर किसी तरह मशीन दुनिया के राज्यों के विवेकपूर्ण सेट में दुनिया का प्रतिनिधित्व करने में सक्षम है, तो उस पर उच्च स्तरीय फ़ंक्शन का निर्माण करना आसान होगा। लेकिन मेरा मानना ​​है कि दोनों बेहद कर साबित होंगे, और नेटवर्क के बीच इंटरफेस में इस्तेमाल किया जाने वाला आंतरिक प्रतिनिधित्व हमारे अपने सचेत अभ्यावेदन से मिलता-जुलता है।

निष्कर्ष

समस्या के एक विशिष्ट उपचार के प्रभारी प्रत्येक अलग तंत्रिका नेटवर्क को मिलाकर, यह लेख दिखाता है कि एक कार्य का निर्माण करना जिसमें स्वाभाविक रूप से सामान्यीकरण की आवश्यकता होती है, और डोमेन रैंडमाइजेशन के माध्यम से एक उपयुक्त सीखने के वातावरण का निर्माण, एक स्मृति और एक अभिगम के साथ एक तंत्रिका नेटवर्क ध्यान प्रणाली सरल प्रजनन से परे सामान्यीकरण करना सीख सकती है। यह एक उच्च आदेश लक्ष्य की खोज करना सीख सकता है जिसे केवल एक बार जानकारी पर एक दृश्य स्ट्रीम में प्रदर्शित किया गया है, और एक सामान्यीकृत स्थान में एक अलग संदर्भ में उस लक्ष्य को पुन: उत्पन्न करने में सक्षम उचित कार्यों को पुनर्प्राप्त करने के लिए गणना करता है।

भविष्य में हम उन परमाणु भवन ब्लॉकों पर निर्मित संरचनाओं की बढ़ती हुई जटिलता देखेंगे जो जटिल कार्यों को सामान्य करने के लिए सीखने में सक्षम हैं, लेकिन अधिक महत्वपूर्ण रूप से ऐसे कार्यों में से कई हैं, नए वातावरण में, इनपुट के प्रीप्रोसेसिंग जैसे कठिन कोडित तरीकों पर कम निर्भरता के साथ। स्मृति भंडारण। मेमोरी स्टोरेज को मेमोरी नेटवर्क में वितरित अभ्यावेदन द्वारा प्रतिस्थापित किया जाएगा, चौकस गतिविधियों को वास्तविक समय के एट्रीब्यूटिव नेटवर्क में चक्रीय गतिविधि द्वारा प्रतिस्थापित किया जाएगा। यह सवाल बना हुआ है कि हम एक मजबूत सीरियल टेक्नोलॉजी (ट्यूरिंग मशीन) को मूर्त प्रणाली में वितरित कंप्यूटिंग पर हमारी बढ़ी हुई निर्भरता के अनुकूल कैसे बना पाएंगे।