Nýja aðferð OpenAI til einsleitar eftirlitsnáms, gægjast inn í framtíð AI

One-Shot Imitation Learning Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

Hinn 16. maí deildi OpenAI vísindamenn myndskeiði af einu af verkefnum sínum ásamt tveimur greinum sem voru mikilvægir til að kanna lausnir á þremur lykilflöskum núverandi þróunar AI: metanám, nám í einni mynd og sjálfvirk gagnaöflun. Í fyrri færslu minni lofaði ég grein sem var tileinkuð heillandi vandamáli við nám í einni mynd, svo hér segir. Þú getur byrjað með því að kíkja á myndbandið sem þeir sendu frá sem skýrir ótrúlegt verk þeirra:

Í þessu myndbandi sérðu eins armlegan vélmenni sem stafla teningum ofan á hvor aðra. Að þekkja flókin verkefni sem iðnaðar vélmenni eru nú fær um að framkvæma, ef rannsakandinn væri ekki að reyna að útskýra hvað er í gangi, á mörgum reikningum væri þetta mjög undirtektarlegt. Í stjórnuðu umhverfi er verkefnið einfalt, málsmeðferð (harðkóðuð) nálgun hefur nú þegar leyst þessi vandamál, það sem lofar og byltingarkennd er hversu mikið almennur umgjörð undir getur stigið upp í margþættari, flóknari og aðlögunarhæfari hegðun í hávaðasamara umhverfi.

Mismunur á manni og æðri dýrunum, mikill eins og hann er, er vissulega einn af gráðu og ekki af góðæri.
- Charles Darwin

Á hliðstæðan hátt er þessi grein sterk sönnun þess að munur á vitsmunalegum kerfum milli núverandi myndaðs AI (gervigreind líkamlegra kerfa) og vélmenni á 22. öld mun vera einn af stærðargráðu og ekki tagi. Síðan 2012 ImageNet samkeppni * hefur djúpt nám rannsóknir verið mikill uppgangur, ekki svo mikið til að breyta eðli dreifðrar útreikninga sem framkvæmd er af taugakerfi, heldur með því að finna nýjar leiðir til að skipuleggja net til að þeir geti lært ákveðið verkefni. Fyrir taugakerfisaðgerð er uppbygging, þessi uppbygging er ekki harðkóðuð (ekki hönnuð af hendi) en það eru niðurstöður kjarnorkuútreikningseininga sem upphaflega eru tengd milli inntak og framleiðsla sem geta breytt skipulagi þeirra og tengingum. Það er með því að breyta heildarskipulagi netsins að það lærir ákveðna aðgerð.

Í þessari grein byggðu þeir upp almennan ramma sem var fær um að þjálfa umboðsmann til að tákna verkefni á óhlutbundinn hátt og læra að flytja þessa þekkingu yfir í ný óséð verkefni (flutningsnám) eftir aðeins eina sýningu á skáldsöguverkefninu (nám til eftirbreytni í einni mynd).

Verkefnin

Þrátt fyrir að nákvæm byggingarlist sé mismunandi, taka þau tvö verkefni sem dæmi til að sýna frammistöðu almennu nálgunarinnar.

Agna nær

Í fyrsta dæminu fær kerfið inntak af litaðri markstöðum í flugvél og einni myndbandssýningu á hermaumboðinu sem fer til tiltekins markmiðs.

Mynd 2. Vélmenni er punktamassi stjórnað með tvívíddarkrafti. Fjölskylda verkefna er að ná markmiðinu. Deili á kennileiti er frábrugðin verkefni til verkefnis og líkanið verður að reikna út hvaða markmið á að stefna út frá sýningunni. (vinstri) mynd af vélmenninu; (miðja) verkefnið er að ná appelsínugulum kassa, (til hægri) verkefnið er að ná græna þríhyrningnum.

Við þjálfun þarf kerfið að endurskapa sama verkefni (ná appelsínugult) en frá annarri uppstillingu, með mismunandi upphafsstöðu fyrir vélmennið og skotmörkin. Ekki er ljóst hvort við prófun er umboðsmaðurinn prófaður í því verkefni sem hann var þjálfaður í (ná appelsínugult) eða á verkefni sem hann hafði aldrei séð áður (ná til dæmis grænu) eða hvort tveggja.

Þjálfaða stefnan er metin út frá nýjum sviðsmyndum og skilyrt á nýjum sýningarferlum sem sjáanlegar voru við þjálfun.

Það er víst að umboðsmaðurinn þarf að álykta um markmiðið frá einstökum sýnikennslu og byrja aftur frá annarri uppstillingu. Þetta felur í sér að ekki var hægt að læra nákvæma mótoröð fyrir prófun og álykta þarf með abstrakt (skipulagðri framsetning á hærra stigi) verkefnisins og mótorskipulagningu.

Loka á stöflun

Í öðru dæminu verður umboðsmaðurinn að læra að stafla teningum (auðkenndir með mismunandi litum) í sömu röð og sýndur er í einni herminni sýningu. Þessi herma sýning er röð af 2D myndum sem eru búin til af þrívíddar eðlisfræði vél þar sem eiginleikar vélknúinna vélinda og skynjunarbúnaðar eru byggðir.

Ein skotstefna. Ein stefna þjálfuð til að leysa mörg verkefni. Topp verkefni: {abc, def}, botn verkefni: {ab, cd, ef}

Í báðum dæmunum eru upphafsstaðir teninga í sýningunni og í raunverulegu prófinu mismunandi, hvert verkefni er að byrja frá annarri upphafsstöðu. Vélmennið reynir ekki að skipta um teninga til að passa við upphafsstaðsetningar sýningarinnar, það flytur hærra stig verkefnisins að hrúga teningnum hvað sem því ríki sem hann byrjar í.

Þjálfun með slembivali léns

Í báðum tilvikum eru allar myndirnar sem notaðar voru við þjálfun fengnar með hermingu með slembivali í ríki þar sem þær munu slemba eftirfarandi þætti sýnanna:

Fjöldi og lögun afbrigðishluta á borðinu Staða og áferð allra hluta á borðinu Áferð borðsins, hæð, skybox og vélmenni Staða, stefnumörkun og sjónsvið myndavélarinnar Fjöldi ljósa á sviðinu Staða, stefnumörkun, og sérstök einkenni ljósanna Tegund og magn af handahófi sem er bætt við myndir

Þjálfun sett fyrir ögn ná

Við lítum á sífellt erfiðara verkefni verkefnafjölskyldna þar sem kennileitum fjölgar úr 2 í 10. Fyrir hverja verkefnafjölskyldu söfnum við 10000 brautum til þjálfunar þar sem staðsetningar kennileita og upphafsstöðu punkta vélmenni eru handahófi. Við notum harðkóða sérfræðistefnu til að búa til sýnikennslu á skilvirkan hátt. Við bætum hávaða við brautirnar með því að trufla tölvuaðgerðirnar áður en þær eru notaðar á umhverfið og við notum einfalda hegðunarklónun til að þjálfa taugakerfisstefnuna

Þjálfunarsett fyrir stafla af blokkum

Einfaldlega söfnum við 140 þjálfunarverkefnum og 43 prófunarverkefnum, hvert með mismunandi skipulag á reitnum. Fjöldi kubba í hverju verkefni getur verið breytilegur milli 2 og 10. Við söfnum 1000 brautum fyrir hvert verkefni til þjálfunar og viðhöldum sérstöku setti brauta og upphafsstillingar til að nota til mats. Svipað og ögnin nær til verksins, sprautum við hávaða í söfnunarbraut brautarinnar. Brautunum er safnað með harðkóða stefnu.

Árangursríkum kynningum er safnað með harðkóða stefnu

Athugaðu að meðan á að læra eru réttar brautir búnar til með málsmeðferð „harðkóða“ stefnu sem ég tel að treysti á klassíska tækni til að bera kennsl á og stjórna kerfinu. Þannig að við þjálfun og prófun hefur umboðsmaðurinn tvö inntak: a) sýnikennslu í stillingu A, og b) upphafsstillingu B. Við þjálfun eingöngu hefur námsalgrímið einnig aðgang að ákjósanlegu svari: braut sem byrjar frá stillingu B sem svarar vandanum og viðbrögðum umboðsmanns verður borið saman við námið - sem gerir það að námsvanda undir eftirliti.

Fyrir hvert þjálfunarverkefni gerum við ráð fyrir að framboð sé sett af árangursríkum kynningum.

Ef það er ekki ljóst mun ég fara yfir muninn á ólíkum tegundum námsbragða í næsta kafla.

Hagræðingar reiknirit og tap virka

Umsjón með námi vísar til þjálfunarþáttar þar sem netið hefur við hverja ákvörðun aðgang að réttu vali sem hann hefði átt að taka og þar með hugmynd um villu. Til dæmis í flokkunarverkefni milli hunda og ketti er merki um myndir af hundum og köttum við þjálfun fyrirfram þekkt og villurnar eru strax greindar. Í þeim skilningi er það frábrugðið námi án eftirlits þar sem almennt er umboðsmaðurinn beðinn um að finna áður óþekkt uppbyggingu í aðföngunum sem hann fær, og án merkimiða af köttum og hundum þyrfti að uppgötva að það eru tveir þyrpingar af mismunandi hlutum eingöngu byggðir á upplýsingarnar sem eru í gögnum. Það er einnig frábrugðið styrkingarnámi sem á oft við um rauntímakerfi þar sem nákvæm röð ákvarðana sem leiðir til markmiðs er óþekkt en aðeins endanleg „umbun“ mun ákveða hvort röðin hafi verið rétt eða ekki. Með því að nota eftirlitsnám umbreyta þeir klassískum styrkingarnámsvandamálum í eftirlitsnámsvandamál, þar sem villan er reiknuð frá fjarlægð til framhaldsbrautar.

Eins og það er tilfellið fyrir hvaða þjálfun sem er undir eftirliti, er verkefnið, sem fyrir hendi er, skilgreint að öllu leyti af tapaðgerðinni, sem miðar að því að meta hversu langt var umboðsmaðurinn frá fyrirhugaðri hegðun. Að skilgreina þessa aðgerð er oft mikilvægt skref, þar sem það ákvarðar hvernig hagræðingaralgrímin uppfæra breytur líkansins. Þessir reiknirit eru mikilvægir hvað varðar útreikningstíma og þurfa oft nokkrar klip til að geta sameinast, ef yfirleitt. Reyndar eru lausnirnar sem draga úr aðgerðinni í mjög mikilli vídd í mjög litlum skel í færibreytunni, með litlu hammafjarlægð milli þeirra, um leið og þú kemst frá því litla léni vex fjarlægðin á milli lausna hratt. Það er mikið af mjög áhugaverðu verki um það efni sem meðal annars er unnið af hinni ótrúlegu Jennifer Chayes, hún burstar viðfangsefnið í mjög áhugaverðu viðtali í síðasta þætti af Talking Machines.

Við þjálfun stefnunetsins (allt netið, hægt að ákveða út frá hvaða aðgerðum þarf að grípa) vinna þau fyrst af árangursríkri sýnikennslu. Í þessum hluta munu þeir bera saman tvær aðferðir, klassíska atferlismunun (ekki nákvæmlega viss um útfærsluna sem þeir notuðu) og DAGGER reikniritin. Þetta mun síðan gera ráð fyrir endurtekinni lágmörkun á tapaðgerðinni, annað hvort með l2 eða kross-entropy tapi, byggt á því hvort aðgerðir eru stöðugar eða stakar (byggðar á dreifingu atburða í röðinni). Í öllum tilraunum notuðu þeir Adamax reiknirit til að framkvæma fínstillingu með námshraða 0,001.

Skrefastærðin byrjar lítil og hnignar veldishraða.

Reikniritið í sjálfu sér leyfir ekki flutning, það er hvernig þú byggir þjálfunarsettið þitt og tapaðgerðina sem gerir kleift að flytja.

Tvenns konar flutningur er til í verkefnunum. Fyrsta tegundin er kölluð „brúa raunveruleikabilið“, það er alhæfing í námi sem gerir kleift að flytja á milli þjálfunar á hermdum aðföngum til prófana á náttúrulegu áreiti. Gögn um uppgerð eru oft fátækleg nálgun á hinum raunverulega heimi, of fullkomin, skortir flækjustig raunverulegs hlutar. Í hinum raunverulega heimi gæti myndavélin verið gölluð og hávaðasamari, hreyfilstýringin verður minna nákvæm, litirnir munu breytast, áferðin verður ríkari o.s.frv. Til að leyfa þennan fyrsta flutning nota þeir aðferð sem þeir vísa til sem "slembival" léns : það er með því að bæta hávaða við aðföngin sem netið getur lært sameiginlega viðeigandi skipulag sem gerir það kleift að alhæfa á viðeigandi hátt í hinum raunverulega heimi. Þeir munu til dæmis breyta sjónarhorni myndavélarinnar á milli æfinga dæmi, breyta áferð eða gera brautirnar að vera minna fullkomnar. Með því að bæta við hávaða við þjálfun bætum við við styrkleika.

Seinni flutningurinn sem prófaður er hér er hæfileikinn til að framleiða viðeigandi mótoröð í áður óséðu stillingu og markmiði, byggt á einni sýnikennslu sem byrjar í annarri upphafsstillingu en með svipuðu lokamarkmiði. Aftur hér verður flutningur mögulegur með því hvernig við smíðum æfingasettið og líkum taphlutfallið. Með því að kynna sýnikennslu á æfingum sem byrja ekki frá sömu upphafsástandi til að ná svipuðu markmiði, leyfirðu netkerfinu að læra að fella hærra stig markmiðsins án þess að nota algerar stöður, svo og framsetning á hærri röð af mótoröðin sem er ekki einföld eftirlíking. The barnalegur upphafs arkitektúr gerir þjálfun til að breyta uppbyggingu á viðeigandi hátt, og þessi þjálfun uppbygging felur í sér loka aðgerð.

Markmið

Að því er varðar staflaþáttaröðina, höfðu þeir nokkrar skorður sem þeir vildu að námsaðili þeirra mætti.

Það ætti að vera auðvelt að eiga við um verkefni sem hafa mismunandi fjölda reita.
Það ætti náttúrulega að alhæfa um mismunandi permutations af sama verkefni. Til dæmis ætti stefnan að skila árangri í verkefni {dcba}, jafnvel þó hún sé aðeins þjálfuð í verkefni {abcd}.
Það ætti að koma til móts við sýnikennslu með breytilegri lengd.

Þeir höfðu nokkrar spurningar sem þeir vildu svara fyrir þetta verkefni.

Hvernig er þjálfun með hegðunarklónun samanborið við DAGGER í ljósi þess að hægt er að safna nægum gögnum án nettengingar?
Hvernig er ástand samanburðar á öllum sýningunni samanborið við skilyrðingu á endanlegri stillingu, jafnvel þegar lokaskipan hefur nægar upplýsingar til að tilgreina verkefnið að fullu?
Hvernig er ástand á öllu sýningunni samanborið við skilyrðingu á „myndatöku“ af brautinni, sem er lítill hluti af römmum sem eru upplýsandi
Getur umgjörð okkar alhæft eftir tegundum verkefna sem hún hefur aldrei séð við þjálfun? (++)
Hver eru núverandi takmarkanir á aðferðinni?

Arkitektúr

Ögn ná

Í þessu fyrsta dæmi báru þeir saman þrjár byggingarlistar sem allar byggðar voru á Long Short Term Memory (LSTM) taugakerfi. Lýsing á þessu neti mun fara í framtíðarpósti um minni og athygli, sem eru algerlega heillandi viðfangsefni bæði í vitsmuna- og tölvunarfræði. Í meginatriðum matar LSTM fyrri netútgang (í tíma) sem hluta af inntaki netsins á hverjum nýjum tímapunkti, sem gerir ráð fyrir upplýsingum frá fyrri ríkjum til að upplýsa nútíðina (þar af leiðandi nafn þeirra skammtímaminnanet). Þeir eru rót margra nýjustu tækni sem fjalla um tímaraðir (Alexa, Siri o.s.frv.).

Hér nota þeir þessi þrjú sérstöku skilyrði:

  1. Látlaus LSTM: lærir að fella brautina og núverandi ástand til að fæða hana í fjögurra laga perceptron sem mun framleiða mótorvirkni
  2. LSTM með athygli: framleitt vega framsetning yfir kennileiti brautarinnar
  3. Lokaástand með athygli: aðeins notað í þjálfun lokaástands til að framleiða vægi yfir kennileiti, svipað og fyrri arkitektúr

Loka á stöflun

Þó að almennt taugakerfi gæti í meginatriðum lært kortlagninguna frá sýnikennslu og núverandi athugun til viðeigandi aðgerða, fannst okkur mikilvægt að nota viðeigandi arkitektúr. Arkitektúr okkar til að læra blokkarstöflun er eitt helsta framlag þessarar greinar og við teljum að það sé dæmigert fyrir það hvernig arkitektúr til einsleitar eftirbreytni í flóknari verkefnum gæti litið út í framtíðinni.

Athyglisþættir

Greinin er enn tiltölulega hátt við að lýsa uppbyggingu netanna sem notuð eru til að læra verkefnið. Lykilþáttur í arkitektúrnum er athyglisáfangi þeirra, en ég tel að þessi viðfangsefni þurfi sérstaka færslu í smáatriðum í mikilvægu hlutverki sínu. Til hliðstæða hugrænu vísindahugtakinu viðvarandi athygli, eru athyglisaðferðir notaðir til að halda og einbeita sér að viðeigandi upplýsingum sem finna má í mismunandi rúmum og tíma. Það framleiðir framleiðsla í fastri stærð sem inniheldur innbyggingu upplýsingainnihalds sem var teygt í tíma og rúmi. Á hliðstæðan hátt við grannfræði, útibú stærðfræði sem ég tel að muni upplýsa mjög um það hvernig við skiljum dreifða framsetningar í framtíðinni, framkvæma athyglisnetið útvortis formfræði upplýsinga, sömu sveigju, mismunandi lögun. Athugaðu að þessi net gegna ekki hlutverki skynjari sem getur einbeitt sér að óvæntum eða sjaldgæfum atburðum, sem er fall sem tengist hugmyndinni um athygli í taugavísindum.

Hér nota þeir tvenns konar athyglisnet: a) tímabundið athyglisnet sem framleiðir vegna fjárhæð yfir innihald (fyrirspurn, samhengi og minnisvektar) sem eru geymd í minni, og b) athygli net í hverfinu sem er fær um að endurheimta upplýsingar miðað við að loka stöður eftir núverandi fyrirspurn umboðsmanns.

Tímabundið athyglisnet, með c: samhengisvektor, m: minnisvektor, q: fyrirspurnarvektor, v: lærður vigtaþyngd. Útgangurinn er í sömu stærð og minnisvektorinn. Það er línuleg samsetning þessara vektora sem gerir kleift að einhver minnisvektor hafi meiri áhrif á framleiðsluna út frá samhengi og fyrirspurnaferðum.Sama hugmynd og samkeppni milli staðbundinna upplýsinga er viðhaldið af krafti af athygli kerfisins.

Stefnukerfið

Allt netið samanstendur af þremur mismunandi undirkerfum: sýninganetinu, samhengisnetinu og meðferðarnetinu.

Sýninganetið fær sýnikennsluferil sem inntak og framleiðir innbyggingu sýnikennslu sem stefnan notar. Stærð þessa innfellingar vex línulega sem fall af lengd sýningarinnar sem og fjölda reitna í umhverfinu.

Eins og sýnt er hér er sýninganetið fært að fella sýningu á mismunandi flækjum og stærð í sameiginlegt snið sem verður notað af samhengisnetinu til að tákna verkefnið. Það er líklega á þessu stigi nú þegar að alhæfing á sér stað, mótmælasýningin ætti að vera farin frá upplýsingum um nákvæmar brautir og algerar stöðu teninga sem sáust við sýnikennsluna.

Þegar litið er á uppbyggingu samhengisnetsins, þó að frá mjög háu stigi, sjáum við viðmótið við sýninganetið fæða innbyggingu sýningarinnar í miðlæga tímabundna athygli einingar. Við sjáum einnig að fyrri aðgerðir (LSTM) og núverandi ástand eru gefnar sem inntak sem er tengd við innbyggingu sýningarinnar til að framleiða alþjóðlegt samhengi sem er sent til mótorkerfisins.

Lýsing þeirra á netkerfinu er að mínu mati mikilvægasti hlutinn í blaðinu:

Samhengisnetið byrjar á því að reikna fyrirspurnaferkt sem fall af núverandi ástandi, sem síðan er notað til að mæta á mismunandi tímaskref í innbyggingu sýningarinnar. Athyglisþyngd yfir mismunandi blokkir innan sama tímaskreps er saman saman til að framleiða eina þyngd á hverju þrepi. Árangurinn af þessari stundlegu athygli er vektor sem hefur stærðina í réttu hlutfalli við fjölda reitna í umhverfinu. Við beitum síðan athygli hverfisins til að dreifa upplýsingum yfir innfellingar í hverri reit. Þetta ferli er margsinnis endurtekið þar sem ríkið er þróað með því að nota LSTM klefi með óbundnum lóðum.
Fyrri röð aðgerða framleiðir innfellingu sem er stærð óháð lengd sýningarinnar en samt háð fjölda reitanna. Við notum síðan venjulega mjúka athygli til að framleiða fastvíddar vigra, þar sem minnisinnihaldið samanstendur aðeins af stöðum í hverri blokk, sem ásamt ástandi vélmenni myndar inntakið sem er sent til meðferðarnetsins.
Hugsanlega, þrátt fyrir að fjöldi hluta í umhverfinu geti verið breytilegur, á hverju stigi meðhöndlunaraðgerðarinnar, er fjöldi hlutar sem máli skipta lítill og venjulega fastur. Fyrir staflaumhverfið sérstaklega, ætti vélmennið aðeins að huga að staðsetningu blokkarinnar sem hann er að reyna að ná í (upprunablokk), svo og stöðuna sem hann er að reyna að setja ofan á ( markhópurinn). Þess vegna getur almennilega þjálfað net lært að passa núverandi ástand við samsvarandi stig í sýningunni og álykta um auðkenni uppruna og markhópa sem eru gefin upp sem mjúk athyglivægi yfir mismunandi blokkir, sem síðan eru notaðir til að vinna úr samsvarandi stöðum til verið látin fara á meðferðanetið.

Hvernig þeir ljúka lýsingu sinni er fullkomið dæmi um núverandi svif AI rannsókna frá sérfræðingakerfisaðferð að námskerfisaðferð og það bendir einnig til umræðunnar um hvernig heilinn þróaðist hér að neðan.

Þrátt fyrir að við framfylgjum ekki þessa túlkun í þjálfun, þá styður tilraunagreining okkar þessa túlkun á því hvernig hin lærða stefna virkar innvortis.

Þeir vita ekki hvernig það virkar! Þeir byggja upp mannvirki sem er fær um að framkvæma ákveðna útreikninga og geyma tilteknar upplýsingar sem okkur þykja nýtanlegar og gefa henni þjálfunarsetningu í von um að öll uppbyggingin læri! Það er eins konar gervigreindarannsóknir á sviði gervigreindar á uppleið, list, leið til að beina heuristaleitinni í rétta átt. Og það virðist vera mikið af þessum töframönnum að vinna fyrir openAI.

Með eigin orðum er netkerfið einfaldasta skipulagið, allt frá samhengisgræðslu sem er fóðrað í fjöllags perceptron, mótoraðgerð er framleidd.

Úrslit

Niðurstöður eru oft hluti sem ég hef lítinn áhuga á, sérstaklega fyrir svona ótrúlega snilldar tæknigögn. Ég mun ganga hratt og í aðalatriðum er að þessi aðferð virkar, hún gengur með nákvæmni sem er svipuð og harðkóðuð stefna sérfræðinga og þvert á þessar sérstöku málsmeðferðaraðferðir er hún almenn til mikils fjölda verkefna.

Ögn ná

Útilokun

Í þessum tilraunum prófuðu þeir einnig mismunandi aðstæður. Með því að nota DAGGER gerðu þeir saman þrjár mismunandi aðföngsaðstæður með því að draga úr sýni brautarinnar: fullar brautir, mynd af brautinni eða aðeins með lokastöðu. Þeir báru einnig saman atferlisfræðilega klónun reikningsins við alla braut sýningarinnar.

Sterkar vísbendingar um getu kerfisins til að alhæfa um sjálfsmynd teninga

Umræða

Þegar ég les hraðaþróunina sem OpenAI hefur gert undanfarna mánuði, finn ég fyrir vaxandi hvöt til að tala um störf sín og deila hugsunum mínum um það sem ég tel starfi sínu og framfarir á sviði AI í heild sinni, upplýsa skilning okkar á því hvernig líffræðileg heila vinna. Einkum þessi vaxandi hugmynd um að virðist sameiginlega vitsmunalegum aðgerðum manna sé ekki svo mikið vegna sameiginlegrar uppbyggingar sem innilega veit hvernig á að framkvæma verkefni, en er í staðinn afleiðing af tiltölulega svipuðum barnalegum mannvirkjum sem, frammi fyrir sama umhverfi, læra að framkvæma svipuð verkefni. Aðgerðin er afleiðing af aðgerðarlausri uppbyggingu sem er aðeins fær um að læra ákveðið verkefni vegna tiltekins umhverfis frekar en uppbyggingar sem er fær um að sinna verkefninu innfæddur maður, einfaldlega klippa nokkrar breytur til að laga sig að umhverfinu.

Verkefni á móti stillingum: virðist handahófskennd skilgreining

Ég verð að viðurkenna að ég skil ekki af hverju þeir völdu að tala um mismunandi verkefni eins og þeir unnu. Verkefni er skilgreint í stöflunartilrauninni sem hópur strengja sem táknar staðsetningu kubbanna miðað við hvert annað, fjöldi þátta í settinu skilgreinir fjölda stafla og fjölda stika fjölda blokkarinnar sem þarf að raða . Verkefni er síðan fyrirkomulag á reitum í stafla óháð hreinum stöðu stafilsins.

Sumar blokkir gætu verið á borðinu en ekki hluti af verkefninu

Val þeirra á að skilgreina hlutfallslega stöðu og fjölda stafla sem viðmið fyrir aðskild verkefni virðist handahófskennt. Reyndar, það gæti líka verið skynsamlegt að tala um mismunandi verkefni út frá algerum upphafsstöðum kubbanna (það sem þeir vísa til sem stillingar). Ég tel að sameiginlegt eðli vandans sé þeim augljóst, en í skýrleikaskyni kjósa þeir að fara ekki nánar út í smáatriðin. Það er skynsamlegra að ramma stefnumenntunina sem tvenns konar alhæfingar, eins og þær gera síðar:

Athugaðu að alhæfing er metin á mörgum stigum: hin lærða stefna þarf ekki aðeins að alhæfa að nýjum stillingum og nýjum sýningum á verkefnum sem þegar hafa sést, heldur þarf hún einnig að alhæfa að nýjum verkefnum.

Skiptu bara um „verkefni“ fyrir „staflapantanir“. Til að læra verkefnið á réttan hátt þýðir það að umboðsmaðurinn lærir innbyggingu sem getur abstrakt stöðu teninganna (stillingar), en einnig hver þeirra (verkefni), fjöldi stafla (verkefni) og braut sýningarinnar (kynnt stuttlega í tilvitnunin) til að framleiða viðeigandi mótorsvörun.

Þessar alhæfingar virðast mótsagnakenndar, hvernig getur sama net abstrakt upphafsstillingu teninga eða deili á þeim og samt endurheimt algera stöðu sína fyrir mótorsvörun?

Þetta skýrir þörfina fyrir mismunandi samvinnukerfi í samvinnu við nám, með því að fá mismunandi inntak og það útskýrir að í samhengisnetinu er abstrakt framsetning verkefnisins gefin með lægri röð upplýsinga, eins og algerar teningur teninga, áður en stigið er niður.

Þú gætir haldið að athugasemdir við þennan greinarmun verkefna og uppstillingar séu kjánalegar, en það er mikilvægt að skilja að það er í meginatriðum sama abstraktferlið við mismunandi hluti (og þetta opnar fyrir næsta kafla).

Það er ekkert nám án undantekninga

Flutninganám er kannski heillandi hugtakið hugvit hvort sem það er in-silico eða in-vivo, það er mjög heitt umræðuefni bæði fyrir AI vísindamenn og taugavísindamenn og það verður efnið í doktorsritgerð minni. Athugaðu að nátengd hugtök hafa verið könnuð á mörgum sviðum áður en vélanám var gerð og þetta ágrip og alltaf að hluta skilgreindu hugtakið hefur mörg nöfn. Heimspekingar, mannfræðingar og félagsfræðingar gætu vísað til þess sem (Post-) Structuralism (Claude Levi-Strauss, Michel Foucault), málfræðingur mun ræða um Syntagma og Nested Tree mannvirki (Noam Chomsky), stærðfræðingar munu líklega hugsa um Homeomorphism eða Invariants og menntun vísindamenn eða taugavísindamenn geta vísað til þess sem Structural Learning. Þú gætir líka séð tengt hugtak á sviði vélanáms eins og framsetningarnáms og metanáms, sem fer eftir höfundi, gæti átt við flutninganám eða nám hugmyndafræði sem notuð er við flutninganám. Þegar rætt er um djúpt tauganet er þessi munur óskýr, eins og í grundvallaratriðum er tauganet að læra að fella ákveðið vandamál (framhaldsnám) með því að breyta uppbyggingu þess (metanám) venjulega í hávaðasömu umhverfi sem felur í sér form flutninganáms.

Rannsakendur AI og hugrænir vísindamenn hafa oft mjög steypta skilgreiningu á flutningsnámi, það er ferlið sem gerir kerfinu kleift að nota þá þekkingu sem aflað er í ákveðnu verkefni til að framkvæma annað verkefni sem deilir sameiginlegu samsetningaruppbyggingu (eins og lýst er í greininni). Hugræn vísindi hafa þessa hugmynd um nær og fjær flutning, allt eftir því hvernig verkefnin tvö eru mismunandi. En frá óhlutbundnari sjónarhorni, í hávaðasömu og flóknu umhverfi, er allt nám form af flutninganámi og munurinn á mjög nálægt og mjög langt flutningi er aðeins spurning um samnýttar upplýsingar - aftur spurning um stærðargráðu en ekki náttúrunnar.

Í stýrðu umhverfi er fyrirfram reynt að byggja upp harðkóðaða mat á raunveruleikanum, en í raun og veru endurspeglar þessi dómgreind verklega það sem flytja nám gerir, það sameinar óendanlegt sett af ríkjum sem finnast í raunveruleikanum undir sameiginlegu lokandi skipulagi. Í meginatriðum er átt við flutninganám beint eða með framlengingu til þess ferils sem námsaðilar nota invariants til að byggja upp líkön af heiminum. Það er ferli sem notar líkt, endurtekningar og afbrigði af því sama, til að mynda æ óhlutbundnari og samsettar framsetningar sem munu byggja upp þætti yfir dreifileika af inntakinu. Í almennum skilningi gerir það kleift að búa til grunnaðgerðir sem við notum við upplýsingahópa sem, líkt og í stærðfræði, það gerir kleift að sameina og gatnamót. Það gerir auðkenni, það skýrir getu okkar til að flokka hluti. Josh Tenembaum gefur dæmi sem raunverulega talaði við mig: ímyndaðu þér að þú sért að kenna tveggja ára barni að þekkja hest í fyrsta skipti, þú sýnir honum nokkrar myndir af mismunandi hestum og þá sýnirðu honum mynd annars hests og mynd af húsi og biðja hann að segja þér hver er hesturinn. Barn mun vinna þetta verkefni nokkuð auðveldlega en það er samt eitthvað sem tölva getur ekki staðið sig með svo fáum aðföngum (nám í einni mynd).

Hvernig gerði barnið það?

Dýraleg viðurkenning hefur verið rannsökuð hjá börnum og tengjast getu okkar til að afbyggja hluti í viðeigandi hluta, litasvið skinnsins, stærð hálsins, heildar lögun osfrv. Þessi geta er einnig það sem gerir þér kleift að opna hurð fyrir þig hef aldrei séð áður, þú hefur lært mótoröð sem alhæfir við allar aðstæður (alhæfing léns). Það er líka það sem þú notar til að smíða skýringarlíkön sem einfalda heiminn, þú gætir örugglega verið hissa upphaflega á skyndilegri birtingu Cuckoo í frægu svissnesku klukku, en eftir annað útlit muntu búast við því. Að finna óæskilegt er hvernig taugakerfi lærir og þessi líkön eru byggð ómeðvitað. Dæmi um það er hvernig við lærum innsæi um eðlisfræði jafnvel áður en við höfum heyrt um stærðfræði og tölur.

Spyrja má til dæmis hversu hratt myndi barn, sem fæðist í mergþyngdarafli, laga sig að þyngdarafli jarðar og læra á innsæi að hlutir falla til jarðar þegar þeir falla?

Við gætum haft þá tilgátu að ungabörn og flest dýr muni endurskoða líkan sín ómeðvitað, alveg eins og þegar þú setur sokka á lappirnar á hundi og það tekur nokkurn tíma að aðlagast nýjum upplýsingum.

En hjá ungu barni fer fram meðvituð yfirheyrsla og endurskoðun á leiðandi fyrirmynd sinni, frá forvitni, í gegnum tungumál, tákn og skoðanir. Geta okkar til að yfirheyra og breyta líkönum okkar meðvitað er heillandi og sem hliðarlýsing getur verið að mennirnir eru eina tegundin sem fær að orða ferlið en aðrar tegundir geta framkvæmt svipaðar meðvitundarendurskoðanir.

Invariance er skylt eign tímans, ef allt væri alltaf nýtt og á engan hátt fyrirsjáanlegt, væri ennþá þessi einstaka undantekningartilbúnaður að allt er alltaf nýtt og óútreiknanlegur. Það er ómögulegt að ímynda sér heim án undantekninga, þar sem það gæti ekki verið til heimur sem á að vísa til, án lífsvarðans væri lífið ómögulegt og gáfur okkar gagnslausar. Lífið er vél sem virkar eingöngu með fyrirsjáanlegri endurtekningu atburða, endurtekningu á orsökum og afleiðingum, með hringlaga endurleiðslu orku í lífveruna. Og í leit lífsins að því að bæta notkun þess á nauðsynlegum lotum er heili okkar fullkominn tæki. Það er spávél, aðlagandi líffæri sem fær að finna endurtekningu á virkan hátt og nota það til að eiga betri samskipti við heiminn.

Þessi aðferð sem lífið valdi er afar sterk til smávægilegra breytinga á uppbyggingunni. Það sem helst er það sama er heimurinn, tölfræðilegir eiginleikar umhverfisins, en taugauppbyggingin sem hann kemst í getur verið breytileg svo lengi sem hún getur fellt inn viðeigandi upplýsingar sem það þróaðist til að meðhöndla. Þetta skýrir hvers vegna gáfur okkar geta verið svo frábrugðnar einstaklingum til einstaklinga, jafnvel aðal legslímhúð, og samt skiptir sömu aðgerðum.

Taugakerfi eru aðlögunarhæf, þau þurfa ekki þróun og hægt erfðabreytingar til að breyta hegðun á viðeigandi hátt. Einfalt taugakerfi, eins og það sem er að finna í C. Elegans, þjónar sem meðfæddur innri umsjónarmaður og ytri skynjari: skynjaðu mat og færðu þig í átt að honum, flýgur frá sársauka, æxlast. Þessi einföldu kerfi voru upphaflega stífar og framkvæmdu mikla nálgun á mjög hávaðasömum heimi okkar til að gera það kleift að greina í litlu mengi mögulegra ríkja (matur til vinstri, hiti undir osfrv.). Hreyfi- og skynfærni okkar þróaðist í hendur við forspárgetu taugakerfisins. Eftir því sem skynjarar okkar urðu nákvæmari, tók taugakerfið hægt og rólega að breyta uppbyggingu þess til að geyma upplýsingar og læra af reynslunni. Upphaflega gat það lært að þekkja tiltekna flokka aðföng, svo sem lyktartegundir eða ljósamynstur, og gat einnig lært í gegnum prufur og villur til að stjórna sífellt flóknara mótorkerfi þess. Athugaðu að heimurinn er svo flókinn að heili okkar þróaðist náttúrulega í átt að náms hugmyndafræði frekar en meðfædda málsmeðferð. Computationally þetta gerir fullkominn skilning, einfaldur leikur Go er með ríki sem er miklu stærra (2,10¹⁷⁰) en fjöldi frumeinda í alheiminum (10⁸⁰), og eftir því sem lífverur verða flóknari að reyna að erfiða kóða nálgun á öllum mögulegum segir að það gæti verið í hratt verði óleysanlegt vegna sprengingar í lofti.

Sumt gæti trúað að heili okkar sé byggður á þann hátt að hann tákni með innri rými sem hann ætlar að þróast í, að í DNA einhvers staðar sé gen fyrir það sem myndar andlit eða tímabundið skipulag hljóðbylgjanna sem mynda upp orð. Þeir gætu trúað að þessi meðfædda þekking sé kóðuð við fæðingu einhvers staðar. Aðrir gætu trúað, eins og heimspekikennarinn minn þegar ég var í menntaskóla, að tilvistin gengi á undan kjarna og að heili okkar sé fullkomlega og eingöngu skilgreindur af fundi lífverunnar og heimsins. Raunveruleikinn er auðvitað flóknari og hjá flestum telencephalic kerfum sem hafa verið rannsökuð hingað til, umritar heilinn ekki innfæddan hlutverk sem hann mun framkvæma heldur læra hann eftir upplýsingum sem eru að finna í aðföngum hans. Ef inntakið er of lítið í viðeigandi upplýsingum, geta getu til að læra í þeim uppbyggingu verið með gildistíma (td Amblyopia). En ef meðfædd uppbygging umbreytir ekki endanlegri virkni hefur heilinn ákveðna uppbyggingu. Þessi uppbygging er varðveitt hjá einstaklingum og einstaklingar af sömu tegund hafa sameiginlegar aðgerðir og drif. DNA setur upp ákveðna uppbyggingu til staðar, mannvirki sem er ekki fær um að framkvæma lokahlutverk sín meðfædda, en uppbygging sem getur lært margbreytileika tiltekinna verkefna út frá reynslu einstaklingsins. Það kemur ekki á óvart að þróunin leiddi til þess að mjög árangursrík blóð-heilaþröskuldur einangraði heilann frá restinni af líkamanum sem og heilahimnum og harða beinskelinu sem verndaði það fyrir umheiminum, því ólíkt öðrum líffærum þar sem uppbyggingin er kóðuð í erfðamenginu, ekki er hægt að endurbyggja uppbyggingu þjálfaðs heila úr innbyggðri geymslu. Það sem er heillandi er að við sjáum sömu námsleiðir mynda með hliðstæðum hætti með því að þróa sífellt flóknari djúp net sem vinna sífellt flóknari verkefni.

Erfitt er að sjá samsetningarvirki en alls staðar

Sem síðari athugasemd er það undarlegt að jafnvel höfundar kannast ekki við að fyrsta verkefni þeirra að ná markmiði hafi samsetningaruppbyggingu.

Ögnin sem nær verkefnum sýnir ágætlega áskoranir í alhæfingu í einfaldri atburðarás. Samt sem áður, verkefnin deila ekki samsettri uppbyggingu, sem gerir mat á alhæfingu að nýjum verkefnum krefjandi.

Þrátt fyrir að uppbyggingin sé örugglega lægra stig en reiturinn staflað og ekki aðgengilegur fyrir tilraunameðferð, er verkefnið örugglega samsett úr sameiginlegri uppbyggingu. Að samræma heiminn við plan, eitt samsetningarvirki er að kubburinn (liturinn) er varðveittur með þýðingu og fara frá reit A-eða tilviljanakenndri upphafsstöðu í stöðu (Xa1, Ya1) til að loka B á stöðu (Xb1, Yb2 ) er hluti af sömu skipan hærri röð en að fara frá reit A í stöðu (Xa2, Ya2) til að loka B á stöðu (Xb2, Yb2).

Tengi milli neta

Umboðs taugakerfi sem geta meðhöndlað aðföng á mismunandi stigum abstrakt munu þurfa tengi, lén sem ég tel að sé mikið eftir til að uppgötva. Þau tengi geta verið af fjölmörgum toga. Það má til dæmis líta á þau sem algengt tungumál milli tveggja neta, eins og sýnt er fram á í greininni, lægra stig net með vopnuðum athyglikerfi (sýninganet) getur þýtt sýnikennslu í framsetning sem annað net (samhengisnetið) getur notað til að beina aðgerðum hvað sem lengd eða upphafstillingu sýningarinnar er.

Yfirborð þessarar tungu er hér plan, fast að stærð, en maður getur ímyndað sér hugsanlegar breytingar sem gætu bætt samskipti milli netsins. Til dæmis væri hægt að stilla stærð yfirborðsins á að vaxa eða minnka á virkan hátt þegar netin eiga samskipti við nám og þar með þjappa eða auka tungumálaflækjuna. Við gætum líka ímyndað okkur virkari samskipti, til dæmis með endurgjöf. Við gætum ímyndað okkur tilvist fyrirkomulaganeta sem myndu læra að slétta samskipti milli neta, sem eru til sem samhliða net sem læra að móta inntak fyrsta netsins út frá inntaki og úttaki annars netsins. Við gætum ímyndað okkur flókin samhengisnet sem starfa sem tonic (hægt og misjafnt) innstreymi til margra sérhæfðra neta ... Heillandi framtíðarsvið rannsókna!

Mistök tilfella benda til mögulegra hlutverka sem nýir einingar gætu haft

Þess má geta að villur eru oft vegna vélknúinna mistaka og að mistökum fjölgar með flækjustig verkefnisins.

Ekki ætti að versna hreyfivélina aðeins með því að fjölga skotmörkum, þetta er sterk sönnun þess að æxlunarnetið lærir að tala við mótornetið er of abstrakt. Það er undarlegt vegna þess að þeir segja að próf þeirra sýni að viðmótið milli samhengisnetsins og mótornetsins sé tiltölulega steypu (staðsetning vélmennisins, staðsetning markmiðsins).

Hugsanleg lausn gæti verið, þar sem þetta er mát arkitektúr, að nota mismunandi tap aðgerðir, eða mát tap aðgerðir sem tákna hvert tiltekinn þátt verkefnisins. Það yrði einnig hjálpað af jafngildi for-mótorsvæða heila til að tryggja sýnikennslu og samhengisnet getur verið óhlutbundið án þess að versna mótorskipunina. Forstærðarsvæði eru nauðsynleg til að staðsetja hluti betur á grundvelli markmiðsins (frá óhlutbundnum netum) og skynsinntakunum, til að velja bestu mótorskipunina. Svo virðist sem samhengisnetið sé bæði að reyna að færa sýninguna yfir á hærra stig innbyggingar og undirbúa mótoraðgerðir á sama tíma í núverandi samhengi. Hlutverk fyrir vélknúinna neta væri að læra að eiga samskipti við mótorkerfið á markvissan og aðlagandi hátt og sameina bæði aðgerðir forstærðar og smábaráttu fyrir vélknúið nám og skjótan aðlögun.

Það er til athyglisverð kenning, þversögn Moravec, sem spáir því að það muni ekki vera hærri stigs vitneskja sem mun vera reikniskattur en meðhöndlun skynskyns og framleiðsla vélknúinna kerfa. Þetta gæti örugglega gert grein fyrir miklu magni taugafrumna sem eru til staðar í heila okkar (meira en í restinni af heilanum) til að stjórna aðlögunarhæfileikum aðlagandi. Þessi þversögn var mótuð á tíma (níunda áratugnum) þegar við trúðum enn að við gætum fellt eigin þekkingu inn í vél til að framkvæma flókið verkefni í stjórnlausu hávaðasömu umhverfi. Auðvitað er þessi þversögn skynsamleg ef vélin á einhvern hátt er fær um að tákna heiminn í vönduðu setti ríkja, þá væri auðveldara að byggja upp hærra stig á því. En ég tel að báðir muni reynast ákaflega skattlagðir og innri framsetningin sem notuð er við tengi netanna mun vera langt frá öllu sem líkist okkar eigin meðvituðu framsetningum.

Niðurstaða

Með því að sameina mismunandi taugakerfi sem hvert um sig annast sérstaka meðferð á vandanum sýnir þessi grein að með því að búa til verkefni sem í eðli sínu þarfnast alhæfingar og byggja upp viðeigandi námsumhverfi með slembivali í ríki, þá kemur taugakerfi með aðgang að minni og athyglikerfi getur lært að alhæfa umfram einfalda æxlun. Það getur lært að uppgötva markmið með hærri röð sem hefur verið sýnt fram á einu sinni í myndrænni upplýsingastraumi og framkvæma útreikninga í almennu rými til að endurheimta viðeigandi aðgerðir sem geta endurskapað það markmið í öðru samhengi.

Í framtíðinni munum við sjá vaxandi margbreytileika mannvirkja byggð á þessum atómbyggingareiningum sem geta lært að alhæfa flókin verkefni en mikilvægara er að framkvæma nokkur slík verkefni, í nýju umhverfi, með minna treyst á harðkóða aðferðum eins og forvinnslu á aðföngum eða minni geymsla. Skipt er um minni geymslu með dreifðum framsetningum um minnisnet, viðmiðunarkerfi verður skipt út fyrir hringrásarvirkni í rauntíma athygli netum. Spurningin er enn hvernig við munum geta aðlagað sterka raðtækni (Turing vélar) að auknu trausti okkar á dreifðum tölvum í innbyggðu kerfinu.