Principal Servicii De Streaming AI învață să trișeze la Q * bert într-un mod pe care niciun om nu l-a mai făcut până acum

AI învață să trișeze la Q * bert într-un mod pe care niciun om nu l-a mai făcut până acum



Un AI a reușit să trișeze cu cea mai bună omenire pe care o poate oferi după ce a descoperit un exploit în jocul arcade clasic Q * bert și a rulat cu el.

În timp ce iterațiile anterioare ale AI ar juca corect Q * bert, la un moment dat în procesul de învățare a modului în care funcționează jocul, descoperă un exploit care îi permite să acumuleze puncte nebune. Bineînțeles, așa cum ar face orice jucător de vânătoare de scoruri, acesta repetă procesul, astfel încât să-și poată crește scorul în cel mai eficient mod posibil.

Puteți vedea AI care își desfășoară activitatea în jurul platformelor în videoclipul de mai jos. La început, se pare că ar sari fără țintă între platforme. În loc să vadă jocul progresând în runda următoare, Q * bert rămâne blocat într-o buclă în care toate platformele sale încep să clipească - este aici AI-ul poate merge apoi într-o frenezie de scor acumulând puncte uriașe.

CITIȚI NEXT Unul dintre cele mai controversate înregistrări de joc a fost în cele din urmă discreditat

poți înregistra pe google meet

Cum a câștigat AI AI războiul Q * bert

Zdrobind recordul din toate timpurile pentru titlu, AI a obținut un scor incredibil de mare datorită programării algoritmului său de strategie de evoluție. Strategiile de evoluție (ES) diferă de învățarea obișnuită de întărire (RL) pe care AI tradițională o folosește, fiind văzută ca fiind mai scalabilă datorită învățării sale generaționale.

Fiecare buclă de învățare este denumită generație și își continuă sarcina până când este îndeplinită o condiție stabilită (în acest caz, un scor mare). Cu fiecare generație succesivă, AI absoarbe cunoștințele generației anterioare și, prin urmare, este mai bun la atingerea aceluiași scop și la depășirea acestuia. Continuați și veți ajunge la o IA care nu are rival în sarcina sa. Exact asta s-a întâmplat aici cu scorul Q * bert.

Conturat în hârtia , publicat săptămâna trecută de cercetătorii de la Universitatea din Freiburg, Germania, se pare că eroarea nu era o cantitate cunoscută. De fapt, deși nu sunt prea surprinși de găsirea erorii, este interesant să vedem cum AI a continuat și a învățat să o exploateze de fiecare dată când a jucat pentru a-și maximiza potențialul de notare.

CITIȚI NEXT Această inteligență artificială a învățat să stăpânească Super Mario Bros.

Pentru a găsi eroarea, agentul a trebuit să învețe mai întâi să finalizeze aproape primul nivel - acest lucru nu s-a făcut dintr-o dată, ci folosind multe mici îmbunătățiri, au explicat cercetătorii Registrul . Bănuim că, la un moment dat în cursul antrenamentului, una dintre soluțiile descendenților a întâlnit eroarea și a obținut un scor mult mai bun în comparație cu frații săi, ceea ce, la rândul său, și-a sporit contribuția la actualizare - greutatea sa a fost cea mai mare din media ponderată. Acest lucru a mutat încet soluția în spațiul în care tot mai mulți descendenți au început să întâmpine aceeași eroare.

Nu cunoaștem condițiile precise în care apare eroarea; este posibil să apară numai dacă agentul urmează un model care pare suboptim, [de exemplu, când agentul pierde timp sau chiar pierde o viață]. Dacă acesta ar fi cazul, atunci ar fi extrem de greu pentru RL standard să găsească eroarea: dacă utilizați recompense incrementale, veți învăța strategii care dau rapid o recompensă, mai degrabă decât strategii de învățare care nu dau multe recompense pentru o vreme și apoi câștigă brusc mare.

Vezi legat Campionul Dragster Todd Rogers tocmai și-a pierdut coroana după 35 de ani Această inteligență artificială a învățat să stăpânească Super Mario Bros 1-2 timp de 17 zile Urmăriți acest AI învățând să conduceți în GTA V pe Twitch

Cu toate acestea, în ciuda rezultatelor minunate ale robotului, cercetătorii nu spun că acesta este un caz pentru promovarea învățării ES prin RL. De fapt, ambele sisteme au propriile lor probleme și o combinație a celor două este văzută în mare măsură ca cea mai bună opțiune pentru a merge mai departe.

Aceeași metodă ES pentru alte jocuri Atari nu a adus nicăieri aproape de aceleași rezultate pozitive. Pe de altă parte, RL este responsabil pentru distrugerea înregistrărilor la stânga, la dreapta și la centru, inclusiv învingerea celui mai bun jucător GO din lume. Totuși, ES încă își are propriul loc în lucruri și este de fapt modul în care Nvidia efectuează o mulțime de antrenamente AI, deoarece necesită mai multă putere de calcul, dar obține rezultate mai bune pe o perioadă mai lungă de timp.

Indiferent de modul în care va deveni viitorul dezvoltării AI, cel puțin acest bot care înșeală sistemul nu este la fel de rău ca acesta acum campion mondial al jocului video rușinat .

Articole Interesante

Alegerea Editorului

Cum să actualizați aplicațiile de pe Devant Smart TV
Cum să actualizați aplicațiile de pe Devant Smart TV
La fel ca toate celelalte dispozitive, televizoarele au evoluat destul de puțin în ultimii ani. Navigarea prin canale nu mai face acest lucru pentru mulți oameni. În schimb, vor ca televizorul lor să fie un întreg sistem de divertisment. Aproape
Cum se elimină săgeata drop-down în Excel
Cum se elimină săgeata drop-down în Excel
La fel ca majoritatea celorlalte meniuri derulante, cele din Excel prezintă săgeți care pot fi făcute clic. Cu toate acestea, este posibil să doriți să ascundeți sau să eliminați săgețile atunci când exportați sau partajați fișierele Excel. Deci, cum elimini săgețile nedorite? Acolo
Cum se face un complot Scatter în Foi de calcul Google
Cum se face un complot Scatter în Foi de calcul Google
Atunci când analizăm date, un grafic scatter este unul dintre cele mai simple moduri de a descoperi relația dintre două variabile. Și cea mai bună parte? Se poate face în Foi de calcul Google. În acest ghid, vom explica cum să facem acest lucru
Cum să dezactivați subtitrările pe televizorul dvs. Samsung
Cum să dezactivați subtitrările pe televizorul dvs. Samsung
Dezactivarea subtitrarilor pe televizoarele Samsung este o plimbare prin parc și o poți face pe toate modelele contemporane ale producătorului coreean. Cel mai bun lucru este că aceiași pași se aplică atât modelelor Smart, cât și obișnuite
Cum se pornește un PS4 în modul sigur
Cum se pornește un PS4 în modul sigur
Chiar și odată cu lansarea consolei mai noi, PS4 rămâne extrem de popular. Utilizatorii de fiecare zi se conectează pentru a juca jocurile lor preferate, filme în flux și multe altele. Indiferent, lucrurile încă pot merge prost. Nu se întâmplă des, dar uneori, PS4-ul tău
Cum să deconectați numărul de telefon de la discordie
Cum să deconectați numărul de telefon de la discordie
Atunci când configurați un cont Discord, trebuie să conectați un număr de telefon valid în scopul verificării. Acționează ca un instrument anti-spam eficient care vă ajută să vă recâștigați controlul în cazul în care veți fi victima pirateriei. Cu toate acestea, unii oameni
Dezactivați sau activați parolele sugerate în Microsoft Edge
Dezactivați sau activați parolele sugerate în Microsoft Edge
Microsoft Edge sugerează acum utilizarea parolelor securizate puternice generate automat. Microsoft a adăugat o nouă caracteristică utilă versiunii Canary a browserului. Când vă conectați la un site web, Edge generează o parolă puternică și sigură pe care o puteți utiliza. De asemenea, îl va salva în parolele salvate. Microsoft lucrează activ