Un AI a reușit să trișeze cu cea mai bună omenire pe care o poate oferi după ce a descoperit un exploit în jocul arcade clasic Q * bert și a rulat cu el.
În timp ce iterațiile anterioare ale AI ar juca corect Q * bert, la un moment dat în procesul de învățare a modului în care funcționează jocul, descoperă un exploit care îi permite să acumuleze puncte nebune. Bineînțeles, așa cum ar face orice jucător de vânătoare de scoruri, acesta repetă procesul, astfel încât să-și poată crește scorul în cel mai eficient mod posibil.
Puteți vedea AI care își desfășoară activitatea în jurul platformelor în videoclipul de mai jos. La început, se pare că ar sari fără țintă între platforme. În loc să vadă jocul progresând în runda următoare, Q * bert rămâne blocat într-o buclă în care toate platformele sale încep să clipească - este aici AI-ul poate merge apoi într-o frenezie de scor acumulând puncte uriașe.
CITIȚI NEXT Unul dintre cele mai controversate înregistrări de joc a fost în cele din urmă discreditat
poți înregistra pe google meet
Cum a câștigat AI AI războiul Q * bert
Zdrobind recordul din toate timpurile pentru titlu, AI a obținut un scor incredibil de mare datorită programării algoritmului său de strategie de evoluție. Strategiile de evoluție (ES) diferă de învățarea obișnuită de întărire (RL) pe care AI tradițională o folosește, fiind văzută ca fiind mai scalabilă datorită învățării sale generaționale.
Fiecare buclă de învățare este denumită generație și își continuă sarcina până când este îndeplinită o condiție stabilită (în acest caz, un scor mare). Cu fiecare generație succesivă, AI absoarbe cunoștințele generației anterioare și, prin urmare, este mai bun la atingerea aceluiași scop și la depășirea acestuia. Continuați și veți ajunge la o IA care nu are rival în sarcina sa. Exact asta s-a întâmplat aici cu scorul Q * bert.
Conturat în hârtia , publicat săptămâna trecută de cercetătorii de la Universitatea din Freiburg, Germania, se pare că eroarea nu era o cantitate cunoscută. De fapt, deși nu sunt prea surprinși de găsirea erorii, este interesant să vedem cum AI a continuat și a învățat să o exploateze de fiecare dată când a jucat pentru a-și maximiza potențialul de notare.
CITIȚI NEXT Această inteligență artificială a învățat să stăpânească Super Mario Bros.
Pentru a găsi eroarea, agentul a trebuit să învețe mai întâi să finalizeze aproape primul nivel - acest lucru nu s-a făcut dintr-o dată, ci folosind multe mici îmbunătățiri, au explicat cercetătorii Registrul . Bănuim că, la un moment dat în cursul antrenamentului, una dintre soluțiile descendenților a întâlnit eroarea și a obținut un scor mult mai bun în comparație cu frații săi, ceea ce, la rândul său, și-a sporit contribuția la actualizare - greutatea sa a fost cea mai mare din media ponderată. Acest lucru a mutat încet soluția în spațiul în care tot mai mulți descendenți au început să întâmpine aceeași eroare.
Nu cunoaștem condițiile precise în care apare eroarea; este posibil să apară numai dacă agentul urmează un model care pare suboptim, [de exemplu, când agentul pierde timp sau chiar pierde o viață]. Dacă acesta ar fi cazul, atunci ar fi extrem de greu pentru RL standard să găsească eroarea: dacă utilizați recompense incrementale, veți învăța strategii care dau rapid o recompensă, mai degrabă decât strategii de învățare care nu dau multe recompense pentru o vreme și apoi câștigă brusc mare.
Vezi legat Campionul Dragster Todd Rogers tocmai și-a pierdut coroana după 35 de ani Această inteligență artificială a învățat să stăpânească Super Mario Bros 1-2 timp de 17 zile Urmăriți acest AI învățând să conduceți în GTA V pe Twitch
Cu toate acestea, în ciuda rezultatelor minunate ale robotului, cercetătorii nu spun că acesta este un caz pentru promovarea învățării ES prin RL. De fapt, ambele sisteme au propriile lor probleme și o combinație a celor două este văzută în mare măsură ca cea mai bună opțiune pentru a merge mai departe.
Aceeași metodă ES pentru alte jocuri Atari nu a adus nicăieri aproape de aceleași rezultate pozitive. Pe de altă parte, RL este responsabil pentru distrugerea înregistrărilor la stânga, la dreapta și la centru, inclusiv învingerea celui mai bun jucător GO din lume. Totuși, ES încă își are propriul loc în lucruri și este de fapt modul în care Nvidia efectuează o mulțime de antrenamente AI, deoarece necesită mai multă putere de calcul, dar obține rezultate mai bune pe o perioadă mai lungă de timp.
Indiferent de modul în care va deveni viitorul dezvoltării AI, cel puțin acest bot care înșeală sistemul nu este la fel de rău ca acesta acum campion mondial al jocului video rușinat .