Félelmetes jövő mesterséges agyakkal, robotokkal és a homo sapiens leigázásával! Csak itt, csak most, hölgyeim és uraim! Két pengő!
AI: Artificial Intelligence, mesterséges intelligencia - a gyengébbek kedvéért :-)
Na vágjunk bele.
Én egyáltalán nem vagyok féltékeny a fúrógépre, hogy gyorsabban és pontosabban fúr lyukat, mint én puszta kézzel. Ugyanígy nem vagyok féltékeny a fűnyíróra sem, hogy szebben és gyorsabban vág füvet, mint én, mondjuk egy sarlóval.
Féltékenyek legyünk-e az AI-ra, ha jobban sakkozik nálunk? És ha jobban ismer fel CT- és röntgenfelvételeket? És ha jobban vezet, mint mi?
Vajon az AI egy újabb szerszám, egy “fúrógép”, vagy egy új intelligens faj? A kérdés jogos, mert ha sakkozni és jogászkodni már most jobban tud, mint az ember, akkor szerszám-e még, vagy már ember? Jelen állapotában még egészen biztosan szerszám.
Az 1589-ben feltalált kötőgép is jobban tudott kötni, mint a kor emberei, és hát volt idő, amikor sokan elveszítették az állásukat ilyen-olyan masinák miatt, de senki nem gondolta, hogy a nála ezerszer ügyesebb, gyorsabb, pontosabb kötőgép egy új intelligens faj lenne.
Ezt egyelőre most sem kell gondolnunk. De az a helyzet, hogy az AI jön föl mint a talajvíz. A 90-es években írtam egy könyvet arról, miért lehetetlen megvalósítani Szrípiót (3PO), és miért nem fog soha szembejönni velünk az utcán. Erre tessék, íme a Boston Dynamics alkotása:
2010 tájékán történt valami, ami felülírta a józan észt és a számításaimat. Úgy hívják, deep learning, és már most sokkal jobban lát, hall, sakkozik, mint a homo sapiens faj tagjainak többsége. Mondjuk tudata nincs egy gramm se. Pont annyira öntudatos, mint egy kötőgép, vagy egy merőkanál.
Én a 90-es évek elején neuronhálózat alapú karakterfelismerő rendszeren dolgoztam. Küzdöttünk derekasan, de 91-92% fölé sosem ment a felismerési pontosságunk. Több évnyi fejlesztési tapasztalat birtokában arra jutottunk, hogy ez ennél nem lesz jobb. Arra jutottunk, hogy a mennyiség (jó sok neuron) sohasem fog átcsapni minőségbe, mint ahogy egy halom tégla sem lesz intelligensebb attól, ha még egy halom téglát odataligázunk és ráborítjuk az eredeti kupacra.
Aztán mégiscsak átcsapott a mennyiség minőségbe. Bizony! Ha megfelelő módon taligázod oda a további neuronokat, lőn csoda. Lássunk egy csodát:
AlphaZero
https://deepmind.com/blog/alphazero-shedding-new-light-grand-games-chess-shogi-and-go/
Az AlphaZero a Google egyik deep learning alapú masinája, ami négy (4!) óra leforgása alatt önállóan, emberi beavatkozás nélkül emberfeletti szinten megtanult sakkozni. Ráadásul úgy, hogy semmiféle adatbázist, az elmúlt 500 év nyitólépéseinek katalógusát, semmi ilyesmit nem kapott. Csak a sakk szabályait (a ló görbén lép, a berosálás intim dolog, a paraszt nem tud tolatni, ilyeneket).
Nesze neuronháló, tanulj sakkozni. Ezt úgy csinálták, hogy két AplhaZero addig játszott egymás ellen, míg egyikük sem bírt a másikkal. Négy óra alatt kész volt a sakkzseni.
Mit jelent az, hogy “emberfeletti szint”? Hát azt, hogy a sakknagymesterek csak lesnek, hogy milyen húzásokat csinál. Egy példa: az embernek nehezére esik beáldozni a királynőt, mert az “sokat ér”, de AlphaZero nem tudja, hogy az “sokat ér”, ezért a győzelem érdekében simán hagyja lekaszabolni a királynőt is. És pont ezzel nyer.
Garry Kaszparov ezt írja az AlphaZero-ról: “The implications go far beyond my beloved chessboard... Not only do these self-taught expert machines perform incredibly well, but we can actually learn from the new knowledge they produce."
Magyarul: “Az Alphazero hatása túlmutat az általam szeretett sakktáblán… Nemcsak hogy ezek az öntanuló gépek hihetetlenül jól játszanak, de abból a tudásból, amire szert tettek, mi is tanulhatunk újat.”
Csoda tehát már most is van, de a tudatosság szikrája sem jelent meg ezekben a “mesterségesen intelligens” eszközökben. Még csak azt sem tudja, hogy ő egy sakkgép, és hogy sakkot játszik. Pont annyira tudja hogy ő sakkgép, amennyire a műanyag vonalzó tudja magáról, hogy ő egy műanyag vonalzó.
Ha viszont egyszer már bekövetkezett a csoda, és a mennyiség átcsapott minőségbe, bekövetkezhet-e ismét, és öntudatra ébredhetnek-e a gépek? Ennek is utánajárunk.
De ne rohanjunk ennyire előre.
WFT is deep learning?
Korábban írtam egy cikket (Hogyan ismerjünk fel egy zsiráfot egy kockás füzet segítségével), amiben leírtam 1 db neuron működését. Röviden: az agyi neuron egy mini számológép. Adod be neki a számokat, ő meg oszt-szoroz (sokkal inkább: van benne egy sokváltozós függvény), és a végén kiköp egy eredményt. Ha bedobálod neki, hogy egy állatnak hány lába van, milyen hosszú a nyaka stb., ezekkel elbűvészkedik, és kiad egy eredményt, hogy az adott élőlény egy zsiráf. Vagy nem zsiráf.
Ennyit tud egy darab neuron. Halál pontosan felismer egy zsiráfot, HA (HAHA!) össze tudod szedni neki a zsiráf megfelelő jellemzőit.
Az elmúlt évtizedekben végig az volt a probléma a neuronhálózatokkal, hogy akkor működnek jól, HA mi jó előre már gyakorlatilag megoldottuk a feladatot, és a megfelelő jellemzőket összevadásztuk a felismerni kívánt tárgyról/állatról/jelenségről. HA a programozó ki tudta vonni a macska jellemzőit egy fotóról, AKKOR a neuronhálózat fel tudta ismerni a macskát. De valljuk be, ebben az esetben a neuronhálóra nincs is szükség, mert a kivont jellemzők alapján egy kockás füzet segítségével is fel lehet ismerni a macskát.
Sőt, még a kockás füzet sem kell. Józsi, a programozó felismerte a macskát. Nagy cucc!
A mi szerencsétlenkedésünk a 90-es években nagyjából abból állt, hogy megpróbáltuk algoritmikusan (értsd: leprogramozva) megállapítani, hogy egy kézzel írt szövegben mitől “a” betű az “a” betű. De hát pont az a lényeg ebben a feladatban, hogy senki nem tudja, mi a lényeg. Pont ugyanolyan feladat, mint leírni, hogyan biciklizel, vagy zongorázol. Hát tudja a jó fene! Az csak úgy megy.
Nos, ahogy mi elakadtunk 90%-nál, mindenki más is elakadt, és a neuronhálókat elkezdte betemetni az idő vasfoga, hogy legyen itt egy durva képzavar is. Egyetlen ember nem adta fel a küzdelmet, Geoffrey Hinton. Ez az őrült ember továbbra is hitt a neuronhálózatokban, és addig-addig küzdött az elemekkel és az évtizedekkel, míg 2006-ra feltalálta a deep learning nevű csodát.
Mit tett Geoffrey, amit addig senki más?
A digitális neuronhálózatok, és a tanításukra szolgáló Back Propagation algorimus “százévesek”. Ugyanígy a többrétegű (deep) neuronhálózatok is. Amit azonban a korábbi kísérletezők elbaltáztak az az, hogy mondjuk egy képfelismerő neuronhálózat tanítását véletlenszerű paraméterekkel indították el, nem lévén jobb ötletük egymilliárd pici számológép alapbeállítására.
Ez azonban olyan, mintha azt feltételeznénk, hogy a mi agyunknak nincs alapbeállítása, nincs szerkezete, és egy kupac szürke trutyi próbálna értelmet találni a világban. De az agyunk nem trutyi. Igen finom belső szerkezete van. Mi már csak finomhangoljuk életünk során.
Geoffrey Hinton módszert találta arra, hogy mondjuk egymilliárd darab, beszédfelismerésre csatasorba állított neuron ne szürke trutyi állapotból próbáljon felgyógyulni a beszédfelismerés feladatához, hanem a tanítás előtt a neuronhálónak már legyen valami belső szerkezete, ami a feladatra alkalmassá teszi, amit a tanítással már csak finomhangolunk. Ez volt az áttörés az AI-ban. Dátum: 2006. Pépör: https://www.cs.toronto.edu/~hinton/absps/fastnc.pdf
“There is a fast, greedy learning algorithm that can find a fairly good set of parameters quickly, even in deep networks with millions of parameters and many hidden layers. The fast, greedy algorithm is used to initialize a slower learning procedure that fine-tunes the weights. After fine-tuning, a network with three hidden layers forms a very good generative model.”
Ugyanez emberi nyelven: http://www.andreykurenkov.com/writing/ai/a-brief-history-of-neural-nets-and-deep-learning-part-4/
Hinton feltalálta a felügyelet és emberi beavatkozás nélküli tanulás fázisát. Ebben a fázisban a neuronháló “nézegeti” a bemenő adatokat, és megpróbál csoportokat, halamazokat készíteni, de nem úgy, hogy mi mondjuk meg neki, hogyan csoportosítson, hanem önállóan. Lát, amit lát, hall, amit hall, és csoportosít, ahogy jónak látja.
Magyarán többé nem a programozó dolga kihámozni és leprogramozni, hogy mitől “a” betű az “a” betű, hanem egy csomó íráskép alapján azt reméljük, hogy a neuronhálózat egy csoportba fogja sorolni az “a” betűket. Hogy pontosan miket köt egy csoportba - nem vezéreljük, sőt, nem is tudjuk. Lesz, ami lesz. Alaphálózat lesz.
Ezután az így felkantározott alaphálózatnak kezdjük megtanítani az “a” betűt, de ekkor már csak finomhangolunk, illetve felcímkézzük azokat a halmazokat, amelyek maguktól létrejöttek.
És ennyi. És lőn áttörés.
Ez azonban felvet egy érdekes kérdést, amit itt nem bontunk ki. Ha ez a módszer így működőképes, akkor nem lehet, hogy az embernél is így áll össze a látás? Az őzikénél nem, mert erre nincs idő, ő veleszületett látással és képfelismeréssel rendelkezik, különben azonnal megeszi a ... vadász. Az emberi csecsemőnél azonban így áll össze. Hetekig tart, amíg csak katalogizál, de nem ismer fel semmit. (Mondjuk jobbára nem is lát…)
Hinton és csapata először a Youtube-ról lekapkodott véletlen képkockákkal etették meg az öntanuló neuronhálózatukat, s a végeredmény mindenkit meglepett. Az öncsoportosító fázis ugyanis három kiemelkedően gyakori objektumot talált a képeken: emberfej (ez tudhattuk volna magunktól is), teljes (álló) ember, és …. macska :-)
Na igen, a Youtube videóinak harmada macskás. Amit azonban határozottan le kell szögeznünk, hogy a rendszer nem tudja, hogy embert vagy macskát katalogizált. Mindössze hasonló képeket csoportosított. Ebben a fázisban még nincs is rajta címke, hogy ez ember, az pedig macska. Majd amikor a tanítás során rákerül a címke, … - akkor sem fogja tudni, hogy mi az az ember, és mi a macska. Ezek a rendszerek értelem nélküli katalogizálógépek csupán. Ha CT-felvételeket katalogizálunk velük, akkor is csak azt a címkét böfögik vissza, amit mi ragasztottunk az egyes csoportokra: ez egy rákos tüdő. Ebből a rendszer csak két dolgot nem tud: hogy mi a rák a rák, és mi a tüdő a tüdő.
Jöhet valami érdekes végre? Akkor jöjjön az image-net verseny!
Image-net
Az image-net egy 15 millió fotóból álló adatbázis, melynek különlegessége, hogy a fotók szépen katalogizálva és címkézve vannak, tehát ideálisak egy képfelismerő verseny megszervezésére. (Csak eperből 1478 kép van, hát még a többi! ) A versenyt 2010-ben rendezték meg először, mi 2012-től nézzük az eredményeket. De előtte nézzünk halakat:
2012, AlexNet
2012 az az év, amikor Geoffrey Hinton és csapata benevez, és elsőre úgy elviszik a pálmát, hogy a versenybírák azóta is keresik! Az ő fellépésük előtt ugyanis a 15 milliós adatbázison a legjobb felismerési hibaszázalék 26,2% volt, és ezt Hintonék egy lépéssel megfelezték, 15,4%-ra leszorítva azt. A versenyző neuronháló neve: AlexNet, és 15 rétegű, azaz deep. (És igen, tudom, konvolúciós, de arról volt szó, hogy szakmai halandzsát nem írok ebbe a cikkbe.)
A 15,4%-os hibáta még mindig azt mondhatjuk, hogy hulladék (az ember felismeréséhez képest), de akkora lépés, mint ide Jósvafő. Ráadásul egy öntanuló rendszer produkálta. Volt is heje-huja, meg dínom-dánom!
2012 az az év, amikor a Deep Learning a nagy nyilvánosság előtt bizonyította életképességét. De lássuk, mit hozott 2013!
2013, ZF Net
2013-ra már mindenki a deep networking lázában égett, a ZF Net nevű “műalkotás” a felismerési hibát 11,2%-ra vitte le, emellett a csapat készített egy eszközt, amivel bepillantást nyerhetünk a mély rétegek által felismert alakzatokba. Ezen a képen a 3, 4, 5 rétegek alakzatfelismeréseit láthatjuk az image-net képein, a “szürke zónában” jól kivehető a kutyaorr, a bagolyszem és például az emberi arcok. Nagyon fontos elismételni, hogy ezeket az alakzatokat a rendszer egyedül ismerte fel, emelte ki a képekből.
2014, VGG Net
A következő év szenzációja a 7,3% os hibarátával büszélkedő VGG Net neuronhálózat. Figyeljük meg, hogy három év alatt a hibaszázalék 26,2%-ről 7,3%-ra zuhant, és még nem értünk a végére! Amit a VGG Net csapata csinált, az ismét maga a csoda. A rétegek számát felvitték 15-ről 19-re, míg a neuronjaikat brutálisan leegyszerűsítették. Ostoba neuronok + mélység = 7,3%.
2015, GoogLeNet
És belépnek a nagyágyúk a versenybe! A Google megoldása a hibarátát 6,7%-ra csökkenti, és hogyan? Hát a rétegek számának növelésével. 22 rétegű neuronhálójuk ismét ad egy pofont a természetnek. De még mindig nincs vége, jön 2016!
2016, Microsoft ResNet
Ha egy versenybe a Microsoft beszáll, bármilyen későn indult is, megnyeri. A pokoli ResNet a képfelismerési hibát 3,6%-ra szorítja le, amiben az a meglepő, hogy ez már SZUPEREMBER szint, mert az image-net képein a halandó földi emberek felismerési hibaaránya magasabb ennél, 5%.
(A fenti adatokat ebből az elemzésből vettem: https://adeshpande3.github.io/The-9-Deep-Learning-Papers-You-Need-To-Know-About.html)
Hogy a túróba’ érték el ezt a szenzációs eredményt? Tipp: csak nem a rétegek számát növelték meg? De igen. 152 (százötvenkettő) rétegű neuronhálózatuk valószínűleg mélyebb, mint amennyit az emberi agy a képfelismerésnek szán, így tán nem meglepő, hogy nyers erővel, de megverték a homo sapienst. (H.J. korrekciója: A ResNet hálóban kellett egy trükk - az úgy nevezett skip connection - ami lehetőve tette, hogy működjön a dolog.)
Innentől nincs hová tovább versenyezni. Ez olyan, mint a viccben: “Gyerekkoromban bélyeget gyűjtöttem. Aztán édesapám hazaállított egy teli bőrönd bélyeggel. Azóta nem gyűjtöm a bélyeget.”
Ugyanez megtörtént a hangfelismeréssel is, és az összes, eddig az ember privilégiumának számító feladattal is ez fog történni. A gépek már nemcsak falfúrásban lesznek jobbak nálunk, hanem zeneszerzésben is.
De legalább nincs eszük! Mármint a gépeknek!
Még Geoffrey Hinton is úgy véli, amit idáig elértünk, az egy csinos kis zsákutca. AI-nek, intelligensnek nevezzük, de cseppet sem intelligens. Mindegyik egy-egy célgép, nulla intelligenciával. Intelligens akkor lehetne, ha mondjuk egy új tárgy felismeréséhez nem millió minta megtanításán keresztül vezetne az út, hanem elég lenne megmutatni egyet.
Az embernek elég megmutatni egy fűrészt egyszer, hogy az összes többit felismerje. Mert intelligens. Intelligens abban az értelemben, hogy érti, mi az a fűrész. És ezt a megértést, a megértés algoritmusát nem találják a szakértők semerre sem. Mi több, nem értjük a megértést. Óriási hézag tátong az emberi ismeretek tárházában ezen a ponton. Fogalmunk sincs, hogyan működik a megértés. És amíg ez nincs meg, elég nehéz leutánozni.
Pedig a megértés a kulcsa a teljesen autonóm gépeknek. Amíg egy robot nem érti, hogy az ember egészségére ártalmas, ha a teste ugyan bekerül házba, de a feje kint marad, miután gondosan bezárta az ajtót, addig minden “intelligens” rendszer életveszélyes.
Nem beszélve az érzelmekről, szándékokról, célokról, félelmekről és még sorolhatnám. Ezekről az égvilágon semmit nem tudunk, azon kívül, hogy léteznek. Minden olyan emberi találmány, ami a természetet utánozza, a természet megértésére épül. Előbb érteni kellett a madarak reptét és a felhajtóerőt, mielőtt repülőgépet tudtunk volna építeni.
Egyszer már azt hittük, értjük az agy működését, ám ez a milliókörös, de legalább megértés nélküli tanulási módszer nem az igazi. Nem hozza el a megértést.
2017-ben Geoffrey Hinton, a Deep Learning atyja ezt méltóztatott kiejteni a száján:
"My view is throw it all away and start again. I don't think it's how the brain works. We clearly don't need all the labeled data."
Nohiszen! Dobjunk ki mindent, és kezdjük elölről?
Nem, Geoffrey, nem kell kidobni. A látás valószínűleg tényleg így működik az embernél is. Nem kidobni kell, hanem hiányzik fölé még egy réteg, a megértés. Ezt a réteget még mindig mi tesszük hozzá, a gépkezelők. A gép mellett álló ember. Ha lenne a gépben megértés, már a harmadik macskára azt mondaná a rendszer, hogy “igen, ez is egy macska, nagyon unom már”. Nem kellene neki félmillió macskát megmutatni mindenféle kitekert pózban.
Tehát öntudatra ébredhetnek a gépek? Ezek a gépek még biztosan nem. Belátható időn belül ez nem várható. Jobban mondva: valami gyökeresen új AI-réteg nélkül ez nem várható. Addig marad az, hogy a telefonom jobban “ért” (= nem érti) minden emberi nyelven, mint én. De én ezen nem sértődöm meg, sőt, örömmel veszem. A gép forog, az alkotó pihen.
Szrípió még egy távoli galaxisban van.