Szakmai blog

A ChatGPT-vel összefüggő adatvédelmi aggályok - Könnyen hozzáférhetnek az adatainkhoz?

2024-01-05 | Adatvédelem, Data Protection, IT jog, IT Law

A ChatGPT-vel összefüggő adatvédelmi aggályok - Könnyen hozzáférhetnek az adatainkhoz?

Mi az a beágyazás?

A ChatGPT-hez hasonló AI modellek középpontjában a beágyazások állnak, és az elmúlt években a mesterséges intelligencia területén elért szinte minden előrelépés ezekre az elemekre vezethető vissza.

Amikor nem számszerű adatokkal dolgoztak, a mesterséges intelligencia kutatói évtizedekig megoldhatatlan problémával találták szemben magukat. A klasszikus számítógépek - a mai napig - csak az "1-eseket" és a "0-sokat" értik, a betűket vagy a hanghullámokat nem. Erre találtak ki megoldásnak a kódolást, amikor a szavakat numerikus formában fejezzük ki.

Ezzel a technikával a számítógép tudott azonosítani fogalmakat, de az azok közötti relációkat, hogy mennyire hasonlítanak egymásra vagy különböznek egymástól, nem látta át. A megoldás 2013-ban született meg, amikor a Google kiadta a word2vec nevű neurális hálózatot, amely képes volt ezt az átalakítást elvégezni: bemenetként egy szót vett, és annak vektoros reprezentációját, azaz beágyazását adta vissza. A legfontosabb fejlesztés az volt, hogy ezek a transzformációk nem véletlenszerűek, ami azt jelenti, hogy a szemantikailag összefüggő vektorokat kombinálva új vektorokat hozhatunk létre, amelyek logikai kombinációkat képviselnek. Ez vezetett a ma már híres "Király - Férfi + Nő = Királynő" paradigmához, ami azt jelentette, hogy megtanítottuk a gépeknek a szöveget körülvevő kontextus értelmezését.

Hogyan vonatkozik ez a ChatGPT-re?

A ChatGPT a hasonlóság vagy rokonság lencséjén keresztül vizsgálja a bevitt szöveget, és így látja át a világunkban jelen lévő tárgyak, alakok vagy történetek közötti összefüggéseket. A ChatGPT számára két elem szemantikailag akkor kapcsolódik egymáshoz, ha a vektoraik hasonlóak. Valójában ez a hasonlósági elv alapozza meg az önmegfigyelés működését, azt a mechanizmust, amelyet a ChatGPT és más Transformer-alapú modellek arra használnak, hogy kiszámítsák a szavak közötti kapcsolatokat egy szövegsorozatban, és így megragadják a mondat szemantikai jelentését.

A Transformersek működésének két fázisa van:

  • A képzési fázis, amikor egy bizonyos időpontig hatalmas mennyiségű szöveget halmozunk fel, és ezzel képezzük a modellt.
  • A következtetési fázis, ahol a modell új előrejelzéseket készít a képzési fázisban tanultak alapján.

A vállalati megoldások kialakításakor azonban a szükséges adatok nem érhetők el az interneten, hiszen azok bizalmasak. Ezért ahhoz, hogy elérhetővé tegyük azokat a modell számára, vektoros adatbázisokat használunk. (Egy olyan adatbázis, amelyben az adatokat vektoros formában tároljuk.)

Retrieval Augmented Generation

A vektoros adatbázis használatával történő kommunikációnak a folyamata a következő:

  • A felhasználó elküld egy kérdést.
  • A kérdés beágyazottá alakul, és beillesztésre kerül a vektoradatbázisba.
  • Vektorhasonlóság-számítással kivonjuk azokat a k vektorokat, amelyek a kérdés beágyazásához hasonlóak, és szemantikailag rokonok.
  • Ezek a vektorok az eredeti szöveget tárolják a metaadatokban, így ismerjük a kérdés megválaszolásához szemantikailag releváns kontextusdarabokat.
  • A nyelvi modell ezt a kontextust használja fel a kérdés megválaszolásához.

Ezt az eljárást Retrieval Augmented Generationnek, azaz RAG-nek nevezik, és ez a GenAI-megoldások szabványos architektúráját olyan vállalatoknál, amelyek nem tudnak olyan saját modelleket, mint a ChatGPT, bizalmas adatokkal betanítani.

Ez az architektúra mindenütt elterjedt, a világon mindenhol alkalmazott legjobb gyakorlat, mivel rendkívül biztonságos és rendkívül hatékony a nagy nyelvi modellek vállalati felhasználási esetekben történő telepítése során. Most azonban ennek az architektúrának a biztonságossága kérdőjelessé vált.

Adatbiztonsági probléma

Eddig úgy tudtuk, hogy a beágyazódási folyamat visszafordíthatatlan, de most ez az elképzelés megkérdőjeleződött.

A vektoros adatbázisok esetében az adatokat vektoros formában tároljuk. Ezért, ha a hackereknek sikerül hozzáférniük az adatbázisához, akkor vektoros formában lévő adatokkal kell foglalkozniuk, melyek visszafordítása eddig mondhatni lehetetlen volt.

Ennek a problémának a „kiküszöbölésére” hozták létre a Vec2Textet, az első olyan neurális hálózatot, amely sikeresen visszanyerte az eredeti szöveget a beágyazásokból, megnyitva ezzel az utat a hackerek előtt, hogy megtámadják ezeket az adatbázisokat, amelyek ma már alapvető darabjai a vállalatok adatpuzzle-jének.

Gyakorlatilag, ha olyan szöveghez jutunk, amelynek beágyazása megegyezik azzal, amelyet éppen dekódolni próbálunk, akkor könnyedén megszerezhető az eredeti szöveg. Ez probléma, tekintve, hogy a legtöbb cég ugyanazt a beágyazást használja (OpenAI adatbeágyazása).

  • A modell először kitalál egy első feltételezett szöveget, és kiszámítja annak beágyazását.
  • Ezután kiszámítja a szemantikai hasonlóságot a dekódolni kívánt beágyazás tekintetében.
  • A két vektoros beágyazás közötti különbség megmondja a modellnek, hogy milyen messze vagy közel van az eredeti szövegtől.
  • A képzési fázisban ezt a különbséget a neurális hálózat optimalizálásához használjuk, hogy megtanulja azt csökkenteni.
  • A következtetési fázisban ez a különbség segít a modellnek korrigálni az első hipotézisét, és egy új lehetséges megoldást kap egy algoritmus segítségével, amely algoritmus segít a modellnek a lehetőségek között keresni, miközben csak a legvalószínűbb lehetőségekre összpontosít.
  • A Vec2Text kiszámítja az új szöveget ebből a beágyazásból.
  • Ennek az új szövegnek a beágyazása kiszámításra kerül és összeméri az objektív szöveggel, az eredmény pedig remélhetőleg a helyes vagy legalábbis az előzőhöz közelebb álló beágyazás lesz.

Ha ezt a hatlépéses folyamatot elégszer elvégezzük, akkor végül az eredeti szöveget kapjuk, megtörve a visszafordíthatatlanság elvét.

Ezzel a forgatókönyvvel a mesterséges intelligencia úgy tűnik, megtöri a visszafordíthatatlannak hitt beágyazás rendszerét, veszélyeztetve ezzel a világ legbizalmasabb adatait is.

Amennyiben az adatkezeleléssel, illetve a mesterséges intelligencia fejlődésének jogi aspektusaival kapcsolatban kérdése merülne fel, forduljon bizalommal szakértő  kollégáinkhoz!

Megkezdte működését az Online Platform Vitarendező Tanács

2024-09-10
Megkezdte működését az Online Platform Vitarendező Tanács

Az Online Platform Vitarendező Tanács (OPVT) augusztus 29-én kezdte meg működését, miután a Digitális Szolgáltatási Koordinátor elvégezte a testület tanúsítását. Cikkünkben röviden bemutatjuk az OPVT hátterét, lényegét és eljárását.

Bővebben

A kriptók új korszaka – hatályba lép a kriptovaluták piacáról szóló törvény

2024-05-14
A kriptók új korszaka – hatályba lép a kriptovaluták piacáról szóló törvény

2024. június 30-án hatályba lép az első kimondottan a kriptovaluták piacát szabályozó törvény a kriptoeszközök piacáról szóló 2024. évi VII. törvény. A szabályozás szükségességét a kriptovaluta egyre nagyobb térnyerése és az uniós előírások hívták életre. Bár néhány évvel ezelőtt még csak néhány ismerték a kriptovaluta fogalmát, mára elmondhatjuk, hogy a gazdaság egy nagyon meghatározó részét képezik a különböző kriptoeszközök. Cikkünkben a jogszabály legfontosabb rendelkezéseit foglaljuk össze.

Bővebben

Szoftvertesztelés fontossága

2024-02-01
Szoftvertesztelés fontossága

A szoftvertesztelés szinte elengedhetetlen része a szoftverfejlesztésnek és létfontosságú alkotóeleme a szoftver megbízhatóságának és az erőforrások optimalizálásának. Hogyan érdemes lefolytatni, és a fejlesztés melyik részén célszerű bevonni a tesztelés faktorát?

Cikkünkben ezekre a kérdésekre keressük a választ.

Bővebben

Állunk rendelkezésére az információs technológiával kapcsolatos jogi kérdések tekintetében!

Kapcsolat