Szakmai blog

A ChatGPT-vel összefüggő adatvédelmi aggályok - Könnyen hozzáférhetnek az adatainkhoz?

2024-01-05 | Adatvédelem, Data Protection, IT jog, IT Law

A ChatGPT-vel összefüggő adatvédelmi aggályok - Könnyen hozzáférhetnek az adatainkhoz?

Mi az a beágyazás?

A ChatGPT-hez hasonló AI modellek középpontjában a beágyazások állnak, és az elmúlt években a mesterséges intelligencia területén elért szinte minden előrelépés ezekre az elemekre vezethető vissza.

Amikor nem számszerű adatokkal dolgoztak, a mesterséges intelligencia kutatói évtizedekig megoldhatatlan problémával találták szemben magukat. A klasszikus számítógépek - a mai napig - csak az "1-eseket" és a "0-sokat" értik, a betűket vagy a hanghullámokat nem. Erre találtak ki megoldásnak a kódolást, amikor a szavakat numerikus formában fejezzük ki.

Ezzel a technikával a számítógép tudott azonosítani fogalmakat, de az azok közötti relációkat, hogy mennyire hasonlítanak egymásra vagy különböznek egymástól, nem látta át. A megoldás 2013-ban született meg, amikor a Google kiadta a word2vec nevű neurális hálózatot, amely képes volt ezt az átalakítást elvégezni: bemenetként egy szót vett, és annak vektoros reprezentációját, azaz beágyazását adta vissza. A legfontosabb fejlesztés az volt, hogy ezek a transzformációk nem véletlenszerűek, ami azt jelenti, hogy a szemantikailag összefüggő vektorokat kombinálva új vektorokat hozhatunk létre, amelyek logikai kombinációkat képviselnek. Ez vezetett a ma már híres "Király - Férfi + Nő = Királynő" paradigmához, ami azt jelentette, hogy megtanítottuk a gépeknek a szöveget körülvevő kontextus értelmezését.

Hogyan vonatkozik ez a ChatGPT-re?

A ChatGPT a hasonlóság vagy rokonság lencséjén keresztül vizsgálja a bevitt szöveget, és így látja át a világunkban jelen lévő tárgyak, alakok vagy történetek közötti összefüggéseket. A ChatGPT számára két elem szemantikailag akkor kapcsolódik egymáshoz, ha a vektoraik hasonlóak. Valójában ez a hasonlósági elv alapozza meg az önmegfigyelés működését, azt a mechanizmust, amelyet a ChatGPT és más Transformer-alapú modellek arra használnak, hogy kiszámítsák a szavak közötti kapcsolatokat egy szövegsorozatban, és így megragadják a mondat szemantikai jelentését.

A Transformersek működésének két fázisa van:

  • A képzési fázis, amikor egy bizonyos időpontig hatalmas mennyiségű szöveget halmozunk fel, és ezzel képezzük a modellt.
  • A következtetési fázis, ahol a modell új előrejelzéseket készít a képzési fázisban tanultak alapján.

A vállalati megoldások kialakításakor azonban a szükséges adatok nem érhetők el az interneten, hiszen azok bizalmasak. Ezért ahhoz, hogy elérhetővé tegyük azokat a modell számára, vektoros adatbázisokat használunk. (Egy olyan adatbázis, amelyben az adatokat vektoros formában tároljuk.)

Retrieval Augmented Generation

A vektoros adatbázis használatával történő kommunikációnak a folyamata a következő:

  • A felhasználó elküld egy kérdést.
  • A kérdés beágyazottá alakul, és beillesztésre kerül a vektoradatbázisba.
  • Vektorhasonlóság-számítással kivonjuk azokat a k vektorokat, amelyek a kérdés beágyazásához hasonlóak, és szemantikailag rokonok.
  • Ezek a vektorok az eredeti szöveget tárolják a metaadatokban, így ismerjük a kérdés megválaszolásához szemantikailag releváns kontextusdarabokat.
  • A nyelvi modell ezt a kontextust használja fel a kérdés megválaszolásához.

Ezt az eljárást Retrieval Augmented Generationnek, azaz RAG-nek nevezik, és ez a GenAI-megoldások szabványos architektúráját olyan vállalatoknál, amelyek nem tudnak olyan saját modelleket, mint a ChatGPT, bizalmas adatokkal betanítani.

Ez az architektúra mindenütt elterjedt, a világon mindenhol alkalmazott legjobb gyakorlat, mivel rendkívül biztonságos és rendkívül hatékony a nagy nyelvi modellek vállalati felhasználási esetekben történő telepítése során. Most azonban ennek az architektúrának a biztonságossága kérdőjelessé vált.

Adatbiztonsági probléma

Eddig úgy tudtuk, hogy a beágyazódási folyamat visszafordíthatatlan, de most ez az elképzelés megkérdőjeleződött.

A vektoros adatbázisok esetében az adatokat vektoros formában tároljuk. Ezért, ha a hackereknek sikerül hozzáférniük az adatbázisához, akkor vektoros formában lévő adatokkal kell foglalkozniuk, melyek visszafordítása eddig mondhatni lehetetlen volt.

Ennek a problémának a „kiküszöbölésére” hozták létre a Vec2Textet, az első olyan neurális hálózatot, amely sikeresen visszanyerte az eredeti szöveget a beágyazásokból, megnyitva ezzel az utat a hackerek előtt, hogy megtámadják ezeket az adatbázisokat, amelyek ma már alapvető darabjai a vállalatok adatpuzzle-jének.

Gyakorlatilag, ha olyan szöveghez jutunk, amelynek beágyazása megegyezik azzal, amelyet éppen dekódolni próbálunk, akkor könnyedén megszerezhető az eredeti szöveg. Ez probléma, tekintve, hogy a legtöbb cég ugyanazt a beágyazást használja (OpenAI adatbeágyazása).

  • A modell először kitalál egy első feltételezett szöveget, és kiszámítja annak beágyazását.
  • Ezután kiszámítja a szemantikai hasonlóságot a dekódolni kívánt beágyazás tekintetében.
  • A két vektoros beágyazás közötti különbség megmondja a modellnek, hogy milyen messze vagy közel van az eredeti szövegtől.
  • A képzési fázisban ezt a különbséget a neurális hálózat optimalizálásához használjuk, hogy megtanulja azt csökkenteni.
  • A következtetési fázisban ez a különbség segít a modellnek korrigálni az első hipotézisét, és egy új lehetséges megoldást kap egy algoritmus segítségével, amely algoritmus segít a modellnek a lehetőségek között keresni, miközben csak a legvalószínűbb lehetőségekre összpontosít.
  • A Vec2Text kiszámítja az új szöveget ebből a beágyazásból.
  • Ennek az új szövegnek a beágyazása kiszámításra kerül és összeméri az objektív szöveggel, az eredmény pedig remélhetőleg a helyes vagy legalábbis az előzőhöz közelebb álló beágyazás lesz.

Ha ezt a hatlépéses folyamatot elégszer elvégezzük, akkor végül az eredeti szöveget kapjuk, megtörve a visszafordíthatatlanság elvét.

Ezzel a forgatókönyvvel a mesterséges intelligencia úgy tűnik, megtöri a visszafordíthatatlannak hitt beágyazás rendszerét, veszélyeztetve ezzel a világ legbizalmasabb adatait is.

Amennyiben az adatkezeleléssel, illetve a mesterséges intelligencia fejlődésének jogi aspektusaival kapcsolatban kérdése merülne fel, forduljon bizalommal szakértő  kollégáinkhoz!

Szoftvertesztelés fontossága

2024-02-01
Szoftvertesztelés fontossága

A szoftvertesztelés szinte elengedhetetlen része a szoftverfejlesztésnek és létfontosságú alkotóeleme a szoftver megbízhatóságának és az erőforrások optimalizálásának. Hogyan érdemes lefolytatni, és a fejlesztés melyik részén célszerű bevonni a tesztelés faktorát?

Cikkünkben ezekre a kérdésekre keressük a választ.

Bővebben

NIS2 irányelv a gyakorlatban

2024-01-30
NIS2 irányelv a gyakorlatban

Az adathalász támadások egyre gyakoribbá váltak a digitalizáció rohamszerű fejlődésével. Az EU tagállamoknak 2024. október 17-ig kell átültetniük az új kibervédelmi irányelvet a saját jogrendszerükbe. Az érintett ágazatokon belül, néhány kivétellel minden közepes- és nagyvállalatnak meg kell felelnie a szabályozásnak. Cikkünkben a NIS2 irányelvvel kapcsolatos legfontosabb tudnivalókat szedtük össze!

Bővebben

A ChatGPT-vel összefüggő adatvédelmi aggályok - Könnyen hozzáférhetnek az adatainkhoz?

2024-01-05
A ChatGPT-vel összefüggő adatvédelmi aggályok - Könnyen hozzáférhetnek az adatainkhoz?

Az utóbbi időben a vállalatok világszerte generatív mesterséges intelligencia (GenAI) megoldásokat vezettek be, adataik hatékony és egyszerű kezelése és átláthatósága érdekében. Mivel a legtöbb esetben a GenAI-modellnek "hosszú távú memóriával" kell rendelkeznie, szinte minden vállalati megoldáshoz szükség van egy vektoradatbázisra, amelyet a modell futásidőben lekérdezhet a felhasználói kérdés megválaszolásához szükséges kontextus eléréséhez.

Azonban az eddig rendkívül biztonságosnak hitt megoldás egy olyan kellemetlen igazságot rejt, amely hatalmas adatvédelmi aggályokat vethet fel.

Bővebben

Állunk rendelkezésére az információs technológiával kapcsolatos jogi kérdések tekintetében!

Kapcsolat