Szakmai blog

A ChatGPT-vel összefüggő adatvédelmi aggályok - Könnyen hozzáférhetnek az adatainkhoz?

2024-01-05 | Adatvédelem, Data Protection, IT jog, IT Law

A ChatGPT-vel összefüggő adatvédelmi aggályok - Könnyen hozzáférhetnek az adatainkhoz?

Mi az a beágyazás?

A ChatGPT-hez hasonló AI modellek középpontjában a beágyazások állnak, és az elmúlt években a mesterséges intelligencia területén elért szinte minden előrelépés ezekre az elemekre vezethető vissza.

Amikor nem számszerű adatokkal dolgoztak, a mesterséges intelligencia kutatói évtizedekig megoldhatatlan problémával találták szemben magukat. A klasszikus számítógépek - a mai napig - csak az "1-eseket" és a "0-sokat" értik, a betűket vagy a hanghullámokat nem. Erre találtak ki megoldásnak a kódolást, amikor a szavakat numerikus formában fejezzük ki.

Ezzel a technikával a számítógép tudott azonosítani fogalmakat, de az azok közötti relációkat, hogy mennyire hasonlítanak egymásra vagy különböznek egymástól, nem látta át. A megoldás 2013-ban született meg, amikor a Google kiadta a word2vec nevű neurális hálózatot, amely képes volt ezt az átalakítást elvégezni: bemenetként egy szót vett, és annak vektoros reprezentációját, azaz beágyazását adta vissza. A legfontosabb fejlesztés az volt, hogy ezek a transzformációk nem véletlenszerűek, ami azt jelenti, hogy a szemantikailag összefüggő vektorokat kombinálva új vektorokat hozhatunk létre, amelyek logikai kombinációkat képviselnek. Ez vezetett a ma már híres "Király - Férfi + Nő = Királynő" paradigmához, ami azt jelentette, hogy megtanítottuk a gépeknek a szöveget körülvevő kontextus értelmezését.

Hogyan vonatkozik ez a ChatGPT-re?

A ChatGPT a hasonlóság vagy rokonság lencséjén keresztül vizsgálja a bevitt szöveget, és így látja át a világunkban jelen lévő tárgyak, alakok vagy történetek közötti összefüggéseket. A ChatGPT számára két elem szemantikailag akkor kapcsolódik egymáshoz, ha a vektoraik hasonlóak. Valójában ez a hasonlósági elv alapozza meg az önmegfigyelés működését, azt a mechanizmust, amelyet a ChatGPT és más Transformer-alapú modellek arra használnak, hogy kiszámítsák a szavak közötti kapcsolatokat egy szövegsorozatban, és így megragadják a mondat szemantikai jelentését.

A Transformersek működésének két fázisa van:

  • A képzési fázis, amikor egy bizonyos időpontig hatalmas mennyiségű szöveget halmozunk fel, és ezzel képezzük a modellt.
  • A következtetési fázis, ahol a modell új előrejelzéseket készít a képzési fázisban tanultak alapján.

A vállalati megoldások kialakításakor azonban a szükséges adatok nem érhetők el az interneten, hiszen azok bizalmasak. Ezért ahhoz, hogy elérhetővé tegyük azokat a modell számára, vektoros adatbázisokat használunk. (Egy olyan adatbázis, amelyben az adatokat vektoros formában tároljuk.)

Retrieval Augmented Generation

A vektoros adatbázis használatával történő kommunikációnak a folyamata a következő:

  • A felhasználó elküld egy kérdést.
  • A kérdés beágyazottá alakul, és beillesztésre kerül a vektoradatbázisba.
  • Vektorhasonlóság-számítással kivonjuk azokat a k vektorokat, amelyek a kérdés beágyazásához hasonlóak, és szemantikailag rokonok.
  • Ezek a vektorok az eredeti szöveget tárolják a metaadatokban, így ismerjük a kérdés megválaszolásához szemantikailag releváns kontextusdarabokat.
  • A nyelvi modell ezt a kontextust használja fel a kérdés megválaszolásához.

Ezt az eljárást Retrieval Augmented Generationnek, azaz RAG-nek nevezik, és ez a GenAI-megoldások szabványos architektúráját olyan vállalatoknál, amelyek nem tudnak olyan saját modelleket, mint a ChatGPT, bizalmas adatokkal betanítani.

Ez az architektúra mindenütt elterjedt, a világon mindenhol alkalmazott legjobb gyakorlat, mivel rendkívül biztonságos és rendkívül hatékony a nagy nyelvi modellek vállalati felhasználási esetekben történő telepítése során. Most azonban ennek az architektúrának a biztonságossága kérdőjelessé vált.

Adatbiztonsági probléma

Eddig úgy tudtuk, hogy a beágyazódási folyamat visszafordíthatatlan, de most ez az elképzelés megkérdőjeleződött.

A vektoros adatbázisok esetében az adatokat vektoros formában tároljuk. Ezért, ha a hackereknek sikerül hozzáférniük az adatbázisához, akkor vektoros formában lévő adatokkal kell foglalkozniuk, melyek visszafordítása eddig mondhatni lehetetlen volt.

Ennek a problémának a „kiküszöbölésére” hozták létre a Vec2Textet, az első olyan neurális hálózatot, amely sikeresen visszanyerte az eredeti szöveget a beágyazásokból, megnyitva ezzel az utat a hackerek előtt, hogy megtámadják ezeket az adatbázisokat, amelyek ma már alapvető darabjai a vállalatok adatpuzzle-jének.

Gyakorlatilag, ha olyan szöveghez jutunk, amelynek beágyazása megegyezik azzal, amelyet éppen dekódolni próbálunk, akkor könnyedén megszerezhető az eredeti szöveg. Ez probléma, tekintve, hogy a legtöbb cég ugyanazt a beágyazást használja (OpenAI adatbeágyazása).

  • A modell először kitalál egy első feltételezett szöveget, és kiszámítja annak beágyazását.
  • Ezután kiszámítja a szemantikai hasonlóságot a dekódolni kívánt beágyazás tekintetében.
  • A két vektoros beágyazás közötti különbség megmondja a modellnek, hogy milyen messze vagy közel van az eredeti szövegtől.
  • A képzési fázisban ezt a különbséget a neurális hálózat optimalizálásához használjuk, hogy megtanulja azt csökkenteni.
  • A következtetési fázisban ez a különbség segít a modellnek korrigálni az első hipotézisét, és egy új lehetséges megoldást kap egy algoritmus segítségével, amely algoritmus segít a modellnek a lehetőségek között keresni, miközben csak a legvalószínűbb lehetőségekre összpontosít.
  • A Vec2Text kiszámítja az új szöveget ebből a beágyazásból.
  • Ennek az új szövegnek a beágyazása kiszámításra kerül és összeméri az objektív szöveggel, az eredmény pedig remélhetőleg a helyes vagy legalábbis az előzőhöz közelebb álló beágyazás lesz.

Ha ezt a hatlépéses folyamatot elégszer elvégezzük, akkor végül az eredeti szöveget kapjuk, megtörve a visszafordíthatatlanság elvét.

Ezzel a forgatókönyvvel a mesterséges intelligencia úgy tűnik, megtöri a visszafordíthatatlannak hitt beágyazás rendszerét, veszélyeztetve ezzel a világ legbizalmasabb adatait is.

Amennyiben az adatkezeleléssel, illetve a mesterséges intelligencia fejlődésének jogi aspektusaival kapcsolatban kérdése merülne fel, forduljon bizalommal szakértő  kollégáinkhoz!

Új korszak a szankciós megfelelésben: Az MNB 3/2026. (III.25.) számú ajánlásának elemzése

2026-04-14
Új korszak a szankciós megfelelésben: Az MNB 3/2026. (III.25.) számú ajánlásának elemzése

A globális geopolitikai helyzet eszkalálódása és a digitális pénzügyi megoldások térnyerése kényszerű válaszreakcióra késztette a szabályozó hatóságokat. A Magyar Nemzeti Bank 2026. március 25-én tette közzé legújabb, 3/2026. számú ajánlását, amely mérföldkőnek számít a pénzátutalások és a kriptoeszköz-transzferek szankciós szűrésének területén. Az ajánlás célja, hogy egységes és szigorú keretrendszert biztosítson az uniós és nemzeti korlátozó intézkedések hatékony végrehajtásához. Írásunkban az ajánlás legfontosabb rendelkezéseit mutatjuk be.

Bővebben

Új kiberbiztonsági szabályok 2026-tól

2026-01-09
Új kiberbiztonsági szabályok 2026-tól

A jogalkotó elfogadta a 2025. évi CXXXV. módosító törvényt, amely alapvető változásokat vezet be a magyar kiberbiztonsági szabályozásban. A módosítás célja kettős, egyrészt az uniós kiberreziliencia-rendelet (Cyber Resilience Act, CRA) hazai végrehajtása, másrészt a már hatályban lévő magyar kiberbiztonsági szabályok pontosítása és kiterjesztése. A változások 2026-tól fokozatosan lépnek hatályba, és számos olyan szervezetet érintenek, amelyek eddig nem vagy csak korlátozottan tartoztak kiberbiztonsági kötelezettségek alá.

Bővebben

Új rendelet a nagy kockázatú MI-rendszerek megfelelőségértékeléséről

2026-01-06
Új rendelet a nagy kockázatú MI-rendszerek megfelelőségértékeléséről

A mesterséges intelligenciát érintő uniós szabályozás végrehajtása Magyarországon új szakaszba lépett. A 44/2025. (XII. 23.) NGM rendelet a nagy kockázatú mesterséges intelligencia-rendszerekhez kapcsolódó végrehajtási jogszabály, amely a megfelelőségértékelést végző szervezetek kijelölésével kapcsolatos szabályokat határoz meg.

Bár a rendelet elsődlegesen nem az MI-rendszereket fejlesztő vagy alkalmazó vállalkozásokra vonatkozik, közvetett hatása valamennyi olyan piaci szereplőt érint, amely nagy kockázatú MI-megoldást kíván üzembe helyezni Magyarországon.

Bővebben

Állunk rendelkezésére az információs technológiával kapcsolatos jogi kérdések tekintetében!

Kapcsolat