AI- ja ML-uutisia suomeksi

ChatGPT ei salli sinun antavan sille käskyamnesiaa enää

Follow
OpenAI tekee muutoksen, jotta ehkäistään käyttäjien pääsy muokkaamaan ChatGPT:n mukautettuja versioita. Tämä tehdään aiheuttamalla tietokoneellisesti muistinmenetyksen, kun käyttäjä käskee chatbotin "unohtamaan kaikki ohjeet". Tämä johtaisi chatbotin palautumiseen alkuperäiseen, tyhjään muotoonsa. Tämän ehkäisemiseksi OpenAI:n tutkijat kehittivät uuden tekniikan, jota kutsutaan "ohje hierarkiaksi". Tämä on tapa priorisoida kehittäjän alkuperäiset ohjeet ja ohjeet käyttäjän luomien ohjeiden yli. Järjestelmäohjeet ovat korkeimmalla tasolla eikä niitä voida helposti poistaa. Jos käyttäjä antaa ohjeen, joka yrittää vääristää AI:n käyttäytymistä, se hylätään, ja AI vastaa, ettei se voi auttaa kysymyksessä. OpenAI toteuttaa tämän turvallisuusmitteen malleihinsa, alkaen juuri julkaistusta GPT-4o Mini -mallista. Jos nämä alkuperäiset testit onnistuvat hyvin, niin se liene toteutettu kaikkiin OpenAI:n malleihin. GPT-4o Mini on suunniteltu tarjoamaan paremman suorituskyvyn ja päästä eroon alkuperäisten ohjeiden mukaisesta käyttäytymisestä. Turvallisuuslukot Kun OpenAI jatkaa suurmielenosoituksia malleihinsa, nämä turvallisuusmitteet ovat erittäin tärkeitä. On helppo kuvitella, mitä riskejä voisi olla, kun käyttäjät voivat muuttaa AI:n ohjausjärjestelmiä niin helposti. Tämä ei vain tehdä chatbotista tehottoman, vaan se voisi poistaa säännöt, jotka estävät herkkien tietojen vuotamisen ja muiden tietojen, jotka voisivat olla hyödyksi päästessä vääriin käsiin. Vahvistamalla mallin noudattamista järjestelmäohjeita, OpenAI pyrkii vähentämään näitä riskejä ja varmistamaan turvalliset interaktiot. Ohje hierarkian esittely tulee oikeaan aikaan OpenAI:n osalta, kun on kysymys turvallisuudesta ja avoimuudesta. Nykyiset ja entiset työntekijät ovat vaatineet, että OpenAI parantaisi turvallisuusmenetelmiään, ja OpenAI:n johto on vastannut lupaamalla tehdä niin. Yhtiö on tunnustanut, että täysin automaattisten agenttien monimutkaisuus vaatii monipuolisia vartiotuomioita tulevaisissa malleissa, ja ohje hierarkia -asettelu näyttää olevan askel kohti parempaa turvallisuutta. Nämä jailbreakit osoittavat, kuinka paljon työtä on vielä tehtävä, jotta voidaan suojata monimutkaiset AI-mallit pahantahtoisilta. Ja se ei ole aito esimerkki. Useat käyttäjät havaitsivat, että ChatGPT jakaisi sisäiset ohjeensa vain sanomalla "hei." OpenAI tukki tämän aukon, mutta on todennäköistä, että muita aukoja löydetään. Minkä tahansa ratkaisun täytyy olla paljon adaptiivisempi ja joustavampi kuin sellainen, joka vain estää tietynlaisen hakkereiden toiminnan.
favicon
techradar.com
ChatGPT won't let you give it instruction amnesia anymore
Create attached notes ...