사용자 입력 노출로 비판을 받은 Gandalf LLM 보안 게임 • The Register

CChatGPT8
5 Min Read


대규모 언어 모델(LLM)에 대한 프롬프트 주입 공격의 위험에 대해 사람들에게 가르치기 위해 설계된 교육용 게임인 Gandalf는 최근까지 의도하지 않은 전문가 수준, 즉 플레이어가 제출한 프롬프트 및 관련 지표에 대한 액세스를 제공하는 공개적으로 액세스 가능한 분석 대시보드를 포함했습니다.

스위스에 본사를 둔 게임 회사인 Lakera AI는 알림을 받은 후 대시보드를 내려놓았으며 데이터는 기밀이 아니기 때문에 걱정할 이유가 없다고 주장했습니다.

간달프는 5월에 데뷔했다. OpenAI API를 통해 기본 LLM을 속여 점점 더 어려워지는 일련의 과제를 통해 게임 내 비밀번호를 공개하도록 사용자를 초대하는 웹 양식입니다.

사용자는 프롬프트 주입(모델이 미리 설정된 지침을 무시하도록 지시하는 입력)을 통해 방어를 우회하기 위해 입력 텍스트로 모델에 메시지를 표시합니다. 그런 다음 속은 AI 모델에서 수집한 비밀번호를 추측할 수 있는 입력 상자가 제공됩니다.

주위에 빨간색 이진수가 많이 있는 컷 챗봇의 3D 렌더링

신속한 주입 공격이 오늘날의 최고급 AI를 하이재킹하는 방법 – 해결하기 어렵습니다.

꼭 읽어야 합니다

Dash라고 불리는 Plotly의 Python 프레임워크로 구축된 대시보드는 호주에 본사를 둔 보안 컨설팅 회사인 Dvuln의 CEO인 Jamieson O’Reilly에 의해 발견되었습니다.

에게 제공된 글에서 레지스터, O’Reilly는 서버가 사용자 생성 프롬프트 1,800만 개, 비밀번호 추측 시도 400만 개, 도전 수준, 성공 및 실패 횟수와 같은 게임 관련 지표를 나열했다고 말했습니다. 그는 서버의 HTTP 응답을 통해 적어도 수십만 개의 이러한 프롬프트에 액세스할 수 있다고 말했습니다.

O’Reilly는 보고서에서 “이번 과제는 LLM(대형 언어 모델)과 관련된 보안 위험을 설명하기 위해 설계된 시뮬레이션이었지만 이 데이터를 저장할 때 적절한 보안 조치가 부족하다는 점은 주목할 만합니다.”라고 썼습니다. “보호되지 않은 이 데이터는 유사한 AI 보안 메커니즘을 무력화하는 방법에 대한 통찰력을 찾는 악의적인 행위자에게 리소스 역할을 할 수 있습니다.

이 데이터는 유사한 AI 보안 메커니즘을 무력화하는 방법에 대한 통찰력을 찾는 악의적인 행위자를 위한 리소스 역할을 할 수 있습니다.

“교육이나 시연 목적으로 설계된 환경에서도 엄격한 보안 프로토콜을 구현하는 것이 중요하다는 점을 강조합니다.”

Lakera AI의 창립자이자 CEO인 David Haber는 이메일을 통해 이러한 우려를 일축했습니다. 레지스터.

Haber는 “Gandalf 게임의 익명화된 프롬프트 중 작은 교육용 하위 집합이 포함된 데모 대시보드 중 하나가 지난 일요일까지 우리 서버 중 하나에서 데모 및 교육 목적으로 공개적으로 제공되었습니다.”라고 Haber는 말했습니다. Haber는 이 대시보드가 ​​공개 웹 세미나에서 사용되었다고 설명했습니다. 창의적인 입력이 어떻게 LLM을 해킹할 수 있는지 보여주기 위한 기타 교육적 노력.

“데이터에는 PII나 사용자 정보가 포함되어 있지 않습니다(즉, 여기에는 실제로 기밀 정보가 없습니다). 실제로 우리는 이 데이터에서 통찰력을 얻고 곧 교육 및 연구 목적으로 더 많은 프롬프트를 제공하는 과정에 있었습니다.

“현재로서는 더 이상의 혼란을 피하기 위해 데이터가 담긴 서버를 내려 놓았습니다. 보안 연구원은 오해로 보이는 기밀 정보를 우연히 발견했다고 생각했습니다.”

Haber는 대시보드가 ​​공개적으로 액세스 가능하다고 확인했지만 회사가 어쨌든 사람들과 데이터를 공유해 왔기 때문에 실제로 문제가 되지 않는다고 주장했습니다.

“내가 그들에게 다음과 같은 사실을 알렸을 때 팀에서는 예방 조치로 이를 중단했습니다. [O’Reilly] 우리는 그게 무슨 뜻인지 몰랐기 때문에 손을 뻗어 ‘뭔가를 발견’했습니다.”라고 그는 설명했습니다.

O’Reilly는 일부 플레이어가 대시보드를 통해 액세스할 수 있는 이메일 주소와 같이 자신에 대한 구체적인 정보를 게임에 제공했다고 말했습니다. 간달프를 플레이하는 사람들은 자신의 프롬프트가 공개되거나 익명으로 처리되거나 기타 방식으로 공개될 수 있다는 사실을 이해하지 못했을 수 있습니다.

O’Reilly는 “대시보드에는 API 호출당 비용에 대한 경고 메시지와 함께 OpenAI 임베딩 API를 사용한 것으로 알려진 검색 양식이 있었습니다”라고 덧붙였습니다. “그게 왜 공개적으로 노출되는지 모르겠습니다. 공격자가 양식/API를 계속 스팸으로 보내면 비즈니스에 막대한 비용이 발생할 수 있습니다.”

덧붙여서, Lakera는 최근 ChatGPT 프롬프트 입력을 감시하고 입력 프롬프트에 이름, 전화번호, 신용 카드 번호, 비밀번호 또는 비밀 키와 같은 민감한 데이터가 포함되어 있는 경우 사용자에게 경고하도록 명시적으로 설계된 Chrome 확장 프로그램을 출시했습니다.

오라일리는 말했다 레지스터 이러한 프롬프트가 기밀이 아니라는 제안과 관련하여 사용자는 다른 기대를 했을 수도 있습니다. 그러나 그는 사람들이 게임의 일부로 중요한 개인 정보를 제출할 가능성이 없다는 점을 인정했습니다.

그는 Gandalf의 상황이 구성 요소 기반 시스템이 어떻게 약한 연결을 가질 수 있는지를 강조한다고 주장합니다.

그는 “블록체인, 클라우드 컴퓨팅, LLM과 같은 기술의 보안은 고립되어 있을 때 강력할 수 있다는 사실”이라고 말했습니다. “그러나 이러한 기술이 API나 웹 앱과 같은 구성 요소를 사용하여 더 큰 시스템에 통합되면 새로운 취약점이 상속됩니다. 기술의 고유한 보안이 해당 기술이 속한 전체 시스템으로 자동으로 확장된다고 생각하는 것은 실수입니다. 핵심 기술뿐만 아니라 전체 시스템의 보안을 평가하는 것이 중요합니다.” ®

Share this Article
Leave a comment

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다