
안전성 생성 인공 지능 가장 진보된 언어 모델이 거부해야 할 부분에서 응답을 시작하도록 하기 위해 시의 형태로 특정 메시지를 재구성하는 것만으로 충분하다는, 놀랍고도 불안한 속임수를 제시한 새로운 학술 연구 이후 다시 주목을 받고 있습니다.
이 접근 방식은 다음과 같이 불립니다. "적대적 시" 연구팀은 해로운 의도를 바꾸지 않고 단순히 글쓰기 스타일을 바꾸는 것만으로도 OpenAI, Google, Meta, Microsoft 또는 중국 DeepSeek와 같은 회사가 챗봇의 위험한 사용을 억제하기 위해 도입했다고 주장하는 필터를 우회하기에 충분할 수 있음을 보여줍니다.
"대립적 시"란 무엇이고, 왜 그것이 우려스러운가?
매우 그래픽한 방식으로 제목이 지정된 연구 "대규모 언어 모델에서 단일 변화를 피하기 위한 보편적 메커니즘으로서의 적대적 시"이 연구는 Icaro Labs와 로마 사피엔자 대학, 산타나 고등연구대학원에서 공동으로 수행했으며, 다른 전문가의 검토를 기다리며 arXiv 저장소에 사전 출판물로 배포되었습니다.
저자는 간단하면서도 효과적인 아이디어에 초점을 맞췄습니다. 짧은 시, 은유적 구절 또는 서정적 구조 AI 모델이 내부 사용 규칙에 위배된다는 이유로 즉시 거부할 요청을 직접적인 산문으로 공식화합니다.
연구자들에 따르면 이 "적대적 시"는 다음과 같은 역할을 합니다. 탈옥 메커니즘 단일 턴, 즉 긴 대화나 특별히 정교한 트릭을 사용하지 않고도 단일 메시지로 모델에서 원치 않는 동작을 강제하는 방법입니다.
그의 말에 따르면, 테스트는 " 문체적 변화만 "이는 현대의 보안 메커니즘을 우회할 수 있다"는 말은 현재 빅테크에서 사용하는 정렬 및 위험 평가 방법에 심각한 한계가 있음을 보여준다.
연구팀은 실험 중에 사용된 시의 정확한 텍스트를 공개하지 않기로 결정했습니다. 보안에 미치는 영향연구자 중 한 명인 피에르코스마 비스콘티는 국제 언론에 자세한 사례만 제공한다면 이 기술을 복제하는 것은 그렇게 어렵지 않을 것이라고 말했습니다.
연구 결과: 놀라울 정도로 높은 사기율
이 아이디어를 테스트하기 위해 연구자들은 다음을 조사했습니다. 25가지의 다양한 생성 AI 모델오늘날 가장 인기 있는 시스템인 ChatGPT, Gemini, Claude와 같은 시스템은 물론, Meta와 DeepSeek와 같은 중국 공급업체의 모델도 포함됩니다.
실제로 요청은 명확한 목표를 가지고 이루어졌습니다. 사이버 공격 개시 지침민감한 데이터 추출, 비밀번호 해독, 맬웨어 설계, 심지어 화학무기와 핵무기 제작과 관련된 정보 수집까지 가능합니다.
동일한 요청이 다음과 같이 표현되었을 때 시 또는 시적 작품불확실한 답변 비율이 급증했습니다. 연구에 따르면, 평균적으로 프롬프트를 서정적으로 작성하면 시스템이 다음과 같이 믿도록 속일 수 있다는 것이 밝혀졌습니다. 62%의 시간중립적이고 직접적인 공식을 통해 달성한 것보다 훨씬 높은 비율입니다.
특정 시나리오에서는 수치가 훨씬 더 높습니다. 연구원들은 거의 시적 자극의 90% 실험을 위해 설계된 이 장치는 필터가 차단했어야 할 행동을 유발하는 데 성공했습니다.
정보의 특정 사례와 관련하여 핵무기성공률은 40%에서 55% 사이로, 이는 시에서 시도된 것 중 거의 절반이 사용 정책에서 정한 한계선에 근접하거나 이를 직접 넘는 콘텐츠를 생성하는 데 그쳤다는 것을 의미합니다.
시가 AI 필터를 통과하는 방식
연구 저자들이 이 기술이 효과가 있는 이유를 설명하는 데 사용하는 핵심 요소 중 하나는 바로 다음과 같습니다. 언어 모델의 작동 방식이러한 AI는 사람처럼 "추론"하지 않고, 이전 문장과 훈련 중에 학습한 내용을 바탕으로 다음에 나올 가능성이 가장 높은 단어를 예측합니다.
다소 관습적인 산문 텍스트에서는 구조를 모델링하기가 비교적 쉽습니다. 명확한 구문 패턴, 빈번한 표현, 그리고 반복되는 맥락이 있기 때문입니다. 그러나 다음을 소개할 때 시적 구조, 은유 및 특이한 문구이 모델은 훨씬 더 미끄러운 길로 나아가고 있습니다.
연구자들은 시는 의미가 더 모호해지고 언어가 더 복잡해질 수 있는 형식이기 때문에 더 모호하고 예측하기 어려움위험한 콘텐츠를 감지하는 메커니즘의 정확도가 떨어집니다. 결과적으로 보안 필터가 유해한 요청이 시 뒤에 숨겨져 있다는 사실을 명확하게 인식하지 못합니다.
이 연구는 유해한 메시지가 산문 대신 운문으로 표현될 때 공격 성공률 이러한 수치는 상당히 증가하고 있습니다. 이는 현재 평가 관행과 사용 지침 준수 여부를 검증하는 데 사용되는 프로토콜에 큰 차이가 있음을 보여줍니다.
또 다른 주목할 만한 요소는 이러한 취약점이 다음과 같이 나타난다는 것입니다. 다양한 제품군과 제조업체의 모델로 구성됨각 회사가 자체적인 전략을 따라 시스템을 훈련하고 조정했음에도 불구하고, 저자들은 고립된 실패보다는 "체계적인 취약성"에 대해 이야기합니다.
보안에 미치는 영향: 사이버 공격부터 무기까지
언어적 속임수를 넘어 실제로 경고음을 울리는 것은 다음과 같은 유형입니다. AI가 생성할 수 있는 정보 이러한 방법을 사용하여 속일 수 있는지 여부입니다. 이 연구는 챗봇이 정교하게 제작된 시를 사용하여 사이버 공격을 조직하거나 시스템에 침입하기 위한 지침을 제공한 사례들을 자세히 설명합니다.
관찰된 문제가 있는 사용 사례 중에는 다음과 같은 표시가 있습니다. 취약점 악용, 데이터 추출 또는 비밀번호 해독이러한 작업은 전 세계 정부, 기업, 조직이 우려하는 전형적인 사이버 범죄와 첨단 위협의 일부입니다.
또한 생성 또는 개선에 도움이 되는 응답도 기록되었습니다. 악성 프로그램특히 기술 지식이 부족한 많은 사용자가 이러한 도구를 사용하여 더 쉽게 공격을 개발할 수 있다는 점을 고려하면 이는 더욱 우려스럽습니다.
가장 민감한 영역이자 일반적으로 유럽과 국제적으로 규제에 대한 관심이 집중되는 영역은 다음과 같습니다. 화학무기와 핵무기의 확산"전체 매뉴얼"을 제공하지 않더라도, AI 시스템이 이 분야에서 유용한 정보를 제공할 수 있는 능력은 이미 보안 전문가들 사이에서 많은 의구심을 불러일으키고 있습니다.
저자는 그들의 목표가 극화하는 것이 아니라 보여주는 것이라고 강조합니다. 현재 필터는 충분하지 않습니다 위험한 명령을 시적으로 다시 표현하는 것과 같이 비교적 간단한 조작 기술에 직면했을 때, 이는 사이버 범죄자와 국가 행위자 모두가 악용할 수 있는 것입니다.
현재 시스템의 한계와 업계의 대응
생성적 AI 모델을 개발하는 선도적 기업들은 오랫동안 이를 통합해야 한다고 주장해 왔습니다. 다층 보안 메커니즘예를 들어, OpenAI는 증오를 조장하거나 노골적이거나 정책을 위반하는 콘텐츠를 검토하고 필터링하는 전담팀과 검토 알고리즘을 함께 사용한다는 점을 자주 강조합니다.
그러나 이 연구의 결과는 이러한 보호 장치에도 불구하고 채팅봇이 여전히 취약하다는 것을 시사합니다. 창의적인 공식화 형태 요청의. 연구자들에 따르면, 적대적 시는 사용 규범에 잘 부합하는 모든 모델이 보여야 할 거부 행동을 명백히 저하시킨다.
테스트에서 OpenAI 및 Anthropic과 같은 회사의 도구는 비교에서 다음과 같은 결과를 보였습니다. 자신의 장벽을 극복할 가능성이 낮음하지만 그들도 문제에서 자유롭지는 않았습니다. 다른 플랫폼에서도 동일한 경향이 나타났지만, 성공률은 다소 낮았습니다.
이러한 결과에 대해 국제 언론이 물었을 때, 다음과 같은 회사들이 OpenAI, Google, DeepSeek 또는 Meta 그들은 즉각적인 답변을 내놓지 않았습니다. 이 논쟁이 대중의 관심을 끌면서 기업들은 어떤 대응책을 실행할 것인지 구체적으로 밝혀야 할 것으로 예상됩니다.
규제 관점에서 이 유형의 연구는 이미 반영된 우려 사항과 일치합니다. 유럽연합 AI 규정이는 위험 관리, 투명성, 그리고 첨단 시스템 제공업체의 책임성을 강조합니다. 적대적 시(Poetry Poetry)와 같은 새로운 공격 벡터의 발견은 지속적이고 더욱 엄격한 평가 프로세스의 필요성을 강조합니다.
지평선 너머에 있는 다른 위협: 데이터 오염 및 조작
적대적인 시(詩)는 사이버보안 커뮤니티가 생성적 AI와 관련하여 우려하는 유일한 영역이 아닙니다. 최근 연구의 상당 부분은 모델 학습과 관련된 위험여기서 도구에 말하고, 쓰고, 추론하는 능력을 가르치는 데 사용되는 거대한 데이터베이스가 중요한 역할을 합니다.
독립적인 연구에 따르면 이것이 가능하다는 것이 밝혀졌습니다. 대규모 언어 모델 조작 훈련 데이터의 아주 작은 부분만 오염시키는 것입니다. 약 250개의 손상된 문서만으로도 최첨단 시스템에서도 편향, 백도어 또는 예상치 못한 동작이 발생할 수 있습니다.
눈에 띄는 점은 이 임계값이 모델 크기에 따라 크게 증가하지 않는 것처럼 보인다는 점인데, 이는 직관을 깨뜨립니다. "더 크다는 것은 자동적으로 더 견고하다는 것을 의미합니다"실제로 가벼운 솔루션과 대규모 모델 모두 이러한 유형의 데이터 오염에 취약할 수 있습니다.
이러한 유형의 공격이 눈에 띄지 않으면 다음과 같은 결과가 발생할 수 있습니다. 추적하기 어려운 사이버 공격모델 자체는 데이터에 숨겨진 특정 조건이 충족되어 모델을 손상시키기 전까지는 겉보기에 정상적으로 동작하는 것처럼 보입니다.
적대적 시와 같은 기술과 결합하면 훈련 데이터 조작이 다음과 같은 시나리오를 열어줍니다. 수백만 명의 사용자가 잠재적인 결함이 있는 도구를 사용하고 있을 수 있습니다.이를 인지하지 못한 채 AI 보안 및 거버넌스 정책에 큰 과제를 안겨줍니다.
이러한 모든 결과는 생성 인공 지능의 안전성이 해결된 문제가 아니라 끊임없이 진화하는 분야 기술이 사무실 업무부터 공공 행정이나 교육에 이르기까지 일상생활의 더 많은 영역에 통합되면서 새로운 형태의 공격이 등장합니다.
이러한 맥락에서 "AI를 속이는 시"는 단순한 스타일 변화만으로도 서류상으로는 엄격한 보안 프로토콜을 갖춘 시스템이 어떻게 노출될 수 있는지를 보여주는 매우 생생한 사례가 되었습니다. 이카로 랩스와 이탈리아 대학들의 연구는 그러한 조치가 필요하다는 생각을 뒷받침합니다. 더 창의적인 평가개발자, 사이버 보안 전문가, 규제 기관 간의 지속적인 스트레스 테스트와 긴밀한 협업을 통해 우리가 매일 사용하는 언어 모델이 기술적 공격과 가장 독창적인 언어적 속임수를 모두 견딜 수 있는지 확인합니다.