Local LLM Briefing

읽을 가치가 있는 기사만, 짧고 또렷하게.

카테고리 보안 기준으로 보는 중입니다.

Hacker News 수집 2026-04-15T06:06:33.383983+00:00 발행 2026-04-14T17:45:34+00:00 petecooper

OpenSSL 4.0.0

OpenSSL 4.0.0 버전이 출시되었으며, 이는 암호화 기능의 현대화와 보안 강화를 목표로 합니다. 주요 변경 사항으로는 암호화에 대한 새로운 기능(예: 암호화된 클라이언트 헬로(ECH) 지원, 양자 내성 암호(PQC) 알고리즘 지원)이 추가되었으나, SSLv3 및 SSLv2 지원이 완전히 제거되고 많은 레거시 함수와 기능이 제거되어 개발자들이 시스템을 업데이트하고 코드를 조정해야 합니다.
GeekNews 수집 2026-04-15T05:06:08.380469+00:00 발행 2026-04-13T17:32:40+00:00 neo

우리는 99%의 이메일 평판을 가지고 있지만 Gmail은 다르게 판단함

SendGrid에서 99%의 높은 평판 점수를 유지하고 있음에도 불구하고, Gmail은 외부 점수와 무관하게 자체 평판 시스템을 사용해 메일을 스팸함으로 분류하는 문제가 발생하고 있습니다.

- **무엇이 일어났는지**
SendGrid 등 외부 서비스에서는 높은 평판 점수를 받고 있으나, Gmail은 독립적인 평판 시스템을 운영하여 메일이 스팸으로 분류되는 현상이 발생했습니다.
- **왜 중요한지**
수신자 약 90%가 Gmail 사용자이기 때문에, 이 문제는 회사의 주요 공지 및 커뮤니케이션 전달에 직접적이고 심각한 영향을 미칩니다.
- **주의할 점 또는 맥락**
Gmail은 발송 빈도에 따라 평판이 변동하는 '발신 IP 워밍' 규칙을 따르므로, 발송 속도 조절과 더불어 사용자들이 수동으로 메일을 '스팸 아님'으로 표시해 주는 것이 평판 회복에 중요합니다.
Hacker News 수집 2026-04-15T05:05:49.535012+00:00 발행 2026-04-14T20:42:21+00:00 dogsnews

Free, fast diagnostic tools for DNS, email authentication, and network security

한두 문장으로 핵심 요약.

이 기사는 개발자, 네트워크 엔지니어, 이메일 관리자를 위해 DNS, 이메일 인증, 네트워크 보안을 위한 빠르고 무료인 진단 도구 모음인 Mr.DNS를 소개합니다. 이 도구들은 DNSSEC, DMARC, MTA-STS, HTTP/2/3 등 복잡한 프로토콜 및 보안 설정을 확인하고 진단하며, IP 추적, SSL 인증서 검사, 이메일 헤더 분석 등 인프라의 무결성과 전달 경로를 검증하는 데 필수적인 기능을 제공합니다.
Hacker News 수집 2026-04-15T03:04:29.887754+00:00 발행 2026-04-15T01:07:19+00:00 HotGarbage

The FCC just saved Netgear from its router ban for no obvious reason

미국 연방통신위원회(FCC)가 Netgear에 대해 특정 이유 없이 라우터 금지 조치에서 조건부 승인을 부여하여 수입을 허용했습니다. 이는 Netgear가 미국 내 제조 계획을 밝히지 않았음에도 불구하고 이루어졌으며, 라우터 제조사가 미국 내 제조 계획을 제출하도록 요구하는 조건에도 불구하고 승인이 이루어진 점이 주목됩니다.

이는 라우터 금지 조치가 실제 보안 기준보다는 물리적 제조 위치에 중점을 두었음을 시사하며, 기업들이 규제 환경에서 제조 및 공급망 계획을 어떻게 제시해야 하는지에 대한 중요한 맥락을 제공합니다.
GeekNews 수집 2026-04-15T02:04:21.077972+00:00 발행 2026-04-13T07:19:42+00:00 darjeeling

취약점 없이도 뚫린다 — 오픈소스 개발자를 노린 '신뢰 기반' 공격의 실체

오픈소스 개발자를 대상으로, 복잡한 취약점이나 제로데이 공격이 아닌 커뮤니티의 '신뢰' 자체를 무기로 삼는 소셜 엔지니어링 공격이 새로운 위협으로 부상하고 있습니다.

* **무엇이 일어났는지**
공격자들이 Slack과 같은 개발자 커뮤니티 채널에서 Linux Foundation의 실존 인물 등으로 위장하여, 개발자들이 악성 파일을 설치하도록 유도하는 사회 공학적 공격이 발생하고 있습니다.
* **왜 중요한지**
이 공격은 기술적 취약점이나 보안 솔루션만으로는 방어하기 어려우며, 개발자들의 높은 신뢰도와 커뮤니티의 결속력을 악용하여 시스템을 뚫는다는 점에서 심각성이 높습니다.
* **주의할 점 또는 맥락**
출처가 불분명하거나 의심스러운 요청(특히 파일 설치 유도)은 반드시 공식 채널이나 다른 경로를 통해 교차 검증하는 등, 개발자 개인의 경계심이 가장 중요한 방어 수단이 됩니다.
GeekNews 수집 2026-04-15T01:03:51.032199+00:00 발행 2026-04-13T01:02:08+00:00 neo

iOS 업데이트로 체코어 문자 입력 불가로 아이폰 잠금 해제 불가능 사례 발생

iOS 26.4 업데이트 이후 체코어 특수문자 `háček(ˇ)`가 잠금 화면 키보드에서 입력 불가능해지면서, 해당 문자를 암호에 사용한 사용자가 기기 접근 불가 상태에 빠지는 사례가 발생했습니다. 이는 OS 업데이트가 특정 언어 사용자에게 심각한 접근성 문제를 야기할 수 있음을 보여주는 사례입니다.

* **무엇이 일어났는지**
iOS 26.4 업데이트를 기점으로 체코어 특수문자 `háček(ˇ)`가 잠금 화면 키보드에서 사라지거나 다른 악센트 기호로 대체되어, 해당 문자를 포함한 암호를 사용하는 사용자가 기기를 잠금 해제할 수 없게 되었습니다.
* **왜 중요한지**
이 사건은 OS 업데이트 과정에서 국제화(i18n) 테스트가 미흡했을 때, 특정 언어의 특수문자 사용자가 치명적인 접근성 문제에 직면할 수 있음을 보여줍니다. 이는 단순한 버그를 넘어, 사용자 암호 설계에 대한 시스템적 취약점을 드러냅니다.
* **주의할 점 또는 맥락**
잠금 화면 외의 일반 키보드에서는 해당 문자가 입력 가능했으나, 기기가 'Before First Unlock' 상태에 놓이면 외부 장치 연결이나 다운그레이드 등 다양한 복구 시도가 제한되어 문제 해결이 매우 어렵습니다. 따라서 암호에 사용되는 모든 문자는 OS 업데이트 전 충분한 테스트가 필요하며, 클라우드 백업의 중요성이 강조됩니다.
GeekNews 수집 2026-04-15T01:03:50.613856+00:00 발행 2026-04-13T01:16:02+00:00 xguru

rzweb - Rizin을 이용한 브라우저 기반 리버스 엔지니어링 플랫폼

웹 기반 플랫폼 rzweb이 오픈소스 리버스 엔지니어링 프레임워크 Rizin의 기능을 웹 브라우저에서 사용할 수 있도록 제공합니다. 별도의 설치나 서버 구축 없이 WebAssembly를 통해 바이너리 분석을 수행할 수 있어 접근성이 높고 보안성이 뛰어납니다.

- **무엇이 일어났는지**
오픈소스 리버스 엔지니어링 프레임워크 Rizin을 웹 환경에서 구동할 수 있는 경량 분석 도구(rzweb)가 출시되었습니다. 이 도구는 ELF, PE/PE+, Mach-O 등 다양한 바이너리 형식을 지원하며, 통합 터미널을 통해 Rizin CLI를 그대로 사용할 수 있습니다.
- **왜 중요한지**
모든 연산이 WebAssembly를 통해 로컬 브라우저에서 처리되므로, 분석 파일이 외부 서버로 전송되지 않아 보안성이 높고, 별도의 환경 설정 없이 웹만으로 바이너리 분석이 가능해 접근성이 매우 뛰어납니다.
- **주의할 점 또는 맥락**
브라우저 환경의 제약으로 인해 단일 스레드 처리만 가능하며, 디버거 기능은 지원하지 않습니다. 또한, 1MB가 넘는 대용량 파일은 자동 분석에 제한이 있을 수 있습니다.
Hacker News 수집 2026-04-14T22:03:34.643027+00:00 발행 2026-04-14T19:12:09+00:00 afshinmeh

ClawRun – Deploy and manage AI agents in seconds

ClawRun은 오픈소스 AI 에이전트를 단 몇 초 만에 배포하고 관리할 수 있도록 돕는 호스팅 및 라이프사이클 레이어입니다. 이 도구는 에이전트를 안전한 샌드박스에 배포하고, 메시징 채널(Telegram, Discord 등) 연동, 비용 추적 기능을 제공하여 개발자가 AI 에이전트를 쉽게 구축하고 운영할 수 있도록 합니다.

* **무엇이 일어났는지:** ClawRun은 오픈소스 AI 에이전트를 위한 호스팅 및 라이프사이클 관리 레이어를 제공하는 프로젝트입니다.
* **왜 중요한지:** 개발자가 AI 에이전트를 안전하게 배포하고, 대기 상태 관리(sleep/wake), 메시징 채널 연동, 비용 관리를 통합적으로 처리할 수 있게 하여 AI 에이전트 개발 및 운영의 복잡성을 줄여줍니다.
* **주의할 점 또는 맥락:** 이 시스템은 플러그인 가능한 아키텍처를 기반으로 하며, 에이전트와 제공자, 채널을 유연하게 연결할 수 있는 기능을 제공합니다.
Hacker News 수집 2026-04-14T21:03:03.822527+00:00 발행 2026-04-14T19:08:32+00:00 Bender

California ghost-gun bill wants 3D printers to play cop, EFF says

캘리포니아주가 3D 프린터를 통한 불법 총기 제조를 막기 위해 제조사가 디지털 설계 파일을 검사하고 출력 작업을 차단하도록 요구하는 법안(AB 2047)을 제안하면서, 디지털 자유와 오픈 소스 소프트웨어에 대한 위협이 제기되고 있습니다.

이 법안은 3D 프린터 제조사가 특정 알고리즘을 사용해 불법 부품 생성을 막도록 강제하여, 3D 프린팅 커뮤니티 내에서 오픈 소스 도구의 사용을 제한하고, 사용자 활동에 대한 감시를 강화하며, 결국 독점적인 소프트웨어(proprietary software)가 지배하게 만들 위험이 있다는 비판이 제기됩니다.

개발자 및 오픈 소스 커뮤니티는 이러한 알고리즘이 오탐(false positives)을 유발할 수 있으며, 이 법안이 저작권 침해나 다른 불법 활동으로 확대될 수 있다는 점을 우려하고 있습니다.
Ars Technica 수집 2026-04-14T19:00:12.111367+00:00 발행 2026-04-10T21:43:33+00:00 Cyrus Farivar

Californians sue over AI tool that records doctor visits

캘리포니아 주민들이 AI 녹취 도구(Abridge AI)가 동의 없이 그들의 의료 대화를 녹음하고 처리했다고 주장하며 Sutter Health와 MemorialCare를 상대로 소송을 제기했습니다. 이는 의료 기록이 임상 환경 외부에서 AI 플랫폼을 통해 처리될 때 충분한 고지(notice)가 없었다는 점을 지적하며, 민감한 의료 데이터 처리와 AI 사용에 대한 프라이버시 및 동의 문제를 제기한다는 점에서 중요합니다.
TechCrunch 수집 2026-04-14T16:59:10.952401+00:00 발행 2026-04-13T18:41:50+00:00 Lorenzo Franceschi-Bicchierai

FBI announces takedown of phishing operation that targeted thousands of victims

FBI는 전 세계 17,000명 이상의 피해자를 대상으로 한 피싱 작전을 해체했다고 발표했습니다. 이 작전은 W3LL 피싱 키트를 사용하여 합법적인 서비스 로그인 페이지를 모방하는 가짜 웹사이트를 배포하고 사용자들의 비밀번호 및 다중 인증(MFA) 코드를 탈취하는 데 사용되었으며, 이를 통해 약 2,000만 달러의 사기 행위가 발생했습니다.

이는 공격자들이 저렴하게 구매할 수 있는 도구(W3LL 피싱 키트)를 통해 대규모로 시스템에 침투하고 자격 증명을 거래하는 사이버 범죄의 규모와 인프라를 보여주므로, 개발자와 보안 전문가들은 이러한 도구와 취약점을 방어하기 위한 보안 대책을 강화해야 합니다.
TechCrunch 수집 2026-04-14T16:59:10.362576+00:00 발행 2026-04-13T19:05:19+00:00 Julie Bort

Microsoft is working on yet another OpenClaw-like agent

Microsoft가 기존의 Microsoft 365 Copilot 도구에 OpenClaw와 유사한 기능을 통합하는 새로운 에이전트를 개발하고 있습니다.

* **무엇이 일어났는지:** Microsoft는 엔터프라이즈 고객을 대상으로 하며, 위험성이 높은 오픈소스 OpenClaw 에이전트보다 더 나은 보안 통제를 제공하는 새로운 에이전트 기능을 테스트하고 있습니다.
* **왜 중요한지:** 이 에이전트는 사용자가 장기간에 걸쳐 다단계 작업을 수행할 수 있는 '항상 작동하는' 형태로 설계되어 있으며, 기존의 Copilot 기능에 강력한 실행 능력을 추가하는 것을 목표로 합니다.
* **주의할 점 또는 맥락:** 이 새로운 에이전트가 로컬에서 실행될지, 아니면 OpenClaw가 선호하는 다른 기능을 채택할지에 대해서는 아직 불분명합니다. 또한, 기존의 Copilot Cowork나 Copilot Tasks와 달리, 이 에이전트는 클라우드 기반으로 작동할 가능성이 높습니다.
Hacker News 수집 2026-04-14T16:58:52.102680+00:00 발행 2026-04-14T00:25:08+00:00 bumbledraven

Lean proved this program correct; then I found a bug

형식 검증(Formal Verification)을 통해 zlib 구현체(lean-zip)가 완벽하게 올바르다는 것이 증명되었음에도 불구하고, AI 에이전트와 퓨징 테스트를 통해 런타임 및 아카이브 파서에서 메모리 버퍼 오버플로우와 서비스 거부(DoS) 취약점이 발견되었습니다. 이는 형식 검증이 적용되지 않은 시스템 영역(런타임, 특정 모듈)까지 포괄하지 못할 경우, 검증된 코드 내부에 존재하는 근본적인 보안 결함을 놓칠 수 있음을 보여주며, 진정한 소프트웨어 안전성을 위해서는 신뢰하는 모든 기반(Trusted Computing Base)을 검증해야 함을 시사합니다.
TechCrunch 수집 2026-04-14T15:58:36.151818+00:00 발행 2026-04-13T17:02:31+00:00 Lorenzo Franceschi-Bicchierai

Booking.com confirms hackers accessed customers’ data

Booking.com이 해커에 의해 고객의 이름, 이메일 주소, 전화번호, 예약 세부 정보 등 개인 데이터가 유출되었음을 확인했습니다.

이는 해커가 스티커웨어(stalkerware)와 같은 악성 소프트웨어를 통해 정보를 탈취하고 이를 악용하여 고객을 대상으로 피싱 공격을 시도했을 가능성을 시사하며, 데이터 유출 사고 발생 시 개인 정보 보호 및 보안 조치에 대한 경각심을 높입니다.

Booking.com 측은 해당 침해 활동을 발견하고 조치했으며, 이 과정에서 금융 정보는 유출되지 않았고 물리적 주소는 취해지지 않았다고 밝혔으나, 개발자 및 서비스 제공자는 고객 데이터 보호를 위해 데이터 유출 방지 및 인증 시스템 보안을 강화해야 할 필요가 있습니다.
Hacker News 수집 2026-04-14T15:58:12.094386+00:00 발행 2026-04-14T08:52:12+00:00 adulion

Ransomware Is Growing Three Times Faster Than the Spending Meant to Stop It

Ransomware 관련 공개적인 주장(leak-site claims)의 양이 2025년에 전 세계 보안 지출(Gartner 예측)보다 약 세 배 빠르게 증가했다는 분석입니다. 이는 실제 침해 규모나 조직별 보안 투자 효과를 측정하지는 않지만, 표면화된 위협 활동의 속도가 산업의 예산 증가 속도를 훨씬 앞지르고 있음을 보여줍니다. 따라서 보안 예산 책정 시, 공개적으로 관찰되는 위협의 가속화 추세를 고려하여 투자 격차를 메울 필요가 있다는 방향성을 제시합니다.
TechCrunch 수집 2026-04-14T14:58:03.823885+00:00 발행 2026-04-13T14:46:36+00:00 Zack Whittaker

Hack at Anodot leaves over a dozen breached companies facing extortion

Anodot의 데이터 유출 사건을 통해 해커 그룹 ShinyHunters가 다수의 기업으로부터 인증 토큰을 탈취했으며, 이로 인해 해당 기업들은 협박에 직면하게 되었습니다. 이는 클라우드 스토리지에 데이터를 저장하는 기업들이 사용하는 인증 정보가 유출될 경우 심각한 보안 위협에 노출될 수 있음을 보여주는 사례입니다. 해커들은 IT 지원 직원 등을 사칭하는 사회 공학적 기술을 사용하여 클라우드 기반 데이터 접근 권한을 탈취하는 것을 목표로 하며, 개발자 및 기업들은 인증 토큰 및 클라우드 보안 메커니즘에 대한 보안을 강화해야 합니다.
GeekNews 수집 2026-04-14T14:57:54.133565+00:00 발행 2026-04-13T00:44:07+00:00 neo

스페인에서 Cloudflare의 축구 관련 차단으로 Docker Pull 실패 발생

스페인 지역에서 Cloudflare의 축구 중계 차단 정책이 오작동하면서 Docker Hub 트래픽에 영향을 주어, 개발 환경 구축 및 CI/CD 파이프라인에 광범위한 장애가 발생했습니다. 이는 글로벌 CDN의 지역적 정책이 핵심 개발 인프라에 예상치 못한 심각한 영향을 줄 수 있음을 보여주는 사례입니다.

- **무엇이 일어났는지**
스페인 내 일부 네트워크에서 Cloudflare의 축구 불법 중계 방지 필터링 정책이 오작동하면서, Docker Hub로의 이미지 다운로드(`docker pull`) 요청이 차단되어 컨테이너 실행 및 배포 자동화 과정이 중단되었습니다.
- **왜 중요한지**
글로벌 CDN의 지역적 차단 정책이 단순히 웹사이트 접근을 막는 것을 넘어, Docker 레지스트리 접근과 같은 필수적인 개발 인프라 운영에 직접적이고 광범위한 장애를 유발할 수 있음을 시사합니다.
- **주의할 점 또는 맥락**
이러한 차단에 대비하여, VPN 사용이나 DNS 서버 변경(예: AdGuard DNS)을 통해 차단되지 않은 IP를 우회적으로 확보하거나, 스페인 외부 VPS에 Pull-through Registry Cache를 구축하여 Docker 데몬을 연결하는 등의 우회 방안을 고려해야 합니다.
Hacker News 수집 2026-04-14T14:57:45.210321+00:00 발행 2026-04-13T17:54:39+00:00 speckx

Someone bought 30 WordPress plugins and planted a backdoor in all of them

## 🚨 보안 경고: 공급망 공격(Supply Chain Attack) 사례 분석

최근 발생한 대규모 보안 사고 사례를 통해, 개발자 및 웹사이트 관리자가 반드시 인지해야 할 **공급망 공격(Supply Chain Attack)**의 위험성을 경고합니다. 이번 사례는 신뢰받는 플랫폼을 통해 유입된 악성 코드가 어떻게 대규모 사이트를 감염시키는지 보여주는 전형적인 예시입니다.

---

### 📝 요약 (Summary)

신뢰도가 높은 플러그인이나 테마를 통해 악성 코드가 유입되는 **공급망 공격**이 발생했습니다. 공격자는 플러그인 개발자 계정을 탈취하거나, 악성 코드가 포함된 업데이트를 배포하여 수많은 웹사이트에 백도어를 심었습니다. 이는 단순한 해킹을 넘어, **신뢰 관계 자체를 악용**하는 매우 정교하고 광범위한 공격 방식입니다.

### 🔍 주요 공격 메커니즘 (Attack Mechanism)

1. **신뢰 기반 악용:** 공격자는 정상적인 개발자 계정이나 업데이트 채널을 통해 악성 코드를 배포했습니다. (사용자는 공식 채널에서 다운로드했기 때문에 보안 경계를 늦춥니다.)
2. **백도어 삽입:** 악성 코드는 플러그인 코드 내에 숨겨져 있으며, 특정 조건(예: 특정 IP 대역, 특정 시간)이 충족될 때만 작동하도록 설계되었습니다.
3. **정보 탈취 및 변조:** 백도어는 웹사이트의 민감한 데이터(사용자 정보, 결제 정보 등)를 외부 공격자에게 전송하거나, 사이트의 콘텐츠를 변조하는 데 사용됩니다.

### 🛡️ 개발자 및 관리자를 위한 필수 보안 조치 (Action Items)

이번 사례를 통해 웹사이트를 운영하는 모든 개발자와 관리자는 다음의 보안 수칙을 **필수적으로** 적용해야 합니다.

#### 1. 플러그인 및 테마 관리 철저
* **출처 확인:** 플러그인이나 테마는 반드시 공식적이고 검증된 저장소(예: WordPress 공식 저장소)에서만 다운로드해야 합니다.
* **최소 권한 원칙:** 플러그인에 부여하는 권한을 필요한 최소한의 범위로 제한해야 합니다. (예: 단순 갤러리 플러그인에 관리자 권한을 부여하지 않기)
* **정기적 검토:** 사용하지 않는 플러그인은 즉시 비활성화하고 삭제해야 합니다.

#### 2. 코드 및 업데이트 검증 강화
* **코드 감사(Code Audit):** 중요한 플러그인이나 커스텀 코드를 배포하기 전, 보안 전문가나 동료 개발자를 통해 **정적 분석(Static Analysis)**을 거쳐야 합니다.
* **버전 관리:** 모든 변경 사항은 Git과 같은 버전 관리 시스템을 통해 기록하고, 변경 사항에 대한 책임 소재를 명확히 해야 합니다.
* **의심스러운 업데이트 경계:** 갑자기 대규모 업데이트가 이루어지거나, 평소와 다른 기능이 추가되었다면 반드시 출처를 재확인해야 합니다.

#### 3. 보안 계층 구축 (Defense in Depth)
* **WAF(Web Application Firewall) 사용:** 웹사이트 앞에 WAF를 설치하여 알려진 공격 패턴(SQL Injection, XSS 등)을 사전에 차단해야 합니다.
* **백업 및 복구 계획:** 정기적이고 격리된 백업을 수행하고, 공격 발생 시 신속하게 복구할 수 있는 **비상 계획(Disaster Recovery Plan)**을 마련해야 합니다.

---
**💡 핵심 교훈:** 보안은 '한 번' 하는 것이 아니라, **지속적인 프로세스**입니다. 아무리 신뢰하는 코드라도 잠재적인 취약점은 존재하므로, 항상 의심하고 검증하는 습관이 가장 강력한 방어막입니다.
TechCrunch 수집 2026-04-14T13:57:28.829418+00:00 발행 2026-04-12T21:14:38+00:00 Anthony Ha

Trump officials may be encouraging banks to test Anthropic’s Mythos model

트럼프 행정부 관계자들이 은행들에게 Anthropic의 Mythos 모델을 사용하여 보안 취약점을 탐지하도록 장려하고 있으며, JPMorgan Chase를 포함한 여러 금융기관들이 이 모델을 테스트하고 있습니다. 이는 금융 분야에서 AI 모델을 보안 감시에 활용하려는 움직임을 보여주지만, Anthropic은 Mythos 모델이 보안 취약점을 찾는 데 너무 능숙하기 때문에 접근을 제한하고 있습니다. 또한, 이 움직임은 Anthropic이 정부의 AI 사용 제한에 대해 법적 분쟁을 벌이고 있는 맥락에서 발생하고 있습니다.
Hacker News 수집 2026-04-14T13:57:14.255648+00:00 발행 2026-04-13T21:54:03+00:00 mufeedvh

N-Day-Bench – Can LLMs find real vulnerabilities in real codebases?

N-Day-Bench는 최신 보안 취약점(N-Day)을 실제 코드베이스에서 찾아내는 대규모 언어 모델(LLM)의 실제 사이버 보안 발견 능력을 측정하는 적응형 벤치마크입니다. 이 테스트는 모델이 패치된 코드가 아닌, 취약점이 존재하는 과거 커밋 상태에서 샌드박스 환경을 통해 버그를 추적하도록 강제합니다.

- **무엇이 일어났는지**
* N-Day-Bench는 GitHub 보안 권고를 매월 업데이트하여, LLM이 실제 레포지토리 코드에서 알려진 취약점을 발견하는 능력을 테스트합니다.
* 모델들은 샌드박스 bash 쉘을 제공받아 코드를 탐색하며, 취약점 발견 과정(trace)은 모두 공개됩니다.

- **왜 중요한지**
* 기존의 정적 취약점 발견 벤치마크가 학습 데이터에 노출되어 점수가 단순 암기 수준으로 떨어지는 '데이터 오염(contamination)' 문제를 해결합니다.
* LLM의 단순 지식 검색 능력이 아닌, 실제적인 '취약점 발견(vulnerability discovery)' 능력을 측정하는 기준을 제시합니다.

- **주의할 점 또는 맥락**
* 테스트는 모델이 패치된 코드를 볼 수 없도록 설계되어, 오직 취약점의 근원지(sink hints)부터 실제 코드를 추적해야 합니다.
* 현재 GPT-5.4가 평균 점수 83.93점으로 선두를 차지하고 있으며, 모든 테스트 과정과 결과는 공개적으로 확인 가능합니다.