Hacker News
수집 2026-04-18T14:27:03.162944+00:00
발행 2026-04-18T12:08:31+00:00
jhonovich
Flock이라는 회사가 아동 성범죄 관련 주장을 부인하면서도 비판자들을 테러리스트로 규정하는 등 모순적인 입장을 취하며 내부 및 외부 압박에 직면하고 있습니다. 실제 조사 결과는 회사의 공식 발표와 상충하며, 이러한 수사 환경이 직원들에게 가해지는 누적된 부담과 회사의 성장에 부정적인 영향을 미치고 있다는 점이 중요합니다. 이는 회사가 스스로 구축한 수사 환경의 일관성 문제와 비판자들을 공격하는 수사 전략이 초래한 결과로 해석됩니다.
Hacker News
수집 2026-04-18T13:11:02.629643+00:00
발행 2026-04-18T10:46:17+00:00
decide1000
Claude Code Opus 4.7 모델이 사용자가 쿠키 자동 생성과 같은 작업을 요청했을 때, 해당 요청이 악성코드나 해킹과 같은 잠재적으로 악의적인 활동과 관련 있다고 판단하여 작업을 거부하는 상황이 발생했습니다.
이는 AI 시스템의 안전 장치(guardrails)가 사용자의 활동을 제한하는 방식에 대한 논란을 불러일으키며, AI가 사용자의 의도를 판단하고 제어하는 경계선에 대한 근본적인 질문을 던집니다. 개발자들은 AI가 지식 탐구와 창의성을 제한하는 것이 장기적으로 지식 접근과 탐구 정신에 미칠 영향, 그리고 시스템이 합법적인 사용자(contributors)와 악의적인 사용자(black market)를 어떻게 구별해야 하는지에 대해 논의하고 있습니다.
GeekNews
수집 2026-04-18T07:46:32.476829+00:00
발행 2026-04-16T10:32:40+00:00
neo
사이버보안이 작업증명(Proof of Work) 구조로 변화하고 있으며, 이는 방어에 필요한 자원 투입량(토큰)이 공격자의 투입량보다 많아야 한다는 보안 경제학적 관점을 제시합니다.
Anthropic의 LLM인 'Mythos'가 복잡한 네트워크 공격 시뮬레이션에서 인간보다 높은 성능을 보였고, 토큰 예산을 늘릴수록 공격을 성공시키는 데 필요한 자원도 증가한다는 실험 결과는 보안이 기술적 창의성보다 자원 경쟁으로 전환되고 있음을 보여줍니다.
개발자들은 이러한 변화에 따라 보안을 코드 리뷰나 하드닝 단계에 통합하고, 단순히 코드를 은폐하는 것보다 소스 전체의 맥락을 시각화하여 구조적인 취약점을 탐색하는 데 집중해야 합니다.
Hacker News
수집 2026-04-18T07:22:11.476517+00:00
발행 2026-04-17T14:25:46+00:00
hn_acker
이 기사는 **데이터 프라이버시 위험**과 **인공지능(AI)을 활용한 사이버 위협**이라는 두 가지 주요 주제를 연결하며 현대 디지털 보안 환경의 복잡성을 조명합니다.
핵심 내용은 다음과 같습니다.
### 1. 위치 데이터 및 프라이버시 위험 (Geolocation and Privacy Risks)
기사는 위치 정보 추적의 잠재적 위험을 다룹니다.
* **광범위한 데이터 접근:** 특정 기술(예: Penultimate)을 통해 수집된 데이터는 전 세계 수많은 사용자의 위치 정보와 연결될 수 있으며, 이는 심각한 프라이버시 침해를 야기할 수 있습니다.
* **감시 가능성:** 위치 데이터는 개인의 행동을 추적하고 감시하는 데 사용될 수 있으며, 이는 개인의 자유에 위협이 됩니다.
### 2. AI를 활용한 사이버 공격의 진화 (Evolution of AI-Assisted Attacks)
AI 기술이 사이버 공격의 속도와 효율성을 어떻게 변화시키고 있는지 설명합니다.
* **공격 속도 가속화:** AI 모델(예: GPT)은 해킹 및 악성코드 생성 과정을 가속화하여 공격자가 더 빠르고 정교하게 활동할 수 있게 만듭니다.
* **자동화된 위협:** AI는 공격 전략을 자동화하고, 방어 시스템을 우회하는 데 사용되어 보안 대응을 더욱 어렵게 만듭니다.
### 3. 결론 및 시사점
이 기사는 기술 발전이 가져오는 양면성을 강조합니다. 데이터 수집의 위험성과 AI 기반 공격의 위협에 맞서, 개인과 조직은 **데이터 보안 강화**와 **AI 기반 방어 전략**을 동시에 구축해야 함을 시사합니다.
Hacker News
수집 2026-04-18T00:00:42.697240+00:00
발행 2026-04-17T16:13:26+00:00
atan2
이 글은 **가상화 또는 에뮬레이션 환경(특히 DOS 환경)을 탐지하는 것의 복잡성**에 대해 다루고 있습니다.
핵심 내용은 다음과 같습니다:
1. **가상화 탐지의 어려움:** 시스템이 실제 하드웨어에서 실행되는지 아니면 에뮬레이터나 가상 머신 내에서 실행되는지를 정확하게 구별하는 것이 매우 어렵다는 점을 지적합니다. 단순한 체크만으로는 충분하지 않음을 시사합니다.
2. **시스템 호출 분석:** 저자는 시스템이 특정 명령어(예: `INT 21h`와 같은 시스템 호출)를 처리하는 방식을 분석하여, 에뮬레이터가 실제 하드웨어의 동작을 얼마나 정확하게 모방하는지를 탐지하는 방법을 탐구합니다.
3. **에뮬레이터의 동작 차이:** 에뮬레이터가 실제 하드웨어와 미묘하게 다른 방식으로 시스템 호출을 처리하기 때문에, 이러한 차이를 분석함으로써 가상 환경을 식별할 수 있다는 논리를 제시합니다.
4. **결론:** 가상 환경 탐지는 시스템의 저수준 동작을 깊이 있게 분석해야만 가능하며, 이는 단순한 소프트웨어적 검사를 넘어서는 복잡한 문제입니다.
요약하자면, **에뮬레이션 환경을 탐지하기 위해 시스템의 저수준 실행 방식을 분석하는 기술적 접근**에 관한 글입니다.
Ars Technica
수집 2026-04-17T21:37:47.390000+00:00
발행 2026-04-16T17:32:19+00:00
Jeremy Hsu
중국이 심해 해저 케이블을 절단할 수 있는 새로운 장치를 시험했으며, 이는 발트해에서 태평양까지의 해저 통신 및 전력 케이블에 대한 의심스러운 사보타주 사건 증가와 맞물려 인터넷 백본의 보안에 심각한 우려를 야기합니다. 이번 시험은 심해 장비 개발과 실제 공학적 적용 사이의 간극을 메웠다는 점에서 기술적 진보를 보여주지만, 해저 통신 인프라에 대한 잠재적인 위협을 고려해야 합니다.
Ars Technica
수집 2026-04-17T20:47:41.093117+00:00
발행 2026-04-16T17:29:12+00:00
Jonathan M. Gitlin
Stellantis와 Microsoft는 5년간의 파트너십을 통해 AI를 활용하여 디지털 서비스 개선, 사이버 보안 강화, 엔지니어링 역량 향상을 목표로 협력하고 있습니다. 이는 자동차 산업 내 기술 통합의 흐름 속에서 AI를 적용하여 차량 소유자에게 더 나은 경험을 제공하려는 시도이며, 연결된 서비스의 보안과 인간-기계 상호작용의 안전성 확보가 중요한 맥락입니다.
Hacker News
수집 2026-04-17T16:56:03.516587+00:00
발행 2026-04-16T21:56:37+00:00
scaredpelican
하드웨어 해커를 위한 자동화 스택인 AutoProber는 AI 에이전트 기반의 타겟 발견, 현미경 매핑, 안전 감시 CNC 움직임, 프로브 검토 및 제어된 핀 프로빙을 통합하는 시스템을 구축했습니다.
이 프로젝트는 CNC 기계, 현미경, 오실로스코프를 활용하여 물리적 움직임을 안전하게 제어하고 시각적 데이터를 캡처하는 복잡한 하드웨어 자동화 시스템을 구현했다는 점에서 중요하며, 개발자는 이러한 시스템을 기계 제어 시스템으로 간주하고 오실로스코프 채널 4를 통해 지속적으로 안전을 모니터링하는 등 엄격한 안전 설계가 필수적임을 주의해야 합니다.
GeekNews
수집 2026-04-17T16:24:54.799628+00:00
발행 2026-04-16T01:52:02+00:00
neo
제공해주신 텍스트는 에이전트(Agent) 시스템의 구조, 계층, 그리고 작동 방식에 대한 심층적인 기술 분석입니다. 핵심 내용을 요약하면 다음과 같습니다.
---
### 에이전트 시스템의 핵심 요약
이 문서는 에이전트 시스템을 **계층적 구조**와 **명확한 역할 분담**을 통해 설계하고 구현하는 방법을 다룹니다. 시스템은 단순한 실행을 넘어, 복잡한 목표를 달성하기 위해 계획, 추론, 실행의 단계를 체계적으로 관리하는 데 중점을 둡니다.
#### 1. 계층적 구조와 역할 분담
에이전트 시스템은 여러 계층으로 구성되어 있으며, 각 계층은 특화된 역할을 수행합니다. 이는 복잡한 작업을 효율적으로 분해하고 관리하기 위함입니다.
* **계층별 역할:** 각 계층은 상위 에이전트의 목표를 하위 에이전트들이 구체적인 행동으로 분해하고 실행하는 역할을 담당합니다.
* **상호작용:** 에이전트들은 서로 정보를 교환하고 협력하며 복잡한 문제 해결 프로세스를 진행합니다.
#### 2. 실행 및 상태 관리
에이전트의 성공적인 작동은 정확한 실행 흐름과 상태 관리에 달려 있습니다.
* **실행 흐름:** 에이전트는 목표 설정부터 계획 수립, 실행, 피드백 반영에 이르는 일련의 과정을 순차적으로 거칩니다.
* **상태 관리:** 각 에이전트의 현재 상태(State)를 정확하게 추적하고 관리함으로써, 시스템 전체의 일관성과 예측 가능성을 보장합니다.
#### 3. 시스템의 목표
궁극적인 목표는 복잡하고 다단계적인 목표를 인간의 개입 없이도 자율적으로 달성할 수 있는 **강력하고 유연한 에이전트 시스템**을 구축하는 것입니다. 이를 위해 모듈화된 구조와 명확한 인터페이스를 통해 시스템의 확장성과 재사용성을 높입니다.
---
**결론:** 이 시스템은 에이전트들이 단순한 명령 수행을 넘어, **계획하고, 추론하며, 협력하여** 복잡한 목표를 달성하는 **자율적인 문제 해결 주체**로 기능하도록 설계된 프레임워크입니다.
Hacker News
수집 2026-04-17T14:24:34.034575+00:00
발행 2026-04-17T06:19:45+00:00
kuizu
PROBoter는 임베디드 시스템의 PCB 보안 분석에 필요한 시각적 검사, 역공학, 전기적 프로빙 등의 작업을 자동화하는 오픈소스 하드웨어 및 소프트웨어 플랫폼입니다. 이 플랫폼은 신경망(Neural Networks) 기반의 시각 분석과 자동화된 전기적 프로빙을 결합하여 복잡한 다층 PCB에서 부품 위치 및 연결을 자동으로 식별하고 보안 취약점을 분석할 수 있게 함으로써, 보안 분석가의 수작업 시간을 대폭 줄이고 분석 효율성을 높이는 것을 목표로 합니다.
Ars Technica
수집 2026-04-17T13:39:02.691693+00:00
발행 2026-04-15T20:36:28+00:00
Andrew Cunningham
"TotalRecall Reloaded"라는 도구가 Windows 11의 Recall 데이터베이스에 접근할 수 있는 경로를 발견하여 보안에 대한 새로운 우려를 제기했습니다. 이는 Microsoft가 보안 및 개인 정보 보호를 위해 Recall 기능을 대대적으로 개편했음에도 불구하고, 시스템 내부에 저장된 데이터에 대한 잠재적인 취약점이 여전히 존재할 수 있음을 시사합니다.
Cloudflare Blog
수집 2026-04-17T12:35:35.530992+00:00
발행 2026-04-14T13:00:10+00:00
Ann Ming Samborski
### 1. 표준을 통한 AI/에이전트 접근 가능하게 하기 (핵심 개념)
본문은 시스템(예: AI 에이전트)이 어떻게 리소스에 안전하게 접근할 수 있는지에 중점을 둔다. 이는 위임된 접근을 허용하기 위해 **OAuth/OIDC** 원칙과 같은 확립된 표준을 활용함으로써 달성된다.
### 2. AI 에이전트를 위한 안전한 접근 (실제 적용)
중심 주제는 에이전트가 서비스를 안전하게 상호 작용하도록 허용하는 방법을 보여주는 것이다.
* **메커니즘:** OAuth와 같은 프로토콜을 사용하여 에이전트가 특정 리소스에 접근할 수 있도록 권한을 부여한다.
* **맥락:** 에이전트가 안전한 흐름을 통해 서비스(예: 파일 또는 데이터)에 접근할 수 있도록 허용하는 방법을 보여줌으로써, 신뢰할 수 있는 AI 애플리케이션을 구축하는 데 필수적인 내용을 다룬다.
### 3. 클라우드 네이티브 보안 및 신원 관리 (플랫폼 맥락)
전체 논의는 클라우드 네이티브 보안 생태계의 맥락에서 구성되며, 다음 사항을 강조한다.
* **신원 관리:** 접근을 요청하는 주체를 관리하고 검증하기 위한 강력한 방법의 필요성.
* **API 보안:** 접근 요청이 적절하게 인증되고 권한이 부여되도록 보장하는 것.
### 4. 미래 방향 및 생태계 (더 넓은 비전)
본문은 이러한 표준들이 인프라에 깊이 통합되는 미래를 제시한다.
* **에이전트-서비스 상호 작용:** AI 에이전트와 서비스 간의 상호 작용을 원활하고 안전하게 만드는 것이 목표이다.
* **진화하는 표준:** API, 신원, 접근 간의 관계와 같은 이러한 개념들이 어떻게 계속 발전해 나갈지에 대한 논의를 포함한다.
### 5. 구체적인 구현 세부 사항 (방법)
본문은 구현에 대한 구체적인 예를 제공한다.
* **클라우드 제공업체 초점:** 클라우드 환경 내의 특정 기능 및 통합을 언급한다.
* **개방형 표준:** 상호 운용성을 위해 OAuth와 관련된 개방형 표준을 사용하는 것의 중요성을 강조한다.
---
**요약하자면, 이 텍스트는 자동화된 시스템(AI 에이전트)이 클라우드 서비스와 안전하고 효과적으로 상호 작용할 수 있도록 하는 보안 기반의 접근 메커니즘을 구축하는 방법에 대한 기술적 탐구이다.**
Cloudflare Blog
수집 2026-04-17T12:35:35.515861+00:00
발행 2026-04-14T13:00:10+00:00
Ivan Anguiano
다음은 제공된 텍스트 요약의 자연스러운 한국어 재작성입니다.
### 1. 원격 접근 관리 솔루션 (핵심 제품)
본 텍스트는 **다자 통제(Multi-Party Control)** 및 **접근 관리(Access Management)**에 중점을 두고 원격 서비스에 대한 접근을 관리하고 보안을 확보하도록 설계된 시스템(Cloudflare 관련)을 설명합니다.
### 2. 무단 접근 및 비인가 접근 탐지 (위협 감지)
텍스트의 상당 부분은 서비스에 대한 무단 또는 그림자 접근(Shadow Access)을 탐지하고 관리하는 방법에 대해 자세히 설명합니다.
* **그림자 접근 탐지:** Cloudflare 도구를 사용하여 제대로 관리되지 않는 엔드포인트를 모니터링하고 식별합니다.
* **비인가 엔드포인트 식별:** 시스템은 노출되거나 부적절하게 접근될 수 있는 서비스에 대한 접근을 플래그 지정하고 관리하도록 설계되었습니다.
### 3. 원격 서비스의 보안 및 거버넌스 (작업 흐름)
텍스트는 원격 상호 작용을 보호하기 위한 포괄적인 접근 방식을 제시합니다.
* **접근 제어:** 누가 무엇에 접근할 수 있는지에 대한 통제를 구현합니다.
* **모니터링:** 규정 준수를 보장하기 위해 요청 흐름을 지속적으로 관찰합니다.
### 4. 외부 위협으로부터의 보호 (특정 공격 벡터)
문서는 원격 서비스와 관련된 특정 보안 문제에 대해 다룹니다.
* **무단 접근 방지:** 승인된 당사자만이 서비스와 상호 작용할 수 있도록 보장합니다.
* **데이터 흐름 모니터링:** 데이터 유출이나 오용을 방지하기 위해 통신을 추적합니다.
### 5. 더 넓은 맥락: 공개 서비스 대 내부 인프라 (적용 분야)
맥락은 공개 서비스와 내부 인프라가 어떻게 상호 작용하는지에 초점을 맞춥니다.
* **공개 서비스:** 외부 접근이 어떻게 관리되는지.
* **내부 인프라:** 내부 시스템이 어떻게 보호되는지.
### 6. 웹 보안의 진화 (미래)
텍스트 후반부는 웹 보안의 더 광범위한 추세에 대해 논하며 다음 사항에 중점을 둡니다.
* **공개 책임:** 보안을 관리하는 외부 주체(Cloudflare와 같은)의 필요성.
* **공급망 보안:** 서비스 전체 체인을 보호하는 것의 중요성.
* **자주권(Self-Sovereignty):** 조직이 자체 서비스와 데이터를 통제하도록 요구하는 추세.
### 7. 실제 구현 및 생태계 (도구와 전략)
텍스트는 이 보안 프레임워크가 어떻게 적용되는지에 대한 구체적인 예를 제공합니다.
* **공개 서비스 대 사설 서비스:** 외부 접근과 내부 접근을 구별합니다.
* **공개 서비스 보안:** 공개적으로 접근 가능한 엔드포인트의 보안을 다룹니다.
* **공개/사설 서비스 관리:** 다양한 환경 전반에 걸쳐 통합 관리가 필요합니다.
---
**요약하자면, 이 텍스트는 Cloudflare가 제공하는 것으로 추정되는 보안 및 접근 관리 프레임워크를 설명하며, 이는 원격 서비스 보호, 무단 접근 탐지, 그리고 공개 및 사설 엔드포인트에 대한 거버넌스 확립을 목표로 합니다.**
TechCrunch
수집 2026-04-17T12:35:34.891110+00:00
발행 2026-04-16T15:00:00+00:00
Jagmeet Singh
구글이 2025년에 83억 건의 광고를 차단했지만 광고주 계정 정지는 훨씬 적게 진행했다는 점은 AI 기반의 새로운 정책 집행 방식이 도입되었음을 시사합니다. 구글은 Gemini 모델을 활용하여 정책 위반 광고를 더 정확하고 세밀하게 감지함으로써, 광고주 정지 대신 개별 광고 차단에 집중하는 '더 세분화된(granular) 집행'으로 전환했으며, 이를 통해 잘못된 정지 사례를 전년 대비 80% 줄이는 데 성공했습니다. 이는 AI를 플랫폼의 핵심 인프라에 통합하여 실시간으로 위협에 대응하는 방식으로 정책 준수를 자동화하려는 움직임을 반영합니다.
TechCrunch
수집 2026-04-17T12:35:33.546975+00:00
발행 2026-04-16T16:16:51+00:00
Lorenzo Franceschi-Bicchierai
미국 시민 두 명이 북한 정부가 미국 기업에 가짜 IT 인력을 배치하는 사기 계획을 돕는 데 연루되어 징역형을 선고받았습니다. 이들은 미국 내에 '노트북 팜(laptop farms)'과 같은 인프라를 제공하여 북한 사람들이 미국 회사에 근무하는 것처럼 위장하고, 이를 통해 약 80명 이상의 미국인 신원을 도용하고 영업 비밀 및 소스 코드를 훔치는 데 사용되었습니다. 이는 IT 인프라와 원격 근무 시스템이 국가 안보와 경제 제재를 회피하는 불법적인 자금 조달 수단으로 악용될 수 있음을 보여주며, 기업 및 보안 시스템에서 신원 및 데이터 보안의 중요성을 강조합니다.
TechCrunch
수집 2026-04-17T12:35:32.561184+00:00
발행 2026-04-16T17:11:20+00:00
Sarah Perez
Bluesky 웹사이트와 앱이 서비스 중단 및 속도 저하를 겪었으며, 이는 운영 책임자가 서비스 거부(denial-of-service) 공격 때문이라고 밝혔습니다. 이로 인해 사용자들은 특정 피드 접근 불가, 속도 제한(Rate Limit Exceeded) 오류 등 서비스 이용에 차질을 겪었으나, 분산형 소셜 네트워크의 기반 프로토콜을 사용하는 다른 커뮤니티들은 현재 정상적으로 작동하고 있는 상황입니다.
TechCrunch
수집 2026-04-17T12:35:32.262093+00:00
발행 2026-04-16T18:53:09+00:00
Lorenzo Franceschi-Bicchierai
유로폴(Europol)은 해킹 기술 없이도 사이트 다운을 유발하는 DDoS 공격을 실행할 수 있게 해주는 'DDoS 대행 서비스'에 대한 합동 작전(Operation PowerOFF)을 진행했으며, 이 과정에서 75,000명에게 경고 이메일을 발송했습니다. 이는 범죄자들이 쉽게 사이버 공격을 실행할 수 있는 환경을 차단하고, 관련 서버 및 도메인 53개를 확보하는 등 법 집행 조치를 취한 것으로, DDoS 공격의 용이성과 광범위한 범죄에 대응하는 중요한 보안 조치입니다.
GeekNews
수집 2026-04-17T12:35:28.723055+00:00
발행 2026-04-16T01:38:02+00:00
neo
한두 문장으로 핵심 요약.
OpenAI가 Agents SDK를 대폭 업데이트하여 에이전트가 파일 검사, 명령 실행, 코드 편집 등의 작업을 '제어된 샌드박스 환경'에서 수행할 수 있는 표준화된 인프라를 제공합니다. 이는 하니스(harness)에 구성 가능한 메모리, 샌드박스 인식 오케스트레이션, 네이티브 샌드박스 실행 지원 등을 통합하여 보안성과 확장성을 극대화하고, 개발자가 복잡한 에이전트 시스템을 구축할 수 있도록 지원합니다.
- **무엇이 일어났는지**
OpenAI가 Agents SDK를 업데이트하여 에이전트가 파일 검사, 명령 실행, 코드 편집, 장기 작업을 '제어된 샌드박스 환경'에서 수행할 수 있는 표준화된 인프라를 제공합니다. 이를 위해 하니스(harness)에 구성 가능한 메모리, 샌드박스 인식 오케스트레이션, 네이티브 샌드박스 실행 지원 등 핵심 프리미티브를 통합했습니다.
- **왜 중요한지**
기존 에이전트 시스템의 한계를 극복하고, 프롬프트 인젝션 방어, 스냅샷 기반 내구성 실행, 다중 컨테이너 병렬화 등을 통해 보안, 내구성, 확장성을 확보합니다. 개발자는 핵심 인프라 대신 도메인별 로직에 집중하며, 다양한 샌드박스 제공업체와의 이식성을 확보할 수 있습니다.
- **주의할 점 또는 맥락**
새로운 기능은 API 기반 표준 토큰 및 도구 사용 과금 방식으로 제공되며, 하니스와 컴퓨팅을 분리하는 아키텍처를 통해 보안을 강화합니다. 향후 코드 모드(code mode) 및 서브에이전트(subagents) 기능이 추가될 예정이며, Python 및 TypeScript 지원이 지속적으로 확대될 계획입니다.
Hacker News
수집 2026-04-17T11:34:35.569880+00:00
발행 2026-04-17T03:59:22+00:00
dotmanish
Bluesky가 거의 하루 동안 DDoS 공격을 겪으며 서비스 중단이 발생했습니다.
* **무엇이 일어났는지:** Bluesky는 거의 하루 동안 분산 서비스 거부(DDoS) 공격을 방어했습니다. 이로 인해 사용자들은 피드, 알림, 스레드, 검색 등 서비스 이용에 간헐적인 중단을 경험했습니다.
* **왜 중요한지:** 이는 서비스의 안정성과 사용자 경험에 직접적인 영향을 미치는 보안 및 인프라 문제임을 시사합니다.
* **주의할 점 또는 맥락:** Bluesky 측은 해당 공격으로 인해 개인 사용자 데이터에 대한 무단 접근 증거는 발견하지 못했다고 밝혔습니다. 다만, 개발자 관점에서 서비스의 지속적인 안정성과 보안 상태를 면밀히 모니터링할 필요가 있습니다.
Hacker News
수집 2026-04-17T07:32:41.069070+00:00
발행 2026-04-16T20:14:05+00:00
dan_l2
SIR-Bench는 자율 보안 사고 대응 에이전트의 조사 깊이를 평가하기 위해 개발된 벤치마크로, 단순한 경고 반복(alert parroting)이 아닌 실제 포렌식 조사를 수행하는지 측정합니다. 이 벤치마크는 실제 사고 패턴을 재현하는 프레임워크(OUAT)와 적대적 LLM 심사(LLM-as-Judge)를 사용하여 에이전트의 분류 정확도, 새로운 증거 발견 능력, 도구 사용 적절성 등의 복합적인 지표를 측정하며, 향후 조사 에이전트의 성능 기준을 제시합니다.