Local LLM Briefing

읽을 가치가 있는 기사만, 짧고 또렷하게.

카테고리 개발 기준으로 보는 중입니다.

GeekNews 2026-04-14T02:11:43+00:00 winterjung

damn-my-slow-kt - KT 인터넷 SLA 미달 자동 측정 & 요금 감면 신청 도구

한두 문장으로 핵심 요약.

- **무엇이 일어났는지**
KT의 인터넷 서비스 수준 보장 제도(SLA)를 활용하여 사용자가 매일 자동으로 속도를 측정하고, 계약 속도의 50% 미달 시 자동으로 이의신청을 대행하는 자동화 도구인 `damn-my-slow-kt`가 개발되었습니다. 이 도구는 Playwright 기반의 UI 자동화 기술을 사용하여 KT 홈페이지의 측정 및 이의신청 과정을 자동화하며, Discord/Telegram 웹훅을 통해 측정 결과를 알림으로 제공합니다.

- **왜 중요한지**
이 도구는 KT의 속도 측정 시스템을 자동화하여 사용자가 수동으로 복잡한 절차를 거치지 않고도 속도 미달에 따른 요금 감면을 자동으로 신청하고 받을 수 있게 함으로써, 고객의 권리 행사를 자동화하고 비용 절감 기회를 극대화하는 실질적인 자동화 사례를 제시합니다.

- **주의할 점 또는 맥락**
도구는 하루 최대 10회(2시간 간격) 측정 기능을 제공하며, 한 번의 성공적인 측정으로 나머지 시도를 자동 스킵하는 로직을 포함합니다. 기술 스택은 TypeScript, Playwright, Commander 등을 사용하며, 현재 macOS 환경에서만 동작이 검증되었고, KT 공식 속도 측정 프로그램이 Linux를 지원하지 않아 Docker/NAS 환경에서는 사용이 불가능합니다.
GeekNews 2026-04-14T02:03:07+00:00 xguru

Gemma 4를 Codex CLI에서 로컬 모델로 실행하기

제공해주신 텍스트는 **특정 기술 논의, 모델 성능 비교, 그리고 실제 사용 경험에 대한 상세한 분석**을 담고 있는 것으로 보입니다.

주요 내용은 다음과 같이 요약할 수 있습니다:

1. **모델 성능 및 비교:** Gemma 4와 관련된 다양한 모델(예: Q, L, M 등) 간의 성능 비교와 실제 사용 시나리오에 대한 논의가 포함되어 있습니다.
2. **실제 적용 경험:** 코드를 실행하거나 시스템을 구축할 때 발생하는 문제점, 최적화 방법, 그리고 특정 하드웨어(GPU, CPU) 환경에서의 성능 차이에 대한 경험적 지식이 담겨 있습니다.
3. **에이전트/툴 사용:** 모델이 외부 도구(Tool)를 사용하는 방식과 그 효율성에 대한 논의가 있습니다.
4. **개발 및 연구 동향:** 모델의 추론 능력, 코드 생성, 그리고 에이전트 시스템의 발전 방향에 대한 심도 있는 분석이 제시되어 있습니다.
5. **결론 및 제언:** 최종적으로 사용자들이 어떤 방식으로 모델을 활용하고 최적화해야 하는지에 대한 실질적인 조언을 제공하고 있습니다.

**요약하자면, 이 텍스트는 AI 모델의 실제 구현, 벤치마킹, 그리고 고급 에이전트 시스템 설계에 관한 기술적인 심층 분석 자료입니다.**

혹시 이 내용 중에서 **특정 질문**이 있으시거나, **특정 부분에 대해 더 자세한 설명**을 원하시면 말씀해 주세요.
GeekNews 2026-04-14T01:41:26+00:00 neo

GitHub Stacked PRs

한두 문장으로 핵심 요약.

GitHub에 대규모 코드 변경을 작고 검토 가능한 PR 단위로 분할하여 순차적으로 관리할 수 있게 하는 새로운 기능인 'Stacked PRs'가 도입되었습니다. 이 기능은 대형 PR에서 발생하는 복잡성과 충돌 위험을 줄이고 리뷰 효율성을 높이는 것을 목표로 하며, GitHub UI와 `gh stack` CLI를 통해 스택 생성, 탐색, 병합을 지원합니다.

- **무엇이 일어났는지**
GitHub가 대규모 코드 변경을 작고 검토 가능한 PR 단위로 분할하여 순차적으로 관리할 수 있게 하는 'Stacked PRs' 기능을 도입했습니다. 각 PR은 독립적으로 리뷰되며, 전체 스택은 한 번의 클릭으로 병합할 수 있습니다.

- **왜 중요한지**
대형 PR에서 발생하는 복잡성과 충돌 위험을 줄여 리뷰 효율성을 높이고 팀 개발 속도를 개선하는 데 목적이 있습니다. 특히 대형 모노레포 환경에서 작업 흐름을 체계적으로 관리하는 데 유용합니다.

- **주의할 점 또는 맥락**
개발자들은 이 기능이 기존 Git의 `rebase`나 `squash`와 같은 워크플로우에 비해 불필요한 추상화인지에 대해 논쟁하고 있습니다. 실제 구현 과정에서 복잡한 Git rebase 논리를 자동화하기 위해 CLI(`gh stack`) 지원이 필수적이며, 병합 및 리베이스 과정에서 충돌 관리가 핵심적인 기술적 과제로 남아있습니다.
GeekNews 2026-04-14T01:41:24+00:00 xguru

당신의 스타트업은 이미 사망 선고를 받았을 수 있다

이 글은 **제품 개발과 비즈니스 전략의 패러다임이 '기능 중심(Feature-centric)'에서 '결과 중심(Outcome-centric)'으로 근본적으로 변화하고 있음**을 강조합니다.

핵심 메시지는 다음과 같습니다.

### 1. 패러다임의 변화: 기능에서 결과로

과거에는 사용자가 특정 기능을 사용하도록 만드는 것에 집중했지만, 이제는 **사용자가 원하는 최종적인 비즈니스 결과(Outcome)를 달성**하는 것에 집중해야 합니다.

* **과거:** 멋진 기능(Feature)을 만드는 것이 중요했다.
* **현재:** 그 기능들이 고객의 실제 문제를 해결하고 측정 가능한 비즈니스 성과(Outcome)로 이어지는지가 중요하다.

### 2. 스타트업과 개발팀에 주는 시사점

이러한 변화는 제품 개발팀과 스타트업에게 다음과 같은 전략적 변화를 요구합니다.

* **MVP의 재정의:** 최소 기능 제품(MVP)은 단순히 기능의 집합이 아니라, **가장 중요한 고객의 문제를 해결하는 최소한의 결과**를 제공해야 합니다.
* **측정의 변화:** 성공을 측정할 때 단순히 사용량이나 기능 사용률이 아니라, **실제 비즈니스 성과(매출, 효율성 개선 등)에 미치는 영향**을 측정해야 합니다.
* **팀의 역할 변화:** 개발팀은 단순히 코드를 작성하는 것을 넘어, 고객의 목표 달성을 위한 전략적 파트너로서 기능과 결과 사이의 연결고리를 설계해야 합니다.

### 3. 결론: '무엇을 만들었는가'보다 '무엇을 달성했는가'

결국, 기술이나 기능 자체보다 **그 기술이 고객에게 어떤 가치를 제공하고 비즈니스 목표를 달성하게 하는가**가 성공을 결정합니다. 이는 개발팀이 기술적 숙련도를 넘어 비즈니스적 통찰력을 갖추어야 함을 의미합니다.
GeekNews 2026-04-14T01:31:22+00:00 xguru

Android가 이제 사진의 위치정보 공유를 차단함

Android는 사진 업로드 시 EXIF 위치 메타데이터를 자동으로 제거하도록 변경하여 웹 기반 서비스의 위치 매핑 기능을 중단시켰습니다. 이는 스토킹이나 절도 위험을 줄이기 위한 개인정보 보호 강화 목적이지만, 개발자들은 사전 공지 없이 기능이 차단된 점을 비판하며 네이티브 앱 개발로의 전환을 촉구하고 있으며, EXIF 정보를 유지할 수 있는 기술적 우회 방안에 대한 논의가 이어지고 있습니다.
Hacker News 2026-04-14T01:12:20+00:00 kristianp

The Journal of C Language Translation

The Journal of C Language Translation(JCLT)이 더 이상 발행되지 않으며, 과거 호들은 현재 이용 가능합니다. 이 저널은 컴파일러, 인터프리터, 정적 분석 도구 등 C 및 C++ 언어 번역기 구현자들과 관련 라이브러리 공급업체들에게 정보를 제공하는 데 중점을 두었습니다. 현재는 누적 목차(Cumulative table of contents)가 제공되어 과거 자료를 참고할 수 있습니다.
GeekNews 2026-04-14T00:50:42+00:00 dowha

Axios 라이브러리의 헤더 주입(CRLF)을 악용한 클라우드 서버 권한 탈취 취약점

Axios 라이브러리의 헤더 주입(CRLF) 취약점을 악용하여 해커가 AWS와 같은 클라우드 서버의 관리자 권한을 탈취할 수 있는 치명적인 버그가 발견되었습니다.

이 취약점은 Axios 자체의 문제뿐만 아니라 프로젝트에 설치된 다른 라이브러리의 취약점(프로토타입 오염)을 연쇄적으로 활용하여 악성 요청을 숨기고 클라우드 내부망(AWS 메타데이터 서비스)으로 전송함으로써, 클라우드 계정 전체를 통제할 수 있는 인증키(IAM 자격 증명)를 훔쳐내는 데 사용될 수 있습니다. 개발자는 라이브러리 사용 시 헤더 줄바꿈 문자 필터링 및 종속성 관리에 각별히 주의해야 합니다.
GeekNews 2026-04-14T00:49:17+00:00 neo

소프트웨어 팀의 경제학: 대부분의 엔지니어링 조직이 재무적으로 ‘눈을 가린’ 이유

## 요약: 소프트웨어 개발팀의 비즈니스적 관점과 현실

제공해주신 텍스트는 **소프트웨어 개발팀이나 기술 조직이 단순히 기술적 성과를 넘어 비즈니스적 가치와 효율성을 어떻게 관리해야 하는가**에 대한 통찰을 담고 있습니다. 핵심 주제는 **비용, 가치, 그리고 현실적인 제약 조건** 사이의 균형을 찾는 것입니다.

### 1. 핵심 메시지

* **기술 성과 vs. 비즈니스 가치:** 개발팀은 코드를 잘 짜는 것을 넘어, 그 코드가 비즈니스 목표 달성에 얼마나 기여하는지를 측정해야 합니다. 단순히 효율성(속도)만 추구해서는 안 됩니다.
* **비용과 가치의 연결:** 개발 과정에서 발생하는 비용(시간, 자원)과 산출되는 가치(제품, 기능)를 명확히 연결해야 합니다.
* **현실적인 제약:** 이상적인 효율성 추구보다는 현실적인 제약 조건(예산, 시장 요구, 복잡성)을 고려하여 의사결정을 내려야 합니다.

### 2. 주요 논점 분석

**A. 비용과 효율성의 함정:**
* 텍스트는 '효율성'이나 '속도'에만 집중하는 것이 아니라, 그 효율성이 실제로 어떤 비즈니스 가치로 이어지는지를 질문합니다.
* 단순히 코드를 빠르게 작성하는 것이 아니라, **가장 중요한 문제 해결에 자원을 집중**해야 함을 시사합니다.

**B. 복잡성과 현실:**
* 소프트웨어 개발은 본질적으로 복잡하며, 모든 것을 완벽하게 통제하기는 어렵습니다.
* 이상적인 모델보다는 현실적인 제약 조건 속에서 최적의 결정을 내리는 것이 중요합니다.

**C. 리더십과 문화:**
* 이러한 비즈니스적 관점을 수용하기 위해서는 팀 내에서 **비즈니스 목표를 공유하고, 측정 가능한 지표를 사용하며, 투명하게 소통하는 문화**가 필요합니다.

### 3. 시사점

이 글은 개발팀 리더들이 기술 전문가에서 **비즈니스 파트너**로 역할을 확장해야 함을 강조합니다. 기술적 결정이 비즈니스 결과에 미치는 영향을 이해하고, 비용과 가치를 명확히 설명할 수 있어야 합니다.

**결론적으로, 성공적인 소프트웨어 개발은 '무엇을 만들었는가'뿐만 아니라 '그것이 비즈니스에 어떤 영향을 미쳤는가'에 달려 있습니다.**
GeekNews 2026-04-14T00:46:02+00:00 xguru

Happy - Codex 및 Claude Code용 모바일/웹 클라이언트

Happy는 Codex 및 Claude Code와 같은 AI 세션을 모바일(iOS/Android) 및 웹에서 원격으로 제어하고 모니터링할 수 있게 해주는 오픈소스 클라이언트 시스템입니다. 이 시스템은 CLI 래퍼 방식을 사용하여 로컬에서 AI 세션을 시작하고 휴대폰으로 이어서 조작할 수 있게 하며, 엔드투엔드 암호화와 추적 기능이 없는 완전 오픈소스 구조를 제공하여 AI 에이전트의 보안성과 감사 가능성을 높입니다. 개발자는 Happy App, Happy CLI, Happy Agent 등의 모듈을 활용하여 자신만의 원격 에이전트 제어 솔루션을 구축할 수 있습니다.
GeekNews 2026-04-14T00:43:17+00:00 neo

Servo가 crates.io에서 이용 가능해짐

Rust 기반 웹 엔진인 Servo가 v0.1.0 크레이트로 crates.io에 공개되어 애플리케이션에 웹 기술을 임베딩할 수 있는 경량 고성능 대안으로 제공됩니다. 이번 릴리스는 Servo를 라이브러리 형태로 직접 통합할 수 있게 하며, 장기 지원(LTS) 버전도 함께 제공되어 안정적인 임베딩 환경을 지원합니다. 현재 버전은 1.0 정식판이 아니며 버전 상승에 대한 논의가 진행 중이지만, 릴리스 프로세스가 안정화 단계에 도달했으며 보안 업데이트와 마이그레이션 지원을 위한 LTS 버전이 제공됩니다.
GeekNews 2026-04-14T00:40:17+00:00 neo

누군가 워드프레스 플러그인 30개를 구매하고 그 모든 플러그인에 백도어를 심었음

제공해주신 텍스트는 워드프레스 플러그인 생태계 내에서 발생하는 **소프트웨어 공급망 보안 문제**와 **신뢰**에 대한 심도 있는 논의를 담고 있습니다.

핵심 내용을 요약하면 다음과 같습니다.

### 1. 플러그인 생태계의 취약성 및 공급망 위험
텍스트는 워드프레스와 같은 플랫폼에서 사용되는 수많은 서드파티 플러그인들이 잠재적인 보안 위험을 내포하고 있음을 지적합니다.

* **신뢰 문제:** 플러그인을 구매하고 사용하는 과정에서, 해당 코드가 안전한지, 악의적인 코드가 삽입되지 않았는지에 대한 근본적인 신뢰 문제가 발생합니다.
* **시장 위험:** 플러그인 마켓플레이스(예: Flippa 언급)를 통해 플러그인이 거래되는 과정은 보안 감사 및 품질 보증이 어렵게 만들어 위험을 증폭시킵니다.

### 2. 개발자와 사용자에게 미치는 영향
이러한 공급망 취약성은 최종 사용자에게 직접적인 보안 위협으로 이어집니다.

* **보안 취약점 전파:** 악성 플러그인이 시스템에 설치될 경우, 웹사이트 전체의 보안이 위협받게 됩니다.
* **통제력 상실:** 사용자는 자신이 설치한 소프트웨어의 내부 작동 방식에 대한 완전한 통제력을 상실하게 됩니다.

### 3. 해결 방향 및 철학
논의는 단순히 기술적 패치를 넘어, 소프트웨어 생태계 전반에 대한 근본적인 접근 방식을 요구합니다.

* **투명성과 감사:** 플러그인의 코드와 작동 방식에 대한 투명성을 높이고, 체계적인 보안 감사를 통해 신뢰를 구축해야 합니다.
* **자체 통제 강화:** 외부 공급망에 대한 의존도를 줄이고, 사용자가 시스템에 대한 더 많은 통제권을 갖는 방향으로 나아가야 합니다.
* **시장 구조 개선:** 플러그인 시장의 구조를 개선하여 악성 코드가 유통되는 경로를 차단하고, 고품질의 소프트웨어만 거래되도록 유도해야 합니다.

### 결론
결론적으로, 이 텍스트는 **소프트웨어 생태계의 신뢰 구축**이 얼마나 중요한지를 강조하며, 특히 웹사이트 운영자들에게 **플러그인 선택과 관리**에 있어 더욱 신중하고 능동적인 자세가 필요함을 시사합니다.
GeekNews 2026-04-14T00:31:02+00:00 xguru

datahike - 버전 관리, 고성능, 분산형 Datalog 엔진

datahike는 Clojure 기반의 분산형 Datalog 엔진으로, Git처럼 불변 스냅샷을 유지하며 락 없이 과거 상태를 자유롭게 쿼리할 수 있는 '타임트래블 쿼리' 기능을 제공합니다. 이는 전체 트랜잭션 이력 감사와 GDPR 준수를 위한 데이터 삭제 기능까지 내장하여 고성능 버전 관리와 규제 준수를 동시에 지원하는 것이 핵심입니다. 또한, 다양한 스토리지 백엔드와 크로스플랫폼 지원을 통해 확장성과 유연성을 확보했습니다.
Hacker News 2026-04-14T00:25:08+00:00 bumbledraven

Lean proved this program correct; then I found a bug

형식 검증(Formal Verification)을 통해 zlib 구현체(lean-zip)가 완벽하게 올바르다는 것이 증명되었음에도 불구하고, AI 에이전트와 퓨징 테스트를 통해 런타임 및 아카이브 파서에서 메모리 버퍼 오버플로우와 서비스 거부(DoS) 취약점이 발견되었습니다. 이는 형식 검증이 적용되지 않은 시스템 영역(런타임, 특정 모듈)까지 포괄하지 못할 경우, 검증된 코드 내부에 존재하는 근본적인 보안 결함을 놓칠 수 있음을 보여주며, 진정한 소프트웨어 안전성을 위해서는 신뢰하는 모든 기반(Trusted Computing Base)을 검증해야 함을 시사합니다.
GeekNews 2026-04-14T00:16:16+00:00 hantech

Show GN: oh-my-openagent-toolkit - Claude Code에서 시작해 OpenCode/oh-my-openagent로 정착한 로컬 운영 툴킷

oh-my-openagent-toolkit은 AI 코딩 에이전트가 실제 프로젝트 내에서 일관성 있게 작동하도록 돕는 로컬 운영 레이어 툴킷입니다. 이는 단순히 에이전트의 지능을 넘어, 프로젝트 내에서 요청 라우팅, 작업 범위(skill surface), 작업 규칙, UI 정제 등의 운영 방식을 명확히 정의하여 복잡한 프로젝트 환경에서 에이전트의 행동을 구조화하는 데 중요합니다.

**핵심 요약:**

* **무엇이 일어났는지:** Claude Code에서 시작하여 OpenCode와 oh-my-openagent 위에 구축된 `oh-my-openagent-toolkit`이 공개되었습니다.
* **왜 중요한지:** AI 코딩 에이전트를 실제 프로젝트에 적용할 때, 에이전트의 지능보다 '프로젝트 내에서 에이전트가 따라야 할 운영 규칙과 경계'를 명확히 정의하는 것이 중요해졌기 때문에, 이러한 운영 지식을 로컬 프로젝트 내에 구조화하여 일관성을 확보합니다.
* **주의할 점 또는 맥락:** 이 툴킷은 기존의 upstream 배포판이나 harness를 대체하는 것이 아니라, OpenCode/oh-my-openagent 위에서 로컬 프로젝트 운영 레이어를 더 명확하게 묶어주는 보조 도구(companion toolkit)의 역할을 합니다.
Hacker News 2026-04-13T23:42:32+00:00 robohobo

SnapState - Persistent state for AI agent workflows

SnapState은 AI 에이전트 워크플로우의 지속 가능한 상태 관리를 위한 도구로, 세션 중단, 크래시, 에이전트 이동 시 작업을 저장하고 재개하거나 재생할 수 있게 해줍니다.
AI 에이전트의 작업 진행 상황을 잃지 않도록 하며, JavaScript, Python, MCP 호환 에이전트에 적용 가능합니다.
MCP 서버와의 호환성, 사용 기반 요금제, 무료 터빈(1만 회 저장, 1GB 저장소, 5,000회 재개)이 특징입니다.
Hacker News 2026-04-13T23:33:18+00:00 throwawayk7h

WiiFin – Jellyfin Client for Nintendo Wii

WiiFin은 닌텐도 Wii용으로 개발된 실험적인 홈브루(homebrew) Jellyfin 클라이언트로, C++와 GRRLIB, MPlayer CE를 사용하여 콘솔 친화적인 미디어 탐색 및 재생 경험을 제공합니다.

이 프로젝트는 사용자 인증, 라이브러리 탐색, 서버 기반 트랜스코딩 비디오 재생 등 핵심 기능을 구현했지만, 직접 재생(Direct-play)은 지원하지 않으며 모든 비디오는 서버에서 트랜스코딩되어야 하고 오디오는 스테레오로 제한되는 등 기술적인 제약이 존재합니다. 개발을 위해서는 devkitPro와 같은 특정 도구 체인 및 그래픽 라이브러리 설정이 필요하며, 현재는 활발하게 개발 중인 실험 단계의 프로젝트입니다.
Hacker News 2026-04-13T23:26:04+00:00 sonabinu

The AI revolution in math has arrived

이 텍스트는 수학, 과학 철학, 그리고 현대 계산 방법의 영향이 연구와 수학의 미래라는 맥락에서 어떻게 교차하는지에 대해 논하는 기사의 발췌문입니다.

주요 주제와 핵심 내용은 다음과 같습니다.

1. **수학 연구와 계산:** 이 텍스트는 수학적 개념이 어떻게 탐구되며, 이러한 탐구에서 계산 방법이 어떤 역할을 하는지를 강조합니다.
2. **협업과 발견의 역할:** 논의는 수학적 발전이 종종 깊고 복잡한 탐구를 포함하며, 새로운 도구에 의해 도움을 받을 수 있음을 시사합니다.
3. **수학과 AI의 미래:** 전반적인 어조는 빠르게 발전하는 기술(AI 등)이 수학 탐구의 지형을 어떻게 변화시키고 있는지에 대한 인식을 나타냅니다.
4. **지식에 대한 철학적 성찰:** 이 글은 과학 발전이라는 맥락 안에서 수학적 진리와 발견의 본질에 대해 다룹니다.

요약하자면, 이 구절은 수학적 발견과 오늘날 수학자들이 이용할 수 있는 도구 사이의 역동적인 관계에 대한 고차원적인 성찰이며, 계산 능력으로 인해 해당 분야에서 일어나고 있는 심오한 변화를 암시합니다.
Hacker News 2026-04-13T22:40:26+00:00 forks

The Human Cost of 10x: How AI Is Physically Breaking Senior Engineers

AI가 생산성을 10배 향상시키지만, 이는 개발자의 인지적 한계를 넘어선 '업무량 증가(workload creep)'와 심각한 소진(burnout)을 야기한다는 내용입니다.

* **무엇을 말하는가?** AI가 코드 리뷰와 작업량을 폭발적으로 증가시킬 때, 인간의 인지적 한계와 실제 업무 부하 사이의 괴리를 지적합니다.
* **핵심 메시지:** AI가 생성한 방대한 양의 코드를 검토하고 관리하는 과정에서 발생하는 인지적 부담은 단순한 생산성 증가로 상쇄되지 않으며, 이는 개발자의 정신적 소진으로 이어질 수 있습니다.
* **시사점:** 단순히 더 많은 코드를 생성하는 것을 넘어, 개발팀은 AI 시대에 '생산성'과 '인지 부하'를 분리하여 관리해야 하며, 코드 품질과 시스템 안정성을 보장하기 위해 인간의 검토 과정의 가치를 재정립해야 합니다.
Hacker News 2026-04-13T21:54:03+00:00 mufeedvh

N-Day-Bench – Can LLMs find real vulnerabilities in real codebases?

N-Day-Bench는 최신 보안 취약점(N-Day)을 실제 코드베이스에서 찾아내는 대규모 언어 모델(LLM)의 실제 사이버 보안 발견 능력을 측정하는 적응형 벤치마크입니다. 이 테스트는 모델이 패치된 코드가 아닌, 취약점이 존재하는 과거 커밋 상태에서 샌드박스 환경을 통해 버그를 추적하도록 강제합니다.

- **무엇이 일어났는지**
* N-Day-Bench는 GitHub 보안 권고를 매월 업데이트하여, LLM이 실제 레포지토리 코드에서 알려진 취약점을 발견하는 능력을 테스트합니다.
* 모델들은 샌드박스 bash 쉘을 제공받아 코드를 탐색하며, 취약점 발견 과정(trace)은 모두 공개됩니다.

- **왜 중요한지**
* 기존의 정적 취약점 발견 벤치마크가 학습 데이터에 노출되어 점수가 단순 암기 수준으로 떨어지는 '데이터 오염(contamination)' 문제를 해결합니다.
* LLM의 단순 지식 검색 능력이 아닌, 실제적인 '취약점 발견(vulnerability discovery)' 능력을 측정하는 기준을 제시합니다.

- **주의할 점 또는 맥락**
* 테스트는 모델이 패치된 코드를 볼 수 없도록 설계되어, 오직 취약점의 근원지(sink hints)부터 실제 코드를 추적해야 합니다.
* 현재 GPT-5.4가 평균 점수 83.93점으로 선두를 차지하고 있으며, 모든 테스트 과정과 결과는 공개적으로 확인 가능합니다.
Ars Technica 2026-04-13T21:12:51+00:00 Ryan Whitwam

Google shoehorned Rust into Pixel 10 modem to make legacy code safer

Google은 Pixel 10 모뎀에 Rust 기반의 안전한 컴포넌트를 통합하여 레거시 코드를 개선하고 보안을 강화했습니다. 이는 셀룰러 모뎀이 메모리 안전성이 부족한 C/C++ 기반의 레거시 코드를 사용하고 있어 공격 표면이 크다는 문제점을 해결하기 위함입니다. 이 접근 방식은 전체 모뎀 소프트웨어를 재작성하지 않고도 기술 부채를 관리하면서도 실시간 데이터 처리를 유지하는 데 중점을 둡니다.