Community

개발자 99% 커뮤니티에서 수다 떨어요!

← Go back
[뉴스레터 #253] 구글 개발자 97%가 만족한 자체 AI 코드리뷰 툴? 크라우드스트라이크 사태 핵심 요약
#tips
5개월 전
3,281

🔼 퇴사한 직원들도 그리워 한다는(?) 구글의 코드리뷰 툴 Critique

🗞 뉴스레터 #253 (2024.08.02)

#따끈따끈한_개발_NEWS📢

#사상 최악의 IT 대란

🔼 전 세계 약 7천 개의 항공편이 취소되었다.

Y2K 때 걱정했던 일들이 실제로 벌어진다면 이런 느낌일까? 지난 7월 19일 금요일, 전 세계의 시스템이 동시다발적으로 마비되는 일이 벌어졌다. 비행기 착륙 지연, 은행 계좌 정지, 방송 중단, 의료 시스템 마비 등 무려 850만 대의 기기에 블루스크린이 나타나 오류를 일으킨 것이다. 집계된 피해액만 1조가 넘는, 말 그대로 사상 최악의 IT 대란이라는데… 🙀 과연 이 오류를 일으킨 원인은 무엇이었을까? 왜 한국에서는 좀처럼 언급이 없었을까? 세계적인 피해 규모에 비해 국내에서는 심층적으로 다루는 매체가 적어 이번 뉴레에서 집중 분석해 보았다.

🔼 원인은 크라우드스트라이크?

아이러니하게도 문제를 일으킨 주범은 해킹과 바이러스로부터 우리를 막아주는 사이버 보안 업체 크라우드스트라이크(CrowdStrike)였다. 크라우드스트라이크는 새로운 보안 위협에 대응하기 위해 자주 업데이트를 배포하는데, 이 과정에서 마이크로소프트 윈도우 운영체제와 충돌해 오류를 일으킨 것이다.

트위터에서는 오류의 원인이 초보 개발자가 실수할 법한 ‘Null 포인터 예외’ 오류라고 주장하는 트윗이 조회수 2천 만회를 기록하기도 했으나 이는 사실이 아니며, 사고 발생 후 리뷰인 PIR에 따라 문제의 원인이 아웃오브바운드 오류임이 밝혀졌다. 잘못된 데이터가 있는 config 파일이 유효성 검사기의 버그로 인해 검사를 통과해버렸고, 이로 인해 콘텐츠 인터프리터가 처리할 수 없는 오류가 발생한 것이다.

🔼 사건 이후 주가가 무섭게 떨어졌다.

대부분의 소프트웨어는 권한이 제한되어 있는 유저 스페이스라는 곳에 설치되어 실행되기 때문에 프로그램이 충돌된다고 하더라도 전체 시스템이 다운되지 않았을 것이다. 그러나 크라우드스트라이크의 Falcon Sensor라는 구성 요소는 커널 스페이스라는 공간에서 실행되는데, 커널 스페이스에서 실행되는 프로그램은 하드웨어 장치와 직접 상호 작용할 수 있고, 모든 시스템 메모리에 액세스하고 변경할 수 있는 권한을 갖는다. 이 때문에 사소한 오류가 전 세계 컴퓨터의 오작동을 불러일으켰던 것!

이번 사태로부터 우리가 얻을 수 있는 교훈은 무엇일까? 세 가지로 정리해 보았음.


👉 우리가 극소수의 회사에 의존하고 있다는 것. Fortune 500대 기업 중 절반 이상이 크라우드스트라이크의 고객사라고 한다.

👉 디지털 의존도가 매우 높다는 것. 단 하나의 시스템 장애로도 세계적인 혼란을 일으키기에 충분했다.

👉 금요일에는 중요한 업데이트를 푸시하지 말자. 절대로!


한국은 다른 나라에 비해 피해도 적고 잠잠했는데, 전 세계로부터 고립되어 있는 IT 갈라파고스 현상을 극단적으로 보여주는 것 같아 마냥 좋아할 만한 상황은 아닌 것 같다. 국내 및 해외에 계신 여러분은 별 일 없었는지도 궁금함! 🤔



해당 뉴스레터 전체를 읽고싶다면?

📌 bit.ly/3A21zIo

뉴스레터 구독은?

📌 bit.ly/3MGAH4M