넷플릭스 엔지니어의 AI 비용 절감 비법, 오픈소스로 풀었다!

넷플릭스 엔지니어의 AI 비용 절감 비법, 오픈소스로 풀었다!

최근 인공지능(AI) 기술이 세상을 뒤흔들고 있습니다. ChatGPT와 같은 대규모 언어 모델(LLM)은 우리의 일상과 업무 방식을 혁신적으로 바꾸고 있죠. 하지만 AI의 놀라운 능력 뒤에는 예상치 못한 'AI 비용 폭탄'이라는 그림자가 드리워져 있습니다. 특히 기업들은 AI 모델을 적극적으로 도입하면서 막대한 토큰 사용료에 골머리를 앓고 있다는 소식이 끊이지 않습니다. 단순히 직원을 해고하며 비용 절감을 꾀했던 몇몇 기업들의 사례는 AI 도입으로 인한 추가적인 비용 부담이 얼마나 큰지 단적으로 보여줍니다.

하지만 여기, AI 비용 절감을 위한 빛나는 해결책을 제시한 넷플릭스의 한 엔지니어가 있습니다. 그의 이름은 테자스 초프라(Tejas Chopra). 그는 AI 모델에 전달되는 '토큰'의 양을 줄여 비용을 획기적으로 절감하는 소프트웨어를 개발했고, 심지어 이 혁신적인 기술을 오픈소스 커뮤니티에 공개하기까지 했습니다. 대체 그는 어떤 마법을 부린 걸까요? 그리고 이 기술이 우리에게는 어떤 의미가 있을까요?

a couple of cell phones
Photo by Battenhall on Unsplash

도대체 이 '프로젝트 헤드룸'은 뭐길래?

테자스 초프라의 솔루션 이름은 '프로젝트 헤드룸(Project Headroom)'입니다. 이름만 들어도 뭔가 공간을 넉넉하게 만들어줄 것 같은 느낌이 들지 않나요? 핵심은 간단합니다. AI 모델이 이해하고 처리해야 하는 '토큰'의 수를 최적화하는 것입니다. 토큰이란 AI가 텍스트를 이해하는 최소 단위라고 생각하시면 됩니다. 우리가 말을 할 때 단어를 사용하듯, AI는 토큰을 사용해서 문장을 이해하고 답변을 생성하죠. 그리고 이 토큰 사용량에 따라 비용이 부과되는 것이 AI 서비스의 일반적인 과금 방식입니다.

초프라에 따르면, 우리가 AI 모델에 전달하는 정보 중 무려 90%에 달하는 토큰이 사실상 불필요하거나 중복된다고 합니다. 생각해보세요. AI와 대화할 때, 단순히 질문만 하는 것이 아니라 관련 정보, 이전 대화 기록, 심지어는 AI가 작업을 수행하기 위해 필요한 각종 설정 값이나 메타데이터까지 함께 전달됩니다. 이 모든 것이 토큰으로 계산되니, 당연히 비용이 눈덩이처럼 불어날 수밖에요.

프로젝트 헤드룸은 이러한 불필요한 토큰들을 AI 모델에게 도달하기 전에 미리 '압축'하거나 '제거'하는 역할을 합니다. 마치 우리가 이메일을 보낼 때 첨부파일의 용량을 줄이기 위해 압축하는 것과 비슷하다고 할 수 있죠. 다만, 헤드룸의 방식은 단순히 압축하는 것을 넘어, AI의 성능 저하 없이 정보의 핵심만 남기는 '손실 없는 압축'에 가깝습니다. 덕분에 AI는 훨씬 효율적으로 정보를 받아들이고, 우리의 지갑은 두둑해지는 거죠.

왜 갑자기 AI 비용 문제가 중요해졌을까?

AI, 특히 LLM의 발전 속도는 정말 눈부십니다. ChatGPT가 등장한 이후, 수많은 기업들이 앞다투어 자체 AI 모델을 개발하거나 기존 모델을 활용한 서비스를 출시하고 있습니다. 챗봇, 콘텐츠 생성, 코드 작성, 데이터 분석 등 AI의 활용 범위는 끝없이 확장되고 있습니다. 문제는 이러한 AI 모델을 사용하기 위해 지불해야 하는 '토큰 비용'이 생각보다 훨씬 크다는 점입니다.

초프라 역시 개인적인 프로젝트에서 AI 모델을 사용하다가 예상치 못한 높은 청구 금액을 받고 문제를 인식하게 되었습니다. 클로드 소넷(Claude Sonnet)이라는 AI 모델을 사용한 간단한 디버깅, 코드 리팩토링 등의 작업에 287달러(약 37만원)라는 금액이 청구된 것입니다. 당시 클로드 소넷의 토큰당 가격은 입력 토큰 100만 개당 3달러, 20만 개 이상의 컨텍스트 창을 넘어가면 6달러로 책정되어 있었습니다. 겉보기에는 저렴해 보였지만, 대량의 데이터를 주고받는 과정에서 비용이 빠르게 쌓였던 것이죠.

이 경험을 통해 초프라는 AI 모델에 전달되는 데이터의 상당 부분이 사실은 AI가 본질적인 작업을 수행하는 데 필수적이지 않은, 그저 '함께 따라오는' 정보라는 것을 깨달았습니다. 예를 들어, AI에게 특정 작업을 지시할 때, 상세한 API 응답의 중복된 JSON 스키마, 복잡하게 중첩된 템플릿, 데이터베이스의 동일한 컬럼 정보 등이 불필요하게 포함되는 경우가 많다는 것입니다.

이러한 불필요한 정보들은 '텍스트'처럼 보이지만, 실제로는 '압축 가능한 데이터'에 가깝다는 것이 초프라의 분석입니다. 2025년에 발표된 한 연구에서도 사용자의 입력이 전체 토큰 소비량의 약 76%를 차지한다는 결과가 나온 바 있습니다. 이는 우리가 AI에게 명확하고 간결한 지시를 내리는 것만큼이나, AI에게 전달되는 '맥락 정보'를 효율적으로 관리하는 것이 중요하다는 것을 시사합니다.

A person holding up a smart phone in their hand
Photo by Yohan Marion on Unsplash

AI 모델 자체의 절감 기능, 충분하지 않다고?

물론 AI 모델 제공 업체들도 이러한 비용 문제를 인식하고 있습니다. 각 모델에는 토큰 사용량을 줄이기 위한 자체적인 기능들이 포함되어 있습니다. 예를 들어, 클로드 모델에는 '프리픽스 캐시(prefix cache)'라는 기능이 있는데, 이는 일정 시간 동안 입력이 없을 경우 이전 대화 내용을 다시 로드할 때 발생하는 토큰 비용을 절감해 줍니다. 또한, '타임 투 리브(TTL: Time To Live)' 설정을 통해 데이터가 얼마나 오래 컨텍스트 창에 남아있을지를 조절할 수도 있습니다.

하지만 초프라는 이러한 자체 기능들이 최종 사용자에게는 다소 '복잡하고 어렵게' 느껴질 수 있다고 지적합니다. 캐시 설정 시간이 너무 짧거나, TTL 설정을 제대로 활용하지 못하면 오히려 비용 효율성이 떨어질 수 있다는 것이죠. 특히 TTL의 경우, 쓰기 작업에 두 배의 비용을 지불해야 90%의 읽기 저장 효과를 얻을 수 있다는 설명은 일반 사용자에게는 직관적으로 와닿기 어려운 부분입니다.

현재 시장에는 토큰 압축 서비스를 제공하는 상용 솔루션들도 등장하고 있습니다. YCombinator에서 투자받은 '토큰 컴퍼니(Token Company)'와 같은 서비스들이 대표적입니다. 또한, 오픈소스 진영에서도 'RTK(Rust Token Killer)'나 'LeanCTX'와 같이 verbose한 명령어 호출 결과 등을 정리해주는 도구들이 있습니다. 이러한 도구들은 분명 유용하지만, 초프라는 프로젝트 헤드룸은 이러한 외부 도구들과 달리, 개발자의 기존 워크플로우 안에서 자연스럽게 작동하도록 설계되었다는 점을 강조합니다.

헤드룸, 무엇을 어떻게 압축하는가

프로젝트 헤드룸의 핵심 역할은 사용자의 컨텍스트 창에 전달되는 모든 소스 자료를 압축하는 것입니다. 컨텍스트 창이란 AI 모델이 현재 대화나 작업에 필요한 정보를 담고 있는 '기억 공간'이라고 할 수 있습니다. 최신 AI 모델들은 이 컨텍스트 창의 크기를 수백만 토큰까지 확장하고 있어, 더 많은 정보를 기억할 수 있게 되었지만, 그만큼 비용 부담도 커질 수 있습니다.

헤드룸은 다음과 같은 정보들을 압축 대상으로 삼습니다.

  • 대화 기록: 이전 대화의 내용들을 분석하여 중복되거나 불필요한 부분을 제거합니다.
  • 로그 데이터: AI가 작업을 수행하는 과정에서 발생하는 로그 정보를 효율적으로 정리합니다.
  • 도구 출력: AI가 사용하는 외부 도구(API 호출, 데이터베이스 쿼리 등)에서 나오는 결과물 중 필요한 정보만 추출합니다.
  • RAG(Retrieval-Augmented Generation) 관련 문서: RAG 기술은 외부 지식 베이스에서 관련 정보를 검색하여 AI의 답변을 보강하는 방식인데, 이때 검색된 문서 중 불필요한 부분을 걸러냅니다.

이 모든 과정은 AI 모델에게 전달되기 전에 이루어집니다. 즉, AI는 처음부터 더 '정제되고 가벼운' 정보만을 받게 되는 것이죠. 이는 마치 요리사가 재료를 다듬고 다듬어 최고의 맛을 낼 수 있는 상태로 만드는 것과 같습니다. 재료 손질에 공을 들이면, 최종 요리의 맛과 효율성이 크게 달라지는 것처럼 말이죠.

Adalo
Photo by Team Nocoloco on Unsplash

결국, 우리에게 어떤 영향이 있을까?

테자스 초프라의 프로젝트 헤드룸이 오픈소스로 공개되었다는 것은 매우 고무적인 소식입니다. 이는 단순히 넷플릭스 내부의 비용 절감 기술을 넘어, 전 세계 개발자와 기업들이 AI 비용 부담을 줄이고 AI를 더욱 자유롭게 활용할 수 있는 기회를 제공한다는 의미이기 때문입니다.

가장 직접적인 영향은 AI 모델 사용 비용의 획기적인 절감입니다. 프로젝트 헤드룸을 도입한 여러 팀들은 이미 상당한 금액을 절약했다고 합니다. 초프라가 발표한 내용에 따르면, 현재까지 헤드룸 사용자들은 총 70만 달러(약 9억 6천만원)에 달하는 비용을 절감했으며, 이는 2000억 개의 토큰에 해당하는 금액입니다. 이는 AI 기술 도입에 망설임을 느끼던 중소기업이나 개인 개발자들에게도 큰 기회가 될 수 있습니다. 이제 비용 걱정 때문에 AI 활용을 주저할 필요가 없어지는 것이죠.

또한, 프로젝트 헤드룸의 '가역적인 압축' 능력은 매우 중요합니다. 이는 필요에 따라 압축된 정보를 다시 원래대로 복원할 수 있다는 뜻입니다. AI 모델이 특정 정보를 더 깊이 이해하거나, 디버깅을 위해 상세한 로그가 필요할 때, 언제든지 원본 정보에 접근할 수 있다는 것은 AI 개발 및 운영의 유연성을 크게 높여줍니다. 단순히 비용만 절감하는 것이 아니라, AI 시스템의 성능과 신뢰성을 유지하면서 효율성을 높이는 것이 가능해진 것입니다.

오픈소스 정신에 입각하여 공개된 만큼, 앞으로 더 많은 개발자들이 프로젝트 헤드룸에 기여하고 개선해 나갈 것입니다. 이는 AI 기술의 발전 속도를 더욱 가속화시키는 선순환 구조를 만들 수 있습니다. 더 많은 사람들이 AI의 혜택을 누릴 수 있게 되는 것입니다.

AI 시대, '효율성'이 곧 경쟁력

넷플릭스의 테자스 초프라가 선보인 프로젝트 헤드룸은 AI 기술 발전의 또 다른 측면을 보여줍니다. 바로 'AI를 어떻게 효율적으로 사용할 것인가'에 대한 질문입니다. AI의 성능만큼이나 중요한 것이 바로 이러한 AI를 어떻게 지속 가능하고 경제적으로 활용할 수 있느냐 하는 문제입니다.

AI 모델을 단순히 '똑똑한 도구'로만 볼 것이 아니라, '비용이 발생하는 시스템'으로 인식하고 최적화하려는 노력은 앞으로 AI 시대를 살아가는 모든 개인과 기업에게 필수적인 역량이 될 것입니다. 초프라의 솔루션은 이러한 변화의 시작을 알리는 중요한 신호탄이라고 할 수 있습니다. 앞으로 우리는 AI의 놀라운 능력뿐만 아니라, 그 능력을 '현명하게' 활용하는 기술에도 주목해야 할 것입니다.

결국, AI 시대의 진정한 승자는 더 똑똑한 AI를 개발하는 능력뿐만 아니라, AI를 가장 효율적으로, 그리고 경제적으로 사용하는 방법을 아는 자가 될 것입니다. 프로젝트 헤드룸은 바로 그 '사용하는 방법'에 대한 혁신적인 해답을 제시하고 있습니다. 혹시 AI 모델 사용 비용이 부담스럽거나, AI 시스템의 효율성을 높이고 싶다면, 지금 바로 프로젝트 헤드룸을 살펴보는 것은 어떨까요?

원문 참고: https://www.theregister.com/ai-ml/2026/05/31/netflix-wiz-creates-app-to-slash-ai-bills-then-open-sources-it/5248702

댓글 쓰기