목차
오늘은 챗GPT와 대규모 언어 모델 LLM의 운용 비용에 대해서 semianalysis가 분석한 매우 흥미로운 기사를 요약 정리하여 소개합니다.
챗GPT 비용
ChatGPT가 현재 하드웨어 추론 비용으로 작동하는 데 하루에 약 $700,000의 비용이 듭니다.
만약 ChatGPT의 현재 구현 및 운영이 모든 Google 검색에 포함되어 적용된다면 비용 구조가 360억 달러로 크게 증가할 것입니다.
이는 Google의 서비스 사업부의 연간 순이익을 2022년 555억 달러에서 195억 달러로 감소 시킬 것입니다.
대규모 언어모델(LLM) 비용 분석

최적화의 첫 번째 라운드는 간단합니다. Bing GPT의 실제 예 84개에 대한 토큰 출력 수는 ChatGPT에 사용된 2,000개에 비해 350개로 훨씬 낮았습니다.
대부분의 경우 사람들은 검색과 상호 작용할 때 많은 양의 정보를 읽는 것을 피하고 싶어합니다. 이 추정치는 사용자에게 표시되지 않는 토큰을 설명합니다.
후속 최적화는 상위 2,000개의 키워드가 검색의 12.2%를 차지하고 더 많은 키워드가 순전히 탐색 검색이라는 것입니다. 검색의 20%에 LLM이 필요하지 않다고 가정해 보겠습니다.
마지막으로 Google은 Nvidia 기반 HGX A100을 사용하는 Microsoft/OpenAI에 비해 사내 TPUv4 포드를 사용하여 상당한 인프라 이점을 가지고 있습니다.
이러한 간단한 최적화를 통해 LLM을 검색에 구현하는 데 드는 추가 비용은 Google의 경우 30억 달러에 불과합니다.
모든 것이 처음부터 완벽하게 설정된다면 하드웨어에만 Google의 Capex 비용은 데이터 센터 인프라를 포함하여 약 200억 달러가 될 것입니다.
이것은 Nvidia H100 및 Google의 TPUv5와 같은 새로운 하드웨어 또는 MoE, 희소성, 가지치기, 모델 증류, kv 캐시 및 조기 종료와 같은 다양한 기술이 비용을 개선하기 전입니다.
검색 아키텍처
수익 및 비용 관점에서 발생하는 변화에 대해 자세히 알아보려면 먼저 현재 검색 아키텍처를 설명해야 합니다.
검색 파이프라인에는 크롤러 , 색인 , 쿼리 프로세서 및 광고 엔진 의 네 가지 주요 프로세스가 있습니다.
크롤러
크롤러는 웹 페이지, 이미지 및 비디오를 포함하여 인터넷에서 새로운 콘텐츠를 자동으로 찾아 검색 엔진의 데이터베이스(색인)에 추가합니다.
크롤러는 콘텐츠 추출에서도 중요한 역할을 합니다. 목표는 빠르고 정확한 검색을 지원하기 위해 해당 데이터의 전체 크기를 최소화하면서 웹 페이지에 포함된 내용을 포괄적으로 텍스트화 하는 것입니다.
대기 시간은 검색에서 가장 중요한 요소이며 수백 밀리초라도 사용자가 검색하는 양에 상당한 영향을 미칩니다.
색인
색인은 크롤러가 발견한 정보를 저장하는 데이터베이스입니다.
검색해야 하는 데이터 볼륨을 최소화하기 위해 인덱스 계층에서 상당한 양의 사전 처리가 수행됩니다. 이는 대기 시간을 최소화하고 검색 관련성을 최대화합니다.
쿼리 프로세서
이것은 사용자의 쿼리를 수신하고 가장 관련성이 높은 결과를 생성합니다.
사용자의 쿼리를 구문 분석하고, 키워드와 구로 나누고, 인덱스에서 가장 관련성이 높은 항목을 가져온 다음 해당 사용자의 특정 쿼리에 대해 다시 순위를 지정하고 필터링하여 이를 수행합니다.
쿼리 프로세서는 이러한 결과를 사용자에게 표시하는 역할도 합니다.
광고 엔진
광고 엔진은 클릭률과 수익을 극대화하는 각 사용자에 대한 개인화된 추천을 생성하기 위해 사용자 쿼리, 사용자 프로필, 위치 및 광고 성과 간의 관계를 모델링 합니다.
광고 시장은 광고주가 일반적으로 키워드, 구문 또는 특정 사용자 유형에 대해 비용을 지불하는 실시간 입찰 구조입니다.
LLM을 사용하면 소비자가 읽는 부분은 광고주가 입찰한 처음 몇 개의 결과가 아닙니다. 대신 LLM의 출력 결과가 보여질 것입니다.
따라서 이것은 대화형 LLM의 출현으로 가장 많이 변경될 검색 스택의 일부입니다.
급진적인 변화
검색 내 LLM은 검색 엔진의 인터페이스에 포함된 하나의 큰 모델이 아닙니다. 대신 많은 모델이 인터레이스 됩니다.
Google은 역사적으로 검색 스택의 4개 계층 모두에서 AI 사용을 개척했지만 현재 검색은 사용자 경험, 사용 모델 및 수익 창출 구조에서 근본적인 변화를 겪고 있어 소프트웨어 스택의 많은 기존 부분을 무효화할 수 있습니다.
Microsoft 및 OpenAI 팀은 주의를 제쳐두고 검색 스택의 네 가지 요소 모두에 대한 급진적인 재작업을 테스트할 가능성이 더 큽니다.
구글 Bard
Google이 너무 안전하고 너무 일찍 최적화하는 가장 분명한 예는 검색 경쟁자인 Bard입니다.
Google의 Bard는 LaMDA의 경량 모델 버전으로 지연 응답 시간이 더 짧은 더 작은 모델입니다. 이 훨씬 더 작은 모델은 훨씬 더 적은 컴퓨팅 성능을 필요로 하므로 더 많은 사용자로 확장할 수 있으므로 더 많은 피드백이 가능합니다.
Google은 사내에 훨씬 뛰어난 PaLM 모델을 보유하고 있지만 이를 배포할 여력이 없습니다.
컨텍스트가 왕이다
사용자 대면 모델과 미래 AI 실리콘의 핵심은 이전 모델이나 소스 자료를 더 많이 레이어를 통해 전달할 수 있도록 컨텍스트 창을 늘리는 것입니다.
시퀀스 길이를 확장하는 것은 또한 추론 비용 측면에서 매우 비용이 많이 들기 때문에 비용 구조가 부풀어 오를 것입니다.
이와 같이 실시간 전선에서 이와 관련하여 많은 최적화가 있을 것입니다. 크롤링 및 인덱싱 단계에서 컨텍스트 창을 최대화하여 소스 자료를 가능한 한 높은 품질 표준으로 최대한 조밀화 할 수 있습니다.
그런 다음 스택의 실시간 쿼리 부분에서 더 작은 모델을 활성화하여 검색 및 컨텍스트 창의 양을 최소화하여 대기 시간을 줄이고 응답 시간을 향상 시킵니다.
전체 검색 스택에 대한 LLM 구현
지난 30년 동안 모든 문서, 이메일, 엑셀 시트, PDF 및 인스턴트 메시지를 스캔하는 고급 엔터프라이즈 검색 및 대화형 AI 비서의 일부로 Microsoft가 이러한 기술을 동일한 방식으로 적용한 방법을 보는 것도 흥미로울 것입니다.
물론 구글은 여전히 마이크로소프트가 경쟁에서 거의 할 수 없는 영역인 안드로이드, 유튜브, 지도, 쇼핑, 항공편, 사진 모듈을 가지고 있기 때문에 무슨 일이 있어도 검색에서 구글을 앞서게 할 수 있습니다.
맺음말
아쉽게도 운영 및 인프라 수준에서 새로운 검색 스택을 구상하는 방법에 대한 설명은 유료 회원에게 허락된 내용이라 확인하지 못했습니다.
하지만, 챗GPT 비용과 대규모 언어 모델 LLM의 비용 구조, 그리고 검색 시장의 급진적인 변화를 일으키는 주요 검색 스택을 확인할 수 있었습니다.
그리고 왜 구글이 뛰어난 LLM을 보유하고도 경량 모델 버전 Bard를 선택했는지와 마이크로소프트 검색 시장의 게임 체인저인 챗GPT를 자사 서비스에 어떻게 활용할 수 있는지를 가늠할 수 있었습니다.
올해 2023년은 그 어느 때 보다 구글과 마이크로소프트의 AI 검색 시장 경쟁과 함께 전세계 사용자들은 과연 누구의 손을 들어 줄지 기대가 되는 한해가 될 것입니다.
추가로 ChatGPT 사용 방법 관련해서는 아래 글을 참조 바랍니다.



















