OpenAI 최신 멀티모달 모델 GPT-4 출시

1 OpenAI가 14일 (현지 시간) 최신 멀티모달 모델 GPT-4 출시를 발표했습니다.

OpenAI가 14일 (현지 시간) 최신 멀티모달 모델 GPT-4 출시를 발표했습니다.

OpenAI의 GPT-4 출시 기사 중 GPT-4에 대한 테스트 방법과 비용, 활용 사례, 성능과 작동방식을 가장 잘 설명하고 있는 TechCrunch의 기사를 소개합니다.

GPT-4 출시 및 비용

OpenAI는 “딥 러닝을 확장하기 위한 노력의 최신 이정표”라고 부르는 강력한 새 이미지 및 텍스트 이해 AI 모델인 GPT-4를 출시했습니다.

GPT-4는 현재 ChatGPT Plus(사용량 제한 있음)를 통해 OpenAI의 유료 사용자에게 제공되며, 개발자는 대기자 명단에 등록하여 API에 액세스할 수 있습니다.

가격은 “프롬프트” 토큰 1,000개당 0.03달러(약 750단어), “완료” 토큰 1,000개당 0.06달러(약 750단어)입니다. 프롬프트 토큰은 GPT-4에 공급되는 단어의 일부이며, 완성 토큰은 GPT-4에서 생성된 콘텐츠입니다.

참고로 ChatGPT와 LLM의 구축, 운영 비용을 알고 싶다면 챗GPT와 대규모 언어모델 LLM 비용 분석 글을 참조하시기 바랍니다.

GPT-4 활용 사례

알고 보니 GPT-4는 눈에 잘 띄지 않는 곳에 숨어 있었습니다. Microsoft는 오늘 OpenAI와 공동 개발한 챗봇 기술인 Bing Chat이 GPT-4에서 실행되고 있음을 확인했습니다.

다른 얼리 어답터로는 비즈니스 웹사이트를 스캔하고 고객 지원 직원에게 요약을 제공하는 데 GPT-4를 사용하는 Stripe가 있습니다.

Duolingo는 새로운 언어 학습 구독 티어에 GPT-4를 구축했습니다. Morgan Stanley는 회사 문서에서 정보를 검색하여 재무 분석가에게 제공하는 GPT-4 기반 시스템을 만들고 있습니다. 그리고 Khan Academy는 일종의 자동 튜터를 구축하기 위해 GPT-4를 활용하고 있습니다.

참고로 ChatGPT를 활용한 추가 사례를 알고 싶다면 ChatGPT 활용 구글 애드센스 승인 실제 후기 글을 참조하시기 바랍니다.

GPT-4 성능

GPT-4는 텍스트를 생성하고 이미지와 텍스트 입력을 받을 수 있으며, 텍스트만 받았던 이전 버전인 GPT-3.5보다 개선되어 다양한 직업 및 학문적 벤치마크에서 ‘인간 수준’의 성능을 발휘합니다.

예를 들어, GPT-4는 모의 변호사 시험에서 응시자 중 상위 10% 정도의 점수로 합격한 반면, GPT-3.5의 점수는 하위 10% 정도에 머물렀습니다.

OpenAI는 6개월 동안 내부 적대적 테스트 프로그램과 ChatGPT에서 얻은 교훈을 사용하여 GPT-4를 “반복적으로 조정”했으며, 그 결과 사실성, 조종성, 가드레일을 벗어나는 것을 거부하는 “역대 최고의 결과”를 얻었다고 회사 측은 설명합니다.

이전 GPT 모델과 마찬가지로 GPT-4는 공개 웹페이지를 비롯한 공개적으로 사용 가능한 데이터와 OpenAI가 라이선스를 부여한 데이터를 사용하여 학습되었습니다.

GPT-4 기능 및 작동방식

OpenAI는 Microsoft와 협력하여 Azure 클라우드에서 처음부터 ‘슈퍼컴퓨터’를 개발했으며, 이 슈퍼컴퓨터는 GPT-4를 훈련하는 데 사용되었습니다.

“일상적인 대화에서 GPT-3.5와 GPT-4의 차이는 미묘할 수 있습니다.”라고 OpenAI는 GPT-4를 발표하는 블로그 게시물에서 썼습니다. “작업의 복잡성이 충분한 임계값에 도달하면 그 차이가 드러납니다. GPT-4는 GPT-3.5보다 더 안정적이고 창의적이며 훨씬 더 미묘한 명령을 처리할 수 있습니다.”라고 설명합니다.

의심할 여지 없이 GPT-4의 가장 흥미로운 측면 중 하나는 텍스트뿐만 아니라 이미지도 이해하는 능력입니다. 예를 들어, GPT-4는 연결된 iPhone 사진에서 라이트닝 케이블 어댑터를 식별하는 등 비교적 복잡한 이미지에 캡션을 붙이고 해석까지 할 수 있습니다.

이미지 이해 기능은 아직 모든 OpenAI 고객이 사용할 수 있는 것은 아니며, OpenAI는 우선 단일 파트너인 Be My Eyes와 함께 이 기능을 테스트하고 있습니다. GPT-4로 구동되는 Be My Eyes의 새로운 가상 자원 봉사자 기능은 전송된 이미지에 대한 질문에 답할 수 있습니다. 이 기능은 블로그 게시물에서 작동 방식을 설명합니다.

“예를 들어 사용자가 냉장고 내부 사진을 보내면 가상 지원자가 냉장고 안에 무엇이 있는지 정확하게 식별할 수 있을 뿐만 아니라 해당 재료로 무엇을 만들 수 있는지 추정하고 분석할 수 있습니다. 그런 다음 이 도구는 해당 재료에 대한 다양한 레시피를 제공하고 만드는 방법에 대한 단계별 가이드를 보낼 수도 있습니다.”

GPT-4에서 더욱 의미 있는 개선 사항은 앞서 언급한 조종성 툴링입니다. OpenAI는 GPT-4를 통해 개발자가 특정 방향을 설명하여 스타일과 작업을 규정할 수 있는 새로운 API 기능인 ‘시스템’ 메시지를 도입합니다.

GPT-4 한계 및 개선

향후 ChatGPT에도 적용될 시스템 메시지는 기본적으로 AI의 다음 상호 작용에 대한 분위기를 설정하고 경계를 설정하는 지침입니다.

예를 들어 시스템 메시지는 다음과 같습니다.

“귀하는 항상 소크라테스 스타일로 답변하는 튜터입니다. 학생에게 정답을 알려주지 않고 항상 적절한 질문을 통해 학생이 스스로 생각하는 법을 배울 수 있도록 도와줍니다. 항상 학생의 흥미와 지식에 맞게 질문을 조정하고, 학생에게 적합한 수준이 될 때까지 문제를 더 간단한 부분으로 나누어야 합니다.”

하지만 시스템 메시지와 기타 업그레이드에도 불구하고 OpenAI는 GPT-4가 완벽하지 않다는 점을 인정합니다. 여전히 사실을 ‘환각’하고 추론 오류를 범하며, 때로는 큰 확신을 가지고 추론하기도 합니다. OpenAI가 인용한 한 예에서 GPT-4는 엘비스 프레슬리를 “배우의 아들”로 묘사했는데, 이는 명백한 실수였습니다.

OpenAI는 “GPT-4는 일반적으로 대부분의 데이터가 끊긴(2021년 9월) 이후에 발생한 사건에 대한 지식이 부족하고 경험을 통해 학습하지 못합니다.”라고 썼습니다.

“때때로 많은 영역에서 능력에 맞지 않는 단순한 추론 오류를 범하거나 사용자의 명백한 거짓 진술을 지나치게 쉽게 받아들일 수 있습니다. 그리고 때로는 생성한 코드에 보안 취약점을 도입하는 등 인간과 같은 방식으로 어려운 문제에 실패할 수도 있습니다.”

하지만 OpenAI는 특정 영역에서 개선이 이루어졌다고 말합니다.

예를 들어, GPT-4는 위험한 화학 물질을 합성하는 방법에 대한 요청을 거부할 가능성이 적습니다. 이 회사는 GPT-4가 GPT-3.5에 비해 ‘허용되지 않는’ 콘텐츠 요청에 응답할 가능성이 전체적으로 82% 낮으며, 의학적 조언이나 자해와 관련된 요청 등 민감한 요청에 대해서는 OpenAI의 정책에 따라 29% 더 자주 응답한다고 말합니다.

GPT-4 앞으로의 과제

GPT-4에는 아직 풀어야 할 과제가 많습니다. 하지만 OpenAI는 개선된 기능에 대한 자신감을 바탕으로 전력을 다해 개발에 박차를 가하고 있습니다.

“우리는 GPT-4가 많은 애플리케이션을 지원하여 사람들의 삶을 개선하는 데 유용한 도구가 되기를 기대합니다.”라고 OpenAI는 썼습니다. “아직 해야 할 일이 많이 남아 있으며, 커뮤니티의 공동 노력을 통해 이 모델을 기반으로 구축, 탐색 및 기여함으로써 이 모델을 개선할 수 있기를 기대합니다.”

추가로 ChatGPT 사용 방법 관련해서는 아래 글을 참조 바랍니다.