티스토리 뷰

728x90
반응형

https://openai.com/api/pricing/

 

 

 

OpenAI의 API를 사용하여 다양한 자연어 처리(NLP) 작업을 수행할 때, 가장 중요한 요소 중 하나는 토큰(token)입니다. 토큰은 문장의 작은 단위로, OpenAI 모델은 이 토큰을 기반으로 텍스트를 생성하거나 처리합니다. 하지만 각 요청에 대해 사용되는 토큰 수와 이에 따른 비용을 예측하는 것이 중요합니다. 특히 한국어로 작업할 때는 영어와 달리 토큰 수가 더 많이 소모될 수 있습니다.

OpenAI API 가격 구조

OpenAI는 모델별로 가격이 다릅니다. GPT-3.5와 GPT-4o 등 다양한 모델을 제공하며, 각 모델의 처리 능력과 가격이 다릅니다. API 사용 요금은 주로 입력 토큰출력 토큰의 수에 따라 계산됩니다. 여기서 중요한 점은 한국어 텍스트는 영어보다 더 많은 토큰을 소모할 수 있다는 것입니다. 그 이유는 영어 문장이 단어당 평균 1~2개의 토큰을 사용하지만, 한국어는 한 글자가 하나의 토큰으로 처리되기 때문에 더 많은 토큰을 요구합니다.

예산을 책정하기 위한 변수는 (1)GPT 모델선택 (2)토큰수 예측 (3)사용자*사용빈도 를 알아야 합니다. 

 

 

이 가격은 입력 및 출력 토큰의 수에 따라 계산됩니다. 토큰은 텍스트의 작은 단위로, 예를 들어 한국어 문장에서 단어 또는 글자 하나하나가 토큰으로 처리될 수 있습니다.

1. 모델별 OpenAI API 가격 구조

모델별 입력/출력 토큰표 
모델 입력 토큰 출력 토큰
GPT-3.5 $0.0015 / 1,000 토큰 $0.002 / 1,000 토큰
GPT-4 $0.03 / 1,000 토큰 $0.06 / 1,000 토큰
GPT-4-Mini $0.015 / 1,000 토큰 $0.03 / 1,000 토큰

이 가격은 입력 및 출력 토큰의 수에 따라 계산됩니다. 토큰은 텍스트의 작은 단위로, 예를 들어 한국어 문장에서 단어 또는 글자 하나하나가 토큰으로 처리될 수 있습니다. 이부분은 가격이 변동되는 부분이므로 공식 사이트를 참고해 주시기 바랍니다. 본 블로그에서는 현재 가격으로 예측값을 정리하였습니다.  (공식 사이트:  https://openai.com/api/pricing/

▲ 위와 같이 모델의 버전별 토큰별 가격이 명시 되어 있으며 계싼을 해볼 수 있게 됩니다.

 

2. Token 에 대한 이해하기 : Token (토큰)이란?

토큰은 단어, 부분 단어, 또는 문장 부호 등을 의미하며, 예를 들어 "ChatGPT는 정말 놀라운 도구입니다!"라는 문장은 다음과 같이 토큰으로 나뉠 수 있습니다:

  • ChatGPT -> 1 토큰
  • 는 -> 1 토큰
  • 정말 -> 1 토큰
  • 놀라운 -> 1 토큰
  • 도구입니다 -> 1 토큰
  • ! -> 1 토큰

즉, 이 문장은 총 6개의 토큰을 사용합니다. 한국어의 경우, 영어보다 더 많은 토큰이 필요할 수 있습니다. 예를 들어, 영어 문장 "ChatGPT is amazing!"은 4개의 토큰만 소모됩니다.

3. 한국어 기반 토큰 사용 예측

한국어는 영어보다 더 많은 토큰을 소모하는 경향이 있습니다. 예를 들어, "안녕하세요, 오늘 기분이 어떠세요?"라는 문장은 대략 12개의 토큰을 소모합니다. 이는 비슷한 길이의 영어 문장보다 20-30% 정도 더 많은 토큰이 사용될 수 있음을 의미합니다.

  1. 한국어와 영어의 차이점: 한국어 텍스트는 영어보다 더 많은 토큰을 소비할 수 있습니다. 같은 길이의 문장이라도 한국어는 평균적으로 약 20-30% 더 많은 토큰을 사용합니다. 따라서 한국어로 긴 문서를 생성하거나 처리할 경우, 더 높은 비용이 발생할 수 있습니다.
  2. 토큰 수 계산 예시:
    예를 들어, 1,000자의 한국어 텍스트는 대략 700~800개의 토큰을 사용할 수 있습니다. 영어 텍스트와 비교했을 때, 동일한 길이의 문장은 약 500~600개의 토큰을 사용할 수 있습니다.

 

4. 사용자 1,000명이 하루 3번씩 질문할 때의 예상 비용 

다음은 하루에 1,000명의 사용자가 3번 질문한다고 가정했을 때의 비용을 추산한 결과입니다.

가정:

      • 한 번의 질문에서 입력 및 출력 토큰 합계가 평균 100개의 토큰이라고 가정합니다.
        (입력150, 출력 150, 한국어 문장 기준)
      • 총 토큰 수: 1,000명 × 3회 질문 × 100 토큰 = 300,000 토큰

GPT-3.5 예상 비용:

      • 입력 토큰 비용: 150,000 토큰 × $0.0015 = $0.225
      • 출력 토큰 비용: 150,000 토큰 × $0.002 = $0.30
      • 총 비용: $0.525 (하루)

GPT-4 예상 비용:

      • 입력 토큰 비용: 150,000 토큰 × $0.03 = $4.5
      • 출력 토큰 비용: 150,000 토큰 × $0.06 = $9
      • 총 비용: $13.5 (하루)

GPT-4-Mini 예상 비용:

      • 입력 토큰 비용: 150,000 토큰 × $0.015 = $2.25
      • 출력 토큰 비용: 150,000 토큰 × $0.03 = $4.5
      • 총 비용: $6.75 (하루)

(결론) 1,000명이 하루에 3번 질문시 월별 예상 비용

  • 저는 가장  합리적인 가격의 서비스인 GPT-4-mini로 모델을 선택하고 서비스 비용을 계산하였습니다. 
      • GPT-3.5: $0.525 × 30일 = $15.75 (한화 약 18,900원)
      • GPT-4: $13.5 × 30일 = $405 (한화 486,000원) 
      • GPT-4-Mini: $6.75 × 30일 = $202.5 (한화 244,000원) 

 

(참고) 실제 Open AI에서 제공한 토큰 계산기 활용 비용 산출 코드 

- 아래의 글은 실제 OpenAI에서 제공하는 ticktoken을 활용하여 텍스트 데이터를 기반으로 토큰수를 추출하는 코드입니다. 해당 코드를 활용하여 토큰 수 및 예상 비용을 측정해 보시기 바랍니다. 

 

 

 

 

2025.03.17 - [AI 도구 활용방법] - Open AI에서 공식적으로 제공하는 토큰 수 계산 및 비용 산출 자동화 모듈(ticktoken)

 

CSV 데이터를 활용한 토큰 수 계산 및 비용 산출 자동화(ticktoken)

GPT API를 활용한 모델 파인튜닝이나 호출 시, 입력 데이터가 얼마나 많은 토큰으로 구성되어 있는지 파악하는 것은 매우 중요합니다. 특히, fine-tuning의 경우 텍스트 데이터의 토큰 수에 따라 비용

4ourfuture.tistory.com

 

 

728x90
반응형