문서 이해

Gemini API는 긴 문서 (최대 1, 000페이지)를 포함한 PDF 입력을 지원합니다. Gemini 모델은 기본 비전으로 PDF를 처리하므로 문서 내 텍스트와 이미지 콘텐츠를 모두 이해할 수 있습니다. 네이티브 PDF 비전 지원을 통해 Gemini 모델은 다음을 실행할 수 있습니다.

  • 문서 내의 다이어그램, 차트, 표 분석
  • 구조화된 출력 형식으로 정보를 추출
  • 문서의 시각적 콘텐츠 및 텍스트 콘텐츠에 관한 질문에 답변
  • 문서 요약
  • 다운스트림 애플리케이션에서 사용할 수 있도록 레이아웃과 서식을 보존하면서 문서 콘텐츠를 스크립트로 변환 (예: HTML로)

이 튜토리얼에서는 Gemini API를 사용하여 PDF 문서를 처리하는 몇 가지 방법을 보여줍니다.

기술 세부정보

Gemini는 최대 1,000개의 문서 페이지를 지원합니다. 문서 페이지는 다음 텍스트 데이터 MIME 유형 중 하나여야 합니다.

  • PDF - application/pdf
  • JavaScript - application/x-javascript, text/javascript
  • Python - application/x-python, text/x-python
  • TXT - text/plain
  • HTML - text/html
  • CSS - text/css
  • 마크다운 - text/md
  • CSV - text/csv
  • XML - text/xml
  • RTF - text/rtf

각 문서 페이지는 258개의 토큰에 해당합니다.

문서의 픽셀 수에는 모델의 컨텍스트 창 외에도 특별한 제한이 없지만, 큰 페이지는 원래 가로세로 비율을 유지하면서 최대 해상도인 3072x3072로 축소되고, 작은 페이지는 768x768픽셀로 확대됩니다. 크기가 작은 페이지의 경우 대역폭을 제외하고 비용이 절감되지 않으며, 해상도가 높은 페이지의 경우 성능이 개선되지 않습니다.

최상의 결과를 얻는 방법

  • 업로드하기 전에 페이지를 올바른 방향으로 회전하세요.
  • 흐릿한 페이지는 피하세요.
  • 단일 페이지를 사용하는 경우 텍스트 프롬프트를 페이지 뒤에 배치합니다.

다음 단계

자세한 내용은 다음 리소스를 참고하세요.

  • 파일 프롬프트 전략: Gemini API는 텍스트, 이미지, 오디오, 동영상 데이터를 사용한 프롬프트(다중 모달 프롬프트라고도 함)를 지원합니다.
  • 시스템 안내: 시스템 안내를 사용하면 특정 요구사항 및 사용 사례에 따라 모델의 동작을 조정할 수 있습니다.