Kuptimi i dokumentit

Gemini API mbështet hyrjen PDF, duke përfshirë dokumente të gjata (deri në 1000 faqe). Modelet Gemini përpunojnë PDF-të me vizion origjinal, dhe për këtë arsye janë në gjendje të kuptojnë përmbajtjen e tekstit dhe të imazhit brenda dokumenteve. Me mbështetjen origjinale të vizionit PDF, modelet Gemini janë në gjendje të:

  • Analizoni diagramet, grafikët dhe tabelat brenda dokumenteve
  • Ekstraktoni informacionin në formate të strukturuara të daljes
  • Përgjigjuni pyetjeve në lidhje me përmbajtjen vizuale dhe tekstuale në dokumente
  • Përmblidhni dokumentet
  • Transkriptoni përmbajtjen e dokumentit (p.sh. në HTML) duke ruajtur paraqitjet dhe formatimin, për përdorim në aplikacionet e rrjedhës së poshtme

Ky udhëzues demonstron disa mënyra të mundshme për të përdorur API-në Gemini për të përpunuar dokumentet PDF.

Detaje teknike

Binjakët mbështet një maksimum prej 1000 faqe dokumentesh. Faqet e dokumentit duhet të jenë në një nga llojet e mëposhtme MIME të të dhënave tekstuale:

  • PDF - application/pdf
  • JavaScript - application/x-javascript , text/javascript
  • Python - application/x-python , text/x-python
  • TXT - text/plain
  • HTML - text/html
  • CSS - text/css
  • Markdown - text/md
  • CSV - text/csv
  • XML - text/xml
  • RTF - text/rtf

Çdo faqe dokumenti është e barabartë me 258 argumente.

Ndërsa nuk ka kufizime specifike për numrin e pikselëve në një dokument përveç dritares së kontekstit të modelit, faqet më të mëdha zvogëlohen në një rezolucion maksimal prej 3072x3072 duke ruajtur raportin e tyre origjinal të pamjes, ndërsa faqet më të vogla janë shkallëzuar deri në 768x768 piksele. Nuk ka ulje kostoje për faqet me madhësi më të ulët, përveç gjerësisë së brezit, ose përmirësimit të performancës për faqet me rezolucion më të lartë.

Për rezultate më të mira:

  • Rrotulloni faqet në orientimin e duhur përpara se të ngarkoni.
  • Shmangni faqet e paqarta.
  • Nëse përdorni një faqe të vetme, vendosni kërkesën për tekst pas faqes.

Çfarë është më pas

Për të mësuar më shumë, shikoni burimet e mëposhtme:

  • Strategjitë e nxitjes së skedarëve : Gemini API mbështet nxitjen me të dhëna teksti, imazhi, audio dhe video, të njohura gjithashtu si nxitje multimodale.
  • Udhëzimet e sistemit : Udhëzimet e sistemit ju lejojnë të drejtoni sjelljen e modelit bazuar në nevojat tuaja specifike dhe rastet e përdorimit.