PDFには2種類ある
解説 約6分で読めます
同じ「PDF」でも、中身が文字でできているもの(テキスト系)と、見た目は文字でも中身は画像でしかないもの(画像系)の、大きく2種類があります。取引先から届く請求書や見積書を思い浮かべてください。相手のシステムが出力したPDFと、紙をスキャンして作ったPDFとでは、画面で見るぶんには同じでも、中身はまるで違います。AIは今、どちらも読めます。それでも、そのPDFが文字を持っているかどうかは、AIに読ませるときも、AIにプログラムを書かせて処理させるときも、結果の確実さを左右します。この記事では、2つの違いと簡単な見分け方、そしてなぜその違いが効いてくるのかを押さえます。
文字を持つPDFと、画像だけのPDF
Section titled “文字を持つPDFと、画像だけのPDF”テキストとバイナリで、PDFは専用ソフトで開くバイナリの一種だと説明しました。ところが、同じバイナリのPDFでも、その中身は一様ではありません。大きく2つに分かれます。
- テキスト系(文字を持つPDF) … WordやExcel、Webページ、業務システムなどから、デジタルなデータのまま書き出したPDFです。中に文字データそのものを持っているので、文字を選択したりコピーしたり、検索したりできます。
- 画像系(画像だけのPDF) … 紙の書類をスキャナーで読み取ったり、スマホで撮影したりして作ったPDFです。一見すると文字が並んでいますが、その中身は文字データではなく、こまかな点の集まった「画像」でしかありません。人の目には文字に見えても、コンピュータにとっては、文字の形をした模様の写真にすぎないのです。
両者の違いを整理すると、こうなります。
| 観点 | テキスト系(文字を持つPDF) | 画像系(画像だけのPDF) |
|---|---|---|
| どう作られる | Word・Web・業務システムから書き出す | 紙をスキャン、写真で撮影 |
| 中身 | 文字データ | こまかな点の集まり(画像) |
| 文字の選択・コピー・検索 | できる | できない |
見た目では区別がつかない
Section titled “見た目では区別がつかない”やっかいなのは、開いて眺めただけでは、どちらか見分けがつかないことです。どちらも同じ ◯◯.pdf という顔をしています。
いちばん簡単な見分け方は、文字を選択(ドラッグ)してコピーできるか試すことです。文字の上をなぞって選択できれば、そのPDFは文字データを持っています。なぞっても選べず、ページ全体が一枚の絵のように扱われるなら、画像系です。
ただし、「選択できれば最初から文字を持つテキスト系」とまでは言い切れません。中間のタイプがあるからです。スキャンした画像系のPDFに、あとからOCR——画像の中の文字を読み取って文字データに変換する技術——をかけ、画像の上に見えない文字の層を重ねたものです(「サーチャブルPDF」「透明テキスト付きPDF」などと呼ばれます)。見た目は画像のままですが、重ねた文字の層のおかげで検索やコピーはできます。ただし、その文字はOCRが読み取った結果なので、元のスキャンが不鮮明だったり手書きだったりすると、誤読が混じります。文字を選べたとしても、その正確さは元の画像しだいなのです。
AIはどちらも読めるが、確実さは同じではない
Section titled “AIはどちらも読めるが、確実さは同じではない”では、AIに渡すときはどうでしょうか。結論から言えば、ChatGPT や Gemini、Claude といった主要な対話型AIの多くは、テキスト系も画像系も読めるようになっています。画像系のPDFをそのまま渡しても、AIが画像の中の文字を読み取って、内容を要約したり質問に答えたりしてくれます。だから「画像系はAIに渡せない」というのは、もう古い理解です。
ただし、読み取りの確実さには差があります。テキスト系は、もともと持っている文字データをそのまま受け取るので、まず正確です。一方、画像系は、AIがその場で画像から文字を読み取る——つまりOCRの一種を働かせる——ことになります。スキャンが鮮明ならかなりの精度で読めますが、文字がかすれていたり、手書きだったり、複雑なレイアウトだったりすると、読み間違いが起こりえます。
ざっと内容を把握したいだけなら、画像系でもAIは十分に役立ちます。けれど、金額や日付のような「一字一句が合っていてほしい情報」を扱うなら、テキスト系のほうが安心だと覚えておいてください。
くり返し処理するなら、文字を持つ方が強い
Section titled “くり返し処理するなら、文字を持つ方が強い”この差がはっきり効いてくるのが、同じ処理を何度も繰り返す場面です。
たとえば、毎月たまっていく請求書PDFから、金額と日付だけを抜き出して一覧に集計したいとします。こうした「決まった処理を、正確に、何度でも」という仕事は、AIに直接やらせるより、AIにプログラムを書かせて処理させるほうが向いています。プログラムは、決めた手順を寸分たがわず繰り返すからです。
このとき、元のPDFがテキスト系なら、プログラムはもとの文字データをそのまま読み取れます。OCRのような「読み取りの誤差」が入り込まないので、何度処理しても同じ結果になる——再現性が高いわけです。ところが画像系だと、プログラムはまずOCRで文字を読み取る一段を挟まねばならず、その精度に結果が左右されます。同じ請求書でも、スキャンの具合によって読み取りがぶれることがあるのです。
だから、自分がPDFを作って渡す側のときは、できるだけ最初から文字データを持つかたちで書き出す——紙に印刷してスキャンし直すのではなく、もとのWordやExcelからそのままPDFに保存する——ことを意識すると、受け取った相手(そして将来の自分)が、AIにもプログラムにも渡しやすくなります。
つまずきやすいところ
Section titled “つまずきやすいところ”- 「PDFなら全部同じ」と思ってしまう。 同じ拡張子
.pdfでも、文字を持つものと画像だけのものは別物です。拡張子は種類を示す名札にすぎません(→ 拡張子の正体)。 - 「スキャンした書類はAIに読ませられない」と思い込む。 今のAIは画像系PDFも読めます。ただし、読み取りの精度は画質しだいでぶれる、という前提は持っておきましょう。
- 検索できるPDF=中身まで正確、とは限らない。 サーチャブルPDFは検索やコピーができますが、その文字はOCRの結果です。元のスキャンが粗ければ、見えない文字の層にも誤読が残っています。
PDFには、最初から文字データを持つテキスト系と、見た目は文字でも中身は画像でしかない画像系があります(その中間に、画像へOCRで文字を足したサーチャブルPDFも)。AIは今どちらも読めますが、テキスト系は文字をそのまま扱えるぶん、AIに読ませても、プログラムに処理させても確実で、再現性が高い。くり返しの処理や、一字一句が合っていてほしい場面ほど、その違いが効いてきます。
自分が扱っているPDFがどちらなのかは、文字を選択できるか試せばすぐ分かります。まずはそこから意識してみてください。そして、PDFから数字や決まった項目を抜き出して処理したくなったら、それはAIに直接訊くより、プログラムに解かせるほうが向いた仕事かもしれません。
この視点は役に立ちましたか?
最終点検: 2026年6月17日
出典: さとりのしょ — https://satorinosho.jp/it-foundations/pdf-text-or-image/