PDFには2種類ある

解説約6分で読めます

同じ「PDF」でも、中身が文字でできているもの（テキスト系）と、見た目は文字でも中身は画像でしかないもの（画像系）の、大きく2種類があります。取引先から届く請求書や見積書を思い浮かべてください。相手のシステムが出力したPDFと、紙をスキャンして作ったPDFとでは、画面で見るぶんには同じでも、中身はまるで違います。AIは今、どちらも読めます。それでも、そのPDFが文字を持っているかどうかは、AIに読ませるときも、AIにプログラムを書かせて処理させるときも、結果の確実さを左右します。この記事では、2つの違いと簡単な見分け方、そしてなぜその違いが効いてくるのかを押さえます。

文字を持つPDFと、画像だけのPDF

テキストとバイナリで、PDFは専用ソフトで開くバイナリの一種だと説明しました。ところが、同じバイナリのPDFでも、その中身は一様ではありません。大きく2つに分かれます。

テキスト系（文字を持つPDF） … WordやExcel、Webページ、業務システムなどから、デジタルなデータのまま書き出したPDFです。中に文字データそのものを持っているので、文字を選択したりコピーしたり、検索したりできます。
画像系（画像だけのPDF） … 紙の書類をスキャナーで読み取ったり、スマホで撮影したりして作ったPDFです。一見すると文字が並んでいますが、その中身は文字データではなく、こまかな点の集まった「画像」でしかありません。人の目には文字に見えても、コンピュータにとっては、文字の形をした模様の写真にすぎないのです。

両者の違いを整理すると、こうなります。

観点	テキスト系（文字を持つPDF）	画像系（画像だけのPDF）
どう作られる	Word・Web・業務システムから書き出す	紙をスキャン、写真で撮影
中身	文字データ	こまかな点の集まり（画像）
文字の選択・コピー・検索	できる	できない

見た目では区別がつかない

やっかいなのは、開いて眺めただけでは、どちらか見分けがつかないことです。どちらも同じ ◯◯.pdf という顔をしています。

いちばん簡単な見分け方は、文字を選択（ドラッグ）してコピーできるか試すことです。文字の上をなぞって選択できれば、そのPDFは文字データを持っています。なぞっても選べず、ページ全体が一枚の絵のように扱われるなら、画像系です。

ただし、「選択できれば最初から文字を持つテキスト系」とまでは言い切れません。中間のタイプがあるからです。スキャンした画像系のPDFに、あとからOCR——画像の中の文字を読み取って文字データに変換する技術——をかけ、画像の上に見えない文字の層を重ねたものです（「サーチャブルPDF」「透明テキスト付きPDF」などと呼ばれます）。見た目は画像のままですが、重ねた文字の層のおかげで検索やコピーはできます。ただし、その文字はOCRが読み取った結果なので、元のスキャンが不鮮明だったり手書きだったりすると、誤読が混じります。文字を選べたとしても、その正確さは元の画像しだいなのです。

AIはどちらも読めるが、確実さは同じではない

では、AIに渡すときはどうでしょうか。結論から言えば、ChatGPT や Gemini、Claude といった主要な対話型AIの多くは、テキスト系も画像系も読めるようになっています。画像系のPDFをそのまま渡しても、AIが画像の中の文字を読み取って、内容を要約したり質問に答えたりしてくれます。だから「画像系はAIに渡せない」というのは、もう古い理解です。

ただし、読み取りの確実さには差があります。テキスト系は、もともと持っている文字データをそのまま受け取るので、まず正確です。一方、画像系は、AIがその場で画像から文字を読み取る——つまりOCRの一種を働かせる——ことになります。スキャンが鮮明ならかなりの精度で読めますが、文字がかすれていたり、手書きだったり、複雑なレイアウトだったりすると、読み間違いが起こりえます。

ざっと内容を把握したいだけなら、画像系でもAIは十分に役立ちます。けれど、金額や日付のような「一字一句が合っていてほしい情報」を扱うなら、テキスト系のほうが安心だと覚えておいてください。

くり返し処理するなら、文字を持つ方が強い

この差がはっきり効いてくるのが、同じ処理を何度も繰り返す場面です。

たとえば、毎月たまっていく請求書PDFから、金額と日付だけを抜き出して一覧に集計したいとします。こうした「決まった処理を、正確に、何度でも」という仕事は、AIに直接やらせるより、AIにプログラムを書かせて処理させるほうが向いています。プログラムは、決めた手順を寸分たがわず繰り返すからです。

このとき、元のPDFがテキスト系なら、プログラムはもとの文字データをそのまま読み取れます。OCRのような「読み取りの誤差」が入り込まないので、何度処理しても同じ結果になる——再現性が高いわけです。ところが画像系だと、プログラムはまずOCRで文字を読み取る一段を挟まねばならず、その精度に結果が左右されます。同じ請求書でも、スキャンの具合によって読み取りがぶれることがあるのです。

だから、自分がPDFを作って渡す側のときは、できるだけ最初から文字データを持つかたちで書き出す——紙に印刷してスキャンし直すのではなく、もとのWordやExcelからそのままPDFに保存する——ことを意識すると、受け取った相手（そして将来の自分）が、AIにもプログラムにも渡しやすくなります。

つまずきやすいところ

「PDFなら全部同じ」と思ってしまう。 同じ拡張子 .pdf でも、文字を持つものと画像だけのものは別物です。拡張子は種類を示す名札にすぎません（→ 拡張子の正体）。
「スキャンした書類はAIに読ませられない」と思い込む。 今のAIは画像系PDFも読めます。ただし、読み取りの精度は画質しだいでぶれる、という前提は持っておきましょう。
検索できるPDF＝中身まで正確、とは限らない。 サーチャブルPDFは検索やコピーができますが、その文字はOCRの結果です。元のスキャンが粗ければ、見えない文字の層にも誤読が残っています。

まとめ

PDFには、最初から文字データを持つテキスト系と、見た目は文字でも中身は画像でしかない画像系があります（その中間に、画像へOCRで文字を足したサーチャブルPDFも）。AIは今どちらも読めますが、テキスト系は文字をそのまま扱えるぶん、AIに読ませても、プログラムに処理させても確実で、再現性が高い。くり返しの処理や、一字一句が合っていてほしい場面ほど、その違いが効いてきます。

自分が扱っているPDFがどちらなのかは、文字を選択できるか試せばすぐ分かります。まずはそこから意識してみてください。そして、PDFから数字や決まった項目を抜き出して処理したくなったら、それはAIに直接訊くより、プログラムに解かせるほうが向いた仕事かもしれません。

次に読むなら

表をテキストで渡す表は、項目を区切り文字で並べたテキストに置き換えられる——カンマ区切りがCSV、タブ区切りがTSV。AIに表を渡すなら、Excelの範囲をそのままコピー＆ペーストすればタブ区切りで読んでくれる。
計算しているわけではないAIで数字が合っても、AI自身が計算しているわけではない。素のAIは言葉を作る仕組みで、計算は裏でプログラムを書いて実行している。「言葉を作るAI」と「計算するプログラム」は別物だと知ると、数字との付き合い方が変わる。

この視点は役に立ちましたか？

最終点検: 2026年6月17日

出典: さとりのしょ — https://satorinosho.jp/it-foundations/pdf-text-or-image/