fbpx

PDFに最適な圧縮形式は?

Portable Document Format(PDF)には、ファイルサイズと品質の最適なバランスを実現するための複数の圧縮オプションが用意されています。圧縮の選択は、PDF内のコンテンツの種類や希望する出力品質など、さまざまな要因によって異なります。この記事では、こうした要素についてご紹介します。
開発者ブログ

著者 Promil (IDRsolutions)  翻訳 インターワーク

非可逆圧縮と可逆圧縮の違いは何ですか?

ロスレス圧縮: 元のデータを完全に保持する。非圧縮の場合、データは元の形式と同じままです。

次のような用途に適しています: テキスト、PDF内のファイルオフセット位置、ベクターグラフィックス、その他精度を必要とするコンテンツ。

非可逆圧縮: ファイルサイズを小さくするために一部のデータが破棄されます。品質が低下する可能性がありますが、特定のシナリオでは気付かれないことがよくあります。

次のような場合に適しています: 若干の品質低下が許容されるカラー画像。

PDFを圧縮するには、どのオプションが最適ですか?

理想的な圧縮方法は、文書の内容と目的によって異なります。一般的に、ファイルサイズと画質はトレードオフの関係にあります。PDFの圧縮アルゴリズムは、あなたにとってどれが最も重要かによって、異なる最良の選択肢を表します。詳しくは下記の「画像とテキストに最適な圧縮方式は?」をお読みください。

PDF文書にはどのような種類のコンテンツがありますか?

PDFは汎用性があり、さまざまな種類のコンテンツをカプセル化することができます。

  1. テキストとベクターグラフィックス: これらは主にバイナリストリームで保存されます。その正確な性質のため、元の品質と精度を保つためには可逆圧縮が必要です。
  2. 画像:PDF内の画像は、個別のXObjectとして保持されます。画質とファイ ルサイズに対する 必要性に応じて、画像のピクセルデータは、可逆形式か非可逆形式のどちらかによって圧縮することができます。これは以下のような追加属性を持ちます:
    カラースペース: 画像のカラースペクトルを定義する。正確を期すため、常に可逆圧縮されます。
    マスク:これは画像の透明度を決定するもので、正しく表現するためには可逆圧縮で保存する必要があります。
  3. 固有のPDFオブジェクト: これらはPDF文書を構成する基礎となるオブジェクトです。これらのオブジェクトは、文書のデータの完全性と正確性を保証するために、つねに可逆アルゴリズムを用いて圧縮する必要があります。

画像とテキストに最適な圧縮方式は?

CCITT:白黒画像に最適で、非常に効率的に圧縮できるように設計されています。CCITTにはさまざまなグループがあり、PDFではグループ4が最も一般的です。モノクロ画像を効率的に圧縮します。CCITT圧縮とは何かについてのブログをお読みください。

Flate:テキストと混合コンテンツの文書に使用されます。テキストや画像データに適した、汎用性の高い可逆圧縮です。PDFのコンテンツを圧縮する主要な方法の1つです。

JBIG2:2値(白黒)画像に使用されます。CCITTグループ4よりも圧縮率が高く、特にテキストページのスキャンに適しています。可逆圧縮と非可逆圧縮があります。

LZW:拡張画像や中程度の詳細画像に使用されます。LZWは可逆圧縮方式で、歴史的にGIFやTIFFに使われてきました。詳しくはLZW圧縮のブログをご覧ください。

RLE: 単色画像のように、大きなバイト列が繰り返されるデータに使われる。単純な可逆圧縮の一種で、データの連続が1つのデータ値とカウントとして保存されます。

ZIP:テキストと画像の汎用圧縮です。PDF圧縮におけるZIPは、基本的にFlate方式です。可逆圧縮であり、適切な圧縮率を提供します。

JPEG(DCT):フルカラー写真に用いられる。画像データを空間周波数に変換する非可逆圧縮方式。人間の目には目立ちにくい周波数を破棄し、ファイルサイズの大幅な削減につながる。しかし、アーチファクトが発生する可能性があります。

JPEG2000 (JPX): 高品質の画像や写真に使用されます。可逆圧縮と非可逆圧縮の両方が可能。従来のJPEGよりも圧縮率が高く、アーチファクトが少ない。

アーチファクトとは?

画像のartifacts(アーチファクト)は、画像がオリジナルの内容から変わってしまう不具合やノイズを指します。これらは、画像の圧縮、伝送、デジタル化、または画像処理の過程で生じることがあります。例えば、JPEG圧縮においては、圧縮率が高いとブロックノイズやリング状のノイズが生じることがあります。

1つのPDFで複数の圧縮方法を使用できますか?

PDFでは、要素ごとに異なる圧縮を使用することができます。たとえば、同じ文書内で、テキストとベクターグラフィックには可逆圧縮を使用し、画像には非可逆圧縮を使用することができます。

PDFを暗号化すると圧縮に影響しますか?

暗号化と圧縮は別のプロセスです。PDFが暗号化されると、暗号化されたデータはうまく圧縮されないため、追加の圧縮は効果的でないかもしれません。まず圧縮してから暗号化することをお勧めします。

圧縮の違いによるレンダリング速度への影響はありますか?

はい、より積極的な圧縮はファイルサイズを小さくするかもしれませんが、コンテンツの解凍とレンダリングにかかる時間も長くなります。しかし、ファイルサイズが小さいほどダウンロードは速くなります。

PDFアプリ開発ツール(SDK)をお探しのみなさま、効率のよい開発作業のためにJPedal、BuildVu、JDeliがきっとお役に立つことと思います。
これら3製品は無料で試用していただけますので、まずはお試しのうえ、ぜひ導入をご検討ください。
JPedal、BuildVu、JDeliのシステム開発やプログラミング、無料トライアルの情報は下記の各製品のトライアルページをご覧ください。技術的なことから費用面まで、ご質問・ご相談も各製品ページの問合せボタンからお寄せください。

    Facebook
    Twitter
    Email
    公式ブログロゴ

    製品に関する記事や開発者のブログ

    タグ付きPDF入門:試して分かった!AI活用とアクセシビリティ

    タグ付きPDFの仕様が策定されてから20年以上が経過しましたが、この構造化技術はあまり注目されることなく時が過ぎてきました。しかし、AI時代の到来により状況は一変しています。ChatGPTなどのAIによる文書理解において、タグ付きPDFはタグなしのPDFと比較して、驚くほど正確な解析を実現できることが明らかになってきました。アクセシビリティから文書解析、HTMLへの変換まで—長年活用されていなかったタグ付きPDFが、AI時代の文書活用に新たな可能性をもたらす具体的なメリットを、実例とともに細かく解説していきます。

    PDF用語集

    この記事ではPDF関連の一般的な用語を網羅し、それぞれの定義を解説します。

    PDFメタデータとは?開発者が知っておくべき基礎知識

    PDFファイルを扱う際、「メタデータ」という言葉を耳にすることが多いでしょう。メタデータとは、ドキュメントに関する情報を指し、ファイルの作成者や作成日、使用されたソフトウェアなど、ドキュメントを説明する情報が含まれています。この記事では、開発者向けにPDFメタデータの基本からその利用方法までをわかりやすく解説します。

    PDFファイルを扱うシステム開発・ウェブ開発に役立つ

    開発者向けPDF入門ガイド

    開発者向けPDF入門ガイド

    PDFの基礎から応用まで開発者のための入門ガイド2024年版

    PDF の仕様や活用方法など、開発者に必要な情報がコンパクトにまとめました。初めてPDFを扱う開発者にも分かりやすく、基礎から応用までカバーしているため、PDF のポテンシャルを最大限に引き出し、アプリケーション開発やドキュメント管理の効率化を図るための手引きとなるでしょう。技術的な側面に興味がある開発者だけでなく、ビジネスでPDFを有効活用したい方にもおすすめの一冊です。

    MENU
    PAGE TOP