PDFファイルから文書の目次(しおり)を抽出する

作成日2024年1月30日

最終更新日2024年1月30日

JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかの方法を提供します。PDFファイルは、オプションのDocument outlineオブジェクトを含むことができます。これは目次(しおり)であり、タイトルやリンクページを含むことができ、ズームや正確な表示領域をコントロールすることができます。これが存在する場合、このコードはアウトラインデータオブジェクトをXMLファイルに抽出します。このケースでは、ファイルから文書の目次を抽出します。目次がない場合、ファイルは作成されません。

コマンドラインまたは他の言語でPDFから目次(しおり)を抽出する

				
					java -jar <a href="https://www.intwk.co.jp/jpedal/" title="PDFドキュメントを扱う必要のあるJava開発者のためのPDFライブラリです。このライブラリは、PDFファイルを扱う際の一般的な問題を解決します。" hreflang="ja" onover-preload="1">jpedal</a>.jar --metadata "pdfFile.pdf" outline

これは、アウトラインデータをJSONオブジェクトの文字列としてコンソールに出力します。

APIメソッドにアクセスする例

				
					<a href="https://javadoc.idrsolutions.com/org/jpedal/examples/text/ExtractOutline.html" target="_blank" title="declaration: package: org.jpedal.examples.text, class: ExtractOutline">ExtractOutline</a> extract=new ExtractOutline("C:/pdfs/mypdf.pdf");
 //extract.setPassword("password");
 if (extract.openPDFFile()) {
     <a href="https://javadoc.idrsolutions.com/org/jpedal/examples/text/ExtractOutline.html" target="_blank" title="declaration: package: org.jpedal.examples.text, class: ExtractOutline">Document</a> pdfOutline=extract.getPDFTextOutline();
 }

 extract.closePDFfile();

JavaでPDFから目次(しおり)を抽出

				
					ExtractOutline.
writeAllOutlinesToDir("inputFileOrDirectory", "outputDir");

この例ではJPedal ExtractOutlineクラスを使用しています。ExtractOutlineは、タイトル、ページ、初期ズームレベルなど、アウトラインエントリに関する様々な詳細を含むPDFごとのXMLファイルを出力します。

はじめに

JPedalを実行する

Javadoc

Javaバージョンのサポート

IDEにJPedalを設定する方法

JPedalの使い方

機能

JPedal Viewer

テキスト関連

テキスト抽出のWebサービスAPI

画像への変換

画像の抽出

PDF画像変換のWebサービスAPI

フォームについて

PDFの注釈(アノテーション)

PDFの操作

印刷について

メタデータ

フォントについて

JPedalをクラウド上で実行する

オプション設定

java アプリケーションサーバーへデプロイする

Docker を使用して独自のクラウド API をホストする

アップデート情報

PDFファイルから文書の目次(しおり)を抽出する

コマンドラインまたは他の言語でPDFから目次(しおり)を抽出する

APIメソッドにアクセスする例

JavaでPDFから目次(しおり)を抽出