fbpx
< 戻る
印刷

PDFファイルから文書の目次(しおり)を抽出する

JPedalは、PDFファイルからテキストコンテンツを抽出するためのいくつかの方法を提供します。PDFファイルは、オプションのDocument outlineオブジェクトを含むことができます。これは目次(しおり)であり、タイトルやリンクページを含むことができ、ズームや正確な表示領域をコントロールすることができます。これが存在する場合、このコードはアウトラインデータオブジェクトをXMLファイルに抽出します。このケースでは、ファイルから文書の目次を抽出します。目次がない場合、ファイルは作成されません。

コマンドラインまたは他の言語でPDFから目次(しおり)を抽出する

				
					java -jar jpedal.jar --metadata "pdfFile.pdf" outline
				
			

これは、アウトラインデータをJSONオブジェクトの文字列としてコンソールに出力します。

APIメソッドにアクセスする例

				
					ExtractOutline extract=new ExtractOutline("C:/pdfs/mypdf.pdf");
 //extract.setPassword("password");
 if (extract.openPDFFile()) {
     Document pdfOutline=extract.getPDFTextOutline();
 }

 extract.closePDFfile();
				
			

JavaでPDFから目次(しおり)を抽出

				
					ExtractOutline.
writeAllOutlinesToDir("inputFileOrDirectory", "outputDir");

				
			

この例ではJPedal ExtractOutlineクラスを使用しています。ExtractOutlineは、タイトル、ページ、初期ズームレベルなど、アウトラインエントリに関する様々な詳細を含むPDFごとのXMLファイルを出力します。

    MENU
    PAGE TOP