fbpx
< 戻る
印刷

任意のPDFファイルからページ上の文字を抽出

JPedalは、PDFファイルからテキストコンテンツを抽出する方法をいくつか提供しています。このケースでは、ファイルから単一の単語とその座標を抽出することができます。

コマンドラインまたは他の言語でPDFから単語を抽出

				
					java --module-path . --add-modules com.idrsolutions.jpedal org/jpedal/examples/text/ExtractTextAsWordlist "inputFileOrDir" "outputDir"
				
			

Java 11以降のモジュールを推奨しています。古いバージョンを使用している場合は、クラスパスを使用する必要があります。

API メソッドにアクセスする例

				
					ExtractTextAsWordlist extract = new ExtractTextAsWordlist("C:/pdfs/mypdf.pdf");
//extract.setPassword("password");
if (extract.openPDFFile()) {
    int pageCount = extract.getPageCount();
    for (int page = 1; page <= pageCount; page++) {
        List wordList = extract.getWordsOnPage(page);
    }
}

extract.closePDFfile();

				
			

JavaでPDFから単語を抽出

				
					ExtractTextAsWordList.writeAllWordlistsToDir("inputFileOrDirectory", "outputDir", -1);
				
			

この例では、JPedal ExtractTextAsWordlistクラスを使用しています。ExtractTestAsWordlist はページごとに txt ファイルを出力し、ファイルの各行は座標の word、x1、y1、x2、y2 値を含むカンマ区切りの文字列です。

使用される座標

戻り値に使用されている座標は、x1, y1, x2, y2として定義されている4つの値(PDFページ上の左、上、右、下の値)によって定義されています。PDFページでは、ページの左下が原点となります。

    MENU
    PAGE TOP