JavaでPDFの指定ページ/指定領域のテキストを抜き出すサンプルコード(JPedalでの一例)
ExtractTextInRectangle.writeAllTextToDir("inputFileOrDirectory", "password_or_null", "outputDir", -1, OUTPUT_FORMAT.TXT, false);
Javaで指定ディレクトリのPDFのテキストを抜き出すサンプルコード(JPedalでの一例)
ExtractTextAsWordList.writeAllWordlistsToDir("inputFileOrDirectory", "outputDir", -1);
PDF規格は複雑。“方言”や“エラー”にも注意が必要
PDFはかなり範囲の広い規格です。規格の解釈の揺れや歴史的経緯もあって、「表示できるかどうか」や「ズレなく表示できるか」などの互換性を保つノウハウが必要になることがあります。
Java PDFライブラリーの多くは、PDFの一部の規格だけをサポートしています。旧バージョンのPDFファイルをきちんと開けないものもあります。多くの利用者はAdobe社Acrobatで開いたときと同じような体裁で表示することを期待しますが、レイアウトが狂ったり、画像などの配置が狂ってすき間が空いてしまうといったズレに悩まされることもあります。
これらの問題点を解決するのが、Java PDF開発ライブラリー(SDK)のJPedal(ジェイペダル)です。JPedalは、①PDF規格のほぼすべてを網羅するJava PDF開発ライブラリー(SDK)です。②開発会社の英国IDR Solutions社はPDF規格を知り抜く専門企業です。JPedalは正しく表示し、ズレのないPDFを生成し、方言的な記述や多少エラーのあるPDFファイルであっても開ける工夫が盛り込まれています。これらは、20年以上前からPDF関連のソフトウェア開発に関わり、PDF規格の普及促進団体PDF Associationで積極的に活動してきたノウハウの積み重ねで可能になったことです。
PDF関連ソフトウェア開発のためのJavaツールを探す方の多くは、業務で使うプロの道具としてのJava PDF開発ライブラリーを探していることでしょう。そのような用途で、多機能なだけではなく信頼性・安定性、サポート品質を求める世界の多くの企業・役所や研究所がJPedalを採用しています。
「今回の案件で必要な機能はフリーのJava PDFツールでも問題がない」としても、この先のソフトウェア改修で機能を拡張することになったり、別の案件でもJava PDF開発ツールが必要になることがあるでしょう。その際に別の開発ツールを探したり、複数の開発ツールを併用したり、開発ツールを乗り換えるのは負担が大きいものです。最初からJPedalにしておくという選択を、ぜひご検討ください。
Java PDF開発ライブラリー(SDK)JPedalのセールスポイント
1 | PDF規格のほぼすべてを満たす多機能、高性能 |
---|---|
2 | PDF 関連ツールを 20 年以上も開発している英国 IDR Solutions 社の製品 |
3 | 世界でも日本でも豊富な利用実績 |
4 | 日本語にしっかり対応(縦書き、ルビなど) |
5 | 日本総代理店による日本語サポート、開発元との連携サポートも提供 |
6 | 日本の企業・役所の求めるサポート品質・契約体系で提供 |
7 | 購入前に機能制限のない商品同等版での無料トライアルを提供 |
取り扱い製品について
PDF規格は複雑なうえに、過去からの積み重ねで非常にわかりにくくなっています。PDF連携ソフトウェアの開発では、英国IDRsolutions 社のPDF関連製品(変換ツール、ライブラリ、ソフトウェア部品など)を、ぜひご検討ください。
IDRsolutions はPDF関連ツールを20年以上に渡って開発・提供し続けています。PDF分野の老舗企業として、世界中の企業や公的機関にご活用いただいています。
日本では株式会社インターワークがIDRsolutions社の日本総代理店として取り扱っていますので、お気軽にご相談ください。
VIEWING PRODUCTS
PDFをHTML5やSVGに変換
PDFのフォームをHTML5に変換
SDK PRODUCTS
PDFファイルの表示、変換、抽出
多くの画像ファイル形式を読み書き、変換、操作、処理