fbpx
< 戻る
印刷

検索とテキスト抽出のエンコーディングを変更する

Javaは異なるエンコーディングでテキストを書き出すことができます。いくつかのケースでは、ページ上に表示されるテキストと、一度抽出されたテキストが一致しないことがあります。最も一般的な原因は、コンテンツが一つのエンコーディングとして読み込まれたのに、別の場所で別のエンコーディングとして扱われることです。

この結果、文字が認識されず、”???? “として返されることがよくあります。

検索や抽出機能を使用する場合は、以下のVM引数を設定することをお勧めします。

-Dfile.encoding=UTF-8

Java 18では、このフラグはデフォルトで設定されているため、必要ありません。

サポートされているエンコーディングの一覧は、こちらをご覧ください。

    MENU
    PAGE TOP