主要な検索エンジンは、PDFのテキストデータもチェックしています。取扱説明書、報告書などをPDFでネットに公開している企業や役所のみなさまには当然のことでしょう。しかしPDFでは、検索エンジン対応の最適化(SEO)が不十分になりがちなことはご存知でしょうか?
3つのよくある例を紹介しましょう。ひとつ目は、ブロック(段)をまたぐテキストの扱いです。文章と図が入り混じる雑誌的なレイアウトや、文章が段組みされている報告書や論文のレイアウトが当てはまります。
こうしたレイアウトでは、次のブロックがどこか、つまり文章がどこにつながるのかの指示が重要になります。紙の雑誌を見ていて、文章のつながりが変だと感じて、つながりの思い違いに気付いた経験がありますよね? 場合によっては、次のブロックを示す矢印が付いていることもあります。
人間が混乱するのと同じことがコンピュータでも起こります。ブロックのつながりがわからなくて、ブロックをまたぐ言葉やフレーズが検索エンジンに認識されなかったり、認識されにくくなるのです。
ブロックのつながりを指定する機能がDTPアプリや、本格的PDF作成アプリには付いていますが、印刷のことしか頭にない作業者はきちんと指定しないことがあります。またワープロアプリやPDF変換アプリには、そもそもブロック順を指定する機能がない製品もあります。
ふたつ目は、タイトルや見出しのテキストです。凝った文字レイアウトを作る際に、一文字ずつバラバラに並べて、隙間や上下の位置を調整することがあります。1文字だけのテキストブロックとして前後のつながりを指定していなければ検索エンジンが認識するのは難しいでしょう。文字のスペースを調整するために空白や不可視文字を挿入することもありますが、これも同様です。表の中の文字でも同じようなことが起こります。
三つめは、図の中のテキストの扱いです。図中のテキストがPDFでどのように記述されるかは、作図したソフトによって千差万別です。ひとつ目、ふたつ目で紹介した現象が絡み合って問題が起こりがちです。
PDF規格には厳密でない部分があり、PDF作成アプリ・PDF表示アプリ・検索エンジンによって解釈が異なることがあります。「だれのせい」か決められないので、長らく解決していません。強いて言えば「PDFのせい」なわけです。
PDFの反省から、HTML5/SVG規格はかなり厳密に定められました。またBuildVuは、PDFでよく起こる誤認識や誤変換の情報を20年近くも収集して、的確なHTML5/SVGに変換できるよう改善を続けています。だから複雑なレイアウトも、建築や電気電子の図面も、しっかりHTML5/SVGに変換できるのです。
BuildVuについて
BuildVuは、雑誌や図面などをHTML5/SVGで“見た目”どおりに表示するツールとして20年以上の実績があります。PDFからHTML5/SVGへの変換ツール、HTML5/SVGビューアは、ぜひBuildVuにお任せください。
PDFからHTML5/SVGへの変換入門は、こちらをご覧ください
ぜひ今すぐにBuildVuで、あなたのPDFファイルをHTML5に変換してみてください。変換と専用ビューアでの閲覧をこちらからお試しいただけます(メールアドレスの登録不要、無料です)。
BuildVuオンラインコンバーター※1
「オンラインでPDFからHTMLに変換」
※1 開発元のIDRsolutions社と株式会社インターワークの提供するサービスです。