ITパスポート試験 用語辞典

PDF【Portable Document Format】ぴーでぃーえふ
テキストや画像だけでなく、レイアウトやフォントの情報などもファイルに納めることができる文書表示用のフォーマット。読み込みや編集には対応したアプリケーションが必要になるが、異なる環境でも一律の表示を可能にするので電子文書の長期保存用フォーマットとしても使用される。
分野:
テクノロジ系 » 情報メディア » マルチメディア技術
重要度:

(Wikipedia Portable Document Formatより)

Portable Document Format(ポータブル・ドキュメント・フォーマット、略称PDF)は、アドビシステムズが開発および提唱する、電子上の文書に関するファイルフォーマットである。1993年に発売されたAdobe Acrobatで採用された。

特定の環境に左右されずに全ての環境でほぼ同様の状態で文章や画像等を閲覧できる特性を持っている。

アドビシステムズはPDF仕様を1993年より無償で公開していたが、それでもPDF規格はAdobeが策定するプロプライエタリなフォーマットであった。
2008年7月には国際標準化機構によってISO 32000-1として標準化された

。アドビはISO 32000-1 についての特許を無償で利用できるようにしたが、XFA(Adobe XML Forms Architecture)やAdobe JavaScript などはアドビのプロプライエタリな部分として残っている。

なお、「PDF」という頭字語には「フォーマット」という単語が含まれるので、「PDFフォーマット」と呼ぶのは冗長である。

PDFの特長

PDFファイルは 印刷可能なあらゆるドキュメントから生成でき、表示や印刷はアドビシステムズが無料で配布している Adobe Reader(旧Acrobat Reader)またはサードパーティ製品を利用する。

PDFには、次の特長がある。

  • 作成したドキュメントを異なる環境のコンピュータで元のレイアウトどおりに表示・印刷できる
  • ドキュメントのセキュリティを設定できる
  • 圧縮してデータを格納することで、ファイルサイズを小さくできる
  • しおり・リンク・コメント・注釈といった、ドキュメントを画面に表示するときに便利な機能を設定できる
  • フォーム機能を使って、利用者の入力欄を受け取るような書式設定済み文書を作成できる
  • 音声化などアクセシビリティに配慮したドキュメントを作成できる
  • マルチメディアに対応している

レイアウトの保持

PDFのドキュメントは、Adobe Readerがインストールされているコンピュータであれば元のレイアウトどおりに表示・印刷できる。Adobe ReaderはWindows・Mac OS X・Linuxなど各種オペレーティングシステム (OS) に対応したものが無償で配布されており、他のPDF閲覧ソフトも数多く存在するため、PDFファイルは多くの環境で閲覧・印刷できる。

PDF以外の電子ドキュメントは、ほかのコンピュータ上で元のレイアウトを保持したまま表示・印刷するのは難しい。例えば、WordやExcelなどMicrosoft Officeのドキュメントは、対応するソフトウェアもしくは無料のビューワーをインストールすれば閲覧することは可能だが、バージョンや設定が違っていたり、フォントの有無が原因で編集者が意図した通りのレイアウトを保てない場合がある。HTML のドキュメントは多くのコンピュータで閲覧できる。しかし、レイアウトの制限が大きい上、OSやWebブラウザ(HTMLレンダリングエンジン)の種類・設定でレイアウトが変わりやすい。

そのため、厳密にレイアウトを保持する必要のあるドキュメントはPDF化することが多い。ただし、フォントの設定によっては、PDFでも元のレイアウトを保持できない場合がある。この問題は、フォントを埋め込むことで回避できる。

PDFの利用場面

電子ドキュメントの公開・配布

PDFの特長は、PDFファイル作成元と異なるコンピュータ環境において、作成元ドキュメントのレイアウトや書式を忠実に再現した表示・印刷ができることにある。その性質を好んで、Webページ上のドキュメントやソフトウエアの説明書などの広く公開・頒布する形態で多く利用される。また、同様の理由から、将来のコンピュータの環境変化を想定した長期保存向け文書 (PDF/A) や、 DTP の過程でPDFファイルを作成・利用する (PDF/X) 用途も多くなっている。

印刷物として制作したドキュメントのPDF化

Quark XPressやAdobe InDesignなどのDTPソフトウェアで組版した結果のデータは、しばしばPDFファイルとして出力される。こうして作成されたPDFファイルは、印刷物と同じレイアウトの電子ドキュメントとなる。一般に、PDFファイルの公開・配布は印刷物を配布するのに比べて低コストである。

そのためPDFを利用して例えば、カタログやパンフレットなどをインターネット上で公開したり、マニュアルや雑誌の収録記事をCD-ROMで配布することが多くなっている。

PDF入稿

印刷物制作時の入稿をPDFですることも増えてきている。従来は、QuarkXPress などで組版した結果のデータをそのまま入稿することが多かった。

PDF入稿には、

  • 原稿作成方法の制限が小さくなる
  • 画像ファイルの添付し忘れやエラーの発生を少なくできる
  • データサイズをコンパクトにすることができる

などといった利点がある。

ただし作成方法によっては、商業印刷には使えないPDFファイルが生成されることもある。たとえば、紙資料をスキャンして作成したPDFファイルから商業印刷に要求される結果を得るのは難しい。目的とする印刷品質を得るためには、フォントの埋め込みや印刷時に使用する色の情報、画像解像度などをPDFファイル作成時に適切に設定する必要がある。この設定を行うにはコンピュータの操作方法ならびに印刷物とその製造工程を的確に理解していることが必須であるため、誰でも確実に行うことができるとは言い難い。PDF/Xは、こうした問題を回避するために用いられる。

データの入力と収集

Acrobatは「フォーム」機能を利用し、文書入力のインターフェースとしても利用される。
フォームとは記入用紙のことで、PDF内に記入欄を設け、エンドユーザーに入力させてメールで送付させる、あるいはPDFのインタラクティブ機能を使ってサーバーに送信させることでデータを収集することができる。

またPDFファイルにはJavaScriptを埋め込むことができる。これにより入力のナビゲーションや入力時の値チェックなどが可能になる。

技術概要

PDFドキュメントは1以上のページで構成され、各ページにはテキスト・画像・図形が含まれる。

PDFファイルを生成には、アドビシステムズ社純正の「Adobe Acrobat」やサードパーティ製品を利用することがもっとも基礎的な方法である。さらに、クラウド形態などによりサーバサイドでPDFファイルを作成するシステムや、PDFファイル生成とは異なる主目的をもつソフトウエアが PDFファイルを生成する補助機能を搭載している場合もある。

PDFファイルの表示や印刷は、Adobe Reader などがインストールされた環境であれば、一般のHTMLファイルと同様にWebブラウザ上でPDFファイルを閲覧できるが、Adobe Reader の起動処理のために一般的なHTMLコンテンツと比較して表示完了まで時間が長くかかることがある。

PDFの仕様は、ISOで標準化される以前からアドビシステムズから公開されてきている。そのため、アドビシステムズ以外のさまざまな企業・団体や有志が、PDF関連のソフトウェアを開発・公開しており、オープンソースソフトウェア、フリーウェアも数多い。

ファイル構造

PDFファイルはCOS("Carousel" Object Structure)のサブセットでである。COSのツリー構造は以下の8種のオブジェクトで構成される。
  • ブーリアン値
  • 数値
  • 文字列
  • 名前
  • 配列: オブジェクトに順序を与えた集合
  • 辞書: オブジェクトに名前を与えた集合
  • ストリーム: 大きなデータに使われる
  • ヌルオブジェクト

オブジェクトはobject numbergeneration bumberで番号付けされ、xref table表が各オブジェクトのファイル先頭からのオフセットを記述する。

この利点はファイル内のランダムアクセスを容易にすることで、またファイルの変更があった際に変更点を追記するだけでファイル全体の書き直しを行わなくてよくなる。
PDFのデータ配置は リニア(最適化)とノンリニア(最適化なし)の2種類がある。最適化なしは、PDFの変更箇所がファイル末尾に追記された状態であり、デメリットはファイル全体をダウンロードしてからでなければファイルの表示内容を確定できないことである。最適化された場合は、末尾にあった変更点が各ページに適用されて、Webで表示させる場合などに好きなページから表示させられるメリットがある。

イメージモデル

PDF内の画像の記述方法はPostScriptに近く、相違箇所は透明の有無である。透明はPDF 1.4で追加された。

ベクター画像

ベクター画像はパスで記述された物で、直線、方形、ベジエ曲線で構成される。
図形を記述するだけでなく、文字のアウトラインを記述する場合もある。
パスはストローク、塗りつぶし、クリッピング(切り抜き)に使われる。ストロークと塗りつぶしは自由な色、模様を指定できる。
模様はタイリング、色なしのタイリング、シェーディングを指定できる。

ラスター画像

ラスターイメージ(Image XObjectsと呼称)は、PDF内では辞書と、関連づけられたストリームで表現される。辞書には画像のプロパティが記述され、ストリームにはイメージデータが記述される。画像は複数の圧縮方式でフィルターされる。サポートされるフィルターは以下のものがあり、用途に応じて画質とサイズのバランスを選ぶことができる。

  • ASCII85Decode ストリームを ASCIIの7-bitで表現するもの
  • ASCIIHexDecode ASCII85Decode に近いがよりコンパクトになる
  • FlateDecode zlib/deflate (いわゆる gzip形式。 zipではないので注意) アルゴリズムで圧縮するもの。; PDF 1.2 より実装
  • LZWDecode LZW アルゴリズムで圧縮するもの。;
  • RunLengthDecode ランレングス アルゴリズムによるシンプルな圧縮
  • DCTDecode JPEG に採用された 非可逆圧縮
  • CCITTFaxDecode CCITT (ITU-T) fax で規定された 可逆 2値 (黒/白)圧縮。Group3と Group 4がある
  • JBIG2Decode JBIG2 標準で定義された黒白二値の形式。可逆、非可逆が選べる。 PDF 1.4 より実装
  • JPXDecode JPEG 2000 標準で定義された形式。可逆、非可逆が選べる, PDF 1.5 より実装
テキスト

テキストはPDF内のコンテント ストリーム内でテキスト エレメントとして記述される。テキストエレメントはどの文字がどの座標に表示されるかを定義し、どのフォントとエンコーディングを使うかも記述する。

フォント

フォントオブジェクトは、タイプフェースを記述する。どのフォントを使用するか記述するほかに、フォントファイルの埋め込みもできる。
埋め込めるフォントはType1, TrueType, OpenType がある。

標準Type1フォント(標準14書体)
以下の14書体については、ソフトウェアは必ず装備するか、同じ寸法の代替フォントを装備しなければならない。ソフトウェアは以下のフォントの寸法について情報を保持し、もしPDFに埋め込まれていない場合は同じ寸法の代替フォントで表示する。
  • Times (v3) (in regular, italic, bold, and bold italic)
  • Courier (in regular, oblique, bold and bold oblique)
  • Helvetica (v3) (in regular, oblique, bold and bold oblique)
  • Symbol
  • Zapf Dingbats
フォントの埋め込みの注意

電子ドキュメントを正しく表示するためには、フォントが正しく設定されている必要がある。一般に、ドキュメント作成時に使用されているフォントがインストールされていないコンピュータでは、ドキュメントを正しく表示・印刷できない。例えばヒラギノフォントを使って作成したドキュメントは、このフォントがインストールされていないコンピュータでは代替の日本語フォントで表示する必要がある。さらに、日本語フォントがインストールされていないコンピュータではエラーや文字化けが発生し、正しく表示できない。

PDFのドキュメントでは、使用しているフォントを埋め込むことで、そのフォントがインストールされていないコンピュータでも正しく表示・印刷できる。フォントを埋め込む方法は2つあり、当該フォントに含まれているすべてのグリフ(字形)を埋め込む方法と、文章に使用されているグリフのみを埋め込む方法である。これらの選択は、PDFを作成する際に行う。フォントを埋め込んで作成したPDFの日本語ドキュメントは、日本語フォントがインストールされていないコンピュータでも正しく表示できる。

ただし、フォントを埋め込んだ PDF ファイルはファイルサイズが大きくなるという問題がある。また、フォントを埋め込む場合は、フォントのライセンスにも注意する必要がある。

エンコーディング

テキストストリーム内では、文字は文字コード(番号)によって記述される。WinAnsi, MacRoman のほか東アジアの各種言語のエンコーディングが定義されているほかに、フォント自身に独自のエンコーディングを持つことも出来る。
基礎がType1フォントを前提に作られたので、TrueType フォントなどを記述する場合は、非常に複雑な記述になる。

日本語のエンコード

文字コードについては、全ての文字列が独自のルールで英数字にエンコードされる。英語文書の場合はある程度解読できるが、多バイト文字になると非常に複雑なルールでエンコードしなければならない。

それで得られるメリットは、処理系にかかわらず文字を正確に区別できることで、例えばJIS90形式の文字とJIS2004形式の文字はJIS, Unicode上では同じ文字コードでありながら字形が異なる文字があり、普通の処理系ではどちらかのフォントしか表示できないが、PDF上では一緒に記述できることが挙げられる。

しかしながら例えばWindows 2000とWindows Vista間ではMS明朝、MSゴシックのフォントのバージョンは異なり、フォントを埋め込まないようにPDFを作成すると、片方の環境では文字が全面的に文字化けするケースがある。

また、フォントが埋め込まれているため文字化けしていないように見えても、文面をクリップボードにコピーしてエディタに貼り付けると、テキストストリームが異機種のエンコーディングになっていて文字化けするケースもある。

Adobe製品は比較的問題が起こりにくいが、サードパーティー製品や海外製のソフトウェアでは現在もこの種の問題に遭遇することがある。

インタラクティブ性

PDFファイルには、音楽、動画などのマルチメディアファイルを含めることができる。
そのためPDFファイルは、コンピュータを使ったプレゼンテーション用に使うこともできる。
2005年にアドビシステムズが Flash の開発・推進を進めてきたマクロメディアを買収しており、それ以降アドビシステムズによる Flash と PDF との統合が進められている。

そのためAdobe製品によるPDF表示では、Flash形式のファイルが埋め込まれていてもプラグインなどをインストールせずに再生することが出来る。しかしQuickTimeはサポートされない。これはAppleとAdobeの敵対的な関係を示しており、そのためAppleのiOSデバイスではリッチメディアPDFはインタラクティブ性が損なわれる。

またフォームはユーザーに入力させるメカニズムで、AcroForms(PDF 1.2より)と Adobe XML Forms Architecture(XFA)(PDF 1.5より) の2種類が使える。XFA仕様はPDF仕様に含まれておらす、オプション機能として言及されているだけである。

AcroForms
PDF 1.2 より導入され、テキストボックスやラジオボタンなどのオブジェクトとJavaScriptを記述することが出来る。
PDFの標準のアクションに加え、AcroForms は内容の送信、リセット、取り込みができる。送信機能はフォームの内容を特定のURLに送信する。
送信形式は以下の種類がある。
*HTML Form format (HTML 4.01 形式は PDF 1.5より; HTML 2.0 形式は PDF1.2より)
*Forms Data Format (FDF)
*XML Forms Data Format (XFDF) (external XML Forms Data Format Specification, Version 2.0; PDF 1.5より; PDF 1.4で実装された"XML" フォーム送信形式の代替)
*PDF (PDFの内容全部を送信できる). (PDF 1.4 にて定義)
Forms Data Format(FDF)
XML Forms Data Format(XFDF)
Adobe XML Forms Architecture(XFA)

論理構造とアクセシビリティ

「タグ」機能により、PDFのコンテンツにはセマンティックな(意味に基づく)構造と関連が記述できるようになり、これによりPDFの順序付けた読み上げか可能になった。

タグ付きPDFは印刷用途のPDFには必要ないためオプション扱いとなっており、ISO32000-1 の記述も曖昧な物になっている。

技術の特筆点

スキャンしたドキュメント

紙資料をイメージスキャナなどを使って電子ドキュメントにする場合も、PDFが利用されることが多い。

紙資料を電子ドキュメント化するとき、PDFを利用しない場合には、TIFFなどの画像ファイルとして保存する方法と、OCRソフトウェアを使ってテキストとして保存する方法がある。画像ファイルとして保存された電子ドキュメントは画面上で見る場合には紙資料と同じ内容が再現できるものの、文章や文字をコピーすることができないなどテキストの再利用に大きな制限がある。また、OCRソフトウェアを使って作成したテキストファイルではテキストの再利用は可能となるが、OCRソフトウェアの精度の問題もあり、元の内容を完全に再現できない場合が多い。

PDFを利用すれば、紙資料をスキャンした画像の上にOCRソフトウェアで変換して作成した透明テキストを重ね、1つのファイルとして保存することができる。こうしたPDFのドキュメントでは、画面上で見る場合には紙資料の内容を完全に再現でき、不完全ではあるがテキストの再利用もできる。例えば、Acrobatにはバージョン6.0以降のStandard版以上でOCR機能が標準で搭載されるようになった。

アクセシビリティ

PDFの役割は印刷物をスクリーンに再現するだけではない。視覚障碍者向けの対応として、バーチャルな印刷物にとどまらず、XMLによる"タグ"を埋め込むことが出来る。これはページ内コンテンツの論理的な構造を表し、読み上げソフトを使う場合にどの順序で読むべきかなどの情報を提供する。
PDF作成用ソフトウェアによってタグ生成への対応度は分かれ、またデフォルトでタグ生成を有効にしていないソフトもある。特に紙からスキャンしてPDFを生成する場合はタグは軽視され、障碍者にとって障壁となることが多い。

PDFのアクセシビリティ対策は(i)フィジカルなビュー(普段目にする印刷物的な表示)と、読み上げソフトウェアが使用する(ii)タグのビュー、そして(iii)PDFを構成するテキストやグラフィックのオブジェクトのストリーム(タグがない場合には読み上げソフトはこのテキストストリームを読みにいく) という3つのビューの整合性を取るという困難な作業を伴う。

ウイルスと脆弱性

閲覧に使用したコンピュータのウイルス感染

PDFはセキュリティが考慮されていない古い時代のフォーマットである。脆弱性のあるAdobe Readerで有害なJavaScriptを含むPDFファイルを開くと、コードが実行され、パソコンがウイルスに感染する。同時に、ダミーのPDFファイルを表示させて、ユーザーがウイルス感染を気付かないようにする。その脆弱性を悪用した攻撃があり、2009年12月以降、日本で話題になっている「Gumblar」もPDFを媒介としている。

対策として、リーダの最新版へのプログラムアップデートがあるが、新たな脆弱性が発見されてからアップデートまでに時間が必要である。ユーザーによる不要な機能の無効化(例えばAcrobat ReaderにおけるJavaScriptエンジンの無効化)を併用することが推奨される。

権利コントロール

セキュリティと電子署名

PDFファイルには、情報の機密性を保つために、閲覧パスワード(ユーザパスワード)と編集パスワード(オーナーパスワード)、公開鍵方式の暗号化を設定することができる。

閲覧パスワードが設定されていると、利用者は正しい閲覧パスワードを入力しないとPDFファイルを開けない。編集パスワードが設定されている場合、閲覧だけならパスワード入力は不要であるが、次の作業をするには正しい編集パスワードを入力して設定を解除しなければならない。

  • 編集
  • 印刷
  • テキストや画像などのコピー

この機能を使うことにより、ユーザの画面上では表示できるものの、コンテンツ内の文章をコピー・アンド・ペーストできないようしたり、文書内の写真の印刷ができないよう設定した文書を配布したりできる。

また、電子署名を付け、ドキュメントの改竄を防止する機能も持つ。

しかしPDFのパスワードを解除するソフトウェアも多く流通しており、2014年現在ではPDF 1.6などの古い形式のファイルは1秒もかからずパスワードが解除されてしまうケースがある。数年後にはツールで解読されてしまうということを考慮する必要がある。

DRM
Adobe Livecycle 製品群ではDRMを実装しており、エンドユーザーに配布されたPDFに対して、後から閲覧権限を変更することができる。応用の一例としては、配布されたPDFの内容が古くなってしまった場合に閲覧禁止として、新しい版をダウンロードするよう求めるような例がある。

デフォルトの画面設定

PDFは表示するソフトウェアの挙動を定義することが出来る。
例えばしおりのウインドウを最初に開くか、またツールバーを表示するかどうか、などをドキュメントに記述できる。

ソフトウェア

PDFの生成、閲覧用ソフトウェアは各種プラットフォームで提供される。Mac OS X とほとんどの Linux ディストリビューション、LibreOffice, Microsoft Office 2007 (要 SP2アップデート)、WordPerfect 9, Scribus, Microsoft Windows向け各種プリントドライバー, pdfTeX 組版システム, DocBook PDFツール, Ghostscript 製品群、Adobeの Adobe Acrobat と Adobe FrameMaker. Google のオンラインオフィススイート、Google Docs はPDFに出力する機能を装備している。

ラスターイメージプロセッサ (RIP) は、PDFをラスターイメージラスターイメージ に変換して、紙などの媒体に出力するために使用され、DTP分野ではラスタライズと呼ばれる。 PDFの処理能力を備えるRIP は、Adobe SystemsのPDF印刷エンジン または、サードパーティー製品 Jaws や Global Graphics社のHarlequin(ハーレクイン) RIP を組み込んでいる。

PDFファイルの閲覧と印刷

Windows環境におけるPDFファイルの表示や印刷には、アドビシステムズから無料で配布されているAdobe Readerを使うのが一般的である。Acrobatがインストールされている場合は、AcrobatでPDFの表示や印刷ができる。Mac OS XではOSに標準で付属する「プレビュー」を利用できる。その他のOSについても、PDF閲覧ソフトに付属している印刷機能や、OSの印刷機能を利用して印刷できる場合が多い。

PDFファイルの検索

Web上のPDFファイルは、Googleなどで検索できる。また、コンピュータ内のPDFファイルは、AcrobatとAdobe Readerによる全文検索が可能だが、検索用インデックスを作成した高速全文検索を利用するためにはAcrobatのProfessionalバージョン(6.0以降)やGoogleデスクトップ、Mac OS X Tiger以降に付属するSpotlightなどが必要となる。

PDFファイルの作成と編集

PDFファイルの作成には、アドビシステムズのAcrobatを利用するのが一般的である。Mac OS Xでは、OSの標準機能で各種ドキュメントをPDFファイルに変換できる。LinuxなどUnix系OSの印刷システムであるCommon Unix Printing SystemにはPDFファイルの出力機能がある。そのほかにも、後述するOpenOffice.orgなどオープンソースのものも含めて、数多くのPDF作成ツールがある。

Acrobat

Acrobatでは、データを各種ソフトウェアから「Adobe PDFプリンタ」へ印刷することでPDFファイルを作成できる。この操作の場合、Acrobatに含まれるDistillerでPDFファイルを作成することになる。また、Microsoft OfficeではAcrobatに含まれるPDFMakerでドキュメントをPDFに変換できる。PDFMakerはDistillerを呼び出すとともに、しおり・ハイパーリンク・注釈などを自動的に作成する。

Adobe PDFプリンタによる方法以外としては以下のような作成手法を備えている。

  • Acrobat から直接、単数もしくは複数の画像ファイルを指定して、PDF化することが出来る。市販のデジタル写真集などでも利用されている。
  • Web Capture機能によりウェブページを直接PDF変換する。階層を指定することでハイパーリンク構造も再現できる。
  • イメージスキャナから直接画像を読み取り、PDFに変換できる。
OfficeドキュメントのPDF化

Microsoft Officeや一太郎などで作成したドキュメントも、PDF化されることが多い。PDFのドキュメントは、Microsoft Officeなどドキュメント作成時に使ったソフトウェアをインストールしていないコンピュータでも表示・印刷でき、コンピュータの環境によってレイアウトが変わる可能性も小さくなる。

Microsoft OfficeのドキュメントはPDF化しなくても、マイクロソフトから無償配布されている表示専用ソフトウェア(Word ViewerやExcel Viewerなど)で表示させることができる。しかしこうしたソフトウェアは、Adobe ReaderなどのPDF表示用ソフトウェアと比べると、対応しているOSが限られていることもあり、インストールされていない、またはできない場合が多い。そのため、不特定多数の人を対象にしたドキュメントはPDF化することで正しく表示される可能性が高くなる。

PDFの作成には、Microsoft Officeからはプリンタとしてインストールされる「Adobe PDF」や「Acrobat Distiller」を利用してPDFを作成することができる。なお、32bit版Officeについては、Acrobatに含まれるマクロの「PDF Maker」を利用し、より簡単なPDFの作成が可能になっている。

2007 Microsoft Office System (Microsoft Office 2007)では追加アドインを加えることでPDFを出力する機能が追加された。また、Microsoft Office 2007 サービスパック 2 では標準機能として追加され、別アプリを利用することなしにPDFを作成することができる。このPDF作成機能は Microsoft Office 2010 (x86 / x64)にも引き継がれている。

また一太郎の「2011 創」以降のバージョンでは、一太郎文書から直接PDFを作成することもできる。

フリーソフトウェアのOpenOffice.orgとLibreOfficeでは、標準でPDF出力機能を備えている。

LaTeXとPDF

LaTeXで作成したドキュメントをPDFに変換する機能も持つツールも開発されている。

  • PDFLaTeXはLaTeXソース文書を読み取り、そのままPDF形式に出力できる(日本語を含んだLaTeXソース文書は扱えない)。
  • dvipdfm(x)はLaTeX標準の中間形式であるdvi形式のファイルをPDFに変換できる。
  • これらPDFを直接扱う方法ではなく、LaTeX標準のdvipskなどの伝統的なPostScript出力用ツールでいったんPostScript形式に落とし、それをAdobe Distiller(またはフリーソフトであるGhostscript)といった標準的なPostScript→PDF変換ツールを使ってPDF出力させるといったやり方も一般的である
  • ProsperなどのLaTeX形式ファイルからプレゼンテーション用PDFファイルを生成できるツールも存在する。
XMLドキュメントのPDF化

マークアップ言語XMLの応用技術であるXSL-FOを利用すると、Apache FOPやXSL Formatterなどのソフトウェアを利用してPDFファイルに変換できる。XSL-FOはXSLTなどを利用して各種XMLドキュメントから生成できるため、XSL-FOを利用することで各種XMLドキュメントからPDFファイルを作成できる。

PDFの短所

PDFの短所として、次のような点が指摘されている。

仕様が複雑

PDFは、元にしていたPostScriptの仕様が複雑だったため、簡略化したとはいえやはり複雑な仕様である。また、PDFのバージョンアップとともにさまざまな機能が追加されたため、仕様はますます複雑になっている。

このため、PDFのドキュメントおよびソフトウェアはサイズが肥大化する傾向にあり、ソフトウェアの動作が重く、メモリの使用量が増大しがちである。

例えば、Acrobat6ではソフトウェアのサイズが大きく、起動に時間がかかるなど動作が重いため、敬遠する人も多かった。Acrobat7になって起動時間は短縮したが、ソフトウェアのサイズは相変わらず大きく、動作の重さを感じる場面もある。その配慮として、PDF以外の形式によるドキュメント(Word文書、Excelワークシートなど)も公開しているサイトもある。

また、仕様が公開されているとはいえ、PDFの複雑な仕様に完全に対応するソフトウェアを作成するのは難しい。

再利用が困難

PDFは、文字のレイアウトが崩れにくいため、最終成果物として公開するのには適している。しかし文字列の抽出や他形式にコンバートを試みると困難に直面する。というのはプレーンなPDFでは、ある文字列のブロック、隣接または上に重なる文字列やグラフィックとの論理的な対応関係を示す情報が乏しいためである。
言い換えれば、PDF上では文字列が、変換元文書にあったコンテキストを無視した文字の羅列になってしまうのである。これは、Kindleをはじめとする、画面の小さいビューアー用フォーマットへの変換を困難にする。また視覚障碍者向けの拡大表示、読み上げなどアクセシビリティにとって障壁となる。

これに対応するため、PDFには「タグ」機能が追加され、PDFへの変換時に文字列がどの順番で読まれるべきか、見出しとの関係などの情報が追加されるようになったが、紙をスキャンして作成されたPDFではタグは軽視されることが多い。

画面で見るには不向き

PDFは画面で見るには、ユーザビリティが不十分なために不向きである。

ドキュメントの読みやすさという点では、PDFを画面上で見るよりも印刷物の方が優れていると感じる人が多い。ただし、この視認性の問題の多くはHTMLなどコンピュータの画面で見るフォーマット全てにいえることなので、PDFだけの問題ではない。

理由としては、
  • 人間の目は光を受け取って物体を視認する。コンピュータなどのディスプレイは直接光を出すため、印刷物の反射光に比べ眼球に対する負担が大きくなり、目が疲れやすい。
  • ディスプレイは印刷物に比べて解像度が低いため、寸法の小さいパーツは見えにくい。
  • ほとんどのPDF文書がA4縦長で作られているが、PC画面は横長であることが多く、A4縦長ドキュメントを等倍で表示させにくい(HTMLは、ブラウザがウィンドウのサイズに合わせて再整形するのでこのような問題は少ない)。

といったことが考えられる。

ユーザビリティに十分配慮して作成されたHTMLドキュメントと比べると、PDFは扱いにくい面がある。PDFはWeb表示用に最適化(リニアライズ)されていないと、ドキュメントの一部分だけを参照したい場合でも、最初から最後まですべてのデータを閲覧端末に読み込む必要がある。Acrobatなど既定値でWeb最適化したPDFを作成するソフトも多いが、廉価・無償のPDF作成ソフトではWeb表示用に最適化する機能がないものがある。このようなPDF作成ソフトで作成されたPDFをWeb上で表示すると、表示開始までの待ち時間が長くなる。

ナビゲーションのために、しおり、PDFのページ間(内部)リンクやPDF外部へのリンクをドキュメントの任意の箇所に設定することも可能である。これを利用するには、PDF作成時に素材データの中で設定するか、(Readerでない)Acrobatなどのしおり・リンク編集機能をもつソフトで追加する必要がある。この点は、ソースに参照したい箇所をテキスト情報として付記するだけで済むHTMLに比べれば煩雑である。

アクセシビリティの観点からも、PDFではドキュメントの作成時にタグ付きPDFとしなければならない点などを考えると、HTMLや単純なテキスト形式の方が扱いやすい。

ユーザビリティに関して、ヤコブ・ニールセンはPDFについて、「オンラインの閲覧用に使ってはならない」と結論づけている。

「マルチメディア技術」に属する用語
「情報メディア」の他の分野
「テクノロジ系」の他のカテゴリ

クリエイティブ・コモンズ・ライセンス

このページのWikipediaよりの記事は、ウィキペディアの「Portable Document Format」(改訂履歴)の記事を複製、再配布したものにあたり、このページ内の該当部分はクリエイティブ・コモンズ 表示 - 継承 3.0 非移植 ライセンスの下 に提供されています。

© 2009-2024 ITパスポート試験ドットコム All Rights Reserved.

Pagetop