pdf切り貼りで記事を読みやすく

15
PDF 切り貼りで記事を読みやすく KenichiroMATOHARA(@matoken) http://matoken.org 小江戸らぐ4月のオフな集まり(129)2013/04/13 独立行政法人情報処理推進機構(IPA)会議室A

Upload: kenichiro-matohara

Post on 21-Jun-2015

625 views

Category:

Documents


1 download

DESCRIPTION

PDF 切り貼りで記事を読みやすく KenichiroMATOHARA(@matoken) http://matoken.org 小江戸らぐ4月のオフな集まり(第129回)2013/04/13 独立行政法人情報処理推進機構(IPA)会議室A

TRANSCRIPT

Page 1: PDF切り貼りで記事を読みやすく

PDF 切り貼りで記事を読みやすく

KenichiroMATOHARA(@matoken)http://matoken.org

小江戸らぐ4月のオフな集まり(第129回)2013/04/13独立行政法人情報処理推進機構(IPA)会議室A

Page 2: PDF切り貼りで記事を読みやすく

最近● 自動車学校に通い始めました

– 未だ1段階(場内教習).火曜に修了検定?

● 先月紹介したひよこch は休止中– ストレージが論理的に死亡.再構築が必要.– jffs2 にしたりfsprotect でro mount とかにするとましになるかも– ひよこは大分大きく

● 2月のオフな集まりで割ったnexus7 がやっと修理から帰ってくる– 2/18修理依頼,受け取りが4/11.– (修理完了後旧住所に2回発送されてたorz)

● HST(ハッブル宇宙望遠鏡)撮影したり

Page 3: PDF切り貼りで記事を読みやすく
Page 4: PDF切り貼りで記事を読みやすく

pdf をまとめて読みやすくしてみる

● 最近pdf で雑誌記事などが公開されたりしている.

● でも大抵記事ごとに分割されていて何度も開くのが面倒くさい.

● 結合して読みやすくしてみる.

Page 5: PDF切り貼りで記事を読みやすく

今回はUbuntuMagazine Vol.09 を

● “Ubuntu Magazine Japan” http://ubuntu.asciimw.jp/

● 現在Vol.10 迄発行.● 新刊が出ると前の巻はCC BY-NC-SA で公開される.Vol.01~09 迄公開済み.

● “Ubuntu Magazine Japan:過去の本誌掲載記事” http://ubuntu.asciimw.jp/cate/5010/

Page 6: PDF切り貼りで記事を読みやすく

pdf データの入手(wget)

● wget とか(ディレクトリを掘らず:-nd/*.pdf を:-A .pdf/再帰的に:-r/親ディレクトリは追わない:-np)

$ wget http://ubuntu.asciimw.jp/elem/000/000/010/10533/ -nd -A .pdf -r -np

$ ls

UM09_P104-111.pdf UM09_P2-21.pdf UM09_P28-33.pdf UM09_P42-47.pdf UM09_P66-73.pdf UM09_P80-83.pdf UM09_P92.pdf

UM09_P112-119.pdf UM09_P22-27.pdf UM09_P34-41.pdf UM09_P49-P64.pdf UM09_P74-79.pdf UM09_P84-91.pdf UM09_P93-103.pdf

Page 7: PDF切り貼りで記事を読みやすく

pdf データの入手(DownThemAll!)

● Fx で”DownThemAll!” も便利– このページにある*.pdf なリンクを全部ダウンロードなど

Page 8: PDF切り貼りで記事を読みやすく
Page 9: PDF切り貼りで記事を読みやすく

制限の掛かっているファイルの場合解除

● 制限が掛かっていると結合とか出来なかったりするので一旦ps にしてpdf に戻して制限を解除.

pdftops -upw '' file.pdf

ps2pdf file.ps

● ※グレーな気がするけど私的利用なら問題ない?

● ※UbuntuMagazine はこの処理は必要ない

Page 10: PDF切り貼りで記事を読みやすく

結合(pdftk)

● $ pdftk UM09_P2-21.pdf UM09_P22-27.pdf UM09_P28-33.pdf \

UM09_P34-41.pdf UM09_P42-47.pdf UM09_P49-P64.pdf \

UM09_P66-73.pdf UM09_P74-79.pdf UM09_P80-83.pdf \

UM09_P84-91.pdf UM09_P92.pdf UM09_P93-103.pdf \

UM09_P104-111.pdf UM09_P112-119.pdf \

cat output \

UM09.pdf

● 「UM09.pdf」 というファイルにまとめられた.● ※ワイルドカードも使えるが並び順が期待したものにならないこともある

Page 11: PDF切り貼りで記事を読みやすく

注意書きが沢山あって邪魔

● 「ご利用になる前に必ずお読みください」という注意書きページがファイル毎の先頭ページにあって一寸邪魔.

● 1つ目の記事以外の先頭ページを消してみる.(先頭ページ以外を残す)

pdftk file.pdf cat 2-end output file_cut.pdf

p

p1

p2

p3

p4p

p2

p3

p4

Page 12: PDF切り貼りで記事を読みやすく

$ cat cut

while(<DATA>){

chomp;

`pdftk $_ cat 2-end output $_.pdf`;

}

_DATA_

UM09_P22-27.pdf

UM09_P28-33.pdf

UM09_P34-41.pdf

UM09_P42-47.pdf

UM09_P49-P64.pdf

UM09_P66-73.pdf

UM09_P74-79.pdf

UM09_P80-83.pdf

UM09_P84-91.pdf

UM09_P92.pdf

UM09_P93-103.pdf

UM09_P104-111.pdf

UM09_P112-119.pdf

Page 13: PDF切り貼りで記事を読みやすく

実行

$ perl cut

結合

pdftk \

UM09_P2-21.pdf UM09_P22-27.pdf.pdf UM09_P28-33.pdf.pdf \

UM09_P34-41.pdf.pdf UM09_P42-47.pdf.pdf UM09_P49-P64.pdf.pdf \

UM09_P66-73.pdf.pdf UM09_P74-79.pdf.pdf UM09_P80-83.pdf.pdf \

UM09_P84-91.pdf.pdf UM09_P92.pdf.pdf UM09_P93-103.pdf.pdf \

UM09_P104-111.pdf.pdf UM09_P112-119.pdf.pdf \

cat output \

UM09.pdf

https://plus.google.com/u/0/103792214056489833385/posts/YJH3DFeEMou のコメントで@emasakaさんに中間ファイル要らない方法を教えてもらう

Page 14: PDF切り貼りで記事を読みやすく

jpeg にしてみる

● まとめたpdf は64MB 程.Evernote 確か50MB 迄なので添付できない(勘違い100MB 迄OK)

● 72dpi のjpeg にしてまとめてみたら11MB ちょい.でも荒くて読めない.

● 150dpi で40MB ちょい.これなら読める.$ pdftoppm UM09.pdf UM09 -jpeg -r 150;tar cvzf UM09.cbz UM09*.jpg

$ ls -l UM09.cbz

rw-r--r- 1 mk mk 40605087 3月 10 14:14 UM09.cbz

● ※jpeg やcbz の場合はMComix が便利.(開発の止まったComix のフォーク)

Page 15: PDF切り貼りで記事を読みやすく

発表後

@naru0gaさんから“O'Reilly Japan - PDF構造解説”に色々載ってるよ http://www.oreilly.co.jp/books/9784873115498/

PDF Chain というpdftk の皮があるよ“PDF Chain Project Page - Welcome” http://pdfchain.sourceforge.net/

$ sudo apt-get install pdfchain (Debian Wheezy)

とか教えてもらう.

● 今回の件をpdfchain で試してみた https://plus.google.com/u/0/103792214056489833385/posts/JnsPuTFJJZ9