PDFの表をエクセルに取り込む
手元に大量というほどでもないのだけれど、手作業でやるにはちょっと時間がかかるデータがあって、今後何かで必要なこともあるだろうと機械にやらせる方法を調べ、そして苦戦した備忘録。
macOXでエクセルはExcel for Mac 2011でやっています。
まず、PDFをエクセルで取り扱い可能なファイルにするためにあれやこれやと調べると次の記事が出てくる。
記事に従ってtabulaを操作。ここまでは順調。表をcsv形式にしたものを手に入れる。
このcsvにしたものをエクセルに食べさせるのだけれども、文字化け問題が発生。調べると次の記事がヒット。テキストエディットからエンコーディングを変えてcsvで保存すると文字化け問題は解決する。
気を取り直してエクセルにインポート。今度はセル内改行がうまく読み込めない。csvになる段階で,セル内改行があるデータは" "で区切られているのだけれど, 読み込みの時点で先に改行してから読み込んでいるのか、セル内改行も全部改行される。調べると次のページがヒットし何となく原因は分かりそうなのだがうまい解決に至らない。
色々試した結果、csvをgoogleのスプレッドシートに食べさせてからエクセルで出力をするととりあえず、セル内改行を正確に反映したエクセルファイルを得ることができた。当面はこれでなんとかなりそう。