CSVなどテキストデータで受取れるのが一番良いのですが、厚生労働省などが公表するデータは、表(Table)になったデータをPDFファイルで手に入れることもあります。
表のPDFファイルは、Excelに直接取り込むことができます。
Wordでしたらファイルを開くときにPDFファイルを指定するだけで、表のデータを取り込みます。
表形式だがPDFファイルでしかダウンロードできないデータ(厚生労働省)
Contents
PDFファイルの表をExelにデータ取得する
労働基準関係法令違反に係る公表事案(2021年8月1日~2022年7月29日公表分) を集約したものがPDFファイルで作成されて厚生労働省のホームペーで公表されています。(2022年8月31日(水)から)
集約したデータは各労働局ごとに分かれた表になって1つのPDFファイルでダウンロードできます。
厚生労働省労働基準局監督課 掲載日:令和4年8月31日
労働基準関係法令違反に係る公表事案(令和3年8月1日~令和4年7月29日公表分)
残念ながらExcelデータ(またはCSVなどのテキストデータ)は見当たりませんでしたので、このPDFファイルから表をExcelに取り込んでみました。
労働基準関係法令違反に係る公表事案(2021年8月1日~2022年7月29日公表分) を集約したPDFファイルは、各労働局ごとに1つの表にまとめられています。
PDFファイルのなかの表1つごとに、1つのExcelファイルのなかにSheetごと取り込むことができます。
以下の操作は、Microsoft Office365 Excel(バージョン2208)でのものです。
リボン(Alt)の[データ](A)タブから[データの取得](PN)を開き、
[ファイルから](F)の[PDFから](P)を選びます。
「データの取り込み」ダイアログが開きます。
Excelに取り込みたい表が入っているPDFファイルを選択して[インポート](M)します。
「ナビゲーター」ウィンドウが開きます。
「複数のアイテムの選択」にチェック(レ点)します。
TableとPageの2種類が表示されます。
「Table」は、PDFファイルのなかに入っている表の一覧です。
「Page」は、PDFファイルのページごとの一覧です。
1つの表(Table)が複数ページ(Page)にまたがっていることがありますし、1ページ(Page)に複数の表(Table)が入っていることもあります。
「Table」と「Page」の数は同じ場合も異なる場合もあります。
Tableは表題とデータで構成されていますので、ここではTableだけを選択の対象としてチェック(レ点)します。
Tableにチェックを入れたら、[データの変換]をクリックします。
Power Queryが開いたら、[ホーム]タブから、「閉じて読み込む」をクリックして、「閉じて次に読み込む…」を選択します。
「データのインポート」ダイアログで[テーブル](T)と「新規ワークシート」(N)をチェックして[OK]をクリックします。
TableごとにSheetが分かれて、表がPDFからExcelに取り込まれました。
知ってしまえば、とても簡単な操作で、PDFファイルから表をExcelファイルに取り込むことができます。
試してみましょう。
Excelの複数Sheetに分かれた表を1つのSheetにまとめる
各労働局ごとに1つの表にまとめられた労働基準関係法令違反に係る公表事案(2021年8月1日~2022年7月29日公表分)を集約したPDFファイルは、それぞれの表ごとに1つのExcelファイルのなかに別々のSheetで取り込まれました。
PDFファイルのなかの表1つごとに、1つのExcelファイルのなかにSheetごと取り込まれまれています。
各労働局ごとではなく、日本全国の集約を見るには全データが1つのSheetにまとまっている方が見やすいです。
たとえば、労働基準関係法令違反に係る公表事案のなかからフィルターでしぼりこんで日本全国で最低賃金法違反だけを見たいという場合にも、すべてのデータが1つのSheetに集約されていると便利です。
Excelファイルで別々のSheetに分けられたデータは、データの作り(並び)が同じでしたら、1つのSheetにまとめることもできます。
PDFファイルのなかの表をExcelファイルに取り込むときと、操作が似ています。
リボン(Alt)の[データ](A)タブから[データの取得](PN)を開き、
[ファイルから](F)の[Excelブックから](W)を選びます。
「データの取り込み」ダイアログが現れたら、複数のSheetに同じ作りのデータが分かれているExcelファイルを選択し、[インポート](M)をクリックします。
個々のテーブルではなく、一番上に表示されているファイル名を選択して、[データの変換]をクリックします。
Power Queryが開いたら、[展開]にチェックを入れて、取り込む列(Column)にチェック(レ点)してから、[OK]をクリックします。
[展開]をするには、左右の矢印のアイコンをクリックします。
フィルターを利用して取り込む必要がないものはチェック(レ点)を外します。
取り込む必要があるものだけにチェック(レ点)ができていることを確認したら[OK]をクリックします。
[ホーム]タブから、「閉じて読み込む」をクリックして、「閉じて次に読み込む…」を選択します。
「データのインポート」ダイアログで[テーブル](T)と[新規ワークシート]をチェックして[OK]をクリックします。
複数のSheetにまたがって存在していた表のデータが1つにSheetにまとめられました。
PDFファイルの表をWordで開く
PDFファイルの表は、Wordで読み込むことができます。
Wordからファイルを開く(ctrl+o)で、PDFファイルを選んで[開く](o)だけです。
Wordで取り込んだ表をコピーして、Excelに貼り付けることができます。
しかし試してみたところ、セルの結合が行われているデータも一部みられました。
結合されたセルがあると、フィルターなどで操作したときに正しくデータが抽出されませんから、データの修正作業が必要になります。
Wordを間に入れずに、Excelで直接PDFファイルから表を取り込んだ方が手間もかからず良いようです。
【編集後記】
ExcelにPDFファイルの表を直接取り込めることを知ったのは最近で、それまではPDFファイルから範囲指定しながらテキスト部分をコピーしていました。
今回の厚生労働省のPDFファイルは全部で66ページもあります。
テキスト部分を選択してコピーするのは大変な作業です。
うまくコピーできない部分があるとさらに大変です。
そんなときには「Sensible Paster」(Macアプリ)でOCRでテキスト化しています。
MacスクショOCRアプリ【Sensible Paster】は便利[control+command+6]で範囲指定するだけ
しかし、ExcelにPDFファイルから表を直接取り込むのが一番です。
試してみましょう。
小倉健二(労働者のための社労士・労働者側の社労士)Office新宿(東京都)
最新記事 by 小倉健二(労働者のための社労士・労働者側の社労士)Office新宿(東京都) (全て見る)
- 【産休・育休】厚生年金・健康保険の保険料免除について知ろう - 2023年3月29日
- 2023年4月1日【出産育児一時金】8万円増額1児50万円支給 - 2023年3月16日
- 【60歳で老齢年金繰上げ受給を検討中】繰上受給したあとで障害年金請求できるか? - 2023年3月14日