この記事では,Microsoft Power BIを使用してヒストグラムを作成する方法を紹介します。
結論
ヒストグラムを作成したいデータを右クリックして「新しいグループ」を作成し,それを棒グラフの変数に設定するだけ
以降で詳細を説明します。
使用するデータ
サンプルデータとして今回は,警察庁が公開している交通事故のデータを使用することにします。どの時間帯で事故が多いのか,何曜日に事故が多いのかなどをヒストグラムを使用して可視化してみたいと思います。
データのダウンロード
警察庁は毎年,前年に発生した交通事故のデータをオープンデータとして公開しています。今回は,2022年のデータをダウンロードしてPBIへ読み込みます。こちらのページの「オープンデータ」の「2022年(令和4年)」をクリックし,「本票_01-12月(csv形式:61.3MB)」からcsvデータをダウンロードします。
csvファイルを開くとこのようになっています。事故が発生した都道府県,発生日時,事故発生時の天候,信号の有無など事故の詳細情報が収録されています。各カラムの定義を詳しく知りたい方はこちらを参照してみてください。
Power BIにcsvファイルを読み込む
ダウンロードしたデータファイルをPower BIに読み込みます。まず,Power BI Desktopを起動し,「データを取得」をクリックします。
すると新たにウィンドウが立ち上がりますので「テキスト/CSV」を選択し,「接続」をクリックします。ファイル選択ダイアログが開きますので先ほどダウンロードした「honhyo_2022.csv」を選択します。
そうすると以下のような画面になりますので「読み込み」をクリックします。
「データ」ペインに無事にデータが取り込まれました。
新しいグループの作成
ヒストグラムを作成したいデータを選択して,ヒストグラムの作成に必要な形に変換していきます。今回は,事故の発生時間帯の分布を可視化してみたいと思います。データの中から「発生日時 時」を探して右クリックし,「新しいグループ」を選択します。
すると,以下の画面になりますので,「ビンのサイズ」を1に設定し,「OK」をクリックします。この「ビンのサイズ」を変更することでヒストグラムの階級幅を変更することができます。
これでヒストグラム作成の準備が整いました。
ヒストグラムの作成
準備したデータを使用してヒストグラムを作成していきます。「視覚化」の「集合棒グラフ」を選択します。
x軸とy軸に先ほど作成した「発生日時 時(ビン)」を指定します。ヒストグラムを作成することができました。
データを見てみると,朝7-8時台と夕方17-18時台の通勤や通学の時間帯がやや多いのがわかりますね。天候や曜日などの情報も含めて分析してみるとさらに面白いかもしれませんね。また機会があれば詳細分析してみたいと思います。
まとめ
この記事では,Power BIでヒストグラムを作成する方法を紹介しました。
・ヒストグラムを作成したいデータを右クリックして「新しいグループ」を作成し,それを棒グラフの変数に設定するだけ
・「ビンのサイズ」を変更することで,ヒストグラムの階級幅を変更することができます。