Python学習チャンネル by PyQ

Pythonのオンライン学習プラットフォームPyQのオフィシャルブログです

【冬休みでできるおすすめ学習計画(PyQ)】「pandasを使ったデータ処理の基本を学びたい人」向け

f:id:kenken0326:20201217170737p:plain

こんにちは!PyQマーケティングチームです。

もうすぐ冬休みや年末年始の休暇の時期ですね。
この休みを利用してPythonを学習してみてはいかがでしょうか?

PyQチームではこのお休み中にPyQのどのパートのクエストを学べばよいか、効率的な学習計画を目的毎に紹介します。

今回は「pandasを使ったデータ処理の基本を学びたい人」を対象とした学習計画です。

※ 冬休み = 1週間と設定しています。各パート毎の想定時間も書いたので、適宜自分の取り組める期間に応じて組み直してもよいでしょう。

PyQを知らない方へ

この記事は、オンラインPython学習サービスPyQ(https://pyq.jp)を活用したPython学習スケジュールです。PyQは、ブラウザだけで始められ、基礎文法から実務的な内容まで、1500問以上の問題で自学できるPython学習サービスです。

pyq.jp

pandasデータ処理・可視化集中プラン

学習プランの概要

  • pandasを使ったデータ処理の基本について学びます。
  • 可視化パッケージの定番であるMatplotlibや、最近話題のインタラクティブなグラフ作成パッケージであるStreamlitについても扱います。
  • 最後には、pandasを使った売上データの報告書作成や、顧客のクラスタリングについて学びます。

このプランの対象は、データ処理でよく使われるpandasに入門したい方、pandasの基本を改めて体系だって学び直したい方です。
※プログラミング自体が初めての方は、先に「Pythonプログラミングをはじめようコース」から始めることをおすすめします。

学習に必要な時間

学習プラン全体の学習目安時間

  • 約20時間

7日で学習した場合の1日あたりの学習目安時間

  • 1〜4時間
    • 長めですので、途中休憩を挟みつつ、午前と午後に分けて取り組むのもよいでしょう。

pandasデータ処理・可視化集中プランで学習するPyQパート一覧

ランク

パート

問題数

想定時間(分)

Jupyter Notebookと可視化

Jupyter Notebookの使い方

7

50

Pythonデータ処理初級

pandas体験

11

110

Pythonデータ処理中級

pandasで役立つ機能

6

40

Pythonデータ処理初級

pandasのデータ構造

21

210

Pythonデータ処理初級

データ処理

25

210

Pythonデータ処理初級

pandasのデータ可視化

7

60

Pythonデータ処理中級

pandasの表の加工

10

60

Pythonデータ処理中級

pandasの欠損値について

10

60

Pythonデータ処理中級

pandasの時系列データ

9

70

Jupyter Notebookと可視化

Matplotlibの使い方

23

110

Jupyter Notebookと可視化

Streamlit

12

120

Pythonデータ処理中級

pandasで売上サマリ作成

7

40

Python機械学習中級

クラスタリング

4

20

7日で学習した場合のスケジュール例

1日目:約3時間

Jupyter Notebookの基本的な操作方法を学び、pandasに入門する。
- Jupyter Notebookの使い方 (50分)
- pandas体験(110分)

2日目:約4時間

pandasのデータの概要を把握する方法や、pandasのデータ構造の基本(DataFrameやSeriesなど)について学ぶ。

- pandasで役立つ機能 (40分)
- pandasのデータ構造 (210分)

3日目:約3.5時間

pandasを使ってファイルのデータを読み書きする方法や、基本的なデータ加工について学ぶ。
- データ処理(210分)

4日目:約2時間

pandasを使った簡単なグラフ作成や、複数のDataFrameを使ったデータ加工について学ぶ。
- pandasのデータ可視化 (60分)
- pandasの表の加工 (60分)

5日目:約2時間

データに欠損値がある場合の処理や、日時データを扱う方法について学ぶ。
- pandasの欠損値について (60分)
- pandasの時系列データ (70分)

6日目:約4時間

pandas以外のデータ可視化方法として、グラフ可視化パッケージの定番であり、より細かなカスタマイズができる、Matplotlibとインタラクティブなグラフが作れるStreamlitについて学ぶ。
- Matplotlibの使い方 (110分)
- Streamlit (120分)

7日目:約1時間

実践的な例として、pandasを使った売上データの報告書作成や、顧客のクラスタリングについて学ぶ。
- pandasで売上サマリ作成 (40分)
- クラスタリング (20分)

pandas復習22問プラン

学習プランの概要

  • pandasの基本は知っていて、理解度チェックがしたい方におすすめです。
  • データの確認データ抽出・結合・加工、ファイル保存など、全部で10クエスト(計22問)のチャレンジ問題がありますので、たくさん解くことができますよ。

学習に必要な時間

学習プラン全体の学習目安時間

  • 約7時間
    • pandasの習熟度によって時間は変わってきますが、1問=20分として、1クエスト=1〜3問=20分〜1時間程度を想定しています。

7日で学習した場合の1日あたりの学習目安時間

  • 1〜1.5時間
    • 全部で10クエスト(計22問)あるので、1日2クエストずつやると、5日で終わります。集中して1〜2日で終わらせても良いと思います。

pandas復習22問プランで学習するPyQパート一覧

ランク

パート

問題数

想定時間(分)

Pythonデータ処理実践

pandasチャレンジ1st

12

240

Pythonデータ処理実践

pandasチャレンジ2nd

10

200

7日で学習した場合のスケジュール例

1日目:約0.5時間

列や行を指定したデータの抽出方法を復習する。
- pandasチャレンジその1 (40分)

2日目:約1時間

文字列の条件によってデータをフィルタリングし、strアクセサの使い方を復習する。
- pandasチャレンジその2(60分)

3日目:約0.5時間

文字化けしない方法など、CSVファイルへの保存方法について復習する。
- pandasチャレンジその3 (40分)

4日目:約1時間

ピボットテーブルや複数テーブルの結合など、データ加工について復習する。
- pandasチャレンジその4 (60分)

5日目:約1.5時間

データの集計やソート、集計後のデータに対する加工や辞書型への変換など、データ処理で必要になる操作について復習する。
- pandasチャレンジその5 (40分)
- pandasチャレンジその6 (40分)

6日目:約1.5時間

集計結果からの順位の算出や、新しい列の作成・追加、欠損値の補完などの操作について復習する。
- pandasチャレンジその7 (40分)
- pandasチャレンジその8 (40分)

7日目:約1.5時間

条件指定による列や行の分解や、より複雑なデータ抽出について復習する。
- pandasチャレンジその9 (40分)
- pandasチャレンジその10 (40分)

まとめ

「pandasを使ったデータ処理の基本を学びたい人」を対象とした学習計画を2つ紹介しました。
年末年始の休みを利用して、この冬はデータ処理にチャレンジしてみてはいかがでしょうか?
次回は「Web/APIの基礎を学びたい人」「アルゴリズムを学びたい人」「機械学習の基礎を学びたい人」の人向けの学習計画を紹介します。

Copyright ©2017- BeProud Inc. All rights reserved.