PyQオフィシャルブログ

Pythonのオンライン学習プラットフォームPyQのオフィシャルブログです

スクレイピングとかクローラーてどうやって作るの? - PyQが「Webスクレイピング」を学べるコンテンツを追加!

こんにちは。PyQ開発チームの照屋和夫です。

今日はPyQでかねてから要望が多かった「Webスクレイピング課題」を追加しましたので紹介します!

f:id:tell-k:20171005183853p:plain

Webスクレイピングって何?

普段みなさんが使っている Google などの検索エンジンが、あれだけの大量のWebページやコンテンツをどうやって集めてるか不思議に思ったことはありませんか? 多くの検索エンジンは、定期的にWebページをダウンロードしたり、ダウンロードしたWebページを解析して情報を抽出しています。

プログラムでWebページを解析して情報を抽出することを「スクレイピング」と呼びます。また大量のWebページを巡回するようなプログラムのことを「クローラー」と呼びます。

PyQでは、そのようなプログラムをどのように作ったら良いか学べるようになりました。

どんな事が学べるの?

スクレイピングやクローラーを作るためには、単純にPythonプログラムの書き方を学ぶだけでは十分ではありません。 例えば、基礎的なWebの仕組みや、他人のWebサイトをスクレイピングするための作法などの周辺知識が必要になります。

PyQでは、最低限の周辺知識を学びながら、Python初心者の方でもスクレイピングを学ぶことができるようになっています!

こんなことにならないように...

実は筆者もプログラミングを学び始めた頃、独学でクローラーのようなものを作っていました。ただ調べる内容は膨大で、どこから作っていいかわからず、試行錯誤を重ねて、実際に動かすところまでがやっとでした。

しかも当時は、相手のWebサイトのことなど全く考えずにクロールしてしまっために、Webサイトを運営する人に大変ご迷惑をかけてお叱りを受けました。。。

そこから初めて、クロールするためには相手のWebサイトに迷惑がかからないように注意するようになりました。

今回の「Webスクレイピング課題」では、そういった苦い経験を踏まえて得たノウハウを詰め込みながら、なるべくプログラムの初心者の方でもステップアップしながら、健全にスクレイピング/クローラーを学べるようなものにしました!

できるようになると楽しいですよ!

この課題で、Googleなどの検索エンジンを作れるようになるわけではありませんが。簡単なクローラーを作るくらいだったらできるようになります。

例えば、自分のために天気予報の情報を収集したり、可愛い猫画像を収集したり、はたまた研究のためのデータを集めたり、あなたがインターネット上で欲しかった情報を、自分の手で集めて活用することができるようなります!

きっとそれは、単純にプログラムを書くだけでは体験できなかった楽しいものになるでしょう。 是非PyQで「Webスクレイピング課題」にチャンレンジしてみてください!

pyq.jp

Pythonエンジニア ファーストブック も一緒にどうぞ!

Webスクレイピング課題」は著者の鈴木たかのりさんにご協力いただき、Pythonエンジニアファーストブックの内容をより初心者でも学びやすくしています!この本はスクレピング以外にもPython言語の基本、チーム開発、pandas、DjangoなどPythonを始めたい人たちにとってとても参考になります。PyQの復習にもとてもオススメです!

Pythonエンジニア ファーストブック

Pythonエンジニア ファーストブック

  • 作者: 鈴木たかのり,清原弘貴,嶋田健志,池内孝啓,関根裕紀
  • 出版社/メーカー: 技術評論社
  • 発売日: 2017/09/09
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログを見る