Python + Selenium でスクレイピングしてみる

Python と Selenium でスクレイピングのお勉強です。

Selenium は外部プログラムから Web ブラウザを操作することができる仕組みで、元々は Web アプリケーションのテスト自動化のためのツールだったようです。クリック、キー操作を外部アプリから操作できるので、技術的にはWebブラウザでできる全てのことを自動化するが可能です。

Selenium を使える言語としては Java, ruby, C#, Python, JavaScript のバインディングがあるのですが、Web を探してみるとスクレイピングの使い方としては Python + Selenium の情報量が圧倒的に多いため、Python で使ってみたいと思います。一般的には、Python + Selenium(ブラウザ制御) + Beautiful Soup(HTMLパーサ) の構成が多いようです。

概要をサラッと知るには Web よりも本のほうが良さそうなので、以下の書籍を買ってみました。
…続きを読む

アカウントアグリゲーション作ってみようかな

Python と Selenium を使うと比較的簡単にスクレイピングができるということを知ったので、アカウントアグリゲーションのアプリを作ってみようと思い立ちました。

Pythonは初心者だし、Selenium なんて使ったことなかったけど、世の中の流れについていくためにも、勉強がてら作ってみようかなと。

アカウントアグリゲーションの説明はWikipediaに任せるとして、なぜこんなものを作りたいのかというと、私はスタンドアロン型のアカウントアグリゲーション・アプリを使いたいのですが、現時点で主要なアカウントアグリゲーションサービス/アプリはすべてサーバ型(クラウド型)なのです。

…続きを読む

Xubuntuに乗り換えました

Ubuntu 18.04 を入れたばっかりですが、Xubuntu に乗り換えました。

以前から Unity が肌に合わなくて、Ubuntu を入れてもすぐに gnome-fallback/flashback を入れて Gnome2 相当で使っていたのですが、Unity から Gnome3 に変わったのでしばらく使ってみたところ、Unity の頃の Ubuntu に比べて格段に使いやすくなりましたね。

デフォルトの Alt + Tab のアプリケーション切り替えが変態仕様だったり、細かいところは気に入らないところもありますが、カスタマイズすれば違和感ない使い勝手になってくれるので気に入りました。

ただ・・・。
Gnome3 の UI は JavaScript で動作する Web ベースに近いとは聞いていたのですが、やはりメモリを非常に食うようで・・・。

…続きを読む

Ubuntu 18.04 でハイバネーション

前回の記事で Ubutntu 16.04 から 18.04 へ環境を移行させたと書きましたが、なぜ 16.04 を使い続けたかというと、17.04 や 17.10 ではなぜかハイバネーションがうまく動かなかったからです。普段ノートPCを使っているのでサスペンドさせておけばよいのですが、思いのほかサスペンドがバッテリを消耗するので、大体ハイバネーションで電源を切っています。私が使っている Vaio Pro11 は SSD なのでハイバネーションによる保存/復帰も高速なので重宝しています。

Ubuntu 18.04 でのハイバネーションの設定方法をメモがてら残しておきます。

…続きを読む

ファイルを消さずにUbuntu18.04をクリーンインストール

Ubuntu 18.04 LTS がリリースされて時間が経ち、そろそろこなれた頃かなと思い Ubuntu 18.04 に環境を移すことにしました。

今使っている Ubuntu が 16.04 LTS と古いので、今回はクリーンインストールすることにします。ただ、いちいちファイルをリストアするのが面倒なので、インストールされているパーテーションを消さずに(ファイルを残したまま)、新規インストールしてみます。こういう柔軟な運用ができるのもLinuxのいいところの1つです。

※操作を間違えると全部削除されますので面倒ですがバックアップは取っておきましょう
※少しだけ上級者向けなので、手順を読んで意味がわからない人はやめておきましょう
※現環境を消さずにインストールするので、空き容量には十分注意しましょう

…続きを読む