beautiful soupの使い方メモ

beautifulsoup

時々、スクレイピング用のコードを書くが忘れていることもあるので自分用にメモ。

aタグを取得

soup.find('a')

↑最初のaタグの要素を取得。もちろん引数を変えることで他のタグも取得可能。

aタグに囲まれたテキストのみを取得する場合は以下の通り。

soup.find('a').text

なお、「最初」だけではなく、「全て」のaタグを取得したい場合はこのように書く。

soup.find_all('a')

aタグの属性値を取得

例えば、aタグのhref属性、つまりurlを取得したい場合は以下のようになる。

soup.find('a').get('href')

特定クラス名のタグを取得する

例えば、hoge_linkというクラス名のaタグを取得したいとする。

その場合は、以下のようなコードで取得できる。

soup.find('a', {'class': 'hoge_link'})


カテゴリー