beautiful soupの使い方メモ
時々、スクレイピング用のコードを書くが忘れていることもあるので自分用にメモ。
aタグを取得
soup.find('a')
↑最初のaタグの要素を取得。もちろん引数を変えることで他のタグも取得可能。
aタグに囲まれたテキストのみを取得する場合は以下の通り。
soup.find('a').text
なお、「最初」だけではなく、「全て」のaタグを取得したい場合はこのように書く。
soup.find_all('a')
aタグの属性値を取得
例えば、aタグのhref属性、つまりurlを取得したい場合は以下のようになる。
soup.find('a').get('href')
特定クラス名のタグを取得する
例えば、hoge_linkというクラス名のaタグを取得したいとする。
その場合は、以下のようなコードで取得できる。
soup.find('a', {'class': 'hoge_link'})