nokogiri 这个 gem 实在好用,配合 spidr ,可以很方便的抓取网页 或图片。
spidr 使用 nokogiri
所以要灵活的话还是要用 nokogiri 。
require 'net/http'
require "open-uri"
require 'nokogiri'
weburl='http://slide.eladies.sina.com.cn/fa/slide_3_22147_9430.html#p=17'
doc = Nokogiri::HTML.parse (open (weburl), nil, 'gb2312') #不这样写会有乱码
doc.css('dl dd').each do |link|
puts link.content
rescue
puts 'error'
end
学习教程:
http://ruby.bastardsbook.com/chapters/html-parsing/