如何用java爬取数据
1、首先确定我们的RSS源信息,可以搜索得到,每一个都可以直接在浏览器输入,并获得一个xml文件。

2、接下里,讲下getURLConnection()方法,通过的URL对象构建链接,然后通过HttpURLConnection 对象打开链接(注意代码中的伪造成浏览器),并在连接成功后(getResponseCode==200)获取java 字节输入流InputStream。

3、获取到的就是前面看到的一个个链接的文件xml报文,不过我们得到的是流,不是xml文件,但是javax包提供了许多方法来解析,包括inputStream。
关键代码就是
DocumentBuilder documentBuilder = builderFactory.newDocumentBuilder();stb = new StringBuilder();org.w3c.dom.Document doc = documentBuilder.parse(ins);
其余部分就是根据你的xml报文结构,去循环遍历并获取你所需爬取的信息了。

4、最后看下运行效果吧。前面是文章标题 后面紧跟的就是文章的URL

声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
                                阅读量:63
阅读量:23
阅读量:187
阅读量:190
阅读量:139