jsoup如何获取js生成的内容
1、先在eclipse创建一个web项目作为用jsoup抓取的网址。由于主要是为了介绍如何获取js生成的内容,所以创建web这一块就不详细介绍了,具体过程看图。
2、启动tomcat运行上面创建的web项目,结果如图。现在不关闭tomcat,让该web项目一直运行。
3、接下来创建一个Java工程项目,在项目下创建lib文件夹,并将jsoup的jar包复制到该文件下,并将该jar包添加到Bu足毂忍珩ild Path中。在src下创建test包,在该包下创建类Main。创建完后的工程目录如图。
4、Main.java的内容如图。
5、通过java应用程序的方式运行Main.java,结果如图。可以看到,由js生成的内容,jsoup并没有获取到。
6、由于门钙蹲茌jsoup只能获取到静态页面的数据,并无法获取动态生成的内容,所以单单使用jsoup是无法获取到js生成的内容的。菀蒯踔观我这里使用了htmlunit来获取网页内容后,将网页转换成xml格式,再通过jsoup进行解析。如果不认识htmlunit,可以参考:htmlunit下载及使用htmlunit模拟点击链接。将htmlunit所需的jar包导入项目后,工程目录如图。
7、修改Main.java的内容如图。
8、再次运行Main.java,在控制台输出的内容中,可以看到,成功获取到了js生成的内容。
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。