如何抓取网页制作制作 mdx 格式词典

2025-05-20 22:52:41

1、获取网站 index,新建一个txt,内容为要抓取的所有词条的URL。txt命名为download.txt。我挹掷秦把把这个download.txt和wget.exe(如果你下载的wget是wget+版本号.exe,不妨重命名为wget.exe),这俩文件都放在D:\DOPF下。cmd.exe->CD/D D:\DOPF->wget -i download.txt下载处理后,得到一共16698个链接。

2、抓取内容同样的,wget -i download.txt把上面那N个html都抓下来,然后就很简单了

3、文本提取观察可知,词典条目内容在第一个<h1>和<div class="source">之间。利用TextForever来提取文本。

如何抓取网页制作制作 mdx 格式词典
如何抓取网页制作制作 mdx 格式词典
如何抓取网页制作制作 mdx 格式词典

4、提取完毕,合并得到的16695个html,这本词典的制作过程中,我思考了下,不用在“文件内容前加注文件名”,有的情况下,是需要这样做的,以菱诎逭幂方便提取keywords,经过测试,还是要在“文件内容后加空行”。得到dopf-src.txt,对这个txt进行操作,得到可build为mdx的txt。

如何抓取网页制作制作 mdx 格式词典
如何抓取网页制作制作 mdx 格式词典

5、制作mdx合并后的文本长这样:

如何抓取网页制作制作 mdx 格式词典
如何抓取网页制作制作 mdx 格式词典

6、词典是xml,由于MDict PC版不支持xml+css(除非升级内核),我们要把xml标签替换为html标签。经过下面一系列的操作。处理后最终的文本是这样:

如何抓取网页制作制作 mdx 格式词典
如何抓取网页制作制作 mdx 格式词典

7、写css。

如何抓取网页制作制作 mdx 格式词典

8、中途遇到些小问题,一个个解决,最后,成品:

如何抓取网页制作制作 mdx 格式词典

9、是不是比在线的稍微顺眼点呢?

如何抓取网页制作制作 mdx 格式词典
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢