最近想把ICML的全部论文都爬下来,用了一些奇淫技巧,只用了两行命令就搞定了这件事,下面记录一下。

首先到ICML的官方网站上找所有被接受的论文,链接是(https://icml.cc/Conferences/2018/Schedule?type=Poster)。

把网页源代码复制粘贴到Atom里,正则表达式查找”http://proceedings.mlr.press/v80/[\w]+.html”,全部选择复制粘贴然后保存到page.txt

打开命令行切到该文件目录下,输入

sed -i 's/\([a-zA-Z0-9]\+\).html/\1\/\1.pdf/' page.txt
wget -i page.txt

静静等待下载完成就好了!