两行命令爬取全部ICML论文
最近想把ICML的全部论文都爬下来,用了一些奇淫技巧,只用了两行命令就搞定了这件事,下面记录一下。
首先到ICML的官方网站上找所有被接受的论文,链接是(https://icml.cc/Conferences/2018/Schedule?type=Poster)。
把网页源代码复制粘贴到Atom里,正则表达式查找”http://proceedings.mlr.press/v80/[\w]+.html”,全部选择复制粘贴然后保存到page.txt
。
打开命令行切到该文件目录下,输入
sed -i 's/\([a-zA-Z0-9]\+\).html/\1\/\1.pdf/' page.txt
wget -i page.txt
静静等待下载完成就好了!
Comments