Nginx实现非套路镜像站的踩坑记录

缘起

前几天发现一个电子书非常棒,但是是 github 上的,总是打不开,而正好我的服务器是在香港的,所以我想做一个镜像。下面给大家提供了两种方案,下面话不多说了,来一起看看详细的介绍吧。

方案一

做了如下配置:

  location ^~ /book-c/  {   proxy_pass http://akaedu.github.io/book/;   proxy_redirect off;   proxy_http_version 1.1;   proxy_set_header Upgrade $http_upgrade;   proxy_set_header Connection "upgrade";  }

浏览了下,都 ok,但是有几点不太好

  • 如果以后我发现类似的书很好,都要增加一个 nginx 配置。
  • 如果原始网站完全无法访问了,我这边也挂了,不能缓存到我本地服务器。
  • 我想修改网页内容也不太好操作,比如我想加上原作者的版权和原始访问地址说明等。

完全采集过来,我也懒得写脚本去跑,最终走上了下面这段踩坑路。

尝试改进

所以尝试了如下做法

  rewrite ^/book-(.*?)/  /index.php?m=Book&a=show&book=$1 last;

  class BookAction extends Action{   private $uri;   public function show(){   $book = $_GET['book'];   if (!method_exists($this,$book)){    $this->error404();   }   try{    $this->$book();   }catch (Exception $e){    $this->error404();   }   }     /**   * http://akaedu.github.io/book/   */   private function c(){   $baseUrl = "http://akaedu.github.io/book/";   $url = $baseUrl.$this->uri;   echo file_get_contents($url);   }  }

又遇到了一个问题,当我访问 https://mengkang.net/book-c/styles.css 则无法 rewrite 匹配到了。

原因是 nginx 优先匹配了

  location ~ .*.(js|css)?$  {   expires 12h;  }

正则匹配优先级关系:

方案二

添加一条

  location ~ /book-.*?/  {   rewrite ^/book-(.*?)/ /index.php?m=Book&a=show&book=$1 last;  }

location ^~ 不支持正则的,所以没法用

采坑小记

如果是使用的 location ~ /book-.*/ ,根据正则就是贪婪模式,那么

https://mengkang.net/book-c/images/sortsearch.theta.png

匹配到的就是 /book-c/images/ ,也就是说rewrite里面的 $1 就是 c/images ,这样和我们的预期相悖的。

故障:无法匹配到 css 文件

  $ wget -S https://mengkang.net/book-c/styles.css -O /dev/null  --2018-02-01 13:13:36-- https://mengkang.net/book-c/styles.css  Resolving mengkang.net... 203.195.188.207  Connecting to mengkang.net|203.195.188.207|:443... connected.  HTTP request sent, awaiting response...   HTTP/1.1 200 OK   Server: nginx   Date: Thu, 01 Feb 2018 05:13:38 GMT   Content-Type: text/html; charset=UTF-8

所有内容的输出默认都是 text/html ,那么也就是我需要对文件的后缀判断咯。 感觉自己给自己挖坑,不如直接采集得了

  <?php  class BookAction extends Action{   const BOOK_SAVE_DIR = "/data/book/";   private $uri;   private $baseUrl;   private $book;   private $bookname;   public function show(){   $book = $_GET['book'];   $this->book = $book;   $this->uri = str_replace("/book-{$book}/","",$_SERVER['REQUEST_URI']);   if (!method_exists($this,$book)){    $this->error404();   }   try{    $this->$book();   }catch (Exception $e){    $this->error404();   }   }   /**   * http://akaedu.github.io/book/   */   private function c(){   $this->baseUrl = "http://akaedu.github.io/book/";   $url = $this->baseUrl.$this->uri;   $this->output($url);   }   private function output($url){   $ext = pathinfo($url,PATHINFO_EXTENSION);   if (!$ext) {    $url = $url."/index.html";    $ext = "html";   }   switch ($ext){    case "css":    header("Content-Type: text/css; charset=UTF-8");    break;    default:    header("Content-Type: text/html; charset=UTF-8");    break;   }   // 如果已经缓存   $filename = self::BOOK_SAVE_DIR.$this->book."/".str_replace($this->baseUrl,"",$url);   if (file_exists($filename)){    $data = file_get_contents($filename);   }else{    $data = file_get_contents($url);    $dir = dirname($filename);    if (!file_exists($dir)){    mkdir($dir,755,true);    }    file_put_contents($filename,$data);   }   // 增加原始版权说明   echo $data;   }  }

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对脚本之家的支持。

参与评论