PHP判断url是否为有效图片
以下列举通过php判断链接类型的3种方法
方式一
直接正则匹配URL链接,是否是以.png,.gif,.jpg,.jpeg结尾的。
preg_match('/.*(\.png|\.jpg|\.jpeg|\.gif)$/', $url);
这个是一个最简单的方式,但是不够精确,因为并不是所有的图片链接都是以图片名字+扩展名结尾的。
方式二
用CURL获取图片URL的response header
首先创建一个curl,并将头文件的信息,作为数据流输出
$url = "http://*************"; //图片的链接地址
$ch = curl_init();
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); //是否跟着爬取重定向的页面
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //将curl_exec()获取的值以文本流的形式返回,而不是直接输出。
curl_setopt($ch, CURLOPT_HEADER, 1); // 启用时会将头文件的信息作为数据流输出
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5); //设置超时时间
curl_setopt($ch, CURLOPT_URL, $url); //设置URL
$content = curl_exec($ch);
$httpcode = curl_getinfo($ch, CURLINFO_HTTP_CODE); //curl的httpcode
$headerSize = curl_getinfo($ch, CURLINFO_HEADER_SIZE); //获取头大小
curl_close($ch);
此时content中包含头信息和图片的二进制内容,然后根据头的大小($headerSize)截取出头信息,剩下的就是图片的二进制内容了。
$headers = substr($content, 0, $headerSize); //根据头大小截取头信息
头信息输出结构如下
HTTP/1.1 200 OK
Server: JSP3/2.0.14
Date: Sun, 30 Jul 2017 06:54:47 GMT
Content-Type: image/jpeg
Content-Length: 152094
Connection: keep-alive
ETag: "7751852900776331536"
Last-Modified: Tue, 02 May 2017 10:33:16 GMT
Expires: Wed, 18 Jul 2018 06:25:38 GMT
Age: 879492
Cache-Control: max-age=31536000
Accept-Ranges: bytes
Error-Message: OK
Ohc-Response-Time: 1 0 0 0 0 0
可以看到里面有个Content-Type: image/jpeg
,然后处理头信息,取出想要的内容
$head_data=preg_split('/\n/',$headers); //逐行放入数组中
$head_data = array_filter($head_data); //过滤空数组
$headers_arr = [];
foreach($head_data as $val){ //按:分割开
list($k,$v) = explode(":",$val); //:前面的作为key,后面的作为value,放入数组中
$headers_arr[$k] = $v;
}
$img_type = explode("/",trim($headers_arr['Content-Type'])); //然后将获取到的Content-Type中的值用/分隔开
if ($httpcode == 200 && strcasecmp($img_type[0],'image') == 0) {//如果httpcode为200,并且Content-type前面的部分为image,则说明该链接可以访问成功,并且是一个图片类型的
$type = $img_type[1];
.............
} else {//否则........
............
}
注: curl_setopt($ch, CURLOPT_NOBODY,true);
可以设置只获取头信息,不要body
方式三
用PHP的get_headers() 函数,可以直接获取响应的头信息,但是相比于curl,不能设置超时时间。
<?php
$url = 'http://www.example.com';
print_r(get_headers($url));
print_r(get_headers($url, 1));
?>
输出结果如下:
Array
(
[0] => HTTP/1.1 200 OK
[1] => Date: Sat, 29 May 2004 12:28:13 GMT
[2] => Server: Apache/1.3.27 (Unix) (Red-Hat/Linux)
[3] => Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT
[4] => ETag: "3f80f-1b6-3e1cb03b"
[5] => Accept-Ranges: bytes
[6] => Content-Length: 438
[7] => Connection: close
[8] => Content-Type: text/html
)
Array
(
[0] => HTTP/1.1 200 OK
[Date] => Sat, 29 May 2004 12:28:14 GMT
[Server] => Apache/1.3.27 (Unix) (Red-Hat/Linux)
[Last-Modified] => Wed, 08 Jan 2003 23:11:55 GMT
[ETag] => "3f80f-1b6-3e1cb03b"
[Accept-Ranges] => bytes
[Content-Length] => 438
[Connection] => close
[Content-Type] => text/html
)
同样地,利用2中的方法取出Content-Type进行判断即可。
一些问题
1,上面$headerSize = curl_getinfo($ch, CURLINFO_HEADER_SIZE); //获取头大小
这一段获取的内容和$content = curl_exec($ch);
获取内容完全一致,根本不需要这么写。
2,list($k,$v) = explode(":",$val); //前面的作为key,后面的作为value,放入数组中
这一段,数组内含有null某些环境下会报错,很明显这个写法有问题。
可以加判断:
if($v){
$headers_arr[$k] = $v;
}
当然这只是就事论事的解决,然而这并没有意义,因为:
3,既然已经用了$httpcode = curl_getinfo($ch, CURLINFO_HTTP_CODE); //curl的httpcode
就是说,可以使用curl_getinfo()函数获取CURL请求输出的相关信息,那么完全可以同样的获得想要的Content-Type,那么下面的代码就没有任何意义了(除非说是久违了联系代码~囧~)
4,最后这个($httpcode == 200 && strtolower($img_type[0]) == 'image')
也非常丑陋。
重写:
因此就这个方法而言,应该这样写:
$url = '...';
// 创建一个cURL资源
$ch = curl_init();
// 设置URL和相应的选项
curl_setopt($ch, CURLOPT_URL, $url); //设置URL
curl_setopt($ch, CURLOPT_HEADER, 1); // 将头文件的信息作为数据流输出
//curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); //是否跟着爬取重定向的页面,这一项不需要开启,因为我们判断的是链接本身,不是跳转后内容
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //将curl_exec()获取的值以文本流(字符串)的形式返回,而不是直接输出。
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5); //设置超时时间
curl_setopt($ch, CURLOPT_NOBODY,true); //设置只获取header不获取body
// curl_exec($ch);抓取URL并把它传递给浏览器
$content = curl_exec($ch);
$http_code = curl_getinfo($ch, CURLINFO_HTTP_CODE); //curl的httpcode
$http_type = curl_getinfo($ch,CURLINFO_CONTENT_TYPE); //看看能不能直接或获取type
// 关闭cURL资源,并且释放系统资源
curl_close($ch);
$img_type = explode("/",$http_type); //将'Content-Type: image/jpeg'中的值用/分隔开
if ($http_code == 200 && strtolower($img_type[0]) == 'image') {
//判断该链接可以访问成功,并且是一个图片类型
echo "是可用图片链接";
} else {
//否则........
echo "非可用图片链接";
}
当然,这样就完美了吗?很明显不是的。既然我们只是要判断是否为可用图片链接,直接取出$content = curl_exec($ch);
正则一下不就行了。
片段如下
$is_img = preg_match('/image/i', $content);//直接忽略大小写匹配'image'
if ($http_code == 200 && $is_img) {
echo "是可用图片链接";
}
当然http_code也可以直接正则匹配。
这个例子告诉我,网上搜索的内容质量难以保障,还是要自己多写、多思考才行。
本文最后更新时间为 2024-10-11 13:18
本站仅用作个人记录,不交流、不讨论,留言板可以留言但无邮件回复。