В этой статье речь пойдет о таком мощном инструменте как cURL, а также о библиотеке для php, которая предоставляет доступ к этому инструменту — libcurl. Для чего все это нужно? Для связи с сервером по протоколам передачи данных, например, http или ftp. Остальные протоколы нам не особо интересны, если кто-то хочет углубляться в эту тему, то придется уже копать англоязычные ресурсы, а в этой статье будут основы и примеры использования.
Итак, библиотека libcurl предоставляет нам возможность передачи данных на сервер, и получения ответов от него. Что нам это дает? Возможность эмуляции поведения пользователя или ! Вы можете получать содержимое страниц для последующего парсинга, можете получать заголовки ответов сервиса и программно авторизироваться на сайтах, делать скрипты постинга сообщений (например, в твиттер или на форумах) или информации. Все ограничивается лишь вашей фантазией!
Первое, что мы должны сделать, это установить библиотеку. На локальном компьютере я пользуюсь сборкой Denwer, как и подавляющее большинство начинающих вебмастеров, на которых и рассчитана статья. Опытные пользователи, которые самостоятельно устанавливают связку php+apache+mysql смогут установить и cURL, не мне объяснять им как это делается;) А мы, новички, пользуемся готовыми решениями, чтобы было проще. Поэтому, устанавливаем libcurl следующим образом:
и убираем точку с запятой в начале сроки:
;extension=php_curl.dll
Готово. Чтобы проверить работоспособность библиотеки можете вызвать функцию phpinfo() и найти там строчку: cURL support enabled. Поздравляю с первой победой.
Для началом работы с инструментом, его нужно инициализировать. Делается это следующим образом:
$ch = curl_init();
Мы использовали функцию инициализации сессии cURL. При этом, можно задать URL сразу, вот так:
$ch = curl_init("https://сайт");
А можно сделать это потом, в опциях. Порядок установки опций не имеет значения. Делается это другой функцией:
Curl_setopt (resource ch, string option, mixed value)
Первый параметр этой функции, то есть resource ch мы уже создали чуть выше, а вот параметров option и value очень много. Я думаю, что не стоит копипастить сюда их все, а достаточно лишь дать ссылку на подробное описание функции, надеюсь никто не обидится: curl_setopt .
Приведу пример установки опций как раз на примере URL:
$url = "https://сайт"; curl_setopt($ch, CURLOPT_URL,$url);
Еще парочка примеров задания опций: давайте получим заголовок ответа сервера, при этом не будем получать саму страницу:
Curl_setopt($ch, CURLOPT_HEADER, 1); // читать заголовок curl_setopt($ch, CURLOPT_NOBODY, 1); // читать ТОЛЬКО заголовок без тела
Итак, мы инициализировали сессию, задали нужные нам параметры, теперь выполняем получившийся запрос, закрываем сессию и выводим результат:
$result = curl_exec($ch); curl_close($ch); echo $result;
В итоге получаем наш первый полностью рабочий пример использования библиотеки libcurl:
$ch = curl_init(); $url = "https://сайт"; curl_setopt($ch, CURLOPT_URL,$url); curl_setopt($ch, CURLOPT_HEADER, 1); // читать заголовок curl_setopt($ch, CURLOPT_NOBODY, 1); // читать ТОЛЬКО заголовок без тела $result = curl_exec($ch); curl_close($ch); echo $result;
Как оно работает, надеюсь, понятно, ведь мы рассмотрели каждый шаг по отдельности:) В результате мы получаем заголовок HTTP ответа от сервера, который чуть ниже обязательно разберем, чтобы лучше понимать все этапы взаимодействия браузера и сервера:
HTTP/1.1 200 OK Server: nginx/1.2..php 1
Великолепно! Мы получили заголовок ответа от сервера и опробовали библиотеку в действии. Чем это нам полезно? Тем, что теперь вы примерно представляете себе последовательность действий при работе с cURL:
Для примера я обратился к странице ya.ru и в просмотрел сформированный запрос браузера и полученный от сервера ответ. Вот и они:
Запрос
GET / HTTP/1.1
— Пытаемся получить страницу по адресу /, то есть главную, находящуюся в корне папки. Используем протокол версии 1.1.
User-Agent: Opera/9.80 (Windows NT 6.1; WOW64) Presto/2.12.388 Version/12.14
— Представляемся серверу, мы — браузер Опера.
Host: ya.ru
— Доменное имя запрашиваемого ресурса.
Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/webp, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1
— Список допустимых форматов ресурса.
Accept-Language: ru-RU,ru;q=0.9,en;q=0.8
— Список поддерживаемых языков.
Accept-Encoding: gzip, deflate
— Поддерживаемые способы кодирования.
Cookie: yandexuid=ХХХХХ
— Куки, при необходимости.
Connection: Keep-Alive
— Просим не разрывать соединение и оставаться на связи.
Ответ
HTTP/1.1 200 Ok
— Получаем ответ с кодом 200, значит все ОК.
Server: nginx
— Сервер представился — это nginx.
Date: Sun, 10 Mar 2013 14:10:50 GMT
— Текущие дата и время на сервере.
Content-Type: text/html; charset=UTF-8
— Тип контента и кодировка.
Connection: close
— Сервер не хочет поддерживать с нами постоянного соединения, поэтому сразу же его закрывает. Для следующего запроса будет установлено новое соединение.
Cache-Control: no-cache,no-store,max-age=0,must-revalidate
— Управление кэшированием. В данном случае оно отключено.
Expires: Sun, 10 Mar 2013 14:10:50 GMT
— Дата предполагаемого истечения срока действия сессии. В нашем случае оно совпадает с временем открытия, так как сервер тут же его закрыл, сразу после обработки.
Last-Modified: Sun, 10 Mar 2013 14:10:50 GMT
— Время последней модификации.
Content-Encoding: gzip
— Способ кодирования информации.
Полный список всех параметров, которые можно встретить в заголовке HTTP запроса можно посмотреть на википедии .
Теперь вы примерно представляете как общаются между собой ваш браузер и web-сервер. Это очень полезно знать и понимать, ведь мы будем пытаться эмулировать действия браузера с помощью библиотеки libcurl. Идем дальше.
Я считаю, что после того, как некоторые общие моменты уже ясны и вроде бы все понятно, то самое время переходить к практике и на примере уже оттачивать свое мастерство. Лично у меня всегда сразу руки чешутся все попробовать на практике:)
Раз уж cURL так хорош для парсеров, то рассмотрим функцию получения кода страницы по ее адресу. При этом на выходе получим массив с заголовком, содержимым страницы и даже коды ошибок, если что-то пойдет не так.
Function get_web_page($url) { $uagent = "Opera/9.80 (Windows NT 6.1; WOW64) Presto/2.12.388 Version/12.14"; $ch = curl_init($url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // возвращает веб-страницу curl_setopt($ch, CURLOPT_HEADER, 0); // не возвращает заголовки curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // переходит по редиректам curl_setopt($ch, CURLOPT_ENCODING, ""); // обрабатывает все кодировки curl_setopt($ch, CURLOPT_USERAGENT, $uagent); // useragent curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 120); // таймаут соединения curl_setopt($ch, CURLOPT_TIMEOUT, 120); // таймаут ответа curl_setopt($ch, CURLOPT_MAXREDIRS, 10); // останавливаться после 10-ого редиректа $content = curl_exec($ch); $err = curl_errno($ch); $errmsg = curl_error($ch); $header = curl_getinfo($ch); curl_close($ch); $header["errno"] = $err; $header["errmsg"] = $errmsg; $header["content"] = $content; return $header; }
Входные параметры:
url
— адрес страницы или сайта.
Значения выходных параметров (массив с тремя элементами):
header[‘errno’]
— если что-то пошло не так, то тут будет код ошибки.
header[‘errmsg’]
— здесь при этом будет текст ошибки.
header[‘content’]
— собственно сама страница\файл\картинка и т.д.
Используем функцию, например, так:
$result = get_web_page("https://ya.ru"); if (($result["errno"] != 0)||($result["http_code"] != 200)) { echo $result["errmsg"]; } else { $page = $result["content"]; echo $page; }
Все должно пройти без ошибок и вы получите код страницы в переменной $page . Если же попробовать получить несуществующую страницу yaaaaaaaaaaaa.ru, то получим ошибку:
Could not resolve host: yaaaaaaaaaaaa.ru; Host not found
Все обрабатывается корректно и красиво:)
Дальше с кодом страницы можно делать все что угодно, например, парсить регулярками. Но это все в следующих уроках, а пока что остановимся на этом.
Библиотека CURL (Client URLs) позволяет передавать файлы на удаленный компьютер, используя множество Интернет протоколов. Она имеет очень гибкую настройку и позволяют выполнить практически любой удаленный запрос.
CURL поддерживает протоколы HTTP, HTTPS, FTP, FTPS, DICT, TELNET, LDAP, FILE, и GOPHER, так же как HTTP-post, HTTP-put, cookies, FTP-закачкe, продолжение прерванной передачи файлов, пароли, номера портов, сертификаты SSL, Kerberos и прокси.
Используя CURL, web-сервер может выступать полноценным клиентом любого основанного на HTTP протоколе сервисе, к примеру: XML-RPC, SOAP, или WebDAV.
В общем виде использование библиотеки сводиться к четырем шагам:
// Иницализация библиотеки curl
if ($ch
= @
curl_init
())
{
// Устанавливаем URL запроса
@
curl_setopt
($ch
,
CURLOPT_URL
,
"http://server.com/"
);
// При значении true CURL включает в вывод заголовки
@
// Куда помещать результат выполнения запроса:
// false - в стандартный поток вывода,
// true - в виде возвращаемого значения функции curl_exec.
@
// Максимальное время ожидания в секундах
@
// Установим значение поля User-agent
@
curl_setopt
($ch
,
CURLOPT_USERAGENT
,
"PHP Bot (http://blog.yousoft.ru)"
);
// Выполнение запроса
$data
= @
curl_exec
($ch
);
// Вывести полученные данные
echo
$data
;
// Особождение ресурса
@
curl_close
($ch
);
}
?>
$ch
=
curl_init
();
// GET запрос указывается в строке URL
curl_setopt
($ch
,
CURLOPT_URL
,
"http://server.com/?s=CURL"
);
curl_setopt
($ch
,
CURLOPT_HEADER
,
false
);
curl_setopt
($ch
,
CURLOPT_RETURNTRANSFER
,
true
);
curl_setopt
($ch
,
CURLOPT_CONNECTTIMEOUT
,
30
);
$data
=
curl_exec
($ch
);
curl_close
($ch
);
?>
Посылка GET запроса ничем не отличается от получения страницы. Важно заметить, что строка запроса формируется следующим образом:
Http://server.com/index.php?name1=value1&name2=value2&name3=value3
где http://server.com/index.php - адрес страницы, nameX - название переменной, valueX - значение переменной.
$ch
=
curl_init
();
curl_setopt
($ch
,
CURLOPT_URL
,
"http://server.com/index.php"
);
curl_setopt
($ch
,
CURLOPT_HEADER
,
false
);
curl_setopt
($ch
,
CURLOPT_RETURNTRANSFER
,
true
);
// Нужно явно указать, что будет POST запрос
curl_setopt
($ch
,
CURLOPT_POST
,
true
);
// Здесь передаются значения переменных
curl_setopt
($ch
,
CURLOPT_POSTFIELDS
,
"s=CURL"
);
curl_setopt
($ch
,
CURLOPT_CONNECTTIMEOUT
,
30
);
curl_setopt
($ch
,
CURLOPT_USERAGENT
,
"PHP Bot (http://mysite.ru)"
);
$data
=
curl_exec
($ch
);
curl_close
($ch
);
?>
Отправка POST запроса не многим отличается от отправки GET запроса. Все основные шаги остаются такие же. Переменные также задаются парами: name1=value1&name2=value2 .
// HTTP авторизация
$url
=
"http://server.com/protected/"
;
$ch
=
curl_init
();
curl_setopt
($ch
,
CURLOPT_USERPWD
,
"myusername:mypassword"
);
$result
=
curl_exec
($ch
);
curl_close
($ch
);
echo
$result
;
?>
$fp
=
fopen
(__FILE__
,
"r"
);
$url
=
"ftp://username:[email protected]:21/path/to/newfile.php"
;
$ch
=
curl_init
();
curl_setopt
($ch
,
CURLOPT_URL
,
$url
);
curl_setopt
($ch
,
CURLOPT_RETURNTRANSFER
,
1
);
curl_setopt
($ch
,
CURLOPT_UPLOAD
,
1
);
curl_setopt
($ch
,
CURLOPT_INFILE
,
$fp
);
curl_setopt
($ch
,
CURLOPT_FTPASCII
,
1
);
curl_setopt
($ch
,
CURLOPT_INFILESIZE
,
filesize
(__FILE__
));
$result
=
curl_exec
($ch
);
curl_close
($ch
);
?>
При возникновении проблем в использовании cURL необходимо добавить следующие строки перед вызовом curl_close для получения отчета о последнем выполненном запросе:
print_r
(curl_getinfo
($ch
));
echo
"cURL error number:"
.
curl_errno
($ch
).
"
"
;
echo
"cURL error:"
.
curl_error
($ch
).
"
"
;
curl_close
($ch
);
?>
Реальный практический пример: вам нужно перезагрузить роутер (модем) для смены IP адреса. Для этого нужно: авторизоваться в роутере, перейти к странице обслуживания и нажать кнопку «Перезагрузка». Если это действие нужно выполнить несколько раз, то процедуру нужно повторить. Согласитесь, делать каждый раз в ручную эту рутину не хочется. cURL позволяет автоматизировать всё это. Буквально несколькими командами cURL можно добиться авторизации и выполнения задания на роутере.
Ещё один практический пример: мы хотим реализовать показ общей статистики для нескольких сайтов. Если использовать cURL, то это становится вполне тривиальной задачей: с помощью cURL мы проходим аутентификацию на сервисе сбора статистики (если это требуется), затем (опять же командами cURL) получаем необходимые страницы, парсим нужные нам данные; процедура повторяется для всех наших сайтов, затем мы складываем и выводим конечный результат.
Т.е. случаи использования cURL вполне реальные, хотя, в большинстве, cURL нужна программистам, которые используют её для своих программ.
cURL поддерживает множество протоколов и способов авторизации, умеет передавать файлы, правильно работает с кукиз, поддерживает SSL сертификаты, прокси и очень многое другое.
Мы можем использовать cURL двумя основными способами: в скриптах PHP и в командной строке.
Чтобы включить cURL в PHP на сервере, необходимо в файле php.ini раскоментировать строку
Extension=php_curl.dll
А затем перезагрузить сервер.
На Linux необходимо установить пакет curl.
На Debian, Ubuntu или Linux Mint:
$ sudo apt-get install curl
На Fedora, CentOS или RHEL:
$ sudo yum install curl
Чтобы наглядно было видно разницу в использовании в PHP и в командной строке, будем одни и те же задачи выполнять дважды: сначала в скрипте PHP, а затем в командной строке. Постараемся при этом не запутаться.
Пример на PHP:
Всё очень просто:
$target_url — адрес сайта, который нас интересует. После адреса сайта можно поставить двоеточие и добавить адрес порта (если порт отличается от стандартного).
curl_init — инициализирует новый сеанс и возвращает дискриптор, который в нашем примере присваивается переменной $ch .
Затем мы выполняем запрос cURL функцией curl_exec , которой в качестве параметра передаётся дискриптор.
Всё очень логично, но при выполнении этого скрипта, на нашей странице отобразиться содержимое сайта. А что если мы не хотим отображать содержимое, а хотим записать его в переменную (для последующей обработки или парсинга).
Чуть дополним наш скрипт:
0) { echo "Ошибка curl: " . curl_error($ch); } curl_close($ch); ?>
У нас появилась строчка curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); .
curl_setopt — задаёт опции. Полный список опций можно найти на этой странице: http://php.net/manual/ru/function.curl-setopt.php
$response_data = curl_exec($ch);
Теперь значение скрипта присваивается переменной $response_data, с которой можно проводить дальнейшие операции. Например, можно вывести её содержимое.
If (curl_errno($ch) > 0) { echo "Ошибка curl: " . curl_error($ch); }
служат для отладки, на случай возникновения ошибок.
В командной строке достаточно набрать
Curl mi-al.ru
где вместо mi-al.ru — адрес вашего сайта.
Если нужно скопировать данные в переменную, а не выводить полученный результат на экран, то делаем так:
Temp=`curl mi-al.ru`
При этом всё равно выводятся некие данные:
Чтобы они не выводились, добавляем ключ -s :
Temp=`curl -s mi-al.ru`
Можно посмотреть, что записалось:
Echo $temp | less
Аутентификация, проще говоря, это введение имени пользователя и пароля.
Базовая аутентификация — это аутентификация средствами сервера. Для этого создаются два файла: .htaccess и .htpasswd
Содержимое файла.htaccess примерно такое
AuthName "Только для зарегистрированных пользователей!" AuthType Basic require valid-user AuthUserFile /home/freeforum.biz/htdocs/.htpassw
Содержимое файла.htpasswd примерно такое:
Mial:CRdiI.ZrZQRRc
Т.е. логин и хэш пароля.
При попытке получить доступ к запароленной папке, в браузере отобразиться примерно такое окно:
HTTP аутентификация — это тот случай, когда мы вводим логин и пароль в форму на сайте. Именно такая аутентификация используется при входе в почту, на форумы и т. д.
Есть сайт http://62.113.208.29/Update_FED_DAYS/, который требует от нас авторизоваться:
Пробуем наш первоначальный скрипт:
0) { echo "Ошибка curl: " . curl_error($ch); } else { echo $response_data; } curl_close($ch); ?>
Хотя скрипт и считает, что ошибки нет, но выводимый результат нам совсем не нравится:
Добавляем две строки:
Curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_BASIC); curl_setopt($ch, CURLOPT_USERPWD, "ru-board:ru-board");
Первой строкой мы задаём тип аутентификации — базовая. Вторая строка содержит имя и пароль через двоеточие (в нашем случае имя и пароль одинаковые — ru-board). Получилось так:
0) { echo "Ошибка curl: " . curl_error($ch); } else { echo $response_data; } curl_close($ch); ?>
Этого же самого в командной строке можно добиться одной строчкой:
Curl -u ru-board:ru-board http://62.113.208.29/Update_FED_DAYS/
Я не забыл указать тип аутентификации, просто в cURL базовый тип аутентификации является дефолтным.
В командной строке всё получилось так быстро, что от расстройства я написал вот такую программу. Она подключается к сайту и скачивает самое последнее обновление:
Temp=`curl -s -u ru-board:ru-board http://62.113.208.29/Update_FED_DAYS/ | grep -E -o "Update_FED_201{1}.{2}.{2}.7z" | uniq | tail -n 1`; curl -o $temp -u ru-board:ru-board http://62.113.208.29/Update_FED_DAYS/$temp
Буквально ещё несколькими командами можно добавить:
Нам нужно знать:
Иногда этих данных оказывается недостаточно. Давайте разберёмся.
Адрес, куда нужно отправить данные, можно взять из формы аутентификации. Например: