// Кол-во проиндексированных в Яндекс страниц (с www и без)
function getIndexYa($url)
{
function ya_rhost($rhost){ // функция "переворачивания" домена
$out='';
$part='';
while(strpos($rhost,'.')!==false){
$part=substr($rhost,0,strpos($rhost,'.')); // берем часть
$rhost=substr($rhost,1+strpos($rhost,'.')); // удаляем их исходного
$out='.'.$part.$out; // приделываем кго и точку к резутьтату
}
$out=$rhost.$out; // в конце от исходного остается только домен верхнего уровнея , примепляем и его
return $out;
}
$res=utf8_win(ya_pget('http://yandex.ru/yandsearch?p=0&pag=u&site='.$url.'&lang=ru&rd=0&text=rhost%3D%22'.ya_rhost($url).'%22|rhost%3D%22'.ya_rhost($url).'.*%22'));
preg_match('!(Нашлось|Нашлась)<br>(.*?)страниц!si', $res, $backPages); // забрали страницу и нашли О_О
return $backPages[2];
}
P.S. По моему в 99% случаев важно кол-во страниц, а не список, честно говоря не представляю что буду делать со списком из 3+ тыс страниц
Если цель узнать проиндексирована страница чужого сайта со своей ссылкой, то проще задать условие url = url страницы в поиске,если не проиндекстрована то яндекс не найдет ничего, результаты для своего сайта как правило не важны, так как у яндекса индексация как правило даже более избыточна (у меня максимум 1500 реальных страниц на сайте) _________________ Написание конвекторов, парсеров, интеграции нескольких сайтов (в личку)
Веденин
это конечно проще, НО чтобы получить верный список, надо
а) искать не по URL. а по коду отданной страницы. http://site может быть много.
б) точный список дает только эмуляция rhost( ответ поддержки яндекса )
Сейчас отлавливают? Нет! Если Яндекс изменит код странички скрипт тоже работать не будет.
Тем более я думаю прокси тоже могут что то похожее использовать, так что смысла его ловить Яндексу нет,
достаточно ограничивать по ip.
Первый параметр шаблон, второй адрес сайта, третий задержка в секундах перед каждой страницей.
В шаблоне можно задавать либо сайт/каталог/ можно и вида
vedenin.ru/Vide* тогда он найдет все пути начинающиеся с Vide.
[quote="lazutov"]а) искать не по URL. а по коду отданной страницы. http://site может быть много. [quote="lazutov"]
Сейчас каждый url только один раз встречается в результатах Yandex, если у вас конечно нет ссылок на гланой странице яндекса на свой сайт Потом что-то может поменятся, но тогда максимум это одна ссылка вернется несколько раз.
lazutov писал(а):
б) точный список дает только эмуляция rhost( ответ поддержки яндекса )
Какой список даст тогда этот вариант? Если все уникальные для
яндекса страницы тогда имхо этот список более нужен для раскрутки чем просто список просто проиндексированых страниц.
Цитата:
Вы не против, если данный код будет размешен у меня со ссылкой на
Не против, можете поставить ссылка на all.vedenin.ru (Тематические поисковые системы Рунета) _________________ Написание конвекторов, парсеров, интеграции нескольких сайтов (в личку)
Веденин
Про папки это интересно. Сравнил получаемые списки. - они идентичны - разный порядок.
Фактически, мы с вами делаем одно и тоже разными мотодами - только и всего. _________________ сервис DNS | разные http, DNS и прочие утилиты