Столкнулся с такой проблемой, когда мне нужно было как-то собрать базу каталог, так как не нашёл нормальную программу для этого, одна с вирусом оказалось и т. д. Попробовал сам написать. Думаю, что основным системным требованием является процессорное время на выполнения скрипта, порой когда у хостера стоит nginx может вылетать 502 ошибка (но, не всегда), но всё нормально парсится.
У меня скрипт нормально работает при
core file size (blocks, -c) 0
data seg size (kbytes, -d) 32768
file size (blocks, -f) unlimited
max locked memory (kbytes, -l) 8192
max memory size (kbytes, -m) 32768
open files (-n) 24
pipe size (512 bytes, -p) 1
stack size (kbytes, -s) 8192
cpu time (seconds, -t) 20
max user processes (-u) 16
virtual memory (kbytes, -v) 32768
на будущее: заверните всё в функции(в том числе парсинг гугла) для:
1) удобного вызова
2) в будущем пригодится
и зачем инклудить 2 файла, если в них по 1 функции? Соберите все в 1.
Сам оцените удобство. _________________ сервис DNS | разные http, DNS и прочие утилиты
на будущее: заверните всё в функции(в том числе парсинг гугла) для:
1) удобного вызова
2) в будущем пригодится
и зачем инклудить 2 файла, если в них по 1 функции? Соберите все в 1.
Сам оцените удобство.
Да, конечно лучше использовать функции и не инклюдить почти пустые файлы, плюс несколько замечаний:
1) Вместо get_content можно использовать стандартную функцию file_get_contents (например так: $str = file_get_contents($url), функция скопирует все содержимое страницы в строку - переменную, при этом ни для google, ни для yandex никакой разницы между этими двумя функциями нет.
2) Вместо функции win_utf8 можно использовать стандартную функцию urlencode
3) Имхо лучше результаты или записывать в БД или выводить на экран, но если хотите писать в файл дайте возможность менять его имя в настройках + уберите переменную $button из настроек, так как она нигде не используется + добавьте настройки времени ожидания между каждым запросом к гуглу и настройки кол-ва страниц которые надо парсить.
Посмотрите здесь как у меня реализован парсинг результатов с гугла, яндекса и яндекс xml _________________ Написание конвекторов, парсеров, интеграции нескольких сайтов (в личку)
Здесь явно идет запрос к гуглу, а не сохранение в файл.
P.S. Да кстати для серьезного скрипта поиска каталогов желательно добавить парсинг и яндекса (так в основном прогоняют по каталогам для поднятия тица) + определение тица и pr сайта (в идеале определение кол-ва проиндексируемых страниц в каждом поисковике) и фильтрация с очень маленьким тиц или pr (см. скрипты тамже) + в идеале поиск страницы, где находится форма добавления в каталог сайта (например, перебором всех страниц сайта на которые есть ссылка с главной страницы <или странице на которую указывает поиковик> сайта до тех пор пока не будет найдена страница с подстрокой <form ). _________________ Написание конвекторов, парсеров, интеграции нескольких сайтов (в личку)