Карта сайта

Это автоматически сохраненная страница от 08.11.2019. Оригинал был здесь: http://2ch.hk/b/res/206994970.html
Сайт a2ch.ru не связан с авторами и содержимым страницы
жалоба / abuse: admin@a2ch.ru

Чтв 07 Ноя 2019 21:50:27
Анон, прошу помоги! Есть один форум, пытаюсь его
Анон, прошу помоги! Есть один форум, пытаюсь егоАнон, прошу помоги! Есть один форум, пытаюсь его спарсить уже второй месяц, а он меня палит и блочит доступ. Ставил платную проксю (анонимную), пытался через Тор, vpn, все без толку. Объясни дураку как у них этот самый механизм защиты организован, что он палит так? Тонны нефти за любую помощь...



Чтв 07 Ноя 2019 21:50:59
[OP]

forums.wood.ru

Чтв 07 Ноя 2019 21:51:25
[OP]


Чтв 07 Ноя 2019 21:51:46
[OP]


Чтв 07 Ноя 2019 21:55:00

Чтв 07 Ноя 2019 22:01:45
>>206995304
Что это?

Чтв 07 Ноя 2019 22:02:31
[OP]

>>206995304
Юзер агенты тоже менял, бесполезно

Чтв 07 Ноя 2019 22:07:56
Фингерпринтинг. Меняй также браузер и размер экрана хотя бы.

Чтв 07 Ноя 2019 22:08:24
И еще загугли про суперкуки, наверняка у тебя такое в пеке сидит.

Чтв 07 Ноя 2019 22:20:17
[OP]

>>206996201
Смена браузера не особо помогает, когда тебя уже с одного ip спалили. А вот если прокся попалась годная, то там уже и без разницы с чего парсить. Вопрос в том, каким образом реализовать обход механизма, смысл которого я не улавливаю. Скриптом палит, Селениум после сбора с двух страниц форума тоже палятся. Пробовал привокси - хуета без задач, Тор по определению со своими выходными нодами в черном списке. Короче Анон, спасай, я не знаю как быть

Чтв 07 Ноя 2019 22:35:03

Чтв 07 Ноя 2019 22:36:16

Чтв 07 Ноя 2019 22:38:31
>>206997068
Я лазаду парсил, там селениум палился по внутреннему параметру, который через js был зашит в драйвер браузера.

Надо было убирать в коде драйвера эту хуергу, тогда давал капчу проходить спокойно, а так ошибку выкидывал

Чтв 07 Ноя 2019 22:39:51
[OP]

>>206998293
Тут проблема в том, что если этот форум тебя спалил, то доступа к нему больше нет. Тупо не можешь войти на страницу, либо пустой результат

Чтв 07 Ноя 2019 22:40:16
>>206998293
navigator.webdriver

Чтв 07 Ноя 2019 22:41:32
>>206998388
Так не пались больше?

Чтв 07 Ноя 2019 22:42:24
[OP]

>>206998492
Спасибо. Принял. Попробуй сам на него зайти и походи по тематикам туда сюда. Заблочит

Абу благословил этот пост.

Чтв 07 Ноя 2019 22:44:00
>>206998534
То есть им в принципе пользоваться нельзя нормально?
Меня даже с первого раза не пускает, тайм-аут соединения через минуту ожидания запроса.
Но я с публичного ip сижу

Чтв 07 Ноя 2019 22:45:02
[OP]

>>206998623
В том то и дело, что можно. Он так блочит

Чтв 07 Ноя 2019 22:46:21
>>206998623
Видимо этот ip у него в черном списке

Чтв 07 Ноя 2019 22:47:02
>>206998534
я конечно не супер кодер, но может взять кучу бекконнект прокси и кучу потоков с кучей задержек между запросами? И блять заморочится не скриптами а хуй знает, хуман эмулятором или как его блять, зеннопостером.

Чтв 07 Ноя 2019 22:48:42
>>206998681
Ну попробуй айпи сменить, в хроме новый профиль создай и в драйвере хуйню из навигатора убери, запусти это в селениуме и глянь, блочит ли.

С мобильного интернета потыкать разделы, вроде просто без основания не блочит

Чтв 07 Ноя 2019 22:49:21
>>206994970 (OP)
делей поставить на запросы никак? обычная защита от дудос

Чтв 07 Ноя 2019 22:50:10
>>206998954
Делеи не спасет, братюнь. Уж поверь

Чтв 07 Ноя 2019 22:51:36
>>206999000
Я тоже думаю, не в делее проблема, а в фингерпринтах

Чтв 07 Ноя 2019 22:51:52
[OP]

>>206998915
Все понял, кроме хуйни из навигатора. Можно подробнее плиз, может годная идея

Чтв 07 Ноя 2019 22:52:44

Чтв 07 Ноя 2019 22:58:52
[OP]

Бамп

Чтв 07 Ноя 2019 22:59:03
>>206999117
Ну ебаный в рот, я только комп выключил.

Я столько с этим ебался, на поверишь. Поищи в Гугле chrome selenium navigator.webdriver и тебе нужен код на перле с регуляркой, который изменит тебе переменную в драйвере

Почитай вот это ещё, тоже полезно может быть.
https://intoli.com/blog/not-possible-to-block-chrome-headless/

Чтв 07 Ноя 2019 22:59:43
[OP]

>>206999612
обнял

Чтв 07 Ноя 2019 23:00:33
>>206999612
А вообще, не поленился комп включить
Вот ссылка на мой код на пистоне

pastebin.com/aXLf2PGA

Чтв 07 Ноя 2019 23:02:35
[OP]

>>206999702
ванную, что твое решение - годное

Чтв 07 Ноя 2019 23:03:16
>>206999000
>>206995001
хз как ты парсишь, помойму он нихуя не блочит
>forums.wood.ru



Чтв 07 Ноя 2019 23:05:23
>>206999864
А, ну блядь, тебе ещё надо код из статьи использовать.

Регуляркой ты патчишь драйвер, чтобы убрать read-only с этого свойства.
Эта залупа все равно ставится в тру будет.
Ее надо будет просто на false поменять

Чтв 07 Ноя 2019 23:07:26
>>207000112
А нет, не просто фолс ставить.

Нужно js код вызвать "delete navigator.__proto__.webdriver". У меня иначе не работало

Чтв 07 Ноя 2019 23:09:05
>>206999914
Ну нихуя себе, приколы блядь. Так можно было?

Чтв 07 Ноя 2019 23:09:34
>>206999914
Так вот я и говорю, что не за количество запросов блочат, а на другом он палился

Чтв 07 Ноя 2019 23:10:56
[OP]

Я полагаю мой скрипт, часто страницы дёргал туда сюда. Одну откроет, потом следующую и так далее. Попробуй в своем скрипте на js также

Чтв 07 Ноя 2019 23:15:02
Но вопрос с навигатором очень даже актуален, стоит только взглянуть в исходный код страницы форума. В теге script эта байда присутствует

Чтв 07 Ноя 2019 23:15:37
>>207000343
на тебе рабочую версию


Чтв 07 Ноя 2019 23:16:22
>>207000705
Лол. Ты кодировку видел?

Чтв 07 Ноя 2019 23:23:16
>>207000705
Я не ОП, но тоже интересно как там пофиксить кодировку в результате fetch

Чтв 07 Ноя 2019 23:25:45
>>207001133
Да никак. Они спецом windows1251 ебанули, при чем хитровыебаным образом. Там либо с русских проксей надо заходить, либо как анон выше, но ебаться с декодированием, что такое себе

Чтв 07 Ноя 2019 23:27:06
>>207000705
Блэт, я думал, вы через прогу на Джабе или C# гоняете запросы, там, специально меняете User Agent или что-то еще, а вы из браузера. Пиздец.

Чтв 07 Ноя 2019 23:28:45
[OP]

>>207001347
Да. Прости. Но мне все способы хороши, если поможешь понять как они палят. Я уже даже забил на парсинг, я просто понять хочу. К слову нашел на одном форуме в 12 году такой же вопрос с этим же форумом, так и не решили

Чтв 07 Ноя 2019 23:31:04
>>207001133
>>207000754
и че тут сложного?
response.setContentType("text/html;charset=UTF-8")

Чтв 07 Ноя 2019 23:31:37
>>207001419
Ну тащемта на более низкоуровневом языке можно редактировать абсолютно все параметры, поэтому я и подумал, что так и делаете.

Чтв 07 Ноя 2019 23:33:11
>>207001552
Ага на Асм с байтами ебемся. Сделаешь на сях, я тебе скажу респект и уважуха, но нахуя?

Чтв 07 Ноя 2019 23:34:39
[OP]

>>207001529
Ладно. Короче /thread ? Вопрос с парсингом закрыт, но механизм серверной блокировки я так и не раскрыл для себя

Чтв 07 Ноя 2019 23:36:53
>>207001683
я ж тебе сказал делей ставь, по запросу в секунду из браузера нихуя не будет, после 10 тыщ за секунду он кикает 4 раза, что скрипт слетает, на 5 раз банит

Чтв 07 Ноя 2019 23:44:15
>>206994970 (OP)
Заходи в Точку Сбора, там наверняка помогут. @netstalking в тг

Чтв 07 Ноя 2019 23:45:29
[OP]

>>207002187
Добра тебе. Принял.

Птн 08 Ноя 2019 00:05:35
на оп, пофиксил твои блокировки и заодно кодировку
for (var i = 1; i<2;i++){fetch("https://translate.google.com/translate?hl=en&sl=ru&tl=en&u=http%3A%2F%2Fforums.wood.ru%2Fshowthread.php%3Fthreadid%3D"++i+"&anno=2").then(response => response.text())
.then(data => console.log(data))}

Птн 08 Ноя 2019 00:14:35
напишите им что вас взломали

Птн 08 Ноя 2019 00:23:02
>>206994970 (OP)
поясните нахуя вы это делаете?

Птн 08 Ноя 2019 00:29:08
>>207004272
там типа быдло палит свои телефоны, можно их поставить на робообзвон и предлагать пройти бесплатное медицинское обследование в частной клинике в городе москва



← К списку тредов