Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:
< >
1 2 3 4 5

Як Crawl Вялікіх сайты з дапамогай крычала Frog

  1. Якія прычыны для абыходу вэб-сайта?
  2. Як вы поўзаць вельмі вялікі вэб-сайт?
  3. 1. Павелічэнне аператыўнай памяці кампутара
  4. 2. Павелічэнне крычала RAM Наяўнасць жабы
  5. 3. Павелічэнне Якія крычаць жабы Павольная хуткасць
  6. 4. Сегмент Вэб-сайт у прасканаваць Кавалкі
  7. 5. Уключыць мэтавыя каталогі
  8. 6. Выключэнне непатрэбных URL-адрасоў
  9. дадатковыя парады

Адным з першых крокаў пры правядзенні аўдыту SEO або якія рыхтуюцца да рэдызайн вэб-сайта з'яўляецца «паўзе» (ён жа «чысцячы») на вэб-сайце. Сканаванне вэб-сайт можа даць важную інфармацыю аб патэнцыйных праблемах і магчымых напрамкаў удасканалення.

Мой асабісты інструмент выбару для сканавання вэб-сайта з'яўляецца Якія крычаць Frog , Праграмнае забеспячэнне з'яўляецца недарагім, простым ў выкарыстанні і надзвычай універсальна. На працягу многіх гадоў я ацэньваў шмат іншых варыянтаў, але я яшчэ, каб знайсці той, які сапраўды канкурыруе, калі ўсе меркаванні улічаны ст.

Якія прычыны для абыходу вэб-сайта?

Ёсць шмат розных рэчаў, якія можна выканаць з дапамогай крычала жабка. Ніжэй прыведзены некаторыя з ужыванняў я знаходжу асабліва карысным.

  • Стварыце спіс усіх URL-адрасоў / старонак на вэб-сайце
  • Знайсці 302 рэдырэкт
  • Выканайце QA для 301 рэалізацый пераадрасацыі
  • Пераканайцеся Google Analytics знаходзіцца на кожнай старонцы
  • Знайсці непрацуючыя спасылкі (унутраныя і знешнія)
  • Знайсці адсутны метаконтент і альт атрыбуты
  • Пошук дублікатаў кантэнту
  • Знайсці або праверыць змесціва схемы
  • Знайсці шкоднасныя праграмы або спам
  • Знайсці павольныя старонкі загрузкі
  • Стварэнне XML карты сайта
  • Праверка спісу КПП URL-адрасоў

Зноў жа, гэта ўсяго толькі невялікі пералік магчымых ужыванняў для абыходу вэб-сайта. Ёсць шмат рэчаў, якія вы можаце зрабіць, як толькі вы атрымаеце поўнае ўяўленне аб крычала магчымасцяў жабы.

Як вы поўзаць вельмі вялікі вэб-сайт?

Якія крычаць налады жабу па змаўчанні выдатна падыходзіць для барацьбы з вэб-сайтаў з менш чым 10000 старонак, але што вы будзеце рабіць, калі вы сутыкнецеся з вэб-сайта, як паказана ніжэй?

Сайт Намаляваныя маюць больш 3000000 індэксаваная старонак, якія робяць што поўзае гэта выклік, мякка кажучы. Прымаючы на ​​сайце гэтага памеру патрабуе некалькі важных налад для крычала канфігурацый жабы. Ніжэй падручнік пра тое, як наладзіць Якія крычаць жабы поўзаць вельмі вялікія сайты.

1. Павелічэнне аператыўнай памяці кампутара

Павелічэнне аператыўнай памяці кампутара

Гэты крок не з'яўляецца абавязковым, але вельмі рэкамендуецца. Якія крычаць праграмнага забеспячэння Frog належыць на RAM для захоўвання дадзеных у час вэб-сканавання. Чым больш аператыўнай памяці кампутара мае больш старонак вы можаце поўзаць. Добрая навіна RAM стала вельмі недарагія. Для большасці кампутараў ёмістасцю 8 ГБ кошт карт памяці каля $ 50.

Вам трэба зрабіць невялікае даследаванне аб тым, колькі аператыўнай памяці ваш кампутар можа трымаць, так як яна знаходзіцца ў дыяпазоне ад 4 ГБ да больш чым 64 Гб. Пасля таго, як вы ведаеце, колькі аператыўнай памяці вы можаце дадаць пераканайцеся, што вы купляеце RAM карты, якія сумяшчальныя з вашым кампутарам.

Ўстаноўка аператыўнай памяці звычайна займае каля 30 секунд. Усё, што вам зрабіць, гэта паліць задняй часткі кампутара і ўстаўце RAM карты у даступныя слоты. Вы можаце выканаць хуткі пошук на YouTube для вашай мадэлі кампутара + «RAM Upgrade», каб знайсці падручнік пра тое, як выканаць працэс у выпадку, калі ёсць пэўныя нюансы з вашым кампутарам.

Лепшая частка аб павелічэнні аператыўнай памяці гэта павышае не толькі вашу здольнасць сканаваць сайты. Калі вы падобныя на мяне, і ў вас заўсёды ёсць асартымент праграм, якія працуюць адначасова, а таксама адскокваючы назад і наперад паміж 1000 розных укладкамі Chrome вы будзеце прыемна здзіўлены паляпшэннем з дня ў дзень хуткасці кампутара.

2. Павелічэнне крычала RAM Наяўнасць жабы

Значэнне па змаўчанні для крычала Frog дазваляе атрымаць доступ да 512 Мб аператыўнай памяці. Даданне большай колькасці аператыўнай памяці вашага кампутара не зменіцца, колькі старонак вы можаце сканаваць, пакуль не папярэдзіць праграмнае забеспячэнне можа выкарыстоўваць больш даступнай памяці.

Каб зрабіць гэта, вам спачатку трэба адкрыць тэчку Крычала Жаба была загружана ст. Затым выкарыстоўвайце тэкставы рэдактар, як Блокнот, каб адкрыць файл з імем «ScreamingFrogSEOSpider.l4j».

l4j»

Файл вельмі просты і ўключае ў сябе толькі два радкі інфармацыі. Нумар размешчаны на другой лініі, тое, што вам трэба абнавіць.

Нумар размешчаны на другой лініі, тое, што вам трэба абнавіць

Нумар па змаўчанні пры першым адкрыцці гэтага файла будзе «-Xmx512m». Гэта азначае, што Якія крычаць жабы дазволена выкарыстоўваць 512 МБ (0,5 ГБ) аператыўнай памяці кампутара. Дадаць 1024 за кожны дадатковы 1 ГБ аператыўнай памяці, якія вы хочаце Крычаць жабу, каб мець доступ. Напрыклад, каб вылучыць 15 ГБ (намаляваны на малюнку вышэй), проста замяніць нумар з «15360" (1024 х 15 = 15360). Пераканайцеся ў тым, каб пакінуць «-Xmx» і «M» тэкст, які з'яўляецца вакол нумары. Затым захавайце файл, і вы павінны быць гатовыя выкарыстоўваць дадатковую памяць.

Савет 1: Я рэкамендую вылучаць па меншай меры , 3 Гб менш вашага агульнага даступнага вэб - RAM. Калі вы вылучаеце ўвесь даступны вэб - сайт RAM гэта магчыма вялікі сайт паўзе замарозіць ваш кампутар , калі ён набліжаецца да максімальнага аб'ёму аператыўнай памяці. Напрыклад, калі ваш кампутар мае 16 ГБ аператыўнай памяці , то толькі дазволіць крычала Frog атрымаць доступ 13 Гб яго. Вы заўсёды можаце паменшыць аб'ём аператыўнай памяці ў гэтым буферы , калі вызначыць , што гэта больш , чым ваш кампутар на самой справе патрабуе.

Рада 2: Для таго, каб праверыць , калі вы былі паспяховымі павелічэння вылучэння памяці: перазапусціць Якія крычаць Frog, націсніце на кнопку «Даведка», а затым націсніце на кнопку «Debug». У радку з надпісам «Памяць» ваш новы аб'ём аператыўнай памяці павінен быць паказаны непасрэдна за словам «Max».

3. Павелічэнне Якія крычаць жабы Павольная хуткасць

Сканаванне вялікіх сайтаў патрабуе часу, але ёсць спосабы, каб дапамагчы паскорыць працэс. Для таго, каб звесці да мінімуму колькасць часу, неабходнае вам трэба павялічыць хуткасць сканавання на ўкладцы канфігурацыі.

Пасля націску кнопкі «Speed» з'явіцца акно налады хуткасці павука. Нумар, пазначаны побач з «Max Threads» з'яўляецца тое, што вызначае, наколькі хутка вы можаце сканаваць вэб-сайт.

Павелічэнне гэтага ліку дазволіць значна палепшыць час, неабходнае для сканавання вэб-сайтаў. Тэставанне з дапамогай некалькіх розных колькасці патокаў макс і паглядзець, як хуткасць абыходу ўплывае (Зых. 10, 50, 100, 200, 500, 1000 і г.д.)

Варта адзначыць, што ўстаноўка вялікага ліку патокаў павялічаць колькасць запытаў HTTP, зробленых на сервер, які можа паўплываць на час водгуку сайта. Я ніколі не сутыкаўся з гэтай праблемай з любым з нашых кліентаў, але гэта не перашкаджае выйсці да вэб-майстру, каб ўхваляць хуткасць сканавання толькі ў тым выпадку. Іншым варыянтам з'яўляецца маніторынг часу водгуку і рэгуляваць хуткасць, калі вы заўважылі якія-небудзь пытанні.

4. Сегмент Вэб-сайт у прасканаваць Кавалкі

Незалежна ад таго, колькі аператыўнай памяці вы кладзеце ў ваш кампутар заўсёды будзе некаторыя вэб-сайты з занадта вялікай колькасцю старонак, каб сканаваць ў адной сесіі. Для таго, каб прасканаваць сайты такога памеру вам трэба сегментаваць іх у відэа сканаваных кавалкаў.

Першае, што вам трэба зрабіць, гэта запусціць тэст поўзаць, каб даведацца максімальную колькасць URL, ваш кампутар можа апрацоўваць. Максімальную колькасць URL-адрасоў вы можаце сканаваць дапаможа вызначыць стратэгію сегментацыі. У якасці эталона, у маім вопыце кампутар з 15 Гб аператыўнай памяці вылучаецца крычала Frog можа сканаваць 600,000-900,000 URL, на кожную сесію.

Пасля вызначэння максімальнай сумы ў URL, вам неабходна намеціць сайт, разбіўшы яго на поддомены ці каталогаў, якія знаходзяцца ніжэй максімальнага кол URL. Выкарыстоўвайце каманду пошуку па сайце ў Google, каб вызначыць колькасць праіндэксаваных старонак у кожнай секцыі (напрыклад: «Сайт: http://yourdomain.com/targeted-directory/ » ).

Як вы можаце бачыць на скрыншоце вышэй, дадзены каталог ўключае ў сябе толькі 304,000 праіндэксаваных старонак, нават калі вэб-сайт у цэлым уключаў больш за 3 млн.

Важна адзначыць каманду пошуку на сайце будзе толькі адлюстроўвае колькасць праіндэксаваных старонак у каталогу. Яна не адлюстроўвае агульную колькасць старонак , якія існуюць у дырэкторыі. Старонкі могуць існаваць у каталогу, якія ў цяперашні час не індэксуецца. Па гэтай прычыне, дайце сабе буфер паміж максімальнай колькасцю старонак вашага кампутар можа апрацоўваць і колькасць праіндэксаваных старонак у раздзеле, які вы спрабуеце паўзці. Напрыклад, калі ваш кампутар можа апрацоўваць каля 700 000 старонак у поўзаць затым паспрабаваць сегментаваць сайт на раздзелы, якія ўключаюць 500000 або менш праіндэксаваных старонак. Гэта дасць вам буфер на 200 000 старонак для ўліку любых ня-праіндэксаваных старонак.

Савет: Вы можаце сутыкнуцца з сітуацыямі , калі поддомен або каталог мае больш індэксаваная старонак , чым ваш кампутар можа сканаваць. Тлумачэнне аб тым , як справіцца з гэтай сітуацыяй уваходзіць у раздзеле 6 гэтага кіраўніцтва.

5. Уключыць мэтавыя каталогі

Наступны крок у працэсе ўстаноўкі, каб дазволіць крычала Frog ведаць, які менавіта кантэнт вы хочаце, каб поўзаць. Для гэтага вам трэба націснуць на кнопку "Уключыць" ў канфігурацыі ў расчыняецца спісе.

Адкрыецца акно, што дазваляе выкарыстоўваць рэгулярныя выразы (рэгулярныя выразы), каб абмежаваць праграмнае забеспячэнне для толькі поўзаць пэўны змест. Калі вы не знаёмыя з рэгулярнымі выразамі Microsoft мае даволі добры спіс таго, што кожны знак можа быць выкарыстаны для.

Прыведзены ніжэй прыклад паказвае рэгулярны выраз, якое выкарыстоўваецца для абмежавання абыходу толькі ў / foodscores / дырэкторыі.

Прыведзены ніжэй прыклад паказвае рэгулярны выраз, якое выкарыстоўваецца для абмежавання абыходу толькі ў / foodscores / дырэкторыі

Вельмі важна, каб пераканацца, што вы пачнеце сканаванне са старонкі, якая мае, па меншай меры, адну ўнутраную спасылку, якая паказвае на ваш мэтавай кантэнт. Калі няма, то ваш поўзаць скончыцца толькі пасля адной старонкі.

6. Выключэнне непатрэбных URL-адрасоў

Функцыя выключэння аналагічная функцыі ўключаюць у сябе, акрамя, як вы ўжо здагадаліся, ён выдаляе раздзелы, спецыяльна не хочаце ў вашых выніках.

Гэта вельмі карысна, калі разбіваючы сайты, якія укладзеныя каталогі або для ломкі каталогаў самога, калі яны маюць больш старонак, чым ваш кампутар можа апрацоўваць на адным поўзаць.

Гэтая функцыя таксама вельмі карысная пры працы з CMS, якая аўтаматычна генеруе дынамічныя старонкі. Калі пачаць поўзаць, і вы пачынаеце заўважаць вялікая колькасць URL-адрасоў ўцягвацца маюць дынамічныя сегменты, такія як «? Пошук =" або "? Тэг =» вы, хутчэй за ўсё, хочуць, каб дадаць гэтыя сегменты URL у секцыю выключэнні для ачысткі да вашых вынікаў і паменшыць колькасць непатрэбных старонак папаўзлі.

Ніжэй прыведзены некалькі прыкладаў рэгулярных выразаў функцыянальнасці выключае, што Якія крычаць жабы вылучае на іх сайце.

Ніжэй прыведзены некалькі прыкладаў рэгулярных выразаў функцыянальнасці выключае, што Якія крычаць жабы вылучае на іх сайце

САВЕТ: Часам бывае складана разбіць асобныя каталогі , якія маюць больш праіндэксаваныя старонкі , чым ваш кампутар можа апрацоўваць. Вы павінны будзеце выкарыстоўваць як ўключаць і выключаць функцыянальныя магчымасці для выканання гэтай задачы.

Адным з магчымых рашэнняў з'яўляецца разбіць каталог па выкарыстанні URL ключавых слоў. Калі вялікая частка URL - адрасы ў каталогу маюць пэўнае ключавое слова ў іх вы можаце выкарыстоўваць яго ў сваіх інтарэсах. Выканаеце адно сканаванне , уключаючы URL - адрас у каталогу , якія ўтрымліваюць мэтавае ключавое слова , а затым запусціць асобныя поўзаць , дзе вы ўключыць каталог і выключыць ключавое слова.

Лепшае рашэнне гэтай праблемы , як правіла , залежыць ад канкрэтнага вэб - сайта , які вы спрабуеце паўзці. Выдаткуйце некаторы час на знаёмства з рэгулярнымі выразамі. Калі вы робіце, вы адкрыеце для сябе шмат розных варыянтаў для падзелу вялікіх каталогаў у сканаваных кавалкі.

дадатковыя парады

Вось некалькі дадатковых саветаў, якія могуць быць карысныя для стварэння крычала жаб і поўзаць вялікія вэб-сайты.

  • Калі ў вас ёсць 64-бітная машына, пераканайцеся, што вы спампаваць і ўсталяваць 64-разрадную версію Java. Калі вы гэтага не зробіце вы сутыкнецеся памылкі намаляваных ніжэй.

Калі вы гэтага не зробіце вы сутыкнецеся памылкі намаляваных ніжэй

  • Захаваць рэзервовыя копіі абыходаў пры атрыманні блізка да максімальнага выкарыстання аператыўнай памяці. Напрыклад, калі ваш кампутар звычайна можа апрацоўваць 700000 URL-за поўзання, і вы знаходзіцеся ў сярэдзіне поўзання, што толькі што прайшло 600000 URL, гэта добрая ідэя, каб зрабіць паўзу і захаваць у выпадку высокага выкарыстанне аператыўнай памяці ў канчатковым выніку прыводзіць да вашага кампутара замярзае. Там значэнне налады па змаўчанні ў крычала Frog, што, як мяркуецца, каб прыпыніць праграму на выкарыстанні памяці, але я адчуў сітуацыі, калі гэта не заўсёды працуе.
  • Як ужо адзначалася вышэй, чым больш аператыўнай памяці кампутара мае для Якія крычаць жабы больш URL, вы можаце поўзаць. Гэта азначае, што гэта можа быць карысна, каб паменшыць аб'ём аператыўнай памяці вашых іншыя праграмы патрабуюць. Калі вы выкарыстоўваеце Chrome, і вы трымаць шмат адкрытых укладак адначасова ёсць вольны пашырэнне называецца «Вялікі Suspender» што часова замарожвае ўкладку вы не выкарыстоўвалі ў той час. Затым яна дазваляе хутка размарозіць ўкладкі, калі вы маеце патрэбу ў іх зноў. Пашырэнне дазваляе паменшыць выкарыстанне аператыўнай памяці Chrome і я асабіста знайшоў, што гэта вельмі карысна.

Поўзаюць велізарныя сайты, безумоўна, можа быць праблемай, але гэта працэс, які жыццёва важны для SEO, абслугоўванне вэб-сайта, а таксама ў працэсе рэдызайну. На шчасце, як толькі вы скончылі рэалізацыю ўсіх вышэйзгаданых канфігурацый вы будзеце ўсё ўсталяваць, каб пачаць поўзаць вэб-сайтаў памер Эверэста.

У вас ёсць свае ўласныя парады для абыходу буйных вэб-сайтаў? Ці ў вас ёсць дадатковыя пытанні? Не саромейцеся адпраўляць свае пытанні і каментары ніжэй або звярнуцца непасрэдна да мяне па адрасе: [email protected] або @BrianRogel

Поспехаў і шчаслівага поўзаць!

Чыталі вы ўвесь гэты блог? Калі гэта так, мы ўражаныя з прысвячэннем (давайце будзем сумленнымі, гэта даволі працяглы пост.) Вы маглі б быць толькі той чалавек , мы шукаем у арэнду. Абавязкова азнаёмцеся з нашымі адкрытыя пазіцыі і звярнуцца да нас па адрасе: [email protected] , Мы з нецярпеннем чакаем ад вас!

Якія прычыны для абыходу вэб-сайта?
Як вы поўзаць вельмі вялікі вэб-сайт?
Якія прычыны для абыходу вэб-сайта?
Як вы поўзаць вельмі вялікі вэб-сайт?
Якія крычаць налады жабу па змаўчанні выдатна падыходзіць для барацьбы з вэб-сайтаў з менш чым 10000 старонак, але што вы будзеце рабіць, калі вы сутыкнецеся з вэб-сайта, як паказана ніжэй?
Калі пачаць поўзаць, і вы пачынаеце заўважаць вялікая колькасць URL-адрасоў ўцягвацца маюць дынамічныя сегменты, такія як «?
Пошук =" або "?
У вас ёсць свае ўласныя парады для абыходу буйных вэб-сайтаў?
Ці ў вас ёсць дадатковыя пытанні?
Чыталі вы ўвесь гэты блог?