PDF-файли: SEO та доступність | Кармелон Цифровий маркетинг

1.1. Загальні Сканування та індекс: пошукові системи (далі - SE) і Google, зокрема, можуть сканувати...
1.3. Визначення рекомендацій щодо вмісту PDF
1.4. Надання рекомендацій щодо вмісту не PDF
1.5. Запобігання дублювання вмісту
1.6. Посилання на додаткову інформацію
2.1. Підготовка оригінального документа
2.2. Обробка опцій доступності PDF
2.3. Виконання коригувань і позначення тегів у новому PDF-файлі

1.1. Загальні
Сканування та індекс: пошукові системи (далі - SE) і Google, зокрема, можуть сканувати та індексувати файли PDF. За відсутності будь-яких інших директив (див. Нижче опції), Google сканує та індексує будь-який PDF у посиланні, з яким зіткнувся сканер, згідно з обмеженнями сканування розміру файлу (див. Нижче).
Під час сканування Google повністю індексує весь текст у форматі PDF, включаючи розмітку заголовків, але не зображення чи текст у зображеннях (текст розпізнавання вважається звичайним текстом і буде повністю індексований).
Google також індексуватиме посилання з тексту PDF, як і в HTML, включаючи перенесення (або «сік») через посилання
Відображення результатів пошуку: що стосується візуального відображення в результатах пошуку, єдина різниця (у відношенні сторінок HTML) полягає в тому, що Google чітко відзначає формат файлу.
Знімок екрана: результати пошуку Google для документа PDF
Розташування результатів пошуку: що стосується розташування в результатах пошуку, PDF-файли можуть повністю конкурувати з HTML-сторінками. Хоча Google не публічно публікується, відомо, що параметри для сортування PDF-файлів відрізняються від HTML-файлів, головним чином завдяки великому обсягу вмісту PDF-файлів у текстовому форматі (а отже і досягає ключових слів) (у порівнянні зі звичайними HTML-сторінками веб-сайту). Різниця в оцінюванні створюється для того, щоб дозволити правильне порівняння між версіями вмісту HTML і PDF, а в кінцевому результаті - PDF-файли на сайтах можуть успішно конкурувати з HTML-сторінками і оцінюватись дуже високо, навіть на перших місцях в результатах пошуку .

1.2. Вміст - у форматі PDF або HTML?

При розміщенні контенту на сайті часто виникає вибір форматів вмісту (HTML, PDF, Word, flash тощо).

З точки зору SEO, цей вибір охоплює вибір стратегії - де слід розміщувати силу (авторитет) вмісту в очах пошукових систем - на сторінках сайту або у зовнішньому файлі (PDF)?

Хоча існують ситуації, що вимагають використання обох форматів, і хоча PDF-файли, як правило, добре проіндексовані і прийняті в пошукових системах, вибір PDF має кілька недоліків.

Перш за все, важливо розуміти, що коли користувач переходить безпосередньо з результатів пошуку в PDF (тобто - PDF - це його «цільова сторінка»), наскільки користувальницький досвід - користувач насправді не на сайті: користувач не піддається дизайну веб-сайту, логотипу, панелі навігації, колонтитулу та ін.

Крім користувальницького досвіду, повна відсутність інтерфейсу користувача (UI) сайту різко впливає на здатність користувача переходити на інший вміст сайту - можливість користувача переглядати більше сторінок і виконувати більше дій суворо обмежена.

Аналогічно, і з тієї ж причини, так і наша здатність загнати користувача в конкретні послідовності і вміст, який ми хочемо бачити користувачеві, або загнати користувача до виконання будь-яких дій.

Нарешті, у той час як посилання на PDF-файли індексуються, неможливо керувати передачею повноважень через них, як на HTML (неможливо застосувати жодного індексу чи відсутні наступні теги до посилань у PDF-файлах).

З цих причин та інших, і коли немає особливих умов, що диктують використання будь-якого PDF або HTML-, завжди краще розміщувати вміст у HTML, а не PDF.

Однак, як уже згадувалося, часто виникають ситуації, що вимагають використання PDF-файлів, наприклад, посібників користувача, форм, які потрібно завантажувати користувачем тощо. Важливо розуміти, що навіть у таких ситуаціях, як правило, використання файлів PDF не обов'язково означає, що ми повинні відмовитися від стратегічного вибору, щоб розмістити авторитет контенту на сторінках HTML.

Наприклад, можна розмістити весь вміст в HTML, і в той же час запропонувати завантажувану копію PDF, використовуючи методи, які направляють пошукові системи для розміщення всіх повноважень вмісту лише у версії HTML (див. Нижче). Цей розчин добре підходить для відносно короткого вмісту.

У тих випадках, коли вміст довгий, можна використовувати цілеспрямований синопсис з ключовими словами на сторінках HTML, пропонуючи повну версію вмісту як завантажуваний PDF, знову ж таки використовуючи методи, які спрямовують SE на розміщення всіх повноважень у HTML лише версія.

1.3. Визначення рекомендацій щодо вмісту PDF

У рідкісних випадках, коли ми вирішили розмістити повноваження у файлах PDF, рекомендується дотримуватися таких міркувань:

Дозволити індексування PDF-файлів: не потрібно виконувати будь-які спеціальні дії, щоб дозволити індексацію - як тільки сканер зіткнеться з посиланням на PDF-файл, він спробує сканувати та індексувати його. Проте з кількох технічних причин сканування та індексація PDF-файлів займає SE довше, ніж HTML (зазвичай це за шкалою від годин до днів, але іноді до місяця більше). Таким чином, немає жодних підстав для сповіщення, якщо при першому скануванні HTML-сторінка індексується, але PDF-файли, пов'язані з нею, ще не проіндексовані.

Заохочення та прискорення індексації: рекомендується позначити адресу файлу PDF у файлі sitemap веб-сайту, як на будь-якій сторінці HTML, щоб прискорити індексацію.

Якщо існує нагальна потреба в швидкому індексації, або навіть після довгого періоду часу (більше місяця) PDF ще не індексувався (за умови, що SE мають повний доступ до файлу для цілей індексації), можна використовувати GOOGLE WEBMASTES TOOLS подає PDF-файл для сканування ("вибірка як Google"), а після сканування - подає результати для індексації.

Обмеження розміру: як загальне правило, бажано створювати PDF-файли якомога менше і уникати розмірів, що перевищують 2,5 Мб.

Чим більший файл, тим довше може проходити SE для його сканування, вони роблять це рідше, а також можуть сканувати лише його частини або взагалі уникати індексування, якщо він занадто великий. Спеціально для Google, PDF-файли тимчасово перетворюються на HTML під час сканування, а Google індексує максимум 2,5 Мб з тимчасового файлу HTML. Якщо тимчасовий HTML перевищує 2,5 Мб, Google зазвичай сканує весь файл, але індексує лише 2,5 Мб даних (зазвичай перші 2,5 Мб). Якщо тимчасовий файл HTML перевищує 100 МБ, Google може взагалі не індексувати його.

Вплив на назву, яку Google буде використовувати для PDF-файлу в результатах пошуку: для PDF-файлів неможливо спрямувати SE на використання певного назви за допомогою мета-тегів (як у HTML). Однак Google зазвичай вибирає заголовок, який буде використовуватися для файлу з заголовка головного документа (H1) та / або тексту, який використовується як посилання на файл PDF, за умови, що він відповідає вмісту PDF-файлу.

Розмітка заголовків і заголовків: Google сканує та індексує назви, які стилістично позначені як заголовки (за допомогою заголовків), і використовує їх для покращення індексування та асоціації з ключовими словами. Тому важливо використовувати розмітку заголовків для заголовків під час створення PDF-файлів.

Посилання в PDF-файлах: Як вже згадувалося раніше, Google може індексувати посилання в PDF-файлах, а також оброблятиме їх як це має посилання в HTML. З цією метою посилання повинні мати стандартну структуру посилання (тобто структурувати як> a href = ”/ page2.html”> посилання на сторінку 2). Оскільки неможливо позначити посилання у форматі PDF з тегами "no follow" та "no index", якщо не потрібно, щоб певна посилання передала повноваження, то вона не повинна розміщуватися в HTML.

Використання мультимедійних повідомлень: Google не буде індексувати мультимедіа (у тому числі будь-яких зображень), розміщених у файлах PDF. Необхідно уникати розміщення текстів у зображеннях (як у HTML-сторінках). Якщо зображення має бути проіндексовано, можна розмістити посилання на зображення в PDF-файлі, а потім сканер буде слідувати за цим посиланням і індексувати зображення (як окремий файл з PDF-файлу, а не як частину його вмісту). .

PDF, створений з текстом із відсканованих зображень текстів (OCR): Як згадувалося раніше, SE не буде індексувати текст, розташований на картинці. Однак, якщо текст був створений за допомогою OCR, він все ще вважається текстом, і не повинно бути проблем з індексацією.

Індексація PDF-файлів, але запобігання показу кешованих версій у Google: якщо PDF містить тимчасовий вміст або вміст, який часто змінюється, може бути бажаним запобігти Google зберігати та відображати кешовані версії файлів, які вже застаріли або не існують. Цього можна досягти, реалізуючи тег X-Robots з розміткою "немає архіву" у відповіді HTTP HTTP (див. Деталі в наступній главі)

Уникайте використання захищених паролем PDF-файлів: під час створення PDF-файлу іноді можна додати блокування пароля, щоб запобігти несанкціонованому доступу до файлу. Очевидно, що блокування файлу паролем не дасть змогу SE отримати доступ до неї, тому, якщо потрібно індексація, захист паролем не повинен використовуватися.

1.4. Надання рекомендацій щодо вмісту не PDF

При виборі місця для розміщення повноважень на сторінках HTML (рекомендований варіант), але все ще використовують PDF-файли на сайті (наприклад: форми для завантаження) рекомендується взагалі запобігати індексуванню PDF-файлів, запобігаючи таким чином витоку потужності для сторінки сторінок до файлів, а також форми користувачів, що пристають безпосередньо до файлів.

Припинення індексування PDF-файлів: можна попросити SE не індексувати PDF-файли. Є 3 способи зробити це, описані тут в порядку переваги

a) Блокування великої кількості файлів - запит на те, щоб не індексувати всю папку: це найбільш рекомендований і «найчистіший» метод. Створіть окрему папку на сервері та розмістіть у ній всі PDF-файли. Потім у файлі robots.txt сайту позначте всю папку як "no index". Перевага цього методу полягає в тому, що з цього моменту додатковий файл PDF, завантажений у папку, також автоматично буде ігноруватися SE. Крім того, цей метод не піддається помилкам через зміни у файлах або посиланнях, що ведуть до файлів.

b) Обробка одного файлу - запит окремого файлу не індексувати: якщо вищезазначене рішення не є бажаним (занадто великим), то в роботах можна позначити конкретний файл, який потрібно заблокувати за допомогою "no index" .txt файл сайту.

c) Обробка одного файлу - позначення самого файлу як «без індексу»: як згадувалося раніше, неможливо використовувати звичайні теги «без індексу» з файлами PDF, оскільки вони не мають заголовка файлу. Однак, можна позначити сам файл, реалізуючи тег X-Robots в заголовку HTTP-відповіді файлу. Нижче наведено приклад підказки HTTP для PDF-файлу з тегом X-Robots, який вимагає відсутність індексу:

HTTP / 1.1 200 OK

Дата: Tue, 25 May 2010 21:42:43 GMT

(…)

X-Robots-Tag: noindex

(…)

Тег X-Robots підтримує також запити "no follow" та "no archive".

Щоб отримати докладнішу інформацію про тег X-Robots, перегляньте інформацію, надану Google, за посиланням: https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

d) Стандартне та термінове видалення файлу з індексу Google: якщо файл індексовано, і ми хочемо видалити його з індексування, позначте його "без індексу" в будь-якому з вищезазначених методів (особливо тега X-Robots). призводять до його видалення з індексу.

Якщо існує нагальна потреба в поспішному видаленні певного файлу (або папки або навіть всього сайту) з індексу, можна запросити видалення через Інструменти для веб-майстрів Google (лише для індексу Google), використовуючи URL-адресу інструмент видалення. Важливо пам'ятати, що це останній засіб - якщо файл не був позначений «без індексу», він буде знову сканований і індексований!

1.5. Запобігання дублювання вмісту

Якщо за будь-яких обставин існує PDF-файл, доступний для індексування та одночасно HTML-сторінки з однаковим (або схожим) вмістом, або інших PDF-файлів з однаковим (або дуже схожим) вмістом, необхідно вкажіть запропоновану версію для SE, щоб уникнути штрафів за дублювання вмісту.

Цього можна досягти за допомогою канонічного тегу (подібно до HTML). Однак важливо пам'ятати, що тег повинен бути реалізований в заголовку HTTP-відповіді PDF. Докладніші відомості на цю тему див. У наведеному нижче посиланні (а саме - на прикладі внизу сторінки для впровадження канонічних у форматі PDF) https://support.google.com/webmasters/answer/139066?hl=uk.

Важливо пам'ятати, що така канонічна розмітка буде працювати, лише якщо PDF-файл доступний для індексування, інакше SE ніколи не побачить канонічний запит.

1.6. Посилання на додаткову інформацію

Загальна інформація про Google і PDF-файли (з блогу веб-майстрів Google)

http://googlewebmastercentral.blogspot.com/2011/09/pdfs-in-google-search-results.html

Тег X-Robots (Google) https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

Канонічний тег, включаючи приклад реалізації у відповіді HTTP HTTP https://support.google.com/webmasters/answer/139066?hl=uk

Канонічний тег - загальна інформація https://support.google.com/webmasters/answer/139394?hl=uk

* Вся інформація в цій главі слідує умовам WCAG 2.0 ( http://www.w3c.org.il/guidelines/guidelines_WCAG_2.0.html ) міжнародні правила доступу до інтернет-контенту до стандартного рівня АА. Майте на увазі, що деякі місцеві закони та правила можуть відрізнятися від цього стандарту, і що цей документ не є можливістю заміни юридичних консультацій з цього питання, а також не надає консультацій щодо місцевих нормативних актів або передбачає надання юридичних консультацій з цього питання.

PDF - це формат, що забезпечує дуже високий рівень доступності, коли файл створено належним чином.

Відповідно побудувати PDF розділяється на 2 основні частини: коригування, зроблені під час підготовки вихідного документа (наприклад, Word, RTF і т.д.), і коригування, зроблені для самого PDF, які, в свою чергу, можуть бути розділені на увімкнення опцій доступності та виконання коригувань вмісту. Ми пропонуємо деякі важливі аспекти, які необхідно розглянути. Для отримання додаткової інформації та конкретних методів впровадження див.

2.1. Підготовка оригінального документа

підготовка оригінального документа як доступного документа є основою для створення доступного PDF. Оскільки існує безліч форматів документів, які можуть слугувати оригінальним форматом, ми поставимо тут лише основні моменти для розгляду у форматі Word, який є найбільш форматом команд. Однак важливо пам'ятати, що наступний список є лише коротким викладом основних предметів, і автору документа необхідно підтвердити, що документ відповідає всім вимогам, зазначеним у правилах WCAG 2.0 ( http://www.w3c.org.il/guidelines/guidelines_WCAG_2.0.html ).

Використання лише живого тексту (усі стандартні рівні): уникайте розміщення тексту на зображеннях або створення документів із відсканованих зображень без OCR.

Визначення структури та дизайну документів, заголовків і структурної ієрархії з визначеннями стилів (всі стандартні рівні): весь дизайн документів і елементів документа повинен бути виконаний з використанням вбудованих визначень стилів Word, а не вручну. Це включає в себе нумерацію, а найголовніше - заголовки (заголовки). Наприклад - не вибирайте текстовий рядок і вручну позначте його для жирного + підкреслення + великий розмір тексту, щоб надати йому вигляд заголовка. Замість цього позначте його стилем заголовка відповідно до потрібної ієрархії (H1, H2 тощо), а потім вручну налаштуйте зовнішній вигляд.

Важливо усвідомити, що цей предмет виходить за рамки питання зовнішнього вигляду - використання вбудованих визначень стилів створює структуру і визначення ієрархії документа, на якому більшість інструментів доступності реле для їх функціонування.

Створення просторів, використовуючи визначення стилів, а не вручну (рівень A): з тих самих причин, що були згадані вище, дуже важливо, щоб усі визначення простору (пробіл між рядками, між словами, між абзацами тощо) були визначені за допомогою вбудованого Word. , а не вручну (тобто - не використовуючи пробіл, кнопку табуляції тощо).

Побудова таблиць за допомогою Word, вбудованого в параметри таблиці, а не вручну або з використанням зображення (рівень A)

Постачання тегів alt для зображень (рівень A) - вирішальне значення

Посилання на тексти (рівень А): слова, що використовуються при створенні посилань, мають бути значущими. Уникайте загальних фраз, таких як "натисніть тут", "для отримання додаткової інформації" тощо.

Крім того, використовуйте слово, вбудоване в інструменті "екранний наконечник", щоб надати пояснення / опис посилання

Надайте пояснення до всіх скорочень, які використовуються в документі, наприклад: SE = Search Engine.

Контрасти та кольорова інформація:

a) Переконайтеся в тому, що для контрасту між текстом і фоном (рівень АА) або від 3 до 1, якщо шрифт має розмір 8 або більше, використовуйте відповідні визначення контрастності - принаймні, від 4,5 до 1. Додатково - від 3 до 1 для контрасту між суміжними текстами (рівень АА).

b) Уникайте використання кольорового кодування як єдиного способу передачі інформації (рівень A)

c) Підтвердження сумісності кольорів для індивідуальних кольорових сліпих - див. технічні прийоми та правила, що містяться в WCAG 2.0 (рівень доступності визначається відповідно до методів, які будуть використовуватися)

2.2. Обробка опцій доступності PDF

Для того, щоб PDF був доступний для використання в різних допоміжних засобах доступності, необхідно включити опції доступності під час перетворення вихідного документа у формат PDF.

На ринку існує безліч інструментів для перетворення PDF - ми будемо поставляти тут лише опції для Adobe Acrobat, яка є найпоширенішою. Зауважте, що деякі інструменти для безкоштовного чи вільного користування взагалі не включають опції доступності, тому їх не слід використовувати.

Під час перетворення, у вікні «Налаштування» програми Adobe Acrobat, на вкладці «Налаштування» позначте ці три опції (див. Скріншот нижче): «створюйте закладки», «додайте посилання» та «увімкніть доступність і перекомпонування за допомогою позначеного Adobe PDF» .

Знімок екрана: вікно налаштувань Adobe Acrobat для перетворення документів

Зверніть увагу на 3 варіанти, правильно вибрані для забезпечення доступності під час перетворення

Зверніть увагу на 3 варіанти, правильно вибрані для забезпечення доступності під час перетворення

2.3. Виконання коригувань і позначення тегів у новому PDF-файлі

Після виконання двох попередніх етапів ми отримуємо PDF-файл, який відповідає всім основним нормам доступності. На цьому етапі автор повинен переконатися, що документ відповідає всім відповідним правилам у WCAG 2.0 (http://www.w3c.org.il/guidelines/guidelines_WCAG_2.0.html). Щоб перевірити це, є 23 технічних пункти, які необхідно дотримуватися. Ці пункти та методи їх виконання пояснюються на окремій сторінці WCAG 2.0, присвяченої методам для PDF-файлів: http://www.w3.org/TR/WCAG20-TECHS/pdf.html .

Якщо перший етап (підготовка оригінального документа) був ретельно виконаний у відповідності до всіх правил WCAG 2.0, то на цій стадії залишиться дуже мало роботи, більшість з яких має відношення до форм, які потрібно заповнити читача.

Знімок екрана: вікно налаштувань Adobe Acrobat для перетворення документів

1.2. Вміст - у форматі PDF або HTML?
З точки зору SEO, цей вибір охоплює вибір стратегії - де слід розміщувати силу (авторитет) вмісту в очах пошукових систем - на сторінках сайту або у зовнішньому файлі (PDF)?
Com/webmasters/answer/139066?
Com/webmasters/answer/139066?
Com/webmasters/answer/139394?