Pliki PDF: SEO i dostępność | Carmelon Digital Marketing

1.1. Generał Indeksowanie i indeksowanie: Wyszukiwarki (zwane dalej SE), a konkretnie Google, mogą...
1.3. Preferowanie treści PDF - zalecenia
1.4. Preferowanie treści innych niż PDF - zalecenia
1.5. Zapobieganie powielaniu treści
1.6. Linki do dodatkowych informacji
2.1. Przygotowanie oryginalnego dokumentu
2.2. Obsługa opcji ułatwień dostępu PDF
2.3. Wykonywanie regulacji i oznaczania tagów w nowym pliku PDF

1.1. Generał
Indeksowanie i indeksowanie: Wyszukiwarki (zwane dalej SE), a konkretnie Google, mogą indeksować i indeksować pliki PDF. Wobec braku innych dyrektyw (zob. Poniżej opcje) Google będzie indeksować i indeksować dowolny plik PDF w łączu napotkanym przez robota, zgodnie z ograniczeniami indeksowania rozmiaru pliku (patrz poniżej).
Podczas indeksowania Google w pełni indeksuje cały tekst w pliku PDF, w tym znaczniki nagłówków, ale nie obrazy lub tekst w obrazach (tekst OCR jest uważany za zwykły tekst i zostanie w pełni zindeksowany).
Google indeksuje również linki z tekstu w formacie PDF, tak jak w HTML, w tym w rankingu (lub „soku”) poprzez linki
Wyświetlanie wyników wyszukiwania: jeśli chodzi o wizualną reprezentację wyników wyszukiwania, jedyną różnicą (w odniesieniu do stron HTML) jest to, że Google wyraźnie zaznacza format pliku.
Zrzut ekranu: wyniki wyszukiwania Google dla dokumentu PDF
Lokalizacje wyników wyszukiwania: jeśli chodzi o lokalizację w wynikach wyszukiwania, pliki PDF mogą i w pełni konkurują ze stronami HTML. Chociaż nie są publicznie publikowane przez Google, parametry oceniania plików PDF są znane z tego, że różnią się od plików HTML, głównie ze względu na dużą objętość tekstową (a więc i zasięg słów kluczowych) zawartości plików PDF (w porównaniu ze średnimi stronami HTML strony). Różnica w stopniowaniu jest tworzona w celu umożliwienia poprawnego porównania treści HTML i PDF, a końcowy wynik - pliki PDF na stronach mogą skutecznie konkurować ze stronami HTML i zajmować bardzo wysoką pozycję, nawet na pierwszych miejscach w organicznych wynikach wyszukiwania .

1.2. Treść - w formacie PDF lub HTML?

Podczas umieszczania treści na stronie często pojawia się wybór formatów treści (HTML, PDF, Word, flash itp.).

Jeśli chodzi o SEO, ten wybór obejmuje wybór strategii - gdzie powinniśmy umieścić siłę (autorytet) treści w oczach wyszukiwarek - na stronach witryny lub w zewnętrznym pliku (PDF)?

Chociaż istnieją sytuacje wymagające użycia obu formatów i chociaż pliki PDF są zazwyczaj dobrze indeksowane i akceptowane w wyszukiwarkach, wybór pliku PDF ma kilka wad.

Po pierwsze, ważne jest, aby uświadomić sobie, że kiedy użytkownik przenosi się bezpośrednio z wyników wyszukiwania do pliku PDF (tj. PDF jest jego „stroną docelową”), jeśli chodzi o doświadczenie użytkownika - użytkownik nie jest naprawdę na stronie: użytkownik nie jest narażony na projekt strony internetowej, logo, paski nawigacyjne, nagłówek i stopkę itp.

Poza doświadczeniem użytkownika, całkowity brak interfejsu użytkownika (UI) witryny ma drastyczny wpływ na zdolność użytkownika do przechodzenia na inną zawartość w witrynie - możliwość przeglądania większej liczby stron i wykonywania większej liczby czynności jest poważnie ograniczona.

Podobnie, iz tego samego powodu, nasza zdolność do kierowania użytkownika do określonych ścieżek i treści, które chcemy, aby użytkownik widział, lub do kierowania użytkownika do wykonywania jakichkolwiek działań.

Wreszcie, podczas gdy linki w plikach PDF są indeksowane, nie jest możliwe kontrolowanie transferu uprawnień za ich pośrednictwem, tak jak w HTML (nie można zastosować żadnych indeksów ani tagów śledzenia do linków w plikach PDF).

Z tych i innych powodów, i kiedy nie ma specjalnych warunków dyktujących użycie PDF lub HTML - zawsze lepiej jest umieszczać zawartość w HTML, a nie w PDF.

Jednak, jak już wspomniano, często zdarzają się sytuacje, w których potrzebne są pliki PDF, na przykład podręczniki użytkownika, formularze, które muszą zostać pobrane przez użytkownika itp. Ważne jest, aby zdawać sobie sprawę, że nawet w takich sytuacjach zwykle korzystanie z plików PDF niekoniecznie oznacza, że musimy zrezygnować ze strategicznego wyboru umieszczenia autorytetu treści na stronach HTML.

Na przykład możliwe jest umieszczenie całej zawartości w HTML, a jednocześnie oferowanie do pobrania kopii PDF, przy użyciu technik, które kierują wyszukiwarki do umieszczenia całego autorytetu treści tylko w wersji HTML (patrz poniżej). To rozwiązanie jest dobrze dostosowane do stosunkowo krótkich treści.

W przypadku, gdy treść jest długa, możliwe jest użycie skoncentrowanego, opartego na słowach kluczowych streszczenia na stronach HTML, oferując pełną wersję treści jako plik PDF do pobrania, ponownie przy użyciu technik, które nakazują SE umieszczenie całego autorytetu w HTML tylko wersja.

1.3. Preferowanie treści PDF - zalecenia

W rzadkich przypadkach, gdy wybieramy umieszczenie uprawnienia w plikach PDF, zaleca się przestrzeganie następujących uwag:

Zezwalanie na indeksowanie plików PDF: nie jest konieczne wykonywanie żadnych specjalnych działań w celu umożliwienia indeksowania - gdy tylko przeszukiwacz napotka łącze do pliku PDF, spróbuje je zaindeksować i zaindeksować. Jednak z kilku powodów technicznych indeksowanie i indeksowanie plików PDF zajmuje SE więcej niż HTML (zwykle w skali godzin do dni, ale czasami nawet więcej niż miesiąc). Dlatego nie ma powodu, aby alarmować, jeśli po pierwszym przeszukiwaniu strona HTML zostanie zaindeksowana, ale połączone z nią pliki PDF nadal nie będą indeksowane.

Zachęcające i przyspieszające indeksowanie: zaleca się zaznaczenie adresu PDF w pliku mapy witryny, tak jak na każdej stronie HTML, w celu przyspieszenia indeksowania.

Jeśli istnieje pilna potrzeba szybkiego indeksowania lub nawet po długim okresie (ponad miesiąc) plik PDF nadal nie był indeksowany (przy założeniu, że SE ma pełny dostęp do pliku do celów indeksowania), można użyć NARZĘDZIA GOOGLE WEBMASTES do przesyłania plików PDF do indeksowania („pobierz jako Google”) i po indeksowaniu - do przesłania wyników do indeksowania.

Ograniczenie rozmiaru: zgodnie z ogólną zasadą zaleca się tworzenie plików PDF tak małych, jak to możliwe, i unikanie rozmiarów większych niż 2,5 MB.

Im większy jest plik, tym dłużej może przeszukiwać go SE, robią to rzadziej, a także mogą indeksować tylko jego części, lub całkowicie go indeksować, jeśli jest zbyt duży. Specjalnie dla Google pliki PDF są tymczasowo przekształcane na HTML podczas indeksowania, a Google indeksuje maksymalnie 2,5 MB z tymczasowego pliku HTML. Jeśli tymczasowy kod HTML jest większy niż 2,5 MB, Google zazwyczaj indeksuje cały plik, ale indeksuje tylko 2,5 MB danych (zwykle pierwszych 2,5 MB). Jeśli tymczasowy plik HTML przekracza 100 MB, Google może go w ogóle nie indeksować.

Wpływ na tytuł, którego Google użyje w pliku PDF w wynikach wyszukiwania: w przypadku plików PDF nie jest możliwe skierowanie SE do użycia określonego tytułu przy użyciu metatagów (jak w HTML). Jednak Google zazwyczaj wybiera tytuł, którego będzie używał dla pliku z nagłówka głównego dokumentu (H1) i / lub tekstu używanego jako link do pliku PDF, zakładając, że pasują one do treści PDF.

Znaczniki tytułów i nagłówków: Google indeksuje i indeksuje tytuły oznaczone stylistycznie jako tytuły (używając nagłówków) i wykorzystuje je do ulepszenia indeksowania i powiązania ze słowami kluczowymi. Dlatego ważne jest stosowanie znaczników nagłówków do tytułów podczas tworzenia plików PDF.

Linki w plikach PDF: Jak już wspomniano, Google może indeksować linki w plikach PDF i traktować je tak, jak łącza w HTML. W tym celu linki muszą mieć standardową strukturę linków (tzn. Mieć strukturę> a href = ”/ page2.html”> link do strony 2 </a>). Ponieważ nie można oznaczyć linków w pliku PDF tagami „no follow” i „no index”, jeśli jest to niepożądane, że określony link przeniesie uprawnienia, nie można go umieszczać w HTML.

Korzystanie z multimediów: Google nie indeksuje multimediów (w tym wszelkiego rodzaju) umieszczonych w plikach PDF. Należy unikać umieszczania tekstów w obrazach (tak samo jak na stronach HTML). Jeśli obraz ma być indeksowany, możliwe jest umieszczenie łącza do obrazu w pliku PDF, a następnie robot będzie śledził ten link i indeksował obraz (jako oddzielny plik z pliku PDF, a nie jako część jego zawartości) .

PDF wyprodukowany z tekstem ze zeskanowanych obrazów tekstów (OCR): Jak wcześniej wspomniano, SE nie będą indeksować tekstu umieszczonego na obrazku. Jeśli jednak tekst został utworzony za pomocą OCR, nadal jest uważany za tekst i nie powinno być problemów z indeksowaniem.

Indeksowanie plików PDF, ale zapobieganie wyświetlaniu wersji Google w pamięci podręcznej: jeśli plik PDF zawiera tymczasową zawartość lub często zmieniającą się zawartość, może być pożądane, aby uniemożliwić Google przechowywanie i wyświetlanie buforowanych wersji plików, które są przestarzałe lub już nie istnieją. Jest to możliwe do osiągnięcia poprzez zaimplementowanie znacznika X-Robots ze znacznikiem „bez archiwum” w odpowiedzi HTTP HTTP (zobacz szczegóły w następnym rozdziale)

Unikaj używania plików PDF chronionych hasłem: podczas tworzenia pliku PDF czasami można dodać do niego blokadę hasła, aby zapobiec nieautoryzowanemu dostępowi do pliku. Oczywiście, zablokowanie pliku hasłem uniemożliwi SE dostęp do niego, więc jeśli indeksowanie jest wymagane, ochrona hasłem nie może być używana.

1.4. Preferowanie treści innych niż PDF - zalecenia

Decydując się na umieszczenie autorytetu na stronach HTML (zalecana opcja), ale nadal korzystając z plików PDF w witrynie (na przykład: formularze do pobrania), zaleca się na ogół uniemożliwić indeksowanie plików PDF, zapobiegając w ten sposób wyciekowi mocy dla strony witryny do plików i tworzą użytkowników lądujących bezpośrednio w plikach.

Zatrzymywanie indeksowania plików PDF: można poprosić SE, aby nie indeksowały plików PDF. Istnieją trzy sposoby na to, opisane tutaj w kolejności preferencji

a) Blokowanie dużej liczby plików - proszenie o nie indeksowanie całego folderu: jest to najbardziej zalecana i „najczystsza” metoda. Utwórz osobny folder na serwerze i umieść w nim wszystkie pliki PDF. Następnie w pliku robots.txt witryny zaznacz cały folder jako „brak indeksu”. Zaletą tej metody jest to, że od tego momentu dodatkowe pliki PDF przesłane do folderu będą automatycznie ignorowane przez SE. Ponadto ta metoda jest odporna na błędy wynikające ze zmian w plikach lub w linkach prowadzących do plików.

b) Obsługa pojedynczego pliku - prośba o nieindeksowanie pojedynczego pliku: jeśli powyższe rozwiązanie nie jest pożądane (zbyt duża skala), możliwe jest oznaczenie konkretnego pliku, który musi zostać zablokowany „brak indeksu” w robotach Plik .txt witryny.

c) Obsługa pojedynczego pliku - oznaczanie samego pliku jako „brak indeksu”: jak wcześniej wspomniano, nie jest możliwe używanie zwykłych znaczników „bez indeksu” w plikach PDF, ponieważ nie mają one nagłówka pliku. Jednak możliwe jest oznaczenie samego pliku poprzez zaimplementowanie znacznika X-Robots w nagłówku odpowiedzi HTTP pliku. Poniżej przedstawiono przykład odpowiedzi HTTP dla pliku PDF z tagiem X-Robots żądającym braku indeksu:

HTTP / 1.1 200 OK

Data: wtorek, 25 maja 2010 21:42:43 GMT

(…)

X-Robots-Tag: noindex

(…)

Tag X-Robots obsługuje również żądania „bez śledzenia” i „bez archiwum”.

Więcej informacji na temat tagu X-Robots można znaleźć w informacjach dostarczonych przez Google pod następującym linkiem: https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

d) Standardowe i pilne usunięcie pliku z indeksu Google: Jeśli plik został zindeksowany i chcemy go usunąć z indeksowania, oznaczenie go „brak indeksu” w dowolnej z wyżej wymienionych metod (zwłaszcza tag X-Robots) w końcu prowadzić do usunięcia go z indeksu.

Jeśli istnieje pilna potrzeba szybkiego usunięcia określonego pliku (lub folderu, a nawet całej witryny) z indeksu, można zażądać usunięcia za pomocą narzędzi Google Webmasters Tools (tylko dla indeksu Google), używając adresu URL narzędzie do usuwania. Należy pamiętać, że jest to ostateczność - jeśli plik nie został oznaczony „brak indeksu”, zostanie ponownie zaindeksowany i zaindeksowany!

1.5. Zapobieganie powielaniu treści

Jeśli w jakichkolwiek okolicznościach dostępny jest plik PDF do indeksowania i jednocześnie strona HTML z tą samą (lub bardzo podobną) treścią lub innymi plikami PDF z tą samą (lub bardzo podobną) treścią, konieczne jest określ podaną wersję dla SE, aby uniknąć kar za powielanie treści.

Można to osiągnąć za pomocą znacznika kanonicznego (podobnego do HTML). Należy jednak pamiętać, że tag musi być zaimplementowany w nagłówku odpowiedzi HTTP w pliku PDF. Aby uzyskać więcej informacji na ten temat, zobacz poniższy link (a konkretnie przykład na dole strony dotyczący implementacji kanonicznych w plikach PDF) https://support.google.com/webmasters/answer/139066?hl=pl.

Należy pamiętać, że takie kanoniczne znaczniki będą działać tylko wtedy, gdy plik PDF będzie dostępny do indeksowania - w przeciwnym razie SE nigdy nie zobaczy prośby kanonicznej.

1.6. Linki do dodatkowych informacji

Ogólne informacje o Google i plikach PDF (z blogu webmasterów Google)

http://googlewebmastercentral.blogspot.com/2011/09/pdfs-in-google-search-results.html

Tag X-Robots (Google) https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

Tag Canonical, zawierający przykład implementacji w odpowiedzi HTTP na plik PDF https://support.google.com/webmasters/answer/139066?hl=en

Kanoniczny tag - informacje ogólne https://support.google.com/webmasters/answer/139394?hl=en

* Wszystkie informacje w tym rozdziale są zgodne z konwencjami WCAG 2.0 ( http://www.w3c.org.il/guidelines/guidelines_WCAG_2.0.html ) międzynarodowe przepisy dotyczące dostępności treści internetowych do standardowego poziomu AA. Należy pamiętać, że niektóre lokalne przepisy ustawowe i wykonawcze mogą się różnić od tego standardu i że niniejszy dokument nie zastępuje porady prawnej w tym zakresie, ani nie radzi o lokalnych przepisach lub nie przewiduje udzielania porad prawnych w tym zakresie.

PDF to format, który pozwala na bardzo wysoki poziom dostępności, gdy plik jest odpowiednio skonstruowany.

Odpowiednie skonstruowanie pliku PDF dzieli się na 2 główne części: korekty dokonane podczas przygotowywania oryginalnego dokumentu (np. Word, RTF itp.) Oraz zmiany wprowadzone w samym pliku PDF, który z kolei może zostać podzielony na włączenie opcji ułatwień dostępu i dokonywanie korekt treści. Przynosimy tutaj kilka ważnych aspektów do rozważenia. Więcej szczegółów i konkretnych technik wdrażania można znaleźć w podanych linkach.

2.1. Przygotowanie oryginalnego dokumentu

przygotowanie oryginalnego dokumentu jako dostępnego dokumentu jest podstawą do stworzenia dostępnego pliku PDF. Ponieważ istnieje niezliczona ilość formatów dokumentów, które mogą służyć jako oryginalny format, dostarczymy tutaj tylko główne punkty do rozważenia w formacie Worda, który jest najbardziej polecanym formatem. Należy jednak pamiętać, że poniższa lista jest jedynie podsumowaniem głównych tematów i konieczne jest, aby autor dokumentu potwierdził, że dokument spełnia wszystkie wymagania wymienione w przepisach WCAG 2.0 ( http://www.w3c.org.il/guidelines/guidelines_WCAG_2.0.html ).

Używanie tylko tekstu na żywo (wszystkie standardowe poziomy): unikaj umieszczania tekstu na obrazach lub tworzenia dokumentów ze zeskanowanych obrazów tekstów bez OCR.

Definiowanie struktury i projektu dokumentu, nagłówków i hierarchii strukturalnej z definicjami stylów (wszystkie standardowe poziomy): cały projekt elementów dokumentu i dokumentu musi być wykonany przy użyciu wbudowanych definicji stylu Word, a nie ręcznie. Obejmuje to numerowanie i najważniejsze - Tytuły (Nagłówki). Na przykład - nie wybieraj wiersza tekstu i zaznacz go ręcznie dla pogrubienia + podkreślenia + dużego rozmiaru tekstu, aby nadać mu wygląd tytułu. Zamiast tego zaznacz go stylem nagłówka zgodnie z żądaną hierarchią (H1, H2 itp.), A następnie ręcznie dostosuj wygląd.

Ważne jest, aby uświadomić sobie, że ten temat wykracza poza kwestię wyglądu wizualnego - używając wbudowanych definicji stylów tworzy strukturę i hierarchię definicji dokumentu, na których większość instrumentów dostępności informuje o ich funkcjonowaniu.

Tworzenie spacji przy użyciu definicji stylów, a nie ręcznie (poziom A): z tych samych powodów, o których mowa powyżej, ważne jest, aby wszystkie definicje przestrzeni (odstępy między wierszami, między słowami, między akapitami itp.) Były definiowane przy użyciu programu Word wbudowanego w opcje stylu , a nie ręcznie (tj. nie używając spacji, przycisku tabulacji itp.).

Konstruowanie tabel przy użyciu programu Word wbudowanego w opcje tabeli, a nie ręcznie lub przy użyciu obrazu (poziom A)

Dostarczanie tagów alt dla obrazów (poziom A) - kluczowe

Linki z tekstów (poziom A): słowa użyte w tworzeniu łączy muszą mieć znaczenie. Unikaj ogólnych zwrotów, takich jak „kliknij tutaj”, „więcej informacji” itp.

Dodatkowo - użyj słowa wbudowanego w narzędzie „końcówka ekranu”, aby podać wyjaśnienie / opis łącza

Podaj wyjaśnienia do wszystkich skrótów użytych w dokumencie - na przykład: SE = Wyszukiwarka.

Kontrasty i informacje oznaczone kolorami:

a) Upewnij się, że używasz odpowiednich definicji kontrastu - co najmniej 4,5 do 1 dla kontrastu między tekstem a tłem (poziom AA) lub 3 do 1, jeśli czcionka ma rozmiar 8 punktów lub wyższy. Dodatkowo 3 do 1 dla kontrastu pomiędzy sąsiadującymi tekstami (poziom AA).

b) Unikaj kodowania kolorami jako jedynego sposobu przekazywania informacji (poziom A)

c) Zweryfikuj zgodność kolorów dla osób niewidomych w kolorze - patrz techniki i przepisy dostarczone w WCAG 2.0 (poziom dostępności - określony zgodnie z technikami, które będą stosowane)

2.2. Obsługa opcji ułatwień dostępu PDF

Aby plik PDF był dostępny do użycia w różnych narzędziach ułatwień dostępu, opcje dostępności muszą być włączone podczas konwersji oryginalnego dokumentu do formatu PDF.

Na rynku dostępnych jest wiele narzędzi do konwersji plików PDF - dostarczymy tutaj tylko opcje dla Adobe Acrobat, który jest najpopularniejszy. Należy pamiętać, że niektóre tanie lub bezpłatne narzędzia w ogóle nie zawierają opcji ułatwień dostępu i dlatego nie powinny być używane.

Podczas konwersji, w oknie „Preferencje” programu Adobe Acrobat, w zakładce „Ustawienia”, zaznacz te 3 opcje (patrz zrzut ekranu poniżej): „utwórz zakładki”, „dodaj linki” i „włącz dostępność i przepływ z oznaczonym Adobe PDF” .

Zrzut ekranu: okno preferencji programu Adobe Acrobat do konwersji dokumentów

Zwróć uwagę na 3 opcje, poprawnie wybrane, aby umożliwić dostępność podczas konwersji

Zwróć uwagę na 3 opcje, poprawnie wybrane, aby umożliwić dostępność podczas konwersji

2.3. Wykonywanie regulacji i oznaczania tagów w nowym pliku PDF

Po wykonaniu dwóch poprzednich etapów otrzymujemy plik PDF zgodny ze wszystkimi podstawowymi przepisami dotyczącymi dostępności. W tym momencie autor powinien sprawdzić, czy dokument jest zgodny ze wszystkimi odpowiednimi przepisami WCAG 2.0 (http://www.w3c.org.il/guidelines/guidelines_WCAG_2.0.html). Aby to sprawdzić, należy wziąć pod uwagę 23 punkty techniczne. Te punkty i techniki ich przestrzegania wyjaśniono na oddzielnej stronie WCAG 2.0 poświęconej technikom plików PDF: http://www.w3.org/TR/WCAG20-TECHS/pdf.html .

Jeśli pierwszy etap (przygotowanie oryginalnego dokumentu) został dokładnie przeprowadzony zgodnie ze wszystkimi przepisami WCAG 2.0, na tym etapie pozostało bardzo niewiele pracy do wykonania, w większości istotnych dla obsługi formularzy, które muszą być wypełnione przez czytelnik.

Zrzut ekranu: okno preferencji programu Adobe Acrobat do konwersji dokumentów

1.2. Treść - w formacie PDF lub HTML?
Jeśli chodzi o SEO, ten wybór obejmuje wybór strategii - gdzie powinniśmy umieścić siłę (autorytet) treści w oczach wyszukiwarek - na stronach witryny lub w zewnętrznym pliku (PDF)?
Com/webmasters/answer/139066?
Com/webmasters/answer/139066?
Com/webmasters/answer/139394?