פותחים לגוגל את הדלת (אבל רק איפה שצריך): אופטימיזציה לסריקה ואינדוקס

seo טכני | מספר שיעור: 3.1

אז יש לנו אתר עם מבנה הגיוני וקישורים פנימיים שמחברים הכל (בתקווה, אחרי שיעור 3.0 😉). השלב הבא הוא לוודא שמנועי חיפוש כמו גוגל יכולים: א) לסרוק (Crawl) את האתר שלנו ביעילות, כלומר לגלות ולהוריד את התוכן של הדפים החשובים. ב) לאנדקס (Index) את הדפים האלה בצורה נכונה, כלומר להוסיף אותם לספרייה הענקית שלהם שממנה נשלפות תוצאות החיפוש.

אופטימיזציה לסריקה ואינדוקס עוסקת בדיוק בזה: לתת למנועי החיפוש את ההנחיות הנכונות לגבי אילו חלקים באתר כדאי להם לבקר, אילו דפים להוסיף לאינדקס, ועל אילו דפים אולי כדאי להם לדלג. זה קריטי כי אנחנו רוצים שכל התוכן האיכותי והחשוב שלנו יימצא ויוצג בתוצאות, אבל אנחנו לא רוצים שגוגל יבזבז את המשאבים שלו (תקציב זחילה) על סריקה של אזורים לא חשובים, כפולים, או פרטיים באתר, ושלא יאנדקס בטעות דפים שאנחנו לא רוצים שיופיעו בתוצאות החיפוש.

בשיעור הזה נכיר את הכלים והטכניקות המרכזיות לשליטה בתהליכים אלה: קובץ Robots.txt, מפות אתר (Sitemaps), ותגיות Meta Robots.

קורס seo קידום אתרים

1. השומר בכניסה: קובץ Robots.txt

תחשבו על קובץ ה-Robots.txt כמו על שומר בכניסה לאתר שלכם. הוא לא באמת חוסם כניסה (מנועי חיפוש יכולים טכנית להתעלם ממנו, אם כי הגדולים כמו גוגל מכבדים אותו), אלא נותן הנחיות והמלצות לסורקים (כמו Googlebot) לגבי אילו אזורים באתר לא לסרוק.

  • מה זה ואיפה הוא נמצא? זהו קובץ טקסט פשוט בשם robots.txt שנמצא בתיקיית השורש (root) של הדומיין שלכם (למשל: www.yourdomain.com/robots.txt).
  • למה הוא משמש? בעיקר כדי למנוע מסורקים לבזבז זמן ומשאבים על סריקת חלקים באתר שאין להם ערך בתוצאות החיפוש, כגון:
    • אזורי ניהול (Admin panel)
    • דפי תוצאות חיפוש פנימיים באתר
    • קבצים או תיקיות זמניים/טכניים
    • כתובות URL עם פרמטרים שיוצרות תוכן כפול (למשל, מיונים וסינונים בחנות)
  • תחביר בסיסי:
    • User-agent: מציין לאיזה סורק ההנחיה מיועדת (למשל, Googlebot, Bingbot, או * לכל הסורקים).
    • Disallow: מציין נתיב (ספרייה או דף ספציפי) שאסור לסרוק. לדוגמה, Disallow: /admin/ ימנע סריקה של כל הכתובות שמתחילות ב-/admin/.
    • Allow: מאפשר סריקה של קובץ או ספרייה ספציפיים בתוך ספרייה שנחסמה (שימושי לחריגים).
    • Sitemap: מציין את המיקום של מפת האתר (XML Sitemap) שלכם (נגיע לזה עוד רגע).
  • טעויות קריטיות שיש להימנע מהן:
    • חסימה בטעות של קבצי CSS או JavaScript חשובים: אם גוגל לא יכול לסרוק את הקבצים האלה, הוא לא יוכל לרנדר את הדף כראוי ולהבין את התוכן והמבנה שלו.
    • חסימה בטעות של אזורים שלמים באתר שכן רוצים שיהיו באינדקס.
    • שימוש ב-Robots.txt כדי למנוע אינדוקס: טעות נפוצה! Robots.txt מונע סריקה, לא אינדוקס. אם גוגל כבר מכיר את ה-URL ממקור אחר (למשל, קישור חיצוני), הוא עדיין עשוי לאנדקס אותו גם אם הוא חסום ב-Robots.txt (הוא פשוט לא יידע מה יש בדף). כדי למנוע אינדוקס, משתמשים בתגית Meta Robots (ראו בהמשך).

חשוב: תמיד בדקו את קובץ ה-Robots.txt שלכם באמצעות ה-Robots.txt Tester בכלי מנהלי האתרים של גוגל (Google Search Console) כדי לוודא שאין טעויות קריטיות.

רוצים להיות מעודכנים בכל פעם שעולה כתבה מועילה? 

הרשמו עכשיו לניוזלטר! 

2. המפה לאוצר: מפות אתר (XML Sitemaps)

אם Robots.txt אומר לסורקים לאן לא ללכת, מפת האתר (Sitemap) היא כמו מפה שמראה להם את כל הדרכים החשובות שכן כדאי להם לבקר בהן.

  • מה זה? קובץ (לרוב בפורמט XML) שמכיל רשימה של כל כתובות ה-URL החשובות באתר שאתם רוצים שמנועי חיפוש יגלו ויסרקו.
  • למה זה מועיל?
    • גילוי מהיר: עוזר לגוגל לגלות דפים חדשים או דפים שעודכנו לאחרונה בצורה מהירה יותר, במיוחד באתרים גדולים, אתרים חדשים, או אתרים עם מבנה קישורים פנימיים לא אופטימלי.
    • מידע נוסף: מפת האתר יכולה לכלול מידע נוסף על כל URL, כמו תאריך השינוי האחרון (lastmod), תדירות העדכון הצפויה (changefreq – פחות חשוב לגוגל היום), וחשיבות יחסית (priority – גם פחות חשוב לגוגל היום).
  • מה צריך לכלול במפת האתר? רק כתובות URL שהן:
    • קנוניות: הגרסה המועדפת של הדף (נגיע לקנוניקל בהמשך).
    • ניתנות לאינדוקס: לא חסומות על ידי תגית noindex.
    • מחזירות סטטוס תקין (200 OK): לא שגיאות 404 או הפניות 301/302.
    • לא חסומות ב-Robots.txt.
  • סוגים מיוחדים: בנוסף למפת אתר רגילה לדפי HTML, יש גם מפות אתר ייעודיות לתמונות, לסרטונים ולכתבות חדשות, שיכולות לעזור לגוגל לגלות ולהבין את התכנים האלה טוב יותר. לאתרים גדולים מאוד, משתמשים ב-Sitemap Index שמקשר למספר מפות אתר קטנות יותר.
  • איך יוצרים ומגישים?
    • פלאגינים: רוב מערכות ניהול התוכן (CMS) כמו וורדפרס מציעות פלאגינים (כמו Yoast SEO, Rank Math) שמייצרים ומעדכנים מפת אתר באופן אוטומטי.
    • כלים ייעודיים: ישנם כלים אונליין או תוכנות (כמו Screaming Frog) שיכולים ליצור מפת אתר.

הגשה לגוגל: הדרך המומלצת היא להוסיף את הקישור למפת האתר ב-Google Search Console, וגם להוסיף שורת Sitemap: לקובץ ה-Robots.txt שלכם. חשוב לוודא שמפת האתר מתעדכנת אוטומטית כשנוספים או משתנים דפים באתר.

3. הפקודות הישירות: Meta Robots Tag ו-X-Robots-Tag

בניגוד ל-Robots.txt שהוא בגדר המלצה לסריקה, תגיות ה-Robots הן פקודות שנוגעות ישירות לאינדוקס ולמעקב אחר קישורים בדף ספציפי.

  • תגית Meta Robots:
    • מה זה? תגית HTML שמוסיפים לקטע ה-<head> של דף אינטרנט ספציפי.
    • דוגמה: <meta name="robots" content="noindex, follow">
  • X-Robots-Tag:
    • מה זה? הנחיה שנשלחת כחלק מכותרות ה-HTTP (HTTP Headers) של קובץ מסוים.
    • למה הוא שימושי? מאפשר לתת הנחיות רובוטס גם לקבצים שאינם HTML (כמו קבצי PDF, תמונות), או להגדיר הנחיות רוחביות ברמת השרת.
  • הערכים החשובים ביותר:
    • index (ברירת מחדל): מאפשר למנוע החיפוש לאנדקס את הדף.
    • noindex: מורה למנוע החיפוש לא לאנדקס את הדף ולהסיר אותו מהאינדקס אם הוא כבר שם. זו הדרך הנכונה למנוע אינדוקס!
    • follow (ברירת מחדל): מאפשר למנוע החיפוש לעקוב אחרי הקישורים היוצאים מהדף הזה ולגלות דפים אחרים.
    • nofollow: מורה למנוע החיפוש לא לעקוב אחרי הקישורים היוצאים מהדף הזה ולא להעביר להם "סמכות". (נדבר על השימוש ב-nofollow בהרחבה בפרק על קישורים).
    • יש ערכים נוספים (noarchive, nosnippet וכו'), אך אלו פחות נפוצים.
  • מתי להשתמש ב-noindex?
    • דפי תוכן דל או באיכות נמוכה שאין להם ערך למשתמשים בחיפוש.
    • דפי תוצאות חיפוש פנימי באתר.
    • דפי תודה לאחר מילוי טופס.
    • גרסאות הדפסה או גרסאות ספציפיות למשתמשים רשומים.
    • סביבות פיתוח או Staging של האתר.
    • דפים עם תוכן כפול (למרות שלרוב עדיף להשתמש בתג קנוניקל במקרה כזה).

4. ניהול תקציב זחילה (Crawl Budget) – בעיקר לאתרים גדולים

  • מה זה תקציב זחילה? כמות המשאבים (זמן ומספר כתובות URL) שמנוע חיפוש כמו גוגל מוכן ורוצה להקדיש לסריקת האתר שלכם בפרק זמן נתון. זה לא מספר קבוע, והוא מושפע מגודל האתר, תדירות העדכונים, מהירות השרת, וסמכות האתר.
  • למה זה חשוב? באתרים קטנים-בינוניים, לרוב זה לא אישיו משמעותי. אבל באתרים גדולים מאוד (מיליוני דפים), אם תקציב הזחילה לא מנוהל נכון, גוגל עלול לבזבז אותו על סריקת דפים לא חשובים, ולקחת לו הרבה זמן לגלות ולאנדקס תוכן חדש או חשוב שעדכנתם.
  • איך לשפר את ניהול תקציב הזחילה?
    • לשפר את מהירות האתר: אתר מהיר יותר מאפשר לגוגל לסרוק יותר דפים באותו זמן.
    • לחסום אזורים לא חשובים ב-Robots.txt: למנוע בזבוז משאבים על סריקתם.
    • לטפל בשגיאות ובהפניות: שגיאות 404 או שרשראות הפניות (Redirect Chains) מבזבזות תקציב זחילה.
    • להשתמש ב-nofollow (בזהירות!): אפשר להשתמש ב-nofollow על קישורים פנימיים שמובילים לדפים רבים בעלי ערך נמוך מאוד ל-SEO (כמו לינקים לסינון או מיון פרמטרי), כדי לכוון את הסורק לדפים חשובים יותר. (שימוש מתקדם שדורש זהירות).
    • להשתמש במפות אתר: כדי לעזור לגוגל למצוא את התוכן החשוב.
    • לעקוב אחר נתוני הסריקה: ב-Google Search Console יש דוח "נתוני סריקה" (Crawl Stats) שיכול לתת לכם מושג על פעילות גוגלבוט באתר שלכם.

לסיכום: גישה מתואמת לשליטה בנראות

שליטה בתהליכי הסריקה והאינדוקס היא חלק יסודי וחשוב ב-SEO הטכני. שימוש נכון ומתוזמן ב-Robots.txt (להנחיות סריקה), ב-XML Sitemaps (לסיוע בגילוי), ובתגיות Meta/X-Robots (לשליטה באינדוקס) מאפשר לכם לוודא שהתוכן הנכון באתר שלכם זוכה לנראות הראויה במנועי החיפוש, תוך שמירה על יעילות המשאבים של הסורקים.

בשיעור הבא, נמשיך ונעמיק באחד הגורמים הטכניים שהפכו לקריטיים בשנים האחרונות לחווית משתמש ול-SEO: Core Web Vitals ואופטימיזציית מהירות אתר. מוכנים לגרום לאתר שלכם לטוס?

רוצים לדבר על זה בקבוצת פייסבוק שלנו? קדימה! מדוזה – דיגיטל ושיווק לעצמאים

רוצה להרגיש את התוצאות באמת?

אם אתם רוצים לחסוך זמן ולהתחיל לקדם את האתר שלכם כבר עכשיו – פנו אלינו! 

Facebook
X
LinkedIn
WhatsApp
Email
קורס seo קידום אתרים
admin
תמונה שווה אלף מילים (וגם דירוגים): אופטימיזציית תמונות ווידאו (Image & Video SEO)

אל תזניחו את הוויז'ואלס! למדו איך לבצע אופטימיזציית תמונות ווידאו לאתר שלכם – משמות קבצים ותגיות ALT ועד לגודל קובץ ונתונים מובנים – כדי לשפר חווית משתמש, מהירות ודירוגים בגוגל.

קרא עוד »