可抓取性問題最常見的誤會,是把 robots、noindex、nofollow 與 sitemap 排除混成一件事。先分清楚每一個訊號到底在擋什麼,排查才會準。
這類問題真正想解的是:目前到底是哪個層級的封鎖或排除訊號,讓 Google 沒辦法正常發現、抓取或保留這頁。
怎麼做比較穩
- 先盤所有封鎖與排除訊號。
- 把訊號影響層級畫清楚。
- 確認重要頁仍有穩定 discovery 路徑。
要避開的做法
- 不要把所有擋法混成同一件事。
- 不要在未盤清訊號前同時改很多封鎖規則。
- 不要只看 robots.txt 就以為排查完成。
社群裡常見的問題點
- 很多討論會只看 robots.txt,卻沒看 meta robots、h…
- 也有人把 noindex 頁上的外鏈權重、抓取行為與 sitemap 行…
- 有效的回覆通常會先畫出每個訊號影響的層級。