- noindexしていたのに、自分のサイトやページが検索にインデックスされてしまった!
- robots.txtでクロール許可してないのに検索結果に表示されている!
- とにかく一刻も早く検索結果から削除したい!
そんな場合の対処方をご紹介します。
もっとも簡単、もっとも最速に削除できるのがSearchConsoleの削除機能です。
noindexやrobots.txtで設定した場合、検索結果から消えるのに何週間、何ヶ月とかかることもあります。
SEO専門の会社のホームページでさえも「ベーシック認証をかける」「最悪の場合はディレクトリごと削除」と書いてます。
ベーシック認証に関してはいい方法の一つですが、.htaccessはいじり方を間違えるとサイト全体が見られなくなるので、詳しくない人は慎重にやってくださいね。
ディレクトリ削除しちゃうとそもそもテスト環境がなくなってしまうので本末転倒。
加えて、いずれの方法も検索結果にはしばらく反映されます。(リンク先は見られなくなりますが)
インデックスされてしまったテストサイト、開発環境やステージング環境を、SearchConsoleの削除機能なら数時間程度で検索結果から消すことができます。
テスト・開発・ステージング環境を使っている人、作る予定の人はぜひこのページをブックマークしておいた方がいいかもしれません。なにせ弱小ブログなので検索ですぐに見つからない可能性が……(自虐
テストサイトがGoogleにインデックスされてしまった
私は最近サブドメインを作成して、テストサイトを作成しました。
それまでは「個人運営サイトにテスト環境?必要ないでしょ?」くらいに思っていました。
しかし、昨年末に結構派手にWordpressのエラーが発生!ページ読み込みが一向に終わらないページが大量に……。
「これはさすがに見にきてくれる人に申し訳ない」という気持ちになり、エラー検証に使うテストサイトを作成しました。
Googleにインデックスされてしまっている!気が付いたきっかけ
WordPressのエラー原因はテストサイトの検証で特定できたので、しばらく放置していました。
自分のテストサイトがインデックスされていることに気が付いたきっかけは、コピーコンテンツのチェックツールです。
自分の記事が気がつかないうちに人と似ているものになって、コピーコンテンツになっていないかな、っていうチェックです。
たいしてアクセスがあるブログではないので他人にコピーされる心配はしていませんでしたが、なんと類似コンテンツが見つかりました!
犯人は誰や!
……自分のテストサイトやん。
慌てて検索してみると、7ページがインデックスされてしまっている。
robots.txtを確認してみましたが設定に問題なし!「7件だし、時間をおけばなおるだろう」と思いました❤️
5日後。
めちゃめちゃ増えとるやん。
テストサイトがインデックスされると何がデメリット?
そのまま放置すると、二つのほぼ全く同じサイトが並存することになります。
- 本番サイト
- テストサイト
この状態を続けると、以下のような影響が出る可能性があります。
- Googleの評価が下がる(重複コンテンツと見なされる)
- 開発課程がユーザーに丸見えになる
趣味程度のわたしのブログ規模なら「更新がかかってない古い状態とか開発課程を見られちゃった(てへ)」ですみます。
しかし、ECサイトの場合だと「注文しても商品がこない」=「テストサイトで購入したから注文が入ってない」なんて大ごとになる可能性も。お、恐ろしい……!!!!
インデックスされない設定になっていたか?
まずはインデックスされない設定になっていたかを確認しました。
robots.txtの設定
- robots.txtというテキストファイルを作成
- ルートディレクトリに放り込む
これだけでOK。クローラーに「来ないでね」っていう意図が伝わっているはずです。
念の為コードも載せておきます。テストサイトの場合、インデックスして欲しいページなんて一つもないはずなのでルートディレクトリからクロールを拒否しちゃえばOKです。
User-Agent:*
Disallow: /
普通ならこれだけ設定しておけばインデックスされないはず。経験上、今まではこれで完璧でした。
しかし、今回はインデックスされてしまいました!(なんでや!)
あらためてrobots.txtについて調べてみました。
robots.txt ファイルとは
Search Console ヘルプ robots.txt について
robots.txt ファイルは、クローラがどのページやファイルをサイトからリクエストできるか、またはできないかを検索エンジン クローラに知らせるものです。これは主に、サイトでのリクエストのオーバーロードを避けるために使用され、Google にウェブページが表示されないようにするためのメカニズムではありません。 Google にウェブページが表示されないようにするには、noindex ディレクティブを使用するか、ページをパスワードで保護する必要があります。
なるほど、本来はrobots.txtとnoindexを併用すべきなんですね。しらんかった…
インデックスから削除するためにしたこと
- サイト全体をnoindex、サイトマップ削除
- Search Consoleで削除依頼
私が行ったのは以上、二つの手順。
1の「サイト全体をnoindex」はほとんど効果がありませんでした。
一方、2の「Search Consoleで削除依頼」は設定後、2〜3時間のうちに検索結果から表示されなくなりました。
サイト全体をnoindex、サイトマップ削除
まずはあまり効果がなかった方法。
WordPressの管理画面でサイト全体をnoidexに設定。また、プラグインのYoastSEOで生成していたサイトマップを削除しました。
本来ならばrobots.txtと合わせてここも設定しておくべきだったのでしょう。本番からデータベースをまるっと写したままでこちらの設定は放置していました。今までの経験上はrobots.txtだけでもインデックスされなかったので油断していました。
二つとも、robots.txtに続いて代表的な方法です。
92件インデックスされていたときと比べると14件減。減るには減ったけど…
設定後、2〜3週間後経過してこれなので急を要する場合にはちょっとしんどいですね。一度インデックスされるとなかなか消せません。
反映が遅すぎる……。自分のサイトだからいいけどクライアントからもらっている案件だと冷や汗止まらんですね!
SearchConsoleの削除機能を使う
一番簡単、しかも設定後数時間以内に検索に引っかからなくなりました。
手順を紹介します。まずはSearchConsoleにテストサイトの登録をしてください。(色々なサイトで書いてあるので割愛します。需要がありそうなら加筆します)
これだけの手続きです。数時間後には全く検索に引っかからなくなりました。
インデックスされたページのその後
コンソールのカバレッジで出現しました。(2020年3月24日)
本サイトからテストサイトに外部リンクがある!?
メインサイトの方でテストサイトのリンクがないかどうかリンクチェックツールなども利用して再チェック。リンクは見つかりませんでした。
いまだに原因はわからず…。
特に新たな対処はしていませんが外部からリンクされているという表示は消えました。(2020年6月9日)
インデックスページの数の推移
次にインデックスページの数の推移。
上記二つの画像からわかるのは以下の2点。
- インデックスページは減少
- ノーインデックスページは増加
確実にインデックスは減っていっていました。
約3ヶ月後…
やたー!インデックスが0!全て除外になっている!
…と思いましたが、有効(警告あり)が一件ある…。
該当ページを調べてみましたがnoindexになっており特に異常はありませんでした。
3月下旬に一度0になっているのに、4月下旬にインデックスされとる!
なんでや!
2月にサーチコンソールの削除機能を使ったので、こういうページが残っていると8月あたりには検索結果に出てしまうのか!?
以降、テストサイトはインデックスされていません。
まとめ
注意して欲しいのがSearchConsoleをの削除機能は、検索結果から削除できるのが6ヶ月間。
この後にまたクローラーがきたときにrobots.txtやnoindexの設定に不備があると再びインデックスされてしまう可能性があります。
念の為、削除期間がすぎた後にインデックスされていないか確認しておきましょう。
実はテストサイトを検索から削除して、数日後にサイト全体の順位が上がりました。(変動要因となりそうなことが重なった時期に対応したので、はっきりとしたことは言えません。参考までに)
インデックスされた原因は結局わかりませんでしたが、robots.txtの設定だけでは100%インデックスを拒否することはできません。
「うちのテストサイトはrobots.txtで設定しているから大丈夫」
そんなふうに安心している人も今一度「site:あなたのURL」でブラウザ検索してみましょう。
もしかしたら……
あなたのテストサイトも…………
Googleの検索結果に表示されているかも……
(人によってはリアルにホラー)
追伸。妻は今、スポーツニュースを見て根尾くん(中日)を応援しています。
コメント