diff --git a/sql/2024/seo/outgoing_links_by_rank -2024.sql b/sql/2024/seo/outgoing_links_by_rank-2024.sql similarity index 100% rename from sql/2024/seo/outgoing_links_by_rank -2024.sql rename to sql/2024/seo/outgoing_links_by_rank-2024.sql diff --git a/src/content/en/2024/seo.md b/src/content/en/2024/seo.md index 142c2bbc16c..4040608b879 100644 --- a/src/content/en/2024/seo.md +++ b/src/content/en/2024/seo.md @@ -227,13 +227,13 @@ The five most named crawlers in robots directives were the generic robots value, }} When robots directive rules are viewed by their name attributes, we can see varied application rates. This implies that SEOs are adopting directives by specific bot names to curate indexing and serving for individual search engines. -    + Noteworthy takeaways from our analysis of the rules by bot name include: -- The `noarchive` rule was applied overwhelmingly to `Bingbot` at 36%. This is likely due to the tag's ability to keep content out of Bing chat answers.   -- `​max-snippet`, `max-video-preview`, and `max-image-preview` rules are widely implemented for all robots at the rate of 40%, 40%, and 69%, respectively.   -- `Googlebot-News` was the most named for `index` (63%) and `nosnippet` (12%)   -- `MSNBot` was the least likely to be given a `noindex` directive (1%). In comparison, the most likely was `Googlebot-News` at 21%.   +- The `noarchive` rule was applied overwhelmingly to `Bingbot` at 36%. This is likely due to the tag's ability to keep content out of Bing chat answers. +- `​max-snippet`, `max-video-preview`, and `max-image-preview` rules are widely implemented for all robots at the rate of 40%, 40%, and 69%, respectively. +- `Googlebot-News` was the most named for `index` (63%) and `nosnippet` (12%) +- `MSNBot` was the least likely to be given a `noindex` directive (1%). In comparison, the most likely was `Googlebot-News` at 21%. - 0.01% of sites provided a `noindex` rule, using the invalid crawler name: Google. Google has two valid crawler names for recognized robots `meta` tags: `Googlebot` and `Googlebot-News`. ### `IndexIfEmbedded` tag @@ -315,7 +315,7 @@ No element other than the aforementioned is permitted by the HTML standard in th ) }} -The most prevalent `` breaking tag was the `` element, affecting 29% of desktop and 22% of mobile instances of the issue. Comparatively, the 2022 chapter found `` tags misapplied on 10% of mobile pages and 10% of desktop pages. The likely difference comes from deprecated implementation methods for third-party tools.   +The most prevalent `` breaking tag was the `` element, affecting 29% of desktop and 22% of mobile instances of the issue. Comparatively, the 2022 chapter found `` tags misapplied on 10% of mobile pages and 10% of desktop pages. The likely difference comes from deprecated implementation methods for third-party tools. Misapplied `
` tags also substantially increased from 2022. In 2024, 11% of desktop and 10% of mobile pages had the `
` element in the ``. That's more than a three times increase from 2022 when the invalid `` occurred on 4% of desktop pages and 4% of mobile pages. @@ -785,7 +785,7 @@ Outgoing links are [`` anchor elements](https://developer.mozilla.org/docs/We description="A rank distribution of the median count of internal links. On desktop, for the top 1,000 sites, it's 129 links. For the top 10,000 sites, it's 122 links. For the top 100,000 sites, it's 86 links. For the top 1,000,000 sites, it's 71 links. For the top 10 million sites, it's 52 links, and for all sites it's 41 links. For mobile, it's slightly lower at 129, 122, 86, 71, 52 and 41 links, respectively.", chart_url="https://docs.google.com/spreadsheets/d/e/2PACX-1vTitOH-aAprInUucdKE0WM41rpV2ri7KW90ZH9VGH2QLbvgKDq6tDRPRNJXMx3i0njRGEIZbxwYoKqJ/pubchart?oid=2081637553&format=interactive", sheets_gid="2137900612", - sql_file="outgoing_links_by_rank -2024.sql" + sql_file="outgoing_links_by_rank-2024.sql" ) }} @@ -801,7 +801,7 @@ According to [CrUX ranking data](./methodology#chrome-ux-report), it's clear tha description="A rank distribution of the median count of external links. On desktop, for the top 1,000 sites it's 16 links. For the top 10,000 sites, it's 14 links. For the top 100,000 sites, it's 10 links. For the top 1,000,000 sites, it's 8 links. For the top 10 million sites, it's 7 links, and for all sites it's 6 links. For mobile, it's slightly lower at 11, 11, 8, 7,6, and 6 links, respectively.", chart_url="https://docs.google.com/spreadsheets/d/e/2PACX-1vTitOH-aAprInUucdKE0WM41rpV2ri7KW90ZH9VGH2QLbvgKDq6tDRPRNJXMx3i0njRGEIZbxwYoKqJ/pubchart?oid=1915373603&format=interactive", sheets_gid="2137900612", - sql_file="outgoing_links_by_rank -2024.sql" + sql_file="outgoing_links_by_rank-2024.sql" ) }} diff --git a/src/content/ja/2024/seo.md b/src/content/ja/2024/seo.md new file mode 100644 index 00000000000..abfe98cde2b --- /dev/null +++ b/src/content/ja/2024/seo.md @@ -0,0 +1,1217 @@ +--- +#See https://github.com/HTTPArchive/almanac.httparchive.org/wiki/Authors'-Guide#metadata-to-add-at-the-top-of-your-chapters +title: SEO +description: 2024 Web AlmanacのSEOの章では、クローラビリティ、インデックス可能性、ページエクスペリエンス、オンページSEO、リンク、AMP、国際化などについて解説しています。 +hero_alt: Web Almanacのキャラクターたちが検索フィールドの下にある様々なウェブページに光を当て、様々なチェックを行っているヒーロー画像。 +authors: [fellowhuman1101, dwsmart, mikaelaraujo, MichaelLewittes] +reviewers: [tunetheweb] +editors: [MichaelLewittes] +analysts: [henryp25, cnichols013] +translators: [ksakae1216] +results: https://docs.google.com/spreadsheets/d/1lAQKcOF7l6xz9v7yvnI9I1F8yiSqcz3Xx6u-5ady1DQ/ +fellowhuman1101_bio: Jamie Indigoはロボットではありませんが、ボットの言葉を話します。Cox AutomotiveのテクニカルSEOディレクターとして、検索エンジンがウェブをクロール、レンダリング、インデックスする方法を研究しています。Jamieは野生のJavaScriptを制御し、レンダリング戦略を最適化するのが大好きです。仕事以外では、ホラー映画、グラフィックノベル、そしてDungeons & Dragonsで合法善良なパラディンを恐怖に陥れることを楽しんでいます。 +dwsmart_bio: Dave SmartはTame the Botsの開発者兼テクニカル検索エンジンコンサルタントです。モダンウェブのツール構築と実験が大好きで、ライブギグの最前線で見かけることがよくあります。 +mikaelaraujo_bio: Mikael Araújoは国際SEOコンサルタント、スピーカー、マーケティング戦略家です。ヨーロッパ、中国、ロシア、アメリカ、ブラジルを拠点とする数多くの企業でリモートワークを経験しています。現在はデータサイエンスを学んでおり、家族との時間を大切にしています。 +MichaelLewittes_bio: Michael Lewittesは、コンテンツの品質と信頼性を向上させ、検索結果での順位を上げるSEOソフトウェア会社Ranktifyの創業者です。Michaelは以前、コンテンツ会社を所有・売却し、いくつかの主要なアメリカの出版物で執筆・編集を行っていました。Web Almanacへの参加は2回目となります。 +featured_quote: AIとLLMは、検索エンジンが長い間直面してきたもっとも大きな変化をもたらしており、大きな変革をもたらす可能性があります。 +featured_stat_1: 70% +featured_stat_label_1: `

`要素を持つページ(そのうち6%が空)。 +featured_stat_2: 2.7% +featured_stat_label_2: `robots.txt`に`GPTBot`ディレクティブを持つページ—もっとも一般的なAIクローラー。 +featured_stat_3: 10.9% +featured_stat_label_3: 無効な``要素を持つモバイルページ。 +doi: 10.5281/zenodo.14245177 +--- + +## はじめに + +検索エンジン最適化(SEO)は、ウェブサイトの技術的な設定、コンテンツ、権威性を向上させ、検索結果での表示を改善する取り組みです。ウェブサイトのコンテンツをユーザーの検索意図に合わせることで、ビジネスはオーガニックトラフィックを集客することができます。 + +Web AlmanacのSEOチャプターでは、ウェブサイトのオーガニック検索での表示に影響を与える重要な要素と設定に焦点を当てています。主な目標は、ウェブサイト所有者がサイトのクローラビリティ、インデックス可能性、全体的な検索エンジンでの順位を向上させるための実践的な洞察を提供することです。一般的なSEO要素の包括的な分析を通じて、ウェブサイトが検索結果での存在感を最適化するためのもっとも効果的な戦略とテクニックを見つけられることを期待しています。 + +このチャプターでは、HTTP Archive、[Lighthouse](https://developer.chrome.com/docs/lighthouse/overview/)、[Chrome User Experience Report](https://developers.google.com/web/tools/chrome-user-experience-report)、およびカスタムメトリクスのデータを組み合わせて、SEOの現状とデジタルランドスケープにおける文脈を記録しています。 + +今年は、これまでこのチャプターが分析してきたホームページに加えて、クロールされたサイトごとに1つの内部ページも分析しました。ホームページは内部ページとかなり異なることが多いため、これにより新しい洞察が得られ、ホームページと内部ページの動作を比較することができるようになりました。 + +## クローラビリティとインデックス可能性 + +ページが検索エンジンの検索結果ページ(SERP)に表示されるためには、まずクロールとインデックス登録が必要です。このプロセスはSEOの重要な基盤となります。 + +検索エンジンは、外部リンク、サイトマップ、またはウェブマスターツールを使用して直接検索エンジンに送信されるなど、いくつかの方法でページを発見します。2022年、Bingはそのクローラーが1日あたり[700億の新しいページ](https://x.com/patrickstox/status/1630582277057986560?s=20)を発見したことを共有しました。今年のGoogleに対する独占禁止法訴訟では、その*インデックス*は約4,000億ドキュメントであることが明らかになりました。これは、クロールされるページの数がインデックスされるページの数よりもはるかに多いことを意味します。 + +このセクションでは、検索エンジンがコンテンツをクロールしてインデックスする方法に関連するウェブの現状、およびSEO担当者がクローラーとの相互作用とコンテンツのバージョンを保持するために提供できるディレクティブとシグナルについて説明します。 + +### `robots.txt` + +検索エンジンがウェブを探索する際、各サイトの「訪問者センター」とも言える`robots.txt`ファイルで立ち止まります。`robots.txt`ファイルはオリジンのルートに配置され、サイト所有者が[Robots Exclusion Protocol](https://wikipedia.org/wiki/Robots.txt)を実装することを可能にします。これは、検索エンジンがクロールできるURLとできないURLをボットに指示するために設計されています。 + +これは厳格な技術的な指示ではありません。むしろ、これらの指示を尊重するかどうかはボット次第です。主要な検索エンジンがこのプロトコルを尊重しているため、SEO分析において重要な要素となっています。 + +`robots.txt`ファイルは1994年からサイトのクロール制御に使用されてきましたが、2022年9月にInternet Engineering Task Forceによって正式に標準化されました。2022年のRFC 9390プロトコルの正式化は、前年のWeb Almanacの出版後に実施され、技術標準のより厳格な施行につながりました。 + +今年のWeb Almanacの測定では、オープンソースの自動化ツールであるLighthouseを独自のデータ収集と並行して実行し、ウェブページの品質向上を図りました。これらの監査により、デスクトップページの8.43%、モバイルページの7.40%が[有効な`robots.txt`ファイル](https://developer.chrome.com/docs/lighthouse/seo/invalid-robots-txt)のチェックに失敗していることが明らかになりました。 + +#### `robots.txt` のステータスコード + +{{ figure_markup( + image="robots-txt-status-codes.png", + caption="`robots.txt` のステータスコード。", + description="`robots.txt` ファイルが有効なページの割合を示す棒グラフ。モバイルサイトの83.9%が200ステータスコードを返し、14.1%が404ステータスコードを返しました。ファイルへのモバイルリクエストの1.5%は応答を受け取れませんでした。モバイルリクエストの0.3%と0.1%のみが禁止(403)またはサーバーエラーレスポンスを受け取りました。デスクトップでのレスポンス分布も同様で、83.5%が200ステータスコードを返し、14.3%が404レスポンスコードを返しました。ファイルへのモバイルリクエストの1.7%は応答を受け取れませんでした。モバイルリクエストの0.3%と0.1%のみが禁止(403)またはサーバーエラーレスポンスを受け取りました。", + chart_url="https://docs.google.com/spreadsheets/d/e/2PACX-1vTitOH-aAprInUucdKE0WM41rpV2ri7KW90ZH9VGH2QLbvgKDq6tDRPRNJXMx3i0njRGEIZbxwYoKqJ/pubchart?oid=1570550482&format=interactive", + sheets_gid="1390313757", + sql_file="robots-txt-status-codes-2024.sql" + ) +}} + +2022年以降、`robots.txt` ファイルが200ステータスコードを返すサイトの割合はわずかに増加しています。2024年では、モバイルサイトの `robots.txt` ファイルの83.9%が200ステータスコードを返し、デスクトップサイトは83.5%が200ステータスコードを返しました。これは2022年のモバイルサイト82.4%、デスクトップサイト81.5%から上昇しています。 + +このわずかな増加は、標準化が比較的最近の出来事であるにもかかわらず、過去30年の歴史がすでに広範な採用につながっていたことを示しています。 + +また、モバイルサイトとデスクトップサイトで200ステータスコードを返す割合の差は、2022年の1.1%から0.4%に縮小しました。この減少の理由について明確な結論を出すことはできませんが、考えられる説明の1つとして、以前の別個のモバイルサイトの普及から、モバイルレスポンシブデザインの原則の採用が進んだことが挙げられます。 + +HTTPステータスコードは `robots.txt` ファイルの機能に大きな影響を与えます。ファイルが4XXステータスコードを返す場合、クロール制限がないと見なされます。この動作に関する認識は、`robots.txt` ファイルへの404レスポンスが減少し続けていることからも継続的に高まっています。 + +2022年には、モバイルサイトの `robots.txt` ファイルの15.8%とデスクトップサイトの16.5%が404ステータスコードを返していました。2024年現在では、モバイルサイト訪問で14.1%、デスクトップサイトで14.3%に減少しています。この減少は200ステータスコードを返す `robots.txt` の増加と一致しており、より多くのサイトが `robots.txt` ファイルを実装することを決定したことを示唆しています。 + +2024年では、モバイルとデスクトップのクロールの1.7%と1.5%が応答を受け取れませんでした。Googleはこれらをサーバーによるエラーとして解釈します。 + +テストしたモバイルとデスクトップのリクエストの0.1%に対して、5xx範囲のエラーコードを受け取りました。これらのエラーコードはごくわずかな割合を表していますが、Googleにとっては検索エンジンが30日間サイト全体のクロールをブロックすると見なすことを意味します。30日後、検索エンジンは以前に取得したバージョンのファイルを使用するように戻ります。以前のキャッシュバージョンが利用できない場合、検索エンジンはサイトでホストされているすべてのコンテンツをクロールしたと見なされます。 + +このわずかなエラー率は、ほとんどの場合、単純なテキストファイル、または `robots.txt` ディレクティブを提供する多くの一般的なCMSシステムによって自動的に処理されるファイルが、大きな課題ではないことを示唆しています。 + + + +#### `robots.txt` のサイズ + +{{ figure_markup( + image="robots-txt-size.png", + caption="`robots.txt` のサイズ", + description="`robots.txt` のサイズの分布を示すグラフ。100キロバイト単位で表示されています。デスクトップの1.66%、モバイルの1.59%のクロールで0サイズの `robots.txt` ファイルが返されました。モバイルでは、97.82%が0-100KBの範囲、0.31%が100-200KB、0.11%が200-300KB、0.07%が300-400KB、0.03%が400-500KB、0.06%が500KB以上となっています。デスクトップでは、97.80%が0-100KBの範囲、0.31%が100-200KB、0.10%が200-300KB、0.05%が300-400KB、0.02%が400-500KB、0.05%が500KB以上となっています。", + chart_url="https://docs.google.com/spreadsheets/d/e/2PACX-1vTitOH-aAprInUucdKE0WM41rpV2ri7KW90ZH9VGH2QLbvgKDq6tDRPRNJXMx3i0njRGEIZbxwYoKqJ/pubchart?oid=1259588862&format=interactive", + sheets_gid="1616323575", + sql_file="robots-txt-size-2024.sql" + ) +}} + +`robots.txt` ファイルの大多数—モバイルクロールの97.82%、デスクトップクロールの97.80%—は100KB以下でした。 + +RFC 9309の標準によると、クローラーは `robots.txt` ファイルのサイズを制限する必要があり、パースの制限は少なくとも500 kiBである必要があります。そのサイズ以下の `robots.txt` ファイルは完全にパースされるべきです。たとえば、Googleは[最大制限を500 kiBに設定](https://developers.google.com/search/docs/crawling-indexing/robots/robots_txt#file-format)しています。この制限を超える `robots.txt` ファイルを持つサイトはごく少数(わずか0.06%)でした。その制限を超えた部分のディレクティブは検索エンジンによって無視されます。 + +興味深いことに、モバイルクロールの1.59%、デスクトップクロールの1.66%で0サイズの `robots.txt` ファイルが返されました。これは設定の問題である可能性が高いです。RFC 9303の仕様や一般的な検索エンジンクローラーのサポートドキュメントには記載されていないため、これがどのように処理されるかは不明です。サイトが `robots.txt` に対して空のレスポンスを返す場合、適切なルールを含む `robots.txt` ファイルを返すか、クローリングを制限したくない場合は、URLに対して[`404ステータスコード`](https://developer.mozilla.org/docs/Web/HTTP/Status/404)を返すのが賢明なアプローチでしょう。 + +#### `robots.txt` ユーザーエージェントの使用状況 + +{{ figure_markup( + image="robots-txt-user-agent-usage.png", + caption="`robots.txt` ユーザーエージェントの使用状況", + description="`robots.txt` ファイルでもっとも一般的な `user-agent` ターゲットを示す棒グラフ。デスクトップでは * が76.6%、`AdsBot-Google` が9.1%、`AhrefsBot` が8.6%、`MJ12Bot` が6.7%、`Googlebot` が5.9%、`AdsBot-Google-Mobile` が4.6%、`Dotbot` が4.4%、`Nutch` が4.5%、`Pinterestbot` が4.1%、`AhrefsSiteAudit` が4.0%、`PetalBot` が3.4%、`GPTBot` が2.9%、`Mediapartners-Google` が2.3%、`Bingbot` が2.6%、最後に `CCBot` が2.7%。モバイルはデスクトップと一致しており、それぞれ76.9%、8.9%、8.8%、6.6%、6.4%、4.6%、4.9%、4.3%、3.9%、3.7%、3.8%、2.6%、3.0%、2.6%、2.4%。", + chart_url="https://docs.google.com/spreadsheets/d/e/2PACX-1vTitOH-aAprInUucdKE0WM41rpV2ri7KW90ZH9VGH2QLbvgKDq6tDRPRNJXMx3i0njRGEIZbxwYoKqJ/pubchart?oid=1672540926&format=interactive", + sheets_gid="1705238622", + sql_file="robots-txt-user-agent-usage-2024", + width=600, + height=594 + ) +}} + +##### `*` ユーザーエージェント + +モバイルクロールで遭遇した `robots.txt` ファイルの76.9%、デスクトップクロールで発見されたファイルの76.6%が、包括的なユーザーエージェント `*` のルールを指定しています。これは2022年のデータ(デスクトップ74.9%、モバイルクロール76.1%)からわずかな上昇を示しています。考えられる説明として、`robots.txt` の可用性全体のわずかな増加が挙げられます。 + +`*` ユーザーエージェントは、クローラーの `user-agent` を具体的にターゲットとする別のルールセットがない限り、クローラーが従うべきルールを示します。`*` ユーザーエージェントを尊重しない注目すべき例外があり、Googleの[Adsbotクローラー](https://developers.google.com/search/docs/crawling-indexing/google-special-case-crawlers#adsbot-mobile-web)などが含まれます。他のクローラーは、`*` にフォールバックする前に別の一般的な `user-agent` を試します。たとえば、AppleのAppleBotは、指定されている場合は `Googlebot` のルールを使用し、指定されていない場合は `Applebot` を使用します。フォールバックに依存する際に期待通りの動作を確保するため、ターゲットとするクローラーのサポートドキュメントを確認することをオススメします。 + +##### Bingbot + +2022年と同様に、`Bingbot` は再び指定されたもっとも多い `user-agent` のトップ10に入りませんでした。モバイルの2.7%とデスクトップの2.6%の `robots.txt` ファイルのみがその `user-agent` を指定し、14位に降格しました。 + +##### SEOツール + +データによると、人気のSEOツールに対してルールを指定するサイトが増加しています。たとえば、`AhrefsBot` は現在モバイルクロールの8.8%で検出されており、2022年の5.3%から上昇しています。これは、Majesticの `MJ12Bot` を上回りました。`MJ12Bot` 自体も2022年の6.0%から6.6%に増加し、以前は具体的にターゲットとされた `user-agent` の中で2番目に人気でした。 + +##### AIクローラー + +{{ figure_markup( + image="robots-txt-ai-user-agents.png", + caption="`robots.txt` AI `user-agent` の使用状況", + description="`robots.txt` ファイルでもっとも一般的なAIユーザーエージェントターゲットを示す棒グラフ。デスクトップでは、`GPTBot` が2.9%、`CCBot` が2.7%、`Google-Extended` が2.5%、`Anthropic-Ai` が2.1%、`ChatGPT-User` が2.0%、`Claude-Web` が1.9%、`PerplexityBot` が0.2%。モバイルの数値はデスクトップよりもわずかに低く、それぞれ2.6%、2.4%、2.2%、1.7%、1.7%、1.6%、0.2%。", + chart_url="https://docs.google.com/spreadsheets/d/e/2PACX-1vTitOH-aAprInUucdKE0WM41rpV2ri7KW90ZH9VGH2QLbvgKDq6tDRPRNJXMx3i0njRGEIZbxwYoKqJ/pubchart?oid=802856810&format=interactive", + sheets_gid="1705238622", + sql_file="robots-txt-user-agent-usage-2024" + ) +}} + +過去2年間で、大規模言語モデル(LLM)やその他の生成システムが認知度と使用率の両方で勢いを増しています。人々は、トレーニングやその他の目的でデータを収集するために使用するクローラーに対してルールを指定することが増えているようです。 + +これらの中で、`GPTBot` がもっとも一般的に指定されており、モバイルクロールの2.7%で発見されています。次にもっとも一般的なのは `CCBot` で、これはCommon Crawlのエージェントです。`CCBot` はAIのみに関連するものではありませんが、多くの人気ベンダーがこのクローラーから収集されたデータを使用してモデルをトレーニングしています。 + +まとめ: + +- RFC 9309における `robots.txt` プロトコルの正式化により、技術標準への準拠が向上しました。 +- 分析では、成功した `robots.txt` レスポンスの増加とエラーの減少が示されており、実装の改善を示しています。 +- ほとんどの `robots.txt` ファイルは推奨サイズ制限内にあります。 +- `*` `user-agent` が依然として主流ですが、`GPTBot` などのAIクローラーが増加しています。 +- これらの洞察は、`robots.txt` の使用状況とSEOへの影響を理解するうえで貴重です。 + +### Robotsディレクティブ + +[robotsディレクティブ](https://developers.google.com/search/docs/crawling-indexing/robots-meta-tag)は、個々のHTMLページがどのようにインデックスされ、配信されるかを制御する、きめ細かいページ固有のアプローチです。Robotsディレクティブは `robots.txt` ファイルと類似していますが異なります。前者はインデックス化と配信に影響を与える一方、`robots.txt` はクローリングに影響を与えるためです。ディレクティブが従われるためには、クローラーがページにアクセスできる必要があります。`robots.txt` ファイルで許可されていないページのディレクティブは読み取られず、従われない可能性があります。 + +#### Robotsディレクティブの実装 + +Robotsディレクティブタグは、検索結果で返されるページとその表示方法を管理するうえで重要です。Robotsディレクティブは2つの方法で実装できます: + +1. ページの `` にrobotsメタタグを配置する(たとえば、``) +2. HTTPヘッダーレスポンスにX-Robots-Tag HTTPヘッダーを配置する + +{{ figure_markup( + image="robots-directive-implementation.png", + caption="Robotsディレクティブの実装", + description="robotsディレクティブ実装方法の分布を示す棒グラフ。デスクトップでは、45.5%のページがメタタグを使用し、0.6%がHTTPヘッダーを使用。0.4%が両方を使用。モバイルでは、46.2%のページがメタタグを使用し、0.7%がHTTPヘッダーを使用し、0.3%が両方を使用。", + chart_url="https://docs.google.com/spreadsheets/d/e/2PACX-1vTitOH-aAprInUucdKE0WM41rpV2ri7KW90ZH9VGH2QLbvgKDq6tDRPRNJXMx3i0njRGEIZbxwYoKqJ/pubchart?oid=368535821&format=interactive", + sheets_gid="144160625", + sql_file="seo-stats-2024.sql" + ) +}} + +どちらの実装方法も有効で、併用できます。メタタグ実装がもっとも広く採用されており、デスクトップページの45.5%、モバイルページの46.2%を占めています。[X-robots HTTPヘッダー](https://developers.google.com/search/docs/crawling-indexing/robots-meta-tag#xrobotstag)は1%未満のページに適用されています。少数のサイトが両方のタグを併用していました。これらはデスクトップページの0.4%、モバイルページの0.3%を占めていました。 + +2024年では: + +- デスクトップページの0.4%、モバイルページの0.3%でレンダリングによってディレクティブの値が変更されました。 +- 内部ページの方がrobotsディレクティブを持つ可能性が高くなっています。内部ページの48%がメタrobotsタグを含んでいるのに対し、ホームページは43.9%でした。 +- レンダリングがホームページのrobotsディレクティブを変更する可能性(0.4%)は、内部ページ(0.3%)よりも高くなっています。 + +#### Robotsディレクティブルール + +2024年には、スニペットのインデックス化と配信を制御するためにディレクティブで主張できる[24の有効な値](https://developers.google.com/search/docs/crawling-indexing/robots-meta-tag#directives)(ルールとして知られる)がありました。複数のルールは、別々のメタタグを介して組み合わせるか、メタタグと `X-robots` HTTPヘッダーの両方でカンマ区切りリストで組み合わせることができます。 + +ディレクティブルールの研究では、レンダリングされたHTMLに依存しました。 + +{{ figure_markup( + image="robots-directive-rules.png", + caption="Robotsディレクティブルール", + description="デスクトップとモバイルページのレンダリングされたHTMLで見られるrobotsディレクティブルールの使用を比較する棒グラフ。デスクトップでは、54.7%が `follow` を使用、53.4%が `index` を使用、4.7%が `nonindex` を使用、2.5%が `nofollow` を使用、1.6%が `max-image-preview` を使用、1.6%が `max-snippet` を使用、1.2%が `max-video-preview` を使用、0.5%が `noarchive` を使用、0.2%が `nosnippet` を使用、0.01%が `notranslate` を使用、0.09%が `noimageindex` を使用。モバイルの割合も同様で、それぞれ56.0%、53.9%、3.9%、2.2%、1.8%、1.3%、1.1%、0.6%、0.3%、0.10%、0.01%。", + chart_url="https://docs.google.com/spreadsheets/d/e/2PACX-1vTitOH-aAprInUucdKE0WM41rpV2ri7KW90ZH9VGH2QLbvgKDq6tDRPRNJXMx3i0njRGEIZbxwYoKqJ/pubchart?oid=2136589874&format=interactive", + sheets_gid="815806479", + sql_file="robots-meta-usage-2024.sql", + width=600, + height=690 + ) +}} + +2024年でもっとも目立ったルールは、`follow`(デスクトップ54.7%、モバイル56.0%)、`index`(デスクトップ53.4%、モバイル53.9%)、`noindex`(デスクトップ4.7%、モバイル3.9%)、`nofollow`(デスクトップ2.5%、モバイル2.2%)でした。これは注目に値します。なぜなら、「index」も「follow」ディレクティブも機能を持たず、`Googlebot` によって無視されるからです。Googleの[robotsタグに関するドキュメント](https://developers.google.com/search/docs/crawling-indexing/special-tags)では、「デフォルト値はindex、followであり、指定する必要はありません」と助言しています。 + +robots `meta` タグの `name` 値は、ルールがどのクローラーに適用されるかを指定します。たとえば、`meta name="robots"` はすべてのボットに適用されますが、`meta name="googlebot"` はGoogleのみに適用されます。name属性の適用を分析するために、もっとも普及しているrobots `meta` ルールである `follow` タグで値が記述されている割合を調べました。 + +{{ figure_markup( + image="name-attributes-in-follow-robots-meta-tag.png", + caption="`follow` robotsメタタグのname属性", + description="follow robotsメタタグでもっとも多いデスクトップとモバイルのname属性を比較する棒グラフ。モバイルでは、`Googlebot-News` という名前の属性が62%、`MSNBot` が64%、`robots` が60%、`Googlebot` が51%、`Bingbot` が35%の該当ページで使用。デスクトップも同様で、それぞれ66%、62%、61%、48%、18%。", + chart_url="https://docs.google.com/spreadsheets/d/e/2PACX-1vTitOH-aAprInUucdKE0WM41rpV2ri7KW90ZH9VGH2QLbvgKDq6tDRPRNJXMx3i0njRGEIZbxwYoKqJ/pubchart?oid=1651546987&format=interactive", + sheets_gid="815806479", + sql_file="robots-meta-usage-2024.sql" + ) +}} + +robotsディレクティブでもっとも多く名前が挙げられた5つのクローラーは、汎用robots値、Googlebot、`Googlebot-News`、`MSNBot`、`Bingbot` でした。`follow` robots `meta` タグで使用されるname属性は、タグを持つサイトが特定のボットに合わせてルールを調整する傾向があることを示しています。一般的にデバイス間でわずかな差異がありましたが、Bingbotには大きな違いがあり、デスクトップ(18%)と比較してモバイルページ(35%)でfollowディレクティブが大幅に多く見られました。 + +{{ figure_markup( + image="robots-directive-rules-by-name.png", + caption="name属性値によるRobotsルール", + description="モバイルページのrobotsディレクティブで名前が指定されたクローラーによるrobotsディレクティブルールを比較する棒グラフ。名前が指定されたボットはMSNBot、Googlebot-News、robots、Googlebot、Bingbot。値は次のように適用されました: `follow`: 64%, 62%, , 60%, 51%, 35%。`index`: 55%, 63%, 59%, 52% 34%。`noindex`: 1%, 21%, 5%, 4%, 13%。`nofollow`: 1%, 6%, 2%, 2%, 5%。`nosnippet`: 0%, 12%, 0%, 1%, 1%。`max-snippet`: 0%, 0%, 40%, 2%, 16%。`max-video-preview`: 0%, 0%, 40%, 2%, 16%。`max-image-preview`: 0%, 1%, 69%, 2%, 17%。`noarchive`: 0%, 0%, 1%, 19%, 36%。", + chart_url="https://docs.google.com/spreadsheets/d/e/2PACX-1vTitOH-aAprInUucdKE0WM41rpV2ri7KW90ZH9VGH2QLbvgKDq6tDRPRNJXMx3i0njRGEIZbxwYoKqJ/pubchart?oid=240042110&format=interactive", + sheets_gid="815806479", + sql_file="robots-meta-usage-2024.sql", + width=600, + height=548 + ) +}} + +robotsディレクティブルールをname属性で見ると、さまざまな適用率が見られます。これは、SEO担当者が個々の検索エンジンのインデックス化と配信を管理するために、特定のボット名によるディレクティブを採用していることを示しています。 + +ボット名によるルールの分析から得られた注目すべき要点は次のとおりです: + +- `noarchive` ルールは `Bingbot` に圧倒的に適用され、36%でした。これは、このタグがコンテンツをBingチャットの回答から除外する機能を持つためと考えられます。 +- `max-snippet`、`max-video-preview`、`max-image-preview` ルールは、すべてのロボットに対して広く実装されており、それぞれ40%、40%、69%の割合です。 +- `Googlebot-News` は `index`(63%)と `nosnippet`(12%)でもっとも多く名前が挙げられました。 +- `MSNBot` は `noindex` ディレクティブが与えられる可能性がもっとも低く(1%)でした。比較すると、もっとも可能性が高かったのは `Googlebot-News` の21%でした。 +- 0.01%のサイトが無効なクローラー名「Google」を使用して `noindex` ルールを提供していました。Googleには、認識されるrobots `meta` タグに対して2つの有効なクローラー名があります:`Googlebot` と `Googlebot-News`。 + +### `IndexIfEmbedded` タグ +2022年1月、Googleは[新しいrobotsタグ](https://developers.google.com/search/blog/2022/01/robots-meta-tag-indexifembedded)である `indexifembedded` を導入しました。このタグはHTTPヘッダーに配置され、ページの構築に使用されるリソースのインデックス制御を提供します。このタグの一般的な使用例は、`noindex` タグが適用されている場合でも、ページのiframe内にコンテンツがある場合のインデックス化を制御することです。 + +`