Il y a une manière courante et active de frapper un site Web hors du de Google ‘ des résultats de Search Engine de s. Il ‘ s simple et efficace. Cette information est déjà dans le public domain et plus connaissent à son sujet personnes, plus la probabilité là est que Google fera quelque chose à son sujet. Cet article t’indiquera que que cela fonctionne, comment obtenir un site Web frappé hors des rangs de Search Engine, mais d’une manière plus importante, comment défendre votre propre site Web de l’avoir arrivent à toi.
Pour comprendre cette exploit, vous devez d’abord comprendre au sujet du de Google ‘ filtre content double de s. Il ‘ s simplement a décrit ainsi : De doesn de Google ‘ t veulent que vous recherchiez » widget bleu » et ayez les 10 copies retournées par limites principales de recherche du même article sur à quel point les grands widgets bleus sont. Ils veulent te donner UNE copie du grand article bleu de Widget, et sont réellement 9 autres différents résultats, juste sur au loin le fortuit que vous ‘ ve lisez déjà cet article et les autres résultats ce que vous avez voulu.
Pour manipuler ceci, chaque fois des araignées de Google et des index une page, il la vérifie pour voir s’il ‘ s obtenait déjà une page qui est principalement identiques, une page double si vous. Exactement comment Google fonctionne ceci dehors, personne ne sait exactement, mais il va être une combinaison de certains ou toutes de : paginer la longueur des textes, le titre de page, les titres, les densités de mot-clé, vérifiant exactement les fragments etc. de phrase de copie en raison de ce filtre content double, une industrie entière a grandi autour de l’essai de contourner le filtre, de juste de recherche » article de rotation ».
Est-ce qu’obtenant de nouveau à l’histoire ici, Google une page et la parole qu’elle l’échoue ‘ contrôle content double de s, que Google classe laisse fait-il ? De nos jours, il vide cette page double dans de Google ‘ index supplémentaire de s. Que, de didn ‘ t savez-vous que Google ont 2 index ? Puits ils : le principal, et le supplémentaire. 2 choses sont importantes ici : Google renverra toujours des résultats de leur index principal s’ils peuvent ; et ils iront seulement à l’index supplémentaire s’ils mettent ‘ t obtiennent assez de joie de leur index principal. Ce que ce le moyen est que si votre page est dans l’index supplémentaire, il ‘ s presque certain que vous ne révélerez jamais dans les pages de rang de Search Engine, à moins qu’il y ait à côté d’aucune concurrence pour l’expression qu’a été recherchée.
Ce tout me semble assez raisonnable, ainsi ce qui ‘ s le problème ? De puits là ‘ s qu’autre petit d’asile d’étape I ‘ t a mentionné encore. Ce qui se produit si quelqu’un copie votre page, laisser ‘ parole de s votre page d’accueil de votre site Web d’affaires, et quand les index de Google qui copient, il détermine correctement qu’il ‘ reproduction de SA. Maintenant Google sait qu’environ 2 pages qu’il connaît sont des reproductions, il doit décider quel à la décharge dans l’index supplémentaire, et quel à maintenir dans le principal. Cela ‘ droite assez évidente de s ? Mais comment Google sait-il ce qui est l’original et ce qui est la copie ? Ils mettent ‘ T. sûr ils ont quelques algorithmes intelligents pour le travailler dehors, mais même si ils sont 99% précis, que beaucoup de feuilles de problèmes pour cela 1% de périodes qu’ils peuvent l’obtenir faux !
Et c’est le coeur de l’exploit, si quelqu’un copie vos sites Web que la page d’accueil indiquent, et les parvient à convaincre Google que la page de *their* est l’original, votre page d’accueil obtiendra jeté en l’air dans l’index supplémentaire, pour ne revoir jamais la lumière du jour dans les pages de rang de Search Engine. Au cas où d’I ‘ m n’étant pas assez clair, cela ‘ le mauvais de s ! Mais attente, ce devient plus mauvais :
Il ‘ s juste pour dire que dans le cas d’une personne copiant physiquement votre page et l’accueillant, vous pouvez souvent les obtenir de la prendre vers le bas par l’utilisation des avocats de copyright, et cessent et renoncent des lettres au d’ISP ‘ s et semblables, avec demande rapide une » de Reinclusion » à Google. Mais récemment là ‘ nouvelle menace de SA qui ‘ sort entier de SA plus dur pour s’arrêter : l’utilisation des sites Web publiquement accessibles de procuration. (Si vous mettez ‘ t savoir ce qu’est une procuration, il ‘ s fondamentalement une manière de faire le Web couru plus rapidement en cachant le contenu plus local à votre destination d’Internet. En principe ils sont généralement une bonne chose.)
Il y a beaucoup de telles procurations de Web dehors là, et j’ai gagné ‘ liste de t ici, toutefois je décrirai le processus : ils envoient des araignées (tout comme de Google ‘ s) et ils araignée votre page, prennent votre contenu, puis ils accueillent une copie de votre site Web sur leur emplacement de procuration, nominalement de sorte que quand leurs utilisateurs demandent votre page, ils puissent servir vers le haut de leur copie locale rapidement plutôt que doivents rechercher si outre de votre serveur. La grande question est que Google peut parfois décider que la copie de procuration de votre page Web est l’original, et vôtre n’est pas.
Plus mauvais encore, là ‘ s de l’évidence que les gens utilisent délibérément et avec malveillance des serveurs de procuration pour cacher des copies des pages Web, puis en utilisant des techniques normales de l’optimisation de Search Engine (de chapeau blanc et noir) (SEO) pour faire ces pages de procuration se ranger dans le Search Engine, augmentant la probabilité que votre page légitime sera celle vidée par de moteurs de recherche ‘ les filtres contents doubles. Volonté Robinson de danger !
Encore un plus mauvais distillateur, certaines des araignées de procuration charrient activement leurs origines de sorte que vous mettiez ‘ t vous rendiez compte qu’il ‘ araignée de SA d’une procuration, pendant qu’ils feignent pour être un Googlebot par exemple, ou de Yahoo. C’est pourquoi les moteurs de recherche principaux éditent activement des directives sur la façon dont identifier et valider leurs propres araignées.
Maintenant pour la grande question, comment pouvez-vous défendre contre ceci ? Il y a plusieurs solutions possibles, selon toi Web accueillant la technologie et la compétence technique :
Option 1 – Si vous courez Apache et PHP sur votre serveur, vous pouvez placer le webhost jusqu’au contrôle pour les araignées de Search Engine qui prétendent être des moteurs de recherche principaux, et en utilisant le php et le dossier de .htaccess, vous pouvez bloquer des procurations d’autres sources. Cependant ceci fonctionne seulement pour les procurations qui jouent par les règles et s’identifient correctement.
Option 2 – Si vous employez le MS Windows et l’IIS sur votre serveur, ou si vous êtes sur une solution de accueil partagée qui de doesn ‘ élasticité de t vous la capacité de faire n’importe quoi intelligent, lui ‘ s par sort terrible plus dur et toi prenez le conseil d’un professionnel sur la façon dont défendre vous-même de ce genre d’attaque.
Option 3 – C’est courant la meilleure solution disponible, et s’applique si vous courez un PHP ou un site Web basé par asp : vous placez TOUTES LES étiquettes de méta de robot de pages au noindex et au nofollow, alors vous mettez en application un manuscrit de PHP ou d’asp à chaque page qui vérifie les araignées valides des moteurs de recherche principaux, et si oui, des remises que le méta de robot étiquette pour classer et suivre. La distinction importante ici est que ce ‘ s plus facile de valider une vraie araignée, et d’escompter une araignée qui ‘ s essayant de vous charrier, parce que les moteurs de recherche principaux éditent des processus et des procédures pour faire ceci, y compris des consultations d’IP et des semblables.
Ainsi, rester averti, rester bien informé, et rester protégé. Et si vous voyez que vous ‘ ve soudainement vidé des pages de rangs de Search Engine, maintenant vous pourriez savoir pourquoi, comment et ce qui à faire à son sujet.