20‏/05‏/2012

كيف تمنع فهرسة بعض الصفحات من قبل محركات البحث


كيف تمنع فهرسة بعض الصفحات من قبل محركات البحث
قد تضطر في بعض الأحيان إلى عدم فهرسة بعض الملفات على موقعك نظراً للأهمية التي تمثلها هذه الملفات كأن تكون مثلاً صفحات وحدة معالجة المحتوى Content Management System أو صفحات تحت الإنشاء.

ما أقصده بعملية إخفاء هذه الملفات أو المجلدات تحديداً هو عدم فهرستها من قبل محركات البحث المختلفة بحيث تتوقف برمجيات هذه المحركات Search Engine Spiders or Robots المنوط بها فهرسة المواقع عن فهرسة هذه الصفحات أو المجلدات وبالتالي عدم ظهورها ضمن نتائج البحث في هذه المحركات.

ما الفائدة من عدم فهرسة بعض الصفحات على الموقع؟

وجود أي ملفات على أي موقع يعني إمكانية وصول محرك البحث إليها و إدراجها أو فهرستها ضمن صفحاتها (ما لم يكن هناك أي مانع) وبالتالي إمكانية ظهور هذه الملفات في نتائج البحث.
هذا بالتأكيد ما نسعى إليه جميعاً، لكن من الأفضل في بعض الأحيان توجيه هذه المحركات إلى عدم فهرسة بعض الصفحات أو المجلدات.

أورد هنا بعض هذه الاحتمالات:

تحتوى هذه الصفحات على مواد غير مكتملة أو برمجيات تحت الاختبار بحيث إنه من غير الضروري فهرستها من قبل محركات البحث.
صفحات إدارة المحتوى أو صفحات أخرى هامة تحتوى على بعض البرمجيات الضرورية لإدارة الموقع.
آليات عدم الفهرسة

يمكننا توجيه محركات البحث إلى عدم فهرسة بعض الصفحات بطريقتين:

1.باستخدام التوسيم Meta:
يمكننا استخدام هذا التوسيم لتوجيه محرك البحث إلى عدم فهرسة صفحة معينة ويمكن كتابة شفرة هذا التوسيم على النحو التالي:

التعبير NOINDEX يعني عدم فهرسة هذه الصفحة، أما التعبير NOFOLLOW فيعني الطلب بعدم تتبع الروابط الموجودة بالصفحة والتي تشير إلى مجموعة من الصفحات الأخرى.

2.باستخدام ملف robots:
يمكننا استخدام هذا الملف عند رغبتنا في توجيه محرك البحث إلى عدم فهرسة عدة صفحات أو مجلدات على الموقع، وحتى يمكننا تحقيق هذا الهدف بنجاح فإنه يتوجب التعريف بهذا الملف والمواصفات التي يجب توفرها فيه.
المواصفات العامة للملف  robots

يبحث أي محرك بحث وقبل فهرسة أي موقع على شبكة الإنترنت عن هذا الملف وذلك لمعرفة ما إذا كان هناك أي تعليمات أو توجيهات لعدم فهرسة أي ملف على هذا ذلك الموقع، ويمكنك التأكد من ذلك من خلال استعراض بعض البيانات التي توفرها برمجيات إحصائيات الزوار على موقعك ومثال ذلك برنامج awstats الذي يوضح عدد الزيارات التي تمت من خلال محركات البحث وبحثها عن هذا الملف.

حتى يمكن التعرف على هذا الملف وقراءته بصورة صحيحة من قبل محركات البحث فإنه يتوجب أن تتوفر فيه الخاصيتين التاليتين:

أن يكون الملف من النوع النصي txt file ويحمل اسم robots ليكون الاسم النهائي للملف على الشكل التالي : robots.txt
أن يكون على الجذر الرئيسي للموقع على النحو التالي yourdomain.com/robots.txt
أي تسمية أخرى لهذا الملف أو أي موضع آخر لهذا الملف يؤدي إلى تجاهل محركات البحث لهذا الملف.

لعلك تتساءل الآن عزيزي القارئ كيف يمكن كتابة الشفرة داخل هذا الملف وهو ما سأحاول توضيحه في الفقرة التالية.
كتابة شفرة ملفات robots

تتم كتابة شفرة هذا الملف بتحديد اسم برمجية Robotمحرك البحث، فلكل برمجية من برمجيات محركات البحث المعروفة والموثوقة اسم تعرف به عن نفسها عند زيارة أي موقع (للإطلاع على أسماء هذه البرمجيات الرجاء زيارة هذا الموقع)، يتبع ذلك توضيح اسم الملف أو المجلد الذي نرغب في عدم فهرسته. نورد فيما يلي بعض الأمثلة لتوضيح طريقة كتابة هذا الملف:

* :User-agent
Disallow: /

التعبير user-agent: * يعني توجيه كل محركات البحث وبدون تخصيص أياً منها.
السطر الثاني والذي يحتوي على التعبير Disallow: / فيعني منع المحركات من فهرسة كل صفحات الموقع.

User-agent: Googlebot
Disallow: /cms
Disallow: /images

التعبير user-agent: Googlebot هذا التوجيه يخص محرك البحث Google.
السطر الثاني والذي يحتوي على التعبير Disallow: /cms و السطر الثالث والذي يحتوي على التعبير Disallow: /images فيعني منع محرك البحث من فهرسة محتويات المجلد cms والمجلد images تحت الجذر الرئيسي للموقع.

من الجدير بالذكر هنا هو أن استخدام مثل هذا الملف وبمثل هذه الأوامر لا يؤدي فحسب إلى عدم فهرسة محتويات أي موقع بل كذلك يمكن الإستفادة منه في إلغاء بعض الملفات المفهرسة أصلاً في محركات البحث.

خلاصة

تطرقنا في هذا المقال إلى بعض فوائد وطرق عدم فهرسة بعض الصفحات على الموقع وتعرفنا إلى الفوائد التي توفرها هذه التقنية ولعل البعض قد يتساءل ما الجدوى من استعمال مثل هذه التقنية والجواب هو أن منع محرك البحث من فهرسة بعض الصفحات الغير معدة في الأصل للفهرسة هي أحد التقنيات الجيدة لجعل محرك البحث يركز فقط على صفحات أخرى للموقع نرغب بالفعل في إدراجها وفهرستها والحصول من خلالها على نتائج جيدة، كذلك فإن هذه الآلية توفر بعض الحماية لبعض الصفحات ذات الخصوصية عل الموقع لنمنع بذلك الوصول أو الإستخدام غير الآمن لهذه الصفحات.

هامش

يبدو أن إستخدام ملف robot.txt قد يجعل إمكانية الوصول إلى المجلدات والملفات المحمية فيه أمراً ممكناً من قبل بعض المتصفحين أو الزوار، ولهذا السبب يبدي بعض أصحاب المواقع تخوفهم من إستخدام مثل هذا الملف.














0 التعليقات:

إرسال تعليق