جست‌و‌جو، كليد حل معما در اينترنت(پایانی)

(1005 كلمه مجموعاً در اين متن موجود است)
(481 بار خوانده شده است)  صفحه مناسب براي چاپگر [1]
جست‌و‌جو، كليد حل معما در اينترنت(پایانی)
86/1/30
بخش‌های مجزای یك موتور جست‌وجوگر عبارتند از: Spider ، Crawler ، Indexer ، Database و Ranker حال هر كدام را به تفضيل بررسي مي‌كنيم:

Spider (عنکبوت): اسپایدر نرم‌افزاری است كه كار جمع‌آوری اطلاعات مورد نیاز یك موتور جست‌وجوگر را بر عهده دارد. اسپایدر به صفحات مختلف سر می‌زند، محتوای آنها را می‌خواند، لینک‌ها را دنبال، اطلاعات مورد نیاز را جمع‌آوری و آن را در اختیار سایر بخش‌های موتور جست‌وجوگر قرار می‌دهد. همانطور كه كاربران، صفحات مختلف را بازدید می‌كنند، اسپایدر هم درست این كار را انجام می‌دهد با این تفاوت كه اسپایدر كدهای HTML صفحات را می‌بیند اما كاربران نتیجه حاصل از كنار هم قرار گرفتن این كدها را. اسپایدر، به هنگام مشاهده صفحات، بر روی سرورها رد پا برجای می‌گذارد.
شما اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات انجام شده در آن را داشته باشید، می‌توانید مشخص كنید كه اسپایدر كدام یک از موتورهای جست‌وجوگر صفحات سایت را مورد بازدید قرار داده است.

Crawler (خزنده): كراولر، نرم‌افزاری است كه به عنوان یك فرمانده برای اسپایدر عمل می‌كند. خزنده مشخص می‌كند که اسپایدر كدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم می‌گیرد كه كدام یك از لینك‌های صفحه‌ای كه اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. کراولر، ممكن است قبلا برنامه‌ریزی شده باشد که آدرس‌های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال كردن لینك‌های یک صفحه به این بستگی دارد كه موتور جست‌وجوگر چه حجمی از اطلاعات یک سایت را می‌تواند در پایگاه داده‌اش ذخیره كند. همچنین ممكن است اجازه دسترسی به بعضی از صفحات به موتورهای جست‌وجوگر داده نشده باشد. دارنده سایت، همان طور كه دوست دارد موتورهای جست‌وجوگر اطلاعات سایت را با خود ببرند، می‌تواند آنها را از بعضی صفحات سایت‌ دور كند و اجازه دسترسی به محتوای آن صفحات را به آنها ندهد.

Indexer (بایگانی كننده): تمام اطلاعات جمع‌آوری شده توسط اسپایدر در اختیار ایندکسر قرار می‌گیرد. در این بخش اطلاعات ارسالی مورد تجزیه و تحلیل قرار می‌گیرند و به بخش‌های متفاوتی تقسیم می‌شوند. تجزیه و تحلیل بدین معنی است كه مشخص می‌شود اطلاعات از كدام صفحه ارسال شده است، چه حجمی دارد، كلمات موجود در آن كدامند، کلمات چند بار تكرار شده‌اند، كلمات در كجای صفحه قرار دارند و ... . در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می‌کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می‌کند تا سیستم رتبه‌بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای كاهش حجم داده‌ها از بعضی كلمات كه بسیار رایج هستند صرف‌نظر می‌کند. كلماتی نظیر a، an، the، www، is و ... از این گونه كلمات هستند.

DataBase (پایگاه داده): تمام داده‌های تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال می‌گردد. در این بخش داده‌ها گروه‌بندی، كدگذاری و ذخیره می‌شود. همچنین داده‌ها قبل از آنكه ذخیره شوند، طبق تکنیک‌های خاصی فشرده می‌شوند تا حجم كمی از پایگاه داده را اشغال كنند. یك موتور جست‌وجوگر باید پایگاده داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده یك موتور جست‌وجوگر برای آن امتیاز محسوب می‌گردد. یكی از تفاوت‌های اصلی موتورهای جست‌وجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره‌سازی داده‌ها در پایگاه داده است.

Ranker (سیستم رتبه‌بندی): كاربران براي استفاده از يك موتور جست‌وجو چند كلمه را در جعبه جست‌وجوی آن وارد می‌كنند و سپس با فشردن Enter منتظر پــاسخ می‌مانند. برای پاسخگویی به درخواست کاربر، ابتدا تمام صفحات موجود در پایگاه داده كه به موضوع جست‌وجو شده، مرتبط هستند، مشخص می‌شوند. پس از آن سیستم رتبه‌بندی وارد عمل شده، آنها را از بیشترین ارتباط تا كمترین ارتباط مرتب می‌كند و به عنوان نتایج جست‌وجو به كاربر نمایش می‌دهد.
حتی اگر موتور جست‌وجوگر بهترین و كامل‌ترین پایگاه داده را داشته باشد اما نتواند پاسخ‌های مرتبطی را ارائه كند، یك موتور جست‌وجوگر ضعیف خواهد بود. در حقیقت سیستم رتبه‌بندی قلب تپنده یك موتور جست‌وجوگر است و تفاوت اصلی موتورهای جست‌وجوگر در این بخش قرار دارد. سیستم رتبه‌بندی برای پاسخ‌گویی به سوالات كاربران، پارامترهای بسیاری را در نظر می‌گیرد تا بتواند بهترین پاسخ‌ها را در اختیار آنها قرار دارد.

راه ورود موتور جست‌وجوگر به يك سایت
موتور جست‌وجوگر مي‌تواند از راه‌های متفاوتی به یک سایت وارد شود. این راه‌ها همان لینک‌ها هستند. موتور جست‌وجوگر برای خواندن صفحات سایت مجوزهای لازم و محدودیت‌ها را در فایل ROBOTS.TXT بررسی می‌کند، هر چند که می‌تواند آن مجوزها را به طور کلی نادیده بگیرد. موتور جست‌وجوگر می‌تواند انواع فایل را بخواند: فایل DOC، PDF، HTML، PHP و ... شب به سایت سر بزند و یا روز. گاهی هم که به سایت سر می‌زند با دست خالی بر می‌گردد زیرا سرور سایت جواب نمی‌دهد و سایت موقتا و یا برای همیشه فعال نیست.

اگر می‌خواهید موتور جست‌وجوگر را به میهمانی سایتتان دعوت کنید باید راه را هم به وی نشان دهید و وی آدرس سایت شما را بداند. موتور جست‌وجوگر بهانه‌های بسیاری برای نپذیرفتن این دعوت دارد زیرا در همان لحظه به سایت‌های بسیار دیگری هم دعوت شده است! بنابراین باید در آدرس دادن نهایت دقت را انجام دهید. پیوندی هم که شما با آن موتور جست‌وجوگر را به سایتتان دعوت می‌کنید، بسیار مهم است. همواره پیوند به سایتتان را در سایت (صفحات) مهم دیگر قرار دهید تا موتور جست‌وجوگر نه یکبار که چندین بار به سایت شما از آن طریق مراجعه کند.

موتور جست‌وجوگر، کافیست که آدرس سایت شما را یاد بگیرد. آن وقت می‌توانید مطمئن باشید که هر ماه حداقل یکبار بدان مراجعه می‌کند. اما اگر پیوندهای سایتتان در سایت‌های معتبر و مهمی باشند آن وقت بیش از یک بار در ماه و حتی هر چند روز یک بار بدان مراجعه می‌کند. پیوند دادن و پیوند گرفتن امروزه مقوله‌ای بسیار جدی میان مدیران سایت‌هاست. شاید هر روزه میلیون‌ها پست الکترونیک فقط برای این موضوع میان مدیران سایت‌ها رد و بدل می‌شود

  
[ بازگشت به تکنولوژی اطلاعات(IT) [2] | صفحه اصلي بخش ها [3] ]
Links
  [1] http://www.tafahomnews.com/index.php?name=Sections&req=viewarticle&artid=1560&allpages=1&theme=Printer
  [2] http://www.tafahomnews.com/index.php?name=Sections&req=listarticles&secid=4
  [3] http://www.tafahomnews.com/index.php?name=Sections&listsections