جستوجو، كليد حل معما در اينترنت(پایانی)
(1005 كلمه مجموعاً در اين متن موجود است)
(481 بار خوانده شده است)
[1]جستوجو، كليد حل معما در اينترنت(پایانی)
86/1/30
بخشهای مجزای یك موتور جستوجوگر عبارتند از: Spider ، Crawler ، Indexer ، Database و Ranker حال هر كدام را به تفضيل بررسي ميكنيم:
Spider (عنکبوت): اسپایدر نرمافزاری است كه كار جمعآوری اطلاعات مورد نیاز یك موتور جستوجوگر را بر عهده دارد. اسپایدر به صفحات مختلف سر میزند، محتوای آنها را میخواند، لینکها را دنبال، اطلاعات مورد نیاز را جمعآوری و آن را در اختیار سایر بخشهای موتور جستوجوگر قرار میدهد. همانطور كه كاربران، صفحات مختلف را بازدید میكنند، اسپایدر هم درست این كار را انجام میدهد با این تفاوت كه اسپایدر كدهای HTML صفحات را میبیند اما كاربران نتیجه حاصل از كنار هم قرار گرفتن این كدها را. اسپایدر، به هنگام مشاهده صفحات، بر روی سرورها رد پا برجای میگذارد.
شما اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات انجام شده در آن را داشته باشید، میتوانید مشخص كنید كه اسپایدر كدام یک از موتورهای جستوجوگر صفحات سایت را مورد بازدید قرار داده است.
Crawler (خزنده): كراولر، نرمافزاری است كه به عنوان یك فرمانده برای اسپایدر عمل میكند. خزنده مشخص میكند که اسپایدر كدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم میگیرد كه كدام یك از لینكهای صفحهای كه اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. کراولر، ممكن است قبلا برنامهریزی شده باشد که آدرسهای خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال كردن لینكهای یک صفحه به این بستگی دارد كه موتور جستوجوگر چه حجمی از اطلاعات یک سایت را میتواند در پایگاه دادهاش ذخیره كند. همچنین ممكن است اجازه دسترسی به بعضی از صفحات به موتورهای جستوجوگر داده نشده باشد. دارنده سایت، همان طور كه دوست دارد موتورهای جستوجوگر اطلاعات سایت را با خود ببرند، میتواند آنها را از بعضی صفحات سایت دور كند و اجازه دسترسی به محتوای آن صفحات را به آنها ندهد.
Indexer (بایگانی كننده): تمام اطلاعات جمعآوری شده توسط اسپایدر در اختیار ایندکسر قرار میگیرد. در این بخش اطلاعات ارسالی مورد تجزیه و تحلیل قرار میگیرند و به بخشهای متفاوتی تقسیم میشوند. تجزیه و تحلیل بدین معنی است كه مشخص میشود اطلاعات از كدام صفحه ارسال شده است، چه حجمی دارد، كلمات موجود در آن كدامند، کلمات چند بار تكرار شدهاند، كلمات در كجای صفحه قرار دارند و ... . در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد میکند و تمام این پارامترها را به یک مقیاس عددی تبدیل میکند تا سیستم رتبهبندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای كاهش حجم دادهها از بعضی كلمات كه بسیار رایج هستند صرفنظر میکند. كلماتی نظیر a، an، the، www، is و ... از این گونه كلمات هستند.
DataBase (پایگاه داده): تمام دادههای تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال میگردد. در این بخش دادهها گروهبندی، كدگذاری و ذخیره میشود. همچنین دادهها قبل از آنكه ذخیره شوند، طبق تکنیکهای خاصی فشرده میشوند تا حجم كمی از پایگاه داده را اشغال كنند. یك موتور جستوجوگر باید پایگاده داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده یك موتور جستوجوگر برای آن امتیاز محسوب میگردد. یكی از تفاوتهای اصلی موتورهای جستوجوگر در حجم پایگاه داده آنها و همچنین روش ذخیرهسازی دادهها در پایگاه داده است.
Ranker (سیستم رتبهبندی): كاربران براي استفاده از يك موتور جستوجو چند كلمه را در جعبه جستوجوی آن وارد میكنند و سپس با فشردن Enter منتظر پــاسخ میمانند. برای پاسخگویی به درخواست کاربر، ابتدا تمام صفحات موجود در پایگاه داده كه به موضوع جستوجو شده، مرتبط هستند، مشخص میشوند. پس از آن سیستم رتبهبندی وارد عمل شده، آنها را از بیشترین ارتباط تا كمترین ارتباط مرتب میكند و به عنوان نتایج جستوجو به كاربر نمایش میدهد.
حتی اگر موتور جستوجوگر بهترین و كاملترین پایگاه داده را داشته باشد اما نتواند پاسخهای مرتبطی را ارائه كند، یك موتور جستوجوگر ضعیف خواهد بود. در حقیقت سیستم رتبهبندی قلب تپنده یك موتور جستوجوگر است و تفاوت اصلی موتورهای جستوجوگر در این بخش قرار دارد. سیستم رتبهبندی برای پاسخگویی به سوالات كاربران، پارامترهای بسیاری را در نظر میگیرد تا بتواند بهترین پاسخها را در اختیار آنها قرار دارد.
راه ورود موتور جستوجوگر به يك سایت
موتور جستوجوگر ميتواند از راههای متفاوتی به یک سایت وارد شود. این راهها همان لینکها هستند. موتور جستوجوگر برای خواندن صفحات سایت مجوزهای لازم و محدودیتها را در فایل ROBOTS.TXT بررسی میکند، هر چند که میتواند آن مجوزها را به طور کلی نادیده بگیرد. موتور جستوجوگر میتواند انواع فایل را بخواند: فایل DOC، PDF، HTML، PHP و ... شب به سایت سر بزند و یا روز. گاهی هم که به سایت سر میزند با دست خالی بر میگردد زیرا سرور سایت جواب نمیدهد و سایت موقتا و یا برای همیشه فعال نیست.
اگر میخواهید موتور جستوجوگر را به میهمانی سایتتان دعوت کنید باید راه را هم به وی نشان دهید و وی آدرس سایت شما را بداند. موتور جستوجوگر بهانههای بسیاری برای نپذیرفتن این دعوت دارد زیرا در همان لحظه به سایتهای بسیار دیگری هم دعوت شده است! بنابراین باید در آدرس دادن نهایت دقت را انجام دهید. پیوندی هم که شما با آن موتور جستوجوگر را به سایتتان دعوت میکنید، بسیار مهم است. همواره پیوند به سایتتان را در سایت (صفحات) مهم دیگر قرار دهید تا موتور جستوجوگر نه یکبار که چندین بار به سایت شما از آن طریق مراجعه کند.
موتور جستوجوگر، کافیست که آدرس سایت شما را یاد بگیرد. آن وقت میتوانید مطمئن باشید که هر ماه حداقل یکبار بدان مراجعه میکند. اما اگر پیوندهای سایتتان در سایتهای معتبر و مهمی باشند آن وقت بیش از یک بار در ماه و حتی هر چند روز یک بار بدان مراجعه میکند. پیوند دادن و پیوند گرفتن امروزه مقولهای بسیار جدی میان مدیران سایتهاست. شاید هر روزه میلیونها پست الکترونیک فقط برای این موضوع میان مدیران سایتها رد و بدل میشود
[ بازگشت به تکنولوژی اطلاعات(IT) [2] | صفحه اصلي بخش ها [3] ]