ওয়েব পৃষ্ঠাগুলি ক্রল করার জন্য অনুসন্ধান ইঞ্জিন রোবট দায়ী। প্রোগ্রামটি স্বয়ংক্রিয়ভাবে সমস্ত সাইট থেকে ডেটা পড়ে এবং সেগুলিকে এমন একটি ফর্ম হিসাবে নিবন্ধভুক্ত করে যা অনুসন্ধান ইঞ্জিনের জন্য নিজেই বোধগম্য হয়, যাতে পরবর্তী সময়ে সিস্টেমটি ব্যবহারকারীর জন্য সবচেয়ে উপযুক্ত ফলাফল প্রদর্শন করবে।
কার্যাদি
সমস্ত সূচিকৃত তথ্য একটি সাধারণ ডাটাবেসে রেকর্ড করা হয়।
একটি অনুসন্ধান রোবট একটি প্রোগ্রাম যা স্বয়ংক্রিয়ভাবে ইন্টারনেটের পাতাগুলি ভ্রমণ করে প্রয়োজনীয় নথিগুলির অনুরোধ করে এবং ক্রলযুক্ত সাইটের কাঠামো গ্রহণ করে। রোবট স্ক্যান করার জন্য পৃষ্ঠাগুলি স্বাধীনভাবে নির্বাচন করে। বেশিরভাগ ক্ষেত্রে, স্ক্যান করার জন্য সাইটগুলি এলোমেলোভাবে নির্বাচিত হয়।
বট প্রকার
একটি ভুলভাবে কাজ করা রোবটটি নেটওয়ার্ক এবং সার্ভারের লোডকে উল্লেখযোগ্যভাবে বাড়িয়ে তোলে, যার ফলে সংস্থানটি অনুপলব্ধ হতে পারে।
প্রতিটি সার্চ ইঞ্জিনে রোবট নামে একাধিক প্রোগ্রাম রয়েছে। তাদের প্রত্যেকে একটি নির্দিষ্ট কার্য সম্পাদন করতে পারে। উদাহরণস্বরূপ, ইয়ানডেক্সে কিছু রোবট আরএসএস নিউজ ফিডগুলি স্ক্যান করার জন্য দায়ী, যা ব্লগগুলি সূচীকরণের জন্য দরকারী। এমন কিছু প্রোগ্রাম রয়েছে যা কেবল ছবি অনুসন্ধান করে। তবে, সর্বাধিক গুরুত্বপূর্ণ বিষয়টি ইনডেক্সিং বট, যা কোনও অনুসন্ধানের ভিত্তি তৈরি করে। নিউজ ফিডস এবং ইভেন্টগুলির আপডেটগুলি অনুসন্ধানের জন্য ডিজাইন করা একটি সহায়ক ফাস্ট রোবটও রয়েছে।
স্ক্যান পদ্ধতি
সামগ্রীর ক্রলিং প্রতিরোধের অন্য উপায় হ'ল নিবন্ধকরণ প্যানেলের মাধ্যমে সাইটে অ্যাক্সেস তৈরি করা।
সাইটটি পরিদর্শন করার সময়, প্রোগ্রামটি রোবটস.টিএসটিএক্সট্রাকশন ফাইলগুলির উপস্থিতির জন্য ফাইল সিস্টেমটি স্ক্যান করে। যদি কোনও নথি থাকে তবে নথিতে লিখিত নির্দেশাবলী পড়া শুরু হয়। Robots.txt নিষিদ্ধ করতে পারে বা, বিপরীতে, সাইটে নির্দিষ্ট পৃষ্ঠা এবং ফাইল স্ক্যান করার অনুমতি দেয় allow
স্ক্যানিং প্রক্রিয়া প্রোগ্রামের ধরণের উপর নির্ভর করে। কখনও কখনও রোবট কেবল পৃষ্ঠার শিরোনাম এবং কয়েকটি অনুচ্ছেদ পড়েন। কিছু ক্ষেত্রে, এইচটিএমএল মার্কআপের উপর নির্ভর করে ডকুমেন্ট জুড়ে স্ক্যানিং করা হয়, যা মূল বাক্যাংশ নির্দিষ্ট করার জন্য একটি উপায় হিসাবেও কাজ করতে পারে। কিছু প্রোগ্রাম লুকানো বা মেটা ট্যাগগুলিতে বিশেষজ্ঞ।
তালিকায় যুক্ত হচ্ছে
প্রতিটি ওয়েবমাস্টার অনুসন্ধান ইঞ্জিনকে রোবটস.টিএসটিএসটি বা মেটা ট্যাগের মাধ্যমে ক্রলিং পৃষ্ঠাগুলি থেকে রোধ করতে পারে। এছাড়াও, সাইট স্রষ্টা ম্যানুয়ালি সাইটটিকে সূচক কাতারে যুক্ত করতে পারেন তবে এটি যুক্ত করার অর্থ এই নয় যে রোবটটি তত্ক্ষণাত পছন্দসই পৃষ্ঠাটি ক্রল করবে। সারিতে কোনও সাইট যুক্ত করতে, অনুসন্ধান ইঞ্জিনগুলি বিশেষ ইন্টারফেসও সরবরাহ করে। একটি সাইট যুক্ত করা ইনডেক্সিং প্রক্রিয়াটিকে উল্লেখযোগ্যভাবে গতি দেয়। এছাড়াও, অনুসন্ধান ইঞ্জিনে দ্রুত নিবন্ধকরণের জন্য, ওয়েব অ্যানালিটিক্স সিস্টেম, সাইট ডিরেক্টরি ইত্যাদি ব্যবহার করা যেতে পারে।