ইনডেক্সিং হ'ল কোনও অনুসন্ধান রোবটের দ্বারা ইন্টারনেট সংস্থায় থাকা ফাইলগুলি স্ক্যান করার প্রক্রিয়া। এই পদ্ধতিটি এমনভাবে করা হয় যাতে সাইটটি অনুসন্ধান ইঞ্জিনে বিভিন্ন প্রশ্নের জন্য অনুসন্ধানের ফলাফলগুলিতে উপলব্ধ। আজকের সবচেয়ে বড় সার্চ ইঞ্জিনগুলির মধ্যে হ'ল ইয়ানডেক্স, যা এই স্ক্যানটিকে নিজস্ব উপায়ে পরিচালনা করে।
নির্দেশনা
ধাপ 1
ইন্টারনেট সাইটের সূচীকরণ বিশেষ স্বয়ংক্রিয় প্রোগ্রামগুলি দ্বারা চালিত হয় - অনুসন্ধান রোবটগুলি, যা স্বয়ংক্রিয়ভাবে ওয়ার্ল্ড ওয়াইড ওয়েবে নতুন সাইটগুলির উপস্থিতি ট্র্যাক করে, ইন্টারনেটে থাকা ইন্টারনেট পৃষ্ঠাগুলি নিয়মিত স্ক্যান করে, প্রতিটি সংস্থানটিতে ফাইল এবং তাদের লিঙ্ক।
ধাপ ২
স্ক্যান করতে, রোবটটি সেই ডিরেক্টরিতে যায় যেখানে একটি নির্দিষ্ট সার্ভারে রিসোর্স অবস্থিত। কোনও নতুন সাইট বাছাই করার সময়, রোবটটি এর প্রাপ্যতা দ্বারা পরিচালিত হয়। উদাহরণস্বরূপ, এখানে একটি মতামত রয়েছে যে ইয়ানডেক্স প্রথম কোনও রাশিয়ান ভাষার ডোমেন এবং রাশিয়ান ভাষায় তৈরি সাইটগুলি স্ক্যান করে - রু, আরএফ, সু বা ইউএ এবং কেবল তখনই অন্য অঞ্চলে চলে যায়।
ধাপ 3
রোবটটি সাইটে নেভিগেট করে এবং এর কাঠামোটি স্ক্যান করে প্রথমে এমন ফাইলগুলির সন্ধান করে যা আরও অনুসন্ধান সন্ধান করে। উদাহরণস্বরূপ, কোনও সাইট সাইটম্যাপ.এক্সএমএল বা রোবটস.টিএসটিএস এর জন্য স্ক্যান করা হয়। এই ফাইলগুলি স্ক্যান করার সময় অনুসন্ধান রোবটের আচরণ সেট করতে ব্যবহার করা যেতে পারে। সাইটম্যাপ (সাইটম্যাপ.এক্সএমএল) ব্যবহার করে রোবটটি সংস্থার কাঠামোর আরও সঠিক ধারণা পায়। ওয়েবমাস্টার অনুসন্ধানের ফলাফলগুলিতে প্রদর্শিত হতে চান না এমন ফাইলগুলি সংজ্ঞায়িত করতে robots.txt ব্যবহার করে। উদাহরণস্বরূপ, এটি ব্যক্তিগত তথ্য বা অন্যান্য অযাচিত ডেটা হতে পারে।
পদক্ষেপ 4
এই দুটি নথি স্ক্যান করে প্রয়োজনীয় নির্দেশাবলী পেয়ে রোবটটি এইচটিএমএল কোডটি বিশ্লেষণ এবং প্রাপ্ত ট্যাগগুলি প্রক্রিয়া শুরু করে। ডিফল্টরূপে, একটি রোবটসটিটিএসটি ফাইলের অভাবে সার্চ ইঞ্জিন সার্ভারে সঞ্চিত সমস্ত দস্তাবেজ প্রক্রিয়া শুরু করে।
পদক্ষেপ 5
দস্তাবেজগুলিতে লিঙ্কগুলিতে ক্লিক করে, এই সংস্থানটি অনুসরণ করে স্ক্যান করার জন্য সারিবদ্ধ থাকা অন্যান্য সাইটগুলির সম্পর্কেও রোবট তথ্য গ্রহণ করে। সাইটে স্ক্যান করা ফাইলগুলি ইয়ানডেক্স ডেটা সেন্টারে সার্ভারে একটি টেক্সট অনুলিপি এবং কাঠামো হিসাবে সংরক্ষণ করা হয়।
পদক্ষেপ 6
পুনরায় স্ক্যান করার প্রয়োজনীয়তা স্বয়ংক্রিয়ভাবে রোবট দ্বারাও নির্ধারণ করা হয়। প্রোগ্রামটি যখন আবার ইনডেক্সিংয়ের মধ্য দিয়ে যায় তখন বিদ্যমান স্ক্যানের ফলাফলটিকে সাইটের আপডেট হওয়া সংস্করণের সাথে তুলনা করে। যদি প্রোগ্রামটির দ্বারা প্রাপ্ত ডেটা পৃথক হয়, তবে সাইট অনুলিপি ইয়াণ্ডেক্স সার্ভারেও আপডেট করা হবে।