6.2 جستجوی با کیفیت بالا

لارنس پیج در ایست لنسینگ، میشیگان متولد شد و در سال 1995 مدرک BSE را در رشته مهندسی کامپیوتر از دانشگاه میشیگان آن آربور دریافت کرد. او در حال حاضر در حال تحصیل در مقطع دکتری است. کاندیدای علوم کامپیوتر در دانشگاه استنفورد. برخی از علایق تحقیقاتی او شامل ساختار پیوند وب، تعامل انسان با رایانه، موتورهای جستجو، مقیاس پذیری رابط های دسترسی به اطلاعات و داده کاوی شخصی است.

8. پیوست الف: تبلیغات و نقوش ترکیبی

در حال حاضر، مدل کسب و کار غالب برای موتورهای جستجوی تجاری تبلیغات است. مدل کسب و کار تبلیغاتیاهداف آنها همیشه با ارائه جستجوی با کیفیت به کاربران همسو نیست. به عنوان مثال، در موتور جستجوی نمونه اولیه ما، یکی از نتایج برتر برای تلفن همراه، «تأثیر استفاده آگاهانه از تلفن همراه» است، مطالعه‌ای که جزئیات حواس‌پرتی و خطرات مرتبط با صحبت کردن با تلفن همراه در حین رانندگی را نشان می‌دهد. این نتیجه جستجو برای اولین بار به دلیل اهمیت بالای آن ظاهر شد، همانطور که توسط الگوریتم PageRank ارزیابی شده است، تقریبی از اهمیت استناد در وب [صفحه، 98]. واضح است که موتور جستجویی که برای نمایش تبلیغات تلفن همراه پول دریافت می‌کند، برای توجیه صفحه‌ای که سیستم ما به تبلیغ‌کنندگان پولی خود باز می‌گرداند، مشکل خواهد داشت. به همین دلیل، و از تجربه تاریخی با رسانه های دیگر [باگدیکیان 83]، ما انتظار داریم که موتورهای جستجوی پشتیبانی شده از تبلیغات ذاتاً با تبلیغ کنندگان دشمنی داشته باشند و از نیازهای مصرف کنندگان دور باشند.

9. پیوست ب: مقیاس پذیری

سوگیری موتورهای جستجو به ویژه موذیانه است زیرا ارزیابی موتورهای جستجو حتی برای کارشناسان بسیار دشوار است. یک مثال خوب از این OpenText است که طبق گزارشات به شرکت‌ها حق فهرست شدن در بالای نتایج جستجو برای درخواست‌های خاص را می‌فروشد [Marchiori 97]. این سوگیری بسیار موذیانه تر از تبلیغات است، زیرا مشخص نیست چه کسی «لایق» حضور در آنجا است و چه کسی حاضر است برای فهرست شدن هزینه کند. این مدل کسب و کار باعث سر و صدایی شد و OpenText دیگر یک موتور جستجوی قابل دوام نبود. اما سوگیری کمتر آشکار به احتمال زیاد توسط بازار تحمل می شود. به عنوان مثال، یک موتور جستجو ممکن است یک عامل کوچک به نتایج جستجوی شرکت‌های «دوستانه» اضافه کند و یک عامل را از نتایج رقبا کم کند.

تشخیص این نوع سوگیری بسیار دشوار است، اما هنوز هم می تواند تأثیر

قابل توجهی بر بازار داشته باشد. علاوه بر این، درآمد تبلیغات اغلب انگیزه ای برای ارائه نتایج جستجو با کیفیت پایین ایجاد می کند. به عنوان مثال، ما متوجه شدیم که یک موتور جستجوی اصلی هنگامی که نام شرکت هواپیمایی به عنوان پرس و جو داده می شود، صفحه اصلی یک شرکت هواپیمایی بزرگ را باز نمی گرداند. بنابراین این شرکت هواپیمایی آگهی گران قی پیشتاز کاربران تلگرام متی را در ارتباط با درخواست همنام خود منتشر کرد. یک موتور جستجوی بهتر نیازی به این تبلیغات ندارد و احتمالاً منجر به از دست رفتن درآمد از خطوط هوایی به موتور جستجو می شود. به طور کلی، می توان ادعا کرد که از دیدگاه مصرف کننده، هر چه موتور جستجو بهتر باشد، ممکن است برای یافتن آنچه می خواهد به تبلیغات کمتری نیاز داشته باشد. این، البته، مدل کسب و کار مبتنی بر تبلیغات موتورهای جستجوی فعلی را از بین می برد.

با این حال، همیشه از تبلیغ‌کنندگانی که می‌خواهند مشتری محصول خود را تغییر

پیشتاز کاربران تلگرام

دهد یا چیز واقعاً جدیدی داشته باشد، پول دریافت می‌کند. با این حال، ما معتقدیم که موضوع تبلیغات به اندازه کافی دلگرم کننده است که وجود یک موتور جستجوی شفاف و رقابتی در حوزه دانشگاهی حیاتی است. یک موتور جستجوی بهتر نیازی به این تبلیغات ندارد و احتمالاً منجر به از دست رفتن درآمد از خطوط هوایی به موتور جستجو می شود. به طور کلی، می توان ادعا کرد که از دیدگاه مصرف کننده، هر چه موتور جستجو بهتر باشد، ممکن است برای یافتن آنچه می خواهد به تبلیغات کمتری نیاز داشته باشد. این، البته، مدل کسب و کار مبتنی بر تبلیغات موتورهای جستجوی فعلی را از بین می برد. با این حال، همیشه از تبلیغ‌کنندگانی که می‌خواهند مشتری محصول خود را تغییر دهد یا چیز واقعاً جدیدی داشته باشد، پول دریافت می‌کند. با این حال، ما معتقدیم که موضوع تبلیغات به اندازه کافی مشوق است که وجود یک موتور جستجوی شفاف و رقابتی در حوزه دانشگاهی حیاتی است.

یک موتور جستجوی بهتر نیازی به این تبلیغات ندارد و احتمالاً منجر به از د

ست رفتن درآمد از خطوط هوایی به موتور جستجو می شود. به طور کلی، می توان ادعا کرد که از دیدگاه مصرف کننده، هر چه موتور جستجو بهتر باشد، ممکن است برای یافتن آنچه می خواهد به تبلیغات کمتری نیاز داشته باشد. این، البته، مدل کسب و کار مبتنی بر تبلیغات موتورهای جستجوی فعلی را از بین می برد. با این حال، همیشه از تبلیغ‌کنندگانی که می‌خواهند مشتری محصول خود را تغییر دهد یا چیز واقعاً جدیدی داشته باشد، پول دریافت می‌کند. با این حال، ما معتقدیم که موضوع تبلیغات به اندازه 你是否曾接到过陌生号码的电话  کافی دلگرم کننده است که وجود یک موتور جستجوی شفاف و رقابتی در حوزه دانشگاهی حیاتی است. و احتمالاً منجر به از دست رفتن درآمد از خطوط هوایی به موتور جستجو شده است. به طور کلی، می توان ادعا کرد که از دیدگاه مصرف کننده، هر چه موتور جستجو بهتر باشد، ممکن است برای یافتن آنچه می خواهد به تبلیغات کمتری نیاز داشته باشد. این، البته، مدل کسب و کار مبتنی بر تبلیغات موتورهای جستجوی فعلی را از بین می برد.

با این حال، همیشه از تبلیغ‌کنندگانی که می‌خواهند مشتری محصول خود را تغی

یر دهد یا چیز واقعاً جدیدی داشته باشد، پول دریافت می‌کند. با این حال، ما معتقدیم که موضوع تبلیغات به اندازه کافی دلگرم کننده است که وجود یک موتور جستجوی شفاف و رقابتی در حوزه دانشگاهی حیاتی است. و احتمالاً منجر به از دست رفتن درآمد از خطوط هوایی به موتور جستجو شده است. به طور کلی، می توان ادعا کرد که از دیدگاه مصرف کننده، هر چه موتور جستجو بهتر باشد، ممکن است برای یافتن آنچه می خواهد به تبلیغات کمتری نیاز داشته باشد. این، البته، مدل کسب و کار مبتنی بر تبلیغات موتورهای جستجوی فعلی را از بین می برد. با این حال، همیشه از تبلیغ‌کنندگانی که می‌خواهند مشتری محصول خود را تغییر دهد یا چیز واقعاً جدیدی داشته باشد، پول دریافت می‌کند.

با این حال، ما معتقدیم که موضوع تبلیغات به اندازه کافی دلگرم کننده است که وج

ود یک موتور جستجوی شفاف و رقابتی در حوزه دانشگاهی حیاتی است. برای اینکه مصرف کننده بتواند آنچه را که می خواهد پیدا کند، تبلیغات کمتری لازم است. این، البته، مدل کسب و کار مبتنی بر تبلیغات موتورهای جستجوی فعلی را از بین می برد. با این حال، همیشه از تبلیغ‌کنندگانی که می‌خواهند مشتری محصول خود را تغییر دهد یا چیز واقعاً جدیدی داشته باشد، پول دریافت می‌کند. با این حال، ما معتقدیم که موضوع تبلیغات به اندازه کافی مشوق است که وجود یک موتور جستجوی شفاف و رقابتی در حوزه دانشگاهی حیاتی است.

برای اینکه مصرف کننده بتواند آنچه را که می خواهد پیدا کند، تبلیغات کمتری لازم ا

ست. این، البته، مدل کسب و کار مبتنی بر تبلیغات موتورهای جستجوی فعلی را از بین می برد. با این حال، همیشه از تبلیغ‌کنندگانی که می‌خواهند مشتری محصول خود را تغییر دهد یا چیز واقعاً جدیدی داشته باشد، پول دریافت می‌کند. با این حال، ما معتقدیم که موضوع تبلیغات به اندازه کافی دلگرم کننده است که وجود یک موتور جستجوی شفاف و رقابتی در حوزه دانشگاهی حیاتی است.

9. 1 مقیاس پذیری گوگل

ما گوگل را طوری طراحی کردیم که برای رسیدن به هدف کوتاه مدت 100 میلیون صفحه وب مقیاس پذیر باشد. ما دیسک‌ها و ماشین‌های جدیدی خریدیم تا تقریباً این مقدار را پردازش کنیم. تمام بخش های وقت گیر سیستم موازی و تقریباً زمان خطی هستند. این موارد شامل مواردی مانند خزنده ها، نمایه سازها و مرتب کننده ها می شود. ما همچنین فکر می‌کنیم که بیشتر  cpa 电子邮件列表 ساختارهای داده، توسعه را به خوبی مدیریت می‌کنند. با این حال، با 100 میلیون صفحه وب، ما به محدودیت های سیستم عامل در سیستم عامل های رایج بسیار نزدیک خواهیم بود (در حال حاضر روی سولاریس و لینوکس کار می کنیم). این موارد شامل مواردی مانند حافظه آدرس پذیر، تعداد توصیفگرهای فایل باز، سوکت ها و پهنای باند شبکه و موارد دیگر می شود. ما معتقدیم که گسترش به بیش از 100 میلیون صفحه پیچیدگی سیستم ما را بسیار افزایش می دهد.

9.2 مقیاس پذیری معماری های نمایه سازی متمرکز

با افزایش قابلیت‌های رایانه‌ها، فهرست‌بندی مقادیر بسیار زیادی از متن با هزینه‌ای مناسب امکان‌پذیر می‌شود. البته، سایر رسانه های پهن باند فشرده تر، مانند ویدیو، احتمالاً رایج تر می شوند. با این حال، از آنجایی که هزینه ایجاد متن در مقایسه با رسانه هایی مانند ویدئو کم است، احتمالاً متن بسیار رایج باقی می ماند. همچنین ممکن است به زودی تشخیص گفتار داشته باشیم که کار معقولی را برای تبدیل متن به متن انجام می دهد و میزان متن موجود را افزایش می دهد. همه اینها امکانات باورنکردنی را برای نمایه سازی متمرکز فراهم می کنند. در اینجا یک مثال گویا است. ما فرض می‌کنیم که می‌خواهیم همه چیزهایی را که همه در ایالات متحده در طول یک سال نوشتند، فهرست کنیم. ما فرض می کنیم 250 میلیون نفر در ایالات متحده وجود دارد و به طور متوسط ​​روزانه 10 هزار نفر می نویسیم. این حدود 850 ترابایت است.

بیایید همچنین فرض کنیم که نمایه سازی یک ترابایت اکنون می تواند با هزینه ای

معقول انجام شود. همچنین فرض می‌کنیم که روش‌های نمایه‌سازی مورد استفاده در متن از نظر خطی بودن خطی یا از نظر پیچیدگی تقریباً خطی هستند. با توجه به تمام این مفروضات، می‌توانیم محاسبه کنیم که چقدر طول می‌کشد تا 850 ترابایت خود را با هزینه‌ای معقول با فرض برخی عوامل رشد شاخص کنیم. قانون مور پیش بینی کرد که در سال 1965 قدرت پردازنده هر 18 ماه دو برابر می شود. این نه تنها برای پردازنده ها بلکه برای سایر پارامترهای مهم سیستم مانند دیسک کاملاً دقیق است. با فرض اینکه قانون مور برای آینده صادق باشد، ما فقط به ضریب 10 یا 15 سال نیاز داریم تا به هدف خود دست یابیم که همه چیزهایی را که همه در ایالات متحده برای یک سال می نویسند با قیمتی که یک شرکت کوچک می تواند دریافت کند، فهرست کنیم.

البته کارشناسان سخت‌افزار تا حدودی نگران هستند که مور

البته سیستم‌های توزیع‌شده مانند Gl OSS [Gravano 94] یا Harvest به طور کلی کارآمدترین و ظریف‌ترین راه‌حل فنی برای نمایه‌سازی خواهند بود، اما متقاعد کردن دنیا برای استفاده از این سیستم‌ها دشوار به نظر می‌رسد. با توجه به هزینه های اداری بالای تنظیم تعداد زیادی از امکانات. البته این امکان کاملاً وجود دارد که بتوان هزینه های مدیریت را به میزان قابل توجهی کاهش داد. اگر این اتفاق بیفتد و همه شروع به اجرای یک سیستم نمایه سازی توزیع شده کنند، جستجو قطعا بهبود چشمگیری خواهد داشت.

از آنجایی که انسان‌ها فقط می‌توانند به مقدار محدودی تایپ یا صحبت کنند، و با ادامه پیشرفت رایانه‌ها، نمایه‌سازی متن بهتر از اکنون مقیاس می‌شود. البته ممکن است حجم بی پایانی از محتوای تولید شد خوشبین هستیم که معماری متمرکز موتور جستجوی وب ما توانایی خود را برای پنهان کردن اطلاعات متنی در طول زمان بهبود می بخشد و آینده روشنی برای جستجو وجود دارد.

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注