آناتومی گوگل | 欧洲电子邮件

همراه با رشد فوق العاده، وب نیز در طول زمان به طور فزاینده ای تجاری شده است. در سال 1993، 1.5 درصد از سرورهای وب در دامنه های .com بودند. این رقم در سال 97 به بیش از 60 درصد افزایش یافت. در عین حال موتورهای جستجو از حوزه دانشگاهی به حوزه تبلیغات رفته اند. تا به حال، بیشتر توسعه موتورهای جستجو در شرکت هایی با جزئیات فنی کمی منتشر شده است. این امر باعث می شود که فناوری موتورهای جستجو تا حد زیادی یک هنر سیاه و تبلیغات محور باشد (به پیوست A مراجعه کنید). ما با گوگل یک جاه طلبی قوی داریم تا توسعه و درک بیشتر را به دنیای آکادمیک سوق دهیم.
یکی دیگر از اهداف مهم طراحی، ساخت سیستم هایی بود که تعداد معقولی از مردم بتوانند واقعاً از آنها استفاده کنند. استفاده برای ما مهم بود زیرا فکر می کنیم برخی از جالب ترین تحقیقات شامل استفاده از داده های استفاده گسترده موجود از سیستم های وب مدرن است. به عنوان مثال، روزانه میلیون ها جستجو انجام می شود. با این حال، به دست آوردن این داده ها بسیار دشوار است، عمدتاً به این دلیل که از نظر تجاری ارزشمند تلقی می شوند.

هدف نهایی طراحی ما ایجاد معماری بود که بتواند از فعالیت های تحقیقاتی جدید بر روی داده های وب در مقیاس بزرگ پشتیبانی کند. برای پشتیبانی از کاربردهای تحقیقاتی جدید، گوگل تمام اسناد اصلی را که اسکن می کند در قالب فشرده ذخیره می کند. یکی از اهداف اصلی ما در طراحی گوگل این بود که محیطی ایجاد کنیم که سایر محققان بتوانند به سرعت بیایند، قطعات بزرگی از وب را پردازش کنند و نتایج جالبی تولید کنند که در غیر این صورت تولید آنها بسیار دشوار خواهد بود. هنگامی که این سیستم به زودی راه اندازی شد، مقالات متعددی با استفاده از پایگاه های داده ایجاد شده توسط گوگل منتشر شد و سایر مقالات در حال انجام هستند. هدف دیگری که داریم ایجاد محیطی شبیه به Spacelab است که در آن محققان یا حتی دانش‌آموزان بتوانند آزمایش‌های جالبی را روی داده‌های وب در مقیاس بزرگ ما پیشنهاد و انجام دهند.

2. ویژگی های سیستم

موتور جستجوی گوگل دو ویژگی مهم دارد که به آن کمک می کند تا نتایج با دقت بالا تولید کند. اول، از ساختار پیوند وب برای محاسبه رتبه بندی کیفیت برای هر صفحه وب استفاده می کند. این رتبه بندی، PageRank نام دارد و در [صفحه 98] به تفصیل توضیح داده شده است. دوم، گوگل از پیوند برای بهبود نتایج جستجو استفاده می کند.

2.1 Page Rank: سفارش به وب

نمودار استناد (پیوند) وب منبع مهمی است که تا حد زیادی در موتورهای جستجوی فعلی وب استفاده نشده است. ما نقشه‌هایی را ایجاد کرده‌ایم که حاوی حدود 518 میلیون پل است که نمونه‌ای قابل توجه از کل آن است. این نقش سرب واتس اپ ه ها امکان محاسبه سریع “رتبه صفحه” صفحه وب را فراهم می کند. این معیاری از اهمیت اسنادی است که با تصور ذهنی افراد از اهمیت آن همخوانی دارد. به دلیل این مطابقت، PageRank یک راه عالی برای اولویت بندی نتایج جستجوی کلمات کلیدی وب است. برای محبوب ترین موضوعات، زمانی که PageRank نتایج را اولویت بندی می کند، یک جستجوی ساده مطابقت متن محدود شده بر اساس رتبه صفحه برجسته می شود (نمونه نمایشی موجود در google.stanford.edu). برای انواع جستجوی متن کامل در سیستم اصلی گوگل، PageRank نیز بسیار مفید است.

2.1.1 شرح محاسبه سفارش صفحه

ادبیات استنادی دانشگاهی با شمارش استنادها یا بک لینک ها به یک صفحه معین در وب اعمال شده است. این تقریباً اهمیت یا کیفیت یک صفحه را نشان می دهد. PageRank این ایده را با شمارش نکردن پیوندها از همه صفحات به طور مساوی و عادی سازی آنها بر اساس تعداد پیوندهای یک صفحه گسترش می دهد. Page Rank به این صورت تعریف می شود:
فرض می کنیم که صفحه A دارای T1 … Tn صفحاتی است که به آن اشاره می کنند (مثلاً نقل قول ها). پارامتر D یک ضریب میرایی است که می تواند بین 0 و 1 تنظیم شود. ما معمولا d را روی 0.85 قرار می دهیم. جزئیات بیشتر در مورد d در بخش بعدی. علاوه بر این، C(A) به عنوان تعداد پیوندهایی که از صفحه A منشا می گیرند تعریف می شود. ترتیب صفحات صفحه A به شرح زیر است:

توجه داشته باشید که PageRanks یک توزیع احتمال بر روی صفحات وب را تشکیل می دهد، بنابراین رتبه صفحه همه صفحات وب به یک جمع می شود.

PageRank یا PR(A) را می توان با استفاده از یک الگوریتم تکراری ساده محاسبه کرد و با بردار ویژه زیرین ماتریس پیوند نرمال شده شبکه مطابقت دارد. علاوه بر این، PageRank بیش از 26 میلیون صفحه وب را می توان در یک ایستگاه کاری با اندازه متوسط در چند ساعت محاسبه کرد. جزئیات زیادی وجود دارد که از حوصله این مقاله خارج است.

2.1.2 منطق شهودی

رتبه صفحه را می توان به عنوان مدلی از رفتار کاربر در نظر گرفت. ما فرض می‌کنیم که شما یک «موج‌گرد تصادفی» هستید که یک صفحه وب تصادفی به او داده می‌شود و روی لینک‌ها کلیک می‌کند، اما در نهایت خسته می‌شود و در صفحه تصادفی دیگری شروع به کار می‌کند. PageRank احتمال این است که یک موج‌گرد تصادفی از یک صفحه بازدید کند. و ضریب میرایی d این احتمال است که در هر صفحه “موج سوار تصادفی” خسته شود و صفحه تصادفی دیگری را درخواست کند. یک تغییر مهم این است که ضریب میرایی d را فقط به یک صفحه یا گروهی از صفحات اضافه کنید. این امر شخصی سازی را فراهم می کند و می تواند گمراه کردن عمدی سیستم برای دستیابی به رتبه بالاتر را تقریبا غیرممکن کند. ما چند پسوند اضافی برای PageRank داریم، دوباره [ صفحه 98] را ببینید.

یکی دیگر از توجیهات بصری این است که یک صفحه می تواند رتبه بالایی داشته باشد اگر صفحات زیادی وجود داشته باشد که به آن اشاره می کنند یا برخی از صفحات به آن اشاره می کنند و رتبه بالایی دارند. به طور شهودی، ارزش دیدن صفحاتی را دارد که از مکان‌های زیادی در وب به خوبی مورد استناد قرار گرفته‌اند. علاوه بر این، Yahoo! صفحه اصلی نیز به طور کلی ارزش دیدن دارد. اگر صفحه ای کیفیت بالایی نداشته باشد یا لینک خرابی داشته باشد، ممکن است صفحه اصلی یاهو به آن صفحه لینک ندهد. PageRank این موارد و همه چیزهای بین آنها را با پیشبرد وزن هایی که ساختار پیوند شبکه را تکرار می کنند، کنترل می کند.

2.2 متن پیوند

متن پیوندها در موتور جستجوی ما به روشی خاص برخورد می شود. بیشتر موتورهای جستجو متن یک پیوند را با صفحه ای که پیوند در آن قرار دارد مرتبط می کنند. ما همچنین پیوند را با صفحه ای که به آن اشاره می کند مرتبط می کنیم. این چندین مزیت دارد. اول، لنگرها اغلب توضیحات وب دقیق تری را نسبت به خود صفحات وب ارائه می دهند. دوم، تصاویر ممکن 语音邮件问候语的一些良好示例有哪些？ است به اسنادی پیوند بخورند که نمی‌توانند توسط موتور جستجوی متنی فهرست‌بندی شوند، مانند برنامه‌ها و پایگاه‌های داده. این امکان بازگرداندن صفحات وب را فراهم می کند که واقعاً خزیده نشده اند. توجه داشته باشید که صفحات بدون خزیدن می توانند مشکلاتی ایجاد کنند زیرا اعتبار آنها قبل از بازگرداندن به کاربر بررسی نمی شود. در این حالت، موتور جستجو حتی ممکن است صفحه‌ای را که قبلاً وجود نداشته است، اما به لینک‌ها اشاره می‌کند، بازگرداند.

ایده پخش متن لنگر در سراسر صفحه ای که به آن اشاره می کند در کرم وب جهانی [McBryan 94] پیاده سازی شد، به ویژه به این دلیل که به جستجوی اطلاعات غیر متنی کمک می کند و دامنه جستجو را با اسناد بارگیری شده کمتر گسترش می دهد. ما بیشتر از انتشار پیوند استفاده می کنیم زیرا متن لنگر می تواند به شما کمک کند نتایج با کیفیت بهتری دریافت کنید. استفاده موثر از متن لنگر به دلیل حجم زیادی از داده هایی که باید پردازش شوند، از نظر فنی چالش برانگیز است. در خزیدن فعلی ما از 24 میلیون صفحه، بیش از 259 میلیون لنگر نمایه شده داشتیم.

2.3 سایر ویژگی ها

علاوه بر PageRank و استفاده از Anchor Text، گوگل ویژگی های بسیار دیگری نیز دارد. اول، اطلاعات مکان برای همه بازدیدها دارد و بنابراین از نزدیکی در جستجو استفاده زیادی می کند. دوم، گوگل برخی از جزئیات ارائه بصری، مانند اندازه فونت کلمات را ردیابی می کند. کلمات با فونت های بزرگتر یا پررنگ تر از سایر کلمات وزن بیشتری دریافت می کنند. سوم، HTML صفحات خام کامل در یک مخزن موجود است.

3. کارهای مرتبط

تحقیقات پژوهشی در اینترنت تاریخچه کوتاه و مختصری دارد. کرم وب جهانی (WWWW) [McBryan 94] یکی از اولین موتورهای جستجوی وب بود. بسیاری دیگر از موتورهای جستجوی دانشگاهی، که بسیاری از آنها از شرکت های سهامی عام بودند، دنبال شدند. در مقایسه با رشد وب و اهمیت موتورهای جستجو، ا cpa 电子邮件列表 سناد ارزشمند کمی در مورد موتورهای جستجوی اخیر وجود دارد [Pinkerton 94]. به گفته مایکل مولدین (دانشمند ارشد Lycos Inc) [Mauldin] “سرویس های مختلف (از جمله Lycos) به دقت از جزئیات این پایگاه های داده محافظت می کنند. با این حال، کمی کار روی ویژگی های خاص موتورهای جستجو انجام شده است. کارهایی که می توانند با پردازش پس از پردازش نتایج موتورهای جستجوی تجاری موجود یا با تولید موتورهای جستجوی «انفرادی» در مقیاس کوچک، به خوبی نشان داده شوند. در نهایت، تحقیقات زیادی در مورد سیستم های جمع آوری اطلاعات، به ویژه مجموعه های به خوبی کنترل شده انجام شده است. در دو بخش بعدی، ما برخی از زمینه‌هایی را که این تحقیق برای کار بهتر در وب باید گسترش یابد، مورد بحث قرار می‌دهیم.

3.1 به دست آوردن اطلاعات

کار در سیستم های بازیابی اطلاعات به سال ها قبل برمی گردد و به خوبی توسعه یافته است [Witten 94]. با این حال، بیشتر تحقیقات در مورد سیستم های بازیابی اطلاعات بر روی مجموعه های همگن کوچک و به خوبی کنترل شده، مانند یک مقاله علمی یا داستان های خبری در یک موضوع مرتبط است. در واقع، کنفرانس بازیابی متن [TREC 96]، معیار کلیدی برای بازیابی اطلاعات، از مجموعه ای نسبتاً کوچک و به خوبی کنترل شده برای معیارهای خود استفاده می کند. تست “جسم بسیار بزرگ” تنها 20 گیگابایت است در مقایسه با 147 گیگابایت زمانی که ما 24 میلیون صفحه وب را جستجو کردیم. چیزهایی که در TREC به خوبی کار می کنند اغلب در وب به خوبی انجام نمی شوند. برای مثال، مدل فضای برداری استاندارد تلاش می‌کند سندی را که نزدیک‌ترین تقریب به پرس و جو را دارد، برگرداند، با توجه به اینکه هم پرس و جو و هم سند بردارهایی هستند که با وقوع کلمات مربوطه خود تعریف می‌شوند. در وب، این استراتژی معمولاً اسناد بسیار کوتاهی را که شامل یک پرس و جو و چند کلمه است برمی گرداند. به عنوان مثال، ما دیدیم که یک موتور جستجوی بزرگ صفحه‌ای را که فقط حاوی تصویر عبارت «بیل کلینتون سوکس» و «بیل کلینتون» بود، بازگرداند. برخی استدلال می کنند که در وب، کاربران باید در بیان آنچه می خواهند دقیق تر باشند و کلمات بیشتری را به درخواست های خود اضافه کنند. ما به شدت با این موضع مخالفیم. اگر کاربر درخواستی مانند “بیل کلینتون” را ارسال کند، باید نتایج معقولی دریافت کند زیرا اطلاعات با کیفیت بالایی در مورد این موضوع وجود دارد. با توجه به نمونه هایی از این دست، ما معتقدیم که کار بازیابی اطلاعات استاندارد باید برای مقابله موثر با وب گسترش یابد.

3.2 تفاوت بین وب و مجموعه های به خوبی کنترل شده

شبکه مجموعه وسیعی از اسناد ناهمگن کاملاً کنترل نشده است. اسناد موجود در وب در متا اطلاعات داخلی و خارجی که ممکن است در اسناد موجود باشد بسیار متفاوت است. برای مثال، اسناد می‌توانند شامل زبان‌ها (هم انسانی و هم برنامه‌نویسی)، واژگان (آدرس ایمیل، پیوندها، کد پستی، شماره تلفن، شماره محصول)، انواع یا قالب‌ها (متن، HTML، PDF، تصاویر، صداها) و حتی باشند. قابل تولید توسط ماشین (فایل های ورود یا خروجی از پایگاه داده). از سوی دیگر، ما متا اطلاعات خارجی را به عنوان اطلاعاتی تعریف می کنیم که می توان در مورد یک سند استخراج کرد، اما در آن وجود ندارد. نمونه‌هایی از متا اطلاعات خارجی شامل مواردی مانند شهرت منبع، فرکانس به‌روزرسانی، کیفیت، محبوبیت یا استفاده، و نقل‌قول‌ها است. نه تنها منابع خارجی ممکن برای فرااطلاعات متفاوت هستند، بلکه آنچه اندازه‌گیری می‌شود براساس مرتبه‌های بزرگی متفاوت است. به عنوان مثال، اطلاعات استفاده از صفحه اصلی را با یک مقاله تاریک و تاریخی که می‌تواند هر دهه بازدید داشته باشد، مقایسه کنید، مانند یاهو که در حال حاضر روزانه میلیون‌ها صفحه بازدید می‌کند. صادقانه بگویم، یک موتور جستجو باید با این دو مورد بسیار متفاوت برخورد کند.

یکی دیگر از تفاوت های بزرگ بین وب و مجموعه هایی که به طور سنتی به خوبی کنترل می شوند این است که تقریباً هیچ کنترلی بر روی کارهایی که افراد می توانند در وب انجام دهند وجود ندارد. این انعطاف‌پذیری با موتورهای جستجو برای انتشار چیزی که تأثیر فوق‌العاده‌ای بر افزایش ترافیک دارد و شرکت‌هایی که عمداً به دنبال دستکاری موتورهای جستجو برای کسب سود هستند، به یک مشکل جدی تبدیل می‌شوند. این مشکل در سیستم های بازیابی اطلاعات بسته سنتی بررسی نمی شود. همچنین جالب است بدانیم که تلاش‌های ابرداده تا حد زیادی موتورهای جستجوی وب را شکست داده‌اند، زیرا .