خوارزمية ياندكس الجديدة. الآفاق والتوقعات

أطلقنا سراحنا كتاب جديد"تسويق المحتوى في في الشبكات الاجتماعية: كيف تصل إلى أذهان المشتركين لديك وتجعلهم يقعون في حب علامتك التجارية.

يشترك

لقد كتبت مؤخرًا مقالًا مشابهًا حول هذا الموضوع وقررت أن تسليط الضوء على ماضي محرك البحث المحلي ضروري أيضًا لإكمال الصورة. لا تقترح رامبلر :)

في البداية من عام 1990 إلى عام 1996 كانت الشركة تحت اسم غير عاديكانت أركاديا تتطور منتجات البرمجيات، ترتبط ارتباطًا وثيقًا بالبحث عن الكلمات. كانت الخطوة الأولى نحو إنشاء محرك بحث، كما نعرفه الآن، هي إنشاء مصنف تلقائي للاختراعات يبلغ وزنه 10 ميغابايت. بفضل التطورات المكتسبة في أركاديا، كانت بداية ياندكس مثيرة للإعجاب.

الماضي البعيد: جميع خوارزميات ياندكس منذ عام 1997

  • 23 سبتمبر 1997 هو عيد الميلاد الرسمي لشركة ياندكس. منذ البداية، يمكن لمحرك البحث أن يأخذ في الاعتبار الشكل والمسافة بين الكلمات وتقييم مدى صلة الوثيقة بالاستعلام المُدخل.
  • نوفمبر 1997 - يمكن للمستخدمين الحصول على الإجابات ذات الصلة لاستفسارات اللغة الطبيعية. مثل "أين تشتري" و"أين تذهب" وما إلى ذلك.
  • 1998 - أضافت ياندكس القدرة على "العثور على مستند مماثل" عن طريق تعديل الوقت والنطاق الزمني.
  • 1999 – أصبح من الممكن البحث في فئات مختلفة: مناطق النص، والفئات، والصور. وفي نفس العام، تم إضافة مفهوم "فهرس الاقتباس". يظهر في البحث فلتر يهدف إلى تجنب المواد الإباحية والألفاظ البذيئة.
  • 2000 - ياندكس تتوسع إلى مناطق جديدة. على وجه الخصوص، Yandex.News. الآن يتم ترتيب النصوص حسب الأهمية.
  • 2001 – تجاوز حجم البيانات في فهرس محرك البحث 1 تيرابايت.
  • 2002 - بدأ مُحسّنات محرّكات البحث (SEO) في رفع المواقع بشكل نشط في البحث. طريقتان رئيسيتان: تبادل الروابط ووضع الروابط في الأدلة.
  • 2003 – وصلت شعبية تبادل الارتباطات إلى ذروتها. يظهر الخدمات التلقائيةلتبادل ظهورهم. واستمر هذا الاتجاه طوال عام 2004.
  • بداية عام 2005 – الترويج باستخدام الروابط (خدمات الترويج التلقائيالروابط) يتجاوز كل الحدود. تظهر الصفحات غير ذات الصلة على الإطلاق في أعلى نتائج البحث.

    كان من الممكن الترويج لأي موقع لأي طلب دون أي صعوبات خاصة - بدأت تظهر نكات مختلفة. في ذلك الوقت، إذا بحثت عن "عدو الشعب"، فيمكنك العثور على الموقع الإلكتروني للرئيس الروسي فلاديمير فلاديميروفيتش. وأظهر طلب البواسير النسخة الروسية من موقع مايكروسوفت.

  • نهاية عام 2005 - من المنطقي أن نفترض أن ياندكس بدأ في تدمير الروابط. قام ما يسمى بـ “مرشح Nepot” بإلغاء وزن الروابط من المواقع العاملة في تجارة الروابط.
  • 2006 - تم استبدال تبادل الروابط بتبادلات حيث كان من الممكن شراء رابط خلفي من مواقع مختلفة (مثل لوحات الإعلانات).
  • 2007 – أصبحت الروابط سلعة. وكان من المتوقع إنشاء بورصة كبيرة لشراء/بيع الروابط أوضاع مختلفة، على مصادر مختلفة، الخ. في تلك السنوات، كان من الممكن أن تحقق مثل هذه الأعمال دخلاً شهريًا جيدًا جدًا. وهذا يعني أن الجميع بدأوا في القيام بذلك. كان العمل الرئيسي في تحسين محركات البحث هو شراء الروابط الخلفية. في نفس العام، تم إصدار صيغة تصنيف جديدة، والتي بموجبها، بالنسبة للاستعلامات عالية التردد والكلمة الواحدة، جاءت الصفحات الرئيسية للمواقع بشكل أساسي إلى الأعلى.

حان وقت التغيير في ياندكس: تاريخ التحديثات من 2007 إلى 2009

  • 20 ديسمبر 2007 – تحديث خوارزمية التصنيف. المحاولات الأولى لمكافحة البريد العشوائي. يتم استبعاد الموارد التي أساءت استخدام إنشاء ملف تعريف الارتباط بشكل كبير من نتائج البحث.
  • 17 يناير 2008 - "8 SP1". أول خوارزمية ياندكس تم منحها الاسم الخاص، وإن لم يكن واضحا جدا. من الآن فصاعدا، تشغل المواقع القديمة والموثوقة الجزء العلوي من البحث. يظهر مفهوم "trastrunk"، درجة الثقة في الموقع. بالمناسبة، تعد شركة ياندكس الآن بتسمية جميع خوارزمياتها بأسماء المدن.
  • 19 مارس 2008 - أصبحت عملية التصفية التي تهدف إلى مكافحة الروابط المشتراة أكثر صرامة. معظم المواقع التي اشترت روابط خلفية تتراجع في مواضعها. ولكن لمفاجأة الجميع، فإن الإجراءات المتخذة لم تؤدي إلا إلى جعل نتائج البحث أسوأ، فعاد كل شيء إلى مكانه.
  • 16 مايو 2008 - "ماجادان". لقد تعلم محرك البحث قراءة الحروف والترجمات والاختصارات. أصبح البحث في المواقع الأجنبية متاحا. تم تخفيف تصفية اختيار المستندات. وقد تضاعف عدد عوامل الترتيب. تم إصدار "Magadan 2.0" على الفور تقريبًا. تمت إضافة عوامل جديدة أخذت في الاعتبار تفرد المحتوى وبدأت في تصنيف الطلبات إلى تجارية/غير تجارية ومعتمدة على الموقع الجغرافي/غير مستقلة عن الموقع الجغرافي.
  • 12 سبتمبر 2008 - "ناخودكا". زيادة الوزن الصفحات الداخلية. الآن للتردد المتوسط ​​وبعض استعلامات عالية التردديمكنك العثور ليس فقط على الصفحات الرئيسية في البحث. تشتد حدة المعركة ضد مواقع إخفاء الهوية (المواقع التي تم إنشاؤها للتلاعب بحركة المرور). كبار المسئولين الاقتصاديين السوداءطريقة). تم توسيع قاموس الاتصالات.
  • 10 أبريل 2009 - "أرزاماس". تحسين التعرف على الأخطاء المطبعية في الاستعلامات. فيصبح الناتج . الآن يأخذ محرك البحث في الاعتبار منطقة المستخدم. على المدى " الترويج الإقليمي" وقد تم تحديد 19 منطقة رئيسية.
  • 28 سبتمبر 2009. الفلتر 17. وفقًا لشركة Yandex، يعمل الفلتر منذ عام 2006. ولكن في وقت سابق لم يكن حضوره واضحا جدا. يهدف المرشح إلى مكافحة المواقع ذات الجودة المنخفضة، على سبيل المثال، تلك التي تم إنشاؤها وملؤها تلقائيًا.
  • 10 نوفمبر 2009 - "سنجينسك". أصبحت مواقع المعلومات الآن رائدة في البحث عن الاستعلامات عالية التردد المكونة من كلمة واحدة، لتحل محل الاستعلامات التجارية. الولادة الرسمية لـ Matrixnet، وهي طريقة جديدة للتعلم الآلي. الآن أصبحت جميع الطلبات التي تميز المواقع مترابطة. الشائعات الأولى حول العوامل السلوكية.

    أصبح تحسين محركات البحث (SEO) أكثر صعوبة.

  • 18 ديسمبر 2009 - AGS 30. الآن أصبح الفلتر أكثر ذكاءً. بدأ في استبعاد من الفهرس ليس فقط المواقع غير الفريدة، ولكن أيضًا الموارد التي لا تقدم أي فائدة.
  • 22 ديسمبر 2009 - "كوناكوفو". ولدعم أرزاماس، زاد عدد المناطق من 19 إلى 1250.

تغيير خوارزميات ياندكس: اليوم

  • 20 يناير 2010 – مكافحة الأغطية القدمية. قدمت Yandex مرشحًا للنصوص الضخمة المشبعة بالكلمات الرئيسية.
  • 6 أغسطس 2010 - "أوبنينسك". تم توسيع صيغة التصنيف، والتي أثرت في المقام الأول على الاستعلامات الجغرافية المستقلة. أثرت الخوارزمية أيضًا سلبًا على الترويج بروابط منخفضة الجودة. في عام 2010، تم تأكيد الشائعات حول العوامل السلوكية.
  • 15 ديسمبر 2010 - كراسنودار. اثنين من الابتكارات الرئيسية. الأول كان تقنية "الطيف"، التي استجابت لطلبات المستخدمين الغامضة، مما أدى إلى إضعاف الناتج بإجابات مختلفة. مثال كلاسيكياستعلام غامض "نابليون" – ماذا يريد المستخدم؟ كيك؟ القائد؟ فرقة موسيقية؟ لذلك تم إنشاء الطيف لتلبية جميع الاحتياجات المحتملة للطلبات الغامضة. الابتكار الثاني كان فهرسة وسائل التواصل الاجتماعي. شبكة فكونتاكتي. الآن يمكنك عبر شريط البحثيمكنك العثور على ملفات تعريف المستخدمين من الشبكة الاجتماعية.
  • مايو 2011 – فقدت العديد من المواقع مواقعها بسبب موجة من التشاؤم اليدوي بسبب العوامل السلوكية الغش.
  • 17 أغسطس 2011 - ريكيافيك. تحسين التخصيص. إضافة ""، الآن، عند إدخال صيغة في شريط البحث، يتلقى المستخدم إجابة على الفور.
  • 13 سبتمبر 2011 - "أنت غير مرغوب فيه". تصفية النص غير المرغوب فيه. تم تخفيض تصنيف النصوص التي تحتوي على معدل منخفض من العوامل السلوكية.
  • 12 ديسمبر 2012 - "كالينينغراد". الفكرة الرئيسيةافعلها بالكامل البحث الشخصي. يُعرض على المستخدم الآن تلميحات بناءً على سجله السابق. بالإضافة إلى كالينينغراد، تحسن البحث عن المحتوى على الشبكات الاجتماعية خلال العام. بالنسبة للاستعلامات الغامضة، ظهرت تلميحات لتوضيح ما يريده المستخدم. وبعد ذلك بقليل، بدأت التلميحات تأخذ في الاعتبار طلبات المستخدم السابقة. بدأت إضافة الملفات الشخصية على الشبكات الاجتماعية إلى المقتطفات. بدأت ياندكس في التعاون مع تويتر. بعد أن فتحت قاعدة البيانات الخاصة بي على Yandex، تحسنت سرعة فهرسة الموقع بالتغريدات العادية بشكل ملحوظ. المواقع التي تحتوي على عناصر منبثقة تم إخفاءها رسائل النظاموإشارات وسائل التواصل الاجتماعي.
  • فبراير 2013 - بدأت ياندكس في الإبلاغ عن المواقع المصابة بالفيروسات أو التي تحتوي على تعليمات برمجية ضارة.
  • 13 مايو 2013 – تمت إضافة أقرب محطة مترو وساعات عمل المنظمة إلى العنوان الموجود في مقتطف الموقع.
  • 16 مايو 2013 - منصة "الجزر". تغيير جذري في شكل محرك البحث. خططت Yandex للقيام بذلك حتى يتمكن المستخدم من حل مشاكله دون الذهاب إلى موقع معين، ولكن على الفور في محرك البحث. على سبيل المثال، الطلب/الشراء/الاتصال وما إلى ذلك. لسبب ما، استمر تأخير تاريخ الإصدار.
  • 6 نوفمبر، 2013 - AGS 40. تشديد آخر مرشح AGSأ. من الآن فصاعدا، أصبح الفلتر أوتوماتيكيا بالكامل.
  • عام 2014. من الآن فصاعدًا، لم يقم مرشح AGS بإخراج الصفحات من الفهرس، ولكنه أعاد ضبط TCI. مكافحة نشطة ضد الروابط. الإعلان عن صيغة تصنيف بدون روابط لعدد من المواضيع التجارية في موسكو. موجة أخرى من التشاؤم بشأن تعزيز الجبهة الوطنية. موجة من التشاؤم للإعلانات العدوانية.
  • 15 أبريل 2015 – إعلان “مينوسينسك”. في Bynet Week، أعلنت ياندكس خوارزمية جديدة، بهدف مكافحة الروابط العشوائية. والمثير للدهشة أنه قبل تطبيق العقوبات على المواقع، أرسلت ياندكس تحذيرات، وهو أمر غير معتاد بالنسبة لمحرك البحث.
  • 15 مايو – 23 يونيو 2015. خلال هذه الفترة القصيرة من الزمن، مرت ثلاث موجات، مما أدى إلى خفض مستوى المواقع بسبب الارتباطات العشوائية.

خوارزميات بحث ياندكس الجديدة

2 فبراير 2016 - فلاديفوستوك. أطلقت Yandex خوارزمية جديدة لتقييم "ملاءمة الهاتف المحمول". الآن، في نتائج بحث الأجهزة المحمولة، أحد عوامل التصنيف المهمة هو قدرة الموقع على التكيف مع الأجهزة المحمولة.

يتبع

مهما أصبحت الحياة صعبة متخصصون في تحسين محركات البحث، كلنا نستخدم البحث. ولل السنوات الاخيرةلقد تغيرت نتائج البحث كثيرا. وإلى الأفضل. آمل أن تستمر ياندكس في الاختراع الطرق الأصلية، مما يحد من القدرة على التأثير على نتائج البحث. هذا فقط يجعل العمل أكثر إثارة للاهتمام.

أطلقت ياندكس خوارزمية تصنيف جديدة - "كوروليف". الآن يطابق محرك البحث معنى استعلام البحث والصفحة. هذا مناسب جدًا للمستخدمين. ومع ذلك، ماذا تعني الخوارزمية الجديدة لمحسني الأداء ومالكي مواقع الويب، وكيف سيتغير الترويج وما إذا كان ينبغي لنا أن نتوقع تغييرات في حركة المرور.

أكثر من أي وقت مضى، كان عالم تحسين محركات البحث بأكمله ينتظر إطلاق خوارزمية التصنيف الجديدة، التي تم الإعلان عنها في 22 أغسطس 2017. بالطبع، تعد مثل هذه الإعلانات أمرًا غير معتاد تمامًا بالنسبة لشركة Yandex؛ وعادةً ما يفضلون عدم التحدث عن خططهم، والإعلان عن الإصدار التالي من خوارزمية التصنيف بعد وقوعها.

في 22 أغسطس 2017، أطلقت ياندكس نسخة جديدة من البحث. تعتمد على خوارزمية البحث"Korolev" (منذ عام 2008، تتم تسمية خوارزميات التصنيف الجديدة في Yandex بأسماء المدن). باستخدام الشبكة العصبية، تقارن الخوارزمية معنى الاستعلامات وصفحات الويب - وهذا يسمح لـ Yandex بالاستجابة لها بشكل أكثر دقة استعلامات معقدة. للتدريب نسخة جديدةيستخدم البحث إحصائيات البحث وتقييمات ملايين الأشخاص. وبالتالي، لا يساهم المطورون فقط في تطوير البحث، ولكن أيضًا جميع مستخدمي Yandex.

نطاق تطبيق الخوارزمية الجديدة لا يؤثر عمليا على مجالات الاهتمام التقليدية لتحسين محركات البحث، والتي تشمل في المقام الأول نتائج البحث التجارية. وتبين أن "كوروليف" هو استمرار منطقي لخوارزمية "باليخ" وهو مصمم لخدمة الذيل الطويل من طلبات الترددات الدقيقة، التي يتم طلبها عادة على لغة طبيعية. خصوصية مثل هذه الاستعلامات هي أن المستندات ذات الصلة بها قد لا تحتوي على العديد من الكلمات المدرجة في الاستعلام. وهذا يربك خوارزميات التصنيف التقليدية بناءً على أهمية النص.

تم العثور على حل في شكل استخدام الشبكات العصبية، التي يتم تدريبها، من بين أمور أخرى، على سلوك المستخدم. ولذلك، تعمل خوارزمية ياندكس الجديدة على أساس الشبكة العصبية. ويتعلم من أمثلة استعلامات المستخدم ويختار الإجابات بناءً على معنى النص الموجود على الصفحة. وهذا يعني، على وجه الخصوص، أنه سيكون أكثر فعالية في التعامل مع الاستعلامات غير القياسية عندما لا يكون المستخدمون أنفسهم متأكدين من اسم ما يريدون العثور عليه. يعود الكثير إلى قوة الحوسبة هنا.

بشكل عام، مثل هذا النهج لحل مشكلة ترتيب ذيل الاستعلامات ذو الترددات الدقيقة الطويلة ليس جديدًا. وبالعودة إلى عام 2015، أصبح معروفًا عن التكنولوجيا المستخدمة محرك البحث Google للعثور على إجابات للاستفسارات متعددة الكلمات المطروحة باللغة الطبيعية - RankBrain. تتيح لك هذه التقنية، التي تعتمد أيضًا على التعلم الآلي، التعرف على أكثر الأشياء كلمات ذات معنىفي الاستعلامات، وتحليل السياق الذي يتم فيه البحث. يتيح لك ذلك العثور على المستندات ذات الصلة التي لا تحتوي على جميع كلمات الاستعلام.

بالإضافة إلى ذلك، تعمل الخوارزمية أيضًا مع الصور. فهو يقوم بتحليل محتوى الصورة وتحديد الخيار الضروري بناءً عليها، وليس فقط من الوصف الموجود في العلامات أو النص المحيط بها.

ومع ذلك، فإن الذيل الطويل من الاستعلامات متعددة الكلمات ذات التردد الصغير في اللغة الطبيعية قد يكون موضع اهتمام "ناقدي" دلالات المعلومات - منشئو ما يسمى بمواقع المعلومات "لجميع المناسبات". بشكل عام، إنهم يحاولون بالفعل قدر الإمكان كمية كبيرةالطلبات المعروفة لهم، والتي تمكنوا من الحصول عليها باستخدام أساليب مختلفةجمع الدلالات وتنظيم الإدخال الدقيق للنصوص الخاصة بك. في نفس المكان الذي لن يكون هناك أحداث محددة، أي. بالنسبة للاستعلامات التي لم يتم امتصاصها من قبل "المكنسة الدلالية" لمنشئي مواقع المعلومات أو التي لم يتمكنوا من تقديم تواجدات دقيقة لها في المحتوى، يبدأ نطاق "Korolev"، المصمم للبحث عن المراسلات بين استفسارات وإجابات في حالة وجود تقاطعات قليلة بينهما الكلمات الدالة. في مثل هذه الحالات، سيزيد Korolev بلا شك متطلبات جودة المحتوى، وستستفيد المقالات القابلة للقراءة المثيرة للاهتمام أكثر من مجموعات تكرارات العبارات الرئيسية المخففة بالماء، لأن هذه المقالات بالتحديد هي التي قد تحتوي على إشارات مفيدة للخوارزمية الجديدة. حسنًا، يمكن لجميع مُحسنات محركات البحث الأخرى الاسترخاء حقًا - يتم تأجيل الضرب التالي. ولا يوجد ضحايا أو دمار.

من خلال إطلاق Palekh، علمت ياندكس الشبكة العصبيةتحويل استعلامات البحث وعناوين صفحات الويب إلى مجموعات من الأرقام - المتجهات الدلالية.

من الخصائص المهمة لهذه المتجهات أنه يمكن مقارنتها مع بعضها البعض: كلما كان التشابه أقوى، كلما كان الاستعلام والرأس أقرب إلى بعضهما البعض في المعنى.

كيف يختلف عن باليخ؟

الفرق الرئيسي بين الخوارزمية الجديدة بالإضافة إلى التحسين التنفيذ الفني، يكون القدرة على التعرف على "معاني" مماثلة في جميع أنحاء الوثيقة، وليس فقط من خلال العنوان (العنوان)،الذي يظهر في نافذة المتصفح.

كيف تعمل خوارزمية كوروليف

خوارزمية البحث "كوروليف" يقارن المتجهات الدلاليةمحركات البحث الاستعلامات وصفحات الويب بأكملها- وليس فقط عناوينهم. وهذا يسمح لنا بالوصول إلى مستوى جديد من فهم المعنى.

كما هو الحال في Palekh، يتم تحويل نصوص صفحات الويب إلى متجهات دلالية بواسطة شبكة عصبية. هذه العملية تتطلب الكثير موارد الحوسبة. لذلك، يحسب كوروليف متجهات الصفحة ليس في الوقت الفعلي، ولكن مقدمًا، في مرحلة الفهرسة.

عندما يسأل شخص ما استعلامًا، تقوم الخوارزمية بمقارنة متجه الاستعلام مع متجهات الصفحة المعروفة له بالفعل.

تأثير "الملكة".

تعد القدرة على فهم المعنى مفيدة بشكل خاص عند معالجة الاستعلامات النادرة وغير العادية - عندما يحاول الأشخاص وصف خصائص كائن ما بكلماتهم الخاصة ويتوقعون أن البحث سيطالب باسمه.


يتيح لك هذا المخطط البدء في تحديد صفحات الويب التي تطابق استعلام البحث الخاص بك في المراحل الأولى من التصنيف. في "باليخ" التحليل الدلالي- إحدى المراحل النهائية: تمر بها 150 وثيقة فقط. في كوروليف يتم إنتاجه من أجل 200.000 وثيقة.

بالإضافة إلى ذلك، لا تقوم الخوارزمية الجديدة بمقارنة نص صفحة الويب مع استعلام البحث فحسب، بل تهتم أيضًا بالاستعلامات الأخرى التي تجذب الأشخاص إلى تلك الصفحة.

بهذه الطريقة يمكنك إنشاء اتصالات دلالية إضافية.

الناس يعلمون الآلات

إن استخدام التعلم الآلي، وخاصة الشبكات العصبية، سوف يجعل من الممكن عاجلاً أم آجلاً تعليم البحث كيفية التعامل مع المعنى على المستوى البشري. لكي تفهم الآلة كيفية حل مشكلة معينة، عليك أن تظهرها كمية كبيرةأمثلة: الإيجابية والسلبية. يتم تقديم هذه الأمثلة من قبل مستخدمي Yandex.

يتم تدريب الشبكة العصبية التي تستخدمها خوارزمية كوروليف على شبكة غير شخصية إحصائيات البحث. تأخذ أنظمة جمع الإحصائيات في الاعتبار الصفحات التي يذهب إليها المستخدمون لاستعلامات معينة ومقدار الوقت الذي يقضونه هناك.

إذا فتح شخص ما صفحة ويب وعلق هناك لفترة طويلة، فمن المحتمل أنه وجد ما كان يبحث عنه - أي أن الصفحة تجيب على طلبه جيدًا. وهذا مثال إيجابي.

من الأسهل بكثير العثور على أمثلة سلبية: ما عليك سوى تلقي طلب وأي صفحة ويب عشوائية تكون مجهولة المصدر

تحتاج شركة Matrixnet، التي تقوم ببناء معادلة التصنيف، إلى مساعدة الأشخاص أيضًا.

تنظيف

لكي ينمو البحث، يجب على الأشخاص تقييم أدائه باستمرار. ذات مرة، فقط موظفي ياندكس، ما يسمى المقيمون.ولكن كلما زاد عدد التقييمات، كلما كان ذلك أفضل - لذلك جذبت Yandex الجميع إلى هذا وأطلقت خدمة Yandex.Toloka. الآن تم تسجيل أكثر من مليون مستخدم هناك: يقومون بتحليل جودة البحث والمشاركة في تحسين خدمات Yandex الأخرى. يتم دفع مهام Toloka - يُشار إلى المبلغ الذي يمكن كسبه بجوار المهمة. على مدى أكثر من عامين من وجود الخدمة، أعطى المتحدثون حوالي ملياري تقييم.

في الصميم البحث الحديثكذب خوارزميات معقدة. يتم اختراع الخوارزميات من قبل المطورين، ويتم تدريسها من قبل الملايين من مستخدمي ياندكس. أي طلب هو إشارة مجهولة تساعد الآلة على فهم الأشخاص بشكل أفضل. بحث جديدهو البحث الذي نقوم به معًا.

في 2 نوفمبر 2016، أعلنت ياندكس عن تقديم خوارزمية جديدة ترتيب البحث"باليخ". الآن سيتعين على مشرفي المواقع التكيف مع متطلباته.

اسمحوا لي أن أذكركم بأن الخوارزميات الترويج لمحرك البحث، كما يوحي اسمها، مخصصة للوقوف في قائمة الانتظار نتائج البحثبواسطة طلب محدد. وهذا مهم جدًا بالنسبة لنا، أصحاب المواقع، لأن... من يحتاج إلى موقع يقع في المركز الخمسين أو أكثر في نتائج البحث - لن يجده أحد ولن يأتي أحد إلى هناك.

عادةً ما يُنصح مشرفو المواقع المبتدئون بالتركيز على الاستعلامات منخفضة التردد، حيث يكون اقتحام القمة أسهل بكثير وبوقت ومال أقل بكثير. إن مثل هذه الطلبات بالتحديد هي التي يتجه إليها باليخ.

علاوة على ذلك، فهو لا يركز فقط على الاستعلامات ذات التردد المنخفض، ولكن أيضًا على الاستعلامات ذات التردد المنخفض جدًا وحتى الاستعلامات الفريدة. وكبار المسئولين الاقتصاديين ذوي الخبرة، كقاعدة عامة، لا يهتمون كثيرًا بمثل هذه الطلبات، مما يمنحنا فرصة لجذب المزيد من الزوار إلى مواقعنا.

جوهر Palekh هو أن الترتيب الآن لا يعتمد فقط على الدقة العبارات الرئيسية(من الصعب جدًا تخمينها)، ولكنها أيضًا متشابهة في المعنى.

لحل هذه المشكلة، لجأت ياندكس إلى الشبكات العصبية، التي لم تتم برمجتها بالمعنى المعتاد للكلمة، ولكنها ذاتية التعلم. وبفضل التعلم الذاتي، تستطيع هذه الشبكات فهم معنى عبارات البحث والبحث عن عبارات مماثلة. اقرأ المزيد عن هذا على مدونته المخصصة لباليخ.

ونتيجة لذلك، تمكنت ياندكس من تصنيف العبارات بشكل أكثر نشاطًا مما يسمى. "ذيل طويل" ؛ اسمحوا لي أن أذكر أولئك الذين نسوا ما هو هذا.

ما هو "الذيل الطويل"

في عام 2004، أجرى كريس أندرسون، رئيس تحرير مجلة Wired، دراسة عن مبيعات المنتجات (أي منتج). لقد كان مهتمًا بالسؤال: ما الذي يحقق أكبر قدر من الربح - المنتجات الأكثر شيوعًا اليوم (ما يسمى بالأكثر مبيعًا) أو المنتجات التي سقطت من قائمة أكثر الكتب مبيعًا وأصبحت سلعًا استهلاكية (البائعين).

اتضح أن الربح من كلا المجموعتين من البضائع هو نفسه تقريبًا: الأكثر مبيعًا يحققون ربحًا كبيرًا جدًا في الفترة الأولى من ظهورهم، ثم، مع ظهور الكتب الأكثر مبيعًا الأخرى - الأحدث، يصبح الأولون بائعين، لكنهم يستمرون لتحقيق الربح - حتى تتم إزالتها من البيع، تمامًا كما كانت خلال الفترة الأكثر مبيعًا.

إذا قمت بترتيب كل هذه البيانات على الرسم البياني، سوف تحصل على شيء من هذا القبيل:

وقد تم تطبيق هذه النظرية على مجالات مختلفة من النشاط البشري، بما في ذلك تحسين محركات البحث (SEO). وقد أعطت نتائج ممتازة: فقد اتضح أن ما يصل إلى نصف مستخدمي الإنترنت ينقرون على الاستعلامات التي تشكل "الذيل الطويل".

تخيل أنك تعيش في تشيريبوفيتس وترغب في شراء طاولة. سوف تكتب ل شريط العنوانطلب "أثاث" أو "شراء مكتب ذو قاعدتين بسعر رخيص في تشيريبوفيتس"؟

يتم تصنيف الاستعلام "الأثاث" على أنه استعلام رئيسي، ويتم تصنيف استعلامنا الطويل على أنه استعلام طويل. كيف المزيد من الكلماتفي الاستعلام، كلما ظهر بشكل أسرع في الاستعلامات الأقل تكرارًا. يُنظر عادةً إلى أن الاستعلامات التي تحتوي على أكثر من كلمتين أو ثلاث كلمات يتم تصنيفها على أنها استعلامات منخفضة التردد، وإذا كان هناك المزيد من الكلمات، فهذا ذيل طويل نموذجي.

يظهر مثال ممتاز في الصورة:

الصورة 2

وفقًا لإحصائيات ياندكس، من بين 280 مليون طلب يوميًا، هناك ما يقرب من 100 مليون طلب من منطقة الذيل الطويل. وعلى هذا العدد من الطلبات، من الضروري الاستجابة بطريقة أو بأخرى، وأجاب - باليخ.

لماذا باليخ؟

الصور ب" ذيل طويل» تم تصويرها بطرق مختلفة، وعادةً ما تستخدم صور الحيوانات: الجرذان، والسحالي، وما إلى ذلك. وهذا مثال على الديناصورات:

تين. 3

ولكن بما أن هناك الآن جنونا من الوطنية في بلدنا، كان على ياندكس أن يجد شيئا لم يفعله أي شخص آخر، ولكن الروس فقط. وجد طائر النار:

الشكل 4

غالبًا ما يتم تصوير طائر النار في منمنمات باليخ، ومن ثم "باليخ"، حسنًا؟

لكن الصورة والاسم هما الشيء العاشر، ماذا يجب علينا نحن أصحاب المواقع أن نفعل وماذا نتوقع؟

حددنا المسار لباليخ

سأقول على الفور أنه لا يوجد شيء خاص يمكن توقعه من Palekh: لقد تم استخدامه بواسطة Yandex لمدة شهرين حتى الآن وتمكنت من تصنيف المواقع. لذلك، إذا كان لديك مؤخرابطريقة ما تغير موقف الموقع، فهذا هو فعله. أعلنت شركة Yandex عن ذلك فقط في 2 نوفمبر، لكن الخوارزمية سارية بالفعل.

لقد تطرق في المقام الأول إلى تلك المواقع التي تحتوي على الكثير من المحتوى. إذا كان المحتوى جيدا، فقد بدأ الموقع في الترتيب بالإضافة إلى الكلمات الرئيسية الجديدة - للأفضل استعلامات التردد المنخفض. وإذا اعتبرته ياندكس سيئة ...

بطبيعة الحال، تعتبر ياندكس أن المحتوى الموجود على ما يسمى بمواقع الثقة جيد. كيفية الوصول إلى المواقع الموثوقة؟ - إنها طويلة ومكلفة. أسرع طريق يؤدي من خلال. هنالك تسجيل مجاني، لكنني سأقول على الفور أن فرصتكم، أيها المبتدئين، ضئيلة. وهناك - 14500 روبل بالإضافة إلى ضريبة القيمة المضافة. كل شيء أبسط هنا، لكن لن يمنحك أحد ضمانًا بنسبة 100٪.

حسنًا، أو اكتب، اكتب، اكتب وفي نفس الوقت حاول جاهدًا وستحظى بالثقة. إن الطرق المؤدية إلى الثقة موصوفة جيدًا على الإنترنت، فابحث عنها.

فن: ف

... وأخبر أصدقاءك عنها:

يمكنك أيضًا الاشتراك في النشرة الإخبارية -
لدي الكثير من المواد المثيرة للاهتمام في المخزون.

معلومات الخدمة حول المقال:

تتناول المقالة بإيجاز ميزات خوارزمية Yandex الجديدة وتعطي نصيحة عمليةلأصحاب المواقع المبتدئين

بقلم: سيرجي فاولين

تاريخ النشر: 11/08/2016


Palekh - خوارزمية ياندكس الجديدة, 5.0 من أصل 5 بناءً على 3 تقييمات

اليوم، تم إطلاق خوارزمية بحث جديدة في Yandex، والتي تقارن، باستخدام الشبكة العصبية، معنى الاستعلامات وصفحات الويب - وهذا يسمح لـ Yandex بالاستجابة بشكل أكثر دقة لاستفسارات المستخدم المعقدة وإنتاج نتائج أكثر صلة. كما كتبنا سابقًا، تعتمد الخوارزمية على تعزيز الفئة: أي أنها قادرة على أن تأخذ في الاعتبار ما يسمى بالميزات الفئوية - وهي الميزات التي تأخذ واحدة من عدد محدود من القيم.

إطلاق خوارزمية "الملكات" الجديدة

تم عرض خوارزمية البحث الجديدة في القبة السماوية بموسكو، والتي يبدو أنها تشير إلى "تغيرات على المستوى الكوني". قام مقدمو العرض بالضغط على "الزر الأحمر" مباشرة على خشبة المسرح، مما يشير إلى إطلاق خوارزمية جديدة اسمها "كوروليف".

الذكاء الاصطناعي يقترب من البشر

اتخذت Yandex الخطوة الأولى نحو البحث بالمعنى العام الماضي عندما قدمت خوارزمية بحث Palekh. لأنه يقوم على الشبكة العصبية. تُظهر الشبكات العصبية نتائج ممتازة في المهام التي كان الناس يتعاملون معها تقليديًا سيارات أفضل: على سبيل المثال، التعرف على الكلام أو الأشياء في الصور.

من خلال إطلاق Palekh، قامت Yandex بتعليم شبكة عصبية لتحويل استعلامات البحث وعناوين صفحات الويب إلى مجموعات من الأرقام - المتجهات الدلالية. من الخصائص المهمة لهذه المتجهات أنه يمكن مقارنتها مع بعضها البعض: كلما كان التشابه أقوى، كلما كان الاستعلام والرأس أقرب إلى بعضهما البعض في المعنى.

كيف تعمل خوارزمية كوروليف الجديدة

تقوم خوارزمية بحث كوروليف بمقارنة المتجهات الدلالية استعلامات البحثوصفحات الويب بأكملها، وليس عناوينها فقط. كما في حالة Palekh، يتم تحويل نصوص صفحات الويب إلى متجهات دلالية بواسطة شبكة عصبية. لا يحسب Korolev متجهات الصفحة في الوقت الفعلي، ولكن مقدما، في مرحلة الفهرسة.عندما تقوم بإصدار استعلام، تقوم الخوارزمية بمقارنة متجه الاستعلام مع متجهات الصفحة التي تعرفها بالفعل.

يتيح لك هذا المخطط البدء في تحديد المستندات التي تطابق معنى الاستعلام في المراحل الأولى من التصنيف. في خوارزمية Palekh، يعد التحليل الدلالي أحد المراحل النهائية التي تمر عبرها 150 مستندًا فقط. في كوروليف، يتم إجراء التحليل الدلالي لـ 200 ألف وثيقة - أكثر من ألف مرة! في الوقت نفسه، لا يقارن Korolev فقط نص صفحة الويب مع الطلب، ولكن أيضا ينتبه إلى الاستعلامات الأخرى التي تقود المستخدمين إلى الصفحةمن البحث، مما يسمح لك بإنشاء اتصالات دلالية إضافية بين الاستعلامات والصفحة.

الذي يدرب الشبكة العصبية

يتم تدريب الشبكة العصبية لخوارزمية كوروليف على إحصائيات البحث المجهولة المصدر. تأخذ أنظمة جمع الإحصائيات في الاعتبار الصفحات التي ينتقل إليها المستخدمون بناءً على الطلبات المختلفة ومقدار الوقت الذي يقضونه عليها. إذا فتح المستخدم صفحة ويب وقضى الكثير من الوقت عليها، فيمكننا أن نفترض أنه تلقى إجابة لسؤاله - أي أن الصفحة تجيب على طلبه جيدًا.

لكي ينمو البحث، يجب على الأشخاص تقييم أدائه باستمرار. منذ وقت ليس ببعيد، كان موظفو Yandex فقط - المقيمون - يشاركون في تقييم عمليات البحث. ولكن مع تطور التقنيات والمشاريع، أصبح عدد المقيمين غير كاف بشكل كارثي. لذلك، قررت Yandex إشراك الجميع في هذا الأمر وأطلقت خدمة Yandex.Toloka.

حاليًا، تم تسجيل أكثر من مليون مستخدم في الخدمة: يقومون بتحليل جودة البحث والمشاركة في تحسين خدمات Yandex الأخرى. على مدى أكثر من عامين من وجود الخدمة، أعطى المتحدثون حوالي ملياري تقييم.

يعتمد البحث الحديث على خوارزميات معقدة للغاية اخترعها المطورون، وقام بتدريسها الملايين من مستخدمي Yandex. أي طلب هو إشارة مجهولة تساعد الآلة على فهم الأشخاص بشكل أفضل.

كيف أرسلت ياندكس القطط إلى الفضاء- شاهد تسجيل العرض من القبة السماوية بموسكو.

تسجيل عرض ياندكس