لغة استرجاع المعلومات. نظام الفهرسة

واحدة من أهم عمليات المعالجة التحليلية والتركيبية للمعلومات كوسيلة استرجاع المعلومات– فهرسة الوثائق وطلبات المعلومات.

الفهرسة –عملية التعبير عن محتوى الوثيقة و (أو) طلبعلى لغة استرجاع المعلومات (IRL)باستخدام مصطلحات الفهرسة– مؤشرات التصنيف، عناوين المواضيع (PR)، الكلمات الدالة، واصفات، رموز . بمعنى آخر، الفهرسة هي عملية ترجمة محتوى المستندات والاستعلامات من اللغة الطبيعية إلى لغة البرمجة، مما يؤدي إلى إنشاء صورة البحث عن المستندات (DOI) وصورة البحث عن الاستعلام (QI). وبالتالي، يتم "تصغير" المعلومات الواردة في المستند وتقديمها في IPL في شكل فهرس أو عنوان موضوع أو واصف أو كلمة رئيسية.

لغة استرجاع المعلومات (IRL) –هذه لغة مصطنعة تم إنشاؤها خصيصًا للتعبير عن محتوى المستندات و (أو) الاستعلامات لغرض البحث اللاحق. IPL هو العنصر الرئيسي في الجهاز المنطقي الدلالي للمعلومات- محرك البحث(آي بي إس).

الحاجة إلى الخلق لغة مصطنعة(للتعبير عن المحتوى الدلالي للمستندات بغرض البحث فيها) يرجع ذلك إلى أن اللغة الطبيعية تتمتع بعدد من الخصائص التي تمنع استخدامها في تسجيل المعلومات واسترجاعها: وهذا هو الغموض وتعدد المعاني في الكلمات في اللغة الطبيعية. القيمة الدقيقةلا يمكن تحديد العديد من الكلمات إلا من خلال السياق الذي تُستخدم فيه (آلة الإيقاع، جرعة التأثير، وما إلى ذلك). ولا تسمح هذه العوامل بتحقيق التطابق الدقيق بين محتوى الوثيقة ووسائل التعبير عن هذا المحتوى.

تتفاقم الصعوبات في استخدام اللغة الطبيعية باعتبارها ILP بسبب حقيقة أن ILS قد لا تستخدم المستندات كمدخلات. النصوص الكاملةوالملخصات والشروح والأوصاف الببليوغرافية التي تكون نتيجة لانهيار محتويات المستندات.

المتطلبات الأساسية لـ IPJ:

· عدم الغموض.

· القوة الدلالية الكافية

· الانفتاح (إمكانية تعديل اللغة)

يحتوي كل IPL على مفردات محددة تمثل مجموعة من الوحدات المعجمية (LE)- تعيين مفهوم منفصل، في حده الأدنى وغير قابل للتجزئة في هذه الوظيفة. يتم استخدام مفردات اللغات الطبيعية باعتبارها LE في IPL - الكلمات، وعبارات عنوان الموضوع، والرموز الرقمية أو الأبجدية الرقمية، وما إلى ذلك.

نقطة مهمةعندما تكون الفهرسة هي إنشاء صورة بحث للمستندات (SID). بحث عن صورة الوثيقة- المحتوى الدلالي الرئيسي للوثيقة (وليس كل المعلومات الواردة فيها)، معبرًا عنه في شكل ملكية فكرية رسمية. يتم مطابقة PML بشكل فريد مع هذا المستند، ويتم البحث عن المستندات في مجموعة المستندات.


تتم فهرسة الطلب أيضًا من خلال ترجمة محتواه إلى FPJ. وبالتالي، يتم استدعاء مجموعة مصطلحات الفهرسة التي تعبر عن المحتوى الدلالي للاستعلام صورة استعلام البحث (POS).

ويتم البحث باستخدام مجموعة من مصطلحات الفهرسة. من أجل زيادة كفاءة البحث عن المعلومات عند الطلب، يمكن استكمال نقطة البيع بتعليمات خاصة حول تسلسل التنفيذ العمليات المنطقيةفي عملية البحث عن المعلومات، والتي تسمى ترتيب البحث.

يتم تنفيذ الفهرسة في العمليات التالية: التخصيص والتنظيم والفهرسة الإحداثية.

التنظيم –نوع من الفهرسة يتم فيه التعبير عن محتوى المستند و (أو) الطلب من خلال مؤشرات التصنيف، وفقًا لقواعد تصنيف معين IP (KS). يعتبر مبدأ الفهرسة هذا بمثابة تصنيف. ويوفر القدرة على تنظيم البحث عن المعلومات على أساس هرمي. متخصصون يقومون بعملية التنظيم في المكتبات و مراكز المعلومات، يطلق عليهم منظمون.

الخضوع- نوع من الفهرسة يتم فيه التعبير عن محتوى المستند و (أو) الطلب بواسطة عنوان الموضوع (SR) وفقًا لقواعد FL الخاصة بموضوع معين. يعتمد مبدأ فهرسة الموضوع على استخدام LEs، والتي هي جزء من عناوين المواضيع، لغة طبيعية(أي أن عناوين المواضيع التي تعبر عن POD وPOP يتم تجميعها على أساس اللغة الطبيعية). يوفر مبدأ فهرسة الموضوع القدرة على تنظيم البحث عن المعلومات أبجديًا. يتم تنفيذ عمليات الخضوع في المكتبات ومراكز المعلومات من قبل القائمين على الخضوع.

الفهرسة الإحداثية –نوع من الفهرسة يتم فيه التعبير عن المحتوى الدلالي للمستند و (أو) الاستعلام بشكل متعدد الأبعاد من خلال مجموعة متنوعة من الكلمات الرئيسية أو الواصفات. تسمى اللغة المخصصة للفهرسة الإحداثية لغة الواصف. يُطلق على المتخصصين الذين ينفذون الفهرسة الإحداثية اسم المفهرسين.

يعد مصطلحا "الفهرسة" و"المفهرس" شائعين في الأدب باللغة الإنجليزية ويستخدمان على نطاق واسع في ممارسات المكتبات الدولية والمحلية.

لذلك، اعتمادا على نوع الفهرسة، يتم تمييز تحديد الموضوع والتصنيف والواصف FP. وهي تشمل العديد من LEs والعلاقات النحوية (النموذجية والتركيبية) بينهما. LE هو تسمية لمفهوم منفصل، مقبول في IPL وغير قابل للتجزئة في هذه الوظيفة. يمكن أن تمثل LE الكلمات المقبولة في اللغة الطبيعية، والعبارات المحددة، والاختصارات، والرموز، والتواريخ، والاختصارات المقبولة عمومًا، والمكونات المعجمية المهمة كلمات صعبة، بالإضافة إلى التعليمات البرمجية المكافئة أو التسميات الرمزية للغة الاصطناعية. تسمح لك العلاقات النحوية بتنظيم LE في النظام.

متطلبات الملكية الفكرية:

· نقل محتويات الوثيقة بشكل كامل ودقيق في مصلحة الضرائب الأمريكية هذه؛

· ضمان تفسير لا لبس فيه لمصطلحات الفهرسة.

· السماح بفهرسة متعددة الجوانب.

· السماح بالتغييرات (الإضافات والتصحيحات)؛

· ضمان بساطة وسهولة الفهرسة واسترجاع المعلومات وصيانة مصلحة الضرائب هذه؛

· يعكس الوضع الحالينظم المصطلحات في هذا المجال من المعرفة.

يتم تسجيل قواعد استخدام IP في الجهاز المرجعي والمنهجي للملكية الفكرية المقابلة.

Syntagma (باليونانية - مبنية معًا ومتصلة) هي وحدة دلالية يتم التعبير عنها في سياق معين بكلمة أو مجموعة كلمات أو جملة. تدخل الكلمات الفردية (على سبيل المثال، "المنهجية"، "اليدوي"، "الفهرسة") في علاقات تركيبية في الجمل باستخدام الوسائل النحوية للغة، مثل الإعراب، والتصريف، وحروف الجر، وحروف العطف، وما إلى ذلك.

4. الموضوع: توحيد وتوحيد فهرسة الوثائق.

تم إدخال مصطلح "الفهرسة" في نظرية وممارسة المكتبات المحلية في عام 1991 بموجب GOST 7.59 - 90 "فهرسة الوثائق". المتطلبات العامة للتنظيم والخضوع." تم تقديم المعيار ليحل محل 3 معايير GOST سابقة تم تطويرها في الثمانينات:

1. GOST 7.39 – 82 التنظيم والخضوع. المصطلحات والتعاريف.

2. GOST 7.44 – 84 تنظيم الوثائق. المتطلبات العامة.

3. GOST 7.45 – 84 تحديد هوية المستندات. المتطلبات العامة.

وقد تم تطوير جميع هذه المعايير في إطار نظام معايير المعلومات والمكتبات والنشر (SIBID) لتوحيد عمليات الفهرسة. الهدف النهائي للتوحيد القياسي هو تحسين جودة وكفاءة العمل في هذه الحالة- جودة الفهرسة وعناصر جهاز المرجع والاسترجاع المرتبطة بالفهرسة. يولد أي معيار نتيجة لتعميم سنوات عديدة من الممارسة.

درس أمناء المكتبات من الكتب المدرسية المستخدمة مساعدات عملية. لم تكن هناك معايير تنظم العمليات التكنولوجية لعدة عقود. أدى ظهور الفهرسة المركزية (على سبيل المثال، بطاقات الفهرس المطبوعة)، وهو نظام تصنيف مشترك لجميع المكتبات أو العديد منها، إلى قيام أمناء المكتبات بفهم مدى استصواب المبادئ وأساليب العمل المشتركة. في مرحلة معينة من التطور علاقات دوليةوكانت هناك حاجة إلى تحقيق أقصى قدر من المواءمة بين ممارسات الفهرسة المحلية وممارسات الفهرسة الأجنبية.

تم التركيز على GOST 7.59 – 90 المعيار الدولي MS ISO 5963 "التوثيق - طرق تحليل الوثائق وتحديد موضوعها واختيار مصطلحات الفهرسة" التي قدمتها المنظمة الدولية للمعايير (ISO) في عام 1985.

يتمتع المعيار الدولي بعدد من المزايا التي أخذها المطورون المحليون في الاعتبار:

· كان الجزء المستقل من المعيار هو تعريفات المصطلحات الموجودة فيه (في المعايير المحلية تم اشتقاقها بواسطة GOST منفصل).

· قدم MS المفاهيم والمتطلبات المحددة عام، والتي تغطي كلا من التنظيم والموضوعية (في المعايير المحلية، تم اعتبار هذه العمليات بمثابة عمليات مستقلة غير ذات صلة في GOSTs منفصلة).

كانت مزايا ISO MS واضحة: من الأسهل إتقان أي عملية، وخاصة مجموعة من العمليات المعقدة، مثل التنظيم والتخصيص، إذا ميزنا بين العام والفرد والخاص. تقرر الاندماج المعايير المحليةوجعلها أقرب ما يمكن إلى المستوى الدولي من حيث الهيكل والمحتوى. وبالإضافة إلى ذلك، كان من الضروري وضع معيار لا يقتصر تطبيقه على حدود الإدارات. وهذا يعني أنه كان لا بد من حل عدد من المشاكل المصطلحية، لأنه في تلك السنوات كان هناك نظامان للمصطلحات يعملان بالتوازي في البلاد - المكتبة والمعلومات. تقرر استخدام المصطلحات الدولية الحديثة في المعيار.

أثناء تطوير GOST 7.59 - 90، جدي بحث علميبشأن تطبيق المعايير السابقة. وبالتالي، ينص GOST 7.44 - 84 على الصيانة الإلزامية في جميع المكتبات لفهرس الموضوعات الأبجدي (ASU) إلى كتالوج منهجي - ليس كجهاز مساعد، ولكن كجزء لا يتجزأ من الكتالوج. لذلك، تم وصف إصدار بطاقة APU أثناء معالجة الإيصالات الجديدة. وقد ارتكز هذا المطلب على أفكار حديثة مفادها أن شركة التأمين قادرة على أداء مهامها إذا توافر لها نظام رقابي مناسب. كما تم إدخال التحرير الإلزامي لقرار التصنيف وعناوين المواضيع الخاصة بالاتحاد البرلماني العربي. وبناء على ذلك، تم تغيير المعايير الزمنية الوطنية.

وأظهر الاستطلاع أن مئات المكتبات قامت بهذه العمليات، ولكن مع إدخال GOST أصبحت إلزامية لجميع المكتبات.

منذ يناير 2004، دخلت حيز التنفيذ كمعيار الدولة الاتحاد الروسي GOST 7.59 - 2003 "فهرسة الوثائق. المتطلبات العامة للتنظيم والخضوع."

وفقًا للمتطلبات الحديثة GOST 7.59 – 2003 يتكون "فهرسة المستندات" من 6 أقسام. هيكل GOST هو كما يلي:

وبعد بضع سنوات، تم تطوير معيار آخر ودخل حيز التنفيذ، مع الأخذ في الاعتبار عملية الفهرسة الثالثة - GOST 7.66 - 92 "فهرسة المستندات. المتطلبات العامة للفهرسة الإحداثية"، والتي استندت أيضًا إلى قواعد ISO 5963.

لقد مرت أكثر من عشر سنوات. على مر السنين، تغيرت ممارسات التصنيف في البلاد. العديد من المكتبات لديها الأنظمة الآليةوالكتالوجات الإلكترونية. وكان من الضروري توضيح قائمة وأسماء أنظمة التصنيف. مصطلحات المعتبر موضوع النقاش. تمت الموافقة على المعايير المصطلحية:

· GOST 7.73 - 96 SIBID. البحث ونشر المعلومات. المصطلحات والتعاريف.

· GOST 7.74 – 96 SIBID. لغات استرجاع المعلومات. المصطلحات والتعاريف.

· GOST 7.76 - 96 SIBID. جمع الوثائق. فهرس. الفهرسة. المصطلحات والتعاريف.

منذ يناير 2004، GOST 7.59 - 2003 "SIBID. فهرسة الوثائق. المتطلبات العامة للتنظيم والخضوع."

وفقا للمتطلبات الحديثة، يتكون المعيار من 6 أقسام. هيكل GOST هو كما يلي:

1 مجال الاستخدام

3. التعاريف

4. الأحكام العامة

4.1 جوهر الفهرسة

4.2 كائن الفهرسة

4.3 شروط الفهرسة

4.4 مبادئ الفهرسة

4.5 أنواع الملكية الفكرية ومصطلحات الفهرسة

5. متطلبات الملكية الفكرية

5.1 المتطلبات العامة

5.2 متطلبات تصنيف الملكية الفكرية

5.3 متطلبات FP الخاصة بموضوع معين

6. العمليات التكنولوجيةوقواعد الفهرسة العامة

6.1 قواعد عامةالفهرسة

6.2 قواعد التنظيم

6.3 قواعد الخضوع.

إنشاء GOST 7.59 – 2003 المتطلبات العامةللفهرسة: تنظيم وإخضاع الوثائق ولغات استرجاع المعلومات المستخدمة في الفهرسة. المعيار مخصص للمكتبات وهيئات المعلومات العلمية والتقنية وغرف الكتب ومكاتب التحرير ودور النشر.

في مجلة "المكتبة"، ابتداء من العدد الثاني لعام 2004، في عنوان "علم المكتبات"، تقام "مدرسة الفهرسة" من قبل E.R. Sukiasyan، حيث يتم نشر المواد التي تعلق على محتوى GOSTs عند الفهرسة.

نظام الفهرسة (SI) عبارة عن مجموعة من الأساليب والأدوات لترجمة النصوص من اللغة الطبيعية إلى FL وفقًا لمجموعة معينة من قواميس الوحدات المعجمية وقواعد استخدام FL.

دعونا نفكر في تصنيف أنظمة الفهرسة.

1. بناءً على درجة أتمتة عملية الفهرسة يتم تمييز الأنظمة التالية:

الفهرسة اليدوية؛

الفهرسة التلقائية

الفهرسة الآلية.

2. بناءً على درجة التحكم يتم تمييز الأنظمة:

بدون قاموس.

مع مفردات صعبة.

مع قاموس مجاني.

3. بناءً على طبيعة خوارزمية اختيار الكلمات النصية يتم تمييز الأنظمة التالية:

مع العرض المتسلسل للنص (يتم تحديد جميع الكلمات ذات المعنى الكامل)؛

من خلال الإجراءات الإرشادية لاختيار الكلمات في النص (يتم اختيار الكلمات بشكل حدسي أو وفقًا لإجراء معين)؛

من خلال إجراءات اختيار الكلمات الإحصائية (يتم اختيار الكلمات الإعلامية فقط وفقًا لتوزيع تكرار استخدامها).

عملية الفهرسة المجانية هي كما يلي. يقوم المفهرس بتدوين كلمات أو عبارات تعبر في رأيه عن محتوى النص. ويمكنه أن يأخذ كلمات غائبة عن النص ولكنها مهمة من وجهة نظره للتعبير عن معنى النص. قائمة الكلمات المحددة هي صورة بحث للمستند. هذا هو SI المفهرس يدويًا.

تشبه عملية الفهرسة شبه الحرة تلك الموضحة أعلاه، ولكن الكلمات الخاصة بمكافحة غسل الأموال مأخوذة فقط من القاموس.

مع الفهرسة الصعبة، يتم أخذ الكلمات فقط من النص.

في البداية، تم إجراء الفهرسة من قبل خبراء متخصصين مدربين تدريبًا خاصًا يمكنهم إجراء تحليل متعمق للمحتوى الدلالي للمستند وتعيينه (الفهرس) لفئات وعناوين ومصطلحات رئيسية معينة. في هذه الحالة، كانت التكاليف العامة مرتفعة، لأنها تتطلب مفهرسين مؤهلين تأهيلا عاليا من الموظفين. وبالإضافة إلى ذلك، كانت عملية الفهرسة ذاتية إلى حد ما. لذلك، نشأت مهمة أتمتة فهرسة المستندات.

هناك طريقتان للفهرسة التلقائية. الأول يعتمد على استخدام قاموس الكلمات الرئيسية ويستخدم في الأنظمة المعتمدة على IPT. تتم الفهرسة في مثل هذه الأنظمة بالتسلسل البحث التلقائيالمصطلحات الأساسية في نص الوثيقة. تم إنشاء فهرس يمثل مساحة البحث في المستندات.

يتم استخدام الطريقة الثانية للفهرسة التلقائية في أنظمة النص الكامل.أثناء عملية الفهرسة، يتم إدخال معلومات حول جميع كلمات نص المستند في الفهرس (ومن هنا جاء اسم "النص الكامل").

يسمى إجراء الترجمة من لغة طبيعية إلى لغة أجنبية الفهرسة. نتيجة هذه الترجمة هي POD (عند إدخال المستندات في نظام استرجاع المعلومات) أو POS (عند فهرسة طلب المستخدم).

ترتبط مشكلة الفهرسة بالتحليل الدلالي لنصوص الوثائق. يرجع تعقيدها إلى حقيقة أن فهرسة المستندات المدخلة في صفائف البحث وطلبات المستخدم منفصلة في الوقت المناسب.

من أجل الخوارزمية وأتمتة الفهرسة، من الضروري حل مشكلة اختيار الكلمات الرئيسية والأوصاف والعبارات الأكثر أهمية (اعتمادًا على الوحدات المعجمية لـ FL) لإدراجها في AML أو POZ.

يمكن تحديد الأهمية من خلال عدة علامات:

  • إحصائية، أي بناءً على تكرار استخدام المصطلح في الوثيقة؛
  • بناءً على تصريحات المؤلف (رأيه ينعكس في عنوان الوثيقة أو العناوين الفرعية التي أبرزها المؤلف في الوثيقة)؛
  • استخدام القواعد التي تسمح لك بعكس العلاقات بين الوحدات المعجمية الموجودة في السياق؛
  • وفقًا لمعايير الأهمية التي يضعها المستخدم، والتي يمكن تحديد أوزانها الوصفية عند فهرسة المستندات.

يتم تحديد نظام الفهرسة لعنوان IP معين بشكل أساسي من خلال إمكانيات عنوان IP والوسائل المعجمية والنحوية المتوفرة فيه. ومع ذلك، هناك بعض القواعد والتوصيات المحددة التي مكنت دراستها من التعرف على بعض أنواع أنظمة الفهرسة.

يخرج أنواع مختلفةأنظمة الفهرسة.

1. النوع الأول يشمل الأنظمة فهرسة مجانية.

باستخدام هذه الطريقة، تتم كتابة الكلمات أو العبارات التي تعكس محتوى المستند المفهرس في POD. بالإضافة إلى ذلك، قد تتضمن عناصر مكافحة غسل الأموال كلمات غير موجودة في هذه المستندات، ولكنها تعكس بشكل أكثر دقة معنى نصوصها من وجهة نظر أغراض إنشاء IPS. يتم ترتيب العناصر المكتوبة في ترتيب ابجدي. تمثل هذه المجموعة المرتبة من الكلمات (العبارات) POD لهذا النوع من الفهرسة. وبالمثل، يتم تشكيل نقطة البيع من نص طلب المستخدم.

عملية الفهرسة هذه هي في الأساس غير خوارزمية، أي. غير آلي.

2. في الطريقة الثانية، والتي تسمى تقليديا الطريقة فهرسة شبه مجانية،تتم كتابة الكلمات والعبارات من المستند أولاً بنفس طريقة الفهرسة المجانية.

ومع ذلك، تتم بعد ذلك مقارنة العناصر المكتوبة بقاموس ثابت، ويتم حذف العناصر غير الموجودة فيه، وتمثل العناصر المتبقية، مرتبة حسب الترتيب الأبجدي، POD (أو POS).

3. تعتمد طريقة الفهرسة الثالثة على النهج الإحصائي.

يتم اختيار كلمات (تعابير) النص المصدر المراد تضمينها في PML على أساس التحليل الإحصائي للنص، حيث تعتبر كلماته إشارات ليس لها معاني دلالية. وفي نفس الوقت مختلفة المعايير الإحصائية،استنادًا إلى مقارنة التكرار النسبي لاستخدام كلمة ما في مستند ما والتكرار النسبي لاستخدام كلمة ما في مجموعة تمثيلية من المستندات (أي في عينة إحصائية تمثيلية).

على سبيل المثال، تم اقتراح المعايير الكمية التالية:

أين F- التكرار النسبي لاستخدام الكلمات في الوثيقة؛ ر- التكرار النسبي لاستخدام الكلمات في مجموعة تمثيلية من المستندات.

من السهل أن نرى أن أساس العلاقات المذكورة أعلاه هو فكرة أن الأهمية المعلوماتية للكلمة يتم تحديدها من خلال التناقض في تكرار استخدامها في هذا المستندوفي التدفق الكامل للوثائق قيد النظر.

هناك طرق مختلفة لتحديد التناقض ممكنة:

  • وفقًا للأول، يتم حساب التناقض بين تكرار استخدام الكلمات في دفق من المستندات حول موضوع معين (دفق أحادي الموضوع) وتكرار ظهور هذه الكلمة في دفق متعدد المواضيع من المستندات (دفق متعدد المواضيع)؛
  • يعتمد المبدأ الثاني على حساب التناقض بين تكرار استخدام كلمة في سلسلة من النصوص حول موضوع معين وتكرار نفس الكلمة في سلسلة من النصوص حول موضوع بعيد عن المعطى ("العكس"). " عنوان).

يمكن خوارزمية الطريقة الإحصائية للفهرسة وأتمتتها، ويوجد حاليًا أدوات للتحليل الإحصائي الآلي للنصوص.

ومع ذلك مستقلة تطبيق عمليلم أجد هذه الطريقة في نظام استرجاع المعلومات، فهي تستخدم كطريقة مساعدة مع التحليل الدلالي لنصوص الوثيقة.

4. النوع الرابع يشمل أنظمة الفهرسة التي تسيطر عليها قاموس معين (القاموس الموسوعي للمفردات).

تتلخص خوارزمية الفهرسة في حقيقة أن كل كلمة في النص تتم مقارنتها، حتى الجذع، مع القاموس، ويتم تسجيل الكلمات المطابقة في POD.

في بعض الأنظمة يتم استخدام القاموس كمساعد للمتخصص المعني بفهرسة النصوص.

وتشمل هذه الأنظمة، على سبيل المثال، UDC. وفي حالات أخرى، يعد هذا القاموس أحد عناصر خوارزمية الفهرسة: يتم تسجيل الكلمة التي تظهر في النص وفي القاموس في نفس الوقت في POD. في واصف IPA في POD

(POZ) ليست الكلمة النصية نفسها هي التي يتم تسجيلها، بل الواصف المقابل.

إن فهرسة المستندات باستخدام تصنيفات هرمية تم تطويرها خصيصًا والتي تعكس أغراض البحث عن المستندات واستخدامها تبدو واعدة.

يمكن استخدام هذه المصنفات كـ IPL في نظم المعلوماتالدعم المعياري والمنهجي للإدارة: تم تطوير مصنف هرمي يجمع بين الوثائق المعيارية والمنهجية على أساس هيكل الأهداف (الاتجاهات الرئيسية) ووظائف المؤسسة.

يمكن أن يكون مصنف IPJ الهرمي أساسًا لنظام توزيع المعلومات الانتقائي (SDI): يجري تطوير مصنف لاحتياجات فئة العمال الذين يستخدمون نظام SDI.

  • في إعداد هذا القسم تم استخدام التصنيف المقترح في العمل: بيفزنر ب.ر.نظم استرجاع المعلومات ولغات استرجاع المعلومات / ب.ر.بيفزنر. م: إيبكير، 1974. ص 10-11.

كل عملية تحدث في محركات البحث فريدة ومثيرة للاهتمام. من خلال معرفة بنية محرك البحث، يمكنك فهم الأسباب التي تؤدي إلى "خروج" موقع ما من نتائج البحث أو زيادة تصنيفاته. دعونا نفكر في كل عملية على حدة.

الفهرسة هي عملية تقوم خلالها روبوتات البحث بزيارة المواقع، وجمع المعلومات المختلفة من صفحاتها وإدخالها في قواعد بيانات خاصة. ثم تتم معالجة هذه البيانات، ويتم إنشاء فهرس - مقتطف من المستندات. ومن خلال الفهرس يقوم محرك البحث بالبحث وتوفير روابط للمواقع بناءً على طلبات المستخدمين.

دعونا نلقي نظرة على عملية الفهرسة باستخدام محرك بحث Yandex كمثال.

هناك نوعان من الروبوتات في محرك البحث: سريعوالرئيسية. مهمة الروبوت الرئيسي هي فهرسة جميع المحتويات، ومهمة الروبوت السريع هي إدخال أحدث المعلومات في قاعدة البيانات. يرسم مخطط روبوت البحث طرق الزيارة وينقلها إلى "العنكبوت" الذي يتجول عبر الصفحات المحددة ويضخ المعلومات منها. إذا تم اكتشاف روابط جديدة في المستندات أثناء الفهرسة، فسيتم إضافتها إلى القائمة العامة.

في الزيارة الأولى، يتحقق العنكبوت من حالة المورد. إذا كانت خصائصه تلبي متطلبات ياندكس، فسيتم إدخال الموقع في قاعدة البيانات. عندما يقوم العنكبوت بزيارة صفحة مفهرسة بالفعل، يتم تحديث المعلومات الموجودة فيها.

يتم تضمين الوثائق في الفهرس بالطرق التالية: تلقائيا متى روبوت البحثيمر عبر الخارج و الروابط الداخليةلأنه إذا قام مالك الموقع بنفسه بإضافة عنوان URL من خلال نموذج خاص أو من خلال Yandex.Metrica المثبت على الموقع. هذه الخدمة تنقل عناوين URL للصفحةللفهرسة بواسطة Yandex. إذا لزم الأمر، يمكنك تعطيل هذا الخيار في واجهة المقاييس.

سرعة فهرسة وتحديث صفحات الموقع

من الناحية المثالية، بمجرد إنشائه صفحة جديدة، يجب فهرسته على الفور. ومع ذلك، فإن الكميات الكبيرة من المعلومات تجعل من الصعب فهرسة الصفحات الجديدة وتحديث الصفحات القديمة. تقوم روبوتات محركات البحث بتحديث قاعدة البيانات بشكل مستمر، ولكن لكي تكون متاحة للمستخدمين، يجب نقلها إلى " البحث الأساسي" لم يتم نقل قاعدة البيانات بالكامل هناك. يتم استبعاد المواقع المرآة والصفحات التي تحتوي على رسائل بحث غير مرغوب فيها والمستندات الأخرى غير الضرورية في رأي محرك البحث.

روبوت لكشف المرايا، يتحقق من مواقع النسخ المتطابقة المحددة في ملف robots.txt. إذا كانت متطابقة، فسيكون هناك موقع واحد فقط في نتائج محرك البحث - المرآة الرئيسية.

يتحقق روبوت خاص من توفر الموقع المضاف من خلال نموذج "إضافة عنوان URL" في Yandex.Webmaster.

هناك أنواع أخرى من روبوتات الفهرسة: مفهرسات مقاطع الفيديو والصور التوضيحية لمواقع الويب (الأيقونات)؛ روبوت يتحقق من أداء المواقع في Yandex.Catalog؛ مفهرس للمحتوى "السريع" على مواقع مثل Yandex.News، وما إلى ذلك.

من المهم أن نفهم أن عملية فهرسة الموقع طويلة، تليها عملية التحديث قواعد بيانات الفهرس، الأمر الذي يتطلب أيضًا وقتًا. ولذلك، فإن نتيجة التغييرات التي تم إجراؤها على الموقع لن تكون مرئية إلا بعد 1-2 أسابيع.

أنظمة الفهرسة

نظام الفهرسة (SI) عبارة عن مجموعة من الأساليب والأدوات لترجمة النصوص من اللغة الطبيعية إلى FL وفقًا لمجموعة معينة من قواميس الوحدات المعجمية وقواعد استخدام FL.

دعونا نفكر في تصنيف أنظمة الفهرسة.

1. بناءً على درجة أتمتة عملية الفهرسة يتم تمييز الأنظمة التالية:

الفهرسة اليدوية؛

الفهرسة التلقائية؛

الفهرسة الآلية.

2. بناءً على درجة التحكم يتم تمييز الأنظمة:

بدون قاموس.

مع مفردات صعبة.

مع قاموس مجاني.

3. بناءً على طبيعة خوارزمية اختيار الكلمات النصية يتم تمييز الأنظمة التالية:

مع العرض المتسلسل للنص (يتم تحديد جميع الكلمات ذات المعنى الكامل)؛

من خلال الإجراءات الإرشادية لاختيار الكلمات في النص (يتم اختيار الكلمات بشكل حدسي أو وفقًا لإجراء معين)؛

مع إجراءات اختيار الكلمات الإحصائية (المختارة
الكلمات الإعلامية فقط وفقًا لتوزيع تكرار استخدامها).

4. بناءً على طبيعة التحكم المعجمي، يتم التمييز بين الأنظمة التالية:

لا يوجد تحكم معجمي.

مع السيطرة الكاملة.

مع السيطرة المتوسطة.

يوفر التحكم المعجمي ما يلي:

القضاء على الترادف وتعدد المعاني والتجانس على أساس القواميس المعيارية للوحدات المعجمية مع العلاقات النموذجية فيما بينها؛

تطبيع الكلمات على أساس المعيارية المورفولوجية
القواميس.

5. بناءً على طبيعة التحليل الصرفي للكلمات يتم التمييز بين الأنظمة:

استخدام القواميس الصرفية.

استخدام القواميس المعجمية الأساسية؛

استخدام التحليل الصرفي مع اقتطاع الكلمة.

أنظمة الفهرسة دون التحليل الصرفي ممكنة.

عملية الفهرسة المجانية هي كما يلي. يقوم المفهرس بتدوين كلمات أو عبارات تعبر في رأيه عن محتوى النص. ويمكنه أن يأخذ كلمات غائبة عن النص ولكنها مهمة من وجهة نظره للتعبير عن معنى النص. قائمة الكلمات المحددة هي صورة بحث للمستند. هذا هو SI المفهرس يدويًا.

تشبه عملية الفهرسة شبه الحرة تلك الموضحة أعلاه، ولكن الكلمات الخاصة بمكافحة غسل الأموال مأخوذة فقط من القاموس.

مع الفهرسة الصعبة، يتم أخذ الكلمات فقط من النص.

في البداية، تم إجراء الفهرسة من قبل خبراء متخصصين مدربين تدريبًا خاصًا يمكنهم إجراء تحليل متعمق للمحتوى الدلالي للمستند وتعيينه (الفهرس) لفئات وعناوين ومصطلحات رئيسية معينة. في هذه الحالة، كانت التكاليف العامة مرتفعة، لأنها تتطلب مفهرسين مؤهلين تأهيلا عاليا من الموظفين. وبالإضافة إلى ذلك، كانت عملية الفهرسة ذاتية إلى حد ما. لذلك، نشأت مهمة أتمتة فهرسة المستندات.

هناك طريقتان للفهرسة التلقائية. الأول يعتمد على استخدام قاموس الكلمات الرئيسية ويستخدم في الأنظمة المعتمدة على IPT. تتم الفهرسة في مثل هذه الأنظمة من خلال البحث التلقائي المتسلسل للمصطلحات الأساسية في نص المستند. تم إنشاء فهرس يمثل مساحة البحث في المستندات. هناك نوعان محتملان لمثل هذا المؤشر - المباشر والمقلوب.

تم إنشاء نوع الفهرس المباشر وفقًا لنظام شروط المستند. يتم تمثيل مساحة البحث في هذه الحالة كمصفوفة ذات البعد nxm. تمثل صفوف هذه المصفوفة صور البحث عن المستندات.