نمايه‌سازی و ورداسميت در شبكه كتابشناختی

نوشته: فاطمه معتمدی

نظام نمايه‌سازي “وورداسميت” در شبكهء كتابشناختي (او.سي.ال.سي): چكيده: رشد سريع اطلاعات الكترونيكي در عصر حاضر، زمينه‌ساز ايجاد انواع متعدد شبكه‌هاي كتابشناختي گرديده است. دستيابي به اطلاعات الكترونيكي مستلزم استفاده از روش موثر در نمايه‌سازي و تشخيص كليدواژه‌هاي مهم بيانگر محتواي يك مدرك است. در همين راستا، (او.سي.ال.سي)1
كه بزرگترين شبكه كتابشناختي جهان محسوب مي‌شود به منظور فراهم آوردن تسهيلات لازم براي دستيابي سريع وموثر به اطلاعات، اقدام به ساخت سيستم‌نمايه‌سازي ‌خود‌تحت عنوان “وورد اسميت” نموده است. مبناي كار اين سيستم، تشخيص خودكار مفاهيم، كلمات و عبارات كليدي در متن ماشين‌خوان، براساس »پردازش زبان طبيعي« است. به اين ترتيب شبكه (او.سي.ال.سي) با استفاده از تئوري‌هاي زبانشناسي محاسباتي و معنائي-كه مورد تأكيد پردازش زبان طبيعي است-و نيز با بكارگيري تئوري‌هاي اطلاع‌رساني و مدل‌هاي آماري، سعي در ساخت نمايه‌اي داشته است كه علاوه بر همخواني با حجم عظيم داده‌هاي اين شبكه، از كارآئي و توانائي كافي و لازم در بازيابي سريع و موثر اطلاعات از محيط شبكه نيز برخوردار باشد.
كليدواژه‌ها: شبكه كتابشناختي (او.سي.ال.سي)، نمايه‌سازي (دبليو.اس)، نمايه‌سازي خودكار، پردازش زبان طبيعي

مقدمه
نمايه مهمترين ابزار در نظامهاي بازيابي اطلاعات و كليد اساسي براي دستيابي به اطلاعات مندرج در منابع اطلاعاتي است. ارزش هر نمايه در گرو تهيه بهترين نقاط دستيابي و تأمين رضايت استفاده‌كنندگان در بازيابي اطلاعات است.
سالهاست كه كتابداران مسائل مربوط به ذخيره و بازيابي اطلاعات را مدنظر قرار داده و براي كنترل موثر مواد سنتي، ابزاري را توسعه داده‌اند. توجه به روند تكاملي فرآيند نمايه‌سازي مبيّن اين نكته است كه افزايش حجم انتشارات و تغيير در شكل ارائه خدمات اطلاع‌رساني، نظام‌هاي نمايه‌سازي را نيز دستخوش تحولات قابل توجهي نموده است. ابداع انواع نمايه‌هاي پيش‌همارا، پس همارا، نمايه‌هاي خودكار و استفاده از انواع زبان‌هاي طبيعي، آزاد و ساخت يافته يا كنترل شده همه تلاش‌هايي بوده‌اند در جهت بهبود و تكميل فرآيند نمايه‌سازي در انجام رسالت خاص خود.
ايجاد شبكه‌هاي متعدد كتابشناختي و نيز رشد سريع آن‌ها، فرصت‌هاي متعدد و چالش‌هاي بي‌سابقه‌اي را فراروي حرفه كتابداري و اطلاع‌رساني براي دستيابي به حجم عظيمي از اطلاعات گذارده است. چنين شرايطي نياز به مجتمع و يكپارچه‌سازي منابع موجود در محيط وب و اينترنت همراه با انواع مواد سنتي كتابخانه‌اي، ضرورت بررسي مجدد ابزارهاي موجود در بازيابي اطلاعات و كنترل كتابشناختي را ايجاب مي‌نمايد.
بزرگترين شبكهء كتابشناختي پيوستهء موجود، شبكه (او.سي.ال.سي) مي‌باشد (هسي-يي، 1996) كه در سال 1967 ايجاد شده است و حاوي بيش از 31 ميليون ركورد در فرمت‌هاي مختلف است. اين شبكه يك سازمان تحقيقاتي غيرانتفاعي واقع در اوهايو مي‌باشد كه با ارائه خدمات كتابخانه‌اي امكان دستيابي 41 هزار كتابخانهء مختلف را به اطلاعات فراهم مي‌آورد. هدف كلي (او.سي.ال.سي) افزايش دسترس‌پذيري منابع كتابخانه‌اي از طريق اشتراك در منابع و كاهش نرخ رشد هزينه‌هاي كتابخانه‌اي است. شبكه (او.سي.ال.سي) در راستاي تحقق بخشيدن به اين هدف اقدام به تهيه پروژه‌هائي نموده است كه يكي از مهمترين اين پروژه‌ها، پروژه نمايه‌سازي دبليو.اس مي‌باشد.
هدف نمايه‌سازي دبليو.اس اصلاح و بهبود دستيابي به اطلاعات الكترونيكي با استفاده از روشهاي موءثر براي تشخيص كليدواژه‌هاي مربوط به محتواي يك مدرك مي‌باشد. تشخيص كلمات و عبارات بايد به گونه‌اي باشد كه به بهترين نحوي مبيّن موضوع مدرك باشند و در نتيجه نمايه‌هاي مفيد و كارآمدي براي مدارك موجود در وب ايجاد گردد. به همين منظور مبناي اين نمايه‌سازي، تشخيص خودكار مفاهيم در متن ماشين‌خوان براساس پردازش زبان طبيعي، مدل‌هاي آماري، زبانشناسي محاسباتي و تئوري رده‌بندي مي‌باشد.
مقالهء حاضر ضمن معرفي شبكهء كتابشناختي (او.سي.ال.سي) و اشاره به خدمات، پايگاه‌هاي اطلاعاتي و پروژه‌هاي اين شبكه، بطور اجمالي به مرور نظام‌هاي نمايه‌سازي و زبان‌هاي بازيابي اطلاعات مي‌پردازد و سپس طراحي و ساختار نظام نمايه‌سازي دبليو.اس را تشريح مي‌نمايد.
پايگاه كتابشناختي (او.سي.ال.سي)
انواع پايگاه‌هاي كتابشناختي با هدف تسهيل و تسريع در ارائه خدمات كتابشناختي و كمك به پيشرفت دانش ايجاد شده‌اند و از بدو پيدايش خود تاكنون با ارائه سرويس‌ها و خدمات متعدد، افراد و كتابخانه‌هاي مختلف را در تحقق اهداف خود ياري بخشيده‌اند. اين پايگاه‌ها دامنه وسيعي از خدمات را ارائه مي‌دهند از جمله خدمات تهيه مواد، فهرست‌نويسي و خدمات مرجع. بسياري از كتابخانه‌ها به دليل فشارهاي اقتصادي، رشد روزافزون حجم انتشارات و در نتيجه لزوم وجود شبكه‌اي براي اشتراك منابع و تعاون بين كتابخانه‌ها و همچنين لزوم تغيير فاز از مالكيت به سمت دستيابي به اطلاعات، بر استفاده از اين شبكه‌ها تأكيد دارند. بطور كلي از طريق اين پايگاه‌ها مي‌توان به سه پرسش اساسي پاسخ داد: 1) سئوالات كتابشناختي يعني امكان بدست آوردن اطلاعات كامل دربارهء يك كتاب، مجله يا انواع خاص ديگر مواد كتابخانه‌اي. سيستم‌هاي شبكه‌اي معمولاً داده‌هاي فهرست‌نويسي كاملي بر روي صفحه (سي.آر.تي) پايانه مي‌آورند. 2) سئوالات تحقيقي (تعيين صحت و سقم چيزي) مربوط به تشخيص هجي صحيح نام يك نويسنده، نام ناشر، تاريخ و غيره. 3) سئوال در مورد تعيين محل مدرك. از طريق اين قبيل سيستم‌ها مي‌توان فهميد كه كدام كتابخانه‌ها مواد اطلاعاتي مورد نياز را دارند.
سيستم‌هاي كتابشناختي مثل (آر.ال.آي.ان)، (او.سي.ال.سي) و غيره شبكه‌هائي غيرانتفاعي و بين‌المللي هستند كه با روش‌هاي متنوعي اداره مي‌شوند و به شكلهاي بسيار متفاوت اقدام به ارائه خدمات مي‌نمايند. عملكردهاي خاص اين شبكه‌ها عبارتند از: تعيين محل سريع كتاب، مقاله و غيره؛ فراهم‌آوري و تهيه مواد از طريق مستقيم يا غيرمستقيم؛ كنترل گردش و دستيابي فهرست راه دور و فهرست‌نويسي مشترك. هر سيستم شامل مدخل‌هاي فهرستگان ملي مثلاً ركوردهاي مارك است. اين ركوردها شامل همه فرمت‌ها از جمله كتاب، نشريهء ادواري و نسخ دستي مي‌باشند.
بزرگترين شبكهء كتابشناختي موجود، شبكهء (او.سي.ال.سي) مي‌باشد (هسي‌يي، 1996) كه به منظور دستيابي بيشتر به اطلاعات جهاني بوجود آمده است. موءسسات و كتابخانه‌هاي دانشگاهي و تحقيقاتي (هر كدام با توجه به نوع نياز خود) در سطح وسيعي از اين شبكه استفاده مي‌كنند. اين شبكه، يك سازمان تحقيقاتي غيرانتفاعي است كه به ارائه خدمات كتابخانه‌اي مي‌پردازد و در اوهايو واقع شده است.
تاريخچه، اهداف و عضويت در (او.سي.ال.سي)
در سال 1967، مسئولين دانشكده‌ها و دانشگاه‌ها در اوهايو، يك سيستم كامپيوتري به نام »مركز كتابخانه‌اي كالج اوهايو«2 را ايجاد نمودند كه در آن كتابخانه‌هاي موءسسات آكادميك اوهايو مي‌توانستند در منابع مشترك شوند و هزينه‌ها را كاهش دهند. اولين دفاتر (او.سي.ال.سي) در كتابخانهء اصلي دانشگاه ايالتي اوهايو مستقر گرديدند و اولين دفتر كامپيوتري آن در مركز تحقيقاتي “او.سي.يو”3 جاي گرفت. فردريك كليگور، اولين مسئول (او.سي.ال.سي) بود. در سال 1991 ساختمان مديريت OCLC توسعه يافت. اين شبكه داراي پنج مركز مديريت در كلمبو، اوهايو و كتابخانه اصلي دانشگاه ايالتي اوهايو مي‌باشد و محل كنوني آن در فرانتس رود 6565 در دوبلين است. اداره (او.سي.ال.سي) با اعضاي آن است. ساختار مديريتي آن متشكل از اعضاي عمومي، شوراي اعضا و هيأت امناء است. (او.سي.ال.سي) از يك سيستم كامپيوتري منطقه‌اي براي 45 كالج اوهايو شروع شد و در نهايت به يك شبكهء بين‌المللي تبديل گرديد. در سال 1977 اعضاي (او.سي.ال.سي) از اوهايو، با عضويت كتابخانه‌هاي خارج از اوهايو موافقت كردند و به اين ترتيب، (او.سي.ال.سي) به او.سي.ال.سي.اينك تغيير نام داد و امروزه انواع مختلف كتابخانه‌ها از سراسر دنيا از خدمات (او.سي.ال.سي) استفاده مي‌نمايند. به دنبال آن شوراي استفاده‌كنندگان (او.سي.ال.سي) تشكيل گرديد (جردان، 1998). اين شورا متشكل از كتابداران و ساير شركائي است كه شايستگي و صلاحيت آن‌ها براي عضويت منوط به ميزان سهمي است كه در فهرستگان آنلاين (او.سي.ال.سي) دارند. با ايجاد اصلاحات در سخت‌افزار، امكانات بيشتري براي استفاده‌كنندگان بيشتري فراهم نمود. از سال 1973 كتابخانه‌هاي غيرآكادميك توانستند عضو (او.سي.ال.سي) شوند و نيز بر تعداد شبكه‌هاي خارج از ايالتي كه به (او.سي.ال.سي) پيوستند افزوده گشت.
كتابخانه‌ها با عضويت در (او.سي.ال.سي) مي‌توانند به همهء اطلاعات جهاني و به تمامي خدمات و پايگاه‌هاي اطلاعاتي دسترسي يابند. اين عضويت، بزرگترين كنسرسيوم كتابخانه‌هاي جهاني را در بر مي‌گيرد و در بين ساير شبكه‌هاي كتابشناختي بيشترين تعداد اعضاء را دارد. تعداد اعضاي آن تا سال 1991 بيش از 7000 كتابخانه در سراسر دنيا بود كه اكثر آن‌ها از امريكا و كانادا بودند.
در سراسر تاريخ (او.سي.ال.سي) ارتباطات راه دور، يك وسيلهء مهم براي تداوم اهداف كلي خود در زمينهء افزايش دستيابي به اطلاعات جهاني و كاهش هزينهء اطلاعات بوده است (جردان، 1998). اين شبكه همچنان براساس پروتكل استاندارد صنعتي (تي.سي.پي/آي.پي) طي سه سال آينده در جهت تبديل به يك شبكه كاملاً باز به پيش مي‌رود. از طرف ديگر امكان دستيابي با كيفيت بالا را براي كتابخانه‌ها فراهم مي‌سازد.
هدف كلي و اساسي (او.سي.ال.سي) كه بر مبناي افزايش سهولت دستيابي و استفاده از پيكره رو به رشد دانش و اطلاعات علمي، ادبي و آموزشي (گزارش ساليانه، 1995) قرار دارد، عبارت است از افزايش دسترس‌پذيري منابع كتابخانه‌اي و كاهش نرخ رشد هزينه‌هاي كتابخانه. در راستاي تحقق اين هدف، اهداف ذيل را دنبال مي‌كند:
استقرار، نگهداري و پياده‌ كردن يك شبكه كتابخانه‌اي كامپيوتري و افزايش استفاده از كتابخانه، بررسي و توجه به مسائل مربوط به كتابخانه‌ها و كتابداري، فراهم نمودن امكانات و محصولاتي كه به نفع استفاده‌كنندگان كتابخانه وكتابخانه‌ها باشد؛ از جمله افزايش قابليت دسترسي به منابع كتابخانه براي مراجعين به كتابخانه‌ها و كاهش هزينه‌هاي هر واحد كتابخانه.
كارهائي كه (او.سي.ال.سي) انجام مي‌دهد شامل خدمات فهرست‌نويسي، جستجو، امانت بين كتابخانه‌اي و فهرستگان ادواريها مي‌باشد. بطور كلي مي‌توان گفت كه در سه زمينه خدمات مرجع و نشر الكترونيكي، توسعه فهرست‌نويسي، خدمات اشتراك منابع و توسعه بين‌المللي پيشرفت داشته است.
شبكه و خدمات كتابشناختي (او.سي.ال.سي)
شبكه و خدمات كامپيوتري آن با بيش از 41000 كتابخانه در 82 كشور و قلمرو ارتباط برقرار مي‌نمايد. (او.سي.ال.سي) از يك پايگاه كتابشناختي به نام “اپيك” نگهداي مي‌كند. در سال 1991 اين سيستم شامل 16 ميليون كتاب، يك ميليون سريال و 450000 رسانه سمعي بصري و همچنين 500000 گزارش بوده است. و تقريباً دو ميليون ركورد سالانه به آن اضافه مي‌شود (كاتز، 1974) بطوريكه هم اكنون اين پايگاه حاوي بيش از 31 ميليون ركورد در فرمت‌هاي مختلف كتاب، فيلم، گزارش يا تك‌نگاشت از كتابخانه‌هاي عضو مي‌باشد.
(اپيك) مداخل متعددي از جمله دستيابي موضوعي و كليدواژه‌اي و جستجوي بولين را فراهم مي‌كند. دستيابي موضوعي فقط از سال 1990 ميسر بود. نرم‌افزار اپيك علاوه بر ركوردهاي او.سي.ال.سي امكان جستجوي پايگاه‌هاي ديگر را از (اريك) و (ان.تي.آي.اس) فراهم مي‌سازد. سيستم اپيك هر ساله پايگاه‌هاي اطلاعاتي جديدي به پايگاه‌هاي خود مي‌افزايد. به اين ترتيب (او.سي.ال.سي) بزرگترين منبع اطلاعاتي جهاني است. نوارهاي مارك در قلب سيستم (او.سي.ال.سي) قرار دارد و نيز شامل فهرست‌نويسي اصلي مهم اعضا و موجودي همه كتابخانه‌هاي دولتي است.
فهرستگان پيوسته (او.سي.ال.سي)، از نظر تعداد كتابخانه‌هاي عضو و از نظر عمق و وسعت پوشش، پايگاه كتابشناختي پيشگام در دنياست. تا قبل از سال 1970 اكثر فعاليت‌هاي (او.سي.ال.سي) مربوط به تحقق در مورد طرح و عملكرد سيستم كامپيوتري فهرست آنلاين بود اما پس از آن تعداد 440711 فهرست‌برگه آف لاين را نيز توليد كرد (پرومن‌شنكل، 2000). در سال 1971 سيستم فهرست آنلاين شروع به كار كرد و در سال مالي 1972، كتابخانه‌ها بيش از 330000 عنوان را فهرست كردند. در سال 1974 (او.ال.يو.سي) به يك ميليون ركورد، در 1975/76 به دو ميليون، سال بعد به سه ميليون و در دسامبر 1980 به هفت ميليون ركورد كتابشناختي رسيد (جردان، 1998). در 1994 اين پايگاه شامل بيش از 29 ميليون ركورد بود و نرخ افزايش ركورد آن در هفته 22000 ركورد مي‌باشد (كروك، 1995).
در ژانويه 1999، (او.سي.ال.سي) يك پروژه فوري اوليه تحت عنوان (كرك) يا فهرست منابع پيوسته تعاوني را ارائه نمود. هدف اين پروژه كه مبتني بر (دي.سي) يا استاندارد هسته فراداده‌اي در دوبلين بود، توسعه يك فهرست منابع در محيط وب بود. در ژانويه سال 1999 مركز كامپيوتري كتابخانه اوهايو، پروژه “كورك” را آغاز نمود تا يك پايگاه اطلاعاتي جامع براي منابع پيوسته از طريق تعاوني بين‌المللي با كتابخانه‌ها ايجاد كند.
پايگاه‌هاي اطلاعاتي‌و‌ سرويس‌هاي (او.سي.ال.سي)
(او.سي.ال.سي) به منظور تامين نيازهاي انواع كتابخانه‌ها، طيف وسيعي از خدمات را ارائه مي‌دهد كه شامل ابزار فهرست‌نويسي، پايگاه‌هاي اطلاعاتي مرجع و خدمات جستجوي پيوسته، ابزار اشتراك منابع، خدمات حفاظت و رده‌بندي دهدهي ديوئي مي‌باشد. همچنين امكان ارتباط با فروشندگان متعدد پايگاه‌هاي اطلاعاتي را ميسر مي‌سازد.
بطور كلي پايگاه‌هاي اطلاعاتي (او.سي.ال.سي) شامل WorldCat, ArticleFirst, Electronic Collection Online, NetFirst, PAIS International, PaperFirst, Proceedings First, OCLC Union Lists of Periodicals مي‌باشد. در اينجا به دو پايگاه‌ها يعني “وورلدكات” و فهرستگان پايگاه اطلاعاتي مجلات در (او.سي.ال.سي) يا بطور مختصر اشاره مي‌شود.
در مركز خدمات (او.سي.ال.سي)، پايگاه اطلاعاتي “وورلدكات” قرار دارد كه بيشترين استفاده را در آموزش عالي دارد و سابقه دانش بشري را از 4000 سال گذشته تاكنون به 400 زبان دربرمي‌گيرد. “وورلدكات” بزرگترين پايگاه اطلاعاتي كتابشناختي در جهان است كه حاوي بيش از 46 ميليون ركورد فهرست‌نويسي از كتابخانه‌هاي سراسر جهان بوده و هر پانزده ثانيه يك ركورد جديد به آن اضافه مي‌گردد (پرومن‌شنكل، 2000). اين ركوردها شامل كتاب، نسخ دستي، نوارهاي ويدئويي و صوتي، نشريات ادواري، روزنامه‌ها، نقشه‌ها، و برنامه‌هاي كامپيوتري مي‌باشد. به علاوه محصولات ميكروفيلم و ميكروفيش را به شكل نوار يا فرمت كارتي فهرست مي‌كند. ورلدكات طرح‌هايي را براي توسعه مجموعه، فهرست‌نويسي، كنترل مستند، و خدمات گذشته‌نگر ارائه مي‌نمايد. مي‌توان از طريق سيستم‌هاي محلي به طرو مستقيم به ورلدكات دسترسي يافت.
فهرستگان پايگاه اطلاعاتي مجلات در او.سي.ال.سي، يكي ديگر از پايگاه‌هاي اطلاعاتي اين شبكه است كه شامل ميليون‌ها (ال.دي.آر) مي‌باشد و به بيش از 750000 ركورد كتابشناختي مرتبط شده است. هر (ال.دي.آر) مجموعه اطلاعاتي خاصي از نشريات ادواري را فراهم مي‌كند.
سيستم فرعي كنترل نشريات ادواري در (او.سي.ال.سي) از سال 1975 مورد استفاده قرار گرفته است و هدف از طراحي آن، فراهم‌آوري امكان مشاركت موءسسات در كنترل آنلاين نشريات ادواري است. اين سيستم داراي چهار جزء است: كنترل، پيگيري، كنترل صحافي و فهرستگان، تا سال 1980 فقط جزء كنترل آن كار مي‌كرد اما كتابخانه‌ها مي‌توانستند از سيستم كنترل محدود ادواري‌ها نيز استفاده كنند. پردازش يك نشريهء ادواري جديد و يا تغيير يك عنوان، يكي از مشكل‌ترين كارهايي است كه سيستم فرعي كنترل ادواري‌ها در (او.سي.ال.سي) بايد انجام دهد. مبناي فرآيند كنترل خودكار سيستم فرعي كنترل ادواري‌ها در (او.سي.ال.سي)، كد بسامد يك ركورد داده‌اي محلي است. اما اين كدها هميشه روزآمد نمي‌شوند. حل مسائل مربوط به تغيير بسامد، منوط به استفاه از جزء پيگري كنترل ادواري‌هاست (رافتون، 1982).
يكي از مهمترين سرويس‌هاي (او.سي.ال.سي)، سرويس امانت بين كتابخانه‌اي است كه در سال 1979 معرفي گرديد و از آن زمان با استفاده از اين سرويس بيش از 14 ميليون امانت بين 6700 كتابخانهء سراسر جهان انجام گرفت. يكي ديگر از اين سرويس‌ها، خدمات جستجوي اوليه مي‌باشد كه به عنوان يك ابزار مرجع در سال 1991 معرفي شد و اكنون در 19246 كتابخانه استفاده مي‌شود. وظيفه آن ارائه خدمات در زمينهء مجلات الكترونيكي به كتابخانه‌ها و تأمين نيازهاي استفاده‌كنندگان راه دور است. اين سرويس با ايجاد يك ذخيرهء اطلاعات و فراهم نمودن امكان اشتراك كتابخانه‌ها (بطور مستقيم از طريق ناشر) در مجموعه چاپي مجلات علمي، نقش خود را در توسعهء مجموعه ايفا مي‌نمايد. مقالات مجلات در (او.سي.ال.سي) بطور الكترونيك ذخيره مي‌شود و كتابخانه‌ها مي‌توانند از طريق وب، با استفاده از يك مرورگر وب اشتراكي و از طريق رابط پشتيباني‌كننده از جستجو در مجلات، به آن‌ها دست يابند. از طريق خدمات جستجوي اوليه استفاده‌كنندگان مي‌توانند به 70 پايگاه اطلاعاتي مشهور و شناخته شده دسترسي پيدا كنند.در حال حاضر اين سرويس داراي صفحات جستجو و گرافيك‌هاي جديدي است كه انجام جستجوهاي اساسي و پيشرفته را براي استفاده‌كنندگان به مراتب راحتتر كرده است (هيزل، 1996).
يكي ديگر از سرويس‌هاي (او.سي.ال.سي)، سرويس همكاري كتابخانه‌اي مركز خدمات غرب است (فورد، 2000). اين سرويس به منظور استفاده از قدرت جمعي 1700 كتابخانه عضو بر سه نوع خدمات متمركز است: فراهم‌آوري امكاناتي براي ايجاد پايگاه اطلاعاتي؛ حفاظت و رقمي كردن منابع؛ و ايجاد فرصت‌هاي آموزش. ايجاد پايگاه اطلاعاتي، تخفيف‌هاي قابل توجهي از لحاظ مشترك شدن در منابع الكترونيكي به همراه دارد. حفاظت و رقمي كردن نيز به اصلاح دستيابي به اطلاعات كمك مي‌كند و همچنين به اعضا در نگهداري مجموعه كمك مي‌نمايد. (او.سي.ال.سي) همچنين با كنسرسيوم‌هاي رسمي و غيررسمي كتابخانه‌ها، موزه‌ها و آرشيوها در تعيين روش‌هاي حفاظت مشاركت دارد. بخش حفاظت از منابع، اقدام به ارائه خدمات ميكروفيلمي و رقمي در غرب مي‌نمايد و نيز با شبكه‌هاي منطقه‌اي و ساير سازمان‌ها براي تهيه خدمات مشاوره‌اي و آموزشي مرتبط همكاري مي‌نمايد. بطور كلي مي‌توان گفت مهمترين فعاليت‌هاي اصلي مركز خدمات غرب، عبارتند از: برگزاري كارگاه‌هاي آموزشي و به نمايش گذاشتن محصولات و خدمات (او.سي.ال.سي)، توسعه فعاليت‌هاي مربوط به آموزش فهرست‌نويسي، توسعه برنامه‌هاي مديريت كتابخانه، خدمات مرجع، حفاظت و رقمي‌سازي (پرومن‌شنكل، 2000).
(او.سي.ال.سي)، كتابخانه‌ها و اينترنت
محيط وب و اينترنت، مكانيزم ديگري براي تحول مدرك در راستاي هدف عمومي (او.سي.ال.سي) يعني افزايش دستيابي به اطلاعات جهاني و كاهش هزينه‌هاي اطلاعاتي است در اختيار (او.سي.ال.سي) قرار مي‌دهد. شبكهء اينترنت روش‌هاي جديد و مهيّجي در زمينهء خدمات فني فراروي (او.سي.ال.سي) و كتابخانه‌هاي عضو قرار مي‌دهد. كتابخانه‌هاي عضو (او.سي.ال.سي) به سرعت در حال افزايش استفاده از خدمات وب و اينترنت مي‌باشند. در حال حاضر تقريباً 85% از كاربرد جستجوي اوليه و 18% از فهرست‌نويسي پريزم و اشتراك منابع بر روي اينترنت موجود است. (او.سي.ال.سي) از طريق http://www.oclc.org  در روي وب قابل دسترسي است. با افزايش تعداد كتابخانه‌ها، كنسرسيوم‌ها و شركت‌هايي كه به اينترنت وصل مي‌شوند، اين شبكه جهاني با محدوديت‌هاي فني روبرو مي‌شود (لايبريز، 2002). در همين زمينه مهندسين شبكه (او.سي.ال.سي) و فراهم‌آورندگان خدمات اينترنت جهت رفع مسائل ناشي از افزايش ترافيك اينترنت كه بر قابليت دسترسي و زمان پاسخگوئي تأثيرگذار است، با يكديگر همكاري مي‌نمايند.
دسترسي به (او.سي.ال.سي)
(او.سي.ال.سي) در ابتداي تشكيل خود، در سال 1971، يك امكان دستيابي ويژه به نام (multidrop dedicated) و در 1974، يك امكان دستيابي تلفني (dial-access) فراهم نمود. بيست سال بعد (multidrop) متداولترين روش دستيابي باقي ماند. در سال 1991، (او.سي.ال.سي) يك شبكه جديد x.25 را نصب كرد كه نه تنها سريع، قابل اعتماد و از نظر هزينه، سودمند بود بلكه مي‌توانست با نيازهاي فزاينده خدمات كتابشناختي (او.سي.ال.سي) سازگار باشد. در سال 1995، (او.سي.ال.سي) شروع به فراهم آوردن دستيابي اينترنتي براي خدمات فهرست‌نويسي و خدمات اشتراك منابع خود نمود (جردان، 1998). استفاده كننده مي‌تواند به طور خودكار به (او.سي.ال.سي) وصل شود و پايگاه‌هاي اطلاعاتي انتخابي خود را جستو نمايد. همچنين مي‌تواند به طور مستقيم و يا از طريق شبكه‌هاي منطقه‌اي مثل دانشگاه ايالتي شبكه كتابخانه‌اي (او.سي.ال.سي) نيويورك يا “نلي‌نت” به (او.سي.ال.سي) دسترسي يابد. هزينه‌هاي ورودي در هر يك از اين سيستم‌ها متفاوت است. هزينه‌هاي (او.سي.ال.سي) شامل استنادهاي آنلاين و نيز تجهيزات، نگهداري و هزينه‌هاي ارتباط راه دور هستند (كاتز، 1974).
(او.سي.ال.سي) بر روي ديسك‌هاي فشرده نيز قابل دسترسي مي‌باشد. مجموعه ديسك‌هاي فشرده (كت)CD450 حاوي زيرمجموعه‌هائي از ركوردهاي پايگاه اطلاعاتي اصلي مي‌باشد كه بطور فصلي روزآمد مي‌شوند. اين ديسك‌ها در پنج زمينهء موضوعي كشاورزي، آموزش، هنر، علوم انساني، علوم و تكنولوژي به فروش مي‌رسند. هر مجموعه، علاوه بر افزايش نمايه‌ها، دستيابي به ركوردهاي (او.سي.ال.سي) در اين زمينه‌هاي موضوعي را فراهم مي‌كنند. مثلاً بستهء نرم‌افزاري آموزشي شامل ركوردهاي (او.سي.ال.سي) در آموزش و نيز ديسك‌هاي جاري و گذشته‌نگر اريك مي‌باشد.
پروژه‌هاي (او.سي.ال.سي)
(او.سي.ال.سي) داراي پروژه‌هائي است كه عبارتند از: Kilory, Scorpion, Marc, Xml, ، (آر.دي.اف)،Dublin, Kilory, WordSmith به طور كلي اينترنت را مورد جستجو قرار مي‌دهد و با پايگاه‌هاي اطلاعاتي تمام متن و پايگاه‌هاي اطلاعاتي فراداده‌اي از منابع اينترنتي ارتباط برقرار مي‌كند. Iteract كه در سال 1993 شروع و در سال 1996 تكميل گرديد. عبارت است از يك سيستم بررسي تحقيقاتي (او.سي.ال.سي) از نظر ماهيت و اندازه منابع اينترنتي و تأثير بالقوهء آن‌ها بر عمليات كتابخانه‌اي Mantis به منظور سازماندهي و دستيابي به منابع الكترونيكي، استفاده و جامعيت سيستم‌هاي Kilory, Scorpion, Marc, Xml, ، (آر.دي.اف)،Dublin Core و WordSmith را مورد تحقيق و بررسي قرار مي‌دهد. اسكورپيون پروژه جديدي است كه به بررسي نمايه‌سازي و فهرست‌نويسي منابع الكترونيكي مي‌پردازد. با توجه به افزايش اطلاعات موجود در وب، و در نتيجه افزايش مدت زمان لازم براي يافتن اطلاعات مورد نياز و نيز افزايش هزينهء دستيابي به آن، پروژه اسكورپيون در نظر دارد نمايه‌سازي و فهرست‌نويسي را با يكديگر تركيب كند و مخصوصاً ابزاري براي تشخيص خودكار موضوع براساس طرح‌هاي شناخته شدهء رده‌بندي ديوئي تهيه نمايد. در صورتي كه سرعنوان‌هاي موضوعي يا دامنه‌هاي مفهومي را بتوان بطور خودكار به مدارك الكترونيك تخصيص داد، مي‌توان در زمينهء ايجاد ابزار فيلتركننده‌اي براي جستجو اقدام نمود (شيفر، 1996). پروژهء وورداسميت، سيستم نمايه‌سازي او.سي.ال.سي است كه محور اصلي اين مقاله را تشكيل مي‌دهد.
پروژهء‌ “دبليو.اس” در پايگاه كتابشناختي (او.سي.ال.سي)
يكي از اهداف كوتاه مدت پروژهء (او.سي.ال.سي)، توسعهء نرم‌افزاري است كه بتواند عبارات را بطور خودكار تشخيص داده و اين عبارات را هوشمندانه در مدارك تمام متن سازماندهي كند و به اين ترتيب نمايه‌هاي مفيدتري براي پايگاه‌هاي اطلاعاتي ايجاد گردد. به همين منظور با استفاده از روش‌هاي توسعه‌يافته در زبانشناسي محاسباتي و نيز استفاده از نرم‌افزار NetOwl امكان تشخيص و مقوله‌بندي اسامي خاص در متن غيرساختاري و نيز تهيهء ليست‌هاي مقوله‌بندي شده مناسب از اسامي اشخاص و اسامي جغرافيائي فراهم آمد (گودبي، 1998). چند خروجي نمايه در شكل 1 نشان داده شده است.

Have      havey     haw
Havei       havice       hawing
Havel       havill       hawed
Haven       havilland       hawker
شكل1. نمايش قسمتي از يك نمايه تكواژه‌اي

مدخل نمايه، اسم كامل يك مفهوم مشخص را در متن تعيين مي‌كند مثلاً عباراتي كه در شكل‌هاي 2 و 3 آمده است.

Air pollutants       air power
Air pollution       air pressure
Air pollution       air quality
شكل2. عبارات اسمي در يك پايگاه اطلاعاتي در محيط وب
Yevette       Abel Tasman
Haskins       National Park
Yevgeny       Abercorn
KafeInikov       Street
شكل 3. اسامي اشخاص و اسامي جغرافيائي در يك پايگاه اطلاعاتي در محيط وب

بطور كلي مجموعه‌اي از مداخل نمايه چكيده محتوائي يك پايگاه اطلاعاتي را نشان مي‌دهد و سهولت دستيابي به انواع چكيده‌ها را فراهم مي‌سازد. به عنوان مثال متداولترين اسامي اشخاص در پايگاه اطلاعاتي مقالات خبري استخراج شده از وب در شكل 4 نشان داده شده است.

Bob Dole       L Gore
Greg Noble       ennis
Gerge Washington       George Bush
شكل4. اسامي افراد در پايگاه اطلاعاتي مقالات خبري

از طرف ديگر نمايه‌هاي عبارتي دربرگيرنده موضوعاتي مثل male breast cancer است كه هنور در سيستم‌هاي رده‌بندي‌اي مثل ديوئي جائي براي آن در نظر گرفته نشده است.
با توجه به موارد بالا، اين نوع نمايه‌سازي براي پايگاه اطلاعاتي خيلي بزرگ تفاوت بسياري با نمايه‌سازي مدارك تمام متن يا غير ساخت يافته دارد. اين موضوع يكي از اهداف اساسي پروژهء دبليو.اس براي ثبت فنون پردازش زبان طبيعي به منظور قابل دسترس ساختن اطلاعات جهاني است (گودبي، 1998).
در سال 1996 دفتر تحقيقات، يك برنامهء تحقيقاتي را تحت عنوان پروژه دبليو.اس پردازش زبان طبيعي آغاز كرد. هدف اولين مرحله اين پروژه، توسعهء روش‌هاي اساسي براي تشخيص اصطلاحات مربوط به موضوعات فرهنگي بود. نتايج را مي‌توان در نمايه‌ها، اصطلاحنامه‌ها و سيستم‌هاي رده‌بندي كه منجر به افزايش دستيابي به پايگاه‌هاي اطلاعاتي (او.سي.ال.سي) مي‌شوند گنجاند؛ چون تمركز بر روي تشخيص و تحليل اصطلاحات است. دبليو.اس داراي پروژهء ديگري به نام وورداسميت توسعه يافته است. اين پروژه با بكارگيري زبانشناسي محاسباتي، يك سري فيلترهاي آماري را تكميل كرده و به بررسي امكان‌سنجي استخراج مستقيم اصطلاحات موضوعي از متن خام مي‌پردازد. و به اين ترتيب با استفاده از فن مشابهي اصطلاحات تزاروسي را به طور خودكار توليد مي‌كند (خان، 2002). از جنبهء عملي‌تر، توسعه‌اي كه اخيراً در فناوري “LEXIS/NEXIS SmartIndexing” ايجاد شده، خصوصيات واژگان كنترل شده را با الگوريتم نمايه‌سازي تركيب مي‌كند تا با مواردي مانند بسامد، وزن‌دهي، و تعيين محل مدرك در نمايه‌سازي مجموعه‌هاي خبري LEXIS/NEXIS ارتباط پيدا كند.
قبل از ادامهء بحث پيرامون ساختار و مدل‌هاي نمايه‌سازي دبليو.اس لازم است دربارهء پردازش زبان طبيعي كه در اين نمايه مورد استفاده قرار گرفته است توضيحاتي ارائه گردد.

پردازش زبان طبيعي
پردازش زبان طبيعي يا (ان.ال.پي) در ارتباط با توسعهء برنامه‌هاي كامپيوتري است كه مي‌تواند زبان طبيعي را تجزيه و تحليل كرده و در زمينهء اطلاعات مندرج در متن يا گفتار، عملكرد مناسبي داشته باشد. (ان.ال.پي) تاريخ طولاني دارد و شروع آن همزمان با تلاشهائي بود كه در سال 1950 در زمينهء ترجمهء ماشيني انجام گرفت (گريش‌مان، 1984). بيش از سه دههء گذشته، اين نوع پردازش مجموعه‌اي از مدلهاي آماري، زبانشناسي و معنايي را مورد توجه قرار داده است (دزكوچ، 1986). يكي از ويژگي‌هاي (ان.ال.پي) اين است كه مي‌توان ساختارهاي زبانشناسي متفاوتي براي انتقال يك حقيقت بكار برد. در نتيجه براي كنترل متون زبان طبيعي حتي در يك دامنهء محدود، به قوانين زيادي نياز است. اين قوانين بايد سازماندهي شود و براي انجام اين كار، لازم است ابتدا »ساختار اطلاعات« را در همان حيطهء پردازش متون مشخص نمود. به اين ترتيب اقدام به رده‌بندي و تعيين نحوهء تركيب اين حقايق براي تشكيل ساختارهاي بزرگتر نمود.
قالب‌ها و شكل‌هاي متعددي براي اشراف بر دامنه اطلاعات ايجاد شده است. بعضي از اين قالب‌ها تحت عنوان »سيستم‌هاي مبتني بر چارچوب« يا”frame-based systems” ناميده شده است. يك چارچوب يا عبارت است از يك ساختار داده‌اي براي نگهداري اطلاعاتي در مورد نمونه‌اي از يك رده خاص موضوعات. يا قالبي كه مخصوصاً براي تحليل متون علمي و فني ايجاد شده است »فرمت يا قالب اطلاعاتي« نام دارد. تحليل نحوي بيشترين زمينه‌اي است كه در زبانشناسي محاسباتي مورد مطالعه قرار گرفته و نسبتاً موفق بوده است (گريش‌مان، 1984). زبانشناسي محاسباتي حوزه‌اي است كه به سرعت در حال رشد است و بسياري از مسائل متفاوت در پردازش زبان را مورد توجه قرار مي‌دهد. تحليلگرهاي زيادي دارد كه براي كارهاي ساده پرسش و پاسخ تعداد كمي از آن‌ها كفايت مي‌كند. اما در مقايسه با توانايي انسان در درك زبان، هيچ يك از اين تحليلگرها عالي نيستند. حتي اگر بتوانند تطابقهاي ورودي براي الگوهاي مورد انتظار نحوي و معنائي را بخوبي انجام دهند، ليكن از عهدهء كنترل ورودي كه قادر به تأمين اين انتظارات نيست برنمي‌آيند. انسان انعطاف‌پذيرتر است و مي‌تواند در صورت عدم رعايت هنجارهاي نحوي، از كليدهاي معنائي و نيز كليدهاي نحوي استفاده نمايد. به هرحال هم انسان و هم كامپيوتر مي‌توانند اطلاعات را كنترل كنند. مثلاً هنگامي كه مي‌گوييم Mary ate pudding علاوه بر معناي آن، اكثر مردم معناي Mary pudding ate را نيز از آن درك مي‌كنند حتي اگر خلاف الگوهاي نحوي معمولي باشد. همچنين از عبارت “Mary ate frapple” حدس خواهند زد كه frapple يك نوع غذاست حتي اگر قبلاً اين كلمه را نشنيده باشند. براي رفع ابهام از اين سئوال، نياز به اطلاعات زمينه‌اي است. بايد به موانع و محدوديتهاي محلي توجه كرد و همچنين رده‌هاي معنايي اسم، فعل و صفت را تعريف و سپس محدوديت‌هايي كه از نظر با هم قرار گرفتن اين رده‌ها وجود دارد را مشخص نمود.
حوزه‌هاي زبان طبيعي داراي دو كاربرد اصلي هستند: »ماهيت طبيعي بازيابي پايگاه اطلاعاتي« و »ماهيت غيرتعاملي ساختاربندي متن«. پردازش زبان طبيعي، ثبت برخي از انواع اطلاعات را از طريق مكالمهء انسان-ماشين، موءثرتر مي‌كند.

سطوح پردازش زبان طبيعي
بررسي امكانات (اي.آر) براي (ان.ال.پي) از نظر سطوح پردازش زبانشناسي محاسباتي عبارتند از: 1) سطح فونتيكي يا آوائي مربوط به صداهاي گفتار؛ 2 سطح مورفولوژيكالي مربوط به پردازش شكل‌ها و بخش‌هاي قابل تشخيص هر كلمه؛ 3) سطح واژگاني مربوط به عملكرد كلمات؛ 4) سطح نحوي در تحليل زبان مربوط به تشخيص واحدهاي ساختاري مثل عبارات اسمي. محققان زبانشناسي محاسباتي و هوش مصنوعي ابزار تجزيه‌گر خودكار و پيشرفته‌اي براي استفاده در ان.ال.پي ايجاد كرده‌اند. از جمله موجوديت‌هاي نحوي مثل عبارات اسمي در شكل سرعنوان‌هاي موضوعي، امكانات كنترل آزاد متن مثل عملگردهاي هم‌جواري و تطابق الگو، تسهيلاتي براي محدود كردن جستجو به مرزهاي متني خاص مثل عنوان كه به منزله ساختارهاي مهم نحوي در (اي.آر) به كار مي‌رود. 5) سطح معنائي تحليل مربوط به استفاده از دانش متني براي نشان دادن معناي متن زبان طبيعي؛ 6) سطح عملي تحليل زبان از اطلاعات مربوط به موضوعات زندگي واقعي استفاده مي‌كند و به رفع ابهام معنائي كمك مي‌نمايد.
پردازش زبان طبيعي يك جزء جدائي‌ناپذير از كاربردهاي هوش مصنوعي است. هوش مصنوعي حوزه وسيعي از علم كامپيوتري مي‌باشد كه مربوط به رفتار هوشمند برنامه‌هاي كامپيوتري است و شامل سئوال و جواب، ترجمهء ماشين، يادگيري ماشيني، سيستم‌هاي ماهر و جلودارهاي هوشمند براي سيستم‌هاي پايگاه اطلاعاتي-مديريتي مي‌باشد. مشخصهء (ان.ال.پي) در هوش مصنوعي، زبانشناسي قوي و پيچيده، و توانائي‌هاي منطقي يعني استنتاجات قياسي و استقرائي آن است. به هر حال در هر دو زمينهء هوش مصنوعي و (آي.آر) نياز به يك تئوري واحد دربارهء زبان و منطق براي كنترل زبان طبيعي و تحليل معنائي خودكار و ساختاربندي حجم عظيمي از متن زبان طبيعي براي بازيابي اطلاعات و هوشمند ساختن دانش جديد وجود دارد. از نقطه‌ نظر پردازش زبان طبيعي و سيستم‌هاي (آي.آر)، سيستم‌هاي (دي.بي.ام.اس) و سيستم‌هاي هوش مصنوعي يا نشان‌دهنده پيشرفت ساختاربندي و پيچيده‌تر شدن عملكردهاي پردازش اطلاعات است (دزكچ، 1986). به طور كلي سيستم‌هاي موجود بازيابي اطلاعات، سيستم‌هائي اساساً منفعل هستند كه توسط جستجوكنندگان انساني هوشمند استفاده مي‌گردند. سيستم نمايه‌سازي دبليو.اس، يك نظام نمايه‌سازي خودكار براساس پردازش زبان طبيعي و برنامه‌هاي هوشمند كامپيوتري استوار است.

ساختار نمايه‌سازي دبليو.اس
نمايه‌سازي (دبليو.اس)، سيستمي خودكار است كه بر مبناي زبانشناسي محاسباتي و تئوري رده‌بندي استوار است. هدف اين سيستم، اصلاح دستيابي استفاده‌كننده به مجموعه الكترونيكي از طريق توسعه روش‌هاي موءثر در تشخيص و سازماندهي كليدواژه‌هاي مهم در محتواي يك مدرك است4. مبناي كار در اين نمايه‌سازي، تشخيص خودكار مفاهيم در متن ماشين‌خوان است. براي تشخيص كلمات و عباراتي كه به بهترين نحو مبيّن موضوع مدرك باشند از تئوري‌هاي زبانشناسي و اطلاع‌رساني استفاده مي‌گردد. به اين ترتيب دائماً براي پايگاه‌هاي اطلاعاتي، اصطلاحات موضوعي تهيه مي‌شود. قسمتي از نمايه در ذيل آورده شده است:

Ad
Ad hominem
Ad Limina
Army officer
Army officer crops
Asian
Asian republics
Attack
Attack ads
Balance
Balance sheet
Balance sheets
Balanced budget
Balanced budget amendment

نمونه‌اي از نمايه وورداسميت

در طراحي سيستم نمايه‌سازي (دبليو.اس) چهارمدوله براي مشخص كردن واژگان موضوعي وجود دارد كه در شكل 5 نشان داده شده است. هر مدوله الزاماً خصوصيت فيلتري را دراد كه جستجو را به توصيفگرهاي موضوعي بالقوه در متن ماشين‌خوان نامحدود مي‌سازد. هر چه تعداد فيلترها بيشتر باشد، پردازش پيچيده‌تر و متمركزتر مي‌شود.
فيلتر اول جدول‌ساز است كه وظيفهء آن ايجاد فايلهاي داده‌اي مي‌باشد. با توجه به طرح لايه‌اي اين سيستم،‌متمركزترين پردازش ممكن است به ميزان 005% فايل داده‌اي اصلي محدود شود. فايلها شامل: بسامد واژه‌ها، بسامد بيگرمهاي متوالي و بسامد بيگرمهاي متوالي كه همايند آن‌ها با يكديگر خيلي كم است. مثلاً اگر مقاله‌اي در زمينه نمايه‌سازي دبليو.اس در اختيار جدول‌ساز قرار گيرد، بيگرمهاي متوالي عبارتند از: The WordSmith, WordSmith Indexing & indexing System. و اين روند به همين ترتيب ادامه مي‌يابد تا همه جفت كلمات نزديك به هم مشخص و شمارش شوند. بيگرمهاي همايند حدود 25% از بيگرمها را نشان مي‌دهند. اين امر بوسيلهء يك آمار همايندي ساده مشخص مي‌گردد (گودبي، 1998).
استفاده از آمار همايندي در متني كه درباره نمايه‌سازي خودكار باشد، نشان مي‌دهد كه احتمال اين كه كلمه indexing بعد از كلمه automatic بيايد بسيار زياد است. فايلهائي كه به وسيلهء جدول‌ساز ايجاد مي‌شوند، مبنائي هستند براي همه پردازش‌هاي بعدي.
فيلتر دوم، يعني معرفه ان‌گرام يا يك مرحله پيش پردازشي است كه حدود 20% از متن خام كه داراي بيشترين احتمال از نظر داشتن واژگان قابل نمايه شدن باشد، را مشخص مي‌نمايد. اين معرّفه، توالي‌هاي شكسته نشده كلمات همايند را با استفاده از متن خام و فايل بيگرمهاي همايند، به عنوان ورودي مي‌يابد. اين كلمات ممكن است طولاني‌تر از دو كلمه باشند. ورودي ممكن است شامل توصيفگرهاي موضوعي مفيدي مثل “WordSmith Indexing System” باشد. از آنجا كه در مورد خروجي مطلوب، پيش فرضهاي اندكي وجود دارد لذا معرّفه “ان‌گرام” بيشتر رشته‌هاي متني طولاني‌تري كه احتمالاً مبيّن قراردادهاي انشائي در يك حوزهء موضوعي بوده و ساختارشان قابل پيشگوئي نباشد را دربر مي‌گيرند. مثلاً ان‌گرام‌هاي مجموعه‌اي از اخبار سياسي، دربردارنده طيف وسيعتري از مسائل مي‌باشند. مسائلي مانند حرص، تباهي، تحول در رهبري و غيره.
فيلتر دوم، مدل نمايه است و هدف آن ايجاد واژگان مفيدي است كه قابل نمايه شدن باشند. براي انجام اين كار، خروجي معرفّه ان‌گرام را دستكاري و مرتب كرده، آن‌ها را تبديل به عبارات كوتاهي كه داراي ساختار استاندارد باشد، مي‌نمايد. از آنجا كه دامنه بالقوه وسيعي از واژگان مفيد وجود دارد، مدل نمايه بسته به خصوصيات متن ورودي و نياز استفاده‌كننده، داراي پارامترهاي بسيار زيادي است. وظيفهء اين پارامترها، مشخص كردن معيارهاي خاصي است كه عبارات قابل نمايه شدن مي‌توانند تأمين كنند. مدل نمايه همچنين با استفاده از »برچسب جزئي از گفتار« مي‌تواند با ايجاد تغييرات ساده در يك فايل شكلي، تئوري‌هاي بسياري را در مورد ساختار اصطلاحات نمايه مورد استفاده قرار دهد. مثلاً بطور معمول فرض بر اين است كه عبارات اسمي نرمال شده را به عنوان توصيفگرهاي موضوعي خوب در نظر بگيرند؛ مانند: aerpspace industry, aviation fuel tax, bank fraud, beef crisis اين اصطلاحات شامل توالي اسمي هستند اما عبارات اسمي كه به وسيلهء صفات مشخص مي‌شوند نيز مي‌توانند توصيفگرهاي موضوعي باشند؛ مثل: big labour, biological warefare agent … بعضي از حوزه‌هاي موضوعي ممكن است شامل عبارات اسمي زيادي با حروف ربط يا حروف اضافه‌اي باشند؛ مثل: Library of Congress Subject Headings, high crimes. اما همهء عبارات نمايه به همين راحتي نيستند. اين موارد را مي‌توان با استفاده از تعداد آمار همايندي كه به وسيلهء مدولهء جدول‌ساز تأمين مي‌شود، تشخيص داد. همه اين متغيرهاي موجود در مدل نمايه را مي‌توان دستكاري كرد و واژگان مفيدي كه محتواي پايگاه اطلاعاتي را دقيق‌تر از تك‌واژه‌ها منعكس كند ايجاد نمود. بسته به حد و مرزهاي تعيين شده در فايل شكلي، مدل نمايه ممكن است 005% از فايل متن اصلي را نشان دهد.
مدل موضوعي آخرين مرحله در مشخص كردن واژگان موضوعي است. اين مدل در صورتي مورد استفاده قرار مي‌گيرد كه متن ورودي از يك موضوع محدود گرفته شده باشد يا به عبارت ديگر مربوط به نمايه‌سازي يك متن موضوعي خاص باشد. دستيابي به چنين متني از طريق وب امكان‌پذير است. واژگان برگرفته شده از موضوعات محدود، يكسري قواعد اضافي را نشان مي‌دهد كه با استفاده از چند فرآيند آماري نسبتاً ساده مي‌توان آن‌ها را مشخص و مرتب نمود. براي مثال، عباراتي كه به منزلهء خروجي مدل نمايه هستند و همگي آن‌ها از مجموعه خاصي از مدارك استخراج شده باشند، خوشه‌هائي را تشكيل مي‌دهند كه مبتني بر شباهت نحوي مي‌باشد. در مجموعه مداركي كه در مورد نرم‌افزار كاربردي كامپيوتري باشد، كلمهء “file”، كلمه‌اي متداول است زيرا نه تنها به عنوان يك اصطلاح مهم در متن ظاهر مي‌شود بلكه كلمه‌اي است كه در رأس عبارات اسمي مثل (پي.دي.اف)File, HTML file و غيره قرار مي‌گيرد. همچنين در مورد مداركي كه در زمينه معماري مي‌باشد، كلمهء design، يك كلمهء متداول است و در عباراتي مثل architectural design, urban design و غيره ظاهر مي‌شود. در زبانهاي غيرانگليسي، ممكن است سرعنوان عبارت اسمي، مستقيم‌ترين اسم نباشد؛ اما بدون توجه به محل ظاهرشدن آن كليد قابل اعتمادي براي تشخيص واژگان موضوعي غني و پرمحتوا باشد (گودبي، 1998) مي‌گويد آكه‌گاوا و واخ‌هولدر كه از متخصصين زبانشناسي محاسباتي هستند، توالي‌هاي اين مشاهدات را مورد بررسي قرار مي‌دهند.
به منظور تشريح خروجي ايجاد شده توسط سيستم نمايه‌سازي (دبليو.اس)، از همهء فيلترهاي اين سيستم استفاده مي‌شود‌تا‌عباراتي را از دو حيطهء موضوعي متفاوت يعني ستاره‌شناسي و مطالعات پژوهشي به دست آوريم. متداولترين‌سرعنوان‌هاي‌عبارات‌اسمي‌مربوط‌به هر مجموعه از متون در زمينهء مقالات اين دو حوزه به شرح زير است:

Head                     Sample Phrase
Framework (s)     Resource Descriptin Framework,
WarWick Frmework
Library (ies)        Alexandria Digital Library, Digital
Libraries, Cornel University Library
Qualifier             Dc Qualifiers, Default Qualifiers,
Dublin Core Qualifiers

جدول 1. سرعنوانهاي استخراج شده از حوزه مطالعات پژوهشي

Head                   Sample Phrase
Material            organic material, circumsteller                                material
Cluster (s)         tapezieum cluster, globular                                     cluster, beehive cluster
Way                 milky way, summer milky way,
winter milky way
Eclips (s)        parial solar eclips, annual eclips,

solar eclips
جدول 2. سرعنوانهاي استخراج شده از حوزه ستاره‌شناسي

عبارات‌نمايه‌سازي‌و‌ابهام‌در نمايه‌سازي دبليو.اس
عبارات استخراج شده از متن مدرك، هميشه بروشني بيانگر موضوع آن نمي‌باشند. در بيشتر موارد چنين است. هر يك از كلمات تشكيل دهنده عبارات در جداول 1-2 به تنهائي مبهم هستند اما هنگامي كه با يكديگر تركيب مي‌شوند، در ارتباط با حيطهء موضوعي خود بسيار خاص مي‌شوند و مفهوم آن حوزه را به روشني بيان مي‌كنند. مانند عبارت “ring system” كه در متون ستاره‌شناسي متداول است. كلمهء “system” معاني متعددي دارد اما عبارت “ring system” كاملاً روشن و ارتباط خاصي با حوزهء ستاره‌شناسي دارد. كلمهء “System” داراي مفاهيم متعددي مي‌باشد. اين مفاهيم عبارتند از:

1. a procedure or process for obtaining an objective,
2. an organized structure for arranging or classifying,
3. physically chemistry,
4. the living body considered as made up of interdependent components forming a unified whole,
5. a complex of methods or rules governing behavior

در اين مدل مي‌توان همچنين نتايج مربوط به تأثيرات ابهام را به طور دقيقتري مشاهده نمود. مثلاً متون مربوط به ستاره‌شناسي دربرگيرنده عباراتي است كه از كلمه galaxy كه واژه‌اي نسبتاً روشن و بدون ابهام مي‌باشد ساخته مي‌شود. مانند Cartwheel galaxy و Cluster galaxy. متون ستاره‌شناسي همچنين شامل عباراتي است كه از كلمه Hole كه واژه‌اي بسيار مبهم است، ساخته مي‌شوند؛ مانند black hole يا grey hole. نمايه‌اي مفيد در زمينهء اصطلاحات ستاره‌شناسي ممكن است داراي ليستي از انواع galaxy باشد كه به طور سلسله مراتبي تنظيم شده‌اند. در حالي كه ممكن است در مورد واژه hole چندان مفيد نيست. Galaxy واژه‌اي مهم در ستاره‌شناسي است كه مي‌تواند بدون توصيفگر صفتي يا اسمي در عبارات اسمي بيايند؛ مانند this galaxy, a galaxy و غيره. اما كلمه hole به حدي مبهم است كه نمي‌تواند به تنهائي، به عنوان يك اصطلاح غني موضوعي در ستاره‌شناسي به كار رود مگر اين كه به همراه يك توصيفگر بيايد.
در حوزهء مطالعات پژوهشي نيز (مانند حوزهء ستاره‌شناسي)، كلمات مهمي وجود دارد كه داراي بار معنائي هستند. مانند واژه‌هاي software, technology, internet, HTML.
از طرف ديگر واژه‌هاي خيلي مبهمي مثل way, core و غيره اساساً در عبارات پيچيده‌اي مثل milk way و Dublin core مشاهده مي‌شوند. تك واژه‌هاي غني موضوعي به نوبهء خود ارزشمندند و به علاوه پايه و اساس مهمي نيز براي ايجاد ساختارهائي به مراتب پيچيده‌تر از عبارات طولاني‌تر مي‌باشند.

نتيجه‌گيري
با توجه به نقش نمايه‌ها در تحقق اهداف اساسي پايگاه‌ها و شبكه‌هاي كتابشناختي-يعني افزايش قابليت دسترس‌پذيري به اطلاعات-به اهميت ساختار و ماهيت آن‌ها پي مي‌بريم. شبكه (او.سي.ال.سي) در بين ساير شبكه‌ها، به عنوان بزرگترين شبكه كتابشناختي، رسالتي مهم براي ايجاد تسهيلات بازيابي منابع اطلاعاتي الكترونيكي و تهيه سيستم نمايه‌سازي قوي و كارآمد كه از اثربخشي كافي در محيط وب برخوردار باشد، بر عهده دارد. به همين علت اين شبكه با توجه به محيط پوياي شبكه و ماهيت اطلاعات وبي، اقدام به تهيهء پروژهء نمايه‌سازي خود تحت عنوان دبليو.اس نموده است.
شبكهء (او.سي.ال.سي) از روشها و فنوني در سيستم نمايه‌سازي خود استفاده نموده است كه از قابليت و توان كافي براي هم‌خواني با اين بزرگترين پايگاه كتابشناختي جهاني برخوردار باشد. به عبارت ديگر ضمن اين كه به بهترين نحوي نمايانگر محتويات پايگاه اطلاعاتي (او.سي.ال.سي) باشد تسهيلات لازم را نيز براي جستجوي اطلاعات الكترونيكي به طور موءثر و كارآمد فراهم آورده و رضايت استفاده كننده را تأمين نمايد. از جمله اين فنون مي‌توان به استفاده اين سيستم از فنون پردازش زبان طبيعي اشاره نمود. طبق تجربيات متعدد در زمينه آزمون و ارزيابي زبان‌هاي نمايه‌سازي در طول دههء گذشته، زبان طبيعي به عنوان بهترين زبان نمايه از نظر اثربخشي و كارآئي شناخته شده است (باتاخريا، 1974). پردازش زبان طبيعي بر تئوريهاي زبانشناسي، آماري، اطلاع‌رساني و معنائي تأكيد دارد. نمايه‌سازي دبليو.اس با استفاده از اين تئوريها و برخورد ظريف و پيچيده با واژه‌ها موفق به طراحي، ساخت و ايجاد سيستم نمايه‌سازي مفيد و ارزنده جهت تحقق هدف بنيادي خود براي دستيابي به حجم زيادي از اطلاعات الكترونيكي موجود در وب شده است.
سيستم نمايه‌سازي (او.سي.ال.سي) با توجه به يك سري از فيلترهاي متن خام، اصطلاحات را مشخص مي‌كند كه اين اصطلاحات از نظر محاسباتي قابل بررسي مي‌باشد. اين سيستم براي تشخيص واژگان موضوعي داراي 4 فيلتر مي‌باشد: 1) جدول‌ساز مسئول ايجاد فايلهاي داده‌اي با استفاده از آمارهاي همايندي مي‌باشد. 2) فيلتر معرفه ان‌گرام كه يك مرحلهء پيش‌پردازشي است و بيشترين قسمت از متن خام را كه ممكن است داراي واژگان قابل نمايه شدن باشد مشخص مي‌كند. 3) مدل نمايه كه مسئول ايجاد واژگان مفيد قابل نمايه‌شدن است. و 4) مدل موضوعي كه در صورت نمايه‌سازي متن موضوعي خاص مورد استفاده قرار مي‌گيرد.
سيستم نمايه‌سازي دبليو.اس دربارهء موضوع مجموعه مدارك، ساختار انگليسي يا تئوري نمايه‌سازي از قبل به فرضيه پردازي نمي‌پردازد؛ بنابراين از نظر اصولي مي‌تواند اصطلاحات موضوعي غني را در زبانهاي غيرانگليسي مشخص نمايد.
هر زمان كه اصطلاحات غني موضوعي مورد نظر باشد، اصطلاحنامه تهيه شده توسط سيستم (او.سي.ال.سي) مورد استفاده قرار مي‌گيرد. به علاوه با استفاده از اين اصطلاحنامه، امكان تشخيص واژگان مربوط به انواع راهبردهاي مروري در مجموعه مدارك موجود در وب وجود دارد. با توجه به ثبات اين اصطلاحنامه در زمانهاي مختلف، مي‌توان به عنوان يك منبع ثابت مثل طرح رده‌بندي يا فرهنگ لغت، به آن مراجعه نمود. همچنين امكان تبيين و استفاده از آن براي طرحهاي رده‌بندي موجود مثل ديوئي، با استفده از روشهاي خودكار يا نيمه خودكار وجود دارد.
با توجه به اين كه در مقايسه با ساير سيستم‌هاي نمايه‌سازي، با استفاده از اين سيستم مي‌توان به حجم عظيمي از متن ماشين‌خوان در بسياري از موضوعات دسترسي يافت، امكان پيشرفت آن وجود دارد. و از طرف ديگر با توجه به افزايش توزيع فنون الكترونيكي در عصر فناوري اطلاعات، و نيز فقدان زمان كافي براي تحليل و رده‌بندي آن‌ها با استفاده از روشهاي سنتي دستي، به چنين پيشرفت‌هائي نياز است.

پي‌نوشت‌ها:

1. Online Computer Library Center
2. Ohio College Library Center
3. Ohio State University
4. http://orc.rsch.oclc.org:5061/
فهرست منابع
آرتاندي، سوزان. (1363). نمايه‌سازي همارا. ترجمهء فيروزان زهادي. اطلاع‌رساني نشريهء فني مركز اسناد و مدارك علمي، دورهء هفتم (ش 2)، ص 33-41.
اسونيوس، الين. (1372). پيش همارائي آري يا نه؟ ترجمه علي مزيناني. فصلنامهء كتاب. دورهء چهارم، شمارهء چهارم، ص 47-54.
حريري، مهرانگيز. توفيق، مسعوده. (1362). نمايه‌گردان. اطلاع‌رساني. دورهء هشتم (شمارهء 2)، ص 1-30.
راولي، جنيفر. (1374). نمايه‌سازي و چكيده‌نويسي. ترجمهء دكتر جعفر مهراد. تهران، سازمان مدارك فرهنگي انقلاب اسلامي.
سينائي، علي. (1351). نمايه‌سازي همارا. نشريهء فني مركز مدارك علمي. دورهء 1 (شمارهء 2)، ص 7-14.
فاگمن، رابرت. (1374). تحليل موضوعي و نمايه‌سازي، مباني نظري و توصيه‌هاي عملي. ترجمهء علي مزيناني. تهران، كتابخانهء ملي جمهوري اسلامي ايران.
Bhattacharyya, K.)1974( “The effectiveness of Natural Language In Science Indexing And Retrival”. Journal of Documentation, vol. 30, No.3, sep. p. 235-254.
Brodie, Nanacy E.(1970). “Evaluation of a kwic index for library literature”. Journal of American Society for Information Science. January-February, pp.22-28.
Burress, Elain p.(1980) “Automated indexing versus kowc: A performance comparison. Journal of American Society for Information Science. pp.60-63.
Chan, Lois Mai. “Exploiting LCSH, LCC, and DDC to Retrieve Networked Resources. Available at http://Icweb.loc.gov/vatdir/bibcontrol/chan-paper.htm
Crook, M. Annual Report. “OCLC History and Mission The OCLC Online Union Catalog: and intcomparable library resource. Publishing Research Quarterly, 11(3) Fall 95, p.39-50. available at http://www.oclc.org/oclc/ar95/profhist.hist.htm
Davis, Charles H.(1978) “Evidence of OCLC’s Potential for Spetial Libraries and Technological Information Centers. JASIS. pp.255-256.
Dillon, Martin. (1982) “Automatic Classification of Harris Survey Questions: An Experiment in the Organization of Information”. Journal of American society for Information Science. pp. 294-301.
Dillon, Mqrtin. Macdonald, Laura K. (1983) “Fully Automatic Book Indexing”. Journal of documentation.vol.39,No.3. pp.135-155.
Doszkocs, Tamas E.(1986) “Natural Language Processing in information Retrieval”. Journal of American Society for Information Science. 37(4): pp.191-196.
Dutta, S. & P.K. (1984) “Pragmatic Approach to Subject Indexing: A new Concept”. Journal of American Science for Information Science. 35(6): pp.323-331.
Ford, Karin. “Cooperative Library Services” 2000. available at
http://www.oclc.org/western/services/index.htm
Godby, Jean.(1998) “WordSmith: Research Project bridges gap between tokens and indexes.”Accessing OCLC in the 21th century. OCLC Newsletter. No.234.
Godby, C.Jean. “The WordSmith Indexing System”. Available at h
http://www.oclc.org/research/publications/arr/1998/godby-reighart/wordsmith.htm
Grishman, Ralph. (1984) “Natural Language Processing”. Journal of American Science for Information Science. 35(5): pp. 291-296.
Hersey, D.F. et al.(1971) “Free Text Word Retrieval And Scientist Indexing: Performance Profiles and Costs”. Journal of Documentation. Vol.27.No.3, pp.167-183.
Hsieh-Yee, Ingrid.(1996) “The Cataloging Practices of Spetial Libraries and their Relationship with OCLC”. Spetial Libraries Association, vol. 87,No.1, pp.10-20.
Hysell, D. (1996) “CLC’s website grows”. OCLC Newsletter, (222) o.10.
Jahoda, Gerald. (1970) “Information Storage and Retrieval Systems for individual Researchers”. NewYork: Wiley-nterscience..pp.1-111.
Jolley, J.L.(1976) “The Terminology of Coordinate Indexing”. Aslib Proceedings. 28(3), pp.120-128,
Jordan, Jay. (1998). “Helping Libraries Participate in the Global, Digital Community”. OCLC Newsletter 234,No.234.available at
www.oclc.org/oclc/new/n234/mem-users-council-hold-elections-htm.
Katz, W.A. (1974) “Introduction to Reference Work”. New York: McGrawHill.
Lancaster, F. Wilfrid. (1979) “Information Retrieval Systems: Characteristics, Testing and Evaluation”. 2nd ed. NewYork: John wiley.
Lancaster, F.W. (1991) “Indexing and Abstracting in Theory and Practice”. London: Library Association.
Libraries, Internet and oclc (2002). available at http://www.oclc.org/oclc.promo/9768110/110.htm
OCLC announces electronic collection online Advanced Technology Libraries. 25(8) Aug.96,p.1-2.
OCLC News Releases/OCLC Users Council. “OCLC Users Council meets to discuss regional networks, Consortia and other partnerships”. Available at http://www.oclc.org/oclc/press/96103ib.htm
Promenschenkel, George. Oluc 25:Home Sweet OCLC. Available at
www.oclc.org/oclc/new/n221/oluc.htm
Promenschenkel, George, Growing oclc.newsletter 224. available at
www.oclc.org/oclc/osu95/grow.htm
Ramsden, Michael J. (1974) “An Introduction to Index Language Construction: A Programmed Text”. London: Clive Bingley.
Roughton, Karen.(1982) “Thinking of OCLC Serials Control? Read this.”The Serials Librarin.vol.7(1). pp.23-30.
Rowley, Jennifer. (1982). “Abstracting and Indexing”. London: Clive bingley.
Shafer, K. Scorpion Pfoject explorers using Dewey to organize the web. OCLC Newsletter, (222) Jul/Aug 96, p.20-21.
فصلنامه اطلاع رساني. دوره 17، شماره 3و4
نوشته: فاطمه معتمدي
عضو هيئت علمي موسسه آموزش عالي علمي-كاربردي جهاد كشاورزي

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *