نوشته: فاطمه معتمدی
نظام نمايهسازي “وورداسميت” در شبكهء كتابشناختي (او.سي.ال.سي): چكيده: رشد سريع اطلاعات الكترونيكي در عصر حاضر، زمينهساز ايجاد انواع متعدد شبكههاي كتابشناختي گرديده است. دستيابي به اطلاعات الكترونيكي مستلزم استفاده از روش موثر در نمايهسازي و تشخيص كليدواژههاي مهم بيانگر محتواي يك مدرك است. در همين راستا، (او.سي.ال.سي)1
كه بزرگترين شبكه كتابشناختي جهان محسوب ميشود به منظور فراهم آوردن تسهيلات لازم براي دستيابي سريع وموثر به اطلاعات، اقدام به ساخت سيستمنمايهسازي خودتحت عنوان “وورد اسميت” نموده است. مبناي كار اين سيستم، تشخيص خودكار مفاهيم، كلمات و عبارات كليدي در متن ماشينخوان، براساس »پردازش زبان طبيعي« است. به اين ترتيب شبكه (او.سي.ال.سي) با استفاده از تئوريهاي زبانشناسي محاسباتي و معنائي-كه مورد تأكيد پردازش زبان طبيعي است-و نيز با بكارگيري تئوريهاي اطلاعرساني و مدلهاي آماري، سعي در ساخت نمايهاي داشته است كه علاوه بر همخواني با حجم عظيم دادههاي اين شبكه، از كارآئي و توانائي كافي و لازم در بازيابي سريع و موثر اطلاعات از محيط شبكه نيز برخوردار باشد.
كليدواژهها: شبكه كتابشناختي (او.سي.ال.سي)، نمايهسازي (دبليو.اس)، نمايهسازي خودكار، پردازش زبان طبيعي
مقدمه
نمايه مهمترين ابزار در نظامهاي بازيابي اطلاعات و كليد اساسي براي دستيابي به اطلاعات مندرج در منابع اطلاعاتي است. ارزش هر نمايه در گرو تهيه بهترين نقاط دستيابي و تأمين رضايت استفادهكنندگان در بازيابي اطلاعات است.
سالهاست كه كتابداران مسائل مربوط به ذخيره و بازيابي اطلاعات را مدنظر قرار داده و براي كنترل موثر مواد سنتي، ابزاري را توسعه دادهاند. توجه به روند تكاملي فرآيند نمايهسازي مبيّن اين نكته است كه افزايش حجم انتشارات و تغيير در شكل ارائه خدمات اطلاعرساني، نظامهاي نمايهسازي را نيز دستخوش تحولات قابل توجهي نموده است. ابداع انواع نمايههاي پيشهمارا، پس همارا، نمايههاي خودكار و استفاده از انواع زبانهاي طبيعي، آزاد و ساخت يافته يا كنترل شده همه تلاشهايي بودهاند در جهت بهبود و تكميل فرآيند نمايهسازي در انجام رسالت خاص خود.
ايجاد شبكههاي متعدد كتابشناختي و نيز رشد سريع آنها، فرصتهاي متعدد و چالشهاي بيسابقهاي را فراروي حرفه كتابداري و اطلاعرساني براي دستيابي به حجم عظيمي از اطلاعات گذارده است. چنين شرايطي نياز به مجتمع و يكپارچهسازي منابع موجود در محيط وب و اينترنت همراه با انواع مواد سنتي كتابخانهاي، ضرورت بررسي مجدد ابزارهاي موجود در بازيابي اطلاعات و كنترل كتابشناختي را ايجاب مينمايد.
بزرگترين شبكهء كتابشناختي پيوستهء موجود، شبكه (او.سي.ال.سي) ميباشد (هسي-يي، 1996) كه در سال 1967 ايجاد شده است و حاوي بيش از 31 ميليون ركورد در فرمتهاي مختلف است. اين شبكه يك سازمان تحقيقاتي غيرانتفاعي واقع در اوهايو ميباشد كه با ارائه خدمات كتابخانهاي امكان دستيابي 41 هزار كتابخانهء مختلف را به اطلاعات فراهم ميآورد. هدف كلي (او.سي.ال.سي) افزايش دسترسپذيري منابع كتابخانهاي از طريق اشتراك در منابع و كاهش نرخ رشد هزينههاي كتابخانهاي است. شبكه (او.سي.ال.سي) در راستاي تحقق بخشيدن به اين هدف اقدام به تهيه پروژههائي نموده است كه يكي از مهمترين اين پروژهها، پروژه نمايهسازي دبليو.اس ميباشد.
هدف نمايهسازي دبليو.اس اصلاح و بهبود دستيابي به اطلاعات الكترونيكي با استفاده از روشهاي موءثر براي تشخيص كليدواژههاي مربوط به محتواي يك مدرك ميباشد. تشخيص كلمات و عبارات بايد به گونهاي باشد كه به بهترين نحوي مبيّن موضوع مدرك باشند و در نتيجه نمايههاي مفيد و كارآمدي براي مدارك موجود در وب ايجاد گردد. به همين منظور مبناي اين نمايهسازي، تشخيص خودكار مفاهيم در متن ماشينخوان براساس پردازش زبان طبيعي، مدلهاي آماري، زبانشناسي محاسباتي و تئوري ردهبندي ميباشد.
مقالهء حاضر ضمن معرفي شبكهء كتابشناختي (او.سي.ال.سي) و اشاره به خدمات، پايگاههاي اطلاعاتي و پروژههاي اين شبكه، بطور اجمالي به مرور نظامهاي نمايهسازي و زبانهاي بازيابي اطلاعات ميپردازد و سپس طراحي و ساختار نظام نمايهسازي دبليو.اس را تشريح مينمايد.
پايگاه كتابشناختي (او.سي.ال.سي)
انواع پايگاههاي كتابشناختي با هدف تسهيل و تسريع در ارائه خدمات كتابشناختي و كمك به پيشرفت دانش ايجاد شدهاند و از بدو پيدايش خود تاكنون با ارائه سرويسها و خدمات متعدد، افراد و كتابخانههاي مختلف را در تحقق اهداف خود ياري بخشيدهاند. اين پايگاهها دامنه وسيعي از خدمات را ارائه ميدهند از جمله خدمات تهيه مواد، فهرستنويسي و خدمات مرجع. بسياري از كتابخانهها به دليل فشارهاي اقتصادي، رشد روزافزون حجم انتشارات و در نتيجه لزوم وجود شبكهاي براي اشتراك منابع و تعاون بين كتابخانهها و همچنين لزوم تغيير فاز از مالكيت به سمت دستيابي به اطلاعات، بر استفاده از اين شبكهها تأكيد دارند. بطور كلي از طريق اين پايگاهها ميتوان به سه پرسش اساسي پاسخ داد: 1) سئوالات كتابشناختي يعني امكان بدست آوردن اطلاعات كامل دربارهء يك كتاب، مجله يا انواع خاص ديگر مواد كتابخانهاي. سيستمهاي شبكهاي معمولاً دادههاي فهرستنويسي كاملي بر روي صفحه (سي.آر.تي) پايانه ميآورند. 2) سئوالات تحقيقي (تعيين صحت و سقم چيزي) مربوط به تشخيص هجي صحيح نام يك نويسنده، نام ناشر، تاريخ و غيره. 3) سئوال در مورد تعيين محل مدرك. از طريق اين قبيل سيستمها ميتوان فهميد كه كدام كتابخانهها مواد اطلاعاتي مورد نياز را دارند.
سيستمهاي كتابشناختي مثل (آر.ال.آي.ان)، (او.سي.ال.سي) و غيره شبكههائي غيرانتفاعي و بينالمللي هستند كه با روشهاي متنوعي اداره ميشوند و به شكلهاي بسيار متفاوت اقدام به ارائه خدمات مينمايند. عملكردهاي خاص اين شبكهها عبارتند از: تعيين محل سريع كتاب، مقاله و غيره؛ فراهمآوري و تهيه مواد از طريق مستقيم يا غيرمستقيم؛ كنترل گردش و دستيابي فهرست راه دور و فهرستنويسي مشترك. هر سيستم شامل مدخلهاي فهرستگان ملي مثلاً ركوردهاي مارك است. اين ركوردها شامل همه فرمتها از جمله كتاب، نشريهء ادواري و نسخ دستي ميباشند.
بزرگترين شبكهء كتابشناختي موجود، شبكهء (او.سي.ال.سي) ميباشد (هسييي، 1996) كه به منظور دستيابي بيشتر به اطلاعات جهاني بوجود آمده است. موءسسات و كتابخانههاي دانشگاهي و تحقيقاتي (هر كدام با توجه به نوع نياز خود) در سطح وسيعي از اين شبكه استفاده ميكنند. اين شبكه، يك سازمان تحقيقاتي غيرانتفاعي است كه به ارائه خدمات كتابخانهاي ميپردازد و در اوهايو واقع شده است.
تاريخچه، اهداف و عضويت در (او.سي.ال.سي)
در سال 1967، مسئولين دانشكدهها و دانشگاهها در اوهايو، يك سيستم كامپيوتري به نام »مركز كتابخانهاي كالج اوهايو«2 را ايجاد نمودند كه در آن كتابخانههاي موءسسات آكادميك اوهايو ميتوانستند در منابع مشترك شوند و هزينهها را كاهش دهند. اولين دفاتر (او.سي.ال.سي) در كتابخانهء اصلي دانشگاه ايالتي اوهايو مستقر گرديدند و اولين دفتر كامپيوتري آن در مركز تحقيقاتي “او.سي.يو”3 جاي گرفت. فردريك كليگور، اولين مسئول (او.سي.ال.سي) بود. در سال 1991 ساختمان مديريت OCLC توسعه يافت. اين شبكه داراي پنج مركز مديريت در كلمبو، اوهايو و كتابخانه اصلي دانشگاه ايالتي اوهايو ميباشد و محل كنوني آن در فرانتس رود 6565 در دوبلين است. اداره (او.سي.ال.سي) با اعضاي آن است. ساختار مديريتي آن متشكل از اعضاي عمومي، شوراي اعضا و هيأت امناء است. (او.سي.ال.سي) از يك سيستم كامپيوتري منطقهاي براي 45 كالج اوهايو شروع شد و در نهايت به يك شبكهء بينالمللي تبديل گرديد. در سال 1977 اعضاي (او.سي.ال.سي) از اوهايو، با عضويت كتابخانههاي خارج از اوهايو موافقت كردند و به اين ترتيب، (او.سي.ال.سي) به او.سي.ال.سي.اينك تغيير نام داد و امروزه انواع مختلف كتابخانهها از سراسر دنيا از خدمات (او.سي.ال.سي) استفاده مينمايند. به دنبال آن شوراي استفادهكنندگان (او.سي.ال.سي) تشكيل گرديد (جردان، 1998). اين شورا متشكل از كتابداران و ساير شركائي است كه شايستگي و صلاحيت آنها براي عضويت منوط به ميزان سهمي است كه در فهرستگان آنلاين (او.سي.ال.سي) دارند. با ايجاد اصلاحات در سختافزار، امكانات بيشتري براي استفادهكنندگان بيشتري فراهم نمود. از سال 1973 كتابخانههاي غيرآكادميك توانستند عضو (او.سي.ال.سي) شوند و نيز بر تعداد شبكههاي خارج از ايالتي كه به (او.سي.ال.سي) پيوستند افزوده گشت.
كتابخانهها با عضويت در (او.سي.ال.سي) ميتوانند به همهء اطلاعات جهاني و به تمامي خدمات و پايگاههاي اطلاعاتي دسترسي يابند. اين عضويت، بزرگترين كنسرسيوم كتابخانههاي جهاني را در بر ميگيرد و در بين ساير شبكههاي كتابشناختي بيشترين تعداد اعضاء را دارد. تعداد اعضاي آن تا سال 1991 بيش از 7000 كتابخانه در سراسر دنيا بود كه اكثر آنها از امريكا و كانادا بودند.
در سراسر تاريخ (او.سي.ال.سي) ارتباطات راه دور، يك وسيلهء مهم براي تداوم اهداف كلي خود در زمينهء افزايش دستيابي به اطلاعات جهاني و كاهش هزينهء اطلاعات بوده است (جردان، 1998). اين شبكه همچنان براساس پروتكل استاندارد صنعتي (تي.سي.پي/آي.پي) طي سه سال آينده در جهت تبديل به يك شبكه كاملاً باز به پيش ميرود. از طرف ديگر امكان دستيابي با كيفيت بالا را براي كتابخانهها فراهم ميسازد.
هدف كلي و اساسي (او.سي.ال.سي) كه بر مبناي افزايش سهولت دستيابي و استفاده از پيكره رو به رشد دانش و اطلاعات علمي، ادبي و آموزشي (گزارش ساليانه، 1995) قرار دارد، عبارت است از افزايش دسترسپذيري منابع كتابخانهاي و كاهش نرخ رشد هزينههاي كتابخانه. در راستاي تحقق اين هدف، اهداف ذيل را دنبال ميكند:
استقرار، نگهداري و پياده كردن يك شبكه كتابخانهاي كامپيوتري و افزايش استفاده از كتابخانه، بررسي و توجه به مسائل مربوط به كتابخانهها و كتابداري، فراهم نمودن امكانات و محصولاتي كه به نفع استفادهكنندگان كتابخانه وكتابخانهها باشد؛ از جمله افزايش قابليت دسترسي به منابع كتابخانه براي مراجعين به كتابخانهها و كاهش هزينههاي هر واحد كتابخانه.
كارهائي كه (او.سي.ال.سي) انجام ميدهد شامل خدمات فهرستنويسي، جستجو، امانت بين كتابخانهاي و فهرستگان ادواريها ميباشد. بطور كلي ميتوان گفت كه در سه زمينه خدمات مرجع و نشر الكترونيكي، توسعه فهرستنويسي، خدمات اشتراك منابع و توسعه بينالمللي پيشرفت داشته است.
شبكه و خدمات كتابشناختي (او.سي.ال.سي)
شبكه و خدمات كامپيوتري آن با بيش از 41000 كتابخانه در 82 كشور و قلمرو ارتباط برقرار مينمايد. (او.سي.ال.سي) از يك پايگاه كتابشناختي به نام “اپيك” نگهداي ميكند. در سال 1991 اين سيستم شامل 16 ميليون كتاب، يك ميليون سريال و 450000 رسانه سمعي بصري و همچنين 500000 گزارش بوده است. و تقريباً دو ميليون ركورد سالانه به آن اضافه ميشود (كاتز، 1974) بطوريكه هم اكنون اين پايگاه حاوي بيش از 31 ميليون ركورد در فرمتهاي مختلف كتاب، فيلم، گزارش يا تكنگاشت از كتابخانههاي عضو ميباشد.
(اپيك) مداخل متعددي از جمله دستيابي موضوعي و كليدواژهاي و جستجوي بولين را فراهم ميكند. دستيابي موضوعي فقط از سال 1990 ميسر بود. نرمافزار اپيك علاوه بر ركوردهاي او.سي.ال.سي امكان جستجوي پايگاههاي ديگر را از (اريك) و (ان.تي.آي.اس) فراهم ميسازد. سيستم اپيك هر ساله پايگاههاي اطلاعاتي جديدي به پايگاههاي خود ميافزايد. به اين ترتيب (او.سي.ال.سي) بزرگترين منبع اطلاعاتي جهاني است. نوارهاي مارك در قلب سيستم (او.سي.ال.سي) قرار دارد و نيز شامل فهرستنويسي اصلي مهم اعضا و موجودي همه كتابخانههاي دولتي است.
فهرستگان پيوسته (او.سي.ال.سي)، از نظر تعداد كتابخانههاي عضو و از نظر عمق و وسعت پوشش، پايگاه كتابشناختي پيشگام در دنياست. تا قبل از سال 1970 اكثر فعاليتهاي (او.سي.ال.سي) مربوط به تحقق در مورد طرح و عملكرد سيستم كامپيوتري فهرست آنلاين بود اما پس از آن تعداد 440711 فهرستبرگه آف لاين را نيز توليد كرد (پرومنشنكل، 2000). در سال 1971 سيستم فهرست آنلاين شروع به كار كرد و در سال مالي 1972، كتابخانهها بيش از 330000 عنوان را فهرست كردند. در سال 1974 (او.ال.يو.سي) به يك ميليون ركورد، در 1975/76 به دو ميليون، سال بعد به سه ميليون و در دسامبر 1980 به هفت ميليون ركورد كتابشناختي رسيد (جردان، 1998). در 1994 اين پايگاه شامل بيش از 29 ميليون ركورد بود و نرخ افزايش ركورد آن در هفته 22000 ركورد ميباشد (كروك، 1995).
در ژانويه 1999، (او.سي.ال.سي) يك پروژه فوري اوليه تحت عنوان (كرك) يا فهرست منابع پيوسته تعاوني را ارائه نمود. هدف اين پروژه كه مبتني بر (دي.سي) يا استاندارد هسته فرادادهاي در دوبلين بود، توسعه يك فهرست منابع در محيط وب بود. در ژانويه سال 1999 مركز كامپيوتري كتابخانه اوهايو، پروژه “كورك” را آغاز نمود تا يك پايگاه اطلاعاتي جامع براي منابع پيوسته از طريق تعاوني بينالمللي با كتابخانهها ايجاد كند.
پايگاههاي اطلاعاتيو سرويسهاي (او.سي.ال.سي)
(او.سي.ال.سي) به منظور تامين نيازهاي انواع كتابخانهها، طيف وسيعي از خدمات را ارائه ميدهد كه شامل ابزار فهرستنويسي، پايگاههاي اطلاعاتي مرجع و خدمات جستجوي پيوسته، ابزار اشتراك منابع، خدمات حفاظت و ردهبندي دهدهي ديوئي ميباشد. همچنين امكان ارتباط با فروشندگان متعدد پايگاههاي اطلاعاتي را ميسر ميسازد.
بطور كلي پايگاههاي اطلاعاتي (او.سي.ال.سي) شامل WorldCat, ArticleFirst, Electronic Collection Online, NetFirst, PAIS International, PaperFirst, Proceedings First, OCLC Union Lists of Periodicals ميباشد. در اينجا به دو پايگاهها يعني “وورلدكات” و فهرستگان پايگاه اطلاعاتي مجلات در (او.سي.ال.سي) يا بطور مختصر اشاره ميشود.
در مركز خدمات (او.سي.ال.سي)، پايگاه اطلاعاتي “وورلدكات” قرار دارد كه بيشترين استفاده را در آموزش عالي دارد و سابقه دانش بشري را از 4000 سال گذشته تاكنون به 400 زبان دربرميگيرد. “وورلدكات” بزرگترين پايگاه اطلاعاتي كتابشناختي در جهان است كه حاوي بيش از 46 ميليون ركورد فهرستنويسي از كتابخانههاي سراسر جهان بوده و هر پانزده ثانيه يك ركورد جديد به آن اضافه ميگردد (پرومنشنكل، 2000). اين ركوردها شامل كتاب، نسخ دستي، نوارهاي ويدئويي و صوتي، نشريات ادواري، روزنامهها، نقشهها، و برنامههاي كامپيوتري ميباشد. به علاوه محصولات ميكروفيلم و ميكروفيش را به شكل نوار يا فرمت كارتي فهرست ميكند. ورلدكات طرحهايي را براي توسعه مجموعه، فهرستنويسي، كنترل مستند، و خدمات گذشتهنگر ارائه مينمايد. ميتوان از طريق سيستمهاي محلي به طرو مستقيم به ورلدكات دسترسي يافت.
فهرستگان پايگاه اطلاعاتي مجلات در او.سي.ال.سي، يكي ديگر از پايگاههاي اطلاعاتي اين شبكه است كه شامل ميليونها (ال.دي.آر) ميباشد و به بيش از 750000 ركورد كتابشناختي مرتبط شده است. هر (ال.دي.آر) مجموعه اطلاعاتي خاصي از نشريات ادواري را فراهم ميكند.
سيستم فرعي كنترل نشريات ادواري در (او.سي.ال.سي) از سال 1975 مورد استفاده قرار گرفته است و هدف از طراحي آن، فراهمآوري امكان مشاركت موءسسات در كنترل آنلاين نشريات ادواري است. اين سيستم داراي چهار جزء است: كنترل، پيگيري، كنترل صحافي و فهرستگان، تا سال 1980 فقط جزء كنترل آن كار ميكرد اما كتابخانهها ميتوانستند از سيستم كنترل محدود ادواريها نيز استفاده كنند. پردازش يك نشريهء ادواري جديد و يا تغيير يك عنوان، يكي از مشكلترين كارهايي است كه سيستم فرعي كنترل ادواريها در (او.سي.ال.سي) بايد انجام دهد. مبناي فرآيند كنترل خودكار سيستم فرعي كنترل ادواريها در (او.سي.ال.سي)، كد بسامد يك ركورد دادهاي محلي است. اما اين كدها هميشه روزآمد نميشوند. حل مسائل مربوط به تغيير بسامد، منوط به استفاه از جزء پيگري كنترل ادواريهاست (رافتون، 1982).
يكي از مهمترين سرويسهاي (او.سي.ال.سي)، سرويس امانت بين كتابخانهاي است كه در سال 1979 معرفي گرديد و از آن زمان با استفاده از اين سرويس بيش از 14 ميليون امانت بين 6700 كتابخانهء سراسر جهان انجام گرفت. يكي ديگر از اين سرويسها، خدمات جستجوي اوليه ميباشد كه به عنوان يك ابزار مرجع در سال 1991 معرفي شد و اكنون در 19246 كتابخانه استفاده ميشود. وظيفه آن ارائه خدمات در زمينهء مجلات الكترونيكي به كتابخانهها و تأمين نيازهاي استفادهكنندگان راه دور است. اين سرويس با ايجاد يك ذخيرهء اطلاعات و فراهم نمودن امكان اشتراك كتابخانهها (بطور مستقيم از طريق ناشر) در مجموعه چاپي مجلات علمي، نقش خود را در توسعهء مجموعه ايفا مينمايد. مقالات مجلات در (او.سي.ال.سي) بطور الكترونيك ذخيره ميشود و كتابخانهها ميتوانند از طريق وب، با استفاده از يك مرورگر وب اشتراكي و از طريق رابط پشتيبانيكننده از جستجو در مجلات، به آنها دست يابند. از طريق خدمات جستجوي اوليه استفادهكنندگان ميتوانند به 70 پايگاه اطلاعاتي مشهور و شناخته شده دسترسي پيدا كنند.در حال حاضر اين سرويس داراي صفحات جستجو و گرافيكهاي جديدي است كه انجام جستجوهاي اساسي و پيشرفته را براي استفادهكنندگان به مراتب راحتتر كرده است (هيزل، 1996).
يكي ديگر از سرويسهاي (او.سي.ال.سي)، سرويس همكاري كتابخانهاي مركز خدمات غرب است (فورد، 2000). اين سرويس به منظور استفاده از قدرت جمعي 1700 كتابخانه عضو بر سه نوع خدمات متمركز است: فراهمآوري امكاناتي براي ايجاد پايگاه اطلاعاتي؛ حفاظت و رقمي كردن منابع؛ و ايجاد فرصتهاي آموزش. ايجاد پايگاه اطلاعاتي، تخفيفهاي قابل توجهي از لحاظ مشترك شدن در منابع الكترونيكي به همراه دارد. حفاظت و رقمي كردن نيز به اصلاح دستيابي به اطلاعات كمك ميكند و همچنين به اعضا در نگهداري مجموعه كمك مينمايد. (او.سي.ال.سي) همچنين با كنسرسيومهاي رسمي و غيررسمي كتابخانهها، موزهها و آرشيوها در تعيين روشهاي حفاظت مشاركت دارد. بخش حفاظت از منابع، اقدام به ارائه خدمات ميكروفيلمي و رقمي در غرب مينمايد و نيز با شبكههاي منطقهاي و ساير سازمانها براي تهيه خدمات مشاورهاي و آموزشي مرتبط همكاري مينمايد. بطور كلي ميتوان گفت مهمترين فعاليتهاي اصلي مركز خدمات غرب، عبارتند از: برگزاري كارگاههاي آموزشي و به نمايش گذاشتن محصولات و خدمات (او.سي.ال.سي)، توسعه فعاليتهاي مربوط به آموزش فهرستنويسي، توسعه برنامههاي مديريت كتابخانه، خدمات مرجع، حفاظت و رقميسازي (پرومنشنكل، 2000).
(او.سي.ال.سي)، كتابخانهها و اينترنت
محيط وب و اينترنت، مكانيزم ديگري براي تحول مدرك در راستاي هدف عمومي (او.سي.ال.سي) يعني افزايش دستيابي به اطلاعات جهاني و كاهش هزينههاي اطلاعاتي است در اختيار (او.سي.ال.سي) قرار ميدهد. شبكهء اينترنت روشهاي جديد و مهيّجي در زمينهء خدمات فني فراروي (او.سي.ال.سي) و كتابخانههاي عضو قرار ميدهد. كتابخانههاي عضو (او.سي.ال.سي) به سرعت در حال افزايش استفاده از خدمات وب و اينترنت ميباشند. در حال حاضر تقريباً 85% از كاربرد جستجوي اوليه و 18% از فهرستنويسي پريزم و اشتراك منابع بر روي اينترنت موجود است. (او.سي.ال.سي) از طريق http://www.oclc.org در روي وب قابل دسترسي است. با افزايش تعداد كتابخانهها، كنسرسيومها و شركتهايي كه به اينترنت وصل ميشوند، اين شبكه جهاني با محدوديتهاي فني روبرو ميشود (لايبريز، 2002). در همين زمينه مهندسين شبكه (او.سي.ال.سي) و فراهمآورندگان خدمات اينترنت جهت رفع مسائل ناشي از افزايش ترافيك اينترنت كه بر قابليت دسترسي و زمان پاسخگوئي تأثيرگذار است، با يكديگر همكاري مينمايند.
دسترسي به (او.سي.ال.سي)
(او.سي.ال.سي) در ابتداي تشكيل خود، در سال 1971، يك امكان دستيابي ويژه به نام (multidrop dedicated) و در 1974، يك امكان دستيابي تلفني (dial-access) فراهم نمود. بيست سال بعد (multidrop) متداولترين روش دستيابي باقي ماند. در سال 1991، (او.سي.ال.سي) يك شبكه جديد x.25 را نصب كرد كه نه تنها سريع، قابل اعتماد و از نظر هزينه، سودمند بود بلكه ميتوانست با نيازهاي فزاينده خدمات كتابشناختي (او.سي.ال.سي) سازگار باشد. در سال 1995، (او.سي.ال.سي) شروع به فراهم آوردن دستيابي اينترنتي براي خدمات فهرستنويسي و خدمات اشتراك منابع خود نمود (جردان، 1998). استفاده كننده ميتواند به طور خودكار به (او.سي.ال.سي) وصل شود و پايگاههاي اطلاعاتي انتخابي خود را جستو نمايد. همچنين ميتواند به طور مستقيم و يا از طريق شبكههاي منطقهاي مثل دانشگاه ايالتي شبكه كتابخانهاي (او.سي.ال.سي) نيويورك يا “نلينت” به (او.سي.ال.سي) دسترسي يابد. هزينههاي ورودي در هر يك از اين سيستمها متفاوت است. هزينههاي (او.سي.ال.سي) شامل استنادهاي آنلاين و نيز تجهيزات، نگهداري و هزينههاي ارتباط راه دور هستند (كاتز، 1974).
(او.سي.ال.سي) بر روي ديسكهاي فشرده نيز قابل دسترسي ميباشد. مجموعه ديسكهاي فشرده (كت)CD450 حاوي زيرمجموعههائي از ركوردهاي پايگاه اطلاعاتي اصلي ميباشد كه بطور فصلي روزآمد ميشوند. اين ديسكها در پنج زمينهء موضوعي كشاورزي، آموزش، هنر، علوم انساني، علوم و تكنولوژي به فروش ميرسند. هر مجموعه، علاوه بر افزايش نمايهها، دستيابي به ركوردهاي (او.سي.ال.سي) در اين زمينههاي موضوعي را فراهم ميكنند. مثلاً بستهء نرمافزاري آموزشي شامل ركوردهاي (او.سي.ال.سي) در آموزش و نيز ديسكهاي جاري و گذشتهنگر اريك ميباشد.
پروژههاي (او.سي.ال.سي)
(او.سي.ال.سي) داراي پروژههائي است كه عبارتند از: Kilory, Scorpion, Marc, Xml, ، (آر.دي.اف)،Dublin, Kilory, WordSmith به طور كلي اينترنت را مورد جستجو قرار ميدهد و با پايگاههاي اطلاعاتي تمام متن و پايگاههاي اطلاعاتي فرادادهاي از منابع اينترنتي ارتباط برقرار ميكند. Iteract كه در سال 1993 شروع و در سال 1996 تكميل گرديد. عبارت است از يك سيستم بررسي تحقيقاتي (او.سي.ال.سي) از نظر ماهيت و اندازه منابع اينترنتي و تأثير بالقوهء آنها بر عمليات كتابخانهاي Mantis به منظور سازماندهي و دستيابي به منابع الكترونيكي، استفاده و جامعيت سيستمهاي Kilory, Scorpion, Marc, Xml, ، (آر.دي.اف)،Dublin Core و WordSmith را مورد تحقيق و بررسي قرار ميدهد. اسكورپيون پروژه جديدي است كه به بررسي نمايهسازي و فهرستنويسي منابع الكترونيكي ميپردازد. با توجه به افزايش اطلاعات موجود در وب، و در نتيجه افزايش مدت زمان لازم براي يافتن اطلاعات مورد نياز و نيز افزايش هزينهء دستيابي به آن، پروژه اسكورپيون در نظر دارد نمايهسازي و فهرستنويسي را با يكديگر تركيب كند و مخصوصاً ابزاري براي تشخيص خودكار موضوع براساس طرحهاي شناخته شدهء ردهبندي ديوئي تهيه نمايد. در صورتي كه سرعنوانهاي موضوعي يا دامنههاي مفهومي را بتوان بطور خودكار به مدارك الكترونيك تخصيص داد، ميتوان در زمينهء ايجاد ابزار فيلتركنندهاي براي جستجو اقدام نمود (شيفر، 1996). پروژهء وورداسميت، سيستم نمايهسازي او.سي.ال.سي است كه محور اصلي اين مقاله را تشكيل ميدهد.
پروژهء “دبليو.اس” در پايگاه كتابشناختي (او.سي.ال.سي)
يكي از اهداف كوتاه مدت پروژهء (او.سي.ال.سي)، توسعهء نرمافزاري است كه بتواند عبارات را بطور خودكار تشخيص داده و اين عبارات را هوشمندانه در مدارك تمام متن سازماندهي كند و به اين ترتيب نمايههاي مفيدتري براي پايگاههاي اطلاعاتي ايجاد گردد. به همين منظور با استفاده از روشهاي توسعهيافته در زبانشناسي محاسباتي و نيز استفاده از نرمافزار NetOwl امكان تشخيص و مقولهبندي اسامي خاص در متن غيرساختاري و نيز تهيهء ليستهاي مقولهبندي شده مناسب از اسامي اشخاص و اسامي جغرافيائي فراهم آمد (گودبي، 1998). چند خروجي نمايه در شكل 1 نشان داده شده است.
Havei havice hawing
Havel havill hawed
Haven havilland hawker
مدخل نمايه، اسم كامل يك مفهوم مشخص را در متن تعيين ميكند مثلاً عباراتي كه در شكلهاي 2 و 3 آمده است.
Air pollution air pressure
Air pollution air quality
شكل2. عبارات اسمي در يك پايگاه اطلاعاتي در محيط وب
Yevette Abel Tasman
Haskins National Park
Yevgeny Abercorn
KafeInikov Street
شكل 3. اسامي اشخاص و اسامي جغرافيائي در يك پايگاه اطلاعاتي در محيط وب
بطور كلي مجموعهاي از مداخل نمايه چكيده محتوائي يك پايگاه اطلاعاتي را نشان ميدهد و سهولت دستيابي به انواع چكيدهها را فراهم ميسازد. به عنوان مثال متداولترين اسامي اشخاص در پايگاه اطلاعاتي مقالات خبري استخراج شده از وب در شكل 4 نشان داده شده است.
Greg Noble ennis
Gerge Washington George Bush
شكل4. اسامي افراد در پايگاه اطلاعاتي مقالات خبري
از طرف ديگر نمايههاي عبارتي دربرگيرنده موضوعاتي مثل male breast cancer است كه هنور در سيستمهاي ردهبندياي مثل ديوئي جائي براي آن در نظر گرفته نشده است.
با توجه به موارد بالا، اين نوع نمايهسازي براي پايگاه اطلاعاتي خيلي بزرگ تفاوت بسياري با نمايهسازي مدارك تمام متن يا غير ساخت يافته دارد. اين موضوع يكي از اهداف اساسي پروژهء دبليو.اس براي ثبت فنون پردازش زبان طبيعي به منظور قابل دسترس ساختن اطلاعات جهاني است (گودبي، 1998).
در سال 1996 دفتر تحقيقات، يك برنامهء تحقيقاتي را تحت عنوان پروژه دبليو.اس پردازش زبان طبيعي آغاز كرد. هدف اولين مرحله اين پروژه، توسعهء روشهاي اساسي براي تشخيص اصطلاحات مربوط به موضوعات فرهنگي بود. نتايج را ميتوان در نمايهها، اصطلاحنامهها و سيستمهاي ردهبندي كه منجر به افزايش دستيابي به پايگاههاي اطلاعاتي (او.سي.ال.سي) ميشوند گنجاند؛ چون تمركز بر روي تشخيص و تحليل اصطلاحات است. دبليو.اس داراي پروژهء ديگري به نام وورداسميت توسعه يافته است. اين پروژه با بكارگيري زبانشناسي محاسباتي، يك سري فيلترهاي آماري را تكميل كرده و به بررسي امكانسنجي استخراج مستقيم اصطلاحات موضوعي از متن خام ميپردازد. و به اين ترتيب با استفاده از فن مشابهي اصطلاحات تزاروسي را به طور خودكار توليد ميكند (خان، 2002). از جنبهء عمليتر، توسعهاي كه اخيراً در فناوري “LEXIS/NEXIS SmartIndexing” ايجاد شده، خصوصيات واژگان كنترل شده را با الگوريتم نمايهسازي تركيب ميكند تا با مواردي مانند بسامد، وزندهي، و تعيين محل مدرك در نمايهسازي مجموعههاي خبري LEXIS/NEXIS ارتباط پيدا كند.
قبل از ادامهء بحث پيرامون ساختار و مدلهاي نمايهسازي دبليو.اس لازم است دربارهء پردازش زبان طبيعي كه در اين نمايه مورد استفاده قرار گرفته است توضيحاتي ارائه گردد.
پردازش زبان طبيعي
پردازش زبان طبيعي يا (ان.ال.پي) در ارتباط با توسعهء برنامههاي كامپيوتري است كه ميتواند زبان طبيعي را تجزيه و تحليل كرده و در زمينهء اطلاعات مندرج در متن يا گفتار، عملكرد مناسبي داشته باشد. (ان.ال.پي) تاريخ طولاني دارد و شروع آن همزمان با تلاشهائي بود كه در سال 1950 در زمينهء ترجمهء ماشيني انجام گرفت (گريشمان، 1984). بيش از سه دههء گذشته، اين نوع پردازش مجموعهاي از مدلهاي آماري، زبانشناسي و معنايي را مورد توجه قرار داده است (دزكوچ، 1986). يكي از ويژگيهاي (ان.ال.پي) اين است كه ميتوان ساختارهاي زبانشناسي متفاوتي براي انتقال يك حقيقت بكار برد. در نتيجه براي كنترل متون زبان طبيعي حتي در يك دامنهء محدود، به قوانين زيادي نياز است. اين قوانين بايد سازماندهي شود و براي انجام اين كار، لازم است ابتدا »ساختار اطلاعات« را در همان حيطهء پردازش متون مشخص نمود. به اين ترتيب اقدام به ردهبندي و تعيين نحوهء تركيب اين حقايق براي تشكيل ساختارهاي بزرگتر نمود.
قالبها و شكلهاي متعددي براي اشراف بر دامنه اطلاعات ايجاد شده است. بعضي از اين قالبها تحت عنوان »سيستمهاي مبتني بر چارچوب« يا”frame-based systems” ناميده شده است. يك چارچوب يا عبارت است از يك ساختار دادهاي براي نگهداري اطلاعاتي در مورد نمونهاي از يك رده خاص موضوعات. يا قالبي كه مخصوصاً براي تحليل متون علمي و فني ايجاد شده است »فرمت يا قالب اطلاعاتي« نام دارد. تحليل نحوي بيشترين زمينهاي است كه در زبانشناسي محاسباتي مورد مطالعه قرار گرفته و نسبتاً موفق بوده است (گريشمان، 1984). زبانشناسي محاسباتي حوزهاي است كه به سرعت در حال رشد است و بسياري از مسائل متفاوت در پردازش زبان را مورد توجه قرار ميدهد. تحليلگرهاي زيادي دارد كه براي كارهاي ساده پرسش و پاسخ تعداد كمي از آنها كفايت ميكند. اما در مقايسه با توانايي انسان در درك زبان، هيچ يك از اين تحليلگرها عالي نيستند. حتي اگر بتوانند تطابقهاي ورودي براي الگوهاي مورد انتظار نحوي و معنائي را بخوبي انجام دهند، ليكن از عهدهء كنترل ورودي كه قادر به تأمين اين انتظارات نيست برنميآيند. انسان انعطافپذيرتر است و ميتواند در صورت عدم رعايت هنجارهاي نحوي، از كليدهاي معنائي و نيز كليدهاي نحوي استفاده نمايد. به هرحال هم انسان و هم كامپيوتر ميتوانند اطلاعات را كنترل كنند. مثلاً هنگامي كه ميگوييم Mary ate pudding علاوه بر معناي آن، اكثر مردم معناي Mary pudding ate را نيز از آن درك ميكنند حتي اگر خلاف الگوهاي نحوي معمولي باشد. همچنين از عبارت “Mary ate frapple” حدس خواهند زد كه frapple يك نوع غذاست حتي اگر قبلاً اين كلمه را نشنيده باشند. براي رفع ابهام از اين سئوال، نياز به اطلاعات زمينهاي است. بايد به موانع و محدوديتهاي محلي توجه كرد و همچنين ردههاي معنايي اسم، فعل و صفت را تعريف و سپس محدوديتهايي كه از نظر با هم قرار گرفتن اين ردهها وجود دارد را مشخص نمود.
حوزههاي زبان طبيعي داراي دو كاربرد اصلي هستند: »ماهيت طبيعي بازيابي پايگاه اطلاعاتي« و »ماهيت غيرتعاملي ساختاربندي متن«. پردازش زبان طبيعي، ثبت برخي از انواع اطلاعات را از طريق مكالمهء انسان-ماشين، موءثرتر ميكند.
سطوح پردازش زبان طبيعي
بررسي امكانات (اي.آر) براي (ان.ال.پي) از نظر سطوح پردازش زبانشناسي محاسباتي عبارتند از: 1) سطح فونتيكي يا آوائي مربوط به صداهاي گفتار؛ 2 سطح مورفولوژيكالي مربوط به پردازش شكلها و بخشهاي قابل تشخيص هر كلمه؛ 3) سطح واژگاني مربوط به عملكرد كلمات؛ 4) سطح نحوي در تحليل زبان مربوط به تشخيص واحدهاي ساختاري مثل عبارات اسمي. محققان زبانشناسي محاسباتي و هوش مصنوعي ابزار تجزيهگر خودكار و پيشرفتهاي براي استفاده در ان.ال.پي ايجاد كردهاند. از جمله موجوديتهاي نحوي مثل عبارات اسمي در شكل سرعنوانهاي موضوعي، امكانات كنترل آزاد متن مثل عملگردهاي همجواري و تطابق الگو، تسهيلاتي براي محدود كردن جستجو به مرزهاي متني خاص مثل عنوان كه به منزله ساختارهاي مهم نحوي در (اي.آر) به كار ميرود. 5) سطح معنائي تحليل مربوط به استفاده از دانش متني براي نشان دادن معناي متن زبان طبيعي؛ 6) سطح عملي تحليل زبان از اطلاعات مربوط به موضوعات زندگي واقعي استفاده ميكند و به رفع ابهام معنائي كمك مينمايد.
پردازش زبان طبيعي يك جزء جدائيناپذير از كاربردهاي هوش مصنوعي است. هوش مصنوعي حوزه وسيعي از علم كامپيوتري ميباشد كه مربوط به رفتار هوشمند برنامههاي كامپيوتري است و شامل سئوال و جواب، ترجمهء ماشين، يادگيري ماشيني، سيستمهاي ماهر و جلودارهاي هوشمند براي سيستمهاي پايگاه اطلاعاتي-مديريتي ميباشد. مشخصهء (ان.ال.پي) در هوش مصنوعي، زبانشناسي قوي و پيچيده، و توانائيهاي منطقي يعني استنتاجات قياسي و استقرائي آن است. به هر حال در هر دو زمينهء هوش مصنوعي و (آي.آر) نياز به يك تئوري واحد دربارهء زبان و منطق براي كنترل زبان طبيعي و تحليل معنائي خودكار و ساختاربندي حجم عظيمي از متن زبان طبيعي براي بازيابي اطلاعات و هوشمند ساختن دانش جديد وجود دارد. از نقطه نظر پردازش زبان طبيعي و سيستمهاي (آي.آر)، سيستمهاي (دي.بي.ام.اس) و سيستمهاي هوش مصنوعي يا نشاندهنده پيشرفت ساختاربندي و پيچيدهتر شدن عملكردهاي پردازش اطلاعات است (دزكچ، 1986). به طور كلي سيستمهاي موجود بازيابي اطلاعات، سيستمهائي اساساً منفعل هستند كه توسط جستجوكنندگان انساني هوشمند استفاده ميگردند. سيستم نمايهسازي دبليو.اس، يك نظام نمايهسازي خودكار براساس پردازش زبان طبيعي و برنامههاي هوشمند كامپيوتري استوار است.
ساختار نمايهسازي دبليو.اس
نمايهسازي (دبليو.اس)، سيستمي خودكار است كه بر مبناي زبانشناسي محاسباتي و تئوري ردهبندي استوار است. هدف اين سيستم، اصلاح دستيابي استفادهكننده به مجموعه الكترونيكي از طريق توسعه روشهاي موءثر در تشخيص و سازماندهي كليدواژههاي مهم در محتواي يك مدرك است4. مبناي كار در اين نمايهسازي، تشخيص خودكار مفاهيم در متن ماشينخوان است. براي تشخيص كلمات و عباراتي كه به بهترين نحو مبيّن موضوع مدرك باشند از تئوريهاي زبانشناسي و اطلاعرساني استفاده ميگردد. به اين ترتيب دائماً براي پايگاههاي اطلاعاتي، اصطلاحات موضوعي تهيه ميشود. قسمتي از نمايه در ذيل آورده شده است:
Ad
Ad hominem
Ad Limina
Army officer
Army officer crops
Asian
Asian republics
Attack
Attack ads
Balance
Balance sheet
Balance sheets
Balanced budget
Balanced budget amendment
نمونهاي از نمايه وورداسميت
در طراحي سيستم نمايهسازي (دبليو.اس) چهارمدوله براي مشخص كردن واژگان موضوعي وجود دارد كه در شكل 5 نشان داده شده است. هر مدوله الزاماً خصوصيت فيلتري را دراد كه جستجو را به توصيفگرهاي موضوعي بالقوه در متن ماشينخوان نامحدود ميسازد. هر چه تعداد فيلترها بيشتر باشد، پردازش پيچيدهتر و متمركزتر ميشود.
فيلتر اول جدولساز است كه وظيفهء آن ايجاد فايلهاي دادهاي ميباشد. با توجه به طرح لايهاي اين سيستم،متمركزترين پردازش ممكن است به ميزان 005% فايل دادهاي اصلي محدود شود. فايلها شامل: بسامد واژهها، بسامد بيگرمهاي متوالي و بسامد بيگرمهاي متوالي كه همايند آنها با يكديگر خيلي كم است. مثلاً اگر مقالهاي در زمينه نمايهسازي دبليو.اس در اختيار جدولساز قرار گيرد، بيگرمهاي متوالي عبارتند از: The WordSmith, WordSmith Indexing & indexing System. و اين روند به همين ترتيب ادامه مييابد تا همه جفت كلمات نزديك به هم مشخص و شمارش شوند. بيگرمهاي همايند حدود 25% از بيگرمها را نشان ميدهند. اين امر بوسيلهء يك آمار همايندي ساده مشخص ميگردد (گودبي، 1998).
استفاده از آمار همايندي در متني كه درباره نمايهسازي خودكار باشد، نشان ميدهد كه احتمال اين كه كلمه indexing بعد از كلمه automatic بيايد بسيار زياد است. فايلهائي كه به وسيلهء جدولساز ايجاد ميشوند، مبنائي هستند براي همه پردازشهاي بعدي.
فيلتر دوم، يعني معرفه انگرام يا يك مرحله پيش پردازشي است كه حدود 20% از متن خام كه داراي بيشترين احتمال از نظر داشتن واژگان قابل نمايه شدن باشد، را مشخص مينمايد. اين معرّفه، تواليهاي شكسته نشده كلمات همايند را با استفاده از متن خام و فايل بيگرمهاي همايند، به عنوان ورودي مييابد. اين كلمات ممكن است طولانيتر از دو كلمه باشند. ورودي ممكن است شامل توصيفگرهاي موضوعي مفيدي مثل “WordSmith Indexing System” باشد. از آنجا كه در مورد خروجي مطلوب، پيش فرضهاي اندكي وجود دارد لذا معرّفه “انگرام” بيشتر رشتههاي متني طولانيتري كه احتمالاً مبيّن قراردادهاي انشائي در يك حوزهء موضوعي بوده و ساختارشان قابل پيشگوئي نباشد را دربر ميگيرند. مثلاً انگرامهاي مجموعهاي از اخبار سياسي، دربردارنده طيف وسيعتري از مسائل ميباشند. مسائلي مانند حرص، تباهي، تحول در رهبري و غيره.
فيلتر دوم، مدل نمايه است و هدف آن ايجاد واژگان مفيدي است كه قابل نمايه شدن باشند. براي انجام اين كار، خروجي معرفّه انگرام را دستكاري و مرتب كرده، آنها را تبديل به عبارات كوتاهي كه داراي ساختار استاندارد باشد، مينمايد. از آنجا كه دامنه بالقوه وسيعي از واژگان مفيد وجود دارد، مدل نمايه بسته به خصوصيات متن ورودي و نياز استفادهكننده، داراي پارامترهاي بسيار زيادي است. وظيفهء اين پارامترها، مشخص كردن معيارهاي خاصي است كه عبارات قابل نمايه شدن ميتوانند تأمين كنند. مدل نمايه همچنين با استفاده از »برچسب جزئي از گفتار« ميتواند با ايجاد تغييرات ساده در يك فايل شكلي، تئوريهاي بسياري را در مورد ساختار اصطلاحات نمايه مورد استفاده قرار دهد. مثلاً بطور معمول فرض بر اين است كه عبارات اسمي نرمال شده را به عنوان توصيفگرهاي موضوعي خوب در نظر بگيرند؛ مانند: aerpspace industry, aviation fuel tax, bank fraud, beef crisis اين اصطلاحات شامل توالي اسمي هستند اما عبارات اسمي كه به وسيلهء صفات مشخص ميشوند نيز ميتوانند توصيفگرهاي موضوعي باشند؛ مثل: big labour, biological warefare agent … بعضي از حوزههاي موضوعي ممكن است شامل عبارات اسمي زيادي با حروف ربط يا حروف اضافهاي باشند؛ مثل: Library of Congress Subject Headings, high crimes. اما همهء عبارات نمايه به همين راحتي نيستند. اين موارد را ميتوان با استفاده از تعداد آمار همايندي كه به وسيلهء مدولهء جدولساز تأمين ميشود، تشخيص داد. همه اين متغيرهاي موجود در مدل نمايه را ميتوان دستكاري كرد و واژگان مفيدي كه محتواي پايگاه اطلاعاتي را دقيقتر از تكواژهها منعكس كند ايجاد نمود. بسته به حد و مرزهاي تعيين شده در فايل شكلي، مدل نمايه ممكن است 005% از فايل متن اصلي را نشان دهد.
مدل موضوعي آخرين مرحله در مشخص كردن واژگان موضوعي است. اين مدل در صورتي مورد استفاده قرار ميگيرد كه متن ورودي از يك موضوع محدود گرفته شده باشد يا به عبارت ديگر مربوط به نمايهسازي يك متن موضوعي خاص باشد. دستيابي به چنين متني از طريق وب امكانپذير است. واژگان برگرفته شده از موضوعات محدود، يكسري قواعد اضافي را نشان ميدهد كه با استفاده از چند فرآيند آماري نسبتاً ساده ميتوان آنها را مشخص و مرتب نمود. براي مثال، عباراتي كه به منزلهء خروجي مدل نمايه هستند و همگي آنها از مجموعه خاصي از مدارك استخراج شده باشند، خوشههائي را تشكيل ميدهند كه مبتني بر شباهت نحوي ميباشد. در مجموعه مداركي كه در مورد نرمافزار كاربردي كامپيوتري باشد، كلمهء “file”، كلمهاي متداول است زيرا نه تنها به عنوان يك اصطلاح مهم در متن ظاهر ميشود بلكه كلمهاي است كه در رأس عبارات اسمي مثل (پي.دي.اف)File, HTML file و غيره قرار ميگيرد. همچنين در مورد مداركي كه در زمينه معماري ميباشد، كلمهء design، يك كلمهء متداول است و در عباراتي مثل architectural design, urban design و غيره ظاهر ميشود. در زبانهاي غيرانگليسي، ممكن است سرعنوان عبارت اسمي، مستقيمترين اسم نباشد؛ اما بدون توجه به محل ظاهرشدن آن كليد قابل اعتمادي براي تشخيص واژگان موضوعي غني و پرمحتوا باشد (گودبي، 1998) ميگويد آكهگاوا و واخهولدر كه از متخصصين زبانشناسي محاسباتي هستند، تواليهاي اين مشاهدات را مورد بررسي قرار ميدهند.
به منظور تشريح خروجي ايجاد شده توسط سيستم نمايهسازي (دبليو.اس)، از همهء فيلترهاي اين سيستم استفاده ميشودتاعباراتي را از دو حيطهء موضوعي متفاوت يعني ستارهشناسي و مطالعات پژوهشي به دست آوريم. متداولترينسرعنوانهايعباراتاسميمربوطبه هر مجموعه از متون در زمينهء مقالات اين دو حوزه به شرح زير است:
Framework (s) Resource Descriptin Framework,
WarWick Frmework
Library (ies) Alexandria Digital Library, Digital
Libraries, Cornel University Library
Qualifier Dc Qualifiers, Default Qualifiers,
Dublin Core Qualifiers
جدول 1. سرعنوانهاي استخراج شده از حوزه مطالعات پژوهشي
Material organic material, circumsteller material
Way milky way, summer milky way,
winter milky way
Eclips (s) parial solar eclips, annual eclips,
solar eclips
جدول 2. سرعنوانهاي استخراج شده از حوزه ستارهشناسي
عباراتنمايهسازيوابهامدر نمايهسازي دبليو.اس
عبارات استخراج شده از متن مدرك، هميشه بروشني بيانگر موضوع آن نميباشند. در بيشتر موارد چنين است. هر يك از كلمات تشكيل دهنده عبارات در جداول 1-2 به تنهائي مبهم هستند اما هنگامي كه با يكديگر تركيب ميشوند، در ارتباط با حيطهء موضوعي خود بسيار خاص ميشوند و مفهوم آن حوزه را به روشني بيان ميكنند. مانند عبارت “ring system” كه در متون ستارهشناسي متداول است. كلمهء “system” معاني متعددي دارد اما عبارت “ring system” كاملاً روشن و ارتباط خاصي با حوزهء ستارهشناسي دارد. كلمهء “System” داراي مفاهيم متعددي ميباشد. اين مفاهيم عبارتند از:
2. an organized structure for arranging or classifying,
3. physically chemistry,
4. the living body considered as made up of interdependent components forming a unified whole,
5. a complex of methods or rules governing behavior
در اين مدل ميتوان همچنين نتايج مربوط به تأثيرات ابهام را به طور دقيقتري مشاهده نمود. مثلاً متون مربوط به ستارهشناسي دربرگيرنده عباراتي است كه از كلمه galaxy كه واژهاي نسبتاً روشن و بدون ابهام ميباشد ساخته ميشود. مانند Cartwheel galaxy و Cluster galaxy. متون ستارهشناسي همچنين شامل عباراتي است كه از كلمه Hole كه واژهاي بسيار مبهم است، ساخته ميشوند؛ مانند black hole يا grey hole. نمايهاي مفيد در زمينهء اصطلاحات ستارهشناسي ممكن است داراي ليستي از انواع galaxy باشد كه به طور سلسله مراتبي تنظيم شدهاند. در حالي كه ممكن است در مورد واژه hole چندان مفيد نيست. Galaxy واژهاي مهم در ستارهشناسي است كه ميتواند بدون توصيفگر صفتي يا اسمي در عبارات اسمي بيايند؛ مانند this galaxy, a galaxy و غيره. اما كلمه hole به حدي مبهم است كه نميتواند به تنهائي، به عنوان يك اصطلاح غني موضوعي در ستارهشناسي به كار رود مگر اين كه به همراه يك توصيفگر بيايد.
در حوزهء مطالعات پژوهشي نيز (مانند حوزهء ستارهشناسي)، كلمات مهمي وجود دارد كه داراي بار معنائي هستند. مانند واژههاي software, technology, internet, HTML.
از طرف ديگر واژههاي خيلي مبهمي مثل way, core و غيره اساساً در عبارات پيچيدهاي مثل milk way و Dublin core مشاهده ميشوند. تك واژههاي غني موضوعي به نوبهء خود ارزشمندند و به علاوه پايه و اساس مهمي نيز براي ايجاد ساختارهائي به مراتب پيچيدهتر از عبارات طولانيتر ميباشند.
نتيجهگيري
با توجه به نقش نمايهها در تحقق اهداف اساسي پايگاهها و شبكههاي كتابشناختي-يعني افزايش قابليت دسترسپذيري به اطلاعات-به اهميت ساختار و ماهيت آنها پي ميبريم. شبكه (او.سي.ال.سي) در بين ساير شبكهها، به عنوان بزرگترين شبكه كتابشناختي، رسالتي مهم براي ايجاد تسهيلات بازيابي منابع اطلاعاتي الكترونيكي و تهيه سيستم نمايهسازي قوي و كارآمد كه از اثربخشي كافي در محيط وب برخوردار باشد، بر عهده دارد. به همين علت اين شبكه با توجه به محيط پوياي شبكه و ماهيت اطلاعات وبي، اقدام به تهيهء پروژهء نمايهسازي خود تحت عنوان دبليو.اس نموده است.
شبكهء (او.سي.ال.سي) از روشها و فنوني در سيستم نمايهسازي خود استفاده نموده است كه از قابليت و توان كافي براي همخواني با اين بزرگترين پايگاه كتابشناختي جهاني برخوردار باشد. به عبارت ديگر ضمن اين كه به بهترين نحوي نمايانگر محتويات پايگاه اطلاعاتي (او.سي.ال.سي) باشد تسهيلات لازم را نيز براي جستجوي اطلاعات الكترونيكي به طور موءثر و كارآمد فراهم آورده و رضايت استفاده كننده را تأمين نمايد. از جمله اين فنون ميتوان به استفاده اين سيستم از فنون پردازش زبان طبيعي اشاره نمود. طبق تجربيات متعدد در زمينه آزمون و ارزيابي زبانهاي نمايهسازي در طول دههء گذشته، زبان طبيعي به عنوان بهترين زبان نمايه از نظر اثربخشي و كارآئي شناخته شده است (باتاخريا، 1974). پردازش زبان طبيعي بر تئوريهاي زبانشناسي، آماري، اطلاعرساني و معنائي تأكيد دارد. نمايهسازي دبليو.اس با استفاده از اين تئوريها و برخورد ظريف و پيچيده با واژهها موفق به طراحي، ساخت و ايجاد سيستم نمايهسازي مفيد و ارزنده جهت تحقق هدف بنيادي خود براي دستيابي به حجم زيادي از اطلاعات الكترونيكي موجود در وب شده است.
سيستم نمايهسازي (او.سي.ال.سي) با توجه به يك سري از فيلترهاي متن خام، اصطلاحات را مشخص ميكند كه اين اصطلاحات از نظر محاسباتي قابل بررسي ميباشد. اين سيستم براي تشخيص واژگان موضوعي داراي 4 فيلتر ميباشد: 1) جدولساز مسئول ايجاد فايلهاي دادهاي با استفاده از آمارهاي همايندي ميباشد. 2) فيلتر معرفه انگرام كه يك مرحلهء پيشپردازشي است و بيشترين قسمت از متن خام را كه ممكن است داراي واژگان قابل نمايه شدن باشد مشخص ميكند. 3) مدل نمايه كه مسئول ايجاد واژگان مفيد قابل نمايهشدن است. و 4) مدل موضوعي كه در صورت نمايهسازي متن موضوعي خاص مورد استفاده قرار ميگيرد.
سيستم نمايهسازي دبليو.اس دربارهء موضوع مجموعه مدارك، ساختار انگليسي يا تئوري نمايهسازي از قبل به فرضيه پردازي نميپردازد؛ بنابراين از نظر اصولي ميتواند اصطلاحات موضوعي غني را در زبانهاي غيرانگليسي مشخص نمايد.
هر زمان كه اصطلاحات غني موضوعي مورد نظر باشد، اصطلاحنامه تهيه شده توسط سيستم (او.سي.ال.سي) مورد استفاده قرار ميگيرد. به علاوه با استفاده از اين اصطلاحنامه، امكان تشخيص واژگان مربوط به انواع راهبردهاي مروري در مجموعه مدارك موجود در وب وجود دارد. با توجه به ثبات اين اصطلاحنامه در زمانهاي مختلف، ميتوان به عنوان يك منبع ثابت مثل طرح ردهبندي يا فرهنگ لغت، به آن مراجعه نمود. همچنين امكان تبيين و استفاده از آن براي طرحهاي ردهبندي موجود مثل ديوئي، با استفده از روشهاي خودكار يا نيمه خودكار وجود دارد.
با توجه به اين كه در مقايسه با ساير سيستمهاي نمايهسازي، با استفاده از اين سيستم ميتوان به حجم عظيمي از متن ماشينخوان در بسياري از موضوعات دسترسي يافت، امكان پيشرفت آن وجود دارد. و از طرف ديگر با توجه به افزايش توزيع فنون الكترونيكي در عصر فناوري اطلاعات، و نيز فقدان زمان كافي براي تحليل و ردهبندي آنها با استفاده از روشهاي سنتي دستي، به چنين پيشرفتهائي نياز است.
پينوشتها:
2. Ohio College Library Center
3. Ohio State University
4. http://orc.rsch.oclc.org:5061/
آرتاندي، سوزان. (1363). نمايهسازي همارا. ترجمهء فيروزان زهادي. اطلاعرساني نشريهء فني مركز اسناد و مدارك علمي، دورهء هفتم (ش 2)، ص 33-41.
اسونيوس، الين. (1372). پيش همارائي آري يا نه؟ ترجمه علي مزيناني. فصلنامهء كتاب. دورهء چهارم، شمارهء چهارم، ص 47-54.
حريري، مهرانگيز. توفيق، مسعوده. (1362). نمايهگردان. اطلاعرساني. دورهء هشتم (شمارهء 2)، ص 1-30.
راولي، جنيفر. (1374). نمايهسازي و چكيدهنويسي. ترجمهء دكتر جعفر مهراد. تهران، سازمان مدارك فرهنگي انقلاب اسلامي.
سينائي، علي. (1351). نمايهسازي همارا. نشريهء فني مركز مدارك علمي. دورهء 1 (شمارهء 2)، ص 7-14.
فاگمن، رابرت. (1374). تحليل موضوعي و نمايهسازي، مباني نظري و توصيههاي عملي. ترجمهء علي مزيناني. تهران، كتابخانهء ملي جمهوري اسلامي ايران.
Brodie, Nanacy E.(1970). “Evaluation of a kwic index for library literature”. Journal of American Society for Information Science. January-February, pp.22-28.
Burress, Elain p.(1980) “Automated indexing versus kowc: A performance comparison. Journal of American Society for Information Science. pp.60-63.
Chan, Lois Mai. “Exploiting LCSH, LCC, and DDC to Retrieve Networked Resources. Available at http://Icweb.loc.gov/vatdir/bibcontrol/chan-paper.htm
Crook, M. Annual Report. “OCLC History and Mission The OCLC Online Union Catalog: and intcomparable library resource. Publishing Research Quarterly, 11(3) Fall 95, p.39-50. available at http://www.oclc.org/oclc/ar95/profhist.hist.htm
Davis, Charles H.(1978) “Evidence of OCLC’s Potential for Spetial Libraries and Technological Information Centers. JASIS. pp.255-256.
Dillon, Martin. (1982) “Automatic Classification of Harris Survey Questions: An Experiment in the Organization of Information”. Journal of American society for Information Science. pp. 294-301.
Dillon, Mqrtin. Macdonald, Laura K. (1983) “Fully Automatic Book Indexing”. Journal of documentation.vol.39,No.3. pp.135-155.
Doszkocs, Tamas E.(1986) “Natural Language Processing in information Retrieval”. Journal of American Society for Information Science. 37(4): pp.191-196.
Dutta, S. & P.K. (1984) “Pragmatic Approach to Subject Indexing: A new Concept”. Journal of American Science for Information Science. 35(6): pp.323-331.
Ford, Karin. “Cooperative Library Services” 2000. available at
http://www.oclc.org/western/services/index.htm
Godby, Jean.(1998) “WordSmith: Research Project bridges gap between tokens and indexes.”Accessing OCLC in the 21th century. OCLC Newsletter. No.234.
Godby, C.Jean. “The WordSmith Indexing System”. Available at h
http://www.oclc.org/research/publications/arr/1998/godby-reighart/wordsmith.htm
Grishman, Ralph. (1984) “Natural Language Processing”. Journal of American Science for Information Science. 35(5): pp. 291-296.
Hersey, D.F. et al.(1971) “Free Text Word Retrieval And Scientist Indexing: Performance Profiles and Costs”. Journal of Documentation. Vol.27.No.3, pp.167-183.
Hsieh-Yee, Ingrid.(1996) “The Cataloging Practices of Spetial Libraries and their Relationship with OCLC”. Spetial Libraries Association, vol. 87,No.1, pp.10-20.
Hysell, D. (1996) “CLC’s website grows”. OCLC Newsletter, (222) o.10.
Jahoda, Gerald. (1970) “Information Storage and Retrieval Systems for individual Researchers”. NewYork: Wiley-nterscience..pp.1-111.
Jolley, J.L.(1976) “The Terminology of Coordinate Indexing”. Aslib Proceedings. 28(3), pp.120-128,
Jordan, Jay. (1998). “Helping Libraries Participate in the Global, Digital Community”. OCLC Newsletter 234,No.234.available at
www.oclc.org/oclc/new/n234/mem-users-council-hold-elections-htm.
Katz, W.A. (1974) “Introduction to Reference Work”. New York: McGrawHill.
Lancaster, F. Wilfrid. (1979) “Information Retrieval Systems: Characteristics, Testing and Evaluation”. 2nd ed. NewYork: John wiley.
Lancaster, F.W. (1991) “Indexing and Abstracting in Theory and Practice”. London: Library Association.
Libraries, Internet and oclc (2002). available at http://www.oclc.org/oclc.promo/9768110/110.htm
OCLC announces electronic collection online Advanced Technology Libraries. 25(8) Aug.96,p.1-2.
OCLC News Releases/OCLC Users Council. “OCLC Users Council meets to discuss regional networks, Consortia and other partnerships”. Available at http://www.oclc.org/oclc/press/96103ib.htm
Promenschenkel, George. Oluc 25:Home Sweet OCLC. Available at
www.oclc.org/oclc/new/n221/oluc.htm
Promenschenkel, George, Growing oclc.newsletter 224. available at
www.oclc.org/oclc/osu95/grow.htm
Ramsden, Michael J. (1974) “An Introduction to Index Language Construction: A Programmed Text”. London: Clive Bingley.
Roughton, Karen.(1982) “Thinking of OCLC Serials Control? Read this.”The Serials Librarin.vol.7(1). pp.23-30.
Rowley, Jennifer. (1982). “Abstracting and Indexing”. London: Clive bingley.
Shafer, K. Scorpion Pfoject explorers using Dewey to organize the web. OCLC Newsletter, (222) Jul/Aug 96, p.20-21.
عضو هيئت علمي موسسه آموزش عالي علمي-كاربردي جهاد كشاورزي