اخبار

کاربرد تکنیک شاپ در مدل های پایه علم اطلاعات

کاربرد تکنیک شاپ در مدل های پایه علم اطلاعات

در علم اطلاعات شاپ ابزاری است قدرتمند برای افزایش شفافیت و توضیح پذیری، به ویژه زمانی که با مدل های پیچیده در کارهایی مانند رده بندی اسناد و متون، سیستم های توصیه و بازیابی اطلاعات سر و کار داریم. توجه داشته باشید که در این مقاله به مبانی نظری شاپ، اصول نظریه بازی ها، تخصیص مقادیر برای پیش بینی یک مدل به هر ویژگی یا مقدار ویژگی نخواهیم پرداخت. با این وجود، اگر خوانندگان محترم سوال یا سوالاتی در این زمینه داشته باشند آن را در مقاله دیگری خواهم آورد.

 شاپ در علم اطلاعات چگونه کار می کند:

 شاپ، به هر ویژگی مقداری را اختصاص می دهد ( مثلاً، واژه، فراوانی اصطلاح، ابرداده) و آنگاه، این سهم را در تصمیم گیری مدل به کمیت تبدیل می کند. این رویکرد، به توضیح این که چرا یک مدل تصمیم خاصی را اتخاذ کرده است، کمک می کند تا از  شفافیت در سناریوهای رایج در علم اطلاعات اطمینان حاصل کنیم:

١رتبه بندی اسناد در بازیابی اطلاعات:

در یک نظام بازیابی اطلاعات، مانند یک موتور جستجو، یک مدل یادگیری ماشینی اسناد را براساس ربط با یک جستجو، رتبه بندی می کند. از شاپ برای توضیح اینکه چرا یک سند خاص بالاتر یا پایین تر از سایر مدارک رتبه بندی شده است، با شناسایی ویژگی هایی مانند کلید واژه‌ها، ابرداده و رفتار کاربر، که بیشترین تاثیر را در رتبه بندی دارند، استفاده کرد.

 مثال:

 فرض کنید سیستمی دارید که مقاله های تحقیقاتی را براساس ربط آن ها با سوالی مانند «یادگیری ماشینی در مراقبت های بهداشتی» رتبه بندی می کند. تکنیک شاپ را می‌توان برای توضیح اینکه چرا یک مقاله خاص، در رتبه اول و بالاتر از سایر اسناد قرار دارد، بکار برد. این روند ممکن است نشان دهد که:

 -- وجود اصطلاحات کلیدی مانند «یادگیری ماشینی» یا «مراقبت های بهداشتی» در عنوان کمک مهمی داشت.

 --  وقوع مکرر اصطلاحات مربوطه مانند «شبکه های عصبی» در چکیده مقاله دلالت بر ربط موضوع داشت.

 -- تعداد استنادهای مقاله تاثیر زیادی بر رتبه بندی آن داشت.

 با تجزیه و تحلیل مقادیر شاپ، پژوهشگران و کاربران می توانند تصمیم مدل را درک نموده و ببیند که هر ویژگی در رتبه بندی مقاله نقش مهم داشته است.

 ٢رده بندی متن:

به عنوان مثال، اگر مدلی مقالات علمی را به دسته های چون «علوم رایانه»، «پزشکی» یا «علوم اجتماعی» رده‌بندی کند، شاپ می تواند توضیح دهد که چرا این مقاله به یک دسته نسبت به دسته دیگر رده بندی شده است. این مدل ممکن است ویژگی هایی مانند فراوانی اصطلاحات با موضوع خاص، محل انتشار یا وابستگی سازمانی نویسنده را در نظر بگیرد. شاپ، می تواند تجزیه و تحلیلی ارایه دهد که کدام اصطلاحات و ویژگی ها بیشترین تاثیر را در تصمیم گیری رده بندی داشته اند.

 مثال:

یک مدل رده بندی کننده، یک مقاله مجله را به «پزشکی» نسبت می دهد. شاپ می تواند تشخیص دهد که:

 -- اصطلاح «کارازمایی بالینی»  بیشترین تاثیر مثبت را داشته است.

 -- واژه «بیمار» نیز کمک قابل توجهی داشته است.

 -- فقدان اصطلاحاتی مانند «الگوریتم» یا «محاسبات»  تاثیر منفی داشته است که در سایر حوزه ها مانند علوم کامپیوتر معمول هستند.

 این نوع تفکیک های تفصیلی،  به توضیح رده بندی کمک نموده و به کاربر اجازه می دهد تا درستی یا صحت تصمیمات مدل را تایید کند.

 ٣سیستم های توصیه:

سیستم های بازیابی اطلاعات اغلب مقالات، کتاب ها یا سایر محتوا ها را براساس اولویت های کاربر و داده های تاریخی، از استفاده هایی که از سیستم های بازیابی اطلاعات بعمل آمده است، توصیه می کنند. شاپ، با نسبت دادن توصیه ها به عواملی که در زیر ملاحظه می کنیم، می تواند توضیح دهد که چرا یک فقره خاص به یک کاربر توصیه شده است :

 -- شباهت مدرک جدید به محتوای مشاهده شده قبلی.

 --  رفتار کاربر (به عنوان مثال، زمان صرف شده برای خواندن مقالات مشابه)

 -- ابرداده مانند برچسب های موضوع، نویسندگان یا سال انتشار.

 مثال:

 سیستمی را در نظر بگیرید که مقالات پژوهشی را به یک محقق توصیه می کند. شاپ، می تواند توضیح دهد که:

 -- چهل درصد از توصیه ها براساس علاقه قبلی محقق بوده است که در مورد «شبکه های عصبی» بحث می کردند.

 -- سی درصد از توصیه ها از چاپ مقاله در نشریه ای است که محقق اغلب مطالعه می کند.

 -- بیست درصد به دلیل شباهت بین کلید واژه های مقاله فعلی و کلید واژه های موجود در پروفایل محقق بود.

 ۴شفافیت اخلاقی در علم اطلاعات:

 شفافیت در موضوعاتی مانند بازیابی اطلاعات حقوقی یا مرور در ادبیات یک رشته موضوعی بسیار مهم است. شاپ را می‌توان برای تشخیص سوگیری ها یا رفتار ناعادلانه در تصمیم گیری الگوریتمی استفاده کرد. به عنوان مثال، در یک سیستم بازیابی اسناد حقوقی، شاپ می تواند توضیح دهد که چرا قوانین مورد خاص به طور مداوم در رتبه های بالاتر یا پایین تر قرار می گیرند. بدیهی است، چنین رویکردی کمک می کند تا از منصفانه بودن توصیه ها اطمینان حاصل کرد. در مرور ادبیات یک رشته، شاپ ممکن است نشان دهد که آیا یک مدل بیش از حد به ناشران خاص یا تعداد استنادها متکی است یا خیر، که این روند در صورت مثبت بودن به طور بالقوه باعث ایجاد سوگیری هایی در پژوهش هایی می شود که «مرتبط» تلقی می شوند.

 مزایای استفاده از شاپ در علم اطلاعات  :

 ١شفافیت و اعتماد: شاپ در مورد تصمیم گیری های یک مدل توضیحات روشنی ارایه می دهد و بدین ترتیب به کاربران کمک می کند تا به سیستم های خودکار در بازیابی و رده بندی اطلاعات اعتماد کنند.

٢تشخیص سوگیری: شاپ با برجسته کردن ویژگی هایی که به یک تصمیم کمک می کنند، می کوشد سوگیری های احتمالی را در مدل کشف نموده که خود به نفع کلید واژه ها، ناشران یا نویسندگان خاص تمام می‌شود

 ٣اشکال زدایی مدل: شاپ به پژوهشگران و توسعه دهندگان کمک می کند تا خطا های منطق مدل را شناسایی کنند که کدام ویژگی ها تاثیر گذار بوده‌اند و آیا آن ویژگی ها باید وزن متفاوتی داشته باشند.

 ۴بهبود تجربه کاربر: با توضیح اینکه چرا یک سیستم،  توصیه یا رده بندی می کند، شاپ به کاربران کمک می کند تا تعامل خود را با سیستم درک نموده و در صورت لزوم آن را تغییر دهند  که این روند،  در نهایت، به رضایت کلی کاربر را از سیستم بازیابی منجر می گردد.

 مثالی از کاربرد شاپ در مدل بازیابی اطلاعات:

 فرض کنید یک مدل برای رتبه بندی اسناد براساس یک پرس و جو در یک موتور جستجوی دانشگاهی ساخته شده است. پس از اعمال شاپ، مشخص می‌شود که:

 ١کلید واژه های عنوان ۶٠٪‏ به امتیاز ربط کمک کردند.

٢طول چکیده ٢٠٪‏ تاثیر داشت.

٣تاریخ انتشار ١۵٪ کمک کرده است که به اسناد جدیدتر امتیاز بیشتری می دهد.

۴تعداد استنادها ۵٪ کمک کرده است، به مقالاتی که دارای استنادهای بیشتر است، وزن کمتری تعلق گرفته است.

 فرض کنید کاربر متوجه می شود که مقاله های اخیر بدون در نظر گرفتن ربط، به طور مداوم رتبه بندی بالاتری دارند. در آن صورت، تفکیک شاپ تاثیر تاریخ انتشار را نشان می دهد و توسعه دهندگان را وادار می سازد تا وزن این ویژگی را در تکرار مدل های آینده تنظیم کنند.( منبع لیزنا )

۲۹ مهر ۱۴۰۳ ۱۰:۵۸
دانشکده علوم تغذیه و صنایع غذایی |

نظرات بینندگان

نام را وارد کنید
تعداد کاراکتر باقیمانده: 500
نظر خود را وارد کنید