پیکره گان | پایگاه انتشار و تولید داده‌های زبانی

قیمت: رایگان

معرفی:

بازیابی اطلاعات وب (Web Information Retrieval) یک زمینۀ تحقیقاتی است که در آن از فنون حوزۀ بازیابی اطلاعات برای برطرف‌سازی یک نیاز اطلاعاتی در محیط وب استفاده می‌شود. در این نوع بازیابی علاوه بر متون می‌توان از اطلاعات موجود در فرا‌داده (Meta Data) و ساختار پیوندی اسناد نیز استفاده نمود. در جهت پیشبرد تحقیقات در این زمینه و مخصوصاً برای ارزیابی اصولی سامانه‌هایی که در این حوزه کار می‌کنند نیاز به مجموعه آزمایشی (Test Collection) است که علاوه بر متن، ساختار پیوندی مشابه وب داشته باشد. در همین راستا، مجموعه آزمايش dotIR با خزش (Crawl) وب در حوزه ir. در گروه تحقیقاتی پایگاه داده دانشگاه تهران تهیه شد. اجزاء این مجموعه شامل یک پیکرهٔ استاندارد یک میلیون سندی، مجموعهٔ ۵۰ پرس‌وجوی استاندارد، بیش از ۱۸ هزار داوری ارتباط پرس‌وجوها به اسناد پیکره و ۵۰ هزار بردار ویژگی استخراج‌شده از اسناد است. مجموعه محک وب دات‌آی‌آر توسط گروه تحقیقاتی پایگاه دادۀ دانشگاه تهران و با حمایت مرکز تحقیقات مخابرات ایران تهیه شده است.

*اطلاعات ارجاع:

درودی، ا.، برادران هاشمی، ه.، آل احمد، ا.، زارع بیدکی، ع. م.، حبیبیان، ا. ح.، مهدیخانی، ف.، شاکری، آ.، و رهگذر، م. (۱۳۸۷). مجموعه محک استاندارد برای تحقیقات بازیابی اطلاعات وب فارسی. (شماره گزارش: DBRG-TR-138702). گروه تحقیقاتی پایگاه داده: دانشگاه تهران.

سایر مستندات:

درودی، ا.، و حبیبیان، ا.ح. (۱۳۸۸). چگونگی ساخت مجموعه محک WebIR و مشخصات آن. (شماره گزارش: ITF.ITP.TCH.8732414.01). مرکز تحقیقات مخابرات ایران: تهران.

اطلاعات انتشار:

ناشر	دانشگاه تهران
مجوز	اختصاصی
تاریخ ثبت در پیکره‌گان	۱۳۹۴-۱۰-۱۵
تاریخ آخرین تغییر	۱۳۹۸-۰۲-۰۹
شناسه	D3941015a
آمار بازدید	۸۲۶۱

سبد خرید شما

اطلاعات داده

مجموعه محک وب دات‌آی‌آر

اطلاعات انتشار:

دربارۀ ما

تماس با ما