سبد خرید شما

اطلاعات داده

حجم: ۷۷.۱۶ MB
فرمت: CONLL
وضعیت دریافت: درون سازمانی

پیکره محک سمیم

معرفی: 

«سرقت ادبی» عبارت است از تقلید از کار مؤلف دیگر بدون کسب اجازه و با هدف ارائه نتایج کار او به عنوان کار اصلی. نرم‌افزارهای تشخیص سرقت ادبی با هدف یافتن اینگونه سوء رفتارها در اسناد توسعه داده شده‌اند. به منظور ارزیابی عملکرد چنین نرم‌افزارهایی، پیکره‌هایی توسعه داده می‌شوند که در واقع مجموعه‌ای از متون شامل سرقت‌های ادبی هستند.  متن این پیکره‌ها به عنوان ورودی به سیستم‌های تشخیص سرقت ادبی داده شده و توانایی این سیستم‌ها در کشف موارد سرقت ادبی جایگذاری شده در این متون آزموده می‌شود. از آنجایی که اینگونه نرم‌افزارها کاملا مستقل از زبان نمی‌باشند، می‌بایست پیکره‌هایی به زبان‌های مختلف جهت ارزیابی آنها وجود داشته باشد. «محک سمیم»  پیکره‌ای است از متون دانشگاهی فارسی متشکل از ۴۷۰۷ مقاله در ۶ حوزهٔ موضوعی که بیش از ۵ هزار و ۸۰۰ مورد از انواع تقلب در آن‌ها جای داده شده است.

ویژگی‌ها: 

• متشکل از ۴۷۰۷   مقاله علمی در موضوعات علوم انسانی، علوم پایه، فنی و مهندسی، کشاورزی و منابع طبیعی، دامپزشکی، هنر و معماری

• تقسیم بندی نیمی از مقالات در موضوعات مختلف به مقالات منبع و نیمی دیگر به مقالات مشکوک

• طول ۲۰ درصد از مقالات کمتر از ۳۰۰۰ کلمه، ۵۰ درصد از مقالات بین ۳۰۰۰ تا ۶۰۰۰ کلمه و ۳۰ درصد از مقالات بین ۶۰۰۰ تا ۳۰۰۰۰ کلمه می‌باشد.

• جایگذاری سرقت ادبی در مقالات مشکوک به نسبتهای مختلف: ۵۰ درصد از مقالات مشکوک بدون سرقت ادبی می باشند. در ۱۵ درصد از موارد دارای تقلب بیش از ۸۰ درصد سرقت ادبی، در ۳۰ درصد از موارد بین ۵۰ تا ۸۰ درصد سرقت ادبی، در ۲۵ درصد از موارد بین ۲۰ تا ۵۰ درصد سرقت ادبی و در ۳۰ درصد از موارد بین ۵ تا ۲۰ درصد سرقت ادبی جایگذاری شده است.

• برای هر یک از ۶ موضوع اصلی مقالات، سرقتهای ادبی جایگذاری شده در نیمی از موارد از منابع هم موضوع و در نیمی از موارد از منابع غیرهم موضوع برداشت شده است.

• سرقت های ادبی جایگذاری شده در ۴۰ درصد از موارد بدون دستکاری، در ۴۰ درصد از موارد دارای دستکاری تصادفی شامل حذف، افزودن و جابجایی کلمات، و در ۲۰ درصد از موارد دارای دستکاری معنایی (جایگزینی برخی از کلمات با مترادف‌های آنها) بوده‌اند.

*اطلاعات ارجاع: 

Sharifabadi, M.‎ R.‎, & Eftekhari, S.‎ A.‎ (2016)‎.‎ Mahak Samim: A Corpus of Persian Academic Texts for Evaluating Plagiarism Detection Systems.‎ In FIRE ‪(Working Notes)‬, ۱۹۰- ۱۹۲. (دریافت)

اطلاعات انتشار:

ناشر
مرکز تحقیقات کامپیوتری علوم اسلامی (نور)
مجوز
تاریخ ثبت در پیکره‌گان
۱۳۹۶-۱۲-۲۰
تاریخ آخرین تغییر
۱۳۹۷-۱۱-۰۳
شناسه
P3961220a
آمار بازدید
۳۸۹۵

© ۲۰۱۸ CRCIS All Rights Reserved.‎