سبد خرید شما

اطلاعات داده

حجم: نامشخص
فرمت: نامشخص
وضعیت دریافت: برون سازمانی

واژگان فارسی دارای برچسب قطبیت

معرفی: 

پیکرهٔ واژگان فارسی دارای برچسب قطبیت که در آزمایشگاه سیستم‌های هوشمند اطلاعات دانشگاه تهران تولیده شده، از دو مجموعه داده تشکیل شده است:

۱. مجموعۀ استخراج‌شده از صفت‌های برچسب‌خوردهٔ فارسی:

این مجموعه از روی مجموعۀ صفت‌های زبان فارسی استخراج‌شده از فارس‌نت ساخته شده است. هر ورودی در این مجموعه می‌تواند برچسب مثبت، منفی و یا خنثی داشته باشد. برای این کار بیش از ۳۵۸۸ صفت استخراج و توسط چهار ارزیاب مستقل ارزیابی شده است. پس از تجمیع نظرات چهار ارزیاب سه مجموعه مثبت، منفی و خنثی استخراج شده است که به ترتیب شامل ۹۶۸، ۹۶۲ و ۱۵۷۲ کلمه میباشند. از بین صفت‌های ارزیابی‌شده تنها صفت‌هایی در مجموعه باقی مانده‌اند که یا توسط هر چهار ارزیاب برچسب یکسان گرفته‌اند و یا سه ارزیاب در مورد صفت نظر یکسان داشته‌اند و ارزیاب چهارم به این صفت برچسب مخالف نداده‌است.

۲. مجموعهٔ صفت، فعل و اسم:

این مجموعه از روی مجموعهٔ صفت‌ها، فعل‌ها و اسم‌های موجود در فارس‌نت استخراج شده‌اند. به هر کلمه از این مجموعه توسط یک روش مبتنی بر یادگیری ماشین نیمه‌ناظر یک مقدار عددی نسبت داده می‌شود. این عدد در‌واقع تعیین‌کنندهٔ میزان قطبیت هر کلمه است. به کلمات مثبت، عددی بزرگ‌تر از صفر و به کلمات منفی، عددی کوچکتر از صفر نسبت داده می‌شود. در این مجموعه، کلمات خنثی به صراحت تعیین نمی‌شوند و می‌توان کلمات خنثی را براساس یک حد آستانه بین کلمات مثبت و منفی تعیین کرد. این مجموعه شامل ۳۵۸۸ صفت، ۴۰۷۳ فعل و ۷۳۲۵ اسم می باشد. قابل ذکر است که کلیه کلمات از روی نسخهٔ ۱ فارس‌نت استخراج شده‌اند.

*اطلاعات ارجاع: 

Dehdarbehbahani, I.‎, Shakery, A.‎, & Faili, H.‎ (2014)‎.‎ Semi-supervised Word Polarity Identification in Resource-lean Languages.‎ Neural Networks, 58, ۵۰-۵۹.

اطلاعات تکمیلی: 

اطلاعات انتشار:

ناشر
دانشگاه تهران
شرایط استفاده

برای استفاده از این مجموعه، با ارسال ایمیل به خانم دکتر آزاده شاکری (سرپرست آزمایشگاه سیستم‌های هوشمند اطلاعات دانشگاه تهران -shakery[at]ut[dot]ac[dot]ir)، رمز مربوطه را دریافت نمایید.

مجوز
نامشخص
تاریخ ثبت در پیکره‌گان
۱۳۹۵-۰۲-۰۸
تاریخ آخرین تغییر
۱۳۹۸-۰۲-۰۳
شناسه
D3950208
آمار بازدید
۹۳۹۶

© ۲۰۱۸ CRCIS All Rights Reserved.‎