مهندسی ویژگی/فیچر:

با وجود پیشرفت‌های حاصل در اکثر الگوریتم‌های یادگیری ماشین و قادر ساختن آنها به درک بهتر داده‌های طبقه‌بندی شده‌ای(categorical data) چون داده‌های متنی، باز هم تبدیل چنین داده‌هایی به مقادیر عددی میتواند به‌نوبه‌ی خود روند آموزش مدل را تسهیل کرده و منجر به عملکرد بهتر و زمان اجرای سریعتری شود. علت این قضیه عمدتا به آنجائی برمیگردد که با تبدیل این داده‌ها به مقادیر عددی نه‌تنها دیگر تمرکزی بر معنی و مفهوم هر کتِگوری نخواهیم داشت؛ بلکه قادر خواهیم بود تا با در دست داشتن یکسری مقادیر عددی، تمام فیچرهای دیتاست را با نسبت یکسانی تراز کنیم. در بخش های بعدی بصورت مفصل به تشریح این موارد خواهیم پرداخت.

مهندسی ویژگی/فیچر یا به اصطلاح Feature engineering بدین صورت اتفاق می‌افتد: طبق یک الگوی رمزگذاری از پیش تعیین شده، یکسری برچسب‌ که حاویِ مقادیر عددی هستند، تولید شده و بر روی کتِگوری‌ها چسبانده میشوند؛ به عبارت دیگر، یکسری مقادیر عددی جای کتِگوری‌ها را در دیتاست میگیرند. بعنوان مثال، فیچری به نام Genre را که کتگوری‌هایی از قبیل: pop, rock و country داشته باشد را میتوان بصورت زیر تبدیل کرد:

B15781_01_12