مهندسی ویژگی/فیچر:
با وجود پیشرفتهای حاصل در اکثر الگوریتمهای یادگیری ماشین و قادر ساختن آنها به درک بهتر دادههای طبقهبندی شدهای(categorical data) چون دادههای متنی، باز هم تبدیل چنین دادههایی به مقادیر عددی میتواند بهنوبهی خود روند آموزش مدل را تسهیل کرده و منجر به عملکرد بهتر و زمان اجرای سریعتری شود. علت این قضیه عمدتا به آنجائی برمیگردد که با تبدیل این دادهها به مقادیر عددی نهتنها دیگر تمرکزی بر معنی و مفهوم هر کتِگوری نخواهیم داشت؛ بلکه قادر خواهیم بود تا با در دست داشتن یکسری مقادیر عددی، تمام فیچرهای دیتاست را با نسبت یکسانی تراز کنیم. در بخش های بعدی بصورت مفصل به تشریح این موارد خواهیم پرداخت.
مهندسی ویژگی/فیچر یا به اصطلاح Feature engineering بدین صورت اتفاق میافتد: طبق یک الگوی رمزگذاری از پیش تعیین شده، یکسری برچسب که حاویِ مقادیر عددی هستند، تولید شده و بر روی کتِگوریها چسبانده میشوند؛ به عبارت دیگر، یکسری مقادیر عددی جای کتِگوریها را در دیتاست میگیرند. بعنوان مثال، فیچری به نام Genre را که کتگوریهایی از قبیل: pop, rock و country داشته باشد را میتوان بصورت زیر تبدیل کرد: