یکی از مسائلی که معمولا در پروژه های تجاری به درستی رعایت نمی شود، استفاده از روش بهینه سازی مناسب است. اگر بخواهیم در مورد بهینه سازی به صورت مستقل نگاه کنیم، بحث بسیار است. به هر حال بهینه سازی یک گرایش در کارشناسی ارشد است ولی اگر بخواهیم بحث را مربوط به عنوان خودمان کنیم، می توان به صورت خلاصه گفت که برای مسائل متفاوت، از روشهای بهینه سازی مربوط به خودشان که خوب جواب داده اند استفاده کنید. به این شکل که اگر می خواهید پروژه ای را انجام دهید، در تمامیِ سایکلهای تغییر هایپرپارامترها از یک تابع بهینه سازی مثل Adam
استفاده نکنید. دقت کنید که قرار نیست مقاله بنویسید، بلکه می خواهید برای تسکتان مدل مناسبی داشته باشید. در مقالات بهینه سازی مربوط به یادگیری عمیق معمولا بررسی می شود که روشهای ارایه شده برای چه تسکهایی مناسب هستند. در اینجا سوالاتی را مطرح می کنیم. اگر جوابشان را نمی دانید، این به این معنی است که تا به این لحظه به این نکته خیلی آگاه نبوده اید؛ بنابراین پیشنهاد می کنیم که در این زمینه چند مقاله بخوانید تا کامل متوجه شوید که در چه context ای از چه روشی برای بهینه سازی استفاده کنید.
- برای تسکهایی مثل detection روش
SGD
باNesterov
مناسب است یاAdam
؟ - چرا وقتی از روشی مثل
Adam
که به نوعی حافظه دار است، استفاده می کنیم، دیگر روشهای رگیولاریزیشن مثلL2
چندان جواب نمی دهند؟ - آیا برای تمامی تسکهای NLP باید از یک تابع هزینه مثل
Adam
استفاده کرد؟ - نمی توان شکل تابع هزینه را به دلیل ابعاد بالا تصور کرد ولی آیا MSE برای تسکهای متفاوت شکل و رفتار یکسانی دارد؟