در آموزش شبکه های عصبی، learning rate یکی از مهمترین هایپرپارامترهایی است که لازم است به طرز مناسبی مدیریت شود. با این حال، متاسفانه شاهد این هستیم که خیلی از توسعه دهنده های شبکه عصبی همچنان از scheduler هایی استفاده می کنند که متعلق به سالها پیش هستند. فرآیند تغییر نرخ یادگیری، پروسه ای است که نیاز است به دقت انجام شود و روشهای کلاسیک متنوعی برایش وجود دارد. با این وجود، لازم است بدانید که برای این فرآیند، مقالات متعددی وجود دارد. دقت کنید که در دهه سوم قرن بیست و یک هستیم و خیلی نقطه ضعف بزرگی است اگر در پروژه هایی که قرار نیست مقاله شوند و صرفا عملکرد مناسب معیار است، از روشهایی مثل step برای تغییر نرخ یادگیری استفاده کنیم. با اینکه حتی روشی مثل cosine annealing schedule هم خیلی روش نوینی محسوب نمی شود، با این حال سعی کنید از روشهایی مثل این روش و در کل مقالات جدید پیرامون این موضوع مطلع باشید. در نظر گرفتن این نکته، نقش مهمی در سرعت آموزش شبکه های عصبی دارد. بخواهید یا نه، در سالی هستیم که مدلهایی معرفی شده اند که میلیاردها پارامتر دارند. آموزش این تعداد پارامتر نیاز به روشهای بروزی دارد که خوب جواب داده باشند.
نوشته شده بوسیله:
محمد ابراهیم
سردبیر بخش هوش مصنوعی وبسایت هستم. زمینه های فعالیت من عبارت است از یادگیری عمیق، یادگیری تقویتی، بازیابی اطلاعات و بینایی ماشین. به ریاضیات، جبر و بهینه سازی علاقه فراوانی دارم. تجربیات بسیاری در برنامه نویسی دارم و فریمورکهای مورد علاقه من عبارتند از django ،pytorch و tensorflow. از دانشگاه …