استفاده از LSTM روی داده های مکانی


استفاده از LSTM روی داده های مکانی

یکی از ایده های در ظاهر جالب در یادگیری عمیق، استفاده از شبکه های بازگشتی روی تصویر است. اگر دقت کرده باشید، وقتی embedding هر کلمه در جمله را به LSTM می دهیم، عملا با ماتریس دو بعدی کار می کنیم؛ به عبارتی می توان ستون های تصویر را هر بار به شبکه های بازگشتی داد. تقریبا در سالهای 2014 و 2015 میلادی ایده استفاده از این کار در OCR مطرح شد و نتایج بسیار مناسبی بدست آمد ولی با این حال دقت به چند نکته اهمیت دارد.

🔸 در تسکی مثل OCR اصولا توالی وجود دارد؛ یعنی داده ما علاوه بر داشتن ویژگی locality، شباهت پیکسلهای کنار هم، دارای ویژگی temporal هم هست؛ زیرا در نوشتن حروف یک ترتیبی وجود دارد. پس منطقی است که به صورت ستون به ستون به تصویر نگاه کنیم. نکته دقیقا همین جا است. در داده هایی مثل CIFAR یا ImageNet این توالی وجود ندارد. منطق خیلی درستی وجود ندارد که ویژگی temporal را به ستون های چنین دادگانی نسبت دهیم.

🔸 خیلی از مقالاتی که سعی کردند از LSTM روی تصویر استفاده کنند، بر این موضوع که باید ویژگی های مکانی حفظ شوند آگاه بوده اند و سعی کرده اند در stack کردن لایه ها، از LSTM تنها به عنوان feature extractor مشتق پذیر استفاده کنند تا در شبکه به صورت مستقیم این ویژگی ها استفاده شوند. این نکته اهمیت بسیار بالایی دارد. خود LSTM به هیچ وجه در هر time step ویژگی های مکانی را حفظ نمی کند؛ یعنی اصلا مکانیزمی برای یافتن ارتباط مکانی ندارد، دقیقا مشکلی که در MLP وجود دارد. وقتی از LSTM تنها برای word embedding استفاده می کنیم، attack زدن کمی چالش برانگیز است؛ به این علت که embedding ها در فضای latenet هستند ولی وقتی تصویر را تنها به LSTM می دهیم، به این علت که تصویر در فضای latent نیست و ما می توانیم به صورت مستقیم تصویر را درک کنیم، attack زدن ساده می شود؛ زیرا LSTM ویژگی مکانی را نمی فهمد و می توان، برای مثال، سطرهای متفاوت را چشمی جابه جا کرد و با آزمون و خطا شبکه را گول زد.

🔸 مهمترین ضعف LSTM برای تصاویر، ضعف در تعداد نورون است. اصولا دادگانی مثل ImageNet خیلی پیچیده هستند و اگر ویژگی های local استخراج نشوند، کاری که ConvNet خوب انجام می دهد، یادگیری بسیار چالش خواهد داشت. LSTM در این زمینه حرفی برای گفتن ندارد.



نوشته شده بوسیله: کامران پناهی
کامران پناهی

کارشناسی ارشد هوش مصنوعی

علاقه مند به یادگیری عمیق

مطالب مشابه