یادگیری فضایی چند خطی

توسط علی رضا نقش نیلچی | چهارشنبه بیست و سوم مهر ۱۳۹۹ | 17:32

یک فیلم یا یک توالی تصویر به عنوان یک تانسور مرتبه سوم ستون x ردیف x زمان برای یادگیری خرده فضایی چند خطی نشان داده می شود.

یادگیری فضایی چند خطی رویکردی برای کاهش ابعاد است. [1] [2] [3] [4] [5] کاهش ابعاد را می توان بر روی یک سنسور داده انجام داد که مشاهدات آن برداری شده است [1] و به صورت یک تنسور داده سازماندهی شده است ، یا مشاهدات آن ماتریسی است که به یک داده پیوند داده می شود تنسور [6] [7] در اینجا چند نمونه از سنسورهای داده وجود دارد که مشاهدات آنها برداری شده است یا مشاهدات آنها ماتریسی است که در تصاویر تنسور داده (2D / 3D) ، توالی های ویدئویی (3D / 4D) و مکعب های فوق طیفی (3D / 4D) بهم پیوسته است .

نگاشت از یک فضای برداری با ابعاد بالا به مجموعه ای از فضاهای برداری با ابعاد پایین ، یک پیش بینی چند خطی است . [4] وقتی مشاهدات در همان ساختار سازمانی که سنسور ارائه می دهد ، حفظ می شوند. به عنوان ماتریس یا حسگرهای مرتبه بالاتر ، نمایش آنها با انجام N پیش بینی خطی چندگانه محاسبه می شود. [6]

الگوریتم های یادگیری فضایی چند خطی تعمیم مرتبه بالاتر روش های یادگیری فضایی خطی مانند تجزیه و تحلیل م princip لفه های اصلی (PCA) ، تجزیه و تحلیل م independentلفه های مستقل (ICA) ، تجزیه و تحلیل تفکیک خطی (LDA) و تحلیل همبستگی متعارف (CCA) هستند.

فهرست

پیشینه [ ویرایش ]

با پیشرفت در دستیابی به فناوری و ذخیره سازی فناوری ، داده های بزرگ (یا مجموعه داده های عظیم) به طور روزانه در طیف گسترده ای از برنامه های در حال ظهور تولید می شوند. بیشتر این داده های بزرگ چند بعدی هستند. علاوه بر این ، آنها معمولاً بسیار با ابعاد بسیار بالا ، با مقدار زیادی افزونگی ، و فقط بخشی از فضای ورودی را اشغال می کنند. بنابراین ، کاهش ابعاد به طور مکرر برای نقشه برداری از داده های با ابعاد بالا به یک فضای کم بعد در حالی که تا آنجا که ممکن است اطلاعات را حفظ کنید ، استفاده می شود.

الگوریتم های یادگیری فضای زیرین خطی تکنیک های سنتی کاهش ابعاد هستند که داده های ورودی را به عنوان بردار نشان می دهند و برای یک نقشه برداری خطی بهینه به فضای بعدی پایین حل می کنند. متأسفانه ، آنها اغلب در هنگام برخورد با داده های عظیم چند بعدی ناکافی هستند. آنها در بردارهایی با ابعاد بسیار بالا نتیجه می گیرند ، منجر به تخمین تعداد زیادی از پارامترها می شوند. [1] [6] [7] [8] [9]

یادگیری خرده فضایی چندخطی برای کاهش ابعاد از انواع مختلف ابزار تجزیه و تحلیل تانسور داده استفاده می کند. یادگیری چند فضایی زیر فضایی را می توان در مشاهداتی که اندازه گیری های آنها برداری شده و به صورت یک تانسور داده سازماندهی شده است ، اعمال کرد [1] یا اندازه گیری های آنها به صورت ماتریس در نظر گرفته شده و به صورت یک سنسور متصل می شوند . [10]

الگوریتم ها [ ویرایش ]

تجزیه و تحلیل مولفه های اصلی چند خطی [ ویرایش ]

از نظر تاریخی ، تجزیه و تحلیل مولفه های اصلی چند خطی به عنوان "M-mode PCA" شناخته شده است ، اصطلاحی که توسط پیتر کروننبرگ ابداع شده است. [11] در سال 2005 ، Vasilescu و Terzopoulos اصطلاحات PCA چند خطی [12] را به عنوان راهی برای تمایز بهتر بین تجزیه های تانسور چند خطی که محاسبه آمار مرتبه 2 مربوط به هر حالت تانسور داده (محور) را معرفی کردند ، [1] [2] [ 3] [13] [8] و کارهای بعدی در مورد تجزیه و تحلیل مولفه های مستقل چند خطی [12] که آمار مرتبه بالاتر مربوط به هر حالت / محور تنسور را محاسبه می کند. MPCA پسوند PCA است .

تجزیه و تحلیل مولفه مستقل چند خطی [ ویرایش ]

تجزیه و تحلیل مولفه های مستقل چند خطی [12] پسوند ICA است .

تحلیل خطی چند خطی [ ویرایش ]

پسوند چند خطی LDA
- مبتنی بر TTP: تجزیه و تحلیل تبعیض آمیز با نمایندگی تنسور (DATER) [9]
- مبتنی بر TTP: تجزیه و تحلیل متمایز کننده تنسور عمومی (GTDA) [14]
- مبتنی بر TVP: تجزیه و تحلیل چند خطی غیر همبسته (UMLDA) [15]

تحلیل همبستگی متعارف چند خطی [ ویرایش ]

پسوند چند خطی CCA
- مبتنی بر TTP: تحلیل همبستگی متعارف تنسور (TCCA) [16]
- مبتنی بر TVP: تحلیل همبستگی متعارف چند خطی (MCCA) [17]
- مبتنی بر TVP: تحلیل همبستگی متعارف چند خطی بیزی (BMTF) [18]

TTP یک پیش بینی مستقیم از یک تانسور با ابعاد بالا به یک تانسور با ابعاد کم از همان نظم است که از ماتریس های فرافکنی N برای یک تانسور مرتبه N استفاده می کند . در هر مرحله با ضرب ماتریس تنسور (محصول) می توان آن را در N مرحله انجام داد. N مراحل تعویض هستند. [19] این فرافکنی گسترش تجزیه ارزش منحصر به فرد مرتبه بالاتر [19] (HOSVD) به یادگیری فضایی است. [8] از این رو ، ریشه آن به تجزیه تاکر [20] در دهه 1960 برمی گردد .

TVP یک برآمد مستقیم از یک تانسور با ابعاد بالا به یک بردار با ابعاد کم است که از آن به عنوان پیش بینی های درجه یک نیز یاد می شود. همانطور که TVP یک تانسور بردار را برون ریزی می کند ، می توان آن را به عنوان چندین پیش بینی از یک تانسور به یک اسکالر مشاهده کرد. بنابراین ، TVP یک تانسور به یک بردار P- بعدی شامل پیش بینی P از تانسور به یک اسکالر است. فرافکنی از یک تانسور به یک اسکالر یک طرح اولیه چند خطی (EMP) است. در EMP ، یک تنسور از طریق بردارهای طرح ریزی واحد N به یک نقطه پیش بینی می شود. این برآمدگی یک تانسور بر روی یک خط واحد است (در نتیجه یک اسکالر) ، با یک بردار طرح ریزی در هر حالت. بنابراین ، TVP یک جسم تنسور به یک بردار در یک فضای بردار P- بعدی از P تشکیل شده استEMP ها این فرافکنی امتداد تجزیه متعارف است ، [21] همچنین به عنوان تجزیه عوامل موازی (PARAFAC) شناخته می شود. [22]

رویکرد معمول در MSL [ ویرایش ]

وجود دارد N مجموعه از پارامترها حل شود، یکی در هر حالت. راه حل یک مجموعه اغلب به مجموعه های دیگر بستگی دارد (به استثنای N = 1 ، حالت خطی). بنابراین ، روش تکرار غیربهینه در [23] دنبال می شود.

مقداردهی اولیه پیش بینی ها در هر حالت
برای هر حالت ، برآمدگی را در همه حالت دیگر برطرف کنید و برای طرح ریزی را در حالت فعلی حل کنید.
بهینه سازی حالت را برای چند تکرار یا تا زمان همگرایی انجام دهید.

این از روش حداقل مربع متناوب برای تجزیه و تحلیل داده های چند طرفه نشات گرفته است. [11]

جوانب مثبت و منفی [ ویرایش ]

این شکل تعداد پارامترهایی را که برای همان مقدار کاهش ابعاد توسط طرح برداری از بردار (VVP) ، (یعنی طرح ریزی خطی) ، پیش بینی تنسور به بردار (TVP) و تنسور به برآورد تانسور (TTP). پیش بینی های چند خطی به پارامترهای بسیار کمتری احتیاج دارند و نمایش های به دست آمده فشرده ترند. (این رقم براساس جدول 3 مقاله نظر سنجی تولید شده است [6] )

مزایای MSL نسبت به مدل سازی سنتی زیر فضایی خطی ، در حوزه های رایج که نمایندگی به طور طبیعی تا حدی کششی است ، عبارتند از: [6] [7] [8] [9]

MSL با کار بر روی نمایش طبیعی تنشی داده های چند بعدی ، ساختار و همبستگی داده های اصلی را قبل از فرافکنی حفظ می کند.
MSL می تواند نمایش های فشرده تری نسبت به نمونه خطی خود بیاموزد. به عبارت دیگر ، باید تعداد پارامترهای بسیار کمتری را تخمین بزند. بنابراین ، MSL با انجام محاسبات در نمایش با ابعاد بسیار کمتر ، می تواند داده های بزرگ تانسور را به طور کارآمدتر کنترل کند. این امر منجر به کاهش تقاضا در منابع محاسباتی می شود.

با این حال ، الگوریتم های MSL تکراری هستند و تضمین همگرایی ندارند. جایی که یک الگوریتم MSL همگرایی می کند ، ممکن است این کار را در یک بهینه محلی انجام دهد . (در مقابل ، تکنیک های سنتی مدلسازی فضایی خطی معمولاً یک راه حل دقیقاً بسته به صورت بسته تولید می کنند.) مشکلات همگرایی MSL را می توان با انتخاب ابعاد مناسب زیر فضایی مناسب و با استراتژی های مناسب برای مقداردهی اولیه ، برای خاتمه و انتخاب ترتیب در آن کاهش داد. پیش بینی ها حل شده است. [6] [7] [8] [9]

منابع آموزشی [ ویرایش ]

نظرسنجی : بررسی یادگیری خرده فضایی چند خطی برای داده های تنسور ( نسخه دسترسی آزاد ).
سخنرانی : سخنرانی ویدیویی درباره UMPCA در 25 امین کنفرانس بین المللی یادگیری ماشین (ICML 2008).

کد [ ویرایش ]

مجموعه داده های تنسور [ ویرایش ]

اطلاعات راه رفتن 3D (تانسورها مرتبه سوم): 128x88x20 (21.2M) ؛ 64x44x20 (9.9M) ؛ 32x22x10 (3.2M) ؛

منبع

https://en.wikipedia.org/wiki/Multilinear_subspace_learning

مشخصات وب

در این وبلاگ به ریاضیات و کاربردهای آن و تحقیقات در آنها پرداخته می شود. مطالب در این وبلاگ ترجمه سطحی و اولیه است و کامل نیست.در صورتی سوال یا نظری در زمینه ریاضیات دارید مطرح نمایید .در صورت امکان به آن می پردازم. من دوست دارم برای یافتن پاسخ به سوالات و حل پروژه های علمی با دیگران همکاری نمایم.در صورتی که شما هم بامن هم عقیده هستید با من تماس بگیرید.
09132003030

ریاضیات

آموزش ریاضی