نیک آموز > وبلاگ > مهندسی داده > چطور خطوط پردازش داده خود را مقیاس‌پذیر کنید؟

چطور خطوط پردازش داده خود را مقیاس‌پذیر کنید؟

نوشته شده توسط: تیم فنی نیک آموز

تاریخ انتشار: ۱۰ آذر ۱۴۰۰

آخرین بروزرسانی: 01 تیر 1404

زمان مطالعه: 8 دقیقه

انتخاب از میان ابزارها یا فریم‌ ورک‌ های مختلف برای مقیاس ‌پذیر کردن خطوط پردازش داده می ‌تواند تا حدودی گیج ‌کننده باشد. اگر شما با چالش‌ های زیر درگیر هستید باید گفت این مقاله کاملا مناسب شماست تا بر این چالش مسلط شوید.

از کار افتادن خطوط پردازش داده به طور تصادفی
در جستجوی راه حل برای چگونگی مقیاس ‌پذیر کردن خطوط پردازش داده از ابتدا

در این مقاله می ‌پردازیم به مقیاس ‌پذیری چیست، انواع مختلف مقیاس ‌پذیری و نحوه انتخاب استراتژی ‌های مقیاس ‌پذیری برای خطوط پردازش داده.

مقیاس‌پذیری چیست و چرا به آن نیاز داریم؟

مقیاس ‌پذیری به تغییر تعداد ماشین ‌ها یا اندازه ماشین بسته به اندازه داده‌ های مورد پردازش اشاره دارد. افزایش تعداد ماشین ‌ها یا اندازه ماشین را Scaling Up و کاهش آن ها راScaling Down می‌ گویند.

دلایل اصلی Scaling Up عبارتند از:
افزایش سرعت پردازش داده‌ ها
مدیریت داده ‌های ورودی بزرگ
از دلایل اصلی برای انجام Scaling Down پایین نگه داشتن هزینه ‌ها است.

حرکت به‌سوی مقیاس‌پذیری با معماری مایکروسرویس

اگر به دنبال ساخت خطوط پردازش داده‌ای هستید که به‌راحتی مقیاس‌پذیر باشند، معماری مایکروسرویس می‌تواند یکی از راهکارهای مؤثر باشد. در این ویدیو، روند تبدیل پروژه‌های Monolithic به Microservices بررسی شده است؛ رویکردی که به افزایش انعطاف‌پذیری و مقیاس‌پذیری سیستم‌های داده‌محور کمک می‌کند.

انواع روش های مقیاس ‌پذیری

دو نوع روش برای مقیاس ‌پذیری وجود دارد.

مقیاس ‌پذیری عمودی: افزایش حافظه یا افزایش اندازه دیسک دستگاه پردازش داده.
مقیاس ‌پذیری افقی: استفاده از چندین فرآیند برای پردازش یک مجموعه داده بزرگ.

1. فرآیندهای مستقل: در زمان پردازش مستقل چندین مجموعه داده به صورت موازی، استفاده می ‌شود و شامل یک فرآیند در هر مجموعه داده است.
2. سیستم‌ های توزیع شده: مجموعه ‌ای از ماشین ‌ها است که به عنوان یک واحد پردازش، برای پردازش یک مجموعه داده عمل می‌ کنند.

در جدول زیر مقایسه ‌ای از استراتژی ‌های مختلف مقیاس ‌پذیری ارائه شده است عکس زیر استراتژی ‌های مختلف مقیاس‌ پذیری را ارائه می‌ کند

انتخاب استراتژی مقیاس ‌پذیری

اولین گام این است که مطمئن شوید که واقعا نیاز به مقیاس ‌پذیری دارید. هنگام پردازش یک مجموعه داده که بزرگ ‌تر از حافظه است، پخش آن در ردیف ‌ها و سپس پردازش آنها ممکن است برای رفع مشکل کافی باشد.
انتخاب گزینه مقیاس‌ پذیری مناسب به پارامترهای مختلفی بستگی دارد از جمله، خط پردازش داده، معماری داده و سیاست ‌های سازمانی. سؤالات زیر می‌ تواند به یافتن راه‌حل ‌های ممکن کمک نماید.

آیا افزایش اندازه دستگاه یعنی مقیاس ‌پذیری عمودی کافی است؟ آیا می ‌توان دستگاهی به اندازه کافی بزرگ برای پردازش داده‌ های ورودی تهیه کرد؟ توجه داشته باشید که برخی از عملیات ‌ها حتی با افزایش اندازه ماشین نیز به صورت خطی مقیاس ‌پذیر نمی ‌شوند، به عنوان مثال عملیات Cross Join.
آیا از انبار داده می ‌توان برای پردازش داده‌ ها استفاده کرد؟ آیا امکان ‌پذیر است که تبدیل‌ ها را با استفاده از SQL انجام داد؟ اکثر سرویس ‌های انبار داده نیز مقیاس ‌پذیری خودکار را ارائه می ‌دهند و این یکی از دلایل محبوبیت ELT است.
آیا مجموعه داده‌ های جداگانه وجود دارد که بتوان آنها را به طور مستقل پردازش کرد؟ سرویس‌ هایی مانند AWS lambda راهی آسان و ارزان برای مقیاس ‌پذیری خودکار خطوط پردازش داده را پشتیبانی می ‌کند.
آیا اندازه داده، سرعت پردازش و پیچیدگی نیازمندی ‌های تبدیل، مستلزم راه ‌اندازی یک Spark/Flink cluster است؟ اگر سرویسی برای مدیریت و بهینه‌ سازی یک سیستم توزیع شده ندارید، استفاده از این روش می ‌تواند کار مشکلی باشد.

از سوالات زیر برای تصمیم ‌گیری از میان راه‌حل‌ های ممکن برای مقیاس ‌پذیر نمودن خطوط پردازش داده استفاده کنید.

هزینه‌ ها شامل هزینه خدمات، هزینه زمان توسعه و هزینه پیچیدگی کد چه مقدار است؟ آیا این هزینه‌ ها برای افزایش عملکرد قابل توجیه هستند؟
آیا این یک بهینه‌ سازی بیش از حد است؟
آیا می ‌توان از استراتژی استفاده شده برای دیگر خطوط پردازش داده که در حال حاضر در شرکت داریم استفاده کرد؟
آیا پیچیدگی کد افزایش می ‌یابد یا کاهش می ‌یابد؟
آیا می ‌توان راه حلی کوتاه مدت (مانند افزایش اندازه دستگاه) و بلندمدت (مثلاً فرآیندهای مستقل برای مقیاس ‌پذیری بالاتر) برای این موضوع داشت؟
آیا ترکیب چندین استراتژی مقیاس ‌پذیری امکان‌پذیر است؟

منابع

https://www.startdataengineering.com/post/scale-data-pipelines/

نتیجه ‌گیری

امیدواریم این مقاله به شما ایده خوبی در مورد مقیاس‌پذیری و نحوه مقیاس ‌پذیر کردن خطوط پردازش داده به شما داده باشد. مقیاس‌ پذیری یک مفهوم قدرتمند برای ارتقا سطح خطوط پردازش داده است، اما بهینه‌ سازی بی موقع می‌تواند به پیچیدگی کد بی مورد منجر شود. یک رویکرد خوب این است که با استفاده از سؤالات ارائه شده در این مقاله، چندین استراتژی مقیاس ‌پذیری را به کار برده و با آزمون و خطا بهترین استراتژی را به کار برید