دوره آموزشی آنلاین مهندسی داده مقدماتی

آموزش مقدمات مهندسی داده و کلان داده

ویژگی‌های دوره

هدیه ویژه ‌ ثبت‌نام

با ثبت‌نام دوره آنلاین کوئری‌نویسی در SQL Server،
دوره سنگ‌بنای پایگاه داده را هدیه بگیرید...

هدیه ویژه ‌ ثبت‌نام

با ثبت‌نام دوره آنلاین کوئری‌نویسی در SQL Server ،
دوره سنگ‌بنای پایگاه داده را هدیه بگیرید...

مخاطبان دوره

مزایای دوره آنلاین

آنلاین (پخش زنده)

مشاهده دوره به صورت زنده و ارتباط مستقیم با استاد

بدون ترافیک

صرفه‌جویی در زمان، هزینه و انرژی در طول دوره

شبکه سازی

ارتباط با سایر شرکت‌کنندگان و توانایی تعامل

گام به گام

امکان آموختن گام به گام، روان و با سرعت استاندارد

پرسش و پاسخ

دسترسی هم‌زمان به استاد برای پرسش و پاسخ سریع

دسترسی‌پذیری

دسترسی به کلاس، در هر شرایط زمانی و مکانی

سرفصل‌های آموزشی

۱۰ فصل

۱۶ جلسه

۳۲ ساعت

۱

آشنایی با اکوسیستم کلان‌ داده و مهندسی داده

مهندسی داده به عنوان یک جایگاه شغلی نوظهور در حوزه پردازش داده، نقش مهمی را در سامانه‌ های اطلاعاتی مقیاس‌ پذیر روز دنیا ایفا می‌ کند. این جایگاه که در حال حاضر در ایران بیشتر مورد نیاز شرکت‌ های بزرگ است، در چند سال آینده، به یک بازیگر اصلی تمامی سامانه‌ های اطلاعاتی بومی تبدیل خواهد شد. 

مهندسی داده، مهندسی سامانه‌ های مقیاس‌ پذیر اطلاعاتی است و بنابراین به دانش مناسبی از حوزه پردازش داده‌های کلان و طراحی سیستم های توزیع شده نیاز دارد. در دوره مبانی مهندسی داده، به مروری بر فناوری‌ها و ابزارهای این حوزه از طریق انجام مثال‌های عملی خواهیم پرداخت.

 

۱. بررسی اکوسیستم و تاریخچه پروژه‌های کلان‌داده

۲. بیان جایگاه و ضرورت مهندسی داده به عنوان پایه و اساس سامانه‌های مقیاس‌پذیر پردازش داده

۳. مهندس داده و چالش های پیش رو آن 

۴. بررسی شباهت‌ها و تفاوت‌های مهندسی داده با علم داده
۵. بررسی جایگاه مهندس داده 

 

۲

آشنایی با هدوپ [Apache Hadoop ]

هدوپ یک فریمورک متن‌ باز برای پردازش داده‌ های بزرگ است که بر اساس معماری توزیع شده ساخته شده است. هدف اصلی هدوپ یک سیستم توزیع شده برای پردازش و ذخیره‌ سازی داده‌ های بزرگ است. این سیستم از یک معماری متشکل از چندین سرور تشکیل شده است که به صورت همزمان و هماهنگ با یکدیگر کار می‌کنند. با استفاده از هدوپ، شما می‌ توانید به طور موثر داده‌ های بزرگ را پردازش کرده و تحلیل‌ های پیچیده را انجام دهید. این ابزار برای کسب و کارها و محققانی که با حجم بالای داده‌ ها سر و کار دارند، بسیار مفید است. 

۱. آشنایی با مولفه‌ها و اجزای اصلی هدوپ (ذخیره‌/پردازش/مدیریت منابع)

۲. بررسی امکانات جدید هدوپ

 

۳

آشنایی با مفاهیم پایه داکر و کار عملی با آن

با توجه به اینکه در طول دوره از داکر برای راه اندازی و کار با نرم افزارها استفاده خواهیم کرد، در ابتدای دوره، نصب و راه‌اندازی داکر و دستورات اصلی آنرا با هم مرور خواهیم کرد 

معرفی اصول و مفاهیم ابتدایی مربوط به فناوری داکر می‌پردازد که برای افرادی که به دنیای مهندسی داده و توسعه نرم‌افزار وارد می‌شوند، بسیار مهم است.مطالب زیر در این بخش مورد بررسی قرار خواهند گرفت:

 

۱. نصب و راه‌اندازی Docker Desktop در ویندوز و docker در لینوکس
۲. بررسی یک داکرفایل و آشنایی با نحوه ساخته شدن یک ایمیج
۳. آشنایی با روند اجرای ایمیج‌ها و نقش کانتینرها در اکوسیستم داکر

۴. اجرای یک ایمیج داکر و نحوه کار با آن و بررسی چرخه حیات یک ایمیج داکر از شروع تا انتها
۵. بررسی مفهوم والیوم‌ها و نحوه ذخیره داده‌ها در کانتینترها
۶. مرور دستورات اصلی خط فرمان داکر

۴

آشنایی با خط فرمان لینوکس و دستورات اصلی مورد نیاز

از آنجا که سیستم‌عامل پایه اکثر ایمیج‌های موجود حوزه کلان‌داده مبتنی بر لینوکس است، نیاز داریم با خط فرمان لینوکس و دستورات اصلی مورد نیاز برای پردازش و کار با فایل‌های داده نیز آشنا شویم .
در این بخش موارد زیر را به کمک مثالهای کاربردی بررسی می‌کنیم:

۱. فعال سازی خط فرمان لینوکس در ویندوز به کمک WSL
۲. هدایت ورودی و خروجی
۳. کار با فایلها و پوشه‌ها
۴. آرگومان‌های خط فرمان (خروجی استاندارد/خطای استاندارد)
۵. گروه بندی دستورات
۶. اسکریپتینگ و دستورات کنترلی
۷. انتخاب و جستجوی یک الگو (انواع دستور grep)
Sort,Sed and Awk .۸
۹. کار با ادیتورهای خط فرمان (vi,vim,nano)

۵

آشنایی و کار عملی با کافکا

کافکا به عنوان گذرگاه اصلی تبادل داده در سامانه‌های معاصر اطلاعاتی دنیا. جزیره‌های مختلف پردازشی که هر یک کارکرد خاصی در سامانه اطلاعاتی ما دارند، نیاز به ابزاری دارند که بین همه آنها مشترک بوده و بتوانند داده‌های لازم را بر بستر آن، به اشتراک بگذارند. نقشی که امروزه مهم‌ترین ایفا کننده آن در سیستم‌های واقعی ،کافکا است. کافکا به عنوان یک صف توزیع شده، بستری مطمئن و مقیاس‌پذیر برای انواع سیستم‌های ناهمگون فراهم می‌کند و به کمک آن، اشتراک اطلاعات بین سامانه مختلف از طریق یک باس مشترک و بدون نیاز به ارتباط مستقیم بین دو سامانه، صورت میگیرد. امری که برای سامانه‌های اطلاعاتی امروزی که ممکن است تغییرات فناوری ها و ابزار در آنها زیاد باشد، یک نیاز حیاتی است.

به کمک یک مثال عملی، مفاهیم زیر را با هم بررسی خواهیم کرد:

۱. آشنایی با معماری و اجزای اصلی کافکا در یک کلاستر .
۲. بررسی مفاهیم پایه پایه کافکا از طریق نوشتن یک تولیدکننده / مصرف کننده با پایتون
۳. ابزارهای مانیتورینگ و خط فرمان کافکا

۶

کار با اسپارک به عنوان ابزار توزیع شده پردازش داده‌ها

بسیاری از اوقات نیاز به پردازش خاصی بر روی داده‌ها داریم. چه داده هایی که به شکل خام و به متنی ذخیره شده‌اند، چه داده‌هایی که در دیتابیس هستند و یا داده‌هایی که به صورت لحظه‌ای دریافت می شوند.

فرض کنید نیاز داریم آماری را برای ده سال گذشته از داده‌های csv‌ استخراج کنیم و یا در بین تمامی رکوردهای موجود در دیتابیس، یک مدل یادگیری ماشین را اعمال کرده، افراد یا رکوردهای خاصی را بیابیم و یا به ازای توئیت‌هایی که در لحظه دریافت می‌کنیم، تحلیل احساسی آنها را هم در کنار سایر اطلاعات توئیت براساس روشهای پردازش متن، مشخص کرده و نهایتاً ذخیره کنیم. این کارها، نیازمند یک چارچوب پردازشی مقیاس پذیر است که بتواند هم بر روی داده‌های جریانی و هم داده‌های آفلاین آن هم به صورت مقیاس‌پذیر و قابل توزیع در شبکه، اعمال شود. وظیفه‌ای که امروزه به صورت کلاسیک و رایج بر عهده اسپارک است.

اسپارک یک چارچوب پردازش داده است یعنی ابزار و امکاناتی در اختیار ما می گذارد که بتوانیم داده‌ها را با هر شکل و هر حجمی پردازش کنیم.

۱. آشنایی با اجزای اصلی اسپارک و معماری آن در یک کلاستر.
۲. نصب و راه اندازی اسپارک
۳. مفاهیم پایه اسپارک (Context, Driver, RDD, Actions, Transforms, Executers, Jobs)
۴. بررسی دستورات پایه اسپارک
۵. کار با SparkSQL‌
۶. بررسی ابزارهای مانیتورینگ و مدیریت جاب‌ها
۷. بررسی دیتافریم‌ها در پردازش داده‌ها
۸. آشنایی با مفاهیم پردازش جریان

۷

معرفی و کار عملی با ایرفلو (Airflow)

ایرفلو (airflow)به عنوان یک ابزار مدیریت کارهای زمان‌مند و انجام ETL های روزانه، یک مهندس داده، کارهای زمان‌بندی شده زیادی را باید روزانه انجام دهد. سرساعت خاصی، از یک دیتابیس بکاپ بگیرد، فرآیند ETL‌ و انتقال داده‌ ها به انباره داده را در بازه‌های معین، انجام دهد، در پایان هر ماه، داده‌‌ های پارتیشن‌ های قدیمی را از دیتابیس اصلی جدا و بخش آرشیو منتقل کند و … . علاوه بر اینها، باید بتواند زنجیره یا جریانی از کارها را طراحی کند که با اتمام یک یا چند کار، کار بعدی به صورت خودکار انجام شود و وابستگی بین کارها رعایت شود. مثلا ابتدا یک دستور SQL بر روی دیتابیس اصلی اجرا شود، سپس نتیجه به CSV‌ تبدیل شده و نهایتا در فایل‌سیستم هدوپ ذخیره شود.

برای تمامی نیازمندیهای بالا، نیاز به ابزاری داریم که بتواند طراحی خطوط پردازش داده آفلاین را انجام داده و کارهای زمان‌مند را مدیریت کند.

Airflow با هدف قرار دادن این نیازمندیها، امروزه به یک ابزار دم دستی و مهم در حوزه مهندسی داده تبدیل شده است. ساختار ساده و مقیاس پذیر در کنار استفاده از پایتون به عنوان ابزار اصلی تعریف و مدیریت کارها، دلیل اصلی محبوبیت این پروژه نسبتا جدید بنیاد آپاچی در این حوزه است . در این بخش از آموزش با یک مثال عملی ، مفاهیم زیر را بررسی خواهیم کرد:

۱. آشنایی با معماری و محیط Airflow و مفاهیم پایه آن
۲. بررسی اپراتورها یا عملگرهای اصلی قابل استفاده برای تعریف یک جریان کار
۳. استفاده از متغیرها و کانکشن‌ها در تعریف جریان کارهای مقیاس‌پذیر
۴. نوشتن یک پلاگین و هوک ساده برای الستیک سرچ
۵. بررسی موتورهای اجرایی Airflow
۶. ساخت جریان‌های کاری پیچیده و شرطی

۸

تکنیک‌های پیشرفته مدیریت و راهبری داده در PostgreSQL

در این بخش، به بررسی چند استراتژی پیشرفته مدیریت داده در PostgreSQL می‌پردازیم که برای بهینه‌سازی عملکرد و مقیاس‌پذیری در محیط‌های داده‌ای بزرگ ضروری هستند. ما با مفهوم پارتیشن‌بندی آغاز می‌کنیم و نحوه استفاده از آن برای مدیریت کارآمد حجم‌های بزرگ داده را بررسی می‌کنیم. در این راستا، به معرفی و کاربرد ابزار قدرتمند pg_partman می‌پردازیم که امکان مدیریت خودکار و پویای پارتیشن‌ها را فراهم می‌کند.

 

سپس، به سراغ مفهوم Foreign Data Wrappers (FDW) می‌رویم و نحوه استفاده از آن برای توزیع هوشمندانه داده‌ها بین چندین نسخه PostgreSQL را بررسی می‌کنیم. این تکنیک به ویژه برای سناریوهایی مفید است که نیاز به انتقال داده‌های قدیمی‌تر به یک پایگاه داده جداگانه وجود دارد، در حالی که همچنان امکان دسترسی یکپارچه به تمام داده‌ها حفظ می‌شود.

 

در ادامه، به موضوع حیاتی مدیریت بکاپ می‌پردازیم و دو ابزار قدرتمند Barman و pgBackRest را معرفی می‌کنیم. Barman به عنوان یک راهکار جامع برای تهیه نسخه‌های پشتیبان از پایگاه‌های داده PostgreSQL، امکانات پیشرفته‌ای را برای مدیریت و زمانبندی بکاپ‌ها ارائه می‌دهد. از سوی دیگر، pgBackRest با تمرکز بر بازیابی سریع و کارآمد داده‌ها، ابزاری ضروری برای تضمین تداوم کسب و کار در شرایط بحرانی است.

۹

مانیتورینگ زیرساخت با Grafana و Prometheus

در این بخش، به معرفی و کار عملی با Grafana و Prometheus می‌پردازیم، دو ابزار قدرتمند و پرکاربرد در حوزه مانیتورینگ زیرساخت‌های فناوری اطلاعات.
Prometheus یک سیستم مانیتورینگ متن‌باز است که برای جمع‌آوری و ذخیره‌سازی متریک‌های عملکردی طراحی شده است. این ابزار با مدل داده زمان‌محور خود، قابلیت جمع‌آوری خودکار متریک‌ها از منابع مختلف را دارد.
Grafana، یک پلتفرم نمایش و بصری‌سازی داده است که امکان ایجاد داشبوردهای تعاملی را فراهم می‌کند. با اتصال به منابع داده متنوع، از جمله Prometheus، Grafana ابزاری عالی برای نمایش و تحلیل داده‌های مانیتورینگ است.

۱۰

معرفی و کار عملی با Clickhouse

معرفی و کار عملی با  Clickhouse برای ذخیره داده‌های تحلیلی و اجرای کوئری‌های پیچیده بر روی حجم عظیم داده‌. ClickHouse یک پایگاه داده تحلیلی سریع و مقیاس‌پذیر است که برای ذخیره و پردازش داده‌های تحلیلی و بزرگ به کار می‌رود. این سیستم به طور خاص برای انجام عملیات تحلیلی سریع بر روی میلیاردها ردیف داده مناسب است. ClickHouse از ساختار داده ستونی برای ذخیره داده‌ها استفاده می‌کند که باعث افزایش سرعت عملیات پرس و جو می‌شود.

با استفاده از ClickHouse، می‌توانید بهبود قابل توجهی در عملکرد و کارایی تحلیل داده‌های خود داشته باشید و به سرعت به داده‌های تحلیلی خود دسترسی پیدا کنید. با آشنایی با این مفاهیم، شما می‌توانید با استفاده از Clickhouse، داده‌های تحلیلی خود را بهبود بخشیده و به صورت کارآمد و سریع تحلیل کنید.

تصویر زیر نحوه دسترسی به داده ها در بانک های اطلاعاتی سنتی می باشد. اغلب ابن بانک های اطلاعاتی به صورت Row-based داده ها را ذخیره می کنند، این موضوع باعث می شود سرعت دسترسی به داده‌های تحلیلی در این بانک های اطلاعاتی کم باشد.

۱۱

ذخیره و نمایش داده‌های متنی به کمک الستیک سرچ و کیبانا

الاستیک‌سرچ یک موتور جستجو قدرتمند است که برای جستجوی و جمع‌آوری داده‌های متنی در سریعترین زمان ممکن استفاده می‌شود. این سامانه به شما امکان می‌دهد تا داده‌های متنی را ذخیره کرده و سپس با استفاده از قابلیت‌های پیشرفته جستجوی الاستیک، به سرعت و با دقت بالا به داده‌های مورد نیاز دسترسی پیدا کنید.کیبانا ابزاری است که به شما امکان می‌دهد داده‌های متنی را به صورت گرافیکی و تحلیلی نمایش دهید. این ابزار به شما امکان می‌دهد تا داده‌های جمع‌آوری شده از الاستیک‌سرچ را به صورت داشبوردهای تحلیلی و گرافیکی نمایش داده و از آن‌ها برای تصمیم‌گیری‌های مهم استفاده کنید. Kibana ابزاری است که به شما امکان می‌دهد داده‌های متنی را به صورت گرافیکی و تحلیلی نمایش دهید. این ابزار به شما امکان می‌دهد تا داده‌های جمع‌آوری شده از الاستیک‌سرچ را به صورت داشبوردهای تحلیلی و گرافیکی نمایش داده و از آن‌ها برای تصمیم‌گیری‌های مهم استفاده کنید.

 

با آشنایی با این مفاهیم، شما می‌توانید داده‌های متنی خود را بهبود بخشیده، به سرعت جستجو کرده و آن‌ها را به صورت گرافیکی و تحلیلی نمایش دهید. این ابزارها به شما کمک می‌کنند تا بهترین استفاده از داده‌های متنی خود را برای تحلیل و تصمیم‌گیری‌های بهتر داشته باشید.

 

استاد این دوره

مجتبی بنائی

دانشجویان چه می‌گویند

نمونه مدرک این دوره

پس از مشاهده و گذراندن دوره آموزش مهندسی داده مقدماتی ، یک مدرک اتمام دوره به شما تعلق می‌گیرد. این مدرک، بیانگر موفقیت شما در حل تمرین‌ها و سناریوهای طراحی شده در دوره است و می‌تواند به عنوان یک گواهی کاربردی، سطح مهارت‌های فنی و عملی شما در این حوزه اعتبار ببخشد. در بازار کار فعلی، دارا بودن مدرک دوره، به عنوان یک فاکتور مهم در حسن تمایز شما با سایر افراد تلقی می‌شود.

پس از مشاهده و گذراندن دوره آموزش مهندسی داده مقدماتی ، یک مدرک اتمام دوره به شما تعلق می‌گیرد. این مدرک، بیانگر موفقیت شما در حل تمرین‌ها و سناریوهای طراحی شده در دوره است و می‌تواند به عنوان یک گواهی کاربردی، سطح مهارت‌های فنی و عملی شما در این حوزه اعتبار ببخشد. در بازار کار فعلی، دارا بودن مدرک دوره، به عنوان یک فاکتور مهم در حسن تمایز شما با سایر افراد تلقی می‌شود.

سؤالات پر تکرار

۳۰% تخفیف

پیش ثبت‌نام دوره

۵.۲۰۰.۰۰۰ تومان

۳.۶۴۰.۰۰۰ تومان

کلیه حقوق این وب‌سایت متعلق به مجموعه نیک‌آموز می‌باشد.

close-image