مهندسی داده به عنوان یک جایگاه شغلی نوظهور در حوزه پردازش داده، نقش مهمی را در سامانههای اطلاعاتی مقیاسپذیر روز دنیا ایفا میکند. این دوره مناسب افرادی که تسلط کافی به یک زبان برنامهنویسی و آشنایی مناسب با بانکهای اطلاعاتی رابطهای و غیررابطهای و مباحث انبارش دادهها (Data Warehousing) را دارند.
2.380.000 تومان
مهندسی داده به عنوان یک جایگاه شغلی نوظهور در حوزه پردازش داده، نقش مهمی را در سامانههای اطلاعاتی مقیاسپذیر روز دنیا ایفا میکند. این جایگاه که در حال حاضر در ایران بیشتر مورد نیاز شرکتهای بزرگ است، در چند سال آینده، به یک بازیگر اصلی تمامی سامانههای اطلاعاتی بومی تبدیل خواهد شد. با توجه به جدید بودن این حوزه و نیاز کشور به وجود متخصصان صاحب نظر در این رشته، موسسه نیکآموز دورههای جامع و کاملی در این حوزه در نظر گرفته است که شروع این مسیر با دوره مبانی مهندسی داده خواهد بود. مهندسی داده، مهندسی سامانههای مقیاسپذیر اطلاعاتی است و بنابراین به دانش مناسبی از حوزه پردازش دادههای کلان و طراحی سیستم های توزیع شده نیاز دارد. در دوره مبانی مهندسی داده، به مروری بر فناوریها و ابزارهای این حوزه از طریق انجام مثالهای عملی خواهیم پرداخت
دوره مبانی مهندسی داده برای افرادی طراحی شده است که آشنایی اولیه با مقدمات اصلی این حوزه یعنی تسلط به یک زبان برنامهنویسی و آشنایی مناسب با بانکهای اطلاعاتی رابطهای و غیررابطهای و مباحث انبارش دادهها (Data Warehousing) را دارند و قصد دارند وارد حوزه جدید زیرساختهای مقیاسپذیر پردازش داده و اکوسیستم کلانداده شوند. بنابراین اگر تاکنون با هر یک از این مفاهیم سه گانه فوق آشنا نیستید و با آنها به صورت عملی کار نکردهاید، توصیه میکنیم ابتدا بر روی تقویت این حوزهها کار کنید. می توانید از دورههای متنوع نیکآموز در این خصوص هم استفاده کنید. پیشنهاد ما شرکت در دورههای زیر برای تقویت عملی مهارتهای مورد نیاز است:
۱. مبانی SQL و کوئری نویسی
از طرفی کار در حوزه سامانههای مقیاسپذیر به مبحث بیگدیتا و دادههای حجیم هم گره خورده است و آشنایی اولیه با اکوسیستم کلانداده، مزیت محسوب میشود اما مقدمهای بر کلانداده در این دوره گفته شده، ابزارهای اصلی مورد استفاده در این حوزه یعنی هدوپ و مولفههای مطرح آن مانند Hive و HDFS و نیز چارچوب پردازشی اسپارک (با تاکید بر پردازش جریان – Spark Structured Streaming) به صورت عملی کار خواهد شد. البته در آیندهای نزدیک، دورههای تخصصی و کاملی در حوزه بیگدیتا هم برگزار خواهد شد.
تمرکز اصلی این دوره بر ابزارها و مفاهیم مرتبط با طراحی زیرساختهای پردازش و ذخیره دادهها خواهد بود. محوریت این دوره، مباحث زیر خواهد بود:
در ابتدای دوره به بیان جایگاه و ضرورت مهندسی داده به عنوان پایه و اساس سامانههای مقیاسپذیر پردازش داده خواهیم پرداخت و ضمن مرور مهارتها و ابزارهای مورد نیاز در این حوزه، سرفصل کلی دوره مبانی مهندسی داده را بر اساس این مهارتها و ابزار، مورد بررسی قرار خواهیم داد تا دقیقا بدانید در انتهای دوره، چه مطالبی را فراخواهید گرفت و اگرسوال یا ابهامی هم دارید در ابتدای کار پاسخ داده شود.
بررسی شباهتها و تفاوتهای مهندسی داده با علم داده هم در این قسمت صورت خواهد گرفت تا شرکت کنندگان در دوره، جایگاه دقیق یک مهندس داده در سازمان را کاملا متوجه شوند و ارتباط آن با سایر حوزههای کاری را فرابگیرند.
با توجه به اینکه در طول دوره از داکر برای راه اندازی و کار با نرم افزارها استفاده خواهیم کرد، در ابتدای دوره، نصب و راهاندازی داکر و دستورات اصلی آنرا با هم مرور خواهیم کرد .
مطالب زیر در این بخش مورد بررسی قرار خواهند گرفت:
1. نصب و راهاندازی Docker Desktop در ویندوز و docker در لینوکس 2. بررسی یک داکرفایل و آشنایی با نحوه ساخته شدن یک ایمیج 3. آشنایی با روند اجرای ایمیجها و نقش کانتینرها در اکوسیستم داکر
اجرای یک ایمیج داکر و نحوه کار با آن و بررسی چرخه حیات یک ایمیج داکر از شروع تا انتها بررسی مفهوم والیومها و نحوه ذخیره دادهها در کانتینترها مرور دستورات اصلی خط فرمان داکر
از آنجا که سیستمعامل پایه اکثر ایمیجهای موجود حوزه کلانداده مبتنی بر لینوکس است، نیاز داریم با خط فرمان لینوکس و دستورات اصلی مورد نیاز برای پردازش و کار با فایلهای داده نیز آشنا شویم . در این بخش موارد زیر را به کمک مثالهای کاربردی بررسی میکنیم:
۱. فعال سازی خط فرمان لینوکس در ویندوز به کمک WSL ۲. هدایت ورودی و خروجی ۳. کار با فایلها و پوشهها ۴. آرگومانهای خط فرمان (خروجی استاندارد/خطای استاندارد) ۵. گروه بندی دستورات ۶. اسکریپتینگ و دستورات کنترلی ۷. انتخاب و جستجوی یک الگو (انواع دستور grep) Sort,Sed and Awk .۸ ۹. کار با ادیتورهای خط فرمان (vi,vim,nano)
قبل از ادامه مسیر به سمت ابزارها و مهارتها، نیاز داریم که با اکوسیتم کلانداده به عنوان موتور محرک مهندسی داده آشنا شویم. اصولا زمانی شرکتها احساس نیاز به یک مهندس داده پیدا میکنند که حجم زیاد دادهها، آنها را با چالش مواجه کرده باشد. بنابراین یک مهندس داده، باید با مفاهیم پایه کلان داده که به طور خودکار با آنها سروکار خواهد داشت، آشنا باشد. در این راستا، شروع کار جدی ما در حوزه آموزش مهندسی داده با ابزارها و مفاهیم بیگ دیتا و کار عملی با آنها خواهد بود. در این حوزه موارد زیر را پی خواهیم گرفت:
۱. بررسی اکوسیستم و تاریخچه پروژههای کلانداده بنیاد آپاچی با تاکید بر هدوپ و اسپارک
۲. بررسی معماریهای پیشنهادی در طراحی سیستمهای مقیاسپذیر اطلاعاتی (معماری لامبدا/کاپا) ۳. آشنایی با مولفهها و اجزای اصلی هدوپ (ذخیره/پردازش/مدیریت منابع) ۴. بررسی امکانات جدید هدوپ ۳. ۵. کار عملی با سیستم فایل هدوپ از طریق ایجاد یک کلاستر مجازی بر روی داکر ۶. بررسی امکانات سامانه مدیریت منابع هدوپ (Yarn) به صورت عملی ۷. آشنایی با فرمتهای ذخیره و بازیابی فایل در اکوسیستم کلانداده ۸. بررسی مفاهیم و اصول کار با Hive به عنوان یک موتور پردازش SQL بر روی هدوپ . ۹. آشنایی با دیتابیسهای سطرگسترده (Wide Row) و کار عملی با HBase
یک مهندس داده، کارهای زمانبندی شده زیادی را باید روزانه انجام دهد. سرساعت خاصی، از یک دیتابیس بکاپ بگیرد، فرآیند ETL و انتقال دادهها به انباره داده را در بازههای معین، انجام دهد، در پایان هر ماه، دادههای پارتیشنهای قدیمی را از دیتابیس اصلی جدا و بخش آرشیو منتقل کند و … . علاوه بر اینها، باید بتواند زنجیره یا جریانی از کارها را طراحی کند که با اتمام یک یا چند کار، کار بعدی به صورت خودکار انجام شود و وابستگی بین کارها رعایت شود. مثلا ابتدا یک دستور SQL بر روی دیتابیس اصلی اجرا شود، سپس نتیجه به CSV تبدیل شده و نهایتا در فایلسیستم هدوپ ذخیره شود.
برای تمامی نیازمندیهای بالا، نیاز به ابزاری داریم که بتواند طراحی خطوط پردازش داده آفلاین را انجام داده و کارهای زمانمند را مدیریت کند.
Airflow با هدف قرار دادن این نیازمندیها، امروزه به یک ابزار دم دستی و مهم در حوزه مهندسی داده تبدیل شده است. ساختار ساده و مقیاس پذیر در کنار استفاده از پایتون به عنوان ابزار اصلی تعریف و مدیریت کارها، دلیل اصلی محبوبیت این پروژه نسبتا جدید بنیاد آپاچی در این حوزه است . در این بخش از آموزش با یک مثال عملی ، مفاهیم زیر را بررسی خواهیم کرد:
۱. آشنایی با معماری و محیط Airflow و مفاهیم پایه آن ۲. بررسی اپراتورها یا عملگرهای اصلی قابل استفاده برای تعریف یک جریان کار ۳. استفاده از متغیرها و کانکشنها در تعریف جریان کارهای مقیاسپذیر ۴. نوشتن یک پلاگین و هوک ساده برای الستیک سرچ ۵. بررسی موتورهای اجرایی Airflow ۶. ساخت جریانهای کاری پیچیده و شرطی
یکی دیگر از ابزارهای دم دستی و موردنیاز یک مهندس داده،ابزارهای ETL یا انتقال و تزریق داده است. اینکه بتواند دادهها را از منابع مختلف خوانده، پردازشها و تغییر شکل اولیه را روی آنها انجام داده و نهایتا آنها را به مقاصد مختلف، هدایت کند. این نوع ابزارها که به آنها مدیر جریان داده (Data Flow Manager) هم میگوییم، به مهندس داده کمک میکنند تا بدون نیاز به برنامهنویسی، چرخه دریافت، تغییر شکل و انتقال داده (ETL) را مدیریت کند.
نایفای ابزار گرافیکی بنیاد آپاچی برای این منظور است . یعنی به کمک آپاچی نایفای، انواع دادهها را از منابع مختلف خوانده، آنها را بسته به نیاز، تغییر داده و نهایتا به مقاصد مورد نیاز ارسال می کنیم. علاوه بر اینها، به ازای تک تک دادههایی که در این مسیر حرکت میکنند، میتوانیم منشاء پیدایش و تغییرات صورت گرفته بر روی آنرا به صورت مرحله به مرحله رصد نماییم.
در این بخش از آموزش مهندسی داده، با استفاده از یک مثال عملی مفاهیم زیر را با جزییات کامل بررسی خواهیم کرد:
۱. آشنایی با اجزای یک خط پردازش داده ۲. بررسی روند اجرای یک فرآیند ETL (Data Provenance, Data Flow, Attributes,Queues) ۳. آشنایی با پروسسورهای اصلی در طراحی جریان داده (هر پروسسور یک مرحله از جریان کار است) ۴. طراحی یک ETL به صورت عملی . ۵. طراحی یک پروسسور
از آنجا که در این بخش، نیاز به ذخیره دادهها در الستیک سرچ و کافکا داریم،، بخش پایانی آموزش نایفای، بعد از بررسی و مرور دیتابیسهای NoSQL ادامه خواهد یافت.
بانکهای اطلاعاتی NoSQL معمولا برای پاسخ به یک نیاز خاص طراحی شده و در کنار بانکهای اطلاعاتی رابطهای کلاسیک، به کار میروند. باتوجه به اینکه یک مهندس داده باید اشراف مناسبی بر این نوع بانکهای اطلاعاتی و نقاط ضعف و قوت آنها داشته باشد، در این بخش به بیان اصول کلی بانکهای اطلاعاتی غیررابطهای و موارد کاربرد هر یک و نهایتا بررسی عملی یکی از دیتابیس های مهم و کاربردی در این حوزه یعنی الستیک سرچ خواهیم پرداخت.
نکته مهم در خصوص بانکهای اطلاعاتی غیررابطهای، استفاده درست از آنها در طراحی سامانههای مقیاسپذیر پردازش داده است. امری که به طور خاص در این دوره درباره آن با ذکر مثالهای مختلف عملی و تجربیات کاری، صحبت خواهیم کرد.
در این بخش، محورهای زیر مورد بررسی قرار خواهند گرفت:
آشنایی با انواع بانکهای اطلاعاتی و کاربردها و نقاط ضعف و قوت هر یک
آشنایی با الستیک سرچ از طریق بررسی یک مثال عملی
۱. معرفی پشته ELK ۲. نصب و راهاندازی الستیک سرچ ۳. آشنایی با ایندکسها ۴. بررسی انواع اندپوینتها در الستیک سرچ. ۵. درج، حذف و به روز رسانی یک رکورد . ۶. بررسی زبان کوئری الستیک سرچ ۷. اتصال نایفای به الستیک سرچ ۸. بررسی امکانات مختلف کیبانا با دادههای واقعی
جزیرههای مختلف پردازشی که هر یک کارکرد خاصی در سامانه اطلاعاتی ما دارند، نیاز به ابزاری دارند که بین همه آنها مشترک بوده و بتوانند دادههای لازم را بر بستر آن، به اشتراک بگذارند. نقشی که امروزه مهمترین ایفا کننده آن در سیستمهای واقعی ،کافکا است. کافکا به عنوان یک صف توزیع شده، بستری مطمئن و مقیاسپذیر برای انواع سیستمهای ناهمگون فراهم میکند و به کمک آن، اشتراک اطلاعات بین سامانه مختلف از طریق یک باس مشترک و بدون نیاز به ارتباط مستقیم بین دو سامانه، صورت میگیرد. امری که برای سامانههای اطلاعاتی امروزی که ممکن است تغییرات فناوری ها و ابزار در آنها زیاد باشد، یک نیاز حیاتی است.
به کمک یک مثال عملی، مفاهیم زیر را با هم بررسی خواهیم کرد:
۱. آشنایی با معماری و اجزای اصلی کافکا در یک کلاستر . ۲. بررسی مفاهیم پایه پایه کافکا از طریق نوشتن یک تولیدکننده / مصرف کننده با پایتون ۳. ابزارهای مانیتورینگ و خط فرمان کافکا ۴. مدیریت نودها در کلاستر و مدیریت آفست ها ۵. تعریف کاربران و سطح دسترسی ها
بسیاری از اوقات نیاز به پردازش خاصی بر روی دادهها داریم. چه داده هایی که به شکل خام و به متنی ذخیره شدهاند، چه دادههایی که در دیتابیس هستند و یا دادههایی که به صورت لحظهای دریافت می شوند. فرض کنید نیاز داریم آماری را برای ده سال گذشته از دادههای csv استخراج کنیم و یا در بین تمامی رکوردهای موجود در دیتابیس، یک مدل یادگیری ماشین را اعمال کرده، افراد یا رکوردهای خاصی را بیابیم و یا به ازای توئیتهایی که در لحظه دریافت میکنیم، تحلیل احساسی آنها را هم در کنار سایر اطلاعات توئیت براساس روشهای پردازش متن، مشخص کرده و نهایتاً ذخیره کنیم. این کارها، نیازمند یک چارچوب پردازشی مقیاس پذیر است که بتواند هم بر روی دادههای جریانی و هم دادههای آفلاین آن هم به صورت مقیاسپذیر و قابل توزیع در شبکه، اعمال شود. وظیفهای که امروزه به صورت کلاسیک و رایج بر عهده اسپارک است. اسپارک یک چارچوب پردازش داده است یعنی ابزار و امکاناتی در اختیار ما می گذارد که بتوانیم دادهها را با هر شکل و هر حجمی پردازش کنیم.
۱. آشنایی با اجزای اصلی اسپارک و معماری آن در یک کلاستر. ۲. نصب و راه اندازی اسپارک ۳. مفاهیم پایه اسپارک (Context, Driver, RDD, Actions, Transforms, Executers, Jobs) ۴. بررسی دستورات پایه اسپارک ۵. کار با SparkSQL ۶. بررسی ابزارهای مانیتورینگ و مدیریت جابها ۷. بررسی دیتافریمها در پردازش دادهها ۸. آشنایی با مفاهیم پردازش جریان ۹. انجام یک مثال عملی با Spark Structured Streaming
با زیاد شدن حجم داده های موجود در بانکهای اطلاعاتی رابطهای، کوئری های سنگین تحلیلی به راحتی و با سرعت مناسب، پاسخ داده نمیشوند. مشکلی در راهکارهای سنتی با استفاده از انبارههای داده در کنار بانکاطلاعاتی اصلی سامانه پاسخ داده میشد اما با تغییر نوع نیازمندی در این حوزه که امکان طراحی هر گونه پرسوجو و استفاده از تمامی دادهها بخصوص دادههای لحظات اخیر، نوع جدیدی از دیتابیسها، پا به عرصه وجود گذاشتند که به طور خاص، برای تحلیلگران داده آنهم در حجمهای بسیار بالا، طراحی شدهاند. در این بخش ، با دو دیتابیس اصلی این حوزه که در شرکتهای بزرگ ایرانی هم در حال استفاده هستند، کار خواهیم کرد و علاوه بر بیان مفاهیم پایه مورد نیاز برای انتخاب این نوع دیتابیسها، به انجام یک مثال عملی بر روی حجم بالای داده هم خواهیم پرداخت.
۱. بررسی نیازمندیهای جدید حوزه تحلیل داده ۲. نصب و راه اندازی کلیک هوس، ایمپورت داده و کوئری های مختلف ، آشنایی با انواع ایندکسها و ملاحظات طراحی جداول تحلیلی ۳. نصب و راهاندازی آپاچی دروید، بررسی کنترل پنل و نحوه ایمپورت دادهها در آن، آشنایی با معماری و ملاحظات طراحی جداول
به عنوان آخرین گام در دوره مبانی مهندسی داده، با نحوه جمع آوری اطلاعات و آمار سامانههای مختلف برای مقاصد نگهداشت و پایش لحظهای آشنا خواهیم شد و نقش دیتابیس تایم سری پرومتئوس، ابزار فلوئنتدی و نرم افزار بسیار کاربردی داشبورد ساز گرافانا را در سامانههای اطلاعاتی امروزی بررسی کرده، یک داشبورد حرفهای مانیتورینگ بر روی مثال عملی اصلی این پروژه ایجاد خواهیم کرد.
کلیه مباحث فوق با طراحی یک سامانه جامع ذخیره و پردازش توئیتهای فارسی مرتبط با بورس و اطلاعات روزانه سازمان بورس در قالب یک پروژه جامع، آموزش داده خواهد شد. نکته : هر چند تمامی مثالها و نرمافزارها با داکر کار خواهند شد اما در ابتدای هر مبحث، نحوه نصب و پیکربندی نرمافزارها به صورت لوکال هم آموزش داده خواهد شد.
دانشجوی دکترای نرمافزار دانشگاه تهران، مدرس دانشگاه و فعال در حوزه مهندسی نرمافزار و علم داده که تمرکز کاری خود را در چند سال اخیر بر روی مطالعه و تحقیق در حوزه کلانداده و تولید محتوای تخصصی و کاربردی به زبان فارسی و انتشار آنها در سایت مهندسی داده گذاشته است. مدیریت پروژههای نرمافزاری و طراحی سامانههای مقیاسپذیر اطلاعاتی از دیگر فعالیتهای صورت گرفته ایشان در چند سال گذشته است.مهندس بنائی همچنین: مدرس دورههای BigDataی نیک آموز، دانشجوی دکترای نرم افزار و مدرس دانشگاه تهران، مجری و مشاور پروژههای کلانداده در سطح ملی و بین المللی، فعال در حوزه تولید محتوای تخصصی در زمینه پردازش داده می باشد.
پس از ثبت سفارش، به حساب کاربری خود در سایت نیکآموز وارد شده و در بخش «دانلودها» اقدام به دانلود جلسات دوره خریداری شده کنید.
ارسال به تهران: طی ۲۴ ساعت کاری پس از ثبت سفارش، هماهنگی لازم جهت ارسال بسته با پیک توسط تیم پشتیبانی با شما انجام خواهد شد.
ارسال به خارج از تهران: طی ۲۴ ساعت کاری پس از ثبت سفارش، بسته ارسالی با آدرس ثبت شده در پنل کاربری، به اداره پست تحویل داده میشود. زمان ارسال و تحویل بسته به شما، منوط به زمانبندی اداره پست بوده و از ۲ الی ۵ روز کاری متغیر خواهد بود.
این دوره به صورت کامل ضبط شده است و به محض خرید قابل دانلود میباشد.
با همهگیری بیماری کووید در سراسر دنیا در سال 1398، مجموعه نیکآموز برگزاری کلاسهای حضوری را متوقف کرده و پس از آن تمامی دورههای آموزشی به صورت وبکستی و آفلاین برگزار شده است
با توجه به بازخوردهای مثبت دانشجویان، کلاسهای حضوری صرفاً در صورت برگزاری بوتکمپها و مسترکلاسها خواهد بود و دورههای آموزشی زین پس به همان صورت آفلاین و وبکستی برگزار میشود.
تمام جشنوارهها از یک الی دو هفته قبل از طریق شبکههای اجتماعی اینستاگرام (@nikamooz)، وبسایت مجموعه (www.nikamooz.com) و همچنین ایمیلهای ارسالی به کاربران اطلاعرسانی میگردد.
در صورت تمایل به دریافت فاکتور رسمی، پیش از خرید خود با واحد فروش با شماره 02191070017 تماس حاصل نمایید.
همانگونه که در بخش سفارش سایت ذکر شده است، امکان ثبت فاکتور رسمی در صورت ثبت خرید آنلاین از سایت مجموعه به هیچ عنوان وجود ندارد.
پس ثبت و نهایی شدن سفارش شما در سایت نیکآموز، تیم پشتیبانی طی 24 تا 72 ساعت کاری با شما تماس خواهند گرفت تا فرایند عضو شدن شما در گروه پشتیبانی تلگرامی هر دوره انجام شود.
در صورت وجود هر گونه سوال و ابهامی میتوانید با شمارههای شرکت تماس حاصل فرمایید و یا از طریق بخش چت پشتیبانی سایت، سوالات خود را مطرح نمایید.
Δ
ذخیره نام، ایمیل و وبسایت من در مرورگر برای زمانی که دوباره دیدگاهی مینویسم.
سلام این دوره تکمیل شده؟
درود بر شما
خیر این دوره در حال برگزاری هست و تا جلسه ۱۷ ضبط انجام شده است کل جلسات ۲۲ جلسه است.
تشکر از همراهی شما
لان چند جلسه اضافه شده؟؟؟ دقیقا کی تموم میشه میخوام بعد اتمام اقدام به خرید کنم
یازده جلسه برگزار شده و یازده جلسه باقی مانده است به احتمال قوی تا انتهای خرداد ماه یا اواسط تیر ماه دوره ادامه داشته باشه دوست عزیز.
سپاس از همراهی شما
درود بر شما این دوره ۲۲ جلسه هست و به اتمام رسیده و همه فایل های آموزشی برای خرید و دانلود در دسترس است. تشکر از همراهی شما
سلام من این دوره رو تهیه کردم. کانال تلگرام و یا گروهی که داره برای در ارتباط بودن و یا تمرین ها و غیره چی هستش ؟
درود وقت بخیر
لینک گروه تلگرام به چت شخصی شما در تلگرام ارسال شده است. لظفا بررسی نمایید.
الان چند جلسه اضافه شده؟؟؟ دقیقا کی تموم میشه میخوام بعد اتمام اقدام به خرید کنم
دوره ۲۲ جلسه است که هفت جلسه آن در پنل دوستان قرار گرفته است سپاس از شما
تفاوت این دوره با علم داده چیه؟ چرت جزو اون مسیر قرار نگرفته؟ پیش نیاز برنامه نویسی برای این دوره چقدر اهمیت داره آبا این دوره مخصوص برنامه نویسان هست؟
سلام نیک آموزی عزیز کلا مباحث علم داده شامل بحثهایی است که به سمت هوش مصنوعی سوق دارند. برای مثال کشف تقلب در سامانه های بانکی بوسیله مباحث علم داده یا یادگیری ماشین انجام می گردد. در حالت کلی علم داده با استفاده از الگوریتم های هوش مصنوعی و مدل های ریاضی، الگوهای ناشناخته ای را برای ما کشف می کند و به ما کمک میکند تا دادههایی که انسان نمی تواند آنها را به راحتی کشف کند را مشاهده نماید.
مباحث مهندس داده در حالت کلی با جمع آوری داده های مختلف سر و کار دارد. برای مثال شما داده های مختلف و زیادی در جاهای مختلفی دارید. حال با ابزارها و مکانیزمهای مختلفی این داده ها را جمع آوری می کنید. یکی از مباحث جذاب در بحث کلان داده یا Big Data است.
برای بحث مربوط به پیش نیازها پیش نیاز مهندسی داده، حداقل دو سال سابقه برنامه نویسی و کار با SQL Server و مباحث کوئری نویسی است.