۵ ترند مهندسی ETL در سال ۲۰۲۴ که شما را شگفت‌‌زده می‌کنند

۵ ترند مهندسی ETL در سال ۲۰۲۴ که شما را شگفت‌‌زده می‌کنند

نوشته شده توسط: نگین فاتحی
تاریخ انتشار: ۳۰ مرداد ۱۴۰۳
آخرین بروزرسانی: 26 آبان 1403
زمان مطالعه: 5 دقیقه
۵
(۲)

ترندهای مهندسی ETL کمک می‌کند تا فعالان این حوزه، در مسیری درست حرکت کنند؛ چرا که این ابزار برای چند دهه، دست راست متخصصان هوش تجاری بوده است و امروزه نیز محبوبیت زیادی را تجربه می‌کند؛ همچنین بسیاری از چرخه‌های نوآورانه و مداوم در دنیای مهندسی داده و پدید آمدن این علم، مدیون حضور آن هستند. ETL Engineering به‌عنوان زیرمجموعه‌ای از حوزه گسترده‌تر مهندسی داده، تا حدودی به‌ دلیل ظهور هوش مصنوعی و یادگیری ماشین، دوباره به صدر جدول حوزه Data Science صعود کرد. پس اجازه دهید نگاهی به ترندهای مهندسی ETL در فضای آن در سال ۲۰۲۴ بیندازیم تا بتوانیم با آگاهی و تسلط بر آینده این حوزه، وظایف اساسی سازمان‌مان را پیش ببریم.

۵ ترند مهندسی ETL در سال ۲۰۲۴

در این بخش به ترندهای مهندسی داده اشاره خواهیم کرد:

مشاهده و خرید کامل‌ترین دوره Power bi از نیک آموز

۱. کنترل فرآیند ETL با زبان پایتون

ETL مدت‌ها زیر سلطه ابزار ها و چرخه‌های کاری مبتنی‌ بر جاوا بوده است؛ اما با روی کار آمدن پایتون، بازی به‌شکل دیگری رقم خورد. مسیر آموزش پایتون و به‌کارگیری این زبان برنامه‌ نویسی از جایی شروع شد که متخصصان AI و Data Science، در محیط‌های آکادمیک و تحقیقاتی به‌ شکل گسترده‌ای از آن استفاده کردند.

بخشی از این محبوبیت هم در پی انفجار هوش مصنوعی مولد (Generative AI) و سرازیری موج به‌کارگیری انواع یادگیری ماشین در این مدل‌ها بود. در واقع بیشتر کتابخانه‌های AI و ML بر پایه کتابخانه‌ های پایتون بنا شده‌اند؛ به‌همین‌ دلیل، دنیای داده‌ها مجبور به تطبیق و سازگاری با این زبان شد.  با نگاهی اجمالی به شرح وظایف دانشمندان داده، مهندسان داده و حتی تحلیل‌گران داده در سازمان‌ها، یک حقیقت را متوجه می‌شویم: Python عضوی جدا ناپذیر و مهارتی ضروری در حوزه SQL Server شده است.

۲. داده های کوچک اما قدرتمند

پس از موج کلان داده در دهه ۲۰۱۰ و موفقیت‌های متفاوت آن، متوجه شدیم که همه‌ چیز یک مشکل در کلان داده نیست. جردن تیگانی (Jordan Tigani) این موضوع را به‌خوبی در مقاله معروف خود با نام «داده های بزرگ مردند» دلیل این موضوع را توضیح داد. در همان زمان، ظهور کتابخانه‌های قدرتمند پایتون، ابتدا Pandas و پس از آن Polars و DuckDB مرزهای کاری قابل انجام روی ماشین‌های تکی را جا به‌ جا کردند. استفاده از این فریمورک‌ها می‌تواند شما را قبل از نیاز به Workload‌های توزیع‌شده در چند ماشین، با کاهش هزینه‌های توزیع و پیاده‌ سازی، به هدف نهایی بسیار نزدیک کند. 

۳. داده های بدون ساختار

با ظهور هوش مصنوعی مولد، توانایی پردازش حجم وسیعی از داده‌های بدون ساختار که به‌ طور معمول توسط شرکت‌ها استفاده نشده‌اند، ممکن شد؛ به‌عنوان مثال، RAG به شرکت‌ها اجازه می‌دهد تا اسناد سازمانی را فهرست‌ بندی و آن‌ها را به LLM‌ها (Large Language Model) برای پاسخ‌گویی دقیق‌تر به سؤالات خاص ارسال کنند؛ همچنین LLM‌ها می‌توانند اطلاعات مرتبط را از آن اسناد استخراج کرده و در قالبی ساختاریافته برای استفاده در زمینه‌های تحلیلی ارائه دهند. به‌طور کلی، این ترند فرصت‌های بیشتری را برای شرکت‌ها باز می‌کند تا از داده‌ های اختصاصی خود برای استفاده‌ های مختلف، چه داخلی و چه خارجی، استفاده کنند.

۴. توسعه ETL توسط هوش مصنوعی مولد

هوش مصنوعی مولد به عنوان یکی دیگر از ترند های مهندسی ETL ، تأثیرات زیادی بر آن گذاشته و می‌گذارد. یکی از شگفت انگیز ترین این اثرات، کاهش موانع در مسیر توسعه پایپ‌ لاین‌ها برای استخراج و تبدیل داده‌ها است. LLM‌ها به‌ویژه در نوشتن کد و به‌ طور خاص، کدهای پایتون، تبحر زیادی دارد؛ چون این مدل‌ها از داده‌ های مجموعه‌ های آموزشی که با آموزش پایتون جمع‌ آوری و عرضه شده‌اند، استفاده می‌کنند. 

برای مثال، این LLM‌ ها در تولید کد های Selenium (فریمورکی محبوب برای استخراج اطلاعات از وب‌سایت‌ ها) و ایجاد ساختاری درست و کار آمد در آنها، نقش مهمی ایفا می‌کنند؛ همچنین از این مدل‌ های زبان بزرگ برای کوئری‌ نویسی دیتابیس استفاده می‌شود. به‌ همین‌ خاطر، LLM‌ها جزو  مباحث مهم در انواع SQL و کوئری‌ نویسی آن شده‌اند. توسعه ETL  با کمک هوش مصنوعی مولد، علاوه‌ بر کارآمدی بالا برای تحلیل‌ گران داده، تغییر دهنده بازی برای مهندسان داده هم است تا کوئری‌های پیچیده SQL را سریع‌تر بنویسند.

۵. Lake houses و جنگ بین انواع فرمت جداول

همانطور که با خرید Tabular توسط Databricks و نسخه جدید Polaris توسط Snowflake نشان داده شد، فرمت‌های جدول بسیار محبوب هستند. معماری Lakehouse درحال رونق و پذیرش از سوی فعالان Data Science است. شرکت‌ های ارائه‌ دهنده داده هم به‌ دقت این وضعیت را زیر نظر دارند. تا با سرعت بالا بتوانند با این موج سازگار شوند؛ بنابراین کاتالوگ‌ ها بالغ‌ تر می‌شوند تا ادغام با کتابخانه‌ ها و ابزار های رایج را تا حد زیادی امکان پذیر کنند؛ به‌همین‌ علت، یکی از ترند های مهندسی ETL را بلوغ جداول در مدل‌ های یادگیری ماشین و البته تکمیل مسیر آموزش هوش تجاری می‌دانیم. 

سخن پایانی

برخی از ترندهای مهندسی ETL برای چند سال در جریان بوده‌اند و در سال‌های آینده هم به بلوغ خود ادامه خواهند داد. سایر ترندهای ETL Engineering مانند به‌ کار گیری هوش مصنوعی مولد در استخراج و تحلیل داده‌ ها، هنوز در مراحل ابتدایی خود قرار دارند؛ اما با سرعت زیادی رو به‌ تکامل حرکت می‌کنند. در هر صورت، شما به‌عنوان دانشمند داده، مهندس توسعه AI یا متخصص هوش تجاری، باید سازگاری و یادگیری مستمر را ویژگی‌هایی ثابت در مسیر حرفه‌ای‌تان درنظر بگیرید. حال مایلیم نظر شما را درباره این ترند ها بدانیم. فکر می‌کنید کدام‌ یک از آن‌ها با استقبال بیشتری در ایران مواجه خواهند شد؟ انتخاب و دلیل آن را برای ما در بخش نظرات بنویسید تا به سایر خوانندگان و گسترش افق نگاه آنها هم کمک کنید. نیک آموز در بخش نظرات، مشتاق خواندن دیدگاه و تجربه شما است؛ پس همین حالا آن را با ما در میان بگذارید.

چه رتبه ای می‌دهید؟

میانگین ۵ / ۵. از مجموع ۲

اولین نفر باش

title sign
معرفی نویسنده
نگین فاتحی
مقالات
35 مقاله توسط این نویسنده
محصولات
0 دوره توسط این نویسنده
نگین فاتحی

از اسفند 99 مشغول گشت‌وگذار توی دنیای کلمات هستم؛ با این هدف که خوب بنویسم و این چشم‌انداز که کمک‌های موثری کنم. حالا سه‌ ساله که توی زمینه‌های گوناگون بازاریابی آنلاین مطالعه می‌کنم و یکی از حوزه‌های موردعلاقم، رفتارشناسی مخاطبان این فضا هست. دستاوردهای این مطالعه شده نوشتن محتوایی که امیدوارم شما بخونی، لُب‌کلام رو متوجه بشی، لذت ببری و با دست پر صفحه رو ترک کنی؛ شایدم بقیه نوشته‌هام رو بخونی :)

title sign
دیدگاه کاربران

  دوره حضوری و غیرحضوری  

هوش تجاری
Enterprise BI

Data Warehouse - ETL - OLAP
با تدریس: مسعود طاهری
مشاهده سرفصل دوره
close-link