۵ ترند مهندسی ETL در سال ۲۰۲۴ که شما را شگفت‌‌زده می‌کنند

۵ ترند مهندسی ETL در سال ۲۰۲۴ که شما را شگفت‌‌زده می‌کنند

نوشته شده توسط: نگین فاتحی
تاریخ انتشار: ۳۰ مرداد ۱۴۰۳
آخرین بروزرسانی: ۳۰ مرداد ۱۴۰۳
زمان مطالعه: 5 دقیقه
۵
(۲)

شناخت ترندهای مهندسی ETL کمک می‌کند تا فعالان این حوزه، در مسیری درست حرکت کنند؛ چراکه این ابزار برای چند دهه، دست راست متخصصان هوش تجاری بوده است و امروزه نیز محبوبیت زیادی را تجربه می‌کند. همچنین بسیاری از چرخه‌های نوآورانه و مداوم در دنیای مهندسی داده و پدید آمدن این علم، مدیون حضور آن هستند. 

ETL Engineering به‌عنوان زیرمجموعه‌ای از حوزه گسترده‌تر مهندسی داده، تا حدودی به‌دلیل ظهور هوش مصنوعی و یادگیری ماشین، دوباره به صدر جدول حوزه Data Science صعود کرد. پس اجازه دهید نگاهی به چند ترند کلیدی در فضای آن در سال ۲۰۲۴ بیندازیم تا بتوانیم با آگاهی و تسلط بر آینده این حوزه، وظایف اساسی سازمان‌مان را پیش ببریم.

۵ ترند مهندسی ETL در سال ۲۰۲۴

در این بخش به ترندهای مهندسی داده اشاره خواهیم کرد.

۱. کنترل فرآیند ETL با زبان پایتون

ETL مدت‌ها زیر سلطه ابزارها و چرخه‌های کاری مبتنی‌بر جاوا بوده است؛ اما با روی کار آمدن پایتون، بازی به‌شکل دیگری رقم خورد. مسیر آموزش پایتون و به‌کارگیری این زبان برنامه‌نویسی از جایی شروع شد که متخصصان AI و Data Science، در محیط‌های آکادمیک و تحقیقاتی به‌شکل گسترده‌ای از آن استفاده کردند. بخشی از این محبوبیت هم در پی انفجار هوش مصنوعی مولد (Generative AI) و سرازیری موج به‌کارگیری انواع یادگیری ماشین در این مدل‌ها بود. 

درواقع بیشتر کتابخانه‌های AI و ML برپایه کتابخانه‌های پایتون بنا شده‌اند. به‌همین‌دلیل، دنیای داده‌ها مجبور به تطبیق و سازگاری با این زبان شد. 

با نگاهی اجمالی به شرح وظایف دانشمندان داده، مهندسان داده و حتی تحلیل‌گران داده در سازمان‌ها، یک حقیقت را متوجه می‌شویم: Python عضوی جداناپذیر و مهارتی ضروری در حوزه SQL Server شده است.

۲. داده های کوچک اما قدرتمند

پس از موج کلان داده در دهه ۲۰۱۰ و موفقیت‌های متفاوت آن، متوجه شدیم که همه‌چیز یک مشکل در کلان داده نیست. جردن تیگانی (Jordan Tigani) این موضوع را به‌خوبی در مقاله معروف خود با نام «داده های بزرگ مردند» دلیل این موضوع را توضیح داد. 

در همان زمان، ظهور کتابخانه‌های قدرتمند پایتون – ابتدا Pandas و پس از آن Polars و DuckDB – مرزهای کاری قابل انجام روی ماشین‌های تکی را جابه‌جا کردند. 

استفاده از این فریمورک‌ها می‌تواند شما را قبل از نیاز به Workload های توزیع‌شده در چند ماشین، با کاهش هزینه‌های توزیع و پیاده‌سازی، به هدف نهایی بسیار نزدیک کند. 

۳. داده های بدون ساختار

با ظهور هوش مصنوعی مولد، توانایی پردازش حجم وسیعی از داده‌های بدون ساختار، که به‌طور معمول توسط شرکت‌ها استفاده نشده‌اند، ممکن شد. به‌عنوان مثال، RAG به شرکت‌ها اجازه می‌دهد تا اسناد سازمانی را فهرست‌بندی و آن‌ها را به LLM ها (Large Language Model) برای پاسخ‌گویی دقیق‌تر به سؤالات خاص ارسال کنند. 

همچنین LLM ها می‌توانند اطلاعات مرتبط را از آن اسناد استخراج کرده و در قالبی ساختاریافته برای استفاده در زمینه‌های تحلیلی ارائه دهند. 

به‌طور کلی، این ترند فرصت‌های بیشتری را برای شرکت‌ها باز می‌کند تا از داده‌های اختصاصی خود برای استفاده‌های مختلف، چه داخلی و چه خارجی، استفاده کنند.

۴. توسعه ETL توسط هوش مصنوعی مولد

هوش مصنوعی مولد به هنوان یکی دیگر از ترندهای مهندسی ETL ، تأثیرات زیادی بر آن گذاشته و می‌گذارد. یکی از شگف‌انگیزترین این اثرات، کاهش موانع در مسیر توسعه پایپ‌لاین‌ها برای استخراج و تبدیل داده‌ها است. 

LLM ها به‌ویژه در نوشتن کد و به‌طور خاص، کدهای پایتون، تبحر زیادی دارد؛ چون این مدل‌ها از داده‌های مجموعه‌های آموزشی که با پایتون جمع‌آوری و عرضه شده‌اند، استفاده می‌کنند. 

برای مثال، این LLM ها در تولید کدهای Selenium (فریمورکی محبوب برای استخراج اطلاعات از وب‌سایت‌ها) و ایجاد ساختاری درست و کارآمد در آن‌ها، نقش مهمی ایفا می‌کنند. 

همچنین از این مدل‌های زبان بزرگ برای کوئری‌نویسی دیتابیس استفاده می‌شود. به‌همین‌خاطر، LLM ها جزو مباحث مهم در انواع SQL و کوئری‌نویسی آن شده‌اند. 

توسعه ETL با کمک هوش مصنوعی مولد، علاوه‌بر کارآمدی بالا برای تحلیل‌گران داده، تغییردهنده بازی برای مهندسان داده هم است تا کوئری‌های پیچیده SQL را سریع‌تر بنویسند.

۵. Lakehouses و جنگ بین انواع فرمت جداول

همان‌طور که با خرید Tabular توسط Databricks و نسخه جدید Polaris توسط Snowflake نشان داده شد، فرمت‌های جدول بسیار محبوب هستند. معماری Lakehouse درحال رونق و پذیرش ازسوی فعالان Data Science است. شرکت‌های ارائه‌دهنده داده هم به‌دقت این وضعیت را زیرنظر دارند تا با سرعت بالا بتوانند با این موج سازگار شوند. بنابراین کاتالوگ‌ها بالغ‌تر می‌شوند تا ادغام با کتابخانه‌ها و ابزارهای رایج را تا حد زیادی امکان‌پذیر کنند. 

به‌همین‌علت، یکی از ترندهای مهندسی ETL را بلوغ جداول در مدل‌های یادگیری ماشین و البته تکمیل مسیر آموزش هوش تجاری می‌دانیم. 

جمع بندی: ترندهای مهندسی ETL در سال ۲۰۲۴

برخی از ترندهای مهندسی ETL برای چند سال در جریان بوده‌اند و در سال‌های آینده هم به بلوغ خود ادامه خواهند داد. سایر ترندهای ETL Engineering مانند به‌کارگیری هوش مصنوعی مولد در استخراج و تحلیل داده‌ها، هنوز در مراحل ابتدایی خود قرار دارند؛ اما با سرعت زیادی روبه‌ تکامل حرکت می‌کنند. در هر صورت، شما به‌عنوان دانشمند داده، مهندس توسعه AI یا متخصص هوش تجاری، باید سازگاری و یادگیری مستمر را ویژگی‌هایی ثابت در مسیر حرفه‌ای‌تان درنظر بگیرید.

حال مایلیم نظر شما را درباره این ترندها بدانیم. فکر می‌کنید کدام‌یک از آن‌ها با استقبال بیشتری در ایران مواجه خواهند شد؟ انتخاب و دلیل آن را برای ما در بخش نظرات بنویسید تا به سایر خوانندگان و گسترش افق نگاه آن‌ها هم کمک کنید.

چه رتبه ای می‌دهید؟

میانگین ۵ / ۵. از مجموع ۲

اولین نفر باش

title sign
معرفی نویسنده
نگین فاتحی
مقالات
30 مقاله توسط این نویسنده
محصولات
0 دوره توسط این نویسنده
نگین فاتحی

از اسفند 99 مشغول گشت‌وگذار توی دنیای کلمات هستم؛ با این هدف که خوب بنویسم و این چشم‌انداز که کمک‌های موثری کنم. حالا سه‌ ساله که توی زمینه‌های گوناگون بازاریابی آنلاین مطالعه می‌کنم و یکی از حوزه‌های موردعلاقم، رفتارشناسی مخاطبان این فضا هست. دستاوردهای این مطالعه شده نوشتن محتوایی که امیدوارم شما بخونی، لُب‌کلام رو متوجه بشی، لذت ببری و با دست پر صفحه رو ترک کنی؛ شایدم بقیه نوشته‌هام رو بخونی :)

title sign
معرفی محصول
title sign
دیدگاه کاربران