خانه هوش تجاری ۵ ترند مهندسی ETL در سال ۲۰۲۴ که شما را شگفتزده میکنند هوش تجاری نوشته شده توسط: نگین فاتحی تاریخ انتشار: ۳۰ مرداد ۱۴۰۳ آخرین بروزرسانی: ۳۰ مرداد ۱۴۰۳ زمان مطالعه: 5 دقیقه ۵ (۲) شناخت ترندهای مهندسی ETL کمک میکند تا فعالان این حوزه، در مسیری درست حرکت کنند؛ چراکه این ابزار برای چند دهه، دست راست متخصصان هوش تجاری بوده است و امروزه نیز محبوبیت زیادی را تجربه میکند. همچنین بسیاری از چرخههای نوآورانه و مداوم در دنیای مهندسی داده و پدید آمدن این علم، مدیون حضور آن هستند. ETL Engineering بهعنوان زیرمجموعهای از حوزه گستردهتر مهندسی داده، تا حدودی بهدلیل ظهور هوش مصنوعی و یادگیری ماشین، دوباره به صدر جدول حوزه Data Science صعود کرد. پس اجازه دهید نگاهی به چند ترند کلیدی در فضای آن در سال ۲۰۲۴ بیندازیم تا بتوانیم با آگاهی و تسلط بر آینده این حوزه، وظایف اساسی سازمانمان را پیش ببریم. ۵ ترند مهندسی ETL در سال ۲۰۲۴ در این بخش به ترندهای مهندسی داده اشاره خواهیم کرد. ۱. کنترل فرآیند ETL با زبان پایتون ETL مدتها زیر سلطه ابزارها و چرخههای کاری مبتنیبر جاوا بوده است؛ اما با روی کار آمدن پایتون، بازی بهشکل دیگری رقم خورد. مسیر آموزش پایتون و بهکارگیری این زبان برنامهنویسی از جایی شروع شد که متخصصان AI و Data Science، در محیطهای آکادمیک و تحقیقاتی بهشکل گستردهای از آن استفاده کردند. بخشی از این محبوبیت هم در پی انفجار هوش مصنوعی مولد (Generative AI) و سرازیری موج بهکارگیری انواع یادگیری ماشین در این مدلها بود. درواقع بیشتر کتابخانههای AI و ML برپایه کتابخانههای پایتون بنا شدهاند. بههمیندلیل، دنیای دادهها مجبور به تطبیق و سازگاری با این زبان شد. با نگاهی اجمالی به شرح وظایف دانشمندان داده، مهندسان داده و حتی تحلیلگران داده در سازمانها، یک حقیقت را متوجه میشویم: Python عضوی جداناپذیر و مهارتی ضروری در حوزه SQL Server شده است. ۲. داده های کوچک اما قدرتمند پس از موج کلان داده در دهه ۲۰۱۰ و موفقیتهای متفاوت آن، متوجه شدیم که همهچیز یک مشکل در کلان داده نیست. جردن تیگانی (Jordan Tigani) این موضوع را بهخوبی در مقاله معروف خود با نام «داده های بزرگ مردند» دلیل این موضوع را توضیح داد. در همان زمان، ظهور کتابخانههای قدرتمند پایتون – ابتدا Pandas و پس از آن Polars و DuckDB – مرزهای کاری قابل انجام روی ماشینهای تکی را جابهجا کردند. استفاده از این فریمورکها میتواند شما را قبل از نیاز به Workload های توزیعشده در چند ماشین، با کاهش هزینههای توزیع و پیادهسازی، به هدف نهایی بسیار نزدیک کند. ۳. داده های بدون ساختار با ظهور هوش مصنوعی مولد، توانایی پردازش حجم وسیعی از دادههای بدون ساختار، که بهطور معمول توسط شرکتها استفاده نشدهاند، ممکن شد. بهعنوان مثال، RAG به شرکتها اجازه میدهد تا اسناد سازمانی را فهرستبندی و آنها را به LLM ها (Large Language Model) برای پاسخگویی دقیقتر به سؤالات خاص ارسال کنند. همچنین LLM ها میتوانند اطلاعات مرتبط را از آن اسناد استخراج کرده و در قالبی ساختاریافته برای استفاده در زمینههای تحلیلی ارائه دهند. بهطور کلی، این ترند فرصتهای بیشتری را برای شرکتها باز میکند تا از دادههای اختصاصی خود برای استفادههای مختلف، چه داخلی و چه خارجی، استفاده کنند. ۴. توسعه ETL توسط هوش مصنوعی مولد هوش مصنوعی مولد به هنوان یکی دیگر از ترندهای مهندسی ETL ، تأثیرات زیادی بر آن گذاشته و میگذارد. یکی از شگفانگیزترین این اثرات، کاهش موانع در مسیر توسعه پایپلاینها برای استخراج و تبدیل دادهها است. LLM ها بهویژه در نوشتن کد و بهطور خاص، کدهای پایتون، تبحر زیادی دارد؛ چون این مدلها از دادههای مجموعههای آموزشی که با پایتون جمعآوری و عرضه شدهاند، استفاده میکنند. برای مثال، این LLM ها در تولید کدهای Selenium (فریمورکی محبوب برای استخراج اطلاعات از وبسایتها) و ایجاد ساختاری درست و کارآمد در آنها، نقش مهمی ایفا میکنند. همچنین از این مدلهای زبان بزرگ برای کوئرینویسی دیتابیس استفاده میشود. بههمینخاطر، LLM ها جزو مباحث مهم در انواع SQL و کوئرینویسی آن شدهاند. توسعه ETL با کمک هوش مصنوعی مولد، علاوهبر کارآمدی بالا برای تحلیلگران داده، تغییردهنده بازی برای مهندسان داده هم است تا کوئریهای پیچیده SQL را سریعتر بنویسند. ۵. Lakehouses و جنگ بین انواع فرمت جداول همانطور که با خرید Tabular توسط Databricks و نسخه جدید Polaris توسط Snowflake نشان داده شد، فرمتهای جدول بسیار محبوب هستند. معماری Lakehouse درحال رونق و پذیرش ازسوی فعالان Data Science است. شرکتهای ارائهدهنده داده هم بهدقت این وضعیت را زیرنظر دارند تا با سرعت بالا بتوانند با این موج سازگار شوند. بنابراین کاتالوگها بالغتر میشوند تا ادغام با کتابخانهها و ابزارهای رایج را تا حد زیادی امکانپذیر کنند. بههمینعلت، یکی از ترندهای مهندسی ETL را بلوغ جداول در مدلهای یادگیری ماشین و البته تکمیل مسیر آموزش هوش تجاری میدانیم. جمع بندی: ترندهای مهندسی ETL در سال ۲۰۲۴ برخی از ترندهای مهندسی ETL برای چند سال در جریان بودهاند و در سالهای آینده هم به بلوغ خود ادامه خواهند داد. سایر ترندهای ETL Engineering مانند بهکارگیری هوش مصنوعی مولد در استخراج و تحلیل دادهها، هنوز در مراحل ابتدایی خود قرار دارند؛ اما با سرعت زیادی روبه تکامل حرکت میکنند. در هر صورت، شما بهعنوان دانشمند داده، مهندس توسعه AI یا متخصص هوش تجاری، باید سازگاری و یادگیری مستمر را ویژگیهایی ثابت در مسیر حرفهایتان درنظر بگیرید. حال مایلیم نظر شما را درباره این ترندها بدانیم. فکر میکنید کدامیک از آنها با استقبال بیشتری در ایران مواجه خواهند شد؟ انتخاب و دلیل آن را برای ما در بخش نظرات بنویسید تا به سایر خوانندگان و گسترش افق نگاه آنها هم کمک کنید. چه رتبه ای میدهید؟ میانگین ۵ / ۵. از مجموع ۲ اولین نفر باش معرفی نویسنده مقالات 30 مقاله توسط این نویسنده محصولات 0 دوره توسط این نویسنده نگین فاتحی از اسفند 99 مشغول گشتوگذار توی دنیای کلمات هستم؛ با این هدف که خوب بنویسم و این چشمانداز که کمکهای موثری کنم. حالا سه ساله که توی زمینههای گوناگون بازاریابی آنلاین مطالعه میکنم و یکی از حوزههای موردعلاقم، رفتارشناسی مخاطبان این فضا هست. دستاوردهای این مطالعه شده نوشتن محتوایی که امیدوارم شما بخونی، لُبکلام رو متوجه بشی، لذت ببری و با دست پر صفحه رو ترک کنی؛ شایدم بقیه نوشتههام رو بخونی :) معرفی محصول مسعود طاهری آموزش ETL در هوش تجاری 3.590.000 تومان مقالات مرتبط ۲۵ شهریور هوش تجاری ابزار های برتر ETL در سال ۲۰۲۴ نگین فاتحی ۲۱ شهریور هوش تجاری رویکرد های مدلسازی انبار داده + توصیه هایی برای انتخاب بهترین شیوه نگین فاتحی ۱۴ شهریور هوش تجاری مزایای Google BigQuery در حوزه هوش تجاری نگین فاتحی ۰۷ شهریور هوش تجاری بهترین روش های داستان سرایی داده با Power BI در ۱۴۰۳ تیم فنی نیک آموز دیدگاه کاربران لغو پاسخ دیدگاه نام و نام خانوادگی ایمیل ذخیره نام، ایمیل و وبسایت من در مرورگر برای زمانی که دوباره دیدگاهی مینویسم. موبایل برای اطلاع از پاسخ لطفاً مرا با خبر کن ثبت دیدگاه Δ