خانه مهندسی داده چگونه تستها را میتوان به خطوط پردازش داده اضافه کرد؟ مهندسی داده مسیر مهندسی داده نوشته شده توسط: تیم فنی نیک آموز تاریخ انتشار: ۱۳ بهمن ۱۴۰۰ آخرین بروزرسانی: 23 دی 1403 زمان مطالعه: 15 دقیقه ۰ (۰) مقدمه تست خطوط پردازش داده ((Pipelines با تست برنامههای کاربردی دیگر، مانند یک وب سایت، متفاوت است. اگر شما با چالشهای زیر مواجه هستید: مسئولیت یک خط پردازش داده را به عهده گرفتهاید که هیچ تستی ندارد. باید اضافه کردن ویژگیهای جدید به خط پردازش دادهای را شروع کنید که هیچ تستی ندارد. پس میتوان گفت این مقاله دقیقا مناسب شماست. ما در این مقاله به دو نوع تست کلی برای اطمینان از کیفیت و صحت دادهها میپردازیم: تست کیفیت دادهها، پس از پردازش و قبل از اینکه در دسترس کاربران نهایی قرار گیرد. تستهای استاندارد، مانند تست سیستمی، تست واحد، تست ادغام و تست قرارداد. ما همچنین به بحث نظارت و هشدار میپردازیم تا اطمینان حاصل کنیم که در مورد انحراف اندازه دادهها، شکست خطوط پردازش داده و غیره هشدار لازم را دریافت میکنیم. تست خط پردازش داده فرض میکنیم شما مسئولیت یک خط پردازش داده را به عهده گرفتهاید که هیچ تستی ندارد. خیلی بعید است که زمان کافی برای نوشتن تست داشته باشید تا به پوشش کد به صد در صد برسد. در چنین مواردی، شناسایی و تست خروجیهای کلیدی خط پردازش داده بسیار مهم است. یک دستورالعمل متداول برای اضافه کردن تستها عبارتند از: تست سیستمی انتها به انتها تست کیفیت دادهها نظارت و هشدار (از نظر فنی تست محسوب نمیشود، اما برای تشخیص انحراف اندازه دادهها، شکست خط پردازش داده و غیره ضروری است) تست واحد و قرارداد توجه داشته باشید که ابتدا کلیت سیستم را مورد تست قرار میدهیم و سپس تستهایی را به اجزای جداگانه اضافه میکنیم. در حالی که این ترتیب اجرای تست به طور کلی توصیه میشود، اما بسته به موقعیت شما، میتوانید ترتیب اجرای این تستها را نادیده بگیرید یا تغییر دهید و بر اساس شرایط روال تست را طراحی کنید. فرض میکنیم مسئولیت یک خط پردازش داده را به عهده گرفتهاید که روالهای زیر را انجام میدهد: دادههای S3 را میخواند. دو تبدیل پایتون و اسپارک را انجام میدهد. دادههای تبدیل یافته را به یک انبار داده بارگذاری میکند تا توسط کاربران نهایی استفاده شود. ۱) تست سیستمی انتها به انتها همانطور که در حال شروع به اضافه کردن ویژگیهای جدید هستید، دقت داشته باشید عملکرد موجود در اثر اضافه شدن ویژگیهای جدید دچار شکست نشود. برای این منظور باید تست سیستمی انتها به انتها داشته باشید. برای تست سیستمی انتها به انتها میتوان با استفاده از نمونهای از دادههای ورودی، اجرای مراحل پردازش دادهها با استفاده از نسخه توسعه یافته خط پردازش داده و در نهایت مقایسه خروجی با خروجیهای مورد انتظار انجام داد. یک قطعه نمونه کد برای افزودن تست سیستم با استفاده از Pytest import pytest from your.data_pipeline_path import run_your_datapipeline class TestYourDataPipeline: @pytest.fixtures(scope="class", autouse=True) def input_data_fixture(self): # get input fixture data ready yield self.tear_down() def test_data_pipeline_success(self): run_your_datapipeline() result = {"some data or file"} expected_result = "predefined expected data or file" assert result == expected_result def tear_down(self): # remove input fixture data این تست قبل از اینکه کد در شاخه اصلی ادغام شود در محیط توسعه اجرا میشود. این کار باعث میشود اطمینان حاصل کنید که خط پردازش داده شما هنگام اضافه کردن ویژگیهای جدید دچار مشکل نمیشود. ۲) تست کیفیت دادهها این نوع تست برای خطوط پردازش داده منحصر به فرد است. به جای تست کد، دادههای تبدیلشده را بررسی میکنیم و مطمئن میشویم که دارای ویژگیهایی است که ما انتظار داریم. ما میتوانیم این کار را مطابق شکل زیر انجام دهیم. ما تسک های زیر را به خط پردازش داده اضافه میکنیم: تسک بارگذاری دادههای تبدیل یافته در جدول یا مجموعه داده موقت. تسک اطمینان از اینکه دادههای جدول موقت مطابق با انتظاراتی است که از دادههای پردازش شده داریم. این مرحله معمولاً شامل بررسی محدودیتهای منحصربهفرد، مجموعه مقادیر مجاز، قوانین تجاری، بررسی دادههای خارج از محدوده و غیره است. توجه داشته باشید که چطور این تست هر بار بخشی از خط پردازش داده را مورد بررسی قرار میدهد، بر خلاف تست سیستمی انتها به انتها که کلیت خط پردازش داده را مورد بررسی قرار میدهد. Dbt و Great Expectation عملکرد قدرتمندی را ارائه میدهند که انجام این نوع بررسیها را آسان میکند. اگر بررسی کیفیت دادهها ناموفق باشد، یک هشدار برای تیم مهندسی داده صادر میشود و دادهها در جدول نهایی بارگذاری نمیشوند. این به مهندسان داده اجازه میدهد تا قبل از دادن حق دسترسی به کاربران نهایی، مسائل غیرمنتظره کیفیت داده را تشخیص داده و رفع کنند. نظارت و هشدار با تست کیفیت دادهها، ما میتوانیم به طور منطقی از کیفیت دادههای خود مطمئن باشیم. اما ممکن است انحرافات غیرمنتظرهای در اندازه دادهها، انحرافات در تعداد ردیفهای حذف شده و غیره وجود داشته باشد. برای آگاهی از تغییرات غیرمنتظره در اندازه دادهها، باید خط لوله داده خود را به سیستم نظارت و هشدار مجهز کنیم. برای پیادهسازی نظارت و هشدار میتوان با ارسال لاگ به سرویسهایی مانند newrelic یا datadog یا ارسال لاگ به پایگاه داده انجام داد. ما میتوانیم هشدارها را بر اساس لاگ در newrelic یا datadog تنظیم کنیم. اما دقت داشته باشید اگر لاگها را به یک پایگاه داده ارسال کنیم، به سرویسهایی مانند Looker یا Metabase نیاز داریم تا در صورت تغییر اندازه دادهها به ما هشدار دهند. لاگها میتوانند حتی شامل موارد سادهای باشند. به عنوان مثال لاگ تعداد ردیفهای پایگاه داده قبل و بعد از مرحله تبدیل. // logs {"start_datetime": "2021-06-15 04:55:55", "end_datetime": "2021-06-15 05:10:15", "run_id": "unique_run_id", "transformation_id": "transformation_step_unique_id", "row_count_before": 1000, "row_count_after": 700, "other_metadata": "some number"} تنظیم یک هشدار برای دادههای خارج از محدوده میتواند از طریق datadog یا newrelic انجام شود. اگر لاگها در یک پایگاه داده ذخیره میشوند، یک هشدار در Looker یا Metabase تنظیم کنید. تست واحد و قرارداد وجود تست انتها به انتها، تست کیفیت دادهها و سیستم نظارت و هشدار به شما این اطمینان را میدهد که سریعتر حرکت کنید و دادههایی با کیفیت خوب ارائه دهید. مرحله بعدی اضافه کردن تستهای واحد استاندارد برای عملکردها و تستهای قراردادی است که در آن خط پردازش داده با سیستمهای خارجی تعامل دارد، مانند صدا زدن API برای یک میکروسرویس. این تستها هنگام اصلاح منطق کد به شما اطمینان بیشتری میدهد و به طور کلی به جلوگیری از بروز اشکالات کمک میکند. نتیجهگیری امیدواریم این مقاله ایده خوبی در مورد نحوه شروع تست خط پردازش داده به شما داده باشد. داشتن این تستها شما را قادر میسازد تا ویژگیها را با اطمینان اضافه کنید. همچنین تضمین میکند که دادههای خروجی با کیفیت هستند. برای جمعبندی، اضافه کردن تستها و نظارت را به ترتیب زیر شروع کنید: تست سیستمی انتها به انتها تستهای کیفیت دادهها نظارت و هشدار تست واحد و قرارداد همچنین مشاهده کردید که دو نوع تست کلی برای اطمینان از کیفیت و صحت دادهها وجود دارد: تست کیفیت دادهها، پس از پردازش تستهای استاندارد ایده اصلی این است که شروع به تست خروجیهای کلیدی خط پردازش داده کنید. از تست انتها به انتها شروع کنید و به سمت تستهای واحد حرکت کنید. منابع https://www.startdataengineering.com/post/how-to-add-tests-to-your-data-pipeline چه رتبه ای میدهید؟ میانگین ۰ / ۵. از مجموع ۰ اولین نفر باش دانلود مقاله چگونه تستها را میتوان به خطوط پردازش داده اضافه کرد؟ فرمت PDF 7 صفحه حجم 1 مگابایت دانلود مقاله معرفی نویسنده مقالات 401 مقاله توسط این نویسنده محصولات 0 دوره توسط این نویسنده تیم فنی نیک آموز معرفی محصول مجتبی بنائی دوره آموزش مهندسی داده [Data Engineering] 2.380.000 تومان مقالات مرتبط ۰۴ مهر مهندسی داده معماری Data Lakehouse چیست و چگونه کار میکند؟ نگین فاتحی ۲۴ شهریور مهندسی داده ردیس چیست و انواع آن کدامند؟ نگین فاتحی ۱۸ شهریور مهندسی داده مراحل ساده برای تحلیل داده با ChatGPT و پایتون نگین فاتحی ۱۰ شهریور مهندسی داده NoSQL چیست؟ هر آن چیزی که درباره پایگاه داده NoSQL باید بدانید تیم فنی نیک آموز دیدگاه کاربران لغو پاسخ دیدگاه نام و نام خانوادگی ایمیل ذخیره نام، ایمیل و وبسایت من در مرورگر برای زمانی که دوباره دیدگاهی مینویسم. موبایل برای اطلاع از پاسخ لطفاً مرا با خبر کن ثبت دیدگاه Δ