خانه مهندسی داده آموزش تصویری و مرحله به مرحله نصب و راه اندازی اسپارک (spark) مهندسی داده Spark نوشته شده توسط: تیم فنی نیک آموز تاریخ انتشار: ۰۱ مرداد ۱۴۰۳ آخرین بروزرسانی: ۰۱ مرداد ۱۴۰۳ زمان مطالعه: 20 دقیقه ۴.۲ (۵) نصب و راه اندازی اسپارک شاید برای مبتدیان کمی دشوار باشد، اما اصلاً جای نگرانی وجود ندارد. در این مطلب قصد داریم تا آسانترین و سریعترین روش نصب آپاچی اسپارک را در اختیارتان قرار دهیم تا در چند دقیقه، محیط موردنظر را نصب کرده و پیکربندی آن را انجام دهید. Apache Spark یکی از ابزارهای قدرتمند و ضروری است که با استفاده از موتور چندزبانه، امکان اجرای نودها و کلاسترهای مهندسی دیتا، علوم دیتا و یادگیری ماشین را فراهم میکند. در دنیای هوش مصنوعی که هماکنون در آن قرار داریم، نصب و یادگیری spark شاید یک امر ضروری تلقی شود. اسپارک (Apache Spark) چیست؟ آپاچی اسپارک یک قابلیت متنباز است که سیستمی توزیعشده با قدرت تحلیل دیتاهای متعدد را در اختیارتان قرار میدهد. زمانی که با حجم دیتای قابل توجهی مواجه هستید، این دقیقاً زمانی است که باید به فکر نصب و راه اندازی اسپارک شرکت آپاچی بیافتید. مزایای بسیاری توسط spark برای کاربر فراهم خواهد شد که از آن جمله میتوان به سیستم کشینگ in-memory اشاره کرد. همچنین، توسعهدهندگان این ابزار تمامی سعی خود را کردهاند تا حداکثر بهینهسازی را درمورد اجرای کوئریها فراهم آورند. قابلیتهای API چندگانه توسط spark فراهم میشود و با استفاده از آن میتوان به API های زبانهایی مانند جاوا، اسکالا، پایتون و R دسترسی داشت. از ویژگیهایی که پس از نصب و راه اندازی اسپارک بهدست خواهید آورد، میتوان به موارد زیر اشاره کرد: تحلیل دیتا بهصورت حجیم و دستهای آنالیزهای آنی قابلیتهای یادگیری ماشین تحلیل و آنالیز گراف کاربردهای اسپارک نصب و راه اندازی آپاچی اسپارک مزایای بسیاری را برای صنایع و شرکتهای مختلف فراهم خواهد آورد. spark یک سیستم پردازشی برای دیتاهای حجیم است که برای کاربردهای عمومی در اختیار کاربران قرار گرفته است. بنابراین، در هر شرکت یا سازمانی که با دیتاهای زیاد روبهرو هستید یا هدف شما تحلیل الگوهای دیتا و رسیدن به آنالیزهای آنی است، میتوانید نصب spark را همین حالا شروع کنید. شرکت های امور مالی و بازارها صنایع امور مالی مطمئناً با دیتای بزرگ و قابل توجهی در فرآیندهای خود روبهرو هستند. یکی از کاربردهای اسپارک در حوزه بانکی و شرکتهای مالی است که با استفاده از تحلیلهای آن میتوان نرخ پرش و میزان ترک مشتریان را محاسبه کرد. در شرکتهای مختلف، که بهعنوان تولیدکننده و فروشنده محصول و کالا در بازار شناخته میشوند، از spark میتوان برای تحلیل میزان تقاضا و آنالیز قیمتها در آینده استفاده کرد. همچنین، یافتن ترندهای آینده که توسط این ابزار امکانپذیر بوده، یک نیاز اساسی در چنین شرکتهایی است. بخش درمان از دیتای حجیمی که در بخش درمان در دسترس است، میتوان برای آنالیز بیماریها و روشهای درمانی بهینه بهره برد. این مزیتی است که ابزار قدرتمندی مانند spark در اختیار توسعهدهندگان قرار خواهد داد. همچنین، این ابزار با مدلهای خود میتواند در پیشبینی یا توصیههای پزشکی نیز نقش مؤثری داشته باشد. بخش تولید در بخش تولید کارخانهای، میتوان از مزایای spark پس از نصب و راهاندازی، بهترین بهره را برد. در این بخشها میتوان استفاده زیادی از این ابزار برد که از آن جمله میتوان به پیشبینی خطاها برای جلوگیری از اتلاف منابع و مواد اولیه اشاره کرد. مدلهای اسپارک کمک میکنند تا در شرایطی بینظیر بتوان تولید کارخانهها را افزایش داد و میزان تولید را دقیقاً مطابق میزان تقاضا تنظیم کرد. بازاریابی و فروش شرکتهای مختلف در دنیای امروزی نیاز به روشهای متنوع و مطمئن بازاریابی و فروش دارند. این ابزار در این زمینه کمک میکند تا بتوان با مدلهای یادگیری ماشین و آنالیز بازار، محصولات بهتری را به مشتریان ارائه داد و روشهای مارکتینگ و فروش را بهبود بخشید. پیش نیاز های نصب اسپارک برای نصب و راه اندازی اسپارک پیشنیازهایی لازم خواهد بود که در این بخش درمورد آنها اطلاعات کاملی را بهدست خواهیم آورد. برای استفاده از این ابزار شرکت آپاچی، شما نیاز به جاوا دارید که این ابزار یک نیاز ضروری برای نصب spark است. در قدم بعدی، لازم است تا زبان پایتون را نیز روی سیستم خود دانلود کرده و نصب کنید. درنهایت، با نصب این دو ابزار موردنیاز spark، میتوان آخرین نسخه از اسپارک را روی سیستم محلی نصب کرد. در بخشهای بعدی، بهصورت مفصل نصب این ابزارها را روی سیستم عاملهای مختلف توضیح خواهیم داد. دانلود و نصب اسپارک اسپارک یکی از پروژههای زیرمجموعه Hadoop به شمار میرود؛ بنابراین، بهترین کار این است که spark را روی یک سیستم عامل لینوکسی نصب و پیادهسازی کنید. در این حالت، بهترین بازدهی و سرعت عمل را از اسپارک مشاهده خواهید کرد. با این حال، برای نصب اسپارک روی ویندوز نیز روش مطمئنی ارائه شده است تا کاربران ویندوزی نیز بهراحتی بتوانند از قابلیتهای آن استفاده کنند. نصب و راه اندازی اسپارک روی ویندوز نصب و راه اندازی اسپارک روی ویندوز در چند مرحله انجام میشود که بهصورت قدمبهقدم در ادامه توضیح داده میشود. مراحل نصب و راه اندازی اسپارک: نصب جاوا برای استفاده از آپاچی spark، نیاز به جاوا ۸ دارید. در صورتی که جاوا ۸ را روی سیستم خود دارید، به مرحله بعدی بروید. در غیر این صورت، به این آدرس مراجعه کرده و نسخه موردنظر را دانلود کنید. پس از نصب جاوا روی سیستم خود، ترمینال ویندوز را باز کرده و از صحت نصب آن اطمینان حاصل کنید. با تایپ java -version در ترمینال، میتوانید نسخه مربوط را مشاهده کنید: مراحل نصب و راه اندازی اسپارک: نصب پایتون برای استفاده از spark، به پکیجمنیجر پایتون نیز نیاز داریم که بهصورت رایگان میتوانید آن را از طریق این آدرس اینترنتی دانلود کرده و نصب کنید. پس از نصب پایتون، میتوانید با دستور python –version در ترمینال نسخه موردنظر را مشاهده کنید: مراحل نصب و راه اندازی اسپارک: دریافت آپاچی اسپارک در این مرحله لازم است تا ویرایش آخر spark را از این آدرس دریافت کنید. این فایل با فرمت tgz. است که در مرحله بعدی قرار است از حالت فشرده خارج شود. همچنین، به غیر از این فایل، به ابزار 7zip هم نیاز داریم که بهتر است آن را از طریق این لینک دریافت کرده و روی سیستم خود نصب کنید. برای نصب و راه اندازی اسپارک، نسخه آخر را بهصورت زیر دانلود کنید: مراحل نصب و راه اندازی اسپارک: خارج کردن فایل از حالت فشرده در این مرحله، یک پوشه به نام Spark داخل درایو C ویندوز بسازید و با خارجکردن فایل از حالت فشرده، آن را داخل این پوشه قرار دهید. فایل دانلودی spark با پسوند tgz. به صورت زیر است: این فایل را با 7zip از حالت فشرده خارج کنید تا پوشه زیر را در اختیار داشته باشید: اکنون، پوشه را در مسیر C -> Spark کپی کنید: مراحل نصب و راه اندازی اسپارک: دریافت winutils برای نصب و راه اندازی اسپارک در یک سیستم محلی، نیاز به ابزار winutils داریم. شما این ابزار را میتوانید از این آدرس بهصورت رایگان دریافت کنید. با مراجعه به آدرس مربوطه، آخرین نسخه را انتخاب کنید و فایل exe. مربوط به winutils را روی سیستم خود دریافت کنید: پس از دانلود این فایل، آن را داخل آدرس C -> hadoop -> bin قرار دهید. دقت داشته باشید که فولدرهای hadoop و bin باید توسط شما ایجاد شوند: مراحل نصب و راه اندازی اسپارک: تنظیمات مربوط به ENV برای پیکربندی Environment Variables روی ویندوز، لازم است تا مراحلی را طی کنید. در این مرحله، مسیرهایی مانند SPARK_HOME و HADOOP_HOME به ویندوز اعلام میشوند. در کنار این ۲ مسیر، لازم است تا مسیر نصب جاوا نیز در ویندوز شناسایی شود. برای شناساندن SPARK ابزار env ویندوز را از استارت اجرا کنید: در این بخش روی Environment Variables کلیک کنید. در صفحه جدید روی کلید New کلیک کنید. در کادر باز شده، مسیر SPARK_HOME را به صورت زیر وارد کنید: درنهایت، مسیر اضافهشده SPARK_HOME باید بهصورت زیر برایتان نمایش داده شود: لازم است تا مسیر پوشه bin اسپارک را نیز به Path ویندوز اضافه کنیم. روی Path در این پنجره کلیک کرده و روی Edit فشار دهید: یک صفحه جدید برایتان باز خواهد شد که در آن میتوانید با کلید New مسیر موردنظر را اضافه کنید: مسیر پوشه bin بهصورت زیر به این بخش اضافه شده است. حالا روی کلید Ok کلیک کنید تا از این صفحه خارج شوید. %SPARK_HOME%\bin برای Hadoop نیز باید این مراحل را تکرار کنیم. در پنجره زیر، میتوانید مسیر HADOOP_HOME را اضافه کنید: با این کار در بخش env، مسیر را در اختیار دارید: با کلیک روی Path در این بخش، مسیر bin برای Hadoop را نیز به مسیرها اضافه میکنیم: %HADOOP_HOME%\bin مسیر JAVA_HOME نیز باید به env اضافه شود. با توجه به تصویر زیر، این مسیر را نیز اضافه کنید: کار نصب و راه اندازی اسپارک روی ویندوز تمام شده است. دقت داشته باشید درصورتیکه روی کلید Ok کلیک نکنید، تنظیمات اعمال نخواهد شد. یک ریاستارت روی سیستمتان انجام دهید و کامپیوتر را مجدداً راهاندازی کنید. اکنون برای اجرای اسپارک میتوانید بهصورت run as administrator ابزار Powershell ویندوز را باز کرده و با واردکردن دستور موردنظر در آن، ترمینال اسپارک را اجرا کنید: دستور موردنظر بهصورت زیر است: C:\Spark\spark-3.5.1-bin-hadoop3\bin\spark-shell درنهایت، ترمینال اسپارک را بهصورت زیر در اختیار دارید: راه اندازی اسپارک روی لینوکس برای نصب و راه اندازی اسپارک روی لینوکس میتوانید براساس مراحل زیر اقدام کنید. سه پکیج نیاز است که با استفاده از کد زیر در ترمینال میتوانید نصب آنها را روی لینوکس انجام دهید. sudo apt install default-jdk scala git -y با این دستور، سه ابزار جاوا، اسکالا و گیت روی سیستم لینوکسی شما نصب خواهد شد. بهتر است به این نکته اشاره کنیم که در این آموزش ما از لینوکس اوبونتو استفاده کردیم. پس از اجرای این دستورات، نصب شروع شده و درنهایت، خروجی زیر را در ترمینال در اختیار خواهید داشت: درصورت نیاز میتوانید با دستورات زیر، از نصب درست پکیجها اطمینان حاصل کنید: git -v java --version scala -version با دستور زیر در ترمینال اوبونتو، میتوانید نصب و راه اندازی اسپارک را شروع کنید. این دستور پکیج spark را روی سیستم شما دانلود خواهد کرد: wget https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz برای خارجکردن فایل از حالت فشرده، دستور زیر را در ترمینال اجرا کنید: tar xvf spark-* خروجی زیر را در اختیار دارید: یک فولدر با نام اسپارک بسازید: sudo mkdir /opt/spark با دستور زیر، فایلها را به داخل فولدر ساختهشده منتقل کنید: sudo mv spark-3.5.1-bin-hadoop3/* /opt/spark درنهایت، لازم است تا اجازههای دسترسی را به فولدر spark بدهید: sudo chmod -R 777 /opt/spark برای پیکربندی مسیرهای دسترسی، تنها چند خط دستور را داخل فایل profile. اضافه کرده و کار نصب و راه اندازی اسپارک روی لینوکس را به پایان برسانید. برای این کار، دستور زیر را در ترمینال اجرا کنید تا فایل موردنظر اجرا شود: sudo nano .profile با اجرای این دستور، صفحه profile. برایتان باز خواهد شد. بعد از خط نهایی fi، خطوط زیر را اضافه کنید. با این کار میتوانید کلیدهای ترکیبی ctrl + s و بعد از آن ctrl + x را فشار دهید تا فایل ذخیره شده و از آن خارج شوید. برای اطمینان از ذخیره خطوط موردنظر، میتوانید یکبار دیگر با دستور nano .profile فایل را اجرا کرده و خطوط نهایی را کنترل کنید: export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin export PYSPARK_PYTHON=/usr/bin/python3 اکنون کار نصب و راه اندازی اسپارک روی لینوکس به پایان رسیده است. با استفاده از دستور زیر در ترمینال، میتوانید سرور اسپارک را استارت بزنید. درصورت اجرا نشدن آن یا دریافت هرگونه خطا، بهتر است یک بار سیستم خود را ریاستارت کنید: start-master.sh با اجرای spark روی مرورگر کروم، به صفحه مدیریتی دسترسی خواهید داشت: http://127.0.0.1:8080/ پیکربندی اسپارک با نصب و راه اندازی اسپارک روی ویندوز یا لینوکس، همهچیز در اختیار شما است تا کدزنی و توسعه الگوریتمهای موردنظر را شروع کنید. نحوه نصب و راه اندازی اسپارک آپاچی روی ویندوز و لینوکس در اختیار شما قرار گرفت. با این حال، در صورتی که در آینده نیاز به اعمال تنظیمات داشته باشید یا قرار بر تغییر مسیرها احساس شود، بهراحتی با طیکردن دوباره مراحل، میتوانید این کار را انجام دهید. همچنین، برای پیکربندی spark برای آپدیتهای جدید این ابزار، نیاز است تا آپدیت موردنظر را دانلود کرده و مراحل قبلی را یکبار از اول طی کنید. اتصال به منابع داده (Data Sources) یکی از ضروریترین قابلیتهایی که در هر ابزار تحلیل داده نیاز بوده، اتصال سریع و آسان به منابع داده است. درصورت نبود چنین قابلیتی، در عمل نمیتوان به نتیجه موردنظر برای آنالیز دیتاهای حجیم دست پیدا کرد. پس از نصب و راه اندازی اسپارک آپاچی، فهرستی از قابلیتها را در این مورد در اختیار دارید و میتوانید انواع منابع دیتا را به اپلیکیشن و برنامه خود متصل کنید. ازجمله مهمترین این منابع دیتا، میتوان به موارد زیر اشاره کرد: فایلهای ORC فایلهای JSON فایلهای CSV فایلهای Text فایلهای دیتابیس Hive فایلهای دیتابیس MySQL برای اطلاع بیشتر درمورد این ویژگیها، میتوانید به منابع آموزشی رسمی آپاچی spark در این آدرس مراجعه کنید. دیباگ و مانیتورینگ اسپارک در تمامی ابزارهای مدرن در دنیای فناوری، امکان دیباگ کردن و مانیتورینگ نیز فراهم شده است. در اکثر ابزارها، امکانات و پیشنیازهای مانیتورینگ بهصورت ذاتی داخل بسته نرمافزاری قرار دارند. درمورد آپاچی spark نیز این مهم فراهم شده است و با مراجعه به صفحه وب آن میتوانید بهراحتی شرایط برنامهها و کدها را مانیتور کنید. بهتر است ابتدا به آدرس سرور مراجعه کنید تا کمی با بخشهای مختلف آن آشنا شوید. برای این کار، آدرس زیر را در مرورگر کروم خود وارد کنید تا به صفحه موردنظر هدایت شوید: http://localhost:4040/ همانطور که مشاهده میکنید، صفحه مدیریتی و نظارتی روی پورت ۴۰۴۰ بهصورت پیشفرض کار میکند. البته، اگر در آینده نیاز باشد، امکان تغییر این پورت بهآسانی فراهم است. برای مانیتورینگ روی بخشهای مختلف spark، در کل دو روش در اختیار شما است: یکی استفاده از این صفحه وب و دیگری، بهکاربردن API های اسپارک. برای بررسی وضعیت میتوانید در صفحه وب به بخش Executors مراجعه کنید که دیتای ضروری را در اختیارتان قرار میدهد: درمورد API ها، تنها کافی است تا پس از تایپکردن آدرس روی پورت موردنظر، درخواست را به API ارسال کنید. برای مثال، ما یک درخواست به API ارسال میکنیم تا اطلاعات موردنیاز درمورد اپلیکیشن با آیدی مشخص را در اختیارمان قرار دهد: http://localhost:4040/api/v1/applications/local-1720970820991/environment با درخواست زیر، میتوان یک لیست از تمامی کوئریهای اپلیکیشن با آیدی مشخص را دریافت کرد: http://localhost:4040/api/v1/applications/local-1720970820991/sql همچنین، پس از نصب و راه اندازی اسپارک روی ویندوز یا لینوکس، با API زیر میتوانید دیتای موردنظر برای اجرا کنندههای یک اپلیکیشن را دریافت کنید: http://localhost:4040/api/v1/applications/local-1720970820991/executors جمع بندی: آموزش نصب و راه اندازی اسپارک با نصب و راه اندازی اسپارک قابلیتهای بینظیری درمورد یادگیری ماشین و تحلیل دیتا در اختیار شما است. تفاوتی ندارد که در یک شرکت کوچک فعالیت دارید یا مدیریت بخش دیتا در یک بیزینس بزرگ در دستان شما است؛ درهرصورت، پس از نصب spark و پیکربندی آن، میتوانید از ابزارهای داخلی این بسته نرمافزاری برای تحلیل دادهها، آنالیز آنی اطلاعات و استخراج اطلاعات مهم استفاده کنید. شاید در ابتدای کار، استفاده از این ابزار برایتان کمی دشوار باشد؛ اما اصلاً جای نگرانی وجود ندارد، چراکه پس از چند هفته کارکردن با آن، به بخشهای موردنیاز تسلط پیدا خواهید کرد. چه رتبه ای میدهید؟ میانگین ۴.۲ / ۵. از مجموع ۵ اولین نفر باش معرفی نویسنده مقالات 402 مقاله توسط این نویسنده محصولات 0 دوره توسط این نویسنده تیم فنی نیک آموز معرفی محصول مجتبی بنائی دوره آموزش مهندسی داده [Data Engineering] 2.380.000 تومان مقالات مرتبط ۰۴ مهر مهندسی داده معماری Data Lakehouse چیست و چگونه کار میکند؟ نگین فاتحی ۲۴ شهریور مهندسی داده ردیس چیست و انواع آن کدامند؟ نگین فاتحی ۱۸ شهریور مهندسی داده مراحل ساده برای تحلیل داده با ChatGPT و پایتون نگین فاتحی ۱۰ شهریور مهندسی داده NoSQL چیست؟ هر آن چیزی که درباره پایگاه داده NoSQL باید بدانید تیم فنی نیک آموز دیدگاه کاربران لغو پاسخ دیدگاه نام و نام خانوادگی ایمیل ذخیره نام، ایمیل و وبسایت من در مرورگر برای زمانی که دوباره دیدگاهی مینویسم. موبایل برای اطلاع از پاسخ لطفاً مرا با خبر کن ثبت دیدگاه Δ