نیک آموز > وبلاگ > مهندسی داده > آموزش تصویری و مرحله به مرحله نصب و راه اندازی اسپارک (spark)

آموزش تصویری و مرحله به مرحله نصب و راه اندازی اسپارک (spark)

مهندسی داده

نوشته شده توسط: تیم فنی نیک آموز

تاریخ انتشار: ۰۱ مرداد ۱۴۰۳

آخرین بروزرسانی: 23 دی 1403

زمان مطالعه: 20 دقیقه

نصب و راه اندازی اسپارک شاید برای مبتدیان کمی دشوار باشد، اما اصلاً جای نگرانی وجود ندارد. در این مطلب قصد داریم تا آسان‌ترین و سریع‌ترین روش نصب آپاچی اسپارک را در اختیارتان قرار دهیم تا در چند دقیقه، محیط موردنظر را نصب کرده و پیکربندی آن را انجام دهید. Apache Spark یکی از ابزارهای قدرتمند و ضروری است که با استفاده از موتور چندزبانه، امکان اجرای نودها و کلاسترهای مهندسی دیتا، علوم دیتا و یادگیری ماشین را فراهم می‌کند. در دنیای هوش مصنوعی که هم‌اکنون در آن قرار داریم، نصب و یادگیری spark شاید یک امر ضروری تلقی شود.

اسپارک (Apache Spark) چیست؟

آپاچی اسپارک یک قابلیت متن‌باز است که سیستمی توزیع‌شده با قدرت تحلیل دیتاهای متعدد را در اختیارتان قرار می‌دهد. زمانی که با حجم دیتای قابل توجهی مواجه هستید، این دقیقاً زمانی است که باید به فکر نصب و راه اندازی اسپارک شرکت آپاچی بیافتید. مزایای بسیاری توسط spark برای کاربر فراهم خواهد شد که از آن جمله می‌توان به سیستم کشینگ in-memory اشاره کرد. همچنین، توسعه‌دهندگان این ابزار تمامی سعی خود را کرده‌اند تا حداکثر بهینه‌سازی را درمورد اجرای کوئری‌ها فراهم آورند.

قابلیت‌های API چندگانه توسط spark فراهم می‌شود و با استفاده از آن می‌توان به API های زبان‌هایی مانند جاوا، اسکالا، پایتون و R دسترسی داشت.

از ویژگی‌هایی که پس از نصب و راه اندازی اسپارک به‌دست خواهید آورد، می‌توان به موارد زیر اشاره کرد:

تحلیل دیتا به‌صورت حجیم و دسته‌ای
آنالیزهای آنی
قابلیت‌های یادگیری ماشین
تحلیل و آنالیز گراف

کاربردهای اسپارک

نصب و راه اندازی آپاچی اسپارک مزایای بسیاری را برای صنایع و شرکت‌های مختلف فراهم خواهد آورد. spark یک سیستم پردازشی برای دیتاهای حجیم است که برای کاربردهای عمومی در اختیار کاربران قرار گرفته است. بنابراین، در هر شرکت یا سازمانی که با دیتاهای زیاد روبه‌رو هستید یا هدف شما تحلیل الگوهای دیتا و رسیدن به آنالیزهای آنی است، می‌توانید نصب spark را همین حالا شروع کنید.

شرکت های امور مالی و بازارها

صنایع امور مالی مطمئناً با دیتای بزرگ و قابل توجهی در فرآیندهای خود روبه‌رو هستند. یکی از کاربردهای اسپارک در حوزه بانکی و شرکت‌های مالی است که با استفاده از تحلیل‌های آن می‌توان نرخ پرش و میزان ترک مشتریان را محاسبه کرد.

در شرکت‌های مختلف، که به‌عنوان تولیدکننده و فروشنده محصول و کالا در بازار شناخته می‌شوند، از spark می‌توان برای تحلیل میزان تقاضا و آنالیز قیمت‌ها در آینده استفاده کرد. همچنین، یافتن ترندهای آینده که توسط این ابزار امکان‌پذیر بوده، یک نیاز اساسی در چنین شرکت‌هایی است.

بخش درمان

از دیتای حجیمی که در بخش درمان در دسترس است، می‌توان برای آنالیز بیماری‌ها و روش‌های درمانی بهینه بهره برد. این مزیتی است که ابزار قدرتمندی مانند spark در اختیار توسعه‌دهندگان قرار خواهد داد. همچنین، این ابزار با مدل‌های خود می‌تواند در پیش‌بینی یا توصیه‌های پزشکی نیز نقش مؤثری داشته باشد.

بخش تولید

در بخش تولید کارخانه‌ای، می‌توان از مزایای spark پس از نصب و راه‌اندازی، بهترین بهره را برد. در این بخش‌ها می‌توان استفاده زیادی از این ابزار برد که از آن جمله می‌توان به پیش‌بینی خطاها برای جلوگیری از اتلاف منابع و مواد اولیه اشاره کرد. مدل‌های اسپارک کمک می‌کنند تا در شرایطی بی‌نظیر بتوان تولید کارخانه‌ها را افزایش داد و میزان تولید را دقیقاً مطابق میزان تقاضا تنظیم کرد.

بازاریابی و فروش

شرکت‌های مختلف در دنیای امروزی نیاز به روش‌های متنوع و مطمئن بازاریابی و فروش دارند. این ابزار در این زمینه کمک می‌کند تا بتوان با مدل‌های یادگیری ماشین و آنالیز بازار، محصولات بهتری را به مشتریان ارائه داد و روش‌های مارکتینگ و فروش را بهبود بخشید.

پیش نیاز های نصب اسپارک

برای نصب و راه اندازی اسپارک پیش‌نیازهایی لازم خواهد بود که در این بخش درمورد آن‌ها اطلاعات کاملی را به‌دست خواهیم آورد. برای استفاده از این ابزار شرکت آپاچی، شما نیاز به جاوا دارید که این ابزار یک نیاز ضروری برای نصب spark است. در قدم بعدی، لازم است تا زبان پایتون را نیز روی سیستم خود دانلود کرده و نصب کنید.

درنهایت، با نصب این دو ابزار موردنیاز spark، می‌توان آخرین نسخه از اسپارک را روی سیستم محلی نصب کرد.

در بخش‌های بعدی، به‌صورت مفصل نصب این ابزارها را روی سیستم عامل‌های مختلف توضیح خواهیم داد.

دانلود و نصب اسپارک

اسپارک یکی از پروژه‌های زیرمجموعه Hadoop به شمار می‌رود؛ بنابراین، بهترین کار این است که spark را روی یک سیستم عامل لینوکسی نصب و پیاده‌سازی کنید. در این حالت، بهترین بازدهی و سرعت عمل را از اسپارک مشاهده خواهید کرد.

با این حال، برای نصب اسپارک روی ویندوز نیز روش مطمئنی ارائه شده است تا کاربران ویندوزی نیز به‌راحتی بتوانند از قابلیت‌های آن استفاده کنند.

نصب و راه اندازی اسپارک روی ویندوز

نصب و راه اندازی اسپارک روی ویندوز در چند مرحله انجام می‌شود که به‌صورت قدم‌به‌قدم در ادامه توضیح داده می‌شود.

مراحل نصب و راه اندازی اسپارک: نصب جاوا

برای استفاده از آپاچی spark، نیاز به جاوا ۸ دارید. در صورتی که جاوا ۸ را روی سیستم خود دارید، به مرحله بعدی بروید. در غیر این صورت، به این آدرس مراجعه کرده و نسخه موردنظر را دانلود کنید. پس از نصب جاوا روی سیستم خود، ترمینال ویندوز را باز کرده و از صحت نصب آن اطمینان حاصل کنید.

با تایپ java -version در ترمینال، می‌توانید نسخه مربوط را مشاهده کنید:

مراحل نصب و راه اندازی اسپارک: نصب پایتون

برای استفاده از spark، به پکیج‌منیجر پایتون نیز نیاز داریم که به‌صورت رایگان می‌توانید آن را از طریق این آدرس اینترنتی دانلود کرده و نصب کنید.

پس از نصب پایتون، می‌توانید با دستور python –version در ترمینال نسخه موردنظر را مشاهده کنید:

مراحل نصب و راه اندازی اسپارک: دریافت آپاچی اسپارک

در این مرحله لازم است تا ویرایش آخر spark را از این آدرس دریافت کنید. این فایل با فرمت tgz. است که در مرحله بعدی قرار است از حالت فشرده خارج شود. همچنین، به غیر از این فایل، به ابزار 7zip هم نیاز داریم که بهتر است آن را از طریق این لینک دریافت کرده و روی سیستم خود نصب کنید.

برای نصب و راه اندازی اسپارک، نسخه آخر را به‌صورت زیر دانلود کنید:

مراحل نصب و راه اندازی اسپارک: خارج کردن فایل از حالت فشرده

در این مرحله، یک پوشه به نام Spark داخل درایو C ویندوز بسازید و با خارج‌کردن فایل از حالت فشرده، آن را داخل این پوشه قرار دهید.

فایل دانلودی spark با پسوند tgz. به صورت زیر است:

این فایل را با 7zip از حالت فشرده خارج کنید تا پوشه زیر را در اختیار داشته باشید:

اکنون، پوشه را در مسیر C -> Spark کپی کنید:

مراحل نصب و راه اندازی اسپارک: دریافت winutils

برای نصب و راه اندازی اسپارک در یک سیستم محلی، نیاز به ابزار winutils داریم. شما این ابزار را می‌توانید از این آدرس به‌صورت رایگان دریافت کنید. با مراجعه به آدرس مربوطه، آخرین نسخه را انتخاب کنید و فایل exe. مربوط به winutils را روی سیستم خود دریافت کنید:

پس از دانلود این فایل، آن را داخل آدرس C -> hadoop -> bin قرار دهید. دقت داشته باشید که فولدرهای hadoop و bin باید توسط شما ایجاد شوند:

مراحل نصب و راه اندازی اسپارک: تنظیمات مربوط به ENV

برای پیکربندی Environment Variables روی ویندوز، لازم است تا مراحلی را طی کنید. در این مرحله، مسیرهایی مانند SPARK_HOME و HADOOP_HOME به ویندوز اعلام می‌شوند. در کنار این ۲ مسیر، لازم است تا مسیر نصب جاوا نیز در ویندوز شناسایی شود.

برای شناساندن SPARK ابزار env ویندوز را از استارت اجرا کنید:

در این بخش روی Environment Variables کلیک کنید.

در صفحه جدید روی کلید New کلیک کنید.

در کادر باز شده، مسیر SPARK_HOME را به صورت زیر وارد کنید:

درنهایت، مسیر اضافه‌شده SPARK_HOME باید به‌صورت زیر برایتان نمایش داده شود:

لازم است تا مسیر پوشه bin اسپارک را نیز به Path ویندوز اضافه کنیم. روی Path در این پنجره کلیک کرده و روی Edit فشار دهید:

یک صفحه جدید برایتان باز خواهد شد که در آن می‌توانید با کلید New مسیر موردنظر را اضافه کنید:

مسیر پوشه bin به‌صورت زیر به این بخش اضافه شده است. حالا روی کلید Ok کلیک کنید تا از این صفحه خارج شوید.

%SPARK_HOME%bin

برای Hadoop نیز باید این مراحل را تکرار کنیم. در پنجره زیر، می‌توانید مسیر HADOOP_HOME را اضافه کنید:

با این کار در بخش env، مسیر را در اختیار دارید:

با کلیک روی Path در این بخش، مسیر bin برای Hadoop را نیز به مسیرها اضافه می‌کنیم:

%HADOOP_HOME%bin

مسیر JAVA_HOME نیز باید به env اضافه شود. با توجه به تصویر زیر، این مسیر را نیز اضافه کنید:

کار نصب و راه اندازی اسپارک روی ویندوز تمام شده است. دقت داشته باشید درصورتی‌که روی کلید Ok کلیک نکنید، تنظیمات اعمال نخواهد شد.

یک ری‌استارت روی سیستم‌تان انجام دهید و کامپیوتر را مجدداً راه‌اندازی کنید. اکنون برای اجرای اسپارک می‌توانید به‌صورت run as administrator ابزار Powershell ویندوز را باز کرده و با واردکردن دستور موردنظر در آن، ترمینال اسپارک را اجرا کنید:

دستور موردنظر به‌صورت زیر است:

C:Sparkspark-3.5.1-bin-hadoop3binspark-shell

درنهایت، ترمینال اسپارک را به‌صورت زیر در اختیار دارید:

راه اندازی اسپارک روی لینوکس

برای نصب و راه اندازی اسپارک روی لینوکس می‌توانید براساس مراحل زیر اقدام کنید. سه پکیج نیاز است که با استفاده از کد زیر در ترمینال می‌توانید نصب آن‌ها را روی لینوکس انجام دهید.

sudo apt install default-jdk scala git -y

با این دستور، سه ابزار جاوا، اسکالا و گیت روی سیستم لینوکسی شما نصب خواهد شد. بهتر است به این نکته اشاره کنیم که در این آموزش ما از لینوکس اوبونتو استفاده کردیم.

پس از اجرای این دستورات، نصب شروع شده و درنهایت، خروجی زیر را در ترمینال در اختیار خواهید داشت:

درصورت نیاز می‌توانید با دستورات زیر، از نصب درست پکیج‌ها اطمینان حاصل کنید:

git -v
java --version
scala -version

با دستور زیر در ترمینال اوبونتو، می‌توانید نصب و راه اندازی اسپارک را شروع کنید. این دستور پکیج spark را روی سیستم شما دانلود خواهد کرد:

wget https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz

برای خارج‌کردن فایل از حالت فشرده، دستور زیر را در ترمینال اجرا کنید:

tar xvf spark-*

خروجی زیر را در اختیار دارید:

یک فولدر با نام اسپارک بسازید:

sudo mkdir /opt/spark

با دستور زیر، فایل‌ها را به داخل فولدر ساخته‌شده منتقل کنید:

sudo mv spark-3.5.1-bin-hadoop3/* /opt/spark

درنهایت، لازم است تا اجازه‌های دسترسی را به فولدر spark بدهید:

sudo chmod -R 777 /opt/spark

برای پیکربندی مسیرهای دسترسی، تنها چند خط دستور را داخل فایل profile. اضافه کرده و کار نصب و راه اندازی اسپارک روی لینوکس را به پایان برسانید.

برای این کار، دستور زیر را در ترمینال اجرا کنید تا فایل موردنظر اجرا شود:

sudo nano .profile

با اجرای این دستور، صفحه profile. برایتان باز خواهد شد. بعد از خط نهایی fi، خطوط زیر را اضافه کنید. با این کار می‌توانید کلیدهای ترکیبی ctrl + s و بعد از آن ctrl + x را فشار دهید تا فایل ذخیره شده و از آن خارج شوید. برای اطمینان از ذخیره خطوط موردنظر، می‌توانید یکبار دیگر با دستور nano .profile فایل را اجرا کرده و خطوط نهایی را کنترل کنید:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export PYSPARK_PYTHON=/usr/bin/python3

اکنون کار نصب و راه اندازی اسپارک روی لینوکس به پایان رسیده است. با استفاده از دستور زیر در ترمینال، می‌توانید سرور اسپارک را استارت بزنید. درصورت اجرا نشدن آن یا دریافت هرگونه خطا، بهتر است یک بار سیستم خود را ری‌استارت کنید:

start-master.sh

با اجرای spark روی مرورگر کروم، به صفحه مدیریتی دسترسی خواهید داشت:

http://127.0.0.1:8080/

پیکربندی اسپارک

با نصب و راه اندازی اسپارک روی ویندوز یا لینوکس، همه‌چیز در اختیار شما است تا کدزنی و توسعه الگوریتم‌های موردنظر را شروع کنید.

نحوه نصب و راه اندازی اسپارک آپاچی روی ویندوز و لینوکس در اختیار شما قرار گرفت. با این حال، در صورتی که در آینده نیاز به اعمال تنظیمات داشته باشید یا قرار بر تغییر مسیرها احساس شود، به‌راحتی با طی‌کردن دوباره مراحل، می‌توانید این کار را انجام دهید. همچنین، برای پیکربندی spark برای آپدیت‌های جدید این ابزار، نیاز است تا آپدیت موردنظر را دانلود کرده و مراحل قبلی را یکبار از اول طی کنید.

اتصال به منابع داده (Data Sources)

یکی از ضروری‌ترین قابلیت‌‌هایی که در هر ابزار تحلیل داده نیاز بوده، اتصال سریع و آسان به منابع داده است. درصورت نبود چنین قابلیتی، در عمل نمی‌توان به نتیجه موردنظر برای آنالیز دیتاهای حجیم دست پیدا کرد. پس از نصب و راه اندازی اسپارک آپاچی، فهرستی از قابلیت‌ها را در این مورد در اختیار دارید و می‌توانید انواع منابع دیتا را به اپلیکیشن و برنامه خود متصل کنید. ازجمله مهم‌ترین این منابع دیتا، می‌توان به موارد زیر اشاره کرد:

فایل‌های ORC
فایل‌های JSON
فایل‌های CSV
فایل‌های Text
فایل‌های دیتابیس Hive
فایل‌های دیتابیس MySQL

برای اطلاع بیشتر درمورد این ویژگی‌ها، می‌توانید به منابع آموزشی رسمی آپاچی spark در این آدرس مراجعه کنید.

دیباگ و مانیتورینگ اسپارک

در تمامی ابزارهای مدرن در دنیای فناوری، امکان دیباگ کردن و مانیتورینگ نیز فراهم شده است. در اکثر ابزارها، امکانات و پیش‌نیازهای مانیتورینگ به‌صورت ذاتی داخل بسته نرم‌افزاری قرار دارند. درمورد آپاچی spark نیز این مهم فراهم شده است و با مراجعه به صفحه وب آن می‌توانید به‌راحتی شرایط برنامه‌ها و کدها را مانیتور کنید.

بهتر است ابتدا به آدرس سرور مراجعه کنید تا کمی با بخش‌های مختلف آن آشنا شوید. برای این کار، آدرس زیر را در مرورگر کروم خود وارد کنید تا به صفحه موردنظر هدایت شوید:

http://localhost:4040/

همان‌طور که مشاهده می‌کنید، صفحه مدیریتی و نظارتی روی پورت ۴۰۴۰ به‌صورت پیش‌فرض کار می‌کند. البته، اگر در آینده نیاز باشد، امکان تغییر این پورت به‌آسانی فراهم است.

برای مانیتورینگ روی بخش‌های مختلف spark، در کل دو روش در اختیار شما است: یکی استفاده از این صفحه وب و دیگری، به‌کاربردن API های اسپارک.

برای بررسی وضعیت می‌توانید در صفحه وب به بخش Executors مراجعه کنید که دیتای ضروری را در اختیارتان قرار می‌دهد:

درمورد API ها، تنها کافی است تا پس از تایپ‌کردن آدرس روی پورت موردنظر، درخواست را به API ارسال کنید. برای مثال، ما یک درخواست به API ارسال می‌کنیم تا اطلاعات موردنیاز درمورد اپلیکیشن با آی‌دی مشخص را در اختیارمان قرار دهد:

http://localhost:4040/api/v1/applications/local-1720970820991/environment

با درخواست زیر، می‌توان یک لیست از تمامی کوئری‌های اپلیکیشن با آی‌دی مشخص را دریافت کرد:

http://localhost:4040/api/v1/applications/local-1720970820991/sql

همچنین، پس از نصب و راه اندازی اسپارک روی ویندوز یا لینوکس، با API زیر می‌توانید دیتای موردنظر برای اجرا کننده‌های یک اپلیکیشن را دریافت کنید:

http://localhost:4040/api/v1/applications/local-1720970820991/executors

جمع بندی: آموزش نصب و راه اندازی اسپارک

با نصب و راه اندازی اسپارک قابلیت‌های بی‌نظیری درمورد یادگیری ماشین و تحلیل دیتا در اختیار شما است. تفاوتی ندارد که در یک شرکت کوچک فعالیت دارید یا مدیریت بخش دیتا در یک بیزینس بزرگ در دستان شما است؛ درهرصورت، پس از نصب spark و پیکربندی آن، می‌توانید از ابزارهای داخلی این بسته نرم‌افزاری برای تحلیل داده‌ها، آنالیز آنی اطلاعات و استخراج اطلاعات مهم استفاده کنید. شاید در ابتدای کار، استفاده از این ابزار برایتان کمی دشوار باشد؛ اما اصلاً جای نگرانی وجود ندارد، چراکه پس از چند هفته کارکردن با آن، به بخش‌های موردنیاز تسلط پیدا خواهید کرد.