دریاچه داده: معماری جدید برای زیرساخت تحلیل و پردازش اطلاعات

0 532
Telegram_GEEKBOY

در دنیای کلان داده، مدتیست که عبارت دریاچه داده به یک اصطلاح فراگیر در حوزه معماریهای پیشنهادی برای پردازش داده ها تبدیل شده است.

دریاچه داده از دید مفهومی، یک مکان مشترک برای ذخیره انواع داده های یک سازمان به صورت خام و پردازش نشده است.

برخلاف انباره های داده که به صورت خاص برای مقاصد تحلیل و گزارش گیری های مدیریتی طراحی می شوند و شکل داده های ورودی را به قالب مورد نیاز خود تبدیل و ذخیره می کنند، دریاچه های داده، اطلاعات و داده ها را به صورت خام ذخیره می کنند تا در آینده، ابزارهای پردازشی و تحلیل گران، خود تصمیم بگیرند که چه تبدیلی و چه پردازشی را روی آنها انجام بدهند.

از طرفی، انباره های داده دارای قالب و ساختار از پیش تعیین شده هستند و این موضوع، انواع داده های نوینی که روزانه در سازمانها تولید می شود را برای ذخیره به منظور مقاصد تحلیلی به چالش دچار می کند چون یکسره نیاز به تیمی برای مدیریت و طراحی ساختار و تبدیل داده ها خواهیم بود. در صورتیکه در دریاچه داده، داده ها به همان شکلی که هستند (مثلا داده های خام شبکه، حسگرها، متون استخراج شده از شبکه های اجتماعی و …)، ذخیره می شوند و نیاز مداوم به پالایش ندارند.

نکته دیگری که در مورد انباره های داده وجود دارد این است که در این سامانه ها، اطلاعات به صورت تجمعی ذخیره می شوند مثلا فروش ماهیانه و فروش هفتگی یک محصول اما فروش ساعتی یا لحظه ای آن دیگر ذخیره نمی شود و از بین می رود که دریاچه داده سازمانی، این نقیصه را هم با حفظ داده های اصلی، مرتفع می سازد.

برای لیست اختلافات مابین انباره های داده و دریاچه داده، از این لینک می توانید استفاده کنید.

مارتین فاولر به عنوان یکی از پیشروهای مهندسی نرم افزار و مباحث مدیریت داده ‌(نویسنده کتاب NoSQL Distilled) در مقاله ای که در زمینه دریاچه داده در سایت خود منتشر کرده است این تفاوت را به خوبی با شکل زیر نمایش داده است:

lake2

رابطه ای که میان دریاچه داده و سایر داده ها و نرم افزارهای یک سازمان می توان پیشنهاد کرد این است که به عنوان یک محیط جنبی و کاملا مجزا از داده های عملیاتی، به ذخیره داده ها و اطلاعات در قالب های باز (مانند جی سان، اکس ام ال، متن و …) یا بانکهای اطلاعاتی نو اس کیو ال بدون ساختار بپردازد و تحلیل گران از روی این داده ها، ساختارهای تحلیلی خود را طراحی و اجرا کنند. نمایی پیشنهادی از این ساختار در شکل زیر و نیز عکس بالای صفحه قابل مشاهده است.

lake3

دریاچه داده هم مثل بسیاری دیگر از فناوریهای حوزه کلان داده تا به بلوغ رسیدن و رفع اشکالات و نهادینه شدن در سازمانها، راه درازی را در پیش دارد.

ارسال یک نظر

آدرس ایمیل شما منتشر نخواهد شد.

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.