دارک دیتا: آینده روشن یا سراب خطرناک

2 849
Telegram_GEEKBOY

در بسیاری از نمایشگاه‌ها از جمله الکامپ، تعداد قابل توجهی از غرفه‌ها، از بازدیدکنندگان اطلاعات شخصی و شغلی‌شان را می‌گیرند و احتمالا بعد از اتمام نمایشگاه، برای این افراد برشور، کاتالوگ یا ایمیل و پیامک تبلیغاتی می‌فرستند. حالا شرکت‌هایی را تصور کنید که کارشان به گونه‌ای است که در تمام مدت سال از افراد و موسسات، اطلاعات می‌گیرند. آیا تاکنون به این فکر کرده‌اید که این سازمان‌ها و یا شرکت‌ها با این اطلاعات چه می‌کنند؟ گذشته از کار اصلی خود، آیا از این اطلاعات استفاده دیگری هم می‌کنند یا این اطلاعات به شکل‌های مختلف، در انباره‌های ذخیره‌سازی این سازمان‌ها خاک می‌خورند؟

دارک دیتا (‌Dark Data)، یکی از تازه‌ترین مباحث در مقوله داده‌های بزرگ و تجزیه و تحلیل آن‌ها است و تلاش می‌کند به پرسش بالا پاسخ دهد؛ مبحثی که اگر به درستی شناخته و به کار گرفته شود، نه تنها می‌تواند منبع درآمد مناسبی برای سازما‌ن‌ها و شرکت‌های بزرگ باشد؛ بلکه از یک سو می‌تواند باعث تحرک و رونق شرکت‌های فنی مرتبط با بیگ دیتا، پردازش و تجزیه‌وتحلیل، داده‌کاوی و ذخیره‌سازی داده‌ها شود و از سوی دیگر، می‌تواند اطلاعات بسیار مناسبی را برای شناخت رفتار کاربران در اندازه‌های بزرگ، در اختیار اقتصاددانان، جامعه شناسان، روانشناسان اجتماعی و برنامه‌ریزان شهری قرار دهد.

دارک دیتا چیست؟

BBA-OpenMind-dark-data-ahmed-banafa

تعریف موسسه گارتنر از دارک دیتا چنین است: «اطلاعاتی که یک سازمان در طول فعالیت عادی خود، گردآوری، پردازش و ذخیره‌سازی کرده است و جزیی از دارایی‌های آن به حساب می‌آید؛ اما نتوانسته است برای مقاصد دیگری از آن‌ها استفاده کند».

عده‌ای در تعریف دارک دیتا، بر نقش آن در تصمیم‌گیری‌های سازمان‌ها و راهبردهای آنان در آینده، تاکید می کنند.

سازمان‌های بزرگی مانند تامین اجتماعی و سایر موسسات بیمه‌ای، سازمان فنی حرفه‌ای، آموزش و پرورش، بانک‌ها، شرکت های ارائه‌کننده خدمات تلفن ثابت و همراه و تعداد زیادی از موسسات دیگر با این مبحث مرتبط هستند. یکی از این سازمان‌ها را در نظر بگیرید. این سازمان در جهت انجام کارهای عادی خود در طول یک سال، با ده‌ها و بلکه صدها هزار انسان سر و کار دارد و به نوعی، اطلاعات آن‌ها را در جایی ذخیره می‌کند؛ اما در بسیاری از موارد، به غیر از همان استفاده اولیه از این اطلاعات، هیچگونه استفاده دیگری از این داده‌ها صورت نمی گیرد.

نه تنها در ایران، بلکه آن‌چنان که متخصصان امر می‌گویند، در بسیار از کشورهای دنیا، اغلب داده‌های سازمان‌های بزرگ را باید در شمول دارک دیتا تلقی کرد؛ اگرچه بخشی از این داده شاید، جزء حریم خصوصی مردم باشد و استفاده از آن‌ها چه به لحاظ قانونی و چه به لحاظ اخلاقی، مجاز نباشد؛ اما بخش‌های دیگری از آن‌ها می‌تواند، در مقاصد پژوهشی و بررسی‌های اجتماعی و راهبردهای کلان اقتصادی، مورد استفاده قرار گیرد. یکی از مشکلات مربوط به این داده‌ها، ذخیره‌سازی و امن نگه داشتن آن‌هاست که هزینه‌ بالایی طلب می‌کند و این در حالی است که در بسیاری از موارد، هنوز ارزش این داده ها مشخص نشده است.
دارک دیتا، نوعا بدون ساختار، بدون برچسب و دست‌نخورده، در درون انباره‌های ذخیره‌سازی یافت می‌شود و عموما تجزیه و تحلیل نشده است. این داده‌ها شبیه بیگ‌دیتاها هستند؛ با این تفاوت که ارزش آن ها عمدتا توسط سازمان یا مدیران آی‌تی، مورد غفلت قرار گرفته است. اغلب داده‌های تاریک، به‌گونه‌ای ذخیره شده‌اند که برای تجزیه و تحلیل دشوار، پیچیده و پرهزینه هستند؛ همچنین این داده‌ها می‌توانند اطلاعاتی را شامل شوند که توسط خود شرکت تهیه نشده‌اند و خارج از سازمان، توسط مشتریان یا شرکا ذخیره شده‌اند.
با رشد نمایی داده‌های ساخت‌یافته، نیمه‌ساخت‌یافته و بدون ساختار در سازمان‌ها، دارک دیتا به معنای داده‌های عملیاتی در نظر گرفته می‌شود که می‌تواند قابلیت تجزیه وتحلیل را پیدا کند؛ اگر شرکت‌ها ارزش این داده‌ها را بدانند، می‌توانند از آن‌ها به عنوان فرصتی برای افزایش درآمد یا کاهش هزینه‌های داخلی خود، استفاده کنند. بعضی از داده‌هایی که می‌توانند در این دسته قرار بگیرند، شامل این موارد هستند: فایل‌های لاگ‌سرور که کلیدهای رفتاری بازدیدکنندگان وب‌سایت‌ها را ارائه می‌دهند، جزییات ضبط شده تماس‌های تلفنی که احساسات و عواطف مشتریان را نشان می‌دهد یا داده‌های مربوط به موقعیت‌های مکانی دارندگان موبایل، که الگوهای ترافیکی را آشکار می‌کنند؛ همچنین دارک دیتا می‌تواند برای توصیف داده‌هایی به کار رود که مدت‌هاست در دسترس نیستند؛ زیرا روی وسایلی ذخیره شده‌اند که منسوخ شده‌اند.

انواع دارک دیتا

1. داه‌هایی که به تازگی جمع‌آوری نشده‌اند.
2. داده‌هایی که جمع‌آوری شده‌اند؛ اما دسترسی به آن‌ها در زمان و در جای مناسب دشوار است.
3. داده‌هایی که جمع‌آوری شده‌اند و در دسترس هستند، اما هنوز پردازش نشده‌اند.

شاید بتوان به این سه دسته از داده‌ها، نوع چهارمی را نیز افزود که شامل داده‌هایی می‌شود که سازمان‌ها هر روز آن‌ها را تولید می‌کنند؛ اما در جایی ذخیره نمی‌کنند.

داده تاریک برخلاف ماده تاریک، این ظرفیت را دارد که پرتو نوری برآن افکنده شود و سرمایه‌گذاری مجددی روی آن انجام شود؛ در واقع موضوع اصلی‌ این است که چگونه می‌توان با استفاده از روش‌های علمی و بر اساس روش فایده‌- هزینه، پیچیدگی‌ها و رمز و راز اطراف داده تاریک را حذف کرد و آن را برای استفاده و سرمایه‌گذاری مجدد آماده کرد.

ارزش داده تاریک

اولین چالشی که داده تاریک در مقابل ما می‌گذارد، تعیین ارزش واقعی آن است؛ البته اگر اساساً ارزشی داشته باشد؛ در هر صورت مقداری از داده، تاریک باقی می‌ماند؛ زیرا سازمان‌ها اساسا نمی‌دانند که این داده‌ها چه هستند. از بین بردن آن‌ها ممکن است خطر بزرگی در بر داشته باشد؛ اما تحلیل آن‌ها نیز هزینه‌بر است. برآورد این هزینه، برای کاری که ارزش آن نامشخص است، سخت است. مساله مهم این است که سازمان باید دلیلی داشته باشد که به سرعت و با هزینه متناسب، داده‌ها را مرتب کند، ساختار دهد و تحلیل کند؛ در واقع باید به این مهم برسیم که دارک دیتا اتفاقی نیست که تنها یک‌ بار می‌افتد.

در اولین قدم برای درک ارزش دارک دیتا، باید مشخص کنیم که این داده‌ها شامل چه اطلاعاتی هستند، کجا نگه‌داری می‌شود و وضعیت فعلی آن‌ها، به لحاظ زمانی که از آن‌ها گذشته، چگونه است. برای رسیدن به این نقطه، به این موارد نیاز داریم: تجزیه و تحلیل داده برای درک اینکه، در حال حاضر میزان آن چقدر است، کجاست و همچنین به لحاظ اینکه ساختاریافته‌، بدون ساختار یا نیمه‌ساخت‌یافته است. طبقه‌بندی داده برای اینکه قابل فهم باشد و همچنین از هر نوع داده چه مقدار داریم و طبیعت کلی اطلاعات، شامل کدام نوع است و مواردی مانند سن داده و… . دسته‌بندی اطلاعات بر این مبنا که بعدا چه اتفاقی برای آن‌ها می‌افتد؛ آرشیو می‌شوند؛ نابود می‌شوند یا به مطالعه عمیق احتیاج دارند. وقتی تصمیم گرفتیم، می‌توانیم هر گروه را به خانه مناسب آن ارسال کنیم تا آن دسته از داده‌هایی که به مطالعه بیشتر نیاز دارند را پیدا کنیم. هنگامی که زمینه مرتبط با اطلاعات‌ را پیدا کردیم، حالا باید روی داده‌هایی که ممکن است بینشی به ما بدهند، تمرکز کنیم. در این صورت تصویر بزرگ‌تری از رابطه این اطلاعات با سازمان خود خواهیم داشت و می‌توانیم سیاست‌های کاری خود را در مورد این اطلاعات به گونه‌ای تنظیم کنیم که از وزن و بار داه تاریک کاسته و امکان استفاده از آن فراهم شود.

آینده داده تاریک

شاید برای شرکت‌هایی که تازه شروع به فعالیت می‌کنند، در کوتاه مدت، موضوع داده‌های تاریک خیلی مهم نباشد. آن‌ها داده‌های تازه خود را تولید می‌کنند؛ اما در گذر زمان یک روز متوجه می‌شوند که انبوهی از داده‌ها که نمی‌دانند چیست، در انباره‌های خود ذخیره کرده‌اند و نمی‌دانند با آن‌ها چه کنند. اینجاست که باید به سراغ افراد و شرکت‌هایی بروند که این توانایی را دارند که بتوانند از داده‌های تاریک ارزش بیافرینند.

بسیاری از متخصصان حوزه بیگ دیتا و داده‌کاوی، باید خود را برای این حوزه جدید آماده کنند. حوزه‌ای که این بار چیزهای باارزش را، از دل تاریکی‌ها بیرون می‌کشد؛ البته تعدادی از صاحب نظران این حوزه، ‍پرداختن به داده‌های تاریک را خطرناک می‌دانند. عمده این خطرات، مشکلات قانونی و آلودگی اطلاعاتی و مسائل اخلاقی هستند که در آینده به آن ها خواهم پرداخت؛ بدیهی است، بحث‌هایی که در این مقاله در جهت استفاده از داده تاریک به آن‌ها اشاره کردیم، با در نظر داشتن مباحث قانونی و اخلاقی بوده است. داده‌هایی از این دست، جزء دارایی‌های هر سازمان به حساب می‌آیند و تصمیم گیری در مورد استفاده یا عدم استفاده از آن‌ها، تنها برعهده مالک آن و با رعایت موازین قانونی و اخلاقی، مجاز است.

چه کسانی با دارک دیتا سر وکار دارند؟

1. شرکت‌ها و سازمان‌هایی که با حجم زیادی از اطلاعات کارمندان، مشتریان و سرمایه‌گذاران در ارتباط هستند؛ مانند شرکت‌های بیمه، خودروسازی، لیزینگ، هولدینگ، بانک‌ها، آموزش و پرورش، دانشگاه‌های بزرگ و وزارتخانه‌ها.
2. وب سایت‌هایی که در کار خرید فروش کالا و خدمات هستند یا وب‌سایت‌های خبری و محتوایی که با مخاطبان زیادی سروکار دارند.
3. شرکت‌های کامپیوتری که در کار هوش مصنوعی، دیتا ماینینگ بیگ‌دیتا
و ذخیره‌سازی داده‌ها هستند.
4. شرکت‌هایی که در کار ساخت و یا ارائه دیتاسنتر و دیگر ابزارهای شبکه هستند .
5. شرکت‌هایی که ارائه‌دهنده خدمات تلفن همراه، اینترنت موبایل، هاستینگ، دامنه و … هستند.
6. متخصصان هوش مصنوعی، بیگ‌دیتا، شبکه، مدیران آی‌تی شرکت‌ها و سازمان‌های بزرگ.

جمع‌بندی: مزایا و معایب

شاید کمتر کسی فکر کند که اطلاعات خاموش و تاریک نهفته در دل دیسک‌های فشرده، هاردیسک‌ها و انباره‌های ذخیره‌سازی سازمان‌های بزرگ، می‌توانند راهگشای بعضی از مشکلات جوامع امروزی باشند؛ همچنین می‌توانند به وجودآورنده ارزش‌های مالی برای سازمان‌ها و رونق‌دهنده کسب‌وکار شرکت‌های فناوری در حوزه شبکه و دیتا باشند؛ اما این واقعیتی است که در جوامع پیشرفته، به یک کسب وکار پررونق و تاثیرگذار تبدیل می‌شود؛ در عین حال، اگر این کار توسط افراد دارای صلاحیت و با رضایت مالک آن صورت نگیرد، می‌تواند مشکلات بزرگی را برای افراد و سازمان‌ها پدید آورد.

در این مقاله سعی کردیم توجه سه دسته مخاطب را به یک موضوع تازه جلب کنیم: اول شرکت‌‌ها و سازمان‌های بزرگ که صاحب دارک‌دیتا هستند؛ دوم شرکت‌های تخصصی و افراد متخصصی که توانایی خوانش، پردازش مجدد، تجزیه و تحلیل و کشف معانی تازه از چنین داده‌هایی را دارند و در نهایت افراد و موسسات علاقه مند به مباحث اقتصادی و اجتماعی، که احتمالا می‌توانند در مبحث‌ دارک دیتا، منافعی را برای جامعه بیابند.

2 نظرات
  1. eliasm می گوید

    جالب بود

ارسال یک نظر

آدرس ایمیل شما منتشر نخواهد شد.

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.