کیفیت داده چیست ؟ چگونه می توان به بهترین نتیجه دست یافت؟

کیفیت داده چیست

کیفیت داده چیست و چگونه برای رسیدن به بهترین نتیجه باید آن را اندازه گرفت؟

قبلا بارها درباره کیفیت داده و همچنین هزینه داده های بد صحبت کرده ایم . اما برخلاف درک اولیه کیفیت داده ، بسیاری از افراد دقیقا اطلاعی از کیفیت ندارند.

برای مثال ، آیا راهی برای اندازه گیری کیفیت وجود دارد ؟ چگونه ؟ در این مقاله ما به این سوالات پاسخ خواهیم داد.

 

شکستن رمز و رازهای کیفیت داده

 

یکی از رموز مربوط به کیفیت داده این است که کاملا بدون اشتباه است. با وجود تمام وب سایت ها و دیگر کمپین های جمع آوری داده های بسیار زیاد، صفر بودن تعداد اشتباهات تقریبا غیرممکن است. داده فقط نیازمند تایید استانداردهایی است که برای آن تنظیم شده. به منظور تعیین معنی داده باید سه چیز را بدانیم:

۱. چه کسی الزامات را تعیین می کند؟

۲. این الزامات چگونه ایجاد می شوند؟

۳. چه میزان از آزادی عمل برای این الزامات وجود دارد؟

 

بسیاری از کسب وکارها شخصی به عنوان ناظرِ داده دارند که این الزامات را درک کرده و آنها را تبیین می کند. به علاوه، شخصی هم هست که سطح لغزش اشتباهات را مشخص می کند.  اگر ناظری بر داده ها وجود نداشته باشد به جای آن تکنولوژی اطلاعات، مسئول داده هایی است که هر گونه کمبود و نقص ممکن است بر آن تاثیر بگذارد.

 

سریع ، ساده و ارزان به دست آورید

همه چیز از جمع آوری داده ها گرفته تا مناسب ساختن آنها با نیازهای یک شرکت- همگی در معرض اشتباهات بالقوه هستند. داشتن اطلاعات صددرصد کامل و صد درصد صحیح نه فقط تا حد زیادی هزینه بر است بلکه وقت گیر نیز هست.

با حجم زیاد اطلاعاتی که وارد سیستم می شود تصمیمات باید سریع گرفته اتخاذ شوند. به همین دلیل است که کیفیت داده ها باید کامل و صحیح و متوازن باشد.  اگر اینکار به نظر شما وقت گیر و طولانی ست ممکن است از شنیدن اینکه برای هرکاری راهی هست خوشحال شوید. برای اینکار نیز اولین قدم تهیه پروفایل داده هاست.

 

پروفایل داده ها چیست؟

پروفایل داده ها، بررسی تمام اطلاعات داخل پایگاه داده هاست تا مشخص شود که واقعا صحیح و تکمیل باشند و همچنین مدخل هایی که تکمیل نیستند. برای مثال وارد کردن پایگاه داده های محصولاتی که شرکت شما تولید می کند و اطمینان از اینکه تمام اطلاعات صحیح است. اما وقتی قرار است جزئیاتی درباره محصولات شرکت های دیگر و یا جزییات مرتبط دیگر مطرح باشد موضوع متفاوت است.

با پروفایل کردن داده ها باید به صحت داده ها نیز توجه کنید . برای مثال اگر ۱۶/۱/۷ را وارد می کنید باید دقت کنید که سیستم آیا ۱۹۱۶ را ثبت کرده یا ۲۰۱۶ ؟ امکان دارد گاهی اطلاعات دوبار ثبت شده باشند . در این صورت پروفایل کردن داده ها به نوعی نقطه شروع است برای اطمینان از اینکه اطلاعاتی که استفاده می کنیم دارای بهترین کیفیت است.

 

تعیین کیفیت داده ها

حال که از نقطه ای شروع کرده ایم تا صحت و تکمیل بودن داده ها را مشخص کنیم سوال بعدی این است : پس از شناسایی اشتباهات چه باید کرد؟ به طور معمول شما یکی از چهار راه زیر را دارید:

قبول اشتباهات : اگر در چهارچوبی استاندارد باشد (برای مثال Main street به جای Main st) این شما هستید که تصمیم می گیرید کدام را قبول کنید و به مرحله بعد بروید.

عدم قبول اشتباهات : برخی مواقع بیش تر در هنگام وارد کردن داده ها ممکن است داده ها آنقدر نادرست یا ناقص باشند که بهتر است کل آن به جای تصحیح کردن کاملا پاک شود.

تصحیح اشتباهات : اشتباه در ثبت نام افراد یکی از اشتباهات رایجی است که به راحتی قابل اصلاح است. اگر نوشتن یک اسم به چند صورت رایج باشد بهتر است یک مدل را به عنوان مرجع استفاده کنید.

ایجاد ارزش پیش فرض : اگر ارزش را در اینجا نمی دانید بهتر است از چیزی در جای خالی استفاده کنید مثلا unknown یا n/a

 

ادغام داده ها

وقتی از پایگاه داده های متفاوت داده های یکسانی دارید به معنی اشتباه یا دوبار نویسی داده ها نیز هست. برای ادغام موفق داده ها باید ببینید داده ها کجا هستند و آنها را بصورت منسجم درآورید. بسیار به نفع تان است اگر از ابزارهای تشخیص و اثبات صحت داده ها استفاده کنید. چون کمک می کند اطلاعات پایگاه های داده را یکسان سازی کنید.

 

لیست کیفیت داده ها

در نهایت چون با حجم زیادی از داده ها از حوزه های مختلف سروکار دارید بهتر است از یک چک لیست استفاده کنید که مشخص می کند داده های شما بالاترین کیفیت ممکن را دارند. DAMA UK بهترین راهنما را در مورد ابعاد داده ها ساخته است که تصویر بهتری از چگونگی تصمیم گیری کیفیت داده ها به ما می دهد.

ابعاد کیفیت داده های آنها بصورت زیر است:

 

تمامیت

درصدی از داده ها که شامل ارزش یک یا بیش تر است. بسیار مهم است که داده های مهم (مانند نام افراد ، شماره تماس ، آدرس ایمیل و …) از ابتدا کامل باشد. هر چند تمامیت تاثیر زیادی بر داده های مهم ندارد.

منحصر به فرد

در سنجش مقابل مجموعه های دیگر داده ها فقط یک مدخل از این نوع وجود دارد.

زمان بندی

چگونه تاریخ و زمان بر روی داده ها تاثیر می گذارد؟ همانند فروش های قبلی ورود محصول و یا صحت اطلاعاتی که در یک دوره زمانی بر آن تاکید می شود.

اعتبار

آیا دادها بر استانداردهایی که برای آن ایجاد شده اند منطبق هستند؟

دقت

داده ها تا چه اندازه فرد یا چیزی که توسط آن مشخص شده را منعکس می کند؟

سازگاری

داده ها چگونه با داده های از پیش تعیین شده تراز می شوند؟ تاریخ تولد، بصورت نوعی سازگاری به اشتراک گذاشته می شود. از آنجا که استاندارد امریکا بصورت ماه / روز/ سال است و در اروپا و دیگر نواحی بصورت روز/ ماه / سال استاندارد است.

 

تصویر بزرگتر کیفیت داده ها ( دورنما)

همانطور که متوجه شده اید یک رویکرد یکسان برای همه در حفظ، دقت و تمامیت داده ها در هر کسب وکار وجود ندارد. و با این میزان داده های در حال رشد اهمیت کیفیت داده ها بیش تر مشخص می شود. اگرچه به نظر عجیب است اما استفاده از ابزارهای بهینه سازی داده ها ارزش زیادی دارد. چون به کامپیوترها امکان می دهد تا بهترین کارایی را داشته باشند.

مهم ترین گام به سادگی شروع می شود. داده ها همواره با توجه به رشد بازار و روند کسب وکار در حال افزایش هستند. بنابراین نباید منتظر زمان مناسب برای بالا بردن کیفیت داده ها بود. پس همین حالا زمان مناسب برای طرح ریزی است به این معنی که سازمان یا شرکت شما چطور می تواند در بهبود خدمات بهتر به مشتریان ، تجربه بهتر مشتریان از شرکت  ، نرخ تبدیل بالاتر و دیگر موارد به یک نمودار بهتر برسد. بازگشت سرمایه همان چیزی است که هرکسب وکاری آن را با آغوش باز پذیراست.

 

[تعداد: ۷    میانگین: ۵/۵]

درباره نویسنده

مطالب مرتبط

نظر بدهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *