سرفصل های مقاله
آپاچی هایو یک پروژۀ نرم افزاری انبار داده است که بر روی ساختار آپاچی هدوپ ایجاد شده و برای خلاصه سازی داده ها، پرس و جو و تجزیه و تحلیل آنها بکار می رود. هایو یک رابط کاربری شبه SQL دارد که برای کوئری داده های ذخیره شده در پایگاه داده ها وفایل سیستم های مختلف بکار می رود. روش کار این پایگاه داده بدین صورت است که کوئری SQL سنتی باید در رابط جاوای MapReduce بکار برده شوند تا بتوانند برنامه های SQL و کوئری ها روی داده های توزیع شده را اجرا کنند.
از آنجاییکه اکثر برنامه های انباره داده با زبان کوئری مبتنی بر SQL کار می کنند، بدین صورت هایو قابلیت انتقال و تبدیل برنامه های مبتنی بر SQL به هدوپ را میسر می کند. در حالی که هایو در ابتدا توسط فیس بوک توسعه یافته است،اما بعدها توسط شرکت های دیگری مانند Netflix نیز مورد استفاده قرار گرفته است. آمازون نیز یک رابط نرم افزاری از آپاچی هایو را در خدمات داده ای خود ارائه می دهد.
ویژگی های هایو:
آپاچی هایو تجزیه و تحلیل داده های عظیم ذخیره شده در فایل سیستم توزیع شده هدوپ (HDFS) وفایل سیستمهای سازگار مانند Amazon S3 را پشتیبانی می کند. این پایگاه داده یک زبان پرس و جو مشابه SQL به نام HiveQL ارائه کرده و پرس و جوها را به صورت واضح به برنامه های MapReduce, Apache Tez و اسپارک تبدیل می کند.
سایر ویژگیهای هایو شامل:
- امکان ساخت ایندکس برای افزایش سرعت و بازدهی پرس و جوها.
- انواع مختلف فرمتهای ذخیره سازی مانند متن ساده، RCFile، HBase، ORC و غیره.
- ذخیره سازی متاداده ها در سیستم مدیریت پایگاه داده رابطه ای که به طور قابل توجهی زمان انجام کنترل های معنایی در هنگام اجرای پرس و جو را کاهش می دهد.
- امکان کار بر روی داده های فشرده شده و ذخیره شده در اکوسیستم هدوپ با استفاده از الگوریتمهایی از قبیل DEFLATE, BWT, snappy و غیره.
- امکان ساخت توابع تعریف شده توسط کاربر (UDFs) برای تغییر و اصلاح تاریخ، رشته ها، و دیگر ابزارهای داده کاوی.
امیدوارم این مقاله برای شما مفید بوده باشد.
ما را در شتابان هاست دنبال کنید.