البيانات السحابية

كيف يبدو مستودع البيانات السحابية ؟

كيف يبدو مستودع البيانات السحابية ؟

تقليديًا يقوم مستودع البيانات السحابية بجمع جميع البيانات المهيكلة من جميع أنحاء عملك حتى تتمكن من دمجها في نموذج بيانات واحد، وإدارة التحليلات واستخراج معلومات الأعمال – سواء كان ذلك لتطوير منتجات جديدة أو تسويق خدمات حالية للعملاء.

كان هذا يُطلق عليه “البيانات الكبيرة”، لكن جميع المؤسسات لديها الآن كميات كبيرة من البيانات تأتي من مصادر مثل مواقع التجارة الإلكترونية وأجهزة إنترنت الأشياء وأجهزة الاستشعار، لذلك يحتاج مستودع البيانات الحديث إلى التعامل مع البيانات المنظمة وغير المهيكلة وتدفقها وتقديم الوقت الفعلي تحليلات وكذلك استقصاء المعلومات والإبلاغ.

الشركات تقوم بذلك بشكل متزايد في السحابة لسرعة أعلى وتكلفة أقل، قد يكون هناك المزيد والمزيد من تلك البيانات في السحابة بالفعل، وكذلك الخدمات التي تريد استخدامها لتلك البيانات، كما تشير جوليا وايت نائب رئيس شركة Azure.

تقول هذه السيدة: “مع تواجد البيانات بشكل متزايد والانتقال إلى السحابة، سواء كان ذلك من تطبيقات SaaS أو التطبيقات التي تتحرك فقط إلى السحابة؛ البيانات التشغيلية موجودة ويتساءل العملاء لماذا يمكنني نقل بياناتي التشغيلية وإلغاء تحميلها من السحابة إلى يحترق فقط للقيام بتحليلاتي؟ هذا فقط لا معنى له”

كل مؤسسة تبحث في الذكاء الاصطناعي “وهم يدركون بسرعة أن التحليلات هي أساس ذلك” يبدؤون في السؤال: ما حالة تحليلاتي ومستودع البيانات الخاص بي؟

يتطلع العملاء الأكثر تطوراً إلى تحليل بيانات Office Graph الخاصة بهم (والتي يمكنك نسخها إلى Azure Data Lake باستخدام Azure Data Factory) أو الاستفادة من Open Data Initiative (ODI) بين مايكروسوفت و أدوب و SAP (والتي تستند إلى Azure Data ستقوم Lake في النهاية بدمج البيانات من العديد من بائعي البرامج).

  • أي خدمة مستودع البيانات السحابية مناسبة لي؟

لدى مايكروسوفت مجموعة من الخدمات السحابية التي تبدو جميعها وكأنها مستودع بيانات، والأكثر وضوحًا هو Azure SQL Data Warehouse أو “DW” كما تطالب مايكروسوفت في كثير من الأحيان)، ولكن هناك أيضًا Azure Data Factory، و Azure Data Lake، و Azure Databricks و Power BI و Azure Machine Learning، بالإضافة إلى المزيد من الخدمات المعبأة مثل أدوات مبيعات AI في Dynamics 365.

الطريقة لفهمها هي أن ننظر ليس فقط إلى الأدوات التي يقدمونها، ولكن أيضًا للمستخدمين الذين يقدمون الخدمة وكيف يعملون معًا.

الخطوة الأولى لإنشاء مستودع البيانات السحابية حديث هي دمج كل هذه الصوامع، كلما زادت مخازن البيانات المختلفة الموجودة على Azure، أصبحت الاتصالات أسهل – وهذا هو أحد الأسباب التي تجعل مايكروسوفت تقدم العديد من خدمات البيانات المختلفة.

العملاء لا يبحثون عن أداة واحدة يمكنها القيام بكل شيء: “هناك مجموعة من الخيارات الدقيقة وأنت في الحقيقة ستختار وتختار، وتحسن ما تستخدمه في السيناريوهات الخاصة بك”.

خدمة Azure DW هي لمهندسي البيانات السحابية الذين يعملون مع البيانات المنسقة، قد تكون هذه بيانات من قاعدة بيانات SQL Server، ولكنها قد تكون أيضًا بيانات مأخوذة من خط أنابيب تم إنشاؤه بواسطة مهندسي البيانات الذين يستخدمون Databricks أو Spark و .NET لإعداد البيانات من مصدر مثل Azure HDInsight.

أما Azure Data Factory هي خدمة أخرى لمهندسي البيانات السحابية الذين يقومون بجمع البيانات وتحويلها وتنسيقها. فكر في الأمر كأداة ETL على مستوى مجموعة النظراء يمكنك استخدامها من خلال واجهة السحب والإفلات أو مع Python أو Java أو .NET SDK إذا كنت تفضل كتابة التعليمات البرمجية للقيام تحويل البيانات وإدارة الخطوات المختلفة لخط أنابيب البيانات من خلال Databricks أو HDInsight إلى Azure Data Lake أو إلى Power BI.

بينما يمكن أن تقوم Power BI أيضًا بتحويل البيانات باستخدام Dataflows (الخالية من الكود أيضًا)، ولكن الغرض منها هو أن تكون ميزة خدمة ذاتية لمحللي الأعمال.

قد يصمم مهندسو البيانات أو محللو BI بدوام كامل النماذج الدلالية التي يعمل معها مستخدمو الأعمال، وتضيف مايكروسوفت المزيد من التكامل مع Azure DW إلى Power BI.

  • مستودع بالقرب من البحيرة

التعقيد في هذه السيناريوهات هو السبب في أن الخط الفاصل بين مستودعات البيانات السحابية وبحيرات البيانات قد بدأ في الظهور قليلاً في السحابة.

يتيح لك مستودع البيانات التقليدي أخذ البيانات من مصادر متعددة واستخدام تحويل ETL لوضع تلك البيانات في مخطط واحد ونموذج بيانات واحد في برنامج مصمم للإجابة على الأسئلة التي تخطط لطرحها مرارًا وتكرارًا.

ليس من الضروري أن تكون هذه المصادر منظمة ، وبيانات علائقية: دعم PolyBase و JSON في SQL Server و Azure DW يعني أنه يمكنك توصيل البيانات من المتاجر غير المرتبطة مثل HDFS و Cosmos DB و MySQL و MongoDB وكذلك Oracle و Teradata، هذا يعني أن مستودع البيانات (أو حتى SQL Server) يمكن أن يبدو أكثر مثل بحيرة بيانات.

تتيح لك بحيرات البيانات أخذ مخازن متعددة للبيانات ، سواء كانت منظمة أو غير منظمة ، واستيعابها وتخزينها إما بتنسيقها الأصلي أو في شيء قريب من هذا التنسيق ، بحيث يكون لديك نماذج بيانات متعددة ومخطط بيانات متعددة ومرونة لطرح أسئلة جديدة من نفس البيانات. (يطلق على متغير SQL المستخدم لاستعلامات Azure Data Lake اسم U-SQL، ليس فقط لأنه الإصدار التالي بعد T-SQL، ولكن لأنه قد تحتاج إلى قارب للذهاب إلى بحيرة البيانات الخاصة بك ومعرفة ما هو مخفي في أعماق غامضة).

مزيج الاثنين هو ما تعنيه مايكروسوفت من خلال البنية التحتية الحديثة لمستودع البيانات، يمكنك أخذ جميع أنواع البيانات من أماكن مختلفة، أو العمل معها في بحيرة البيانات لأشياء مثل التحليلات في الوقت الفعلي، أو استخدام التعلم الآلي لاكتشاف الأنماط التي تخبرك عن الأفكار التي يمكنك الحصول عليها من البيانات ودمجها مع البيانات المألوفة أدوات مستودع البيانات للإجابة على هذه الأسئلة بكفاءة.

ليس لدى مايكروسوفت خدمة واحدة لكل ذلك، يمكنك عمل أجزاء مختلفة منه مع خدمات Azure المختلفة، مما يعني أنه يمكنك اختيار الأجزاء التي تحتاج إليها واختيارها، ولكن هذا يعني أيضًا أنك ستحتاج إلى خبرة البيانات لبناء نظامك الخاص.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني.