Apache Superset: Многофункциональная платформа визуализации и исследования данных

Введение

Apache Superset: изучение холста больших данных с помощью готового к будущему пользовательского инструмента визуализации данных

Визуализация данных может стать новой раскадровкой для вашей бизнес-стратегии и планирования. Извлечение релевантной для бизнеса и контекстуальной информации из необработанных бизнес-данных и размещение их в визуально привлекательных информационных панелях и интуитивно понятных визуальных отчетах — это то, что обещают ведущие инструменты бизнес-аналитики (BI) и визуализации данных. Есть довольно много инструментов, которые делают это хорошо, верно? Что ж, многие из этих инструментов имеют определенные недостатки, препятствующие их более широкому распространению. Некоторые из недостатков, которые легко заметить, — это крутые кривые обучения, проблемы, связанные с масштабируемостью, проблемы с совместимостью системы и отсутствие настройки для конкретного бизнеса. Во всех этих областях Apache Superset является победителем.

Широко распространено мнение, что визуализация данных является неотъемлемой частью бизнес-отчетности и процессов принятия решений. Но с точки зрения масштабируемости, большинство инструментов визуализации данных часто перестают работать, когда объем данных достигает петабайт. Это одна из областей, где Apache Superset обещает непревзойденную масштабируемость независимо от объема данных. Superset готов справиться с постоянно растущими объемами и сложностью по мере развития вашего бизнеса. Вдобавок ко всему, он чрезвычайно легкий и совместим с различными конфигурациями систем.

Он работает с различными веб-серверами, механизмами обмена сообщениями, базами данных и службами обработки данных. Это инструмент с открытым исходным кодом, который освобождает вас от обязательств, связанных с платформой, которых уже придерживаются несколько других инструментов. Неудивительно, что многие ведущие компании по всему миру, а также стартапы уже начали включать Superset в свои рабочие процессы. И последнее, но не менее важное: Apache Superset теперь получает поддержку постоянно растущего сообщества.

В этом сообщении блога мы собираемся объяснить архитектуру Apache Superset , ее основные ценностные предложения, сравнить с аналогами и предоставить пошаговое руководство по использованию инструмента для создания информационных панелей и визуализации данных.

3 основных уровня Apache Superset

Apache Superset может работать на трех основных уровнях. Давайте объясним их один за другим. 

Построение визуальной панели инструментов

Основная и наиболее востребованная возможность Superset — создание интуитивно понятных визуальных информационных панелей. Для визуальной панели мониторинга он предлагает следующие функции.

  • Создание интерактивной информационной панели за счет беспрепятственного взаимодействия с различными готовыми к использованию инструментами.
  • Простая разработка с простыми действиями перетаскивания.
  • Широкий спектр поддерживаемых форматов и каналов, таких как URL, электронная почта, JSON и некоторые другие, для совместного использования информационных панелей.

Исследование данных

Еще одним ключевым аспектом возможностей Apache Superset является изучение данных для получения соответствующих бизнес-идей и представление их в виде интуитивно понятных визуальных отчетов. Для исследования данных Apache Superset предлагает следующие функции и возможности.

  • Позволяет создавать визуализацию данных без кодирования.
  • Надежная способность извлекать глубоко лежащие в основе данные и представлять их в визуально привлекательной форме.
  • Интуитивно понятный и привлекательный интерфейс данных.
  • Наличие большого количества готовых к использованию, предварительно настроенных и настраиваемых плагинов для уникального вывода визуализации данных.
  • Разрешение использовать релевантные для бизнеса метрики, определенные пользователями, наряду с семантическими слоями.
  • Возможность осуществлять полный контроль над визуализацией данных с помощью отдельных операторов SQL.

Мощь SQL

Последним, но не менее важным аспектом Apache Superset является возможность использовать и приспосабливать SQL-запросы для обработки базы данных и исследования данных. Для обработки запросов SQL Superset предлагает следующие функции и возможности.

  • Apache Superset использует многофункциональную интегрированную среду разработки SQL на основе React.
  • Он может обрабатывать несколько разных запросов с помощью нескольких вкладок.
  • Это облегчает запрос метаданных по разным разделам, таблицам индексов и столбцам.
  • Он поддерживает постоянные результаты для длительных запросов.
  • Он позволяет выполнять запросы на основе пользовательских и предпочитаемых пользователем показателей.
  • Он поддерживает запросы на основе взаимодействия, доступ к истории запросов, планирование запросов и автозаполнение запросов.

Apache Superset и его аналоги: сравнение ключевых ценностных предложений

Apache Superset несколькими способами позволяет вам многое делать с вашими данными, используя только простые SQL-запросы. Когда у вас есть Apache Superset, просто используя наиболее распространенные запросы к базе данных SQL, вы можете создавать визуализацию с богатым пониманием из больших наборов данных. Вы можете предоставить пользователям больше настраиваемых элементов управления и настраиваемых представлений данных. Когда дело доходит до кривых обучения, масштабируемости, гибкости и параметров настройки, Superset во многих отношениях значительно опережает своих аналогов.

Но не все так радужно и радужно для Apache Superset и как бы мало их ни было, но есть и у него свои недостатки. Например, существуют инструменты бизнес-аналитики и визуализации данных со сравнительно лучшими возможностями очистки и очистки данных. Более быстрое время загрузки панелей мониторинга — еще одна область, в которой некоторые аналоги дают лучший результат. Некоторые инструменты, принадлежащие к ведущим облачным экосистемам, предпочтительны из-за их операционных возможностей на основе облака. Некоторые аналогичные инструменты больше подходят для работы с большими группами, в то время как Superset в основном предназначен для индивидуальных случаев использования.

Теперь попробуем разобраться в ключевых сравнительных отличиях Apache Superset от конкурентов по разным параметрам.

Apache Superset против Tableau

Если сравнивать с Superset, первое, что привлекает ваше внимание, — это Tableau. Прежде всего, Tableau не является бесплатным и предлагается в разных ценовых категориях, в то время как Apache Superset имеет открытый исходный код и полностью бесплатен для пользователей. Tableau — это многофункциональное и высокопроизводительное программное обеспечение, но оно требует большей сложности и более высокой кривой обучения по сравнению с Apache Superset. В некоторых областях, таких как очистка и очистка данных, Tableau с Tableau Prep обеспечивает широкие возможности очистки. Когда HyperDB интегрируется в Tableau, это значительно повышает скорость загрузки информационных панелей.

Apache Superset против Pentaho

Pentaho с точки зрения возможностей анализа данных по-прежнему остается одним из самых популярных инструментов. В отличие от полностью бесплатного Apache Superset с открытым исходным кодом, Pentaho поставляется с бесплатной версией для сообщества с довольно надежными функциями бизнес-аналитики и визуализации данных, а также корпоративной версией с некоторыми дополнительными функциями. Поддержка нескольких платформ и более быстрое время загрузки благодаря кэшированию в памяти — вот две вещи, в которых он близок к Apache Superset. Но Pentaho поставляется с отдельными выпусками и, в отличие от Apache Superset, предлагает большинство расширенных функций и поддержку корпоративной версии.

Apache Superset против Google Data Studio (GDS)

Когда дело доходит до инструментов визуализации данных для Интернета, Google Data Studio (GDS) чрезвычайно популярен. Но, несмотря на то, что они происходят из одной из самых доминирующих технологических экосистем в мире, организации все чаще переходят на Apache Superset ради предельной простоты использования, простых возможностей управления ролями, более детальных фильтров уровней и экспоненциально растущей поддержки сообщества. Также было замечено, что Superset предлагает лучшие возможности извлечения и исследования данных, чем GDS. Хотя тесная интеграция с Google Cloud всегда считалась ключевым положительным свойством GDS, теперь Apache Superset также обеспечивает такой же уровень подключения.

Суперсет против Power BI

Microsoft Power BI — еще один популярный и широко используемый инструмент визуализации данных, который начал свой путь как расширение Microsoft Excel. Несмотря на то, что он предлагает легко управляемую кривую обучения, простой в использовании интерфейс и возможности бесшовной интеграции, он отстает от большинства продвинутых инструментов, которые мы здесь обсуждаем. Многие разработчики жалуются на проблемы с масштабируемостью при обработке больших наборов данных с помощью Power BI, по крайней мере, если вы не подписаны на версию Premium.

Apache Superset против Looker

Looker — новый многообещающий ребенок в бурно развивающемся блоке инструментов для работы с данными. Looker добился своей известности благодаря обширному набору функций и расширенным возможностям. Он поставляется со своим инструментом машинного обучения под названием LookML и предлагает обширную поддержку SQL и Cloud. Некоторые расширенные функции, такие как семантические уровни, протокол разрешений панели мониторинга, управление доступом на основе ролей и поддержка облака SaaS, также являются общими для Apache Superset. Для сравнения, Superset имеет более низкую кривую обучения и низкий уровень сложности по сравнению с Looker. С точки зрения поддержки языков программирования Superset также стоит впереди, поддерживая передовые языки, такие как Python, ReactJS и TypeScript. Наконец, Apache Superset обеспечивает больше вариантов настройки в зависимости от контекста и остается более масштабируемым для обработки крупномасштабных данных, простирающихся до петабайтов.

Apache Суперсет против Metabase

Metabase, вероятно, является наиболее полным инструментом для борьбы с Superset. Что касается источников данных, Superset имеет доступ к большему количеству баз данных SQL и механизмов SQL по сравнению с метабазой. В то время как оба предлагают конструкторы запросов без кода для извлечения информации на основе данных, Superset предлагает больше функций визуализации данных между ними. По продвинутым возможностям редактора SQL оба стоят плечом к плечу. Что касается корпоративных функций, Superset по-прежнему не обеспечивает гибридную разработку, в отличие от Metabase. Таким образом, в целом оба инструмента очень близки по возможностям с несколькими очками, полученными Apache Superset.

Пошаговый способ создания информационной панели с помощью Apache Superset

Теперь вы уже дали некоторое представление о том, на что способен Apache Superset. Теперь вам должно быть интересно узнать, как работает инструмент для создания информационных панелей и визуализации данных. Давайте объясним, как Apache Superset можно использовать для разработки интуитивно понятных информационных панелей и рабочих процессов исследования данных.

Сопряжение новой базы данных​

О, хорошо, давайте вспомним, что Apache Superset не предлагает нам никакого хранилища. Из-за этого вам необходимо связать его с базой данных или хранилищем данных. Вы можете выбрать существующую базу данных SQL в качестве простого варианта. Давайте объясним, как вы соединяете эти два.

Для начала вам необходимо оборудовать базу данных соответствующими учетными данными для подключения. Учетные данные для подключения в базе данных позволят Superset выполнять запросы и создавать визуализации с помощью базы данных. Другой способ сделать это — использовать Superset через локальную композицию Docker, чтобы встроенная и предварительно настроенная база данных Postgres в примерах Superset помогла вам сделать то же самое.

Просто перейдите в меню «Данные» и выберите пункт «База данных». Теперь вам нужно нажать на кнопку базы данных в правом верхнем углу экрана.

todo

Повышение ценности данных через семантический слой​

Superset поставляется с семантическим слоем, чтобы повысить ценность данных для аналитиков. Семантический уровень Apache Superset имеет две различные вычислительные возможности. Давайте кратко объясним их здесь ниже.

  • Виртуальные метрики: эта семантическая возможность предназначена для написания SQL-запросов для получения совокупного значения из нескольких разных столбцов и подготовки их к визуализации. Вы также можете разрешить команде участвовать, подтвердив эти показатели.
  • Виртуальные вычисляемые столбцы. Это еще одна семантическая возможность, которая позволяет вам писать SQL-запросы для настройки способа представления данных. Для этого семантического уровня агрегирование данных по столбцам не разрешено.

Построение диаграмм в Исследовании

Хотя сейчас мы сосредоточимся только на построении диаграмм в Explore, Apache Superset также имеет интерфейс SQL Lab. Это два основных интерфейса, предлагаемых Apache Superset. В то время как Explore — это простой в использовании конструктор визуализаций, не требующий написания кода, SQL Lab требует создания запросов на языке SQL для подготовки, очистки и подключения данных для рабочего процесса Explore. 

На вкладке «Наборы данных» просто выберите набор данных, который будет использоваться на диаграмме. Теперь хорошо оборудованный рабочий процесс готов, и вы можете начать итерацию по улучшению диаграмм. 

Просто перейдите в окно просмотра набора данных, и с левой стороны вы увидите несколько столбцов и показателей, связанных с выбранным набором данных. Вы также можете перейти к предварительному просмотру данных, чтобы получить более полезные контексты данных. Теперь для изменения типа визуализации вы можете просто нажать на вкладку «Настроить». После завершения настройки всегда запускайте ее, чтобы получить исчерпывающую визуальную обратную связь.

Давайте создадим срез и панель управления​

Когда вы закончите создание диаграммы, вы можете сохранить ее с уже существующей информационной панелью или просто с новой. Когда диаграмма будет готова к публикации, просто сохраните ее и откройте панель мониторинга, находящуюся в стадии разработки.

Это когда Superset автоматически создаст срез и в своем слое данных сохранит всю информацию, такую ​​​​как имя, тип диаграммы, параметры и запросы. Если вы хотите изменить его размер, нажмите на кнопку карандаша в правом верхнем углу, и, перетащив границу, вы можете изменить ее размер в соответствии с вашими потребностями. Не забудьте в конце нажать на кнопку Сохранить. 

Таким образом, вы связали базу данных, создали таблицы набора данных, запустили анализ и сделали визуализацию в Apache Superset. Конечно, приведенное выше описание охватывает только самый прямой и простой вариант настройки для создания вашей первой панели мониторинга. Есть множество других вариантов конфигурации. 

Теперь давайте скажем несколько слов об управлении доступом к информационным панелям и их настройке с помощью простых элементов управления. 

Управление доступом к информационным панелям​

Обработка разрешений на доступ к информационным панелям осуществляется владельцами. Владелец контролирует и управляет доступом к информационным панелям для лиц, не являющихся пользователями, двумя различными способами, как указано ниже.

  • Доступ через разрешения набора данных: пользователи, не являющиеся владельцами, уже имеющие разрешения на доступ к наборам данных, могут автоматически получать доступ к информационным панелям, использующим тот же набор данных.
  • Определенные роли панели мониторинга. Владелец также может использовать флаг DASHBOARD_RBAC, чтобы разрешить предпочтительным ролям доступ к панели мониторинга.

Настройка приборной панели

В конце концов, Superset широко известен настройкой визуальных данных. Для настройки отображения панели мониторинга можно использовать несколько различных параметров URL.

Для автономной панели инструментов

  • Первый вариант или вариант по умолчанию — это когда панель инструментов отображается нормально.
  • Вы можете настроить обычный вид, скрыв верхнюю навигацию.
  • Вы можете дополнительно настроить, скрыв верхнюю навигацию вместе с заголовком.
  • Для дальнейшей настройки вы можете скрыть верхнюю навигацию и заголовок вместе с вкладками верхнего слоя.

Настройка фильтров

  • Вы можете визуализировать панель инструментов без панели фильтров.
  • Вы можете визуализировать Dashboard только с панелью фильтров с собственными фильтрами.
  • Вы можете развернуть панель фильтров и отобразить панель мониторинга с развернутой или свернутой панелью фильтров.

Заключение

Apache Superset — это ответ на все трудности, возникающие при создании и отображении интеллектуальных информационных панелей и визуализаций. С небольшой кривой обучения он позволяет людям, не имеющим опыта программирования, использовать возможности визуализации данных для бизнес-аналитики.

Ivan Shamaev (Admin)
Работаю с Apache Superset с 2021 года. Веду этот блог, чтобы систематизировать свои знания и поделиться ими с другими специалистами. Подписывайтесь на мой телеграм канал @apache_superset_bi
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x