Как установить zeppelin на windows

Обновлено: 05.07.2024

Кластеры HDInsight Spark включают в себя записные книжки Apache Zeppelin. Используйте записные книжки для запуска заданий Apache Spark. Из этой статьи вы узнаете, как использовать записную книжку Zeppelin в кластере HDInsight.

Предварительные требования

Кластер Apache Spark в HDInsight. Инструкции см. в статье Начало работы. Создание кластера Apache Spark в HDInsight на платформе Linux и выполнение интерактивных запросов с помощью SQL Spark.
Схема универсального кода ресурса (URI) для основного хранилища кластеров. Для службы хранилища BLOB-объектов этой схемой будет wasb:// , для Azure Data Lake Storage 2-го поколения — abfs:// или adl:// для Azure Data Lake Storage 1-го поколения. Если для службы хранилища Azure включено безопасное перемещение, URI будет таким: wasbs:// . Дополнительные сведения см. в статье Обязательное безопасное перемещение в службе хранилища Azure.

Запуск записной книжки Apache Zeppelin

В разделе Обзор кластера Spark выберите Записная книжка Zeppelin в разделе Панели мониторинга кластера. Введите учетные данные администратора для кластера.

Также можно открыть Zeppelin Notebook для своего кластера, открыв следующий URL-адрес в браузере. Замените CLUSTERNAME именем кластера:

Создайте новую записную книжку. На панели заголовка перейдите в раздел Записная книжка > Создать новую заметку.

Введите имя для записной книжки и щелкните Создать заметку.

Убедитесь, что в заголовке записной книжки отображается состояние "Подключено". Оно обозначается зеленой точкой в правом верхнем углу.

Загрузите демонстрационные данные во временную таблицу. При создании кластера Spark в HDInsight файл с демонстрационными данными hvac.csv копируется в связанную учетную запись хранения по следующему пути: \HdiSamples\SensorSampleData\hvac .

В пустой абзац, созданный по умолчанию в новой записной книжке, вставьте следующий фрагмент кода.

Нажмите клавиши SHIFT + ВВОД или кнопку Воспроизведение для абзаца, чтобы выполнить фрагмент кода. Состояние, которое отображается в правом верхнем углу абзаца, должно изменяться в следующей последовательности: READY (ГОТОВО), PENDING (ОЖИДАЕТ), RUNNING (ВЫПОЛНЯЕТСЯ) и FINISHED (ЗАВЕРШЕНО). Выходные данные отображаются в нижней части того же абзаца. Снимок экрана выглядит следующим образом.

Можно указать заголовок для каждого абзаца. В правом углу абзаца нажмите на значок параметров (звездочка), а затем щелкните Показать заголовок.

Интерпретатор %spark2 не поддерживается в блокнотах Zeppelin во всех версиях HDInsight, а интерпретатор %sh не поддерживается в HDInsight версии 4.0 и выше.

Теперь вы можете выполнить инструкции Spark SQL для таблицы hvac . Вставьте следующий запрос в новый абзац. Запрос извлекает идентификатор здания, а также разницу между целевой и фактической температурами для каждого здания в указанный день. Нажмите SHIFT + ВВОД.

Инструкция %sql в начале сообщает записной книжке, что необходимо использовать интерпретатор Livy Scala.

Щелкните значок линейчатой диаграммы, чтобы изменить режим отображения. Параметры, отображаемые после выбора линейчатой диаграммы, позволяют выбрать ключи и значения. Выходные данные показаны на снимке экрана ниже.

Можно также запустить инструкции Spark SQL с помощью переменных в запросе. В следующем фрагменте кода показано, как определить переменную Temp в запросе с возможными значениями, с которыми необходимо выполнить запрос. При первом выполнении запроса раскрывающийся список автоматически заполняется значениями, указанными для переменной.

Вставьте этот фрагмент кода в новый абзац и нажмите клавиши SHIFT + ВВОД. Затем выберите 65 в раскрывающемся списке Темп. .

Щелкните значок линейчатой диаграммы, чтобы изменить режим отображения. Затем выберите Параметры и внесите следующие изменения.

Группы: Добавьте targettemp.

Значения: 1. Удалите date. 2. Добавьте temp_diff. 3. Измените агрегатор с SUM на AVG.

Выходные данные показаны на снимке экрана ниже.

Использование внешних пакетов с записной книжкой

Записная книжка Zeppelin в кластере Apache Spark в HDInsight может использовать внешние, предоставленные сообществом пакеты, которые не включены в кластер. Полный список доступных пакетов можно найти в репозитории Maven. Его также можно получить из других источников. Например, полный список предоставленных сообществом пакетов можно найти в разделе Пакеты Spark.

В этой статье показано, как использовать пакет spark-csv с Jupyter Notebook.

Откройте параметры интерпретатора. В правом верхнем углу щелкните имя вошедшего в систему пользователя и выберите Интерпретатор.

Прокрутите до livy2, а затем выберите Изменить.

Перейдите к ключу livy.spark.jars.packages и задайте его значение в формате group:id:version . Если вы хотите использовать пакет spark-csv, для ключа необходимо задать значение com.databricks:spark-csv_2.10:1.4.0 .

Вот как можно получить значение указанного выше ключа.

а. Найдите пакет в репозитории Maven. В этой статье мы использовали spark-csv.

b. В репозитории найдите значения для параметров GroupId, ArtifactId и Version.

c. Объедините три значения, разделив их двоеточием (:).

Место сохранения записных книжек Zeppelin

Записные книжки Zeppelin сохраняются на головных узлах кластера. Поэтому при удалении кластера записные книжки также будут удалены. Если вы хотите сохранить записные книжки для последующего использования в других кластерах, необходимо экспортировать их после выполнения заданий. Чтобы экспортировать записную книжку, щелкните значок Экспорт, как показано на рисунке ниже.

Это действие сохраняет записную книжку в формате JSON в расположение для скачивания.

Использование Shiro для настройки доступа к интерпретаторам Zeppelin в кластерах с Корпоративным пакетом безопасности (ESP)

Как отмечалось выше, интерпретатор %sh не поддерживается в версии HDInsight 4.0 и выше. Более того, поскольку интерпретатор %sh создает потенциальные проблемы безопасности, такие как файлы доступа keytab с помощью команд оболочки, он также был удален из кластеров ESP HDInsight 3.6. Это означает, что интерпретатор %sh недоступен при нажатии кнопки Создать новую заметку или в пользовательском интерфейсе интерпретатора по умолчанию.

Пользователи привилегированного домена могут использовать файл Shiro.ini для управления доступом к пользовательскому интерфейсу интерпретатора. Только эти пользователи могут создавать новые интерпретаторы %sh и устанавливать разрешения для каждого нового интерпретатора %sh . Чтобы управлять доступом с помощью файла shiro.ini , выполните следующие действия.

Определите новую роль, используя существующее имя группы домена. В следующем примере adminGroupName — это группа привилегированных пользователей в AAD. Не используйте в имени группы специальные символы и пробелы. Символы после = предоставляют разрешения для этой роли. * означает, что группа имеет все разрешения.

Добавьте новую роль для доступа к интерпретаторам Zeppelin. В следующем примере всем пользователям в adminGroupName предоставляется доступ к интерпретаторам Zeppelin, и они могут создавать новые интерпретаторы. Можно разместить несколько ролей в скобках в roles[] , разделяя их запятыми. Затем пользователи, имеющие необходимые разрешения, могут получить доступ к интерпретаторам Zeppelin.

Управление сеансом Livy

При выполнении первого абзаца кода в записной книжке Zeppelin в кластере HDInsight Spark создается новый сеанс Livy. Этот сеанс будет общим в записных книжках Zeppelin, которые вы создадите позже. Если по какой-либо причине сеанс Livy будет прерван, задания не будут выполняться из записной книжки Zeppelin.

В этом случае перед началом выполнения заданий из записной книжки Zeppelin необходимо сделать следующее.

Перезапустите интерпретатор Livy из записной книжки Zeppelin. Для этого откройте параметры интерпретатора: щелкните имя вошедшего в систему пользователя в правом верхнем углу и нажмите кнопку Интерпретатор.

Прокрутите до livy2, а затем выберите перезапустить.

Запустите ячейку кода из имеющейся записной книжки Zeppelin. Этот код создает сеанс Livy в кластере HDInsight.

Общие сведения

Проверка службы

Чтобы проверить службу из командной строки, подключитесь к головному узлу по протоколу SSH. Переключитесь на пользователя Zeppelin с помощью команды sudo su zeppelin . Команды состояния:

Get-Help	Описание
/usr/hdp/current/zeppelin-server/bin/zeppelin-daemon.sh status	Состояние службы.
/usr/hdp/current/zeppelin-server/bin/zeppelin-daemon.sh --version	Версия службы.
ps -aux \| grep zeppelin	Определите PID.

Журнал местоположений

Служба	Путь
zeppelin-server	/usr/hdp/current/zeppelin-server/
Журналы сервера	/var/log/zeppelin
Интерпретатор конфигурации, Shiro , site.xml, log4j	/usr/hdp/current/zeppelin-server/conf или /etc/zeppelin/conf
Каталог PID	/var/run/zeppelin

Включение ведения журнала отладки

Перейдите в раздел CONFIGS > Advanced zeppelin-log4j-properties > log4j_properties_content.

Open with Desktop
View raw
Copy raw contents Copy raw contents Loading

Copy raw contents

Установка и работа с Apache Zeppelin

Данный инструмент пришел к нам из мира Data Science и представляет собой интерактивную среду разработки со свтелым приятным фоном, являсь по сути веб-приложением с набором интерпритаторов, подключаемых к различным средам, таким как Spark, Cassandra, MongoDB, Ignite и т.д.

Зачастую это намного удобнее развертывания отдельного проекта в IDEA, а возможности визуализации и подавно превосходят то, что входит в состав стандартных сред разработки.

Установка Apache Zeppelin (Ubuntu)

Его можно ставить как на свою локальную машину, имея Spark далеко в кластере, так и на машину со Spark, много ресурсов он не сожрет.

Затянули, распаковали, перевезли в приятное место. Теперь самое время проверить работоспособность.

Запускаем либо сам серверок с приложением, либо демона - для проверки сгодится.

Можно сходить на localhost:8080 или по тому адресу, где вы его развернули и убедиться, что все работает, а Spark подключается, путем создания простейшего Note в вашем Notebook (выбрав в качестве интерпретатора spark, разумеется).

В этой "заметке" достаточно набрать spark и нажать кнопку справа, чтобы убедиться, что подключение к Spark произошло без проблем.

Если проблемы возникли, то скорее всего дело в том, что у вас что-то не то с переменными окружения и Zeppelin не может найти Spark, для этого ему надо помочь, сходив в конфиги самого Zeppelin, подробности по ссылке

Чтобы жизнь казалась приятнее, пропишем Zeppelin в переменные окружения.

Там добавляем переменную окружения и патчим PATH

*В 0.7.3 она есть, но в интерпретаторе по умолчанию все равно стоит Spark 2.1.

Установка под Windows (например, 10)

Если вам, как и мне в моих демо нужно что-то красиво продемонстрировать под Windows, то важными будут следующие уточнения.

Само собой, у вас должна быть Java и на нее должна указывать системная переменная JAVA_HOME.

Кроме того, Spark под Windows нужна некоторая зависимость на Hadoop (О, наследие былых веков). И хоть никакого Hadoop ставить не надо, но положить в папку (C:\hadoop, например) кое-что придется. Кое-что - это файлик winutlis.ext на который должна будет указывать переменная HADOOP_HOME - тогда Zeppelin сможет стартовать нормально.

В папке hadoop создайте каталог bin и в него положите winutils.exe. Достать подобный файлик (обязательно совместимый с желаемой версией Spark - в моем случае это Hadoop 2.7.1) можно тут.

Запустить Zeppelin просто - в директории zeppelin\bin есть скрипты под Windows.

Добрый день! Сегодня мы рассмотрим установку Apache Zeppelin на ОС семейства Linux, CentOS8.

Apache Zeppelin — проект Apache Software Foundation, направленный на разработку программного обеспечения для анализа и визуализации данных и совместной работы над данными (посредством интеграции с Apache Spark.

В качестве сервера мы будем использовать виртуальную машину со следующей конфигурацией:

Подготовка к установке

Перед началом установки, установим пакет JAVA, Oracle JDK 8. Для этого подключимся к нашей виртуальной машине посредством утилиты WinSCP. Скопируем RPM пакет для установки JDK в домашнюю папку пользователя.

Подключимся по SSH к нашей виртуальной машине и выполним команду:

По окончании установки проверим версию JAVA, командой:

Установка Apache Zeppelin

Создадим в корневой директории новый каталог, который назовем app, для этого выполним команду:

Далее создадим отдельного пользователя, которого назовем zeppelin, пользователя можно создать используя команду:

Далее зададим пользователю zeppelin пароль, чтобы задать пароль воспользуемся утилитой passwd:

Изменим владельца каталога на пользователя zeppelin:

Для проверки владельца каталога и группы выполним: ll

Сменим пользователя на zeppelin:

Перейдем в каталог /app:

Далее загрузим архив с бинарным пакетом при помощи утилиты wget:

После чего распакуем архив при помощи утилиты tar и ключей -xvf:

Далее изменим имя каталога с zeppelin-0.8.2-bin-all на zeppelin

В качестве порта для подключения, по умолчанию Zeppelin использует порт 8080, поэтому откроем порт 8080 в firewall, после чего перезапустим firewall. Чтобы иметь возможность изменять правила firewall выйдем из пользователя zeppelin, обратно к пользователю root.

Чтобы проверить, что порт открыт выполним следующую команду:

Теперь снова перейдем на пользователя zeppelin, и запустим apache zeppelin, для этого перейдем в каталог:

Запустим скрип запуска демона и передадим параметр start, проверим что служба стала прослушивать локальный порт 8080:

Далее проверим, что нам доступна страница внутри нашей виртуальной машины для этого выполним:

Если страница доступна то к нам вернется текстовое содержимое страницы.

К сожалению после установки Apache Zeppelin, будет доступен только из машины на которую он был установлен. При попытки подключиться из локальной сети к нашему Apache Zeppelin, мы увидим, что страница не доступна.

Решить данную проблему можно разными способами, мы же рассмотрим как настроить proxy сервер Nginx, чтобы нам стал доступен Apache Zeppelin из локальной сети, а не только внутри виртуальной машины.

Так как не особо удобно постоянно для перезапуска использовать пользователя и скрипт работы с демоном, то логичнее было бы создать сервис с которым бы мы смогли работать по средством утилиты systemctl. Поэтому далее давайте рассмотрим как создать сервис для работы с Apache Zeppelin.

Не мог бы кто-нибудь помочь мне с этапами установки Zeppelin на Windows10 ?

3 ответа

Я не узнал, как остановить Цеппелин в windows 10 !? все начинается с этого cmd : bin\zeppelin.cmd есть ли cmd, чтобы остановить его в windows ?

Я пытаюсь найти трендовые хэштеги на twitter, используя потоковую передачу Spark. -> операционной системы Мак ОС spark-версия -> 2.2.1 scala-версия -> 2.11.8 Цеппелин-версия -> 0.7.3 Выше инструменты и версии, которые я использую. Я добавил три разных баночки в свой блокнот zeppelin.

Вероятно, это связано с тем, что ваша папка zeppelin находится в корневом каталоге. Вы можете либо:

Запустите окно cmd от имени администратора, чтобы запустить Zeppelin.
Переместите папку Zeppelin в каталог пользователя

Что вернет echo %JAVA_HOME%?

Похоже, у вас есть дополнительные кавычки вокруг пути к каталогу Java.

Здесь два вопроса:

1. Пробелы в вашей переменной ENV : Вы получаете проблему из-за пробела в вашем пути. Чтобы решить эту проблему, добавьте следующие строки в свой zeppelin-env.cmd

Это должно решить вашу ошибку 'not recognized'.

2а. Чтобы устранить неполадки в настройке zeppelin, обратитесь к моему ответу здесь.

2b. Чтобы заставить spark работать как в командной строке, так и в zeppelin, обратитесь к этой сути.

Надеюсь, это поможет!