Как подключить excel к hadoop

Обновлено: 05.07.2024

Подключение Excel к Apache Hadoop с помощью драйвера Microsoft Hive ODBC в Azure HDInsight

Решение Microsoft для работы с большими данными интегрирует компоненты бизнес-аналитики Майкрософт с Apache Hadoop кластерами, развернутыми в HDInsight. Примером может быть возможность подключения Excel к хранилищу данных Hive кластера Hadoop. Подключитесь с помощью драйвера Microsoft Hive Open Database Connectivity (ODBC).

Вы можете подключить данные, связанные с кластером HDInsight, из Excel с помощью надстройки Microsoft Power Query для Excel. Дополнительные сведения см. в статье Подключение Excel к HDInsight с помощью Power Query.

Перед началом работы с этой статьей необходимо иметь следующее:

  • Кластер HDInsight Hadoop. Дополнительные сведения о создании кластера см. в статье Приступая к работе с Hadoop в HDInsight.
  • Рабочая станция с Office 2010 Professional Plus или более поздней версии или Excel 2010 или более поздней версии.

Установка драйвера Microsoft Hive ODBC

Скачайте и установите Microsoft Hive ODBC Driver. Выберите версию, соответствующую версии приложения, в которой вы будете использовать драйвер ODBC. Для этой статьи используется драйвер для Office Excel.

Создание источника данных Apache Hive ODBC

Ниже показано, как создать источник данных Hive ODBC.

В Windows перейдите в меню пуск > средства администрирования windows > источники данных ODBC (32-разрядная версия)/(64-разрядная версия). Это действие открывает окно Администратор источников данных ODBC .

. image type="content" source="./media/apache-hadoop-connect-excel-hive-odbc-driver/simbahiveodbc-datasourceadmin1.jpg" alt-text="Администратор источника данных ODBC" border="true".

На вкладке DSN пользователя выберите Добавить, чтобы открыть окно Создание нового источника данных.

Выберите Microsoft Hive ODBC Driver, а затем — Готово, чтобы открыть окно Microsoft Hive ODBC Driver DSN Setup (Настройка DSN Microsoft Hive ODBC Driver).

Введите или выберите следующие значения:

Необязательно: выберите Дополнительные параметры.

Параметр Описание
Использовать исходный запрос При выборе этого параметра драйвер ODBC НЕ пытается преобразовать TSQL в HiveQL. Его следует использовать только в том случае, если у вас 100%, что вы отправляете чистые инструкции HiveQL. При подключении к серверу SQL Server или базе данных Azure SQL необходимо снять этот флажок.
Строки, загружаемые для каждого блока При получении большого объема записей включение этого параметра может обеспечить оптимальную производительность.
Длина столбца строки по умолчанию, длина столбца двоичного кода, масштаб столбца десятичных значений Длина и точность типа данных может повлиять на способ выведения данных. Они приводят к возврату неверных данных из-за потери точности и или усечения.

. image type="content" source="./media/apache-hadoop-connect-excel-hive-odbc-driver/hiveodbc-datasource-advancedoptions1.jpg" alt-text="Дополнительные параметры конфигурации DSN" border="true".

Щелкните Тест для проверки источника данных. Если источник данных настроен правильно, результат теста будет отображаться успешно.

Импорт данных в Excel из службы HDInsight

Ниже описан способ импорта данных из таблицы Hive в рабочую книгу Excel с помощью источника данных ODBC, созданного в предыдущем разделе.

Откройте новую или существующую рабочую книгу в Excel.

На вкладке Данные перейдите к разделу Получить данные > Из других источников > Из ODBC, чтобы открыть окно Из ODBC.

. image type="content" source="./media/apache-hadoop-connect-excel-hive-odbc-driver/simbahiveodbc-excel-dataconnection1.jpg" alt-text="Открытие мастера подключения к данным Excel" border="true".

В раскрывающемся списке выберите имя источника данных, созданное в последнем разделе, и нажмите кнопку ОК.

При первом использовании откроется диалоговое окно драйвера ODBC . В меню слева выберите пункт Windows . Затем нажмите кнопку Подключиться , чтобы открыть окно навигатора .

В окне Навигатор перейдите к HIVE > по умолчанию > hivesampletable, а затем нажмите кнопку Загрузить. Для импорта данных в Excel потребуется несколько секунд.

. image type="content" source="./media/apache-hadoop-connect-excel-hive-odbc-driver/hdinsight-hive-odbc-navigator.jpg" alt-text="Навигатор по ODBC для Hive в HDInsight Excel" border="true".

В рамках этой статьи вы узнали, как получить данные из службы HDInsight в Excel с помощью драйвера Microsoft Hive ODBC. Аналогичным образом можно получать данные из службы HDInsight в базу данных SQL. Также можно передать данные в службу HDInsight. Дополнительные сведения см. на следующих ресурсах:

В этой статье описано, как подключить Microsoft Power BI Desktop к Azure HDInsight с использованием ODBC и визуализировать данные Apache Hive.

Можно использовать драйвер Hive ODBC для импорта с помощью универсального соединителя ODBC в Power BI Desktop. Но этот драйвер не рекомендуется для рабочих нагрузок бизнес-аналитик, с учетом того что ядро запросов Hive не является интерактивным. Для лучшей производительности используйте соединитель интерактивных запросов HDInsight и соединитель HDInsight Spark.

В этой статье вы узнаете, как загрузить данные из таблицы Hive hivesampletable в Power BI. Эта таблица содержит некоторые данные об использовании мобильного телефона. Затем вы отобразите эти данные на карте мира:

Отчет карты HDInsight Power BI

Эти сведения также относятся к новому типу кластера интерактивных запросов. Сведения о подключении к HDInsight Interactive Query при помощи прямого запроса см. в статье Visualize Interactive Query Hive data with Microsoft Power BI using direct query in Azure HDInsight (Визуализация данных Hive Interactive Query при помощи Microsoft Power BI с использованием прямого запроса в Azure HDInsight).

Предварительные требования

Чтобы выполнить действия, указанные в этой статье, вам потребуется:

Кластер HDInsight. Это может быть кластер HDInsight с Hive или новый кластер интерактивных запросов. Сведения о создании кластеров см. в этом разделе.

Создание источника данных Hive ODBC

Дополнительные сведения см. в разделе Создание источника данных Hive ODBC.

Загрузка данных из HDInsight

Таблица Hive hivesampletable поставляется с кластерами HDInsight.

Запустите Power BI Desktop.

В верхнем меню выберите Домашняя страница > Получить данные > Дополнительно. .

Power BI открытие данных в HDInsight Excel

В диалоговом окне Получение данных выберите Прочее слева, ODBC справа и Подключиться внизу.

В диалоговом окне Навигатор разверните ODBC > HIVE > по умолчанию, выберите hivesampletable и нажмите Загрузить.

Визуализируйте данные

Продолжите из последней процедуры.

В области визуализации нажмите на значок Карта в виде земного шара.

Настройка отчета HDInsight Power BI

В области Поля выберите страна и devicemake. На карте отобразятся данные.

Дальнейшие действия

Из этой статьи вы узнали, как визуализировать данные HDInsight с помощью Power BI. Дополнительные сведения см. в следующих статьях:

Одной из ключевых особенностей решения Майкрософт для работы с большими данными является интеграция компонентов бизнес-аналитики Майкрософт с кластерами Apache Hadoop в службе Azure HDInsight. Важнейшим примером является возможность подключения Excel к учетной записи хранения Azure, в которой хранятся данные, связанные с кластером Hadoop, с помощью надстройки Microsoft Power Query для Excel. В этой статье приводится пошаговое руководство по настройке и использованию Power Query для запроса данных, связанных с кластером Hadoop, который управляется с помощью HDInsight.

Предварительные требования

  • Кластер Apache Hadoop в HDInsight. Ознакомьтесь со статьей Краткое руководство. Использование Apache Hadoop и Apache Hive в Azure HDInsight с шаблоном Resource Manager.
  • Рабочая станция под управлением Windows 10, 7, Windows Server 2008 R2 или последующих версий операционной системы.
  • Приложения Microsoft 365 для предприятий, Office 2016, Office 2013 профессиональный плюс, Excel 2013 автономный или Office 2010 профессиональный плюс.

Установка Microsoft Power Query

Power Query может импортировать данные, которые были выведены или созданы заданием Hadoop, выполняющимся в кластере HDInsight.

Импорт данных HDInsight в Excel

Надстройка Power Query для Excel удобна для импорта данных из кластера HDInsight в Excel, где можно использовать средства бизнес-аналитики, такие как PowerPivot и Power Map, для изучения, анализа и представления данных.

Создайте новую пустую книгу.

Выполните указанные ниже действия для вашей версии Excel.

Выберите > Данные > Получить данные > из Azure > из Azure HDInsight(HDFS) .

HDI.PowerQuery.SelectHdiSource.2016

Excel 2013 или 2010

Выберите Power Query > из Azure > из Microsoft Azure HDInsight.

HDI.PowerQuery.SelectHdiSource

Примечание. Power Query также позволяет импортировать данные из HDFS, для этого нужно выбрать Из других источников.

В поле Ключ учетной записи введите ключ для учетной записи хранения больших двоичных объектов Azure, а затем нажмите кнопку Подключиться. (Вводить данные учетной записи требуется только при первом доступе к этому магазину.)

В области Навигатор слева от окна редактора запросов дважды щелкните имя контейнера хранилища больших двоичных объектов, связанного с вашим кластером. По умолчанию имя контейнера совпадает с именем кластера.

Найдите HiveSampleData.txt в столбце Имя (путь папки: ../hive/warehouse/hivesampletable/ ), а затем выберите Двоичный код в левой части HiveSampleData.txt. HiveSampleData.txt поставляется вместе с кластером. При необходимости можно использовать собственный файл.

Импорт данных Power Query HDI в Excel

Если необходимо, можно переименовать имена столбцов. Когда будете готовы, нажмите кнопку Закрыть и загрузить. Данные загружены в книгу.

Импортированная таблица Power Query HDI в Excel

Дальнейшие действия

В этой статье было показано, как использовать Power Query для извлечения данных из HDInsight в Excel. Аналогичным образом можно извлекать данные из HDInsight в базу данных SQL Azure. Можно также передавать данные в HDInsight. Дополнительные сведения см. в следующих статьях:

Решение Майкрософт для работы с большими данными включает в себя компоненты бизнес-аналитики (БА) Майкрософт с кластерами Apache Hadoop, развернутыми в HDInsight. Примером может служить возможность подключения Excel к хранилищу данных Hive кластера Hadoop. Подключение с помощью драйвера Microsoft Hive Open Database Connectivity (ODBC).

Вы можете подключить данные, связанные с кластером HDInsight, из Excel с помощью надстройки Microsoft Power Query для Excel. Дополнительные сведения см. в статье Подключение Excel к HDInsight с помощью Power Query.

Предварительные требования

Перед началом работы с этой статьей необходимо иметь следующее:

  • Кластер HDInsight Hadoop. Дополнительные сведения о создании кластера см. в статье Приступая к работе с Hadoop в HDInsight.
  • Рабочая станция с Office 2010 Professional Plus или более поздней версии или Excel 2010 или более поздней версии.

Установка драйвера Microsoft Hive ODBC

Скачайте и установите драйвер Microsoft Hive ODBC. Выберите версию, которая соответствует версии приложения, где будет использоваться драйвер ODBC. В рамках данной статьи используется драйвер для Office Excel.

Создание источника данных Apache Hive ODBC

Ниже показано, как создать источник данных Hive ODBC.

В Windows откройте Пуск > Средства администрирования Windows > Источники данных ODBC (32-разрядная или 64-разрядная версия) . В результате откроется окно Администратор источников данных ODBC.

Администратор источника данных ODBC

На вкладке DSN пользователя выберите Добавить, чтобы открыть окно Создание нового источника данных.

Выберите Microsoft Hive ODBC Driver, а затем — Готово, чтобы открыть окно Microsoft Hive ODBC Driver DSN Setup (Настройка DSN Microsoft Hive ODBC Driver).

Введите или выберите следующие значения:

Необязательно: выберите Дополнительные параметры.

Параметр Описание
Использовать исходный запрос При выборе этого параметра драйвер ODBC НЕ пытается преобразовать TSQL в HiveQL. Следует использовать только при полной уверенности в отправке действительных инструкций HiveQL. При подключении к серверу SQL Server или базе данных Azure SQL необходимо снять этот флажок.
Строки, загружаемые для каждого блока При получении большого объема записей включение этого параметра может обеспечить оптимальную производительность.
Длина столбца строки по умолчанию, длина столбца двоичного кода, масштаб столбца десятичных значений Длина и точность типа данных может повлиять на способ выведения данных. Это приведет к возврату недопустимой информации из-за потери точности и/или усечения.

Дополнительные параметры конфигурации DSN

Щелкните Тест для проверки источника данных. При правильной настройке источника результатом теста будет слово УСПЕШНО! .

Импорт данных в Excel из службы HDInsight

Ниже описан способ импорта данных из таблицы Hive в рабочую книгу Excel с помощью источника данных ODBC, созданного в предыдущем разделе.

Откройте новую или существующую рабочую книгу в Excel.

На вкладке Данные перейдите к разделу Получить данные > Из других источников > Из ODBC, чтобы открыть окно Из ODBC.

Откройте мастер подключения к данным в Excel

Из раскрывающегося списка выберите имя источника данных, который вы создали в предыдущем разделе, и щелкните ОК.

При первом использовании откроется диалоговое окно Драйвер ODBC. В меню слева выберите пункт Windows. Затем нажмите кнопку Подключиться, чтобы открыть окно Навигатор.

В окне Навигатор перейдите к HIVE > по умолчанию > hivesampletable, а затем нажмите кнопку Загрузить. Для импорта данных в Excel потребуется несколько секунд.

Навигатор по ODBC для Hive в HDInsight Excel

Дальнейшие действия

В рамках этой статьи вы узнали, как получить данные из службы HDInsight в Excel с помощью драйвера Microsoft Hive ODBC. Аналогичным образом можно получать данные из службы HDInsight в базу данных SQL. Можно также передавать данные в службу HDInsight. Дополнительные сведения см. на следующих ресурсах:

Читайте также: