Чем hadoop отличается от oracle

Обновлено: 03.07.2024

В данной статье приведено описание системы управления базами данных (СУБД) Teradata через призму сравнения с аналогичными, известными и более распространенными решениями:

MS SQL – Ориентированно на исполнение запросов на одном физическом сервере;
Oracle – Ориентированно на исполнение запросов на одном физическом сервере;
Hadoop – Ориентировано на распределённом хранении данных.

Представим ситуацию, когда потребителю нужна высокопроизводительная, отказоустойчивая, масштабируемая СУБД.

Как бы ни были хороши и привычны MS SQL и Oracle, но мы ограниченны одним сервером. В какой-то момент мы столкнёмся с проблемой ограничения по производительности.

Hadoop действительно лишена недостатка, в ограничении использования одного сервера. Позволяет, использовать разнородное оборудование, размещенное в больших сетях, а стоимость хранения данных невелика. Его слабость заключается в использовании TCP/IP v4/v6 протоколов между критичными узлами Hadoop, что снижает производительность обмена информацией в сети.

СУБД Teradata для связи физических серверов (Нод) использует специализированную физическую сеть BYNET, которая, при передаче данных, обладает низкими накладными расходами, обеспечивает недоступную для конкурентов производительность и время доступа. Если учесть, что скорость сети является самым узким местом в распределенных СУБД, то и наличие BYNET является серьёзным преимуществом. Связанно это с тем, что не все запросы хорошо распараллеливаются и грубые методы «fullscan» нагружают именно связку между Нодами.

SMP узел – это физический сервер на котором инициировано несколько экземпляров PE (Parsing Engine) и AMP (Access Module Processor) представлен на рисунке:

Хранилище данных Teradata представляет собой связку из Жестких дисков и SSD накопителей, что даёт наилучшие показатели времени доступа к данным из хранилищ, использующих Жесткие диски.

При организации СУБД Teradata под каждый определенный объем дискового пространства назначается виртуальный процессор «AMP» (Access Module Processor) и «PE» (Parsing Engine). Их работа практически не зависит от других виртуальных процессоров.

Если сравнивать с точки зрения систем хранения данных, то в Oracle, MS SQL, Hadoop - жесткие диски подключают через высокопроизводительные дисковые контроллеры сторонних производителей, а в Teradata используются специализированные хранилища, которые в свою очередь лучше интегрированы в систему.

Указанная концепция хранения позволяет использовать такое понятие, как «температура данных». Данная технология является серьёзным конкурентным преимуществом так как в Teradata данные распределяются в зависимости от их востребованности на более быстрых секторах (цилиндрах) жесткого диска или наоборот.

В связи с тем, что подключение к хранилищу происходит на более низком уровне, чем у конкурентов, АМП выполняет агрегацию, создаёт блокировки, осуществляет вставку, чтение и удаление значительно эффективней. То есть между потребителем и самими данными меньше узлов и издержек.

Благодаря унифицированной структуре размещения блоков данных на хранилищах Teradata, подключая новые Ноды к существующему кластеру, мы получаем увеличение производительности, отказоустойчивости, доступного дискового пространства. Аналогично при отключении узлов кластера мы получаем снижение всех указанных характеристик.

Подключение новых Нод, происходит проще чем на Hadoop. Перенос данных осуществляется быстрее, как и балансировка нагрузки.

Главным недостатком СУБД Teradata относительно конкурентов, является высокая стоимость, как системы в целом, так и стоимость хранения данных.

Второй недостаток — скудный инструментарий по работе с СУБД.

Третьим недостатком является тот факт, что Teradata получила меньшее распространение чем Hadoop. Из этого исходят и проблемы, с внедрением и сопровождением данной СУБД.

Подведем итог визуализацией сильных и слабых сторон СУБД Teradata по отношению к конкурентам:

Node. Это отдельное вычислительное устройство (компьютер), являющийся частью группы таковых устройств (кластера) которые совместно используются для решения вычислительных задач.

Hadoop - это экосистема больших данных, которая используется для хранения, обработки и анализа данных из данных. Hadoop может использоваться для решения широкого круга задач. Это полный технологический стек сам по себе. Существует множество дополнительных платформ и платформ поверх Hadoop, которые решают те или иные технические проблемы, такие как сбор данных, хранение данных, обработка данных, ведение журналов, расширенная аналитика и т. Д. SQL - это язык запросов, который используется для хранения, обработки и извлекать шаблоны из данных, хранящихся в реляционных базах данных. Данные хранятся здесь в виде таблиц. Работает только для структурированных данных.

Сравнение SQL и Hadoop лицом к лицу (Инфографика)

Ниже приводится топ 17 различий между SQL против Hadoop

Ключевые различия между SQL против Hadoop

Оба SQL против Hadoop являются популярным выбором на рынке; Давайте обсудим некоторые основные различия между SQL и Hadoop:

Выше мы видели ключевое сравнение между SQL и Hadoop. Из этих утверждений мы можем понять, что эти две системы представляют собой две уникальные системы, разработанные для конкретных нужд, и они используются в уникальных целях.
В то время как Hadoop предоставляет широкий спектр функциональных возможностей и приложений, SQL лучше дополняет Hadoop, чем конкурирует с ним. Например, HIVE, который является независимым компонентом Hadoop, очень похож на SQL. Используя Hive, SQL-подобные синтаксисы могут быть написаны для манипулирования данными, но дизайн, функционирование и назначение HIVE принципиально отличаются от SQL.
Самое важное различие, которое нужно понимать между SQL против Hadoop, заключается в том, что SQL может обрабатывать очень ограниченный тип данных, то есть реляционные данные, и скорость их обработки становится очень медленной, когда нужно манипулировать миллионами записей одновременно, тогда как Hadoop специально разработан для решения этой проблемы. только проблема
В Hadoop ведется активная поддержка и проводятся исследования, каждый день на этом переднем крае появляется новый технологический стек, люди переходят от своих традиционных систем реляционных баз данных к инфраструктуре больших данных на основе Hadoop. Такие достижения только прокладывают более яркий путь в будущее для Hadoop, по которому сейчас путешествуют лишь немногие.

Таблица сравнения SQL и Hadoop

Основное сравнение между SQL и Hadoop обсуждается ниже:

Hadoop

SQL

Вывод - SQL против Hadoop

SQL более традиционный, а Hadoop - будущее. Большие данные - это многообещающее будущее, но в настоящее время принятие отрасли и доверие клиентов не так сильны. Еще неизвестно, насколько доминирующим он станет с течением времени. AWS, безусловно, является силой, с которой приходится считаться, но, тем не менее, для развития технологии Hadoop в истинном будущем необходима большая разработка и поддержка. SQL существует здесь десятилетиями и используется практически везде. Сегодня это основа всего, что является данными. В ближайшем будущем также будет SQL, он дополнит Hadoop большим количеством способов, чем завершит его. Изучение и использование преимуществ Hadoop может быть очень многообещающим для отдельных лиц, как начинающих свою карьеру, так и для тех, кто уже является признанным разработчиком программного обеспечения, а также может быть полезным для отраслей и организаций, разрабатывающих продукты и решения в мире информационных технологий, они очевидно, следует подумать об использовании большого стека данных в своих предложениях, и, наконец, заказчики и партнеры должны также внедрить решения на базе Hadoop в своих помещениях, чтобы максимально использовать их.

Сравнение SQL и Hadoop лицом к лицу (Инфографика)

Ниже приводится топ 17 различий между SQL против Hadoop

Ключевые различия между SQL против Hadoop

Выше мы видели ключевое сравнение между SQL и Hadoop. Из этих утверждений мы можем понять, что эти две системы представляют собой две уникальные системы, разработанные для конкретных нужд, и они используются в уникальных целях.
В то время как Hadoop предоставляет широкий спектр функциональных возможностей и приложений, SQL лучше дополняет Hadoop, чем конкурирует с ним. Например, HIVE, который является независимым компонентом Hadoop, очень похож на SQL. Используя Hive, SQL-подобные синтаксисы могут быть написаны для манипулирования данными, но дизайн, функционирование и назначение HIVE принципиально отличаются от SQL.
Самое важное различие, которое нужно понимать между SQL против Hadoop, заключается в том, что SQL может обрабатывать очень ограниченный тип данных, то есть реляционные данные, и скорость их обработки становится очень медленной, когда нужно манипулировать миллионами записей одновременно, тогда как Hadoop специально разработан для решения этой проблемы. только проблема
В Hadoop ведется активная поддержка и проводятся исследования, каждый день на этом переднем крае появляется новый технологический стек, люди переходят от своих традиционных систем реляционных баз данных к инфраструктуре больших данных на основе Hadoop. Такие достижения только прокладывают более яркий путь в будущее для Hadoop, по которому сейчас путешествуют лишь немногие.

Таблица сравнения SQL и Hadoop

Основное сравнение между SQL и Hadoop обсуждается ниже:

Hadoop

SQL

Вывод - SQL против Hadoop

Рекомендуемая статья

В далеком 2006 году социальная сеть Facebook наняла Джефа Хаммербахера (Jeff Hammerbacher), математика и выпускника Гарварда, чтобы тот занимался упорядочиванием данных, генерируемых социальной сетью. В самом начале в его обязанности входил анализ поведения пользователей и усовершенствование этого анализа. Но позже, когда аудитория Facebook стала насчитывать десятки миллионов пользователей, социальная сеть начала генерировать столько данных, что анализировать их, имея под рукой старые базы данных, было невозможно. А тогда Facebook располагал лишь старой доброй базой данных от Oracle.

В это же время, как грибы после дождя, начали появляться стартапы, представлявшие совершенно новую породу баз данных. Эти БД позволяли хранить и анализировать куда большие объемы данных. Некоторые из них были и остаются на слуху – это Greenplum, Vertica, Netezza. Так вот, Хаммербахер утверждает, что Facebook протестировала каждую из них. И ни одна не подошла для текущих задач.

В конце концов, Facebook переключился на малоизвестную платформу с открытым исходным кодом – Hadoop, которая тогда только вышла из стадии внутренней разработки Yahoo. Сегодня уже странно рассказывать об истории Hadoop как о чем-то малоизвестном. В профессиональном сообществе это все равно, что вдруг поведать миру о Google. Но тогда Джеф Хеммербахер фактически выдал Hadoop путевку в жизнь, сказав, что вот этот проект действительно может справляться с быстрорастущим объемом данных, создаваемых самой большой социальной сетью в мире.

Действительно, после внедрения в Facebook и Yahoo, дела у Hadoop пошли в гору. Вендоры сами начали продавать эту платформу друг другу. В процесс включились даже Oracle и Greenplum. Хотя тогда они относились к платформе как дополнению стандартных баз данных, как к инструменту, подходящему только для анализа отдельных типов данных.

И вот совсем недавно, Greenplum (теперь уже являющаяся частью гиганта EMC) призналась, что последние два года занималась построением платформы на базе Hadoop, которая оставит традиционные базы данных далеко позади. Платформа называется Pivotal HD и может анализировать большие объемы данных гораздо быстрее, чем существующая платформа с открытыми исходниками.

«Мы думаем, что мир находится на грани смены парадигмы, где бизнесам будут нужны приложения, которые не будут поддерживаться реляционными базами данных, – говорит Пол Мартиз (Paul Martiz) бывший топ-менеджер из Microsoft, ныне работающий на Greenplum – бизнесу нужны новые платформы и Hadoop – базовая технология для таких платформ».

Удивительное заявление от компании, чей бизнес строился вокруг реляционных баз данных. Greenplum делал программы для упорядочивания данных, генерируемых компаниями. Greenplum и EMC только сейчас поняли то, о чем Хаммербахер говорил еще в 2008 году – несмотря на многочисленные провалы, Hadoop очень хорошо подходит для работы с большими данными.

Примечательно, что Greenplum заставляет Hadoop работать как реляционную базу данных. То есть, вы можете работать с ним с помощью SQL, который был общим местом для БД на протяжении десятилетий.
Проблема с Hadoop заключается в том, что ему требуется слишком много времени на анализ данных. Используя фреймворк Hadoop MapReduce, вы можете строить любые программы, обрабатывающие огромные массивы данных, но если вам нужно будет выполнить конкретную задачу, то это займет часы или даже дни.

Именно над этим работает Greenplum. Команда под управлением бывшего архитектора баз данных Microsoft, Флориана Вааса (Florian Waas) разработала новый движок, который позволяет быстро обрабатывать SQL-запросы, размещенные в больших кластерах Hadoop File System. При этом, инструменты, совмещающие SQL и Hadoop существовали и ранее, но они были слишком медленными.

Таким образом, сейчас Greenplum идет по стопам Джеффа Хаммербахера. Покинув Facebook, он основал стартап Cloudera и в конце 2012 года представил систему под названием Impala, которая также работает с Hadoop с помощью запросов в реальном времени. Но Greenplum, конечно, утверждает, что система Хаммербахера намного медленнее, чем их детище.

«Проблема в том, что если сервер падает, когда Pivotal HD обрабатывает запрос, вам приходится снова делать запрос», – говорит Флориан Ваас. Такой поход несколько отличается от того, как видели работу с Hadoop в различных компаниях, разрабатывая решения для работы на серверных кластерах.

Подводя итог, замечу, что традиционные базы данных всегда будут на своем месте. Тот же Greenplum сейчас предлагает инструменты, работающие на базе PostgreSQL. Но Pivotal HD и Impala – это очередное доказательство того, что Hadoop еще не раз перевернет шаблоны работы с данными. И не только для веб-гигантов, но и для бизнеса помельче.

Читайте также: