+7 499 390-88-92
Лаборатория
БОЛЬШИХ данных

21 апреля 2022 года на конференции "BIGDATA & AI 2022", организованной Издательством Открытые системы, мы представили нашу линейку продуктов EasyPortal, которые позволяют решать задачи автоматизации процессов хранилищ данных.

Vertica

hpe-vertica-big.jpg

История Vertica

HPE01.jpg Проект Vertica был запущен в 2005 году (ранее C-Store) такими известными экспертами, как Michael Stonebraker и Andrew Palmer. Основной идеей аналитического хранилища больших данных было разработать простую и эффективную MPP архитектуру, ориентированную на массивные загрузки данных в реальном времени с одновременным эффективным выполнением ad-hoc запросов над большими объемами данных без жестких требований поддержки администрирования сервера и ручного тюнинга производительности выполняемых запросов. Для этого в Vertica изначально архитектурно был заложен ряд новшеств и идей, которые позволили реализовать все требования к системам такого класса.
2005 год - основание компании Vertica
2011 год - выход версии 5 с поддержкой тесной интеграции с Hadoop и возможностью разделения хранения колонок таблиц на разных типах носителей
2011 год - покупка компанией HP
2013 год - выход версии 6 (Бульдозер) со значительно переработанными компонентами и драйверами Vertica и расширенной функциональностью
2013 год - выход в конце года версии 7 (Кран) с расширенными возможностями поддержки работы Vertica с неструктурированными данными на уровне Open-SQL с поддержкой горячих и холодных данных, расширенной функциональностью
2015 год - выход версии 7.2 (Экскаватор)
2016 год - выход версии 7.3
2016 год - выход версии 8 (Frontloader)
2017 год - переход прав на Vertica под бренд Micro Focus

Почему Big Data?

Проблемы традиционных СУБД при условии использования больших данных:
  • Скорость и объемы загрузки данных
  • Объемы и время хранения данных
  • Хранение и анализ произвольных данных
  • Скорость и объемы анализа
  • Постоянный поиск компромисса между требованиями бизнеса и возможностью их реализации

Что такое Big Data?

Массивы данных, размер и тип которых не позволяют эффективно обрабатывать и анализировать их с помощью традиционных технологий и инструментов.
HPE02.jpg

Требования к хранилищу данных

  • Управляемая масштабируемость
  • Отказоустойчивость 24/7/365
  • Многопоточная загрузка данных в реальном времени
  • Нулевое администрирование
  • Автоматическое управление производительностью при выполнении незапланированных запросов
  • Эффективная компрессия данных
  • Организация зон разработки и тестирования

Управляемая масштабируемость

Конечный объем хранилища данных не является определяемой величиной и будет прогрессивно расти по мере подключения новых источников данных и увеличения объемов импортируемых данных. Важным является возможность постепенного наращивания производительности и увеличения объема хранимых данных путем добавления новых серверов к существующим без дополнительных вложений на дозакупку лицензий и работ на перестройку хранилища данных.
Данное требование вынуждает смотреть исключительно в сторону MPP систем, оставив SMP сервера за рамками рассматриваемых вариантов. Vertica позволяет по мере необходимости постепенно наращивать как вычислительную мощность, так и объем общего дискового хранилища.
* Лицензирование Vertica происходит по ТБ сырых данных.

Отказоустойчивость 24/7/365

Хранилище данных должно иметь максимальную защиту от критических падений и минимальное время на остановку для проведения техобслуживания или апгрейта ПО и аппаратных средств. Это необходимо для соблюдения требования постоянной доступности к актуальным данным. Потребителями хранилища данных будут являться как пользователи, так и прочие системы, которые имеют собственные требования к доступности данных.
Подавляющее большинство регламентных работ на СУБД Vertica проводятся без остановки сервиса. Остановка одного или нескольких серверов из кластера приводит лишь к некоторой потере производительности.

Многопоточная загрузка данных в реальном времени

Источником данных хранилища служит информация, генерируемая другими системами и оборудованием из множества источников. Для выполнения условия поддержки актуальности данных необходимо организовать процесс постоянного сбора информации и обеспечения ее постоянной загрузки в хранилище. С учетом большого объема поступающих данных, процесс загрузки данных должен поддерживать параллелизм, загрузка данных очередями иногда не возможна.

Посмотрите презентацию: "Загрузка данных в ХД Vertica. Технологии захвата и загрузки данных из первичных источников" >>

Нулевое администрирование

Развитие новых проектов компании означает появление во времени новых требований к ХД. Это приводит к тому, что привлечение сторонних ресурсов для расширения функциональности хранилища имеет малую эффективность за счет того, что передача задач внешнему исполнителю влечет за собой большие временные издержки (ТЗ, согласования, проект, тестирование, приемка работ и т.д. Таким образом, ХД должно максимально просто и эффективно работать в режиме «Автомат» с возможностью сопровождения, расширения функциональности и оптимизации задач собственными силами специалистов.
У Vertica администрирование сервера заключается в том, чтобы правильно организовать пулы соединений для пользователей, позволяющих контролировать потребление ресурсов сессиями и проводить регулярный аудит хранилища для оптимизации (автоматически).

Управление производительностью

Хранилище данных является поставщиком данных для других систем и BI. Невозможно заранее определить круг запросов к данным, которые будут затребованы различными системами и под каждый из них провести оптимизацию работы системы. Таким образом, ХД должно позволять на этапах проектирования модели данных, определить наиболее востребованные части данных, их способ хранения и сортировки, взяв всю работу по оптимизации ad-hoc запросов на себя в режиме «Автомат» без требований ручного тюнинга поступающих на обработку запросов.
У Vertica оптимизация работы с данными заключается в правильном проектировании хранения данных, это достигается с помощью управления сегментаций, партиционированием и сортировкой данных. С помощью проекций можно описать дублирующие структуры данных в виде нужных полей таблиц, со своей сегментацией, сортировкой и, при необходимости группировкой полей, в виде хранения в одном блоке. Это позволяет значительно ускорить выполнение запросов.

Организация зон разработки

Требования отказоустойчивости и высоких нагрузок по загрузке и доступу к данным не позволяют развернуть на промышленном сервере зоны для проведения разработки новой функциональности и их тестирования. Требуется возможность развертывания таких зон на отдельно стоящем аппаратном обеспечении для организации этих работ. НР Vertica позволяет без дополнительных затрат развернуть тестовую и девелоперскую зоны в рамках единой лицензии.

Архитектура Vertica

HPE03.jpg
HPE04.jpg

Write-Optimized Store – WOS

Read-Optimized Store – ROS

Tuple Mover – TM (оптимизатор данных)

  • до 50–1000 раз быстрее среднее время обработки запросов чем в традиционных row системах
  • До 10x прирост скорости загрузки данных
  • Простота установки/использования
  • Высокая масштабируемость и полный параллелизм
  • Индустриально стандартная платформа x86
  • Гибридная in-memory/on-disk архитектура
  • Хранение данных близко к процессору

Компрессия данных
  • Оптимизация хранения повторяющихся данных
  • Свыше 12 схем компрессии
  • Выбор определяется данными
  • Тип сжатия система выбирает сама
  • Обычно 50% – 90% сжатия
  • Внутренние запросы в сжатой (кодированной) форме
Рисунок2.png
Vertica Flex Zone - специальная область хранения и обработки неструктурированных данных.
В БД Vertica можно создавать flex таблицы, загружать в них данные из файлов с CSV и JSON форматами.

Колоночное хранение

HPE06.jpg

Оптимизация Vertica

HPE07.jpg

Администрирование

HPE08.jpg

Преимущества Vertica

HPE09.jpg

Залог успеха

HPE10.jpg


Мы являемся единственной в России компанией, получившей экспертную сертификацию Accredited Solutions Expert Vertica Big Data Solutions Administrator. В 2017 году мы получили статус Gold Big Data Platform Specialist.