+7 499 390-88-92
Лаборатория
БОЛЬШИХ данных

21 апреля 2022 года на конференции "BIGDATA & AI 2022", организованной Издательством Открытые системы, мы представили нашу линейку продуктов EasyPortal, которые позволяют решать задачи автоматизации процессов хранилищ данных.
Статьи

Статьи

Machine Learning для Vertica

В данной статье я хочу поделиться собственным опытом работы с машинным обучением в хранилище данных на Vertica.
Скажем честно, я не являюсь аналитиком-экспертом, который сможет в деталях расписать все многообразие методик исследования и алгоритмов прогнозирования данных. Но все же, являясь экспертом по Vertica и имея базовый опыт работы с ML, я постараюсь рассказать о способах работы с предиктивным анализом в Vertica с помощью встроенной функциональности сервера и языка R.

Начиная с 7 версии Vertica дополнили библиотекой Machine Learning, с помощью которой можно:

  • подготавливать примеры данных для машинного обучения;
  • тренировать модели машинного обучения на подготовленных данных;
  • проводить предиктивный анализ данных хранилища на сохраненных моделях машинного обучения.
Библиотека идет сразу в комплекте с инсталляцией Vertica для всех версий, в том числе бесплатной Community. Работа с ней оформлена в виде вызова функций из-под SQL, которые подробно описаны в документации с примерами использования на подготовленных демонстрационных данных.

Подробнее
Боремся с нагрузками в HPE Vertica Типовой сценарий работы «just in time» хранилища данных выглядит так: десятки (ETL) сессий почти непрерывно захватывают с источников данные и вставляют их в хранилище. Параллельно множество других (ELT) сессий отслеживают поступление данных, заполняют консолидированный слой и ведут расчет агрегатов и витрин. Одновременно с этим, на поступающих первичных и рассчитанных данных, выполняют запросы пользователи, BI и другие системы. Вся эта каша должна ладно вариться в рамках сервера хранилищ данных, без тормозов и затыков, какими бы не были пиковые нагрузки.

В HPE Vertica для планирования работы сервера под нагрузками разработан специальный механизм, под названием «ресурсные пулы». Идея его в том, что каждый пользователь сервера работает в рамках выделенного ресурсного пула, который регулирует приоритетность доступа к ресурсам кластера, ограничивает конкурентность выполнения запросов и описывает правила резервирования и работы с памятью сервера. Подробнее
HP Vertica – инструмент для Больших Данных Переизбыток данных – одна из главных проблем современного бизнеса. Согласно проведенным HP исследованиям, более половины хранящейся в компаниях информации не используется, недоступно сотрудникам и не связано с источниками ее поступления. Как следствие, каждый третий руководитель уверен, что реализовать в его организации эффективную информационную стратегию мешает неразбериха в корпоративных данных. Есть ли выход из этой ситуации? Подробнее

Мы являемся единственной в России компанией, получившей экспертную сертификацию Accredited Solutions Expert Vertica Big Data Solutions Administrator. В 2017 году мы получили статус Gold Big Data Platform Specialist.