В современном мире визуализация при работе с большими данными является весьма популярной темой для исследований: использование больших данных даёт возможность одновременно определять тенденции развития исследуемого объекта и ставить для него стратегические цели, рассчитанные с заданным уровнем точности. Применение визуализации позволяет быстрее, относительно многих классических методов, видеть структуру исходных данных, неочевидные в них связи и, как следствие, быстрее выходить на анализ данных и на интерпретацию полученных результатов. Основное преимущество визуализации состоит в том, что в наглядном виде информация воспринимается, обрабатывается и усваивается человеком в разы быстрее, чем в ином другом виде.
Под визуализацией предполагается зримое представление данных или результатов анализа этих данных. Исследуемый объект может быть визуализирован различными способами, все зависит как от самого объекта, так и от целей его визуализации. Сегодня, чаще всего говорят о компьютерной визуализации, примерами которой являются различные формы таблиц, рисунков, графов и дашбордов, созданных с помощью программных продуктов.
Одним из главных преимуществ компьютерной визуализации, несомненно, является её «тактильность». Современные программные средства позволяют исследователю динамически работать с визуализацией. Масштабировать конечный результат, уменьшать или увеличивать количество отображаемых данных, обрезать данные или добавлять новые, смотреть на данные в разрезе или повернуть их на 180° – всё это не составит труда реализовать, единственное ограничение заключается в мощности применяемого программного обеспечения и объёме визуализированных данных.
Индустрия 4.0, пришедшая вместе с цифровизацией, большими данными и их аналитикой, перенесла центр внимания управленцев со скорости сбора данных на результат их обработки.
Сегодня огромное количество компаний ищут оптимальный для них метод анализа собранных множественных данных. Чаще, их цель заключается в отборе наиболее влияющих на организацию факторов и принятием управленческих решений на базе полученных результатов. На корректность выбора подходящего метода обработки данных и визуализации влияют тип исходных данных и их смысловое значение. Также нельзя пренебрегать качеством исходных данных и их достоверностью, поскольку они напрямую влияют на конечный результат проводимого анализа. Поиск оптимального метода анализа усугубляется тем, что существует более 30 технологий анализа с различной степенью готовности к внедрению на предприятии.
Сегодня наиболее перспективным методом визуализации является контекстно – обогащённый анализ. В 2019 году компания Gartner представила прогноз развития технологий обработки данных и их анализа. Эксперты представили следующие ведущие тенденции на ближайшие 3-5 лет с использованием методов визуализации:
- Дополненная аналитика – использование современных технологий для автоматического сбора, обработки данных и нахождения важных структурных связей в них. Методы дополненной аналитики позволяют разгрузить работу аналитиков и мобилизуют использование аналитических платформ;
- Обработка естественного языка и диалоговая аналитика – применение методов, обеспечивающих обращение пользователя к данным и получение интересующего ответа в устном виде на естественном для него языке;
- Графовая аналитика – практика методов, которые строят связи между исходными данными. Ключевым достоинством данной технологии является возможность применения графов для первичного анализа исходных неструктурированных данных большого объема. Эксперты Gartner прогнозируют рост использования графовых БД и графовых СУБД в 2 раза ежегодно с 2019 года.
Графы – это математические структуры, используемые для анализа отношений между объектами. У любого графа есть два основных элемента: узлы, которые содержат данные и дуги, их соединяющие. Визуализация графов позволяет наглядно оценить однородность анализируемых данных, или найти кластеры или мосты.
Спустя год, в 2020 году, Gartner приводит новый перечень из 10 тенденций в области данных и аналитики. На данный рейтинг сильно повлияла пандемия коронавируса, но стабильно, как и в прошлом году аналитики выделяют тренд развития технологии графовой аналитики. В частности, в срезе пандемии графы используются для связи пространственных данных с устройств жителей, где результат связи – люди, состоявшие в контакте с уже известными больными. Если обобщить, то средства графовой аналитики данных могут строить связи, которые трудо- и времязатратно выявлять с помощью традиционных аналитических инструментов.
И наконец, спустя 2 года, в 2022 году, Gartner приводит очередной перечень из 12 тенденций в области данных и аналитики. Самая важная из них, в рамка данной статьи, это контекстно-обогащённый анализ.
По словам Лоуренса Гоасдаффа, автора статьи «12 тенденций в области данных и аналитики, которые нужно держать на своем радаре»: «К 2025 году контекстно-ориентированная аналитика и модели искусственного интеллекта заменят 60% существующих моделей, построенных на традиционных данных».
На практике, контекстно-обогащённый анализ базируется на графовых технологиях. Информация о данных представлена в виде графика, с помощью которого можно проводить наиболее детальный анализ, используя не только точки данных, но и построенные между ними связи. Этот анализ помогает увидеть дополнительную информацию, основанную на сходствах, ограничениях, путях и сообществах.
Особенностью контекстно- обогащённого анализа являются исходные данные. Контекстные данные – это все данные, прямо или косвенно касающиеся исследуемого объекта, собранные из всех имеющихся источников данных. И естественно, что работа с такими данными, а именно их сбор, хранение и обработка, требует развития навыков в построении конвейеров данных и развития облачных сервисов ИИ, которые могут обрабатывать всевозможные типы данных.
Таким образом, в актуальности исследования визуализации, и особенно графов, как метода анализа и обработки больших данных, в 2022 году нет сомнений. Визуализируя большие графы, аналитик сталкивается с рядом проблем, часть из них можно отнести к технической группе, такие проблемы решаются развитием программных средств визуализации, а другая часть появляется из-за специфичности самих больших данных.
При построении больших графов часто возникает проблема их интерпретации: множество узлов, соединенных множеством ребер, могут практически не читаться человеческим глазом. Помимо этого, многие методы построения графов считаются одними из самых сложных, и как следствие медленных алгоритмов. И при построении графа, аналитик не может гарантировать получение оптимального результата.
А перед построением графа стоит задача еще и обработки исходных данных. Так эксперты выделяют следующие проблемы, возникающие при визуализации больших данных:
— Визуальный шум – чаще всего исходный набор данных содержит множество выбросов, которые отражаются в конечной визуализации. Но сложность также в том, что нельзя их просто исключить, необходимо выяснить природу выбросов, убедиться, что они не относятся к кризисному моменту или не искажены в процессе сбора;
— Восприятие большого изображения – физиология человеческого глаза не позволяет анализировать слишком большие визуализации, как и технические устройства не позволяют бесконечно масштабировать большую визуализацию без потери ее качества;
— Потеря информации – с целью сделать большую визуализацию доступной аналитику приходится уменьшать объем данных, применяя различные методы объединения или замещения, иногда приходится ставить фильтры, основываясь на сходстве анализируемых данных, но это может привести к сокрытию важных связей внутри них. Помимо этого, получение точных, неискаженных и необходимых данных весьма трудоемкий процесс, сопровождающийся большими затратами времени и ресурсов;
— Высокие требования производительности – визуализация бывает, как статическая, так и динамическая. Чем больше данных визуализируется динамически, тем больше ресурсов процессора требуется для их обработки;
— Строгость применения методов визуализации – как было сказано ранее, для больших данных подходит не каждый метод визуализации, так как неверно выбранный метод теряет свою эффективность.
Таким образом, визуализация больших данных методом построения графов будет является рабочим способом в течении следующих 5 лет, но для их построения необходимо развивать существующие компьютерные технологии и компетенции специалистов в области обработки больших данных.