Visual2000 · Статьи А.Колесова по "1С"

Цикл "1С:Предприятие" в PC Magazine/RE

Интеллектуальный анализ данных и прогнозирование в "1С:Предприятии 8.0"

Андрей Колесов

© Андрей Колесов, 2006
Авторский вариант. Статья была опубликована в журнале PC Magazine/RE № 08/06 (с.121-125).


В одной из предыдущих публикаций раздела...

В одной из предыдущих публикациях раздела "1С:Предприятие" мы рассказывали о средствах экономической и аналитической отчетности платформы восьмой версии (PC Magazine/RE, 06/2006, с. 138). Там в одном из пунктов упоминались также новые функции интеллектуального анализа данных, в том числе обеспечивающие решение задач прогнозирования. О них стоит рассказать отдельно и подробнее.

Одна из главных тенденций на рынке учетно-управленческих систем — это постоянное повышение спроса на применение средств аналитической обработки данных, обеспечивающих принятие обоснованных руководящих решений. Однако сегодня заказчикам уже недостаточно использования традиционных инструментов, позволяющих создавать разнообразные отчеты, сводные таблицы и диаграммы на основе заранее определенных показателей и связей, анализируемых вручную. Предприятиям все чаще нужны качественно иные средства, позволяющие автоматически искать неочевидные правила и выявлять неизвестные закономерностей (рис. 1), что дает возможность получать новые знания на основе накопленной компанией информации и принимать порой совсем нетривиальные решения для повышения эффективности бизнеса на основе методов интеллектуального анализа данных.

Рис. 1. Логика развития "интеллектуальности" решаемых аналитических задач

Стоит напомнить, что одна из концепций "1С:Предприятия 8.0" — реализация многих базовых прикладных функций на уровне технологической платформы. При этом с момента выпуска версии 8.0. наряду с появлением продуктов для конечных пользователей идет постоянное развитие самой платформы. Так, после первого объявления "восьмерки" в августе 2003 г. выпущено уже почти полтора десятка релизов платформы, по состоянию на июль 2006 г. самая последняя версия имеет номер 8.0.16, и она весьма существенно отличается от того, что было три года назад!

В начало статьи

Общие сведения

Механизмы анализа данных и прогнозирования (МАДП), о которых идет сейчас речь, в составе "1С Предприятия 8.0" появились в ней только в прошлом году. В сентябре 2005 г. «1С» выпустила специальное прикладное решение — подсистему поддержки принятия решений на основе интеллектуального анализа данных (ПИАД), которая может быть встроена в любую конфигурацию платформы "1С:Предприятие 8.0". Помимо широкого набора базовых функций, в нее вошли более 30 предварительно настроенных моделей для типовой конфигурации "Управление торговлей". Эти модели имеют самостоятельную ценность (могут многократно использоваться), а также применяются для автоматизированного формирования прогнозов, в том числе сценарных, с заранее неизвестными показателями. Все средства МАДП и ПИАД сегодня также доступны в последних релизах ключевых прикладных решений на базе "1С:Предприятия 8.0".

Как уже говорилось, МАДП предоставляет пользователям (экономистам, аналитикам и т. д.) возможность осуществлять поиск неочевидных закономерностей в данных, накопленных в информационной базе, и позволяет выполнять следующие операции:

МАДП – это набор взаимодействующих друг с другом объектов встроенного языка, что дает возможность разработчику использовать его составные части в произвольной комбинации в любом прикладном решении. Встроенные объекты позволяют легко организовать интерактивную настройку параметров анализа пользователем, а также выводить результат анализа в удобной для отображения форме в табличный документ (рис. 2). Важно и то, что механизм может работать с данными, полученными как из информационной базы "1С", так и из внешних источников (в последнем случае — предварительно загруженными в таблицу значений или табличный документ).

Рис. 2. Общая схема функционирования механизма анализа данных и прогнозирования интеллектуального анализа данных

Применяя к исходным данным один из типов анализа, можно получить результат, который представляет собой некую модель поведения данных. Результат анализа может быть отображен в итоговом документе или сохранен для дальнейшего использования (на его основе может быть создана модель прогноза, позволяющая прогнозировать поведение новых данных).

Например, можно проанализировать, какие товары приобретаются вместе (в одной накладной), и сохранить этот результат в базе данных. В дальнейшем, при создании очередной накладной на основании сохраненного результата анализа, можно построить модель прогноза, подать ей "на вход" новые данные, содержащиеся в этой накладной, и "на выходе" получить прогноз, например список товаров, которые контрагент Петров тоже, скорее всего, приобретет, если их ему предложить (рис. 3).

Рис. 3. С помощью имеющейся модели прогноза, на основе данных в новой накладной (а) можно сформировать список дополнительных предложений (б) для данного контрагента.

В настоящее время МАДП содержит пять типов анализа данных: общая статистика, поиск последовательностей, поиск ассоциаций, кластеризация и дерево решений.

В начало статьи

Общая статистика

Представляет собой механизм для сбора общих сведений об исследуемой выборке. Этот тип анализа предназначен для предварительного исследования какого-то источника информации. позволяет получать статистическую информацию об имеющихся данных. Для непрерывных (тип "Число" или "Дата") и дискретных (все другие типы) полей рассчитываются следующие показатели: количество, максимум, медиана, минимум, размах, среднее и стандартное отклонение. Кроме того, для полей с дискретными типами данных вычисляются количество уникальных значений и мода, а также таблицы частот и значений.

В начало статьи

Поиск последовательностей

Анализ этого типа позволяет выявлять в источнике данных последовательные часто возникающие цепочки событий. Например, проанализировав заказы клиентов, можно выявить их последовательную взаимосвязь и на основании этого прогнозировать складские запасы, проводить рекламные акции и даже предлагать товары и услуги с опережением, если результаты проведенного анализа покажут высокую вероятность спроса на них в будущем. Анализ позволяет осуществлять поиск по иерархии, что дает возможность отслеживать не только последовательности конкретных событий, но и последовательности родительских групп. Набор параметров анализа позволяет специалисту ограничивать временные расстояния между элементами искомых последовательностей, а также регулировать точность получаемых результатов.

В начало статьи

Поиск ассоциаций

Метод предназначен для выявления устойчивых комбинаций элементов в определенных событиях или объектах. Результаты анализа представляются подсистемой в виде групп ассоциированных элементов. Здесь же, помимо выявленных устойчивых комбинаций элементов, приводится развернутая аналитика по ассоциированным элементам (рис. 4).

Рис. 4. Представление результатов анализа методом "поиска ассоциаций" в виде групп ассоциированных элементов.

Первоначально метод был разработан для поиска типичных сочетаний товаров в покупках, поэтому иногда его еще называют анализом покупательской корзины. Применительно к этому сценарию в качестве ассоциируемых элементов, как правило, выступают товарные группы или отдельные товары. А группирующим объектом, объединяющим элементы выборок, может быть любой объект информационной системы, идентифицирующий сделку, например, заказ покупателя, акт об оказании услуг или кассовый чек.

Информация о закономерностях в товарных предпочтениях покупателей позволяет повысить эффективность управления отношениями с клиентами (в части рекламных кампаний и маркетинговых акций), ценообразования (формирование комплексных предложений и системы скидок), управления запасами и мерчендайзинга (распределение товаров в торговых залах). Другой пример использования этого метода — определение предпочитаемых клиентами комбинаций рекламных каналов для исключения их дублирования при проведении целевых рекламных кампаний. Это позволяет существенно снизить издержки на подобные мероприятия.

Реализованный в платформе алгоритм поиска ассоциаций имеет достаточно гибкие средства управления адекватностью моделей анализа или прогноза. Параметр «Минимальный процент случаев» определяет «порог срабатывания» алгоритма на ту или иную комбинацию элементов в событии или объекте, что позволяет не учитывать слабо распространенные ассоциации. Параметр «Минимальная достоверность» определяет требуемую устойчивость искомых ассоциаций, а параметр «Минимальная значимость» позволяет выявить наиболее приоритетные из них. Существенно облегчает восприятие результатов анализа и прогноза параметр «Тип отсечения правил», который может принимать значения «Отсекать избыточные» и «Отсекать покрытые другими правилами».

Для практической интерпретации результатов, полученных данным алгоритмом, особенно важно разбиение исходного множества ассоциируемых элементов на действительно однородные с точки зрения проводимого анализа группы.

В начало статьи

Кластеризация

Цель кластеризации — выделение из множества объектов одной природы некоторого количества относительно однородных групп — сегментов или кластеров. Объекты распределяются по группам так, чтобы внутригрупповые отличия были минимальными, а межгрупповые — максимальными (рис. 5). Методы кластеризации позволяют перейти от пообъектного к групповому представлению совокупности произвольных объектов, что существенно упрощает оперирование ими.

Рис. 5 Анализ данных методом кластеризации

Вот возможные сценарии применения кластеризации на практике:

Сходство и различие между объектами определяется «расстоянием» между ними в пространстве факторов. Способ измерения расстояния определяется метрикой, которая указывает принцип определения сходства-различия между объектами выборки. МАДП содержит сейчас несколько метрик.

Способы формирования кластеров на основе информации о расстоянии между кластеризуемыми объектами определяются методом кластеризации. Любой из реализованных в платформе методов кластеризации предполагает явное указание количества искомых кластеров. Для атрибутов объектов можно вводить веса, что позволяет расставлять приоритеты между ними.

Результатами анализа с помощью кластеризации являются:

Алгоритмы кластеризации позволяют не только провести кластерный анализ объектов на множестве заданных атрибутов, но и спрогнозировать значение одного или нескольких из них для актуальной выборки на основании отнесения объектов этой выборки к тому или иному кластеру.

В начало статьи

Дерево решений

В результате применения этого метода к исходным данным создается иерархическая (древовидная) структура правил вида "Если... то...", а алгоритм анализа обеспечивает процесс вычленения на каждом этапе наиболее значимых условий и переходов между ними. Данный алгоритм получил наибольшее распространение при выявлении причинно-следственных связей в данных и описании поведенческих моделей. Типичная зона применимости деревьев решений — оценка различных рисков, например, закрытия заказа клиентом или его перехода к конкуренту, несвоевременной поставки товара поставщиком или просрочки оплаты товарного кредита. В качестве типичных входных факторов модели выступают сумма и состав заказа, текущее сальдо взаиморасчетов, кредитный лимит, процент предоплаты, условия поставки и иные параметры, характеризующие объект прогноза. Адекватная оценка рисков обеспечивает принятие информированных решений по оптимизации отношения доходность/риск в деятельности компании, а также полезна для увеличения реалистичности различных бюджетов (рис. 6).

Рис. 6 Применение метода "дерево решений" позволяет на основе входных факторов модели (а) получать оценку рисков принятия тех или иных управленческих решений (б).

В качестве примера, иллюстрирующего способность этого типа анализа выявлять причинно-следственные связи, можно привести задачу оптимизации работы отдела продаж. Для ее решения в качестве прогнозируемой величины выберем интересующий показатель эффективности менеджеров по продажам, например удельную доходность на клиента, а в качестве факторов — совокупность данных, потенциально влияющих на результат. Алгоритм определит факторы, оказывающие наибольшее влияние на результат, а также типичные комбинации условий, приводящих к тому или иному результату.

Более того, подсистема "Анализ данных" позволит оценить (спрогнозировать) ожидаемые значения целевого показателя на основании актуальных данных, а также провести прогноз "Что, если ?", изменяя подаваемые на вход модели показатели. Результаты анализа и прогноза с помощью деревьев решений дают возможность существенно снизить влияние неопределенности бизнес-окружения на состояние компании, а также решить широкий спектр задач, связанных с выявлением сложных и неочевидных причинно-следственных связей.

Метод «Дерево решений» формирует причинно-следственную иерархию условий, приводящую к определенным решениям. В результате применения этого метода к обучающей выборке создается иерархическая (древовидная) структура правил расщепления вида «Если... то...». Алгоритм анализа (обучения модели) сводится к итеративному процессу вычленения на каждом этапе наиболее значимых условий и переходов между ними. Условия могут иметь как количественный, так и качественный характер и формируют «ветви» этого абстрактного дерева. Его «листву» образуют значения прогнозируемого атрибута (решения), которые, так же как и условия переходов, могут иметь как качественную, так количественную трактовку. Совокупность этих условий, налагаемых на факторы, и структура переходов между ними до конечного решения и образуют модель прогноза.

Данный тип анализа получил наибольшее распространение при оценке исходов различных событийных цепочек и выявлении причинно- следственных связей в выборках. Управление значимостью и достоверностью модели данного алгоритма осуществляется с помощью параметров «Тип упрощения», «Максимальная глубина дерева» и «Минимальное количество элементов в узле».

В качестве результата анализа выборки с помощью алгоритма «Дерево решений» выступают:

В начало статьи

Типовые бизнес-сценарии использования методов МАДП

В документации ПАИД имеется раздел, посвященный типовым примерам использования интеллектуального анализа данных применительно к конфигурации "1С Управление торговлей 8.0.". Здесь мы приведем только несколько таких бизнес-сценариев.

В начало статьи