рефераты, скачать реферат, современные рефераты, реферат на тему, рефераты бесплатно, банк рефератов, реферат культура, виды рефератов, бесплатные рефераты, экономический реферат

"САМЫЙ БОЛЬШОЙ БАНК РЕФЕРАТОВ"

Портал Рефератов

Методы извлечения знаний

ВВЕДЕНИЕ

Наступивший XXI век станет этапным для проникновения новых информационных технологий и создаваемых на их основе высокопроизводительных компьютерных систем во все сферы человеческой деятельности - управление, производство, науку, образование и т.д. Конструируемые посредством этих технологий интеллектуальные компьютерные системы призваны усилить мыслительные способности человека, помочь ему находить эффективные решения так называемых плохо формализованных и слабоструктурированных задач, характеризующихся наличием различного типа неопределенностей и огромными поисковыми пространствами. Сложность таких задач усиливается зачастую необходимостью их решения в очень ограниченных временных рамках, например, при управлении сложными техническими объектами в аномальных режимах или при оперативном разрешении конфликтных (кризисных) ситуаций. Наибольшей эффективности современные интеллектуальные системы достигают при реализации их как интегрируемых систем, объединяющих различные модели и методы представления и оперирования знаниями, а также механизмы приобретения (извлечения) знаний из различных источников.

Понятие «управление знаниями» родилось в середине 1990-х годов в крупных корпорациях, где проблемы обработки информации приобрели критический характер. Постепенно пришло понимание того, что знания -- это фундаментальный ресурс, базирующийся на практическом опыте специалистов и на данных, существующих на конкретном предприятии. Компании, которые осознали ценность «знания» и наладили управление им, способны лучше использовать свои традиционные ресурсы, комбинировать их особыми способами, обеспечивая большую выгоду для потребителей, чем конкуренты[16].

Знания неявно стали одним из главных источников капитала. Цена акций может во много раз превышать их покрытие материальными активами компании-эмитента. Это особенно заметно в случае компаний так называемой новой экономики. Например, для акций компании Oracle соотношение цена/активы (рыночная капитализация, деленная на активы компании за вычетом долгов) составляет 17 к 1. Поэтому многие ведущие компании уже имеют в своем составе специального сотрудника -- chief knowledge officer, -- ответственного за создание инфраструктуры и культуры совместного использования знаний. Главная задача специалистов такого рода -- вычленять, систематизировать и тиражировать интеллектуальный капитал внутри корпораций. Знания при этом воспринимаются как ресурс, а обеспечение ими налаживается по принципу just-in-time (точно вовремя), используемому при снабжении материальными ресурсами производственного процесса. Однако применяются эти знания не столько в производственных, сколько в управленческих процессах, предполагающих принятие стратегических и оперативных решений [17].

Тема извлечения знаний привлекает внимание учёных как в Европе, так и во всём мире. Изучением данной темы занимаются У. Файяд, Г. Пятетский-Шапиро, Т. Гаврилова, Л. Григорьев, П. Смит, Дж. Сейферт, В. Фроли, Ц. Матеус, Е. Монк, Б. Вагнер, С.Хааг и др.

Data Mining переводится как «добыча» или «раскопка данных». Нередко рядом с Data Mining встречаются слова «обнаружение знаний в базах данных» (knowledge discovery in databases) и «интеллектуальный анализ данных». Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных [5].

До начала 90-х годов не было особой нужды переосмысливать ситуацию в этой области. Все шло своим чередом в рамках направления, называемого прикладной статистикой. Теоретики проводили конференции и семинары, писали внушительные статьи и монографии, изобиловавшие аналитическими выкладками. Вместе с тем, практики всегда знали, что попытки применить теоретические экзерсисы для решения реальных задач в большинстве случаев оказываются бесплодными. Но на озабоченность практиков до поры до времени можно было не обращать особого внимания - они решали главным образом свои частные проблемы обработки небольших локальных баз данных.

В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией? Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.

Специфика современных требований к такой переработке следующие:

§ данные имеют неограниченный объем;

§ данные являются разнородными (количественными, качественными, текстовыми);

§ результаты должны быть конкретны и понятны;

§ инструменты для обработки сырых данных должны быть просты в использовании.

Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина - концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для «грубого» разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP).

В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей.

Целью магистерской работы является изучение различных методов извлечения знаний, построение оптимальной системы Data Mining, позволяющей разбивать набор данных, представленных реляционными базами данных на кластеры.

Новизна магистерской работы заключается в том, что существующие системы кластеризации данных обладают недостатками: одни медленно работают с большими объёмами данных, однако дают качественную кластеризацию на маленьких наборах объектов, другие показывают хорошие результаты по скорости обработки данных, но при этом страдает качество. Таким образом, построение эффективной системы разбиения данных на кластеры является весьма актуальной задачей, ещё не до конца исследованной.

Использование баз данных (БД) и информационных систем(ИС) становится неотъемлемой составляющей деловой деятельности современного человека и функционирования преуспевающих организаций. В связи с этим большую актуальность приобретает освоение принципов построения и эффективного применения соответствующих технологий и программных продуктов: систем управления базами данных(СУБД), САSЕ-систем автоматизации проектирования, средств администрирования и зашиты БД и других.

Информационная система - взаимосвязанные данные, содержащие все сведения о хозяйственной или иной деятельности предприятия. Такая система позволяет облегчить труд человека, повысить качество и достоверность обрабатываемой информации. Основу ИС составляют хранящиеся в ней данные. Хранящиеся в ИС данные должны быть легко доступны, чтобы предоставлять достоверную информацию в определенное время, конкретному лицу, в определенном месте и с ограниченными затратами.

Ценность информации в современном мире очень высока. В основе решения многих задач лежит обработка информации. С развитием экономики и ростом численности населения возрастает и объем взаимосвязанных данных, необходимых для решения коммерческих и административных задач. Для облегчения обработки информации создается ИС. Такая система в первую очередь призвана облегчить труд человека, но для этого она должна как можно лучше соответствовать очень сложной модели реального мира. Автоматизированными называют ИС, в которых применяют технические средства, в частности ЭВМ.

Ядром ИС являются хранимые в ней данные, которые должны быть легко доступны в том виде, в каком они нужны для конкретной производственной деятельности предприятия. ИС обязаны предоставлять достоверную информацию в определенное время, определенному лицу, в определенном месте и с ограниченными затратами.

Объектом называется элемент ИС, о котором хранится информация. Объект может быть реальным (например, человек, какой-либо предмет или населенный пункт) и абстрактным (например, событие, счет покупателя или изучаемый студентами курс). Каждый объект обладает определенным набором свойств, которые запоминаются в ИС.

БД представляет собой совокупность специальным образом организованных данных, которые находятся в памяти вычислительной системы и отображают состояние объектов и их взаимосвязей в рассматриваемой предметной области. БД обеспечивают надежное хранение информации в структурированном виде и своевременный доступ к ней. Практически любая современная организация нуждается в БД, удовлетворяющей те или иные потребности по хранению, управлению и администрированию данных.

1 ПОСТАНОВКА ЗАДАЧИ

В основу проектирования БД должны быть положены представления конечных пользователей конкретной организации - концептуальные требования к системе. Именно конечный пользователь в своей работе принимает решения с учетом получаемой в результате доступа к БД информации. От оперативности и качества этой информации будет зависеть эффективность работы организации.

При рассмотрении требований конечных пользователей необходимо принимать во внимание следующее:

- БД должна удовлетворять актуальным информационным потребностям организации. Получаемая информация должна по структуре и содержанию соответствовать решаемым задачам.

- БД должна удовлетворять выявленным и вновь возникающим требованиям конечных пользователей.

- БД должна легко расширяться при реорганизации и расширении предметной области.

Данные до включения в БД должны проверяться на достоверность.

Необходимо разработать АРМ мастера механического цеха, которая включает в себе базу данних, позволяющую:

· принимать заказы на изготовление деталей в виде таблицы;

· просматривать полную информацию по всем заказам в таблице, а также добавлять нужную Вам информацию;

· просматривать список деталей по заданому заказу, а также список операций по выбранной детали для производства;

· просматривать полную информации по станкам и инструменту;

· просматривать полную информацию по рабочему персоналу;

· просматривать составы бригады по ее номеру, и вывода отчета по рабочему персоналу;

· Полного просмотра информации ОАО им. М.В. «Фрунзе».

2 АНАЛИЗ МЕТОДОВ АВТОМАТИЗИРОВАННОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ РЕЛЯЦИОННЫХ БАЗ ДАННЫХ

Рассматривается задача автоматического извлечения знаний из баз данных, решение которой ускорит создание интеллектуальных систем принятия решений. В настоящее время для ее решения предложено много методов, составляющих новую технологию Data Mining. Автоматизация извлечения знаний из баз данных должна учитывать следующую специфику:

Данные имеют неограниченный объем.

Данные являются разнородными (количественными, качественными, текстовыми).

Извлеченные знания должны быть конкретны и понятны.

Инструменты обнаружения знаний должны быть просты в использовании и работать при наличии простых данных.

2.1 Автоматизированное извлечение знаний из баз данных

Первоначально основным инструментом анализа данных были классические методы математической статистики, которые не могли эффективно обнаруживать скрытые закономерности в реальных данных. Главной причиной этому была концепция усреднения по выборке, приводящая к операциям над фиктивными величинами. Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для "грубого" предварительного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP).

В основу современных методов технологии Data Mining (discovery-driven data mining) положена концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам(классам) данных, которые могут быть компактно выражены в понятной человеку форме. Методы поиска шаблонов не ограничиваются рамками априорных предположений о структуре выборки и вида распределения значений анализируемых показателей. Важным достоинством технологии Data Mining является нетривиальность разыскиваемых шаблонов, т.е. они должны отражать неочевидные, неожиданные регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge).

Существующие системы Data Mining [5] дорогостоящие и не ориентированы на решение задач принятия решений. Самыми известными являются See5/С5.0 (RuleQuest, Австралия), Clementine (Integral Solutions, Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США), KnowledgeSeeker (ANGOSS, Канада). Стоимость этих систем варьируется от 1 до 10 тыс. долл. Поэтому в данной работе рассматривается создание подобной системы автоматического извлечения знаний из баз данных разного формата с возможностью принятия решения на основе выявленных знаний. Структура разрабатываемой системы приведена на рис. 2.1.

Рис. 2.1 - Структура системы извлечения знаний из баз данных

Пользовательский интерфейс обеспечивает доступ ко всем возможностям

системы и управляет процессами извлечения знаний и принятием решений. Качество обнаружения знаний во многом зависит от участии пользователя. Первичная подготовка данных осуществляется в блоке перевода данных во внутреннее представление, учитывающие особенности алгоритмов извлечения знаний. Блок обнаружения знаний основан на алгоритме CLS [6], который выявляет скрытые закономерности в данных. Эти закономерности формируются в виде деревьев решений и сохраняются в базе знаний в форме продукционных правил. Извлечённые знания могут пополнять существующую базу знаний некоторой экспертной системы или сразу использоваться для выработки рекомендаций по достижению поставленных целей.

Алгоритм CLS циклически разбивает обучающие примеры на классы в соответствии с переменной, имеющей наибольшую классифицирующую силу. Каждое подмножество примеров (объектов), выделяемое такой переменной, вновь разбивается на классы с использованием следующей переменной с наибольшей классифицирующей способностью и т. д. Разбиение заканчивается,

когда в подмножестве оказываются объекты лишь одного класса. В ходе процесса формируется дерево решений. Пути движения по этому дереву от его корня к листьям определяют логические правила в виде цепочек конъюнкций.

Оценка эффективности алгоритма выполнялась на интеллектуальном анализе медицинских данных небольшого объёма - 74 записи. Из них были выявлены знания в количестве 9 продукций. Для увеличения практической значимости разрабатываемой системы (EasyGetKnowledge) намечается расширить ориентацию алгоритма извлечения на базы данных различного формата.

2.1.1 Алгоритм построения деревьев решений для системы автоматизированного извлечения знаний

Формально задача автоматического извлечения знаний из баз данных может быть описана следующим образом. Предметная область представляется в виде реляционной модели данных, которая описывается отношением R, являющимся подмножеством кортежей декартового произведения:

R(DX1, …, DXn, DY1, ..,DYm) = {< x1, …, xn, y1, …, ym>¦xi Є DXi,

yj Є DYj, I = 1..n, j = 1..m8P(x1, …, xn, y1, …,ym) }, (2.1)

где xi -значения входных атрибутов Xi из домена DXi;

yi -значения выходных атрибутов Yi из домена DYi;

P(x1,…,xn,y1,…,ym)- предикат, описывающий условия отображения конкретной предметной области в кортежи значений атрибутов < x1,…,xn,y1,…,ym>.

Необходимо сформировать отображение в виде набора правил:

{X1,X2,..,Xn}-> {Y1,Y2,…,Ym} (2.2)

ставящих каждому входному набору значений {xi=DXi, i=1..n} в соответствие некоторый набор целевых значений {yj=DYj, j=1..m}. Полученные функциональные зависимости:

Yj = Fj(X1,X2,….,Xn), j=1..m (2.3)

должны быть верны для кортежей отношения (1) и могут быть использованы при нахождении выходных атрибутов Yj для новых значений входных атрибутов Xi (i=1..n).

Для автоматизированного извлечения знаний использовался метод CART (classification and regression trees) из класса методов деревьев решений. Данный подход является самым распространенным в настоящее время способом выявления, структурирования и графического представления логических закономерностей в данных. Его преимущества заключаются в следующем[33]:

• быстрый процесс обнаружения знаний;

• генерация правил в предметных областях, в которых трудно формализуются знания;

• извлечение правил на естественном языке;

• создание интуитивно понятной классификационной модели предметной области;

• прогноз с высокой точностью, сопоставимой с другими методами (статистическими и нейросетевыми);

• построение непараметрических моделей.

Хорошая эволюция и достигнутый уровень формализации методов послужили основанием использовать процедуру CART, как лучший из этого класса, в блоке извлечения знаний. В данном алгоритме можно выделить три операции, от реализации которых зависит его трудоёмкость и качество обнаружения знаний: сортировка источника данных при формировании множества условий U для атрибутов числового типа, вычисление критерия Gini [33] при разбиении узлов бинарного дерева, перемещение в таблице значительных объёмов информации при делении узла.

Покажем вычислительные затраты при классификации одного узла дерева. Пусть узлу, для которого осуществляется классификация, соответствует M объектов (строк) сводной таблицы. Каждая строка таблицы рассматривается как один пример обучающей выборки. Параметром N обозначим количество атрибутов таблицы без учёта целевого атрибута. Предположим, что в базе данных содержатся только атрибуты категорийного типа, имеющие в среднем Ncp значений.

Для определения необходимости последующего деления узла потребуется

M проверок. Рассмотрим случай, когда из узла порождаются узлы-потомки. В этом случае для каждого атрибута формируются 2Ncp-1-1 возможных условий ui принадлежит U (|U|=2Ncp-1-1) (2.4), которые определяют варианты разбиения узла. Эта операция реализуется M проверками. Отбор наилучшего варианта разбиения узла дерева проводится по наибольшей классифицирующей силе, вычисляемой по критерию Gini :

(2.4)

Из формулы (2.4) видно, что её вычислительная сложность состоит из суммы следующих операций: подсчёт элементов li, ri класса i (i=1..Ncp) в множествах L и R и вычисление индекса Gini. Подсчёт объектов каждого класса занимает M операций, а вычисление индекса Gini выполняется за 2•Ncp+2 операций. Следовательно, классификация узла по условию ui и отбор наилучшего разбиения занимает в целом 2M + 2Ncp операций. Тогда для каждого категорийного атрибута потребуется (2M + 2Ncp)•( 2Ncp-1-1) операций. А так как таблица имеет N атрибутов, то классификация одного узла без учёта разделения будет занимать (2M + 2Ncp)•(2Ncp-1-1)•N +M условных операций. На примере таблицы, содержащей 1000 строк, 10 категорийных атрибутов с 5 возможными значениями, разбиение корневого узла дерева потребует приблизительно 300 000 условных операций, что значительно меньше полного перебора.

В качестве предметной области для проведения интеллектуального анализа

рассмотрена медицинская диагностика. Часть данных (90%) использовалась для извлечения знаний, а остальные 10% - для оценки качества прогнозирования исходов лечения. При этом правильно было спрогнозировано 48 исходов лечения из 70. Для увеличения эффективности алгоритма планируется использование генетических алгоритмов для увеличение точности прогноза в узлах дерева содержащих небольшое количество элементов.

2.1.2 Интеллектуальный анализ данных Data Mining

Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.

До начала 90-х годов, казалось, не было особой нужды переосмысливать ситуацию в этой области. Все шло своим чередом в рамках направления, называемого прикладной статистикой . Теоретики проводили конференции и семинары, писали внушительные статьи и монографии, изобиловавшие аналитическими выкладками.

Вместе с тем, практики всегда знали, что попытки применить теоретические экзерсисы для решения реальных задач в большинстве случаев оказываются бесплодными. Но на озабоченность практиков до поры до времени можно было не обращать особого внимания - они решали главным образом свои частные проблемы обработки небольших локальных баз данных.

В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Стало ясно, что без продуктивной переработки данных образуют никому не нужный обьем информации.

Специфика современных требований к такой переработке следующие:

• Данные имеют неограниченный объем

• Данные являются разнородными (количественными, качественными,

текстовыми)

• Результаты должны быть конкретны и понятны

• Инструменты для обработки сырых данных должны быть просты в использовании

Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина - концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для "грубого" разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP).

Таблица 2.1 - Примеры формулировок задач при использовании методов OLAP и Data Mining [34]

OLAP	DATA Mining
Каковы средние показатели травматизма для крутящих и не крутящих	Какие факторы лучше предсказывают несчастные случаи ?
Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)	Какие характеристики отличают клиентов, которые по всей вероятности, собираются отказаться от услуг телефонной компании
Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточки	Какие схемы покупок характерны для мошенничества с кредитными карточками

Важное положение Data Mining - нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие

так называемые скрытые знания (hidden knowledge). К обществу пришло понимание, что сырые данные (raw data) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки (рис. 2.2).

В целом технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро - один из основателей этого направления:

Data Mining - это процесс обнаружения в сырых данных

ь ранее неизвестных

ь нетривиальных

ь практически полезных

ь и доступных интерпретации знаний,

ь необходимых для принятия решений в различных сферах

ь человеческой деятельности.

Сфера применения Data Mining ничем не ограничена - она везде, где имеются какие-либо данные. Но в первую очередь методы Data Mining сегодня, мягко говоря, заинтриговали коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных (Data Warehousing). Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигать 1000%. Например, известны сообщения об экономическом эффекте, в 10-70 раз превысившем первоначальные затраты от 350 до 750 тыс. дол.[35]. Известны сведения о проекте в 20 млн. дол., который окупился всего за 4 месяца. Другой пример - годовая экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в Великобритании.

Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе. Кратко охарактеризуем некоторые возможные бизнес-приложения Data Mining .

2.1.3 Приложения Data Mining

Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Вот типичные задачи, которые можно решать с помощью Data Mining в сфере розничной торговли:

v анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах.

v исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов. Оно дает ответы на вопросы типа "Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего купит новые батарейки и пленку?"

v создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи. Эти знания нужны для разработки точно направленных, экономичных мероприятий по продвижению товаров.

Достижения технологии Data Mining используются в банковском деле для решения следующих распространенных задач:

v выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет некоторые стереотипы такого мошенничества.

v сегментация клиентов. Разбивая клиентов на различные категории, банки делают свою маркетинговую политику более целенаправленной и результативной, предлагая различные виды услуг разным группам клиентов.

v прогнозирование изменений клиентуры. Data Mining помогает банкам строить прогнозные модели ценности своих клиентов, и соответствующим образом обслуживать каждую категорию.

В области телекоммуникаций методы Data Mining помогают компаниям более энергично продвигать свои программы маркетинга и ценообразования, чтобы удерживать существующих клиентов и привлекать новых. Среди типичных мероприятий отметим следующие:

v анализ записей о подробных характеристиках вызовов. Назначение такого анализа - выявление категорий клиентов с похожими стереотипами пользования их услугами и разработка привлекательных наборов цен и услуг;

v выявление лояльности клиентов. Data Mining можно использовать для определения характеристик клиентов, которые, один раз воспользовавшись услугами данной компании, с большой долей вероятности останутся ей верными. В итоге средства, выделяемые на маркетинг, можно тратить там, где отдача больше всего.

Страховые компании в течение ряда лет накапливают большие объемы данных. Здесь обширное поле деятельности для методов Data Mining:

- страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате страхового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями.

- путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышает суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.

Data Mining может применяться во множестве других областей:

v развитие автомобильной промышленности. При сборке автомобилей производители должны учитывать требования каждого отдельного клиента, поэтому им нужны возможность прогнозирования популярности определенных характеристик и знание того, какие характеристики обычно заказываются вместе;

v политика гарантий. Производителям нужно предсказывать число клиентов, которые подадут гарантийные заявки, и среднюю стоимость заявок;

v поощрение часто летающих клиентов. Авиакомпании могут обнаружить группу клиентов, которых данными поощрительными мерами можно побудить летать больше. Например, одна авиакомпания обнаружила категорию клиентов, которые совершали много полетов на короткие расстояния, не накапливая достаточно миль для вступления в их клубы, поэтому она таким образом изменила правила приема в клуб, чтобы поощрять число полетов так же, как и мили.

2.1.4 Типы закономерностей

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование.

Типы закономерностей, выявляемых методами Data Mining:

• ассоциация;

• последовательность;

• кластеризация;

• классификация;

• прогнозирование.

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.

Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.

С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.

Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.

Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.

2.1.5 Классы систем Data Mining

Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. (типов закономерностей, выявляемых методами Data Mining). Отсюда обилие методов

и алгоритмов, реализованных в различных действующих системах Data Mining. Многие из таких систем интегрируют в себе сразу несколько подходов. Тем не менее, как правило, в каждой системе имеется какая-то ключевая компонента, на которую делается главная ставка. Ниже приводится классификация указанных ключевых компонент на основе работы [36]. Выделенным классам дается краткая характеристика.

Рис. 2.3 - Data Mining - мультидисциплинарная область

Популярные продукты для DATA Mining:

• Lementine;

• PRW;

• CainSmarts;

• Datamind;

• M1 model 1;

• psOLPARS;

• Cart;

• Cognos;

• S-Plus;

• Wizwhu;

• NeuroShell 2.

Предметно-ориентированные аналитические системы.

Предметно-ориентированные аналитические системы очень разнообразны. Наиболее широкий подкласс таких систем, получивший распространение в области исследования финансовых рынков, носит название "технический анализ". Он представляет собой совокупность нескольких десятков методов прогноза динамики цен и выбора оптимальной структуры инвестиционного портфеля, основанных на различных эмпирических моделях динамики рынка. Эти методы часто используют несложный статистический аппарат, но максимально учитывают сложившуюся своей области специфику (профессиональный язык, системы различных индексов и пр.). На рынке имеется множество программ этого класса. Как правило, они довольно дешевы (обычно $300-1000).

Статистические пакеты

Последние версии почти всех известных статистических пакетов включают наряду с традиционными статистическими методами также элементы Data Mining. Но основное внимание в них уделяется все же классическим методикам - корреляционному, регрессионному, факторному анализу и другим. Самый свежий детальный обзор пакетов для статистического анализа приведен на страницах ЦЭМИ http://is1.cemi.rssi.ru/ruswin/index.htm. Недостатком систем этого класса считают требование к специальной подготовке пользователя. Также отмечают, что мощные современные статистические пакеты являются слишком "тяжеловесными" для массового применения в финансах и бизнесе. К тому же часто эти системы весьма дороги - от $1000 до $15000.

Есть еще более серьезный принципиальный недостаток статистических пакетов, ограничивающий их применение в Data Mining. Большинство методов, входящих в состав пакетов опираются на статистическую парадигму, в которой главными фигурантами служат усредненные характеристики выборки. А эти характеристики, как указывалось выше, при исследовании реальных сложных жизненных феноменов часто являются фиктивными величинами.

В качестве примеров наиболее мощных и распространенных статистических пакетов можно назвать SAS (компания SAS Institute), SPSS (SPSS), STATGRAPICS (Manugistics), STATISTICA, STADIA и другие.

2.2 Кластерный анализ

2.2.1 Концептуальная кластеризация как метод извлечения знаний из баз данных.

Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. В этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе.

Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам". Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Согласно теории кластерный анализ определяет "наиболее возможно значимое решение". Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны p-уровни).

Для решения задачи кластеризации (clustering problem) необходим набор неклассифицированных объектов и средства измерения подобия объектов. Целью кластеризации является организация объектов в классы, удовлетворяющие некоторому стандарту качества, например на основе максимального сходства объектов каждого класса [11].

Числовая таксономия (numeric taxonomy) - один из первых подходов к решению задач кластеризации. Числовые методы основываются на представлении объектов с помощью набора свойств, каждое из которых может принимать некоторое числовое значение. При наличии корректной метрики подобия каждый объект (вектор из n значений признаков) можно рассматривать как точку в n-мерном пространстве. Мерой сходства двух объектов можно считать расстояние между ними в этом пространстве.

Многие алгоритмы кластеризации, как и многие алгоритмы обучения с учителем, определяют категории в терминах необходимых и достаточных условий принадлежности к этим категориям. Эти условия представляют собой наборы признаков, свойственных каждому элементу категории и отличных от признаков другой категории. Таким образом можно описать многие категории, однако человеческие категории не всегда соответствуют этой модели. На самом деле они характеризуются большей гибкостью и более разветвлённой структурой. Человеческие категории определяются сложной системой сходства между элементами, а не необходимыми и достаточными условиями принадлежности членов. При такой категоризации может не существовать свойств, общих для всех элементов класса. Эти проблемы учтены в системе COBWEB [10]. В данной системе реализован инкрементальный алгоритм обучения, не требующий представления всех обучающих примеров до начала обучения. Во многих приложениях обучаемая система получает данные, зависящие от времени. В этом случае она должна строить полезные определения понятий на основе исходных данных и обновлять эти описания с появлением новой информации. В системе COBWEB также решена проблема определения корректного числа кластеров. Подход, когда количество кластеров определяется пользователем нельзя назвать гибким. В системе COBWEB для определения количества кластеров, глубины иерархии и принадлежности категории новых экземпляров используется глобальная метрика качества. При предъявлении нового экземпляра система COBWEB оценивает качество отнесения этого примера к существующей категории и модификации иерархии категорий в соответствии с новым представителем. Критерием оценки качества классификации является полезность категории (category utility). Критерий полезности категории был определён при исследовании человеческой категоризации. Он учитывает влияние категорий базового уровня и другие аспекты структуры человеческих категорий.

Критерий полезности категории максимизирует вероятность того, что два объекта, отнесённые к одной категории, имеют одинаковые значения свойств и значения свойств для объектов из различных категорий отличаются. Полезность категории определяется формулой:

Значения суммируются по всем категориям , всем свойствам и всем значениям свойств . Значение называется предсказуемостью (predictability). Это вероятность того, что объект, для которого свойство принимает значение , относится к категории . Чем выше это значение, тем вероятнее, что свойства двух объектов, отнесённых к одной категории, имеют одинаковые значения. Величина называется предиктивностью (predictiveness). Это вероятность того, что для объектов из категории свойство принимает значение . Чем больше эта величина, тем менее вероятно, что для объектов, не относящихся к данной категории, это свойство будет принимать указанное значение. Значение - это весовой коэффициент, усиливающий влияние наиболее распространённых свойств. Благодаря совместному учёту этих значений высокая полезность категории означает высокую вероятность того, что объекты из одной категории обладают одинаковыми свойствами, и низкую вероятность наличия этихсвойств у объектов из других категорий [11].

Этот алгоритм достаточно эффективен и выполняет кластеризацию на разумное число кластеров. Поскольку в нем используется вероятностное представление принадлежности, получаемые категории являются гибкими и робастными. Кроме того, в нем проявляется эффект категорий базового уровня, поддерживается прототипирование и учитывается степень принадлежности. Эта концепция будет использована в системе извлечения знаний из реляционных баз данных.

Одним из основных подходов в «обнаружении знаний в данных» (Data Mining) является кластеризация. Кластеризация служит для объединения больших объемов данных в группы (кластеры), которые характеризуются тем, что элементы внутри каждой группы имеют больше «сходства» между собой, чем между элементами соседних кластеров. В целом, все методы кластеризации можно подразделить на иерархические и неиерархические. Последние чаще всего используются при анализе больших объемов данных, т.к. они обладают большей скоростью [6].

Кластерный анализ позволяет открыть в данных ранее неизвестные закономерности, которые практически невозможно исследовать другими способами и представить их в удобной для пользователя форме. Методы кластерного анализа используются как самостоятельные инструменты исследований, так и в составе других средств Data Mining (например, нейросетей).

Кластерный анализ применяется для обработки больших объемов данных, от 10 тысяч записей до миллионов, каждая из которых может содержать сотни атрибутов, и широко используется в распознавании образов, финансах, страховом деле, демографии, торговле, маркетинговых исследованиях, медицине, химии, биологии и др.

К настоящему времени разработано большое число методов кластеризации, применяющихся к данным числового типа. В области нечисловых (категориальных) данных общепринятых методов гораздо меньше.(ROCK,

DBSCAN, BIRTH, CP, CURE и др.) Обработка данных смешанного типа в настоящий момент вызывает значительные трудности и является областью исследований.

Рекомендуемые этапы процесса кластерного анализа.

В общем случае все этапы кластерного анализа взаимосвязаны, и решения, принятые на одном из них, определяют действия на последующих этапах [14].

Аналитику следует решить, использовать ли все наблюдения либо же исключить некоторые данные или выборки из набора даннях:

· Выбор метрики и метода стандартизации исходных данных.

· Определение количества кластеров (для итеративного кластерного анализа).

· Определение метода кластеризации (правила объединения или связи).

По мнению специалистов, выбор метода кластеризации является решающим при определении формы и специфики кластеров.

Анализ результатов кластеризации. Этот этап подразумевает решение таких вопросов: не является ли полученное разбиение на кластеры случайным; является ли разбиение надежным и стабильным на подвыборках данных; существует ли взаимосвязь между результатами кластеризации и переменными, которые не участвовали в процессе кластеризации; можно ли интерпретировать полученные результаты кластеризации.

Проверка результатов кластеризации. Результаты кластеризации также должны быть проверены формальными и неформальными методами. Формальные методы зависят от того метода, который использовался для кластеризации. Неформальные включают следующие процедуры проверки качества кластеризации:

· анализ результатов кластеризации, полученных на определенных выборках набора данных;

· кросс-проверка;

· проведение кластеризации при изменении порядка наблюдений в наборе данных;

· проведение кластеризации при удалении некоторых наблюдений;

· проведение кластеризации на небольших выборках.

Один из вариантов проверки качества кластеризации - использование нескольких методов и сравнение полученных результатов. Отсутствие подобия не будет означать некорректность результатов, но присутствие похожих групп считается признаком качественной кластеризации.

Как и любые другие методы, методы кластерного анализа имеют определенные слабые стороны, т.е. некоторые сложности, проблемы и ограничения.

При проведении кластерного анализа следует учитывать, что результаты кластеризации зависят от критериев разбиения совокупности исходных данных. При понижении размерности данных могут возникнуть определенные искажения, за счет обобщений могут потеряться некоторые индивидуальные характеристики объектов.

Существует ряд сложностей, которые следует продумать перед проведением кластеризации.

Сложность выбора характеристик, на основе которых проводится кластеризация. Необдуманный выбор приводит к неадекватному разбиению

на кластеры и, как следствие, - к неверному решению задачи.

Сложность выбора метода кластеризации. Этот выбор требует неплохого знания методов и предпосылок их использования. Чтобы проверить эффективность конкретного метода в определенной предметной области, целесообразно применить следующую процедуру: рассматривают несколько априори различных между собой групп и перемешивают их представителей между собой случайным образом. Далее проводится кластеризация для восстановления исходного разбиения на кластеры. Доля совпадений объектов в выявленных и исходных группах является показателем эффективности работы метода.

Проблема выбора числа кластеров. Если нет никаких сведений относительно возможного числа кластеров, необходимо провести ряд экспериментов и, в результате перебора различного числа кластеров, выбрать оптимальное их число.

Проблема интерпретации результатов кластеризации. Форма кластеров в большинстве случаев определяется выбором метода объединения. Однако следует учитывать, что конкретные методы стремятся создавать кластеры определенных форм, даже если в исследуемом наборе данных кластеров на самом деле нет.

2.2.2 Решения задачи кластеризации

В области машинного обучения широко применяются методы кластерного анализа. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний даёт возможность широко использовать таксономию. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии. Известны широкие применения кластерного анализа в маркетинговых исследованиях, археологии. Таким образом, в тех случаях, когда необходимо классифицировать большое количество информации для формирования знаний о предметной области, кластерный анализ оказывается весьма полезным и эффективным.

Для решения задачи кластеризации (clustering problem) требуются набор неклассифицированных объектов и средства измерения их подобия. Целью кластеризации является организация объектов в классы, удовлетворяющие некоторому стандарту качества, например, на основе максимального сходства объектов каждого класса.

Одним из первых подходов решения задач кластеризации является числовая таксономия (numeric taxonomy). Численные методы основываются на представлении объектов с помощью свойств, каждое из которых может принимать некоторое числовое значение. При наличии корректной метрики подобия каждый объект (вектор из n значений признаков) рассматривают как точку в n-мерном пространстве. Используя метрику подобия, алгоритмы кластеризации этой группы строят классы по принципу «снизу вверх». В рамках этого подхода, также называемого стратегией накопительной кластеризации (agglomerative clustering), категории формируются следующим образом:

1) среди всех пар объектов выбирается пара с максимальной степенью подобия, которая и становится кластером;

2) определяются свойства кластера как некоторые функции свойств элементов (например, среднее значение), и компоненты объектов заменяются этими значениями признаков;

3) процесс повторяется до тех пор, пока все объекты не будут отнесены к одному кластеру.

Результатом работы такого алгоритма является бинарное дерево, листья которого соответствуют экземплярам, а внутренние узлы - кластерам более общего вида. Данный алгоритм обучения без учителя оценивает плотность по методу максимального правдоподобия. Это означает построение такого распределения, которому с наибольшей вероятностью подчиняются входные объекты.

Примером такой кластеризации является система COBWEB [10]. Не претендуя на лучшую модель человеческого познания, эта система учитывает категории базового уровня и степень принадлежности элемента соответствующей категории. Кроме того, в программе COBWEB реализован инкрементальный алгоритм обучения, не требующий представления всех обучающих примеров до начала обучения. Во многих приложениях обучаемая система получает данные, зависящие от времени. В этом случае она должна строить полезные определения понятий на основе исходных данных и обновлять эти описания с появлением новой информации. В системе COBWEB также решена проблема определения корректного числа кластеров. Подход, когда количество кластеров определяется пользователем нельзя назвать гибким. В системе COBWEB для определения количества кластеров, глубины иерархии и принадлежности категории новых экземпляров используется глобальная метрика качества.

В системе COBWEB реализовано вероятностное представление категорий. Принадлежность категории определяется не набором значений каждого свойства объекта, а вероятностью появления значения. Также в системе реализован метод поиска экстремума в пространстве возможных кластеров с использованием критерия полезности категорий для оценки и выбора возможных способов категоризации.

Этот алгоритм достаточно эффективен и выполняет кластеризацию на разумное число кластеров. Поскольку в нем используется вероятностное представление принадлежности, получаемые категории являются гибкими и робастными. Кроме того, в нем проявляется эффект категорий базового уровня, поддерживается прототипирование и учитывается степень принадлежности. Он основан не на классической логике, а, подобно методам теории нечетких множеств, учитывает «неопределенность» категоризации как необходимый компонент обучения и рассуждений в гибкой и интеллектуальной манере.

Программа COBWEB является недоступной, и дальнейшая работа будет направлена на реализацию алгоритмов кластеризации для извлечения знаний в прикладных областях.

2.3 Неиерархические методы кластеризации

При большом количестве наблюдений иерархические методы кластерного анализа не пригодны. В таких случаях используют неиерархические методы, основанные на разделении, которые представляют собой итеративные методы дробления исходной совокупности. В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки.

Такая неиерархическая кластеризация состоит в разделении набора данных на определенное количество отдельных кластеров. Существует два подхода. Первый заключается в определении границ кластеров как наиболее плотных участков в многомерном пространстве исходных данных, т.е. определение кластера там, где имеется большое «сгущение точек». Второй подход заключается в минимизации меры различия объектов.

Алгоритм k-средних (k-means)

Наиболее распространен среди неиерархических методов алгоритм k-средних, также называемый быстрым кластерным анализом. Полное описание алгоритма можно найти в работе Хартигана и Вонга (Hartigan and Wong, 1978). В отличие от иерархических методов, которые не требуют предварительных предположений относительно числа кластеров, для возможности использования этого метода необходимо иметь гипотезу о наиболее вероятном количестве кластеров. Алгоритм k-средних строит k кластеров, расположенных на возможно больших расстояниях друг от друга. Основной тип задач, которые решает алгоритм k-средних, - наличие предположений (гипотез) относительно числа кластеров, при этом они должны быть различны настолько, насколько это возможно. Выбор числа k может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции. Общая идея алгоритма: заданное фиксированное число k кластеров наблюдения сопоставляются кластерам так, что средние в кластере (для всех переменных) максимально возможно отличаются друг от друга. Описание алгоритма. 1. Первоначальное распределение объектов по кластерам. Выбирается число k, и на первом шаге эти точки считаются «центрами» кластеров. Каждому кластеру соответствует один центр. Выбор начальных центроидов может осуществляться следующим образом: - выбор k-наблюдений для максимизации начального расстояния; - случайный выбор k-наблюдений; - выбор первых k-наблюдений. В результате каждый объект назначен определенному кластеру. 2. Итеративный процесс. Вычисляются центры кластеров, которыми затем и далее считаются покоординатные средние кластеров. Объекты опять перераспределяются. Процесс вычисления центров и перераспределения объектов продолжается до тех пор, пока не выполнено одно из условий: - кластерные центры стабилизировались, т.е. все наблюдения принадлежат кластеру, которому принадлежали до текущей итерации; - число итераций равно максимальному числу итераций. На рисунке 2.4 приведен пример работы алгоритма k-средних для k, равного двум.

Рис. 2.4 - Пример работы алгоритма k-средних (13 кадров, 12 повторений).

Выбор числа кластеров является сложным вопросом. Если нет предположений относительно этого числа, рекомендуют создать 2 кластера, затем 3, 4, 5 и т.д., сравнивая полученные результаты.

Проверка качества кластеризации. После получений результатов кластерного анализа методом k-средних следует проверить правильность кластеризации (т.е. оценить, насколько кластеры отличаются друг от друга). Для этого рассчитываются средние значения для каждого кластера. При хорошей кластеризации должны быть получены сильно отличающиеся средние для всех измерений или хотя бы большей их части.

Достоинства алгоритма k-средних: * простота использования; * быстрота использования; * понятность и прозрачность алгоритма.

Недостатки алгоритма k-средних: * алгоритм слишком чувствителен к выбросам, которые могут искажать среднее. Возможным решением этой проблемы является использование модификации алгоритма - алгоритм k-медианы; * алгоритм может медленно работать на больших базах данных. Возможным решением данной проблемы является использование выборки данных.

Алгоритм PAM (Partitioning around Medoids)

PAM является модификацией алгоритма k-средних, алгоритмом k-медианы (k-medoids).

Алгоритм менее чувствителен к шумам и выбросам данных, чем алгоритм k-means, поскольку медиана меньше подвержена влияниям выбросов.

PAM эффективен для небольших баз данных, но его не следует использовать для больших наборов данных.

Предварительное сокращение размерности рассмотрим на примере. Есть база данных клиентов фирмы, которых следует разбить на однородные группы. Каждый клиент описывается при помощи 25 переменных. Использование такого большого числа переменных приводит к выделению кластеров нечеткой структуры. В результате аналитику достаточно сложно интерпретировать полученные кластеры.

Более понятные и прозрачные результаты кластеризации могут быть получены, если вместо множества исходных переменных использовать некие обобщенные переменные или критерии, содержащие в сжатом виде информацию о связях между переменными. Т.е. возникает задача понижения размерности данных. Она может решаться при помощи различных методов; один из наиболее распространенных - факторный анализ. Остановимся на нем более подробно.

Факторный анализ

Факторный анализ - это метод, применяемый для изучения взаимосвязей между значениями переменных. Вообще, факторный анализ преследует две цели: * сокращение числа переменных; * классификацию переменных - определение структуры взаимосвязей между переменными.

Соответственно, факторный анализ может использоваться для решения задач сокращения размерности данных или для решения задач классификации.

Критерии или главные факторы, выделенные в результате факторного анализа, содержат в сжатом виде информацию о существующих связях между переменными. Эта информация позволяет получить лучшие результаты кластеризации и лучше объяснить семантику кластеров. Самим факторам может быть сообщен определенный смысл.

При помощи факторного анализа большое число переменных сводится к меньшему числу независимых влияющих величин, которые называются факторами.

Фактор в «сжатом» виде содержит информацию о нескольких переменных. В один фактор объединяются переменные, которые сильно коррелируют между собой. В результате факторного анализа отыскиваются такие комплексные факторы, которые как можно более полно объясняют связи между рассматриваемыми переменными.

На первом шаге факторного анализа осуществляется стандартизация значений переменных, необходимость которой была рассмотрена в предыдущей лекции.

Факторный анализ опирается на гипотезу о том, что анализируемые переменные являются косвенными проявлениями сравнительно небольшого числа неких скрытых факторов.

Факторный анализ - это совокупность методов, ориентированных на выявление и анализ скрытых зависимостей между наблюдаемыми переменными. Скрытые зависимости также называют латентными.

Один из методов факторного анализа - метод главных компонент - основан на предположении о независимости факторов друг от друга.

Итеративная кластеризация в SPSS

Обычно в статистических пакетах реализован широкий арсенал методов, что позволяет сначала провести сокращение размерности набора данных (например, при помощи факторного анализа), а затем уже собственно кластеризацию (например, методом быстрого кластерного анализа). Рассмотрим этот вариант проведения кластеризации в пакете SPSS.

Для сокращения размерности исходных данных можно воспользоваться факторным анализом. Для этого в меню выбирается: Analyze (Анализ)/Data Reduction (Преобразование данных)/Factor (Факторный анализ):

При помощи кнопки Extraction:(Отбор) можно выбрать метод отбора. Также можно выбрать метод вращения - например, один из наиболее популярных - метод варимакса. Для сохранения значений факторов в виде переменных в закладке «Значения» необходимо поставить отметку «Save as variables» (Сохранить как переменные).

В результате этой процедуры пользователь получает отчет «Объясненная суммарная дисперсия», по которой видно число отобранных факторов - это те компоненты, собственные значения которых превосходят единицу.

Полученные значения факторов, которым обычно присваиваются названия fact1_1, fact1_2 и т.д., используем для проведения кластерного анализа методом k-средних. Для проведения быстрого кластерного анализа в меню необходимо выбрать: Analyze (Анализ)/Classify(Классифицировать)/K-Means Cluster: (Кластерный анализ методом k-средних).

В диалоговом окне K Means Cluster Analysis (Кластерный анализ методом k-средних) необходимо поместить факторные переменные fact1_1, fact1_2 и т.д. в поле тестируемых переменных. Здесь же необходимо указать количество кластеров и количество итераций.

В результате этой процедуры получаем отчет с выводом значений центров сформированных кластеров, количестве наблюдений в каждом кластере, а также с дополнительной информацией, заданной пользователем.

Таким образом, алгоритм k-средних делит совокупность исходных данных на заданное количество кластеров. Для возможности визуализации полученных результатов следует воспользоваться одним из графиков, например, диаграммой рассеивания. Однако традиционная визуализация возможна для ограниченного количества измерений, ибо, как известно, человек может воспринимать только трехмерное пространство. Поэтому, если мы анализируем более трех переменных, следует использовать специальные многомерные методы представления информации, о них будет рассказано в одной из последующих лекций курса.

Итеративные методы кластеризации различаются выбором следующих параметров: - начальной точки; - правилом формирования новых кластеров; - правилом остановки.

Выбор метода кластеризации зависит от количества данных и от того, есть ли необходимость работать одновременно с несколькими типами данных.

В пакете SPSS, например, при необходимости работы как с количественными (например, доход), так и с категориальными (например, семейное положение) переменными, а также если объем данных достаточно велик, используется метод Двухэтапного кластерного анализа, который представляет собой масштабируемую процедуру кластерного анализа, позволяющую работать с данными различных типов.

Для этого на первом этапе работы записи предварительно кластеризуются в большое количество суб-кластеров. На втором этапе полученные суб-кластеры группируются в необходимое количество. Если это количество неизвестно, процедура сама автоматически определяет его. При помощи этой процедуры банковский работник может, например,выделять группы людей, одновременно используя такие показатели как возраст, пол и уровень дохода. Полученные результаты позволяют определить клиентов, входящих в группы риска невозврата кредита.

2.4 Алгоритм COBWEB

Примером кластеризации также является система COBWEB. Не претендуя на лучшую модель человеческого познания, эта система учитывает категории базового уровня и степень принадлежности элемента соответствующей категории. Кроме того, в программе COBWEB реализован инкрементальный алгоритм обучения, не требующий представления всех обучающих примеров до начала обучения. Во многих приложениях обучаемая система получает данные, зависящие от времени. В этом случае она должна строить полезные определения понятий на основе исходных данных и обновлять эти описания с появлением новой информации. В системе COBWEB также решена проблема определения корректного числа кластеров. Подход, когда количество кластеров определяется пользователем нельзя назвать гибким. В системе COBWEB для определения количества кластеров, глубины иерархии и принадлежности категории новых экземпляров используется глобальная метрика качества[11.10.32] .

При предъявлении нового экземпляра система COBWEB оценивает качество отнесения этого примера к существующей категории и модификации иерархии категорий в соответствии с новым представителем. Критерием оценки качества классификации является полезность категории (category utility). Критерий полезности категории был определён при исследовании человеческой категоризации. Он учитывает влияние категорий базового уровня и другие аспекты структуры человеческих категорий.

(2.5)

Значение - это весовой коэффициент, усиливающий влияние наиболее распространённых свойств. Благодаря совместному учёту этих значений высокая полезность категории означает высокую вероятность того, что объекты из одной категории обладают одинаковыми свойствами, и низкую вероятность наличия этих свойств у объектов из других категорий.

В системе COBWEB реализован метод поиска экстремума в пространстве возможных кластеров с использованием критерия полезности категорий для оценки и выбора возможных способов категоризации. Сначала вводится единственная категория, свойства которой совпадают со свойствами первого экземпляра. Для каждого последующего экземпляра алгоритм начинает свою работу с корневой категории и движется далее по дереву. На каждом уровне выполняется оценка эффективности категоризации на основе критерия полезности. При этом оцениваются результаты следующих операций:

· отнесение экземпляра к наилучшей из существующих категорий;

· добавление новой категории, содержащей единственный экземпляр;

· слияние двух существующих категорий в одну новую ;

· добавлением в неё этого экземпляра;

· разбиение существующей категории на две и отнесение экземпляра к лучшей из вновь созданных категорий.

3 ОБЗОР И СРАВНИТЕЛЬНАЯ ХАРАКТЕРИСТИКА ПРОГРАМНОГО ОБЕСПЕЧЕНИЯ, ИСПОЛЬЗУЕМОГО ПРИ СОЗДАНИИ СУБД

Современная жизнь немыслима без эффективного управления. Важной категорией являются системы обработки информации, от которых во многом зависит эффективность работы любого предприятия ли учреждения. Такая система должна:

обеспечивать получение общих и/или детализированных отчетов по итогам работы;

позволять легко определять тенденции изменения важнейших показателей;

обеспечивать получение информации, критической по времени, без существенных задержек;

выполнять точный и полный анализ данных.

Современные СУБД в основном являются приложениями Windows, так как данная среда позволяет более полно использовать возможности персональной ЭВМ, нежели среда DOS. Снижение стоимости высокопроизводительных ПК обусловил не только широкий переход к среде Windows, где разработчик программного обеспечения может в меньше степени заботиться о распределении ресурсов, но также сделал программное обеспечение ПК в целом и СУБД в частности менее критичными к аппаратным ресурсам ЭВМ.

Среди наиболее ярких представителей систем управления базами данных можно отметить: Lotus Approach, Microsoft Access, Borland dBase, Borland Paradox, Microsoft Visual FoxPro, Microsoft Visual Basic, а также баз данных Microsoft SQL Server и Oracle, используемые в приложениях, построенных по технологии “клиент-сервер”. Фактически, у любой современной СУБД существует аналог, выпускаемый другой компанией, имеющий аналогичную область применения и возможности, любое приложение способно работать со многими форматами представления данных, осуществлять экспорт и импорт данных благодаря наличию большого числа конвертеров. Общепринятыми, также, являются технологи, позволяющие использовать возможности других приложений, например, текстовых процессоров, пакетов построения графиков и т.п., и встроенные версии языков высокого уровня (чаще - диалекты SQL и/или VBA) и средства визуального программирования интерфейсов разрабатываемых приложений. Поэтому уже не имеет существенного значения на каком языке и на основе какого пакета написано конкретное приложение, и какой формат данных в нем используется. Более того, стандартом “де-факто” стала “быстрая разработка приложений” или RAD (от английского Rapid Application Development), основанная на широко декларируемом в литературе “открытом подходе”, то есть необходимость и возможность использования различных прикладных программ и технологий для разработки более гибких и мощных систем обработки данных. Поэтому в одном ряду с “классическими” СУБД все чаще упоминаются языки программирования Visual Basic 4.0 и Visual C++, которые позволяют быстро создавать необходимые компоненты приложений, критичные по скорости работы, которые трудно, а иногда невозможно разработать средствами “классических” СУБД. Современный подход к управлению базами данных подразумевает также широкое использование технологии “клиент-сервер”.

Таким образом, на сегодняшний день разработчик не связан рамками какого-либо конкретного пакета, а в зависимости от поставленной задачи может использовать самые разные приложения. Поэтому, более важным представляется общее направление развития СУБД и других средств разработки приложений в настоящее время.

Выбор программного обеспечения в основном зависит от бюджета и желаемых эксплуатационных качеств. Рыночная цена статистических пакетов варьирует у разных производителей, равно как и мощность и изысканность программ. Для достижения целей, описываемых в этом пособии, «хорошее» программное обеспечение должно предоставлять следующие возможности при условии приемлемой цены: Простота доступа к данням, достаточная мощность, чтобы обрабатывать данные и управлять ими. Наличие продвинутых статистических инструментов. Способность преподносить результаты анализа просто и ясно.

Используемые в настоящее время СУБД обладают средствами обеспечения целостности данных и надежной безопасности, что дает возможность разработчикам гарантировать большую безопасность данных при меньших затратах сил на низкоуровневое программирование. Продукты, функционирующие в среде WINDOWS, выгодно отличаются удобством пользовательского интерфейса и встроенными средствами повышения производительности.

Рассмотрим основные характеристики некоторых СУБД -- лидеров на рынке программ, предназначенных как для разработчиков информационных систем, так и для конечных пользователей, а именно:

· Visual FoxPro 3.0,

· Visual Basic 4.0,

· Visual С++,

· Access 7.0,

· SQL Server 6.5.

Наиболее интересной чертой этих пакетов являются их большие возможности интеграции, совместной работы и использования данных, так как данные пакеты являются продуктами одного производителя, а также используют сходные технологии обмена данными.

Visual FoxPro отличается высокой скоростью, имеет встроенный объектно-ориентированный язык программирования с использованием xBase и SQL, диалекты которых встроены во многие СУБД. Имеет высокий уровень объектной модели. При использовании в вычислительных сетях обеспечивает как монопольный, так и раздельный доступ пользователей к данным. Применяется для приложений масштаба предприятия для работы на различных платформах: Windows 3.x, Windows 95, Macintosh... Минимальные ресурсы ПК: для Visual FoxPro версии 3.0 - процессор 468DX, Windows 3.1, 95, NT, объем оперативной памяти 8 (12) Мб, занимаемый объем на ЖМД 15-80 Мб, а для Visual FoxPro версии 5.0 (выпущена в 1997 году) - Windows 95 или NT, 486 с тактовой частотой 50 МГц, 10 Мб ОЗУ, от 15 до 240 Мб на ЖМД.

Access входит в состав самого популярного пакета Microsoft Office. Основные преимущества: знаком многим конечным пользователям и обладает высокой устойчивостью данных, прост в освоении, может использоваться непрофессиональным программистом, позволяет готовить отчеты из баз данных различных форматов. Предназначен для создания отчетов произвольной формы на основании различных данных и разработки некоммерческих приложений. Минимальные ресурсы ПК: процессор 468DX, Windows 3.1, 95, NT, объем оперативной памяти 12 (16) Мб, занимаемый объем на ЖМД 10-40 Мб.

Visual Basic - это универсальный объектно-ориентированный язык программирования, диалекты которого встроены в Access, Visual FoxPro. Преимущества: универсальность, возможность создания компонентов OLE, невысокие требования к аппаратным ресурсам ЭВМ. Применяется для создания приложений средней мощности, не связанных с большой интенсивностью обработки данных, разработки компонентов OLE, интеграция компонентов Microsoft Office. Минимальные ресурсы ПК: процессор 368DX, Windows 3.1, 95, NT, объем оперативной памяти 6 (16) Мб, занимаемый объем на ЖМД 8-36 Мб.

Visual C++ - наиболее мощный объектно-ориентированный язык программирования, обладает неограниченной функциональностью. Предназначен для создания компонентов приложений для выполнения операций, критичных по скорости.

SQL Server - сервер баз данных, реализует подход “клиент-сервер” и взаимодействует с указанными пакетами. Главные достоинства: высоая степень защиты данных, мощные средства для обработки данных, высокая производительность. Область применения: хранение больших объемов данных, хранение высокоценных данных или данных, требующих соблюдения режима секретности. Минимальные ресурсы ПК: процессор 468DX-33МГц, Windows NT, объем оперативной памяти 16 (32) Мб, занимаемый объем на ЖМД 80 Мб.

Указанные программные продукты имеют возможности визуального проектирования интерфейса пользователя, то есть разработчик из готовых фрагментов создает элементы интерфейса, программирует только их изменения в ответ на какие-либо события.

В табл. 3.1 показаны места (условные), которые занимают рассматриваемые программные средства относительно друг друга. Например, / означает, что в указанной позиции данная программа обладает лучшими характеристиками, 5 -- худшими, нет-- указанной характеристикой данная программа не обладает.

Таблица 3.1. Характеристики СУБД

Наименование	dBASE IV 2.0	Microsoft Access 7.0	Microsoft FoxPro for Windows 2.6	Visual FoxPro 3.0	Paradox for DOS 4.5	Paradox for Windows 4.5
Производительность	4	3	1	1	2	2
Обеспечение целостности данных на уровне базы данных	нет	1	нет	нет	2	2
Обеспечение безопасности	2	1	5	5	3	4
Работа в многопользовательских средах	2	2	4	4	1	3
Импорт-экспорт	2	1	2	1	1	1
Доступ к данным SQL	2	1	2	2	нет	3
Возможности запросов и инструментальные средства разработки прикладных программ	3	3	1	1	2	4

Производительность СУБД

Производительность СУБД оценивается:

* временем выполнения запросов;

* скоростью поиска информации в неиндексированных полях;

* временем выполнения операций импортирования базы данных из других форматов;

* скоростью создания индексов и выполнения таких массовых операций, как обновление, вставка, удаление данных;

* максимальным числом параллельных обращений к данным в многопользовательском режиме;

* временем генерации отчета.

На производительность СУБД оказывают влияние два фактора:

· СУБД, которые следят за соблюдением целостности данных, несут дополнительную нагрузку, которую не испытывают другие программы;

· производительность собственных прикладных программ сильно зависит от правильного проектирования и построения базы данных.

Самые быстрые программные изделия отнюдь не обладают самыми развитыми функциональными возможностями на уровне процессора СУБД.

По табл. 3.1 можно заключить, что самой быстрой СУБД является FoxPro 3.0, однако она не обладает средствами соблюдения целостности данных в отличие от более медленной СУБД Access 7.0.

Обеспечение целостности данных на уровне базы данных

Эта характеристика подразумевает наличие средств, позволяющих удостовериться, что информация в базе данных всегда остается корректной и полной. Должны быть установлены правила целостности, и они должны храниться вместе с базой данных и соблюдаться на глобальном уровне. Целостность данных должна обеспечиваться независимо от того, каким образом данные заносятся в память (в интерактивном режиме, посредством импорта или с помощью специальной программы).

К средствам обеспечения целостности данных на уровне СУБД относятся:

§ встроенные средства для назначения первичного ключа, в том числе средства для работы с типом полей с автоматическим приращением, когда СУБД самостоятельно присваивает новое уникальное значение;

§ средства поддержания ссылочной целостности, которые обеспечивают запись информации о связях таблиц и автоматически пресекают любую операцию, приводящую кнарушению ссылочной целостности.

Некоторые СУБД имеют хорошо разработанный процессор СУБД для реализации таких возможностей, как уникальность первичных ключей, ограничение (пресечение) операций и даже каскадное обновление и удаление информации. В таких системах проверка корректности , назначаемая полю или таблице, будет проводиться всегда после изменения данных, а не только во время ввода информации с помощью экранной формы. Это свойство можно настраивать для каждого поля и для записи в целом, что позволяет контролировать не только значения отдельных полей, но и взаимосвязи между несколькими полями данной записи.

Access и Paradox for Windows гораздо ближе других СУБД соответствуют реляционной модели по надежности сохранения целостности данных на уровне базы данных; правила хранятся вместе с базой данных и автоматически соблюдаются.

СУБД dBASE IV и FoxPro 3.0 (DOS и WINDOWS) совсем не обладают средствами этого рода, и ввод в программу процедур, обеспечивающих выполнение правил целостности, возлагается на программиста.

Обеспечение безопасности

Некоторые СУБД предусматривают средства обеспечения безопасности данных. Такие средства обеспечивают выполнение следующих операций:

§ шифрование прикладных программ;

§ шифрование данных;

§ защиту паролем;

§ ограничение уровня доступа (к базе данных, к таблице, к словарю, для пользователя).

Самый высокий уровень безопасности данных реализован в

СУБД dBASE IV. Администратор может назначать системе различные права доступа на уровне файла, поля, а также организовать автоматическое шифрование данных.

Хорошими характеристиками обеспечения безопасности отличается Access 7.0. Он предусматривает назначение паролей для индивидуальных пользователей или групп пользователей и присвоение различных прав доступа отдельно таблицам, запросам, отчетам, макрокомандам или новым объектам на уровне пользователя или группы.

Работа в многопользовательских средах

Практически все рассматриваемые СУБД предназначены для работы в многопользовательских средах, но обладают для этого различными возможностями.

Обработка данных в многопользовательских средах предполагает выполнение программным продуктом следующих функций:

§ блокировку базы данных, файла, записи, поля;

§ идентификацию станции, установившей блокировку;

§ обновление информации после модификации;

§ контроль за временем и повторение обращения;

§ обработку транзакций (транзакция -- последовательность операций пользователя над базой данных, которая сохраняет ее логическую целостность);

§ работу с сетевыми системами (LAN Manager, NetWare, Unix).

Лучшими возможностями для работы в многопользовательских средах обладают СУБД Paradox for DOS 4.5, Access 7.0 и dBASE IV.

Импорт-экспорт

Эта характеристика отражает:

§ возможность обработки СУБД информации, подготовленной другими программными средствами;

§ возможность использования другими программами данных, сформированных средствами рассматриваемой СУБД.

Особый интерес представляют следующие форматы файлов: ASCII-файлы, .DBF, .WK*, .XLS.

Все рассматриваемые здесь СУБД обладают хорошими возможностями импорта-экспорта данных.

Доступ к данным посредством языка SQL

Язык запросов SQL (Structured Query Language) реализован в целом ряде популярных СУБД для различных типов ЭВМ либо как базовый, либо как альтернативный. В силу своего широкого использования является международным стандартом языка запросов. Язык SQL предоставляет развитые возможности как конечным пользователям, так и специалистам в области обработки данных.

Совместимость с SQL-системами играет большую роль, когда предполагается проведение работы с корпоративными данными. СУБД, хорошо подготовленные к работе в качестве средств первичной обработки информации для SQL-систсм, могут открыть двери в системы с архитектурой клиент-сервер.

СУБД имеют доступ к данным SQL в следующих случаях:

§ базы данных совместимы с ODBC (Open Database Connectivity - открытое соединение баз данных);

§ реализована естественная поддержка SQL-баз данных;

§ возможна реализация SQL-запросов локальных данных.

Многие СУБД могут "прозрачно" подключаться к входным SQL-подсистемам с помощью ODBC или драйверов, являющихся их частью, поэтому существует возможность создания прикладных программ для них. Некоторые программные продукты совместимы также с SQL при обработке интерактивных запросов на получение данных, находящихся на сервере или на рабочем месте.

Access 7.0 и Paradox for Windows работают с источниками SQL-данных, совместимых с системой o ODBC.

FoxPro (for Dos и for Windows) поставляются с дополнительными библиотеками, которые обеспечивают доступ к SQL-базам данных, способным работать совместно с системой ODBC, но эта возможность менее интегрирована, чем средства первичного ввода информации в Access и Paradox for Window.

Можно напрямую управлять базами данных Access с помощью языка SQL и передавать сквозные SQL-запросы совместимым со спецификацией ODBC SQL-базам данных, таким, как MS SQL Server и Oracle, так что Access способна служить средством разработки масштабируемых систем клиент-сервер.

Возможности запросов и инструментальные средства разработки прикладных программ СУБД, ориентированные на разработчиков, обладают развитыми средствами для создания приложений. К элементам инструментария разработки приложений можно отнести:

§ мощные языки программирования;

§ средства реализации меню, экранных форм ввода-вывода данных и генерации отчетов;

§ средства генерации приложений (прикладных программ);

§ генерацию исполнимых файлов.

Функциональные возможности моделей данных доступны пользователю СУБД благодаря ее языковым средствам.

Реализация языковых средств интерфейсов может быть осуществлена различными способами. Для высококвалифицированных пользователей (разработчиков сложных прикладных систем) языковые средства чаще всего представляются в их явной синтаксической форме. В других случаях функции языков могут быть доступны косвенным образом, когда они реализуются в форме различного рода меню, диалоговых сценариев или заполняемых пользователем таблиц. По таким входным данным интерфейсные средства формируют адекватные синтаксические конструкции языка интерфейса и передают их на исполнение или включают в генерируемый программный код приложения. Интерфейсы с неявным использованием языка широко используются в СУБД для персональных ЭВМ. Примером такого языка является язык QBE (Query-By-Example).

Языковые средства используются для выполнения двух основных функций:

§ описания представления базы данных ;

§ выполнения операций манипулирования данными.

Первая из этих функций обеспечивается языком описания (определения) данных (ЯОД). Описание базы данных средствами ЯОД называется схемой базы данных. Они включает описание структуры базы данных и налагаемых на нее ограничений целостности в рамках тех правил, которые регламентированы моделью данных используемой СУБД. ЯОД некоторых СУБД обеспечивают также возможности задания ограничений доступа к данным или полномочий пользователей.

ЯОД не всегда синтаксически оформляется в виде самостоятельного языка. Он может быть составной частью единого языка данных, сочетающего возможности определения данных и манипулирования данными.

Язык манипулирования данными (ЯМД) позволяет запрашивать предусмотренные в системе операции над данными из базы данных.

Имеются многочисленные примеры языков СУБД, объединяющих возможности описания данных и манипулирования данными в единых синтаксических рамках. Популярным языком такого рода является реляционный язык SQL.

СУБД dBASE IV и FoxPro поддерживают язык программирования xBASE, который до сих пор является важным стандартом для баз данных.

FoxPro 3.0 придает xBASE-программам оконные, событийно-управляемые качества. При составлении прикладной программы FoxPro использует диспетчер проекта, управляющий различными файлами исходного текста и данных. Эта составляющая отслеживает индивидуальные элементы : программы, наборы экранных форм, отчеты и файлы баз данных и позволяет компилировать прикладную программу в исполнимый файл.

Язык программирования Access Basic содержит функции обеспечения связи по протоколу OLE 7.0, позволяющие управлять объектами из других прикладных программ, совместимых с OLE 7.0. Кроме того, этот язык позволяет создавать объекты баз данных (запросы, таблицы), изменять структуру базы данных и создавать индексы непосредственно из прикладной программы.

Все рассматриваемые программные средства обладают автоматизированными средствами создания экранных форм, запросов, отчетов, меню, наклеек, стандартных писем. Для создания указанных визуальных и структурных объектов ряд СУБД использует специальные инструментальные средства, называемые "мастерами" или " волшебниками".

3.1 Принципы организации данных, лежащие в основе СУБД

Современные СУБД являются объектно-ориентированными и реляционными. Основной единицей является объект, имеющий свойства, и связи между объектами. СУБД используют несколько моделей данных: иерархическую и сетевую (с 60-х годов) и реляционную (с 70-х). Основное различие данных моделей в представлении взаимосвязей между объектами.

Иерархическая модель данных строится по принципу иерархии объектов, то есть один тип объекта является главным, все нижележащие - подчиненными. Устанавливается связь “один ко многим”, то есть для некоторого главного типа существует несколько подчиненных типов объектов. Иначе, главный тип именуется исходным типом, а подчиненные - порожденными. У подчиненных типов могут быть в свою очередь подчиненные типы. Наивысший в иерархии узел (совокупность атрибутов) называют корневым.

Сетевая модель данных строится по принципу “главный и подчиненный тип одновременно”, то есть любой тип данных одновременно может одновременно порождать несколько подчиненных типов (быть владельцем набора) и быть подчиненным для нескольких главных (быть членом набора).

Реляционная модель данных объекты и связи между ними представляются в виде таблиц, при этом связи тоже рассматриваются как объекты. Все строки, составляющие таблицу в реляционной базе данных должны иметь первичный ключ. Все современные средства СУБД поддерживают реляционную модель данных.

Объект (Сущность) - элемент какой-либо системы, информация о котором сохраняется. Объект может быть как реальным (например, человек), так и абстрактным (например, событие - поступление человека в стационар).

Атрибут - информационное отображение свойств объекта. Каждый объект характеризуется набором атрибутов.

Таблица - упорядоченная структура, состоящая из конечного набора однотипных записей.

Первичный ключ - атрибут (или группа атрибутов), позволяющий однозначным образом определить каждую строку в таблице.

Напротив, альтернативный ключ - атрибут (или группа атрибутов), не совпадающая с позволяющий первичным ключом и однозначным образом определяющий каждую строку в таблице.

Современные технологии, используемые в работе с данными.

Технология “Клиент-сервер” - технология, разделяющая приложение- СУБД на две части: клиентскую (интерактивный графический интерфейс, расположенный на компьютере пользователя) и сервер, собственно осуществляющий управление данными, разделение информации, администрирование и безопасность, находящийся на выделенном компьютере. Взаимодействие “клиент-сервер” осуществляется следующим образом: клиентская часть приложения формирует запрос к серверу баз данных, на котором выполняются все команды, а результат исполнения запроса отправляется клиенту для просмотра и использования. Данная технология применяется, когда размеры баз данных велики, когда велики размеры вычислительной сети, и производительность при обработке данных, хранящихся не на компьютере пользователя (в крупном учреждении обычно имеет место именно такая ситуация). Если технология “клиент-сервер” на применяется, то для обработки даже нескольких записей весь файл копируется на компьютер пользователя, а только затем обрабатывается. При этом резко возрастает загрузка сети, и снижается производительность труда многих сотрудников.

Microsoft Access, Microsoft Visual FoxPro, Microsoft Visual Basic обеспечивают средства для создания клиентских частей в приложениях “клиент-сервер”, которые сочетают в себе средства просмотра, графический интерфейс и средства построения запросов, а Microsoft SQL Server является на сегодняшний день одним из самых мощных серверов баз данных.

OLE 2.0 (Object Linking and Embedding - связывание и внедрение объектов) - стандарт, описывающий правила интеграции прикладных программ. Применяется для использования возможностей других приложений. OLE 2.0 используется для определения и совместного использования объектов несколькими приложениями, которые поддерживают данную технологию. Например, использование в среде Access таблиц Excel и его мощных средств построения диаграмм или использование данных, подготовленных Access, в отчетах составленных в редакторе текстов Word (связывание или включение объекта).

OLE Automation (Автоматизация OLE) - компонент OLE, позволяющий программным путем устанавливать свойства и задавать команды для объектов другого приложения. Позволяет без необходимости выхода или перехода в другое окно использовать возможности нужного приложения. Приложение, позволяющее другим прикладным программам использовать свои объекты называется OLE сервером. Приложение, которое может управлять объектами OLE серверов называется OLE контроллер или OLE клиент. Из рассмотренных программных средств в качестве OLE серверов могут выступать Microsoft Access, а также Microsoft Excel, Word и Graph... Microsoft Visual FoxPro 3.0 и 5.0 может выступать только в виде OLE клиента.

RAD (Rapid Application Development - Быстрая разработка приложений) - подход к разработке приложений, предусматривающий широкое использование готовых компонентов и/или приложений и пакетов (в том числе от разных производителей).

ODBC (Open Database Connectivity - открытый доступ к базам данных) - технология, позволяющая использовать базы данных, созданные другим приложением при помощи SQL.

SQL (Structured Query Language - язык структурированных запросов) - универсальный язык, предназначенный для создания и выполнения запросов, обработки данных как в собственной базе данных приложения, так и с базами данных, созданных другими приложениями, поддерживающими SQL. Также SQL применяется для управления реляционными базами данных.

VBA (Visual Basic for Applications - Visual Basic для Приложений) - разновидность (диалект) объектно-ориентированного языка программирования Visual Basic, встраиваемая в программные пакеты.

3.2 Функциональные возможности однопользовательских и многопользовательских СУБД

Все существующие СУБД следует разделить на однопользовательские и многопользовательские (клиент-серверные). СУБД Access в основном позиционируется как однопользовательская, что существенно сужает область ее применения. Что касается многопользовательских СУБД, таких как SQL Server или Oracle, то они используются повсеместно для организации сложных информационных систем корпоративного уровня.

Каждая СУБД поддерживает ограниченный набор механизмов доступа к данным: для Oracle ими являются ODBC, JDBC и ADO/OLE DB, для Microsoft SQL Server это ODBC, OLE DB/ADO, ADO.NET, СУБД Access поддерживает механизмы OLE/ADO DB,ODBC .

Одной из важнейших характеристик СУБД является их производительность. Под производительностью понимается скорость обработки запросов к БД. Достаточно трудно однозначно сказать кто быстрее всех обрабатывает запросы, слишком многое здесь зависит от того, на каком оборудовании производится тестирование, каков состав выполняемых запросов. По данным Transaction Processing Performance Council (TPC;http://www.tpc.org/), SQL Server сейчас является рекордсменом по производительности, однако и Oracle стабильно входит в пятерку лидеров, чего нельзя сказать о СУБД Access. Другой отличительной чертой любой СУБД является поддержка различных платформ. Oracle работает практически в любой существующей операционной системе. SQL Server и Access поддерживают исключительно платформу Windows NT. В результате популярность SQL Server и Access определяется в первую очередь популярностью платформы, которую они поддерживает (Windows 2000,XP). Эти СУБД настолько связаны с операционной системой, что их надежность, масштабируемость и производительность определяются надежностью, масштабируемостью и производительностью самой платформы, и положение SQL Server и Access на рынке будет зависеть от выпуска новых версий Windows.

Как было отмечено выше, выбор конкретной архитектуры построения информационной системы включает два основных компонента: выбор серверной платформы (выбор серверной ОС и СУБД) и выбор платформ для клиентских рабочих мест. В данном разделе более подробно остановимся на особенностях выбора конкретной СУБД. При выборе базы данных очень важно выбрать базу данных, которая в наибольшей степени соответствуют предъявляемым к информационной системе требованиям, т.е. необходимо определиться какая модель автоматизации реализуется (автоматизация документооборота или бизнес - процессов). В первую очередь при выборе СУБД необходимо принимать во внимание следующие факторы:

§ максимальное число пользователей одновременно обращающихся к базе;

§ характеристики клиентского ПО;

§ аппаратные компоненты сервера;

§ серверную операционную систему;

§ уровень квалификации персонала.

На сегодня известно большое число различных серверов баз данных SQL. Остановимся более подробнее на следующих четырех ведущих серверных СУБД - Oracle8i, IBM DB2, Microsoft SQL Server и Informix - и сравним их в работе на каждом из основных этапов функционирования:

§ конфигурирование системы;

§ мониторинг;

§ настройка;

§ обработка запросов;

§ разработка серверных и клиентских модулей.

Данный анализ проведем с учетом того, что число клиентских мест составляет от 50 до 500, а управление СУБД должно быть максимально эффективно. Исследования проводились на серверной платформе на базе Pentium II с 128 Мбайт ОЗУ, укомплектованном 13-Гбайт диском с интерфейсом EIDE в конфигурации RAID уровня 0 (конечно лучше было бы использовать HDD с интерфейсом SCSI). Управление системами было возложено на ОС Windows NT Server 4.0. и Linux.

Oracle8i.

Пакет Oracle8i, наделенный самым развитым набором функций для работы с языком Java и доступа к данным через Интернет, системой оптимизации одновременного доступа. Единственным недостатком данной СУБД является сложность администрирования, однако все затраты на ее внедрение и освоение в последствии окупятся эффективной и надежной работой. В нашей стране на протяжении уже многих лет целым рядом специалистов культивируется негативное отношение к СУБД Oracle, как к дорогой и сложной СУБД. Оба эти тезиса являются спорными. Во-первых, уровень сложности понятие относительное. При использовании СУБД Oracle на платформе NT, она потребует практически тех же усилий, что и при использовании MS SQL. В случае же работы на UNIX-платформе, можно с уверенностью отметить, что для профессиональных юниксоидов среда Oracle является простой, понятной и доступной. Что касается дороговизны, то и тут наметились положительные сдвиги. Кроме того, что компания Oracle предлагает ряд различных масштабируемых решений в зависимости от числа обслуживаемых клиентов, она также следуя общемировым тенденциям разработала версию своей популярнейшей СУБД под LINUX и выложила ее на своем WEB сервере (www.oracle.com) для свободного использования. Среди основных свойств СУБД Oracle следует отметить такие, как:

Высочайшая надежность.

§ Возможность разбиения крупных баз данных на разделы (large-database partition), что дает возможность эффективно управлять гигантскими гигабайтными базами;

§ Наличие универсальных средств защиты информации;

§ Эффективные методы максимального повышения скорости обработки запросов;

§ Индексация по битовому отображению;

§ Свободные таблицы (в других СУБД все таблицы заполняются сразу при создании);

Распараллеливание операций в запросе.

Наличие широкого спектра средств разработки, мониторинга и администрирования.

Ориентация на интернет технологии.

Решения, не уступающие разработкам Oracle можно найти только в DB2 фирмы IBM. Ориентация на интернет технологии - основной девиз современных продуктов Oracle. В этой связи можно отметить пакеты interMedia, обеспечивающее обработку данных в мультимедийных форматах, и Jserver, встроенное средство для работы с языком Java, которое объединяет возможности языка Java с возможностями реляционных баз данных (возможность составлять на языке Java не только внутренние программы для баз данных (хранимые процедуры и триггеры), но и разрабатывать компоненты Enterprise JavaBeans и даже запустить их на сервере). Компоненты Enterprise JavaBeans представляют собой базовые модули из которых складываются Интернет-приложения на языке Java.

Фирма Oracle придерживается принципа, что всеми важными функциями необходимо управлять из единого центра, поэтому предлагаемый модуль interMedia предоставляет в распоряжение пользователей самые передовые возможности для работы с мультимедийными объектами:

· очень развитые средства для обработки аудио клипов;

· неподвижных изображений;

· видеофрагментов;

· географических данных (с целым набором функций связанных с определением местонахождения входящих в состав модуля Locator ).

В Oracle8i реализуются лучшие на сегодняшний день средства для объектно-ориентированного конструирования баз данных, в том числе табличные структуры, допускающие наследование свойств и методов других табличных объектов БД, что позволят избежать ошибок при построении БД и облегчает их обслуживание.

Также необходимо отметить, что разработанная фирмой Oracle система оптимизации одновременного доступа (multiversioning concurrency) является одной из важнейших характеристик архитектуры Oracle (подобная функция есть лишь в СУБД InterBase компании InterBase компании Inprise). Данная функция позволяет исключить ситуацию, когда одному пользователю приходится ждать, пока другой завершит изменения в содержимое баз данных (т.е. в Oracle отсутствуют блокировки на чтение). Эта функция позволяет СУБД Oracle8i выполнять за секунду больше транзакций в расчете на одного пользователя, чем любая другая база данных. По уровню производительности при работе в WEB среде под LINUX Oracle занимает почетное второе место после СУБД MySQL, при этом значительно превосходя все другие СУБД по надежности и безопасности.

СУБД Microsoft SQL Server.

Важнейшие характеристики данной СУБД - это:

§ простота администрирования,

§ возможность подключения к Web,

§ быстродействие и функциональные возможности механизма сервера СУБД,

§ наличие средств удаленного доступа,

В комплект средств административного управления данной СУБД входит целый набор специальных мастеров и средств автоматической настройки параметров конфигурации. Также данная БД оснащена замечательными средствами тиражирования, позволяющими синхронизировать данные ПК с информацией БД и наоборот. Входящий в комплект поставки сервер OLAP дает возможность сохранять и анализировать все имеющиеся у пользователя данные. В принципе данная СУБД представляет собой современную полнофункциональную база данных, которая идеально подходит для малых и средних организаций. Необходимо заметить, что SQL Server уступает другим рассматриваемым СУБД по двум важным показателям: программируемость и средства работы. При разработке клиентских БД приложений на основе языков Java, HTML часто возникает проблема недостаточности программных средств SQL Server и пользоваться этой СУБД будет труднее, чем системами DB2, Informix, Oracle или Sybase. Общемировой тенденцией в XXI веке стал практически повсеместный переход на платформу LINUX, а SQL Server функционирует только в среде Windows. Поэтому использование SQL Server целесообразно, по нашему мнению, только если для доступа к содержимому БД используется исключительно стандарт ODBC, в противном случае лучше использовать другие СУБД.

IBM DB2 .

СУБД IBM DB2 - результат почти 30-х опытно-конструкторских и исследовательских работ фирмы IBM. Последнюю на сегодня версию данной СУБД (6.х) отличает один из наиболее продуманных наборов средств управления и оптимизации и механизм БД, допускающий наращивание от портативного ПК с Windows 95 до целого кластера больших ЭВМ S/390, работающих под управлением OS/390.

Пакет DB2 выпускается в двух редакциях: DB2 Workgroup и DB2 Enterprise Edition. В данной СУБД реализованы все известные по предшествующим версиям DB2 новаторские технологии механизма БД, такие, как распараллеливание обработки запроса, полный набор средств тиражирования, сводные таблицы запросов для повышения производительности БД, возможности объектно-ориентированного конструирования баз данных и средства языка Java. К этому надо добавить, что система DB2 оснащена полым набором мультимедиа-расширений, позволяющих сохранять текст, звук и видео- фрагменты, изображения и географические данные и манипулировать ими. Можно говорить, что по возможностям масштабирования разработанная специалистами IBM технология кластеризации баз данных не имеет аналогов. Эти расширения существенно облегчают процесс разработки приложений для Web, а так же программ, содержащих фотоизображения и объемные текстовые отчеты. Система DB2 вполне конкурентоспособна и в качестве платформы для разработки приложжений т.к существует средство Stored Procedure Builder - автоматически преобразовывающее оператор SQL в соответствующий класс Java и включающее его в структуру базы данных. В версии DB2 6.1 значительно улучшена функциональная совместимость с другими СУБД: пакет позволяет использовать разработанную Microsoft спецификацию OLE DB, новый стандарт доступа к базам данных. Средства административного управления СУБД DB2, которые в новой версии переписаны на Java и могут быть получены из Web, заслуживают самой высокой оценки.

Основными недостатками данной СУБД является относительная сложность администрирования и отсутствие (пока) реализаций под популярные серверные ОС, например LINUX.

В данной СУБД благодаря Index Smart-Guide возможно осуществлять настройку, формируя оптимальные индексы для заданного числа обращений, характеризующего типичную нагрузку на БД. DB2- единственный пакет позволяющий генерировать сводные таблицы, что значительно эффективность работы СУБД в качестве хранилищ данных. Сводная таблица - это временная рабочая область, используемая базой данных для хранения ответов на часто поступающие запросы. Ну что ж, можно сказать, что оснащенная новыми функциональными возможностями, а также средствами распараллеливания и возможностями выбора практически любого типа соединения и индексов (кроме разве что растровых индексов), модель DB2 6.1 превращается в самую недорогую из высокопроизводительных систем. Средства административного управления этой СУБД вполне соответствуют уровню решаемых задач, кроме того, она предоставляет исключительно широкие возможности для работы с мультимедиа-данными и для программирования (чего явно недостает системе Microsoft SQL Server).

СУБД от Informix.

В последнее время наметился переход от реляционных СУБД к объектно-ориентированным (что явно прослеживается на примере Oracle). Informix также следуя данной концепции анонсировала новое решение СУБД Centaur базирующуюся на реляционной БД Informix Dynamic Server 7.3 и объектно-реляционной БД Informix Universal Data Option и сочетающую в себе высокое быстродействие Dynamic Server при работе с данными с универсальностью и мультимедиа функциями Universal Data Option. Данная реализация предназначена для разработки интернет систем. Предположительно данная СУБД будет обладать гибкой средой разработки, обладающей наращиваемостью, соответствующей характерным для Интернета интенсивным нагрузкам, и средствами работы с новыми типами данных, которые с развитием Web стали использоваться повсеместно. Реализованные в новой системе средства Java позволят разработчикам создавать на этом языке хранимые процедуры, пользовательские программы и компоненты DataBlades, которые в Informix называют заказными расширениями базы данных.

С точки зрения клиентов Inforix, это станет большим шагом вперед, поскольку до настоящего времени при работе с DataBlades они могли пользоваться только языком Си и SPL, внутренним языком фирмы Informix для написания хранимых процедур. Кроме того, пакет Centaur будет оснащен встроенными средствами обработки объектов ActiveX. Это даст возможность, к примеру, создавать хранимые процедуры БД на языке Visual Basic; правда, для этого нужно, чтобы пакет Centaur выполнялся в среде Windows NT.

Centaur будет представлять собой надстройку Informix Dynamic Server и работать с традиционным для этого пакета форматом БД, так что в распоряжении пользователей останутся все прежние функции, а модернизация системы до уровня новой версии не будет сопряжена с большими сложностями. Кроме того, в пакете Centaur будут сохранены все возможности конструирования и программирования, благодаря которым система Informix Universal Server признана выдающимся техническим достижением. Новая система будет оснащена средствами объектно-ориентированного конструирования баз данных, создания специализированных таблиц и программ индексирования; в ее состав войдет позволит пользователям встраивать в запросы собственные функции и не полагаться исключительно на стандартные средства SQL.

4 РАЗРАБОТКА АРМ МАСТЕРА

4.1 Процес проектирования базы данных

Процес проектирования БД на основе принципов нормализации представляет собой последовательность переходов от неформального словесного описания информационной структуры предметной области к формализованному описанию обьектов предметной области в терминах некоторой модели.

В общем случае можно выделить следующие этапы проектирования:

1. Системный анализ и текстовое описание информационных обьектов предметной области.

2. Проектирование инфологической модели предметной области - частично формализованное описание объектов предметней области в терминах некоторой семантической модели, например, в терминах ЕЯ-модели.

3. Даталогическое или логическое проектирование БД, то есть описание ВД в терминах принятой даталогической модели данных.

4. Физическое проектирование БД, то есть выбор эффективного размещения БД на внешних носителях для обеспечения наиболее эффективной работы приложения.

Если мы учтем, что между вторым и третьим этапами необходимо принять решение, с использованием какой стандартной СУБД будет реализовываться наш проект, то условно процесс проектирования можно представить последовательностью выполнения пяти соответствующих этапов (рис. 4.1).

Рис. 4.1 - Этапы проектирования БД

С точки зрения проектирования БД в рамках системного анализа, необходимо осуществить первый этап, то есть провести подробное словесное описание объектов предметной области и реальных связей, которые присутствуют между описываемыми объектами. Желательно, чтобы данное описание позволяло корректно определить все взаимосвязи между объектами предметной области.

В общем случае существуют два похода к выбору состава и структуры предметной области:

Ш Функциональный подход - он реализует принцип движения «от задач» и применяется тогда, когда заранее известны функции некоторой группы лиц и комплексов задач, для обслуживания информационных потребностей которых создается рассматриваемая СУБД. В этом случае мы можем четко выделить минимальный необходимый набор объектов предметной области, которые должны быть описаны.

Ш Предметный подход - когда информационные потребности будущих пользователей БД жестко не фиксируются. Они могут быть многоаспектными и весьма динамичными. Мы не может точно выделить минимальный набор объектов предметной области, которые необходимо описывать. В описание предметной области в этом случае включаются такие объекты и взаимосвязи, которые наиболее характерны и наиболее существенны для нее. БД, конструируемая при этом, называется предметной, то есть она может быть использована при решении множества разнообразных, заранее не определенных задач. Конструирование предметной БД в некотором смысле кажется гораздо более заманчивым, однако трудность всеобщего охвата предметной области с невозможностью конкретизации потребностей пользователей может привести к избыточно сложной схеме БД, которая для конкретных задач будет неэффективной.

Чаще всего на практике рекомендуется использовать некоторый компромиссный вариант, который, с одной стороны, ориентирован на конкретные задачи или функциональные потребности пользователей, а с другой стороны, учитывает возможность наращивания новых приложений.

Системный анализ должен заканчиваться подробным описанием информации об объектах предметной области, которая требуется для решения конкретных задач и которая должна храниться в БД, формулировкой конкретных задач, которые будут решаться с использованием данной БД с кратким описанием алгоритмов их решения, описанием выходных документов, которые должны генерироваться в системе, описанием входных документов, которые служат основанием для заполнения данными БД.

Инфологическая модель применяется на втором этапе проектирования БД, то есть после словесного описания предметной области. Процесс проектирования длительный и требует обсуждений с заказчиком и со специалистами в предметной области. Наконец, при разработке серьезных корпоративных информационных систем проект базы данных является тем фундаментом, на котором строится вся система в целом, и вопрос о возможном кредитовании часто решается экспертами банка на основании именно грамотно сделанного инфологического проекта БД. Следовательно, инфологическая модель должна включать такое формализованное описание предметной области, которое легко будет «читаться» не только специалистами по базам данных. И это описание должно быть настолько емким, чтобы можно было оценить глубину и корректность проработки проекта БД, и конечно, оно не должно быть привязано к конкретной СУБД. Выбор СУБД - это отдельная задача, для корректного ее решения необходимо иметь проект, который не привязан ни к какой конкретной СУБД.

Мифологическое проектирование связано, прежде всего, с попыткой представления семантики предметной области в модели БД. Реляционная модель данных в силу своей простоты и лаконичности не позволяет отобразить семантику, то есть смысл предметной области. Ранние теоретико-графовые модели в большей степени отображали семантику предметной области. Они в явном виде определяли иерархические связи между объектами предметной области.

4.2 Анализ предметной области

В данной магистерской работе нужно разработать базу данных (БД) автоматизированного рабочего места (АРМ) мастера механического цеха с помошью программы Microsoft Access, которая будет использоваться мастером участка для сбора, внесения и редактирования необходимой информации. В данном случае необходимо автоматизировать работу мастера участка.

Для проектирования базы данных необходимо располагать описанием выбранной предметной области, которое должно охватывать реальные объекты и процессы, определять все необходимые источники информации для обеспечения предполагаемых запросов пользователя и решаемых в приложении задач.

Microsoft Access предоставляет максимальную свободу в задании типа данных (текст, числовые данные, даты, время, денежные значения, рисунки, звук, электронные таблицы). Можно задавать также форматы хранения представления этих данных при выводе на экран или печать. Для веренности, что в базе хранятся только корректные значения, можно задать условия на значения различной степени сложности.

Так как Microsoft Access является современным приложением Windows, можно использовать в работе все возможности DDE (динамический обмен анными) и OLE (связь и внедрение объектов). DDE позволяет осуществлять обмен данными между Access и любым другим поддерживающим DDE приложением Windows. В Microsoft Access можно при помощи макросов или Access Basic осуществлять динамический обмен данными с другими приложениями.

OLE является более изощренным средством Windows, которое позволяет установить связь с объектами другого приложения или внедрить какие-либо объекты в базу данных Access. Такими объектами могут быть картинки, диаграммы, электронные таблицы или документы из других поддерживающих OLE приложений Windows.

Microsoft Access предоставляет дополнительные средства разработки приложений, которые могут работать не только с собственными форматами данных, но и с форматами других наиболее распространенных СУБД. Возможно, наиболее сильной стороной Access является его способность обрабатывать данные электронных таблиц, текстовых файлов, файлов dBASE, Paradox, Btrieve, FoxPro и любой другой базы данных SQL, поддерживающей стандарт ODBE. Это означает, что можно использовать Access для создания такого приложения Windows, которое может обрабатывать данные, поступающие с сетевого сервера SQL или базы данных SQL на главной ЭВМ. Графически представлена схема выполнения работ, обмена информацией, документооборота визиализирует модель бизнесс-процесса. Также изложение этой информации позволяет перевести задачи управления организацией из области сложного ремесла в сферу инженерных технологий. AllFusion Process Modeler 7 (BPwin) помагает четко документировать важные аспекты любых бизнес-процессов: действия, которые необходимо предпринять , способы их осуществления и контроля, требующиеся для этого ресурсы, а также визуализировать получаемые от этих действий результаты.

4.3 Инфологическая модель БД

МОДЕЛЬ - это идеализированное представление достаточно близко отражающее описываемую систему.

Мощность модели заключается в ее способности упростить реальную систему, что дает возможность предсказывать факты в системе на основании соответствующих фактов представленных в модели.

Допустим, необходимо описать операцию производственной системы. Вероятно, можно произвести достаточно полное описание. Но, где ответ на вопрос в достаточности описания операции. Попробуем получить два описания операции производственной системы. Пусть операцию описывает руководитель производственной системы (назовем его руководитель) и человек, участвующий в описываемой операции (рабочий). Это будут два различных описания, две различных точки зрения на выполнение операции. Первое описание, описание руководителя, будет очень абстрагировано, и по сути скорее будет напоминать описание той технологии, согласно которой должна выполняться операция. Необходимо отметить, что человеку проще описывать некоторую реальную ситуацию, в которой он сам участвовал или наблюдал со стороны. В такой ситуации находится рабочий, но вероятнее всего его описание производственной операции тоже будет иметь свои недостатки. Проблема заключается в ответе на вопрос: не будет ли эта ситуация слишком частной, кроме того любая конкретная ситуация, которую скорее всего и будет описывать рабочий, всегда излишне детализирована. Итак, у нас есть два описания производственной операции, но ни одно из них не является моделью производственной операции. Итак, модель - форма описания, но не наоборот. Модели необходимы для создания данных прогноза и анализа, что не доступно в описаниях. Основная цель моделирования состоит в том, чтобы идентифицировать и документировать все аспекты работы системы. Поэтому первым этапом любого исследования является постановка задачи, которая определяется заданной целью. От того, как адекватно выбрана цель моделирования, зависит и вид модели, и выбор программной среды и получаемые результаты.

В большинстве случаев, единственным набором изложенных правил, в соответствии с которыми должно функционировать предприятие, является набор отдельных положений и должностных инструкций. Чаще всего эти документы составлялись не один год назад, слабо структурированы и невзаимосвязаны между собой и, вследствие этого, просто пылятся на полках. На начальных этапах создания ИС обязательно возникает необходимость в изучении того, как работает предприятие, какие технологические процессы обработки циркулирующей информации существуют. Обычно никто в организации ни знает, как она работает в той мере подробности, которая необходима для создания ИС:

* руководитель хорошо знает работу в целом, но не в состояния вникнуть в детали работы каждого рядового сотрудника;

* рядовой сотрудник хорошо знает, что творится на его рабочем месте, но плохо знает, как работают коллеги.

Поэтому для полного понимания работы предприятия необходимо построить модель процессов, существующих на предприятии, адекватную предметной области и содержащую в себе знания всех участников информационного обмена.

Создание и внедрение интегрированной ИС на предприятии, особенно в условиях виртуального предприятия, связано с глубокими исследованиями процессов, составляющих ЖЦ изделия. Для моделирования сложных систем существуют достаточно большое количество методологий и стандартов. К ним относятся, в частности, методологии семейства IDEF, основанных на графическом представлении систем, с помощью которых можно эффективно отображать и анализировать модели деятельности широкого спектра сложных систем в различных разрезах. При этом глубина исследования процессов в системе определяется самим разработчиком, что позволяет не перегружать создаваемую модель излишними данными.

CASE-средство верхнего уровня BPwin - это инструмент визуального моделирования ИС, позволяющий:

* наглядно описывать, анализировать и совершенствовать сложные бизнес-процессы, любую деятельность или структуру в виде модели, что позволяет значительно повысить эффективность работы предприятия;

* проверить модель на соответствие стандартам ISO9000. Для отечественных предприятий сертификация по ИСО 9000 - это пропуск на международный рынок, а также действенное средство для эффективного улучшения работы всего предприятия;

* спроектировать структуру информационных потоков, а соответственно, и модернизировать организационную структуру предприятия;

* четко выявить факторы, оказывающие влияние на бизнес: какие операции являются наиболее критичными, как повысить их эффективность, какие ресурсы требуются для этого; * снизить издержки и повысить производительность;

* повысить гибкость и эффективность.

BPwin входит в семейство продуктов AllFusion компании Computer Associates под именем AllFusion Process Modeler и предназначен для поддержки всех стадий жизненного цикла разработки ИС. - В линейку продуктов AllFusion Modeling Suite кроме BPwin для поддержки всех стадий разработки программного обеспечения, входят CASE-средств ERwin, BPwin, ModelMart, Paradigm Plus, ERwin Examiner и средства управления проектами. Совместное применение этих продуктов обеспечивает прочный фундамент для построения, развертывания и управления приложениями. При этом не накладываются ограничения на выбор базовых технологий, методов и платформ разработки. AllFusion Modeling Suite предлагает моделирование и управление процессами, проектами, изменениями, конфигурациями.

BPwin - инструмент моделирования, который используется не только для анализа и документирования, но и реорганизации сложных процессов. BPwin соответствует требованиям к инструментам для разработки ИС, так как позволяет четко документировать различные действия, которые необходимо предпринять, а также способы их осуществления и требуемые для этого ресурсы. BPwin является интуитивно понятным визуальным инструментом, позволяющим сформировать целостную картину деятельности предприятия: от моделей организации работы в маленьких отделах до сложных иерархических структур. В руках же системных аналитиков и разработчиков BPwin - мощное средство моделирования процессов при создании корпоративных информационных систем (КИС).

Контекстная диаграмма изображена на рис. 4.2

Рис. 4.2 - Контекстная диаграмма

Диаграмма декомпозиции первого уровня (разработка базы данных АРМ мастера механического цеха) показана на рис. 4.3

Диаграмма декомпозиции второго уровня (изучение предметной области) изображена на рис. 4.4

Рис. 4.3 - Диаграмма декомпозиции первого уровня

Рис. 4.4 - Диаграмма декомпозиции второго уровня

(изучение предметной области)

Диаграмма декомпозиции второго уровня (разработка БД) показана на рис. 4.5

Рис. 4.5 - Диаграмма декомпозиции второго уровня

(разработка БД)

Структура АРМ мастера.

Использование современных компьютерных технологий позволяет существенно сократить длительность проектных работ, по-новому реализовать проектные процедуры и в результате получить более эффективные технические решения.

Новейшие компьютерные технологии позволяют организовать автоматизированное рабочее место (АРМ) мастера механического цеха. Базовыми программными продуктами АРМ мастера механического цеха являются операционная система Microsoft Windows и универсальная программа Microsoft Access.

Представим структуру механического участка цеха 16 участка №6 на рисунке 4.6.

Рис. 4.6 - Структура АРМ мастера механического участка цеха 16

4.4 Физическая модель

Основой любой системы обработки систематизированных данных являются таблицы. Таблицы представляют собой один из типов объектов, входящих в БД Access. Они предназначены для хранения информации.

База данных механического цеха содержит в себе информацию, которая используется в процессе всей деятельности механического участка. Это бригады, детали выполняемые на участке, заказы, инструмент применяемый на станках, информация о предприятии, мастера, операции, рабочий персонал, сменное задание выполняемое на участке, станки и управляющий персонал. База данных содержит таблицы, которые содержат всю необходимую информацию:

§ Бригады (рис. 4.7) - информация о бригаде;

§ Детали (рис. 4.8) - информация о детали;

§ Главное окно Access, в котором открыто окно БД и таблица детали (рис. 4.9);

§ Заказы (рис 4.10)- информация о заказе;

§ Информация (рис 4.11)- информация о предприятии;

§ Мастера (рис 4.12)- информация о предприятии;

§ Операция (рис 4.13) - информация о операции;

§ Рабочий_персонал (рис 4.14)- информация о рабочем персонале;

§ Сменное_задание (рис 4.15)- информация о рабочем персонале, смене, номера бригады, названия детали;

§ Станки (рис 4.16)- информация о станках;

§ Управляющий_персонал (рис 4.17)- информация о управляюшем персонале.

Риc. 4.7 - Структура таблицы «Бригады»

Рис. 4.8 - Структура таблицы «Детали»

Рис. 4.9 - Главное окно Access, в котором открыто окно БД и таблица «Детали»

Рис. 4.10 - Структура таблицы «Заказы»

Рис. 4.11 - Структура таблицы «Информация»

Рис. 4.12 - Структура таблицы «Заказы»

Рис. 4.13 - Структура таблицы «Операция»

Рис. 4.14 - Структура таблицы «Рабочего персонала»

Рис. 4.15 - Структура таблицы «Сменного задания»

Рис. 4.16 - Структура таблицы «Станки»

Рис. 4.17 - Структура таблицы «Управляющий персонал»

4.5 Схема данных

Хорошо разработанная БД Access обычно содержит множество взаимосвязанных таблиц, каждая из которых включает специфические, узкопрофильные данные и не дублирует информацию из других таблиц. Такой тип структуры используется для поддержания интегральной целостности (на уровне ссылок), когда изменяется имя, адрес или другие элементы данных в одной записи и эти изменения автоматически появляются в других связанных таблицах.

Связи устанавливается между двумя общими полями (столбцами) двух таблиц. Связываемые поля могут иметь разные имена, но должны иметь одинаковый тип данных за исключением случая, когда поле первичного ключа является полем типа Счетчик. Поле счетчика связывается с числовым полем.

Задав связи между таблицами, можно создать запросы, формы и отчеты для отображения сведений, представленных в нескольких таблицах.

Между двумя таблицами могут существовать следующие связи:

- один к одному -- при таком типе связи одной записи в первой таблице соответствует только одна запись в другой таблице. Соответствие записей устанавливается по полю, которое является первичным ключом в первой таблице, и полю, называемым внешним ключом другой таблицы;

- один ко многим -- в этом случае запись одной таблицы может иметь несколько согласованных с ней записей в другой таблице. При этом каждая запись во второй таблице согласуется только с одной записью в первой таблице. Например, каждый покупатель может купить несколько товаров, но каждый проданный товар имеет только одного покупателя. Поле, содержащее первичный ключ новой таблицы, связывается с внешним ключом старой. Значения в поле с внешним ключом могут повторяться;

- многие к одному -- любой записи таблицы, связь с которой мы рассматриваем, могут соответствовать несколько записей новой таблицы, но не наоборот. Фактически это отношение один ко многим, рассматриваемое в обратном порядке. В этом случае ключевое поле новой таблицы является внешним ключом;

- многие ко многим -- каждой записи из одной таблицы может соответствовать любое количество записей в другой таблице и наоборот.

На рисунке 4.18 показаны линии связи между таблицами БД. В каждом небольшом окне отображены списки полей одной из таблиц. Ключевые поля выделено жирным шрифтом. Таблицы, не имеющие первичных ключей, невозможно связать и в окне Схема данных они не отображаются.

Рис. 4.18 - Схема даннях

4.6 Запросы

Для выполнения операций обработки информации используется механизм ЗАПРОСОВ. Результатом выполнения запросов является либо отобранное по определенным критериям множество записей, либо изменения в таблицах. Запросы к базе формируются на специально созданном для этого языке, который так и называется ЯЗЫК СТРУКТУРИРОВАННЫХ ЗАПРОСОВ (SQL -- Structured Query Language).

С помощью запросов можно просматривать, анализировать и изменять данные из нескольких таблиц. Они также используются в качестве источника данных для форм и отчётов.

Запросы являются основным средством извлечения информации из базы данных. С помощью запроса можно выбрать определенную информацию и рассортировать ее по значениям полей и даже добавлять описания в презентации. Запросы часто используются в качестве основы при создании форм и отчетов. Другие запросы могут создавать новые таблицы, присоединять данные к существующим таблицам, удалять записи и осуществлять поиск дублирующихся записей.

Наиболее часто используется запрос на выборку. При его выполнении данные, удовлетворяющие условиям отбора, выбираются из одной или нескольких таблиц и выводятся в определённом порядке.Запрос можно создать с помощью мастера или самостоятельно.

В данной базе данных разработаны следующие запросы:

· Запрос на список деталей по заданому заказу (рис. 4.20);

· Запрос на список операций для производства детали;

· Запрос на связку станков с инструментами;

· Запрос на связку инструмента со станками;

· Запрос на простмотр состава бригады по ее номеру (рис. 4.21);

· Запрос на просмотр состава мастеров (рис. 4.22);

· Запрос на просмотр сменносуточного задания (рис. 4.23);

На рисунке 4.19 показано главное окно БД.

Рис. 4.19 - Окно базы данных в Access с перечнем разработанных запросов

Рис. 4.20 - Запрос на простмотр состава бригады по ее номеру

Рис 4.21 - Запрос на список деталей по заданому заказу

Рим. 4.22 - Запрос на просмотр состава мастеров

Рис. 4.23 - Запрос на просмотр сменносуточного задания

4.7 Отчеты

В отчете можно группировать и сортировать данные, представить данные на диаграмме, вычислить итоговое значение, например, определить выручку, полученную от продажи товаров на определенную дату. Отчеты позволяют задать внешний вид отображения информации в отпечатанном виде. Их можно использовать для анализа данных и передачи их в другие организации. Отчет можно отправить по электронной почте, опубликовать в Интернете.

Отчет можно создать на базе одной или нескольких таблиц или запросов. Большая часть сведений в отчете поступает из базовой таблицы, запроса или инструкции SQL, являющейся источником данных для отчета. Остальные сведения отчета хранятся в его структуре. В проекте Microsoft Access можно создавать формы и отчеты для БД SQL Server при помощи тех же инструментов, что используются для их создания в БД Microsoft Access.

Для отображения информации, содержащейся в базе данных ''База данных механического цеха'', создаются 6 отчетов:

Ш выборка по бригадам (рис. 4.24) - отчет на состав бригады по заданному ее номеру;

Ш отчет выборки по бригадам в режиме конструктора (рис. 4.25)

Ш мастер (рис 4.26) - отчет по информации мастеров;

Ш отчет информации о мастерах в режиме конструктора (рис. 4.27)

Ш рабочий_персонал (рис 4.28) - отчет информации по рабочему персоналу;

Ш отчет по ФИО рабочего персонала в режиме конструктора (Рис. 4.29)

Ш составы бригад и бригадиры (рис 4.30) - отчет о составе бригад и бригадиров 16 цеха;

Ш отчет о составе бригад и бригадиров 16 цеха в режиме конструктор (рис. 4.31)

Ш управляющий_персонал (рис 4.32) - отчет информации управляющего персонала;

Ш отчет информации управляющего персонала в режиме конструктор (рис. 4.33)

Ш станки ( рис 4.34) - отчет станков и связи с инструментами;

Ш отчет станков и связи с инструментами в режиме конструктора (рис. 4.35).

Рис. 4.24 - Отчет выборки по бригадам

Рис. 4.25 - Отчет выборки по бригадам в режиме конструктора

Рис. 4.26 - Отчет информации о мастерах

Рис. 4.27 - Отчет информации о мастерах в режиме конструктора

Рис. 4.28 - Отчет по ФИО рабочего персонала

Рис. 4.29 - Отчет по ФИО рабочего персонала в режиме конструктора

Рис. 4.30 - Отчет по составу бригад и бригадиров

Рис. 4.31 - Отчет по составу бригад и бригадиров в режиме конструктора

Рис. 4.32 - Отчет станков и связи с инструментами

Рис. 4.33 - Отчет станков и связи с инструментами в режиме конструктор

Рис. 4.34 - Отчет управляющего персонала

Рис. 4.35 - Отчет управляющего персонала в режиме конструктор

4.8 Разработка интерфейса БД

Форма -- это объект Access, который отображает данные на экране в рамках некоторого окна. Форма состоит из следующих основных элементов, показанных на рис. 4.36.

Рис. 4.36 - Форма Access

Форма, отображающая одновременно одну запись в области данных, является простой. Форма, отображающая в области данных последовательность из нескольких записей, является ленточной.

Для формы, как правило, определен источник данных -- это таблица или запрос. Данные из источника данных обычно размещают в области данных формы -- в полях и элементах управления. Для большей наглядности изобразим схематично выборку данных из источников данных в форму (рис. 4.37).

Рис. 4.37 - Выборка данных из источников данных в форму

Форма представляет собой объект БД, содержащий упорядоченный набор элементов управления, которые обеспечивают интерактивное взаимодействие с полями одной или нескольких таблиц. Формы используются для более удобного отображения информации, содержащейся в БД. Хорошо разработанная форма делает ввод данных проще и аккуратнее.

Access обеспечивает среду разработки и совершенствования форм, которая дает вам возможность полного контроля над видом и функционированием формы.

В форме можно отобразить только одну запись, что облегчает работу с таблицами, которые имеют большое количеству полей, показать информацию, сразу из нескольких таблиц. Экранные формы, могут отображать сразу несколько записей. В форме можно использовать раскрывающиеся списки, флажки.

Составляющие формы -- это объекты, называемые элементами управления, среди которых текстовые поля, надписи, кнопки, списки, переключатели, раскрывающиеся списки и другие знакомые вам по интерфейсу Windows элементы.

Для БД «Разработка АРМ мастера механического цеха» необходимы следующие формы:

· Форма ТИТУЛ (рис. 4.38) главная форма, которая позволяет начать работу со всей базой;

· Рабочая форма(рис 4.39) - данные о приеме заказов на изготовление детали,

· Материальная база и рабочий персонал:

Ш Материальная база (рис 4.40 ) - информация о станках и инструменте, а также взаимосвязь с ними,

Ш Рабочий персонал (рис 4.41) - полная информация о рабочем персонале;

· Справочная информация (рис.4.42 ) - информация о предприятии.

Рис. 4.38 - Главная форма ТИТУЛ

Рис. 4.39 - Рабочая форма

Рис. 4.40 - Форма Материальная база

Рис. 4.41 - Форма рабочий персонал

Рис. 4.42 - Форма рабочий персонал

5. Руководство пользователя

Для того чтобы открыть базу данных механического цеха , нужно запустить файл БД механічного цеху.mdb. После этого запустится MS Access и появится окно Предупреждение системы безопасности (рис. 5.1).

Рис. 5.1 - Предупреждение системы безопасности

Для того чтобы зайти в базу данных, необходимо на этом окне нажать кнопку Открыть. После того, как вы совершили это действие, появиться окно главной формы (см. рис. 5.2), с помощью которой можно работать со всеми остальными формами.

Главная форма содержит 4 кнопки:

· Рабочая форма;

· Материальная база и рабочий персонал;

· Справочная информация;

· кнопка выхода из Microsoft Access.

Рис. 5.2 - Главная форма ТИТУЛ

Если нажать по кнопке Рабочая форма, то откроется форма приема заказов на изготовление деталей(рис. 5.3), на которой отображаются список текущих заказов, список деталей по заданному заказу, список операций для производства деталей в виде таблицы. Для добавления новой записи в таблицу список заказов предназначена пустая форма. После того, как заполнить эту форму, нужно нажать по кнопке список заказов, и последние записи будут автоматически добавлены в нашу таблицу (рис.5.4).

Рис. 5.3 - Рабочая форма

Рис. 5.4 - Таблица списка заказов

Чтобы посмотреть список деталей по заданному заказу (рис. 5.5) нужно выбрать из списка номер заказа и нажмите кнопку для выполнения запроса.

Рис. 5.5 - Список деталей по заданному заказу

Чтобы посмотреть список операций для производства детали (рис. 5.6) , нужно выбрать из списка название детали и нажать на кнопку для выполнения запроса.

Рис. 5.6 - Список операций для производства детали

Для того, что вывести отчет полного списка деталей, и полного списка заказов (рис. 5.7) нужно нажать по копке Просмотр полного списка деталей, и по кнопке просмотр полного списка заказов.

Рис. 5.7 - Отчет полного списка деталей, и полного списка заказов

Также если Вы хотите посмотреть информацию по выбранному заказу (рис. 5.8), Вам необходимо выбрать из списка заказов нужный Вам заказ и нажать на кнопку выполнить запрос.

Рис. 5.8 - Инфомация по выбранному заказу

Кнопки со знаком принтера запускают печать формы для заказа (рис. 5.9)

Рис. 5.9 - Печать формы для заказа

Нажав на главной форме (рис. 5.2) кнопку материальная база и рабочий персонал, выплывет два направления на кнопки, это кнопка Материальная база, и кнопка Рабочий персонал. Выбрав одну из кнопок, открываем форму. Например: форма Рабочий персонал (рис. 5.10)

Рис. 5.10 - Форма Рабочий персонал

Рабочий персонал содержит всю необходимую информацию о бригадах и ихних бригадиров, информацию о мастерах, информацию о управленческом персонале: имя, фамилия, отчество, табельный номер, розряд, номер бригады, фото и т.д. Выбрав из списка нужного вам человека, появиться вся информация об этой фамилии. Раскрыв список бригадиров с помошью поставленного Вами флажка (рис. 5.11) откроеться список бригадиров всех бригад и нужная Вам информация это: просмотр состава бригады по ее номеру (рис. 5.12) ,выбрав из номера бригады нужную вам бригаду, и кликнув по кнопке выполнить запрос.

Что бы вывести отчет бригады по последнему зделанному Вами запросу нажав на кнопку Бригада по последнему запросу , и просмотра всего рабочего персонала- это бригады, и бригадиры, нажав на кнопку Рабочий персонал по бригадам и бригадиры нужно поставить флажек на запись Отчеты (рис. 5.12)

Таким же образом, как и предыдущая операия просматреваим информация о мастерах и управленческом персонале. Внизу, также, размещены две кнопки для просмотра отчета по мастерах, и управленческом персонале (рис. 5.13).

Рис. 5.11 - Бригадиры и бригады

Рис. 5.12 - Посмотр состава бригады по ее номеру

Рис. 5.13 - Информация о мастерах и управленческом персонале, и просмотра отчета по мастерах, и управленческом персонале.

Если нажать на кнопку Материальная база, которая находится на главной форме (рис. 5.2), откроется окно с формой, которая содержит информацию о станках и инструменте (рис. 5.14).Нажав по кнопке Перехона на следующюю запись Вы увидите следующую нужную Вам информацию.

Раскрыв прочую информацию с помошью поставленного Вами флажка (рис. 5.15) внизу формы появиться дополнительные операции: связка станков с инструментами ,связка инструмента с станками (рис. 5.16).

Выбрав из списка станков и нажав на кнопку Связь станков и инструмента, Вы получите нужный Вам запрос. Таким же образом выполняем и операцию по инструменте.

Также можна вывести полный отчет о всех станках и их взаимосвязью с инструментами нажав на кнопку Просмотр отчета (рис. 5.16).

Рис. 5.14 - Форма Материальная база

Рис. 5.15 - Прочья информация

Рис. 5.16 - Связка станков с инструментами , связка инструмента с станками

Также на главной форме есть кнопка Справочная информация. Открыв ее мы увидем полную информацию о предприятии, а также историю развития завода (рис. 5.17).

Рис. 5.17 - Форма Справочная информация

Кнопка Выход на главной форме Титул (рис. 5.2)закрывает приложение.

ЗАКЛЮЧЕНИЕ

В ходе выполнения магистерской работы были проанализированы методы автоматизированого извлечения из баз даннях, реализовано описание алгоритма построения деревьев решений для системы автоматизированного извлечения знаний, показаны преимущества интеллектуального анализа данных Data Mining, рассмотрено извлечение знаний с помощью нейронных сетей, исследован кластерный анализ, изучен алгоритм COBWEB.

В результате проведенных исследований оказалось, что алгоритм COBWEB достаточно эффективен и даёт хорошие результаты кластеризации данных. Эта система выполняет разбиение на разумное число кластеров. Поскольку в нем используется вероятностное представление принадлежности, получаемые категории являются гибкими и робастными. Кроме того, в нем проявляется эффект категорий базового уровня, поддерживается прототипирование и учитывается степень принадлежности. Он основан не на классической логике, а, подобно методам теории нечетких множеств, учитывает «неопределенность» категоризации как необходимый компонент обучения и рассуждений в гибкой и интеллектуальной манере.

Однако COBWEB имеет свои недостатки, которые можно устранить применив некоторые модификации, а также используя предварительную обработку данных и объединив его с другими алгоритмами кластеризации.

Также в проведенной работе проанализированы различные системы управления баз данных, и показано, что для решения постановленной задачи наиболее удобным является Microsoft Access.

В ходе работы:

Ш разработана структура АРМ;

Ш реализовавана инфологическая модель базы данных с помощью BPWin;

Ш разработаны контекстные диаграммы;

Ш разработана физическая модель базы данных включающая в себя 10 таблиц:

· Бригады;

· Детали;

· Заказы;

· Информация;

· Мастера;

· Операция;

· Рабочий персонал;

· Сменное задание;

· Станки;

· Управляющий персонал.

Ш разработан интерфейс базы данных включающий в себя 4 формы:

· Рабочая форма;

· Материальная база;

· Рабочий персонал;

· Справочная информация.

Ш руководство пользователя.

Полученная база данных АРМ мастера внедрена на производстве.

СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ

1. Андерсен В. Базы данных Microsoft Access. Проблемы и решения: Практ. пособ. /Пер. с англ.-- М.: Издательство ЭКОМ, 2001.--384 с.: илл.

2. Алгоритмы кластерного анализа.

3. Аткинсон, Леон. MySQL. Библиотека профессионала.: Пер. с англ. -- М.: Издательский дом "Вильяме", 2002. -- 624 с.: ил. -- Парал. тит. англ.

4. Берлинер Э.М., Глазырина И.Б., Глазырин Б.Э. Microsoft Office 2003. - М.: БИНОМ, 2004.

5. В. Дюк. Data Mining - интеллектуальный анализ данных http://www.iteam.ru/publications/it/section_92/article_1448/

6. В.А. Виттих, И.В. Майоров, П.О. Скобелев, О.Л. Сурнин Интеллектуальный анализ данных с помощью кластеризации.

7. Гаврилова Т.А. и др. Базы знаний интеллектуальных систем. М:2000. с.117-130.

8. Гончаров А.Ю. Access 2003. Самоучитель с примерами - М.: КУДИЦ-ОБРАЗ, 2004. - 272 с.

9. Горев А., Макашарипов С., Ахаян Р. Эффективная работа с СУБД - М.: ЭКОМ, 2003.

10. D.H. Fisher, Knowledge Acquisition Via Incremental Conceptual Clustering. Machine Learning:

11. Джордж Ф. Люггер. Искусственный интеллект. Стратегии и методы решения сложных проблем. Издательство «Вильямс» - Москва, Санкт-Петербург, Киев - 2003. c. 371-432.

12. Краско Ю.В. Case-средства верхнего уровня. - СПб.: Лори, 2005. - 476 с.

13. Microsoft Access 2002. Русская версия. Шаг за шагом: Практ. пособ. /Пер. с англ.-- М.: Издательство ЭКОМ, 2002.--352 с.: илл.

14. И.А. Чубукова. Лекция: Методы кластерного анализа. Итеративные методы. Интернет университет информационных технологий.

15. Официальный сайт компании Microsoft. - http://www.microsoft.com

16. Управление знаниями http://msk.treko.ru/show_dict_ 390

17. Т. Гаврилова, Л. Григорьев. Бизнес держится на знаниях, сам того не зная. Журнал «Персонал-Микс» (№2, 2004).

18. Райордан Р. Основы реляционных баз данных. -- М.: Русская Редакция, 2001.

19. Хоменко А.Д., Цыганенко В.М., Мальцев М.Г. Базы данных. - СПб.: КОРОНА, 2004.

20. Эд Ботт, Вуди Леонард Использование Microsoft Office ХР. Специальное издание. -- М.: Вильяме, 2002.

21. Статья из журнала http://www.springerlink.com/content/qj16212n7537n6p3/fulltext.pdf

22. Управление знаниями http://www.management.com.ua/strategy/str116.html

23. Система COBWEB http://www.vuse.vanderbilt.edu/~dfisher/tech-reports/tr-88-05/node7.html

24. Интеллектуальный анализ данных с помощью кластеризации http://www.kg.ru/support/library/clustering

25. Методы кластерного анализа http://www.intuit.ru/department/database/datamining/14/1.html

26. Алгоритмы кластерного анализа http://www.dea-analysis.ru/clustering-5.htm

27. Fisher D.H. Knowledge acquisition via incremental conceptual clustering. Machine Learning. c. 139-172.

28. Пошаговая концептуальная классификация http://www.vuse.vanderbilt.edu/~dfisher/tech-reports/tr-88-05/node7.html

29. L. Breiman, J.H. Friedman, R.A. Olshen, C.T. Stone. - Classification and Regression Trees.-Wadsworth, Belmont, California.- 1984.- 350p.

30. Knowledge Discovery Through Data Mining: What Is Knowledge Discovery? - Tandem Computers Inc., 1996.

31. Кречетов Н.. Продукты для интеллектуального анализа данных. - Рынок программных средств, N14-15_97, c. 32-39.

32. Киселев М., Соломатин Е.. Средства добычи знаний в бизнесе и финансах. - Открытые системы, № 4, 1997, с. 41-44.

"САМЫЙ БОЛЬШОЙ БАНК РЕФЕРАТОВ"

Портал Рефератов

Рефераты

Рекомендуем

Методы извлечения знаний