НиД (10) - Лекция №9 - Качество информации: различия между версиями
ILobster (обсуждение | вклад) (Новая страница: «== Качество информации == Существует два взгляда на информационную систему: * внешний - ка…») |
ILobster (обсуждение | вклад) |
||
Строка 80: | Строка 80: | ||
| 2 || 120 || Петров || Пётр | | 2 || 120 || Петров || Пётр | ||
|- align="center" | |- align="center" | ||
| 3 || 120 || | | 3 || 120 || Сидорова || Катя | ||
|} | |} | ||
Текущая версия от 11:26, 9 апреля 2013
Качество информации
Существует два взгляда на информационную систему:
- внешний - как на "чёрный ящик". Рассматривается назначение системы, её эффективность и работа в целом;
- внутренний - организация системы изнутри:
- архитектура;
- операции.
Мы будем говорить о внутреннем взгляде на систему.
Модель качества данных
Предположения модели:
- о представлении: информационная система - это отображение реальной системы, воспринимаемой человеком;
- об интерпретации: ИС создана для пользователя, чьё видение реального мира отражено в этой ИС;
- о следствии: ИС может создать такое отображение, из которого наблюдатель в состоянии оценить вид системы реального мира так, как она отражена в ИС;
- о внутреннем взгляде: рассматривается архитектура и операции.
Искажение информации - это несоответствие между взглядом человека на систему реального мира и взглядом на ту же систему, полученным при использовании ИС.
Краткие основы онтологии:
- все предметы обладают свойствами;
- каждый предмет состоит из набора более мелких;
- состояние объекта в момент времени характеризуется значениями его свойств (или значениями более мелких предметов).
Говорят, что ИС является отображение системы реального мира, если состояние ИС в момент времени позволяет сделать вывод о состоянии системы реального мира в этот же момент или в другой.
Состояния системы:
- рабочее - СРМ отражена правильно, если:
- для каждого состояния СРМ есть отображение в состояние ИС;
- не существует двух или более состояний СРМ, отображённых в одно состояние ИС;
- неполное - почта может доставлять только по России, потому международные доставляться не будут;
- многозначное - у человека есть мобильный и домашний телефон, а ИС понимает это просто как телефон;
- бессмысленное - есть состояния в ИС, которых нет в СРМ.
Дефекты операций:
- искажение информации;
- связанные с декомпозицией.
Характеристики качества информации:
- полнота;
- точность:
- однозначность (недвусмысленность);
- значимость;
- корректность.
Характеристика | Проблема отображения | Проблема информации | Способы улучшения |
---|---|---|---|
Полнота | существует состояние СРМ, не отображённое в ИС | нехватка информации по данной области | добавление в ИС новых состояний |
Однозначность | существуют состояния ИС, которые отображают несколько состояний СРМ | неясность, информация интерпретируется несколькими способами | изменение архитектуры системы, добавление новых состояний в ИС |
Значимость | существуют состояния ИС, которые невозможно отобразить в СРМ | невозможность восприятия данных пользователем | сокращение состояний ИС, чтобы остались только значимые |
Корректность | состояние ИС отображает неверное состояние СРМ | объекты, описываемые ИС, не соответствуют реальности | введение способов нормирования данных, приведение ссылочной целостности |
Математическая оценка качества реляционных операций
Всё строится на предположении, что точность кортежей может быть оценена.
Некоторые определения:
- реляционное отношение: $$R$$
- точность кортежа $$t$$: $$A_t$$
- количество кортежей, содержащих неточное значение атрибута: $$P$$
- количество точных кортежей: $$N$$
- количество кортежей, попавших в $$R$$ по ошибке, которые являются ложными его членами: $$M$$
Пример отношения $$R$$ - сотрудники мужского пола:
ID | Зарплата | Фамилия | Имя |
---|---|---|---|
1 | 100 | Иванов | Иван |
2 | 120 | Петров | Пётр |
3 | 120 | Сидорова | Катя |
Кортеж Сидоровой здесь является ложным.
Кортеж $$t\in R$$ является точным, когда:
- он является истинным членом отношения $$R$$;
- все атрибуты кортежа $$t$$ точны.
Точность отношения $$R$$: $$A_R = \frac{N}{\mid R\mid}$$, где $$\mid R\mid$$ - мощность отношения $$R$$.
Неточность, связанная с наличием ложных членов: $$IM_R = \frac{M}{\mid R\mid }$$
Неточность, связанная с наличием в кортежах неточных атрибутов: $$IA_R = \frac{P}{\mid R\mid }$$
$$A_R + IM_R + IA_R = 1$$
Если $$R = \varnothing$$, то $$A_R = 1$$
Точность атрибута: $$A_a = \sqrt[D]{A_R} = A_R^{\frac{1}{D} }$$
Будем считать, что вероятность ошибки в атрибуте кортежа распределена равномерно.
Точность селекции
Равномерное распределение
$$R = \sigma_C^S$$ - некоторое подмножество отношения $$S$$ по условию $$C$$.
Граничные условия:
- если $$A_S = 0$$, то $$A_R = 0$$
- если $$A_S = 1$$, то $$A_R = 1$$
$$A_R = \frac{N}{\mid R\mid } = \frac{\mid R\mid\cdot A_S}{\mid R\mid } = A_S$$
$$IM_R = IM_S$$
$$IA_R = IA_S$$
Неравномерное распределение
Граничные случаи:
- лучший - в селекцию попадает максимум точных кортежей
- если $$\mid S_a\mid \ge \mid R\mid$$, то $$A_R = 1$$
- если $$\mid S_a\mid < \mid R\mid$$, то $$A_R = \frac{A_S\cdot \mid S\mid }{\mid R\mid }$$
- худший - в селекцию попадает максимум неточных кортежей
- $$A_R = \frac{\mid R\mid - (\mid S\mid \cdot (1 - A_S))}{\mid R\mid } = 1 - \frac{\mid S\mid }{\mid R\mid }\cdot (1 - A_S)$$
Точность проекции
Равномерное распределение
$$R(A) = \Pi_A S(B)$$
Пример отношения $$S$$:
ID | Зарплата | Фамилия | Имя |
---|---|---|---|
1 | 110 | Иванов | Иван |
2 | 110 | Иванов | Сергей |
3 | 120 | Петров | Пётр |
4 | 150 | Сидоров | Сидор |
- $$S(B)\rightarrow Q(A)$$
- $$Q(A)\rightarrow R(A)$$
Проекция отношения без имён:
ID | Зарплата | Фамилия |
---|---|---|
2 | 110 | Иванов |
3 | 120 | Петров |
4 | 150 | Сидоров |
Дубликаты удаляются.
Пусть $${V_1 ... V_n}$$ - кортеж из $$S$$, а $$p$$ - вероятностная точность атрибута, $$p = \sqrt[m]{A_S}$$
Первый шаг:
- $$A_Q = \sqrt[m]{A_S^n}$$
- $$IM_Q = IM_S$$
- $$IA_Q = 1 - (IM_Q + A_Q) = 1 - (IM_S + \sqrt[m]{A_S^n})$$
Теперь удаляем дубликаты (по сути, селекция):
- $$A_R = \frac{\mid Q\mid \cdot A_Q - (\mid Q\mid - \mid R\mid )\cdot A_Q}{\mid R\mid } = A_Q = \sqrt[m]{A_S^n}$$
Неравномерное распределение
Худший случай:
- если все кортежи из $$Q$$ неточны, то $$A_R = 0$$
- если в $$Q$$ есть и точные кортежи, и неточные, и при удалении дубликатов все точные схлопнутся в один, то $$A_R = \frac{1}{1 + ((1 - \sqrt[m]{A_S^n} })\cdot \mid S\mid )$$
Лучший случай
- если все кортежи из $$Q$$ точны, то $$A_R = 1$$
- если в $$Q$$ есть и точные кортежи, и неточные, и при удалении дубликатов все неточные схлопнутся в один, то $$A_R = \frac{\sqrt[m]{A_S^n}\cdot \mid S\mid}{1 + (\sqrt[m]{A_S^n})\cdot \mid S\mid}$$
Повышение качества данных
Классификация мер по повышению качества данных:
- сбор новых данных;
- стандартизация и нормализация;
- композиция качества;
- оптимизация затрат;
- идентификация объектов - обнаружение объектов реального мира в ИС;
- локализация и коррекция ошибок - задание шаблонов и определение кортежей, неудовлетворяющих этим шаблонам;
- интеграция данных - из нескольких систем в одну и проверка.