НиД (10) - Лекция №9 - Качество информации
Содержание
Качество информации
Существует два взгляда на информационную систему:
- внешний - как на "чёрный ящик". Рассматривается назначение системы, её эффективность и работа в целом;
- внутренний - организация системы изнутри:
- архитектура;
- операции.
Мы будем говорить о внутреннем взгляде на систему.
Модель качества данных
Предположения модели:
- о представлении: информационная система - это отображение реальной системы, воспринимаемой человеком;
- об интерпретации: ИС создана для пользователя, чьё видение реального мира отражено в этой ИС;
- о следствии: ИС может создать такое отображение, из которого наблюдатель в состоянии оценить вид системы реального мира так, как она отражена в ИС;
- о внутреннем взгляде: рассматривается архитектура и операции.
Искажение информации - это несоответствие между взглядом человека на систему реального мира и взглядом на ту же систему, полученным при использовании ИС.
Краткие основы онтологии:
- все предметы обладают свойствами;
- каждый предмет состоит из набора более мелких;
- состояние объекта в момент времени характеризуется значениями его свойств (или значениями более мелких предметов).
Говорят, что ИС является отображение системы реального мира, если состояние ИС в момент времени позволяет сделать вывод о состоянии системы реального мира в этот же момент или в другой.
Состояния системы:
- рабочее - СРМ отражена правильно, если:
- для каждого состояния СРМ есть отображение в состояние ИС;
- не существует двух или более состояний СРМ, отображённых в одно состояние ИС;
- неполное - почта может доставлять только по России, потому международные доставляться не будут;
- многозначное - у человека есть мобильный и домашний телефон, а ИС понимает это просто как телефон;
- бессмысленное - есть состояния в ИС, которых нет в СРМ.
Дефекты операций:
- искажение информации;
- связанные с декомпозицией.
Характеристики качества информации:
- полнота;
- точность:
- однозначность (недвусмысленность);
- значимость;
- корректность.
Характеристика | Проблема отображения | Проблема информации | Способы улучшения |
---|---|---|---|
Полнота | существует состояние СРМ, не отображённое в ИС | нехватка информации по данной области | добавление в ИС новых состояний |
Однозначность | существуют состояния ИС, которые отображают несколько состояний СРМ | неясность, информация интерпретируется несколькими способами | изменение архитектуры системы, добавление новых состояний в ИС |
Значимость | существуют состояния ИС, которые невозможно отобразить в СРМ | невозможность восприятия данных пользователем | сокращение состояний ИС, чтобы остались только значимые |
Корректность | состояние ИС отображает неверное состояние СРМ | объекты, описываемые ИС, не соответствуют реальности | введение способов нормирования данных, приведение ссылочной целостности |
Математическая оценка качества реляционных операций
Всё строится на предположении, что точность кортежей может быть оценена.
Некоторые определения:
- реляционное отношение: $R$
- точность кортежа $t$: $A_t$
- количество кортежей, содержащих неточное значение атрибута: $P$
- количество точных кортежей: $N$
- количество кортежей, попавших в $R$ по ошибке, которые являются ложными его членами: $M$
Пример отношения $R$ - сотрудники мужского пола:
ID | Зарплата | Фамилия | Имя |
---|---|---|---|
1 | 100 | Иванов | Иван |
2 | 120 | Петров | Пётр |
3 | 120 | Сидорова | Катя |
Кортеж Сидоровой здесь является ложным.
Кортеж $t\in R$ является точным, когда:
- он является истинным членом отношения $R$;
- все атрибуты кортежа $t$ точны.
Точность отношения $R$: $A_R = \frac{N}{\mid R\mid}$, где $\mid R\mid$ - мощность отношения $R$.
Неточность, связанная с наличием ложных членов: $IM_R = \frac{M}{\mid R\mid }$
Неточность, связанная с наличием в кортежах неточных атрибутов: $IA_R = \frac{P}{\mid R\mid }$
$A_R + IM_R + IA_R = 1$
Если $R = \varnothing$, то $A_R = 1$
Точность атрибута: $A_a = \sqrt[D]{A_R} = A_R^{\frac{1}{D} }$
Будем считать, что вероятность ошибки в атрибуте кортежа распределена равномерно.
Точность селекции
Равномерное распределение
$R = \sigma_C^S$ - некоторое подмножество отношения $S$ по условию $C$.
Граничные условия:
- если $A_S = 0$, то $A_R = 0$
- если $A_S = 1$, то $A_R = 1$
$A_R = \frac{N}{\mid R\mid } = \frac{\mid R\mid\cdot A_S}{\mid R\mid } = A_S$
$IM_R = IM_S$
$IA_R = IA_S$
Неравномерное распределение
Граничные случаи:
- лучший - в селекцию попадает максимум точных кортежей
- если $\mid S_a\mid \ge \mid R\mid$, то $A_R = 1$
- если $\mid S_a\mid < \mid R\mid$, то $A_R = \frac{A_S\cdot \mid S\mid }{\mid R\mid }$
- худший - в селекцию попадает максимум неточных кортежей
- $A_R = \frac{\mid R\mid - (\mid S\mid \cdot (1 - A_S))}{\mid R\mid } = 1 - \frac{\mid S\mid }{\mid R\mid }\cdot (1 - A_S)$
Точность проекции
Равномерное распределение
$R(A) = \Pi_A S(B)$
Пример отношения $S$:
ID | Зарплата | Фамилия | Имя |
---|---|---|---|
1 | 110 | Иванов | Иван |
2 | 110 | Иванов | Сергей |
3 | 120 | Петров | Пётр |
4 | 150 | Сидоров | Сидор |
- $S(B)\rightarrow Q(A)$
- $Q(A)\rightarrow R(A)$
Проекция отношения без имён:
ID | Зарплата | Фамилия |
---|---|---|
2 | 110 | Иванов |
3 | 120 | Петров |
4 | 150 | Сидоров |
Дубликаты удаляются.
Пусть ${V_1 ... V_n}$ - кортеж из $S$, а $p$ - вероятностная точность атрибута, $p = \sqrt[m]{A_S}$
Первый шаг:
- $A_Q = \sqrt[m]{A_S^n}$
- $IM_Q = IM_S$
- $IA_Q = 1 - (IM_Q + A_Q) = 1 - (IM_S + \sqrt[m]{A_S^n})$
Теперь удаляем дубликаты (по сути, селекция):
- $A_R = \frac{\mid Q\mid \cdot A_Q - (\mid Q\mid - \mid R\mid )\cdot A_Q}{\mid R\mid } = A_Q = \sqrt[m]{A_S^n}$
Неравномерное распределение
Худший случай:
- если все кортежи из $Q$ неточны, то $A_R = 0$
- если в $Q$ есть и точные кортежи, и неточные, и при удалении дубликатов все точные схлопнутся в один, то $A_R = \frac{1}{1 + ((1 - \sqrt[m]{A_S^n} })\cdot \mid S\mid )$
Лучший случай
- если все кортежи из $Q$ точны, то $A_R = 1$
- если в $Q$ есть и точные кортежи, и неточные, и при удалении дубликатов все неточные схлопнутся в один, то $A_R = \frac{\sqrt[m]{A_S^n}\cdot \mid S\mid}{1 + (\sqrt[m]{A_S^n})\cdot \mid S\mid}$
Повышение качества данных
Классификация мер по повышению качества данных:
- сбор новых данных;
- стандартизация и нормализация;
- композиция качества;
- оптимизация затрат;
- идентификация объектов - обнаружение объектов реального мира в ИС;
- локализация и коррекция ошибок - задание шаблонов и определение кортежей, неудовлетворяющих этим шаблонам;
- интеграция данных - из нескольких систем в одну и проверка.