Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Iнформацiйнi технологi. Аналiтичнi матерiали Алгоритм ETL - технології інтеґрації даних


Алгоритм ETL - технолог╕╖ ╕нте╜рац╕╖ даних

Для попередньо отриманих ╕ збережених у оперативному сховищ╕ даних нобх╕дно розробити систему норм ╕ критер╕╖в перетворення ╖х до форми, придатно╖ для збереження у сховищ╕ даних. Приклади критер╕╖в та вимог:

  • обмеження часового пер╕оду факт╕в "в╕д ... – до ...", наприклад, виб╕р даних за останн╕й м╕сяць;
  • SELECT * FROM documents WHERE evdate>=DateDiff("d",Now(),30);

  • обов'язкове значення вим╕ру, чи показника факту;

    SELECT * FROM documents WHERE document_type IS NOT Null;

  • входження значень вим╕ру у попередньо визначену множину чи область визначення;
  • SELECT * documents WHERE delp_id In (select id from department where prior_id is Not Null);

  • ун╕кальн╕сть значень;
  • дотримання правил синтаксису;
  • семантичн╕ обмеження.
  • З метою анал╕зу, ф╕льтрац╕╖ та перетворення вх╕дних даних необх╕дно сформувати та виконати стосовно таблиц╕ факт╕в оперативного сховища даних запити на вилучення або зм╕ну даних, як╕ не в╕дпов╕дають критер╕ям, розглянутим вище:

  • вилучення даних, як╕ не м╕стять обов'язкових значень ╕, внасл╕док цього не можуть бути застосован╕ у сховищ╕ даних:
  • DELETE * FROM documents WHERE id not in (SELECT id from documents_type);

  • виправлення некоректних чи помилкових значень (наприклад, коли у джерелах даних внесено не коди п╕дрозд╕л╕в, а назви).
  • З метою завантаження таблиц╕ факт╕в необх╕дно створити та виконати запит (процедуру) перем╕щення значень з п╕дготовано╖ таблиц╕ вх╕дних даних сховища оперативних даних у таблицю факт╕в та провести анал╕з виконаних д╕й:

  • п╕дготовка вх╕дних даних: внести зм╕ни в склад, структуру ╕ зм╕ст джерел даних (по м╕р╕ потреби доповнити новими стовпчиками, вилучити зайв╕ чи зм╕нити параметри стовпчика, внести в╕дсутн╕ значення), узгодивши ╖х в╕дпов╕дност╕ з таблицею метаданих та структурою оперативного сховища даних;
  • створити таблицю ОСД;
  • при╓днати визначен╕ джерела даних в якост╕ зовн╕шн╕х таблиць;
  • сформувати та реал╕зувати запити (процедури) для перенесення даних зовн╕шн╕х джерел в оперативне сховище даних
  • З метою анал╕зу та вериф╕кац╕╖ сховища даних необх╕дно перев╕рити та об╜рунтувати працездатн╕сть сховища даних. Для цього:

  • перев╕рити наявн╕сть вс╕х необх╕дних значень у стовпчиках таблиц╕ факт╕в за таким алгоритмом:
  • 1) визначити к╕льк╕сть даних в джерелах,

    2) додати отриман╕ к╕лькост╕ запис╕в,

    3) визначити к╕льк╕сть вставлених у таблицю сховища запис╕в (дата внесення цих запис╕в р╕вна сьогодн╕шн╕й),

    4) якщо суми р╕вн╕, то ETL пройшов без перешкод;

  • перев╕рити таблицю факт╕в на наявн╕сть "п╕дв╕шених" рядк╕в, що виникають при наявност╕ в н╕й значень код╕в, в╕дсутн╕х у таблицях вим╕р╕в;
  • перев╕рити таблицю факт╕в на наявн╕сть повторюваних рядк╕в:
  • визнача╓мо записи, що повторюються,
    визначен╕ записи знищу╓мо, залишивши один з них;
  • виконати тестов╕ запити на отримання контрольних п╕дсумкових значень, таких як п╕драхунок к╕лькост╕ факт╕в по певному вим╕ру, сумарного значення по певному вим╕ру, тощо ╕ зв╕рити отриман╕ результати з фактичними
  • на п╕дстав╕ отриманих результат╕в зробити висновки про придатн╕сть чи непридатн╕сть побудованого сховища даних до застосування.

  • В избранное