Storage intro

Данные – цифровое представление всего чего угодно в любой форме (определение SNIA – Storage Networking Industrial Association).

Данные в текущем мире технологий (ICT, Information and communication technology) крайне важны и на них полагается бизнес для предоставления сервисов и повседневной работы. Они генерируются в больших объемах и нуждаются зачастую в долгосрочном хранении с постоянным доступом к ним.

Информация – часть данных, которая может быть использована для различных целей. Проблематика big data состоит в том, что данных становится все больше, а информацию из этих данных извлечь зачастую сложно. Количество данных кроме того растет и из-за роста потребностей в большем количестве информации. Кто (напр. из сотрудников) должен получать какую информацию – своего рода само по себе наука под названием Аналитика Информации (Information Analysis).

Хранение данных поднимает следующие вопросы:

  • Среда хранения
  • Поиск информации в большом массиве данных
  • Доступность данных
  • Обеспечение надежного хранения
  • Время хранения

Данные могут хранится децентрализованно (на компьютерах) или централизованно (на серверах). Вторая схема является более грамотной из-за простоты организации гарантии хранения и совместного доступа к данным. Сервера обычно находятся в серверных (MERs, Main Equipment Rooms) или дата-центрах (DC, Data Center). Несмотря на все меры по организации избыточности оборудования и надежности нельзя забывать о защите от катастроф – организации резервных площадок.

Статистика показывает, что большая часть данных (около 70%) являются статическими – данные созданы и сохранены, но с большой вероятностью более не будут даже просмотрены. Тут поднимается проблематика оценки важности данных и принятия решения об их удалении или дальнейшем хранении. Остальные 30% данных являются динамическими и зачастую располагаются в файловых шарах для удобного совместного использования.

Четыре вопроса управления жизненным циклом данных (Information Life Cycle Management):

  • Какие данные нужны
  • В каком формате их хранить
  • Как долго
  • Что делать с ненужными данным

  • Хранить зачастую нужно как аналоговые, так и цифровые носители информации любых форм. Под аналоговыми обычно подразумеваются разного рода бумаги. Цифровых бывает три типа – текстовые документы (TXT, PFD, DOC, ODF), пиксельные картинки (TIFF, PNG), векторные картинки (DWG, IGES).
  • При возможности сжатия желательно использовать сжатие без потерь, например TIFF, PNG – без потерь, JPG – с потерями.
  • CALS и BASEL – стандарты в области информации. Первый американских военных, второй организаций финансового сектора.
  • Нельзя забывать и о физическом (доступ в помещение, серверные ограничен списком лиц) и логическом доступе (доступ к сети хранения ограничен ACL/VLAN/firewall или вообще отсутствует) к любым из этих носителей информации.

Время хранения информации может определяться бизнес требованиями организации (договора, гарантии, журналы), типом ее бизнеса, регламентироваться государством (медицинские записи должны хранится более 15 лет в Европе). При необходимости долгосрочного хранения (несколько лет) нужно отдельно решать вопросы организации подобного хранилища.

При принятии решения о ненужности информации нужно выбрать метод ее уничтожения. Бумажные носители могут быть пущены в шредер или в костер, цифровые данные могут быть удалены/отформатированы/отформатированы и множественно перезаписаны (secure wipe) или могут быть даже уничтожены диски (правительственные организации). SOX (Sarbanes-Oxley Act), JSOX, EuroSOX стандарты указывают, что сама организация ответственна за сохранение и уничтожение своей информации, они так же регулируют внешний доступ к внутренним носителям.

Так же в контексте данных важны термины RPO/RTO/CTO, business continuity (см. Восстановление после катастроф) и структуированные/неструктуированные данные (см. Основы Big Data).

 

Вопросы

What are the deciding parameters for Information LifeCycle Management?
A.How long data should be kept?
B.The amount of data.
C.The format in which the data must be kept.
D.What to do with data that is no longer required?

ACD

What determines the retention period for data?
A.Government, COD, Sarbanes-Oxley
B.Government, COD, Business Continuity rules for your own company
C.Business Continuity rules for your company only
D.Government only

B

Files should be stored in formats that are supported by many independent sotware builders.

T

The retention period for data is determined by government based rules.

F (not only)

Name four important steps in Information Lifecycle Management.

Какие данные нужны
В каком формате их хранить
Как долго
Что делать с ненужными данным

What is the main reason for data loss in most companies?

80% человеческий фактор

What methods can be used to protect data?

backup, restricted access, WORM

Name three file formats in which we can store images.

TIFF, JPG, DWG

(True or False) In an ICT infrastructure the servers can only and always run the same operating systems like Windows, Linux, AIX.

F

Leave a Reply