Иногда приходится слышать вопрос: мы все постоянно занимаемся тем, что решаем проблемы, зачем нужен отдельный процесс? Особенно много сомнений вызывает именно проактивное управление проблемами. Давайте попробуем разобраться, зачем нужен этот процесс и как он устроен.
Разница между реактивным и проактивным управлением проблемами видна из названия. Цель первого – реагировать на инциденты и не допускать их повторения. Цель второго – предотвращать их возникновение. Речь идет о поиске «узких мест» и скрытых ошибок в инфраструктуре, которые до поры никак себя не проявляют. На что же влияют такие «узкие места» и зачем нам обязательно нужно их обнаруживать?
Часто крупные инциденты бывают следствием досадных мелочей, типа порванного уборщицей кабеля. И всегда после таких случаев в воздухе витает вопрос об уровне профессионализма ИТ. Ведь, кажется, это было так просто предусмотреть и предотвратить. Предусмотреть и предотвратить – задачи проактивного управления проблемами. Таким образом, хорошо поставленный процесс помогает создавать имидж ИТ службы как профессионального, ответственного партнера бизнеса. Хотя, сам по себе процесс, конечно исключительно внутренний и заказчику не виден.
Применение структурных решений, вместо постоянного латания дыр влияет и на мотивацию сотрудников ИТ. Атмосфера в коллективе становится спокойней, меньше становится авральных работ и вызовов по выходным. У людей появляется ощущение, что они работают в ответственной и грамотно управляемой организации, растет уважение к своей работе и руководству.
Итак, проактивное управление проблемами направлено на предотвращение инцидентов. Но есть несколько групп процессов, направленных на достижение этой же цели. Зачем нужен еще один? И какое место он занимает среди них?
Рассмотрим эти группы процессов.
Процессы управления мощностью и доступностью. Цель их спланировать инфраструктуру таким образом, чтобы ИТ услуги предоставлялись в соответствии с текущими и будущими потребностями бизнеса. Т.е. эти процессы отвечают за планирование инфраструктуры и предотвращение инцидентов на тактическом уровне.
Процесс управления информационной безопасностью также занимается планированием системы безопасности для предотвращения инцидентов на своем участке.
Операционные процессы управления инфраструктурой. Например, управление регламентными работами и управление данными. Цель их поддерживать работоспособность инфраструктуры на операционном уровне. Предотвращать инциденты, путем профилактических мероприятий.
Процессы управления релизами и управления тестированием призваны не пропускать в эксплуатацию компоненты, содержащие ошибки.
Проактивное управление проблемами занимает место между этими группами процессов, и предназначено для поиска уязвимостей в области мощности, доступности, безопасности, непрерывности, ошибок, которые могли быть допущены при планировании инфраструктуры в соответствующих тактических процессах. А также ошибок, допущенных на этапе тестирования и внедрения новых компонентов.
Процесс состоит из двух операций: анализ тенденций и планирование превентивных действий.
В рамках этой операции осуществляется наблюдение за инфраструктурой, позволяющие выявить любые нетипичные события, свидетельствующие о скрытых ошибках или уязвимостях. Для эффективного анализа тенденций ключевым фактором является наличие полной и достоверной информации о компонентах инфраструктуры и происходящих событиях.
Очень важна в анализе тенденций регулярность. Основным источником информации являются процессы мониторинга и управления событиями, именно они первыми извещают о странностях в поведении систем, которые, еще не являясь инцидентами, могут свидетельствовать о наличии ошибок.
Не менее важная информация может поступать из различных внешних источников, таких как бюллетени поставщиков, сообщения от производителей антивирусов, общение в сообществах пользователей того или иного продукта.
Такая информация, как правило, слабо структурирована и с трудом поддается анализу. Отделение от потока информационных плевел малого количества полезных зерен, задача для высококвалифицированного аналитика. Во многом, это вопрос профессиональной интуиции, которой невозможно научиться, она появляется только с опытом.
Суть этой операции состоит в устранении обнаруженных уязвимостей и ошибок. При планировании превентивных действий следует учитывать значимость обнаруженных проблемных мест. Эта значимость определяется количеством инцидентов, количеством пользователей, на которых оказывается влияние, затратами, связанными с разрешением инцидентов, ущербом от простоя.
Сами корректирующие действия могут заключаться в:
инициации RFC, для устранения обнаруженной ошибки,
передачи поставщикам и разработчикам информации по тестированию, обучению и документации,
инициации обучения и тренингов для пользователей, персонала службы поддержки,
устранении нарушений процедур,
а также улучшении процессов и процедур.
Конечно, создать специальную штатную единицу для управления проблемами может себе позволить только очень большая и богатая организация. В обычных же условиях поиском «узких мест» занимаются специалисты 2-, 3-й линий поддержки, в свободное от «основной» работы время. Задача руководителя, менеджера процесса предоставить им это «свободное» время.
Выделение ресурсов – одна из самых трудных задач при организации процесса. На реактивное управление проблемами ресурсы обосновать проще: «мы ищем ошибку, из-за которой вчера полдня простаивала система». Такой аргумент, как правило, действует безотказно.
Проактивное же управление проблемами ищет ошибки, которые еще ни к чему плохому не привели, неизвестно приведут ли, и неизвестно есть ли вообще эти ошибки. К тому же требуются люди квалифицированные, с высокими аналитическими способностями, которых и так не хватает. Так что обосновать эти работы бывает довольно трудно.
Если же подходящий человек найден, ему поручено проводить анализ и искать возможные ошибки, встает вопрос, как проверять и контролировать его труд?
Сотрудник потратил день на поиск уязвимостей и ничего не обнаружил. Означает ли это, что он отлынивал от своих обязанностей, или это означает, что у нас хорошо продуманная и протестированная инфраструктура, которая еще год проработает безо всяких инцидентов?
А если поощрять рублем обнаруженные проблемы, очень скоро креативные ит-шники будут создавать ошибки сознательно, с тем чтобы их потом доблестно обнаружить и устранить.
Единственный выход – поручать работы по проактивному управлению проблемами заинтересованным сотрудникам. В любой организации найдутся люди, которые по собственному почину предпочтут ковыряться в железе или программном коде, вместо того, чтобы сидеть на «одноклассниках» или трепаться в аське. Для них назначение на роль аналитика по проблемам само по себе может служить дополнительной мотивацией. Задача руководителя выявлять таких людей и, по возможности, снимать с них рутинную работу.
Основной аргумент для выделения ресурсов на проактивное управление проблемами – сегодня потратим час, завтра сэкономим день.
В достаточно больших организациях имеет смысл создать постоянно действующий «Комитет по проблемам», состоящий из ключевых специалистов по всем областям инфраструктуры. Задачей этого комитета может являться анализ тенденций и выявление ошибок на пересечении зон ответственности различных подразделений.
В небольших организациях для этой цели можно периодически создавать небольшие кросс-функциональные группы. Менеджер проблем должен обладать полномочиями, достаточными для созыва таких групп.
При всей привлекательности идеи предотвращения всех инцидентов до их возникновения, нужно понимать, что это невозможно, да и неоправданно с точки зрения ресурсов. Всегда найдутся инциденты, которые дешевле устранить по факту, чем предотвращать. Поэтому необходимо поддерживать разумный баланс между проактивным и реактивными мерами. Полезно для поиска этого баланса использовать принцип Парето: 20 процентов инцидентов приводит к 80 процентам ущерба.