AIOps 개요
- AIOps는 ‘Artificial Intelligence for IT Operations’ 또는 ‘Algorithmic IT Operation’입니다. IT운영을 향상시키기 위해 인공지능(AI)를 적용한 것입니다. 특히, AIOps는 빅 데이터, 분석 및 러닝 머신 기능을 사용합니다.
- 수행기능
- 여러 IT 인프라 구성 요소, 애플리케이션 및 성능 모니터링 도구에서 생성 된 방대한 양의 계속 증가하는 운영 데이터를 수집하고 집계합니다.
- '노이즈'에서 '신호'를 지능적으로 선별하여 시스템 성능 및 가용성 문제와 관련된 중요한 이벤트 및 패턴을 식별합니다.
- 근본 원인을 진단하고이를 IT에 보고하여 신속한 대응 및 수정을 받거나 경우에 따라 사람의 개입없이 이러한 문제를 자동으로 해결합니다.
- 필요성
- ITOps가 인프라스트럭처를 수동으로 관리하면서 발생하는 어려움
최신 IT 환경이 모바일, 관리 및 관리되지 않은 클라우드, 타사 서비스, SaaS 통합 등을 포함하면서 인프라스트럭처라는 용어가 거의 유명무실해 졌습니다. 비즈니스 복잡성을 관리하는 기존의 접근 방식은 오늘날의 동적이고 유연한 환경에서 더 이상 유효하지 않습니다. 이에 따라 이러한 복잡성을 수동으로 관리하고 트래킹하는 일이 점차 어려워지고 있습니다. 현재 ITOps 기술은 이미 수동 관리로 감당할 수 없는 상황입니다. - ITOps가 갈수록 증가하는 데이터를 보관해야 함
성능 모니터링으로 인해 알림 및 이벤트 숫자가 기하급수적으로 증가하고 있습니다. 게다가 모바일 애플리케이션, IOT 디바이스, API, 디지털 또는 머신 사용자가 유입되면서 서비스 티켓 볼륨의 계단 함수(step function) 역시 증가하는 추세입니다. - 더 빠른 속도로 인프라스트럭처 문제에 대응해야 함
기업이 운영을 디지털화하면서 IT 자체가 비즈니스화 되었습니다. 실제로 기술 "소비"는 산업 전반에서 사용자의 기대치를 바꿔놓았습니다. IT 이벤트에 대한 대응은, 특히 문제가 사용자 경험에 영향을 미치는 경우를 포함하여 즉시 이루어져야 합니다. - 개발자는 성능 및 영향력 증가의 혜택을 누리는 반면 핵심 IT 부서의 의무도 이행해야 함
DevOps기업의 경우, 프로그래머가 애플리케이션 레벨의 모니터링 의무를 가진 것으로 간주되어 왔지만 인프라스트럭처, 애플리케이션, 서비스 간 상호 작용은 물론 전체 IT 환경의 상태에 대한 책임은 여전히 핵심 IT 부서의 영역입니다. - 네트워크 센터로부터 더 많은 컴퓨팅 성능 이동
타사 서비스 및 클라우드 인프라스트럭처의 용이한 도입으로 인해 사업부(Line of Business) 기능이 강화되면서 IT 애플리케이션 및 솔루션을 구축할 수 있게 되었습니다. 제어 및 예산은 IT의 에지로 이동되고 있습니다. 이제 기업은 외부의 핵심 IT에서 더 많은 컴퓨팅 성능을 추가할 수 있습니다.
여러 개의 개별 수동 IT 운영 도구를 하나의 지능적이며 자동화 된 IT 운영 플랫폼으로 대체함으로써 AIOps를 통해 IT 운영 팀은 훨씬 적은 노력으로 속도 저하 및 중단에 보다 신속하게 (사전 예방적으로) 대응할 수 있습니다.
한편으로는 점점 다양 해지고 동적이며 모니터링하기 어려운 IT 환경과 애플리케이션 성능 및 가용성의 중단이 거의 또는 전혀 없는 사용자 기대 사이의 격차를 해소합니다. 대부분의 전문가는 AIOps를 IT 운영 관리의 미래로 간주합니다.
-
오늘날 대부분의 조직은 별도의 정적 물리적 시스템의 기존 인프라에서 지속적으로 확장 및 재구성 되는 가상화 또는 소프트웨어 정의 리소스에서 실행 되는 온 프레미스, 관리 클라우드, 프라이빗 클라우드 및 퍼블릭 클라우드 환경의 동적 혼합으로 전환하고 있습니다. 이러한 환경에서 애플리케이션과 시스템은 계속 증가하는 데이터 쓰나미를 생성합니다. 실제로 Gartner는 평균 엔터프라이즈 IT 인프라가 매년 2 ~ 3 배 더 많은 IT 운영 데이터를 생성한다고 추정합니다. 기존의 도메인 기반 IT 관리 솔루션은 볼륨을 따라갈 수 없습니다. 그들은 주변 데이터의 쇄도에서 중요한 이벤트를 지능적으로 분류 할 수 없습니다. 서로 다르지만 상호 의존적 인 환경에서 데이터를 상관시킬 수 없습니다. 또한 IT 운영 팀이 사용자 및 고객 서비스 수준의 기대치를 충족 할 수있을만큼 빠르게 문제에 대응하는 데 필요한 실시간 통찰력 및 예측 분석을 제공 할 수 없습니다. 모든 환경에서 성능 데이터 및 종속성에 대한 가시성을 제공하고 데이터를 분석하여 속도 저하 또는 중단과 관련된 중요한 이벤트를 추출하고 IT 직원에게 문제, 근본 원인 및 권장 솔루션에 대해 자동으로 경고하는 Enter AIOps입니다.
- AIOps의 작동 방식을 이해하는 가장 쉬운 방법은 각 AIOps 구성 요소 기술 (빅 데이터, 기계 학습 및 자동화)이 프로세스에서 수행하는 역할을 검토합니다.AIOps는 빅 데이터 플랫폼을 사용하여 격리 된 IT 운영 데이터를 한 곳에서 집계합니다. 이 데이터에는 다음이 포함될 수 있습니다.
- 과거 성능 및 이벤트 데이터
- 실시간 운영 이벤트 스트리밍
- 시스템 로그 및 메트릭
- 패킷 데이터를 포함한 네트워크 데이터
- 사고 관련 데이터 및 티켓팅
- 관련 문서 기반 데이터 그런 다음 AIOps는 집중 분석 및 기계 학습 기능을 적용합니다.
- '노이즈'에서 중요한 이벤트 경고 분리
- AIOps는 규칙 애플리케이션 및 패턴 일치와 같은 분석을 사용하여 IT 운영 데이터를 살펴보고 신호(중요한 비정상 이벤트 경고)를 노이즈(기타 모든 것)와 분리합니다.
- 근본 원인 식별 및 솔루션 제안
- AIOps는 산업별 또는 환경 별 알고리즘을 사용하여 비정상 이벤트를 환경 전반의 다른 이벤트 데이터와 연관시켜 중단 또는 성능 문제의 원인을 파악하고 해결책을 제안 할 수 있습니다.
- 실시간 사전 해결을 포함한 응답 자동화
- 최소한 AIOps는 경고 및 권장 솔루션을 적절한 IT 팀에 자동으로 라우팅하거나 문제의 특성과 솔루션에 따라 대응 팀을 만들 수도 있습니다. 대부분의 경우 사용자가 문제가 발생했음을 알기도 전에 실시간으로 문제를 해결하는 자동 시스템 응답을 트리거하기 위해 기계 학습의 결과를 처리 할 수 있습니다.
- 지속적으로 학습하여 향후 문제 처리 개선
- 분석 결과를 기반으로 기계 학습 기능은 알고리즘을 변경하거나 새로운 알고리즘을 생성하여 문제를 더 일찍 식별하고 더 효과적인 솔루션을 추천 할 수 있습니다. AI 모델은 또한 시스템이 DevOps 팀이 프로비저닝하거나 재구성 한 새로운 인프라와 같은 환경의 변화에 대해 배우고 적응하는 데 도움이 될 수 있습니다.