개요

만약 문자열 내에서 특정 단어나 구절을 찾아야한다고 해보자.
예를 들어 “안녕하세요 저는 xxx입니다. 그리고 저는 개발자입니다.”와 같은 문자열이 있다.
여기서 개발자라는 단어를 어떻게 찾을 수 있을까?
여기에는 여러가지 방법이 있다. 보이어 무어라던지 KMP라던지…

그러나 가장 간단하게 생각해볼 수 있는 방법이 하나 있다.
바로 “개발자”는 3글자로 이루어진 단어니 문자열을 앞에서부터 찾으려는 단어를 밑에 겹쳐보며 스캔하는 것이다.

안녕하세요 저는 xxx입니다. 그리고 저는 개발자입니다.
개발자
 개발자
  개발자
   ....

이러한 발상의 알고리즘을 슬라이딩 윈도우라고 한다.

슬라이딩 윈도우

위에서 본 것처럼 작은 프레임을 조금씩 옮겨가며 확인하여 문제를 해결하는 슬라이딩 윈도우 알고리즘은 그 동작 방식이 마치 창문을 밀어서 열고 닫는 것과 같다고 하여 붙여진 이름이다.
구현 방법은 투 포인터와 크게 다르지 않다. 투 포인터는 결국 두 포인터가 만나게되지만 이건 정해진 크기를 유지하며 옮겨가는 것이다.

문제풀이

DNA 비밀번호

문제
평소에 문자열을 가지고 노는 것을 좋아하는 민호는 DNA 문자열을 알게 되었다. DNA 문자열은 모든 문자열에 등장하는 문자가 {‘A’, ‘C’, ‘G’, ‘T’} 인 문자열을 말한다. 예를 들어 “ACKA”는 DNA 문자열이 아니지만 “ACCA”는 DNA 문자열이다. 이런 신비한 문자열에 완전히 매료된 민호는 임의의 DNA 문자열을 만들고 만들어진 DNA 문자열의 부분문자열을 비밀번호로 사용하기로 마음먹었다.

하지만 민호는 이러한 방법에는 큰 문제가 있다는 것을 발견했다. 임의의 DNA 문자열의 부분문자열을 뽑았을 때 “AAAA”와 같이 보안에 취약한 비밀번호가 만들어 질 수 있기 때문이다. 그래서 민호는 부분문자열에서 등장하는 문자의 개수가 특정 개수 이상이여야 비밀번호로 사용할 수 있다는 규칙을 만들었다.

임의의 DNA문자열이 “AAACCTGCCAA” 이고 민호가 뽑을 부분문자열의 길이를 4라고 하자. 그리고 부분문자열에 ‘A’ 는 1개 이상, ‘C’는 1개 이상, ‘G’는 1개 이상, ‘T’는 0개 이상이 등장해야 비밀번호로 사용할 수 있다고 하자. 이때 “ACCT” 는 ‘G’ 가 1 개 이상 등장해야 한다는 조건을 만족하지 못해 비밀번호로 사용하지 못한다. 하지만 “GCCA” 은 모든 조건을 만족하기 때문에 비밀번호로 사용할 수 있다.

민호가 만든 임의의 DNA 문자열과 비밀번호로 사용할 부분분자열의 길이, 그리고 {‘A’, ‘C’, ‘G’, ‘T’} 가 각각 몇번 이상 등장해야 비밀번호로 사용할 수 있는지 순서대로 주어졌을 때 민호가 만들 수 있는 비밀번호의 종류의 수를 구하는 프로그램을 작성하자. 단 부분문자열이 등장하는 위치가 다르다면 부분문자열이 같다고 하더라도 다른 문자열로 취급한다.

입력
첫 번째 줄에 민호가 임의로 만든 DNA 문자열 길이 |S|와 비밀번호로 사용할 부분문자열의 길이 |P| 가 주어진다. (1 ≤ |P| ≤ |S| ≤ 1,000,000)

두번 째 줄에는 민호가 임의로 만든 DNA 문자열이 주어진다.

세번 째 줄에는 부분문자열에 포함되어야 할 {‘A’, ‘C’, ‘G’, ‘T’} 의 최소 개수가 공백을 구분으로 주어진다. 각각의 수는 |S| 보다 작거나 같은 음이 아닌 정수이며 총 합은 |S| 보다 작거나 같음이 보장된다.

출력
첫 번째 줄에 민호가 만들 수 있는 비밀번호의 종류의 수를 출력해라.

예제 입력 1 
9 8
CCTGGATTG
2 0 1 1
예제 출력 1 
0
예제 입력 2 
4 2
GATA
1 0 0 1
예제 출력 2 
2

주어진 문자열에서 프레임을 유지한채로 앞에서부터 스캔하며 문제의 조건에 맞다면 카운트를 증가시키는 방식으로 해결할 수 있다.
예를 들어 첫번째 입출력을 보면 윈도우의 크기는 8이다.
A가 1개 C가 2개 G가 2개 T가 3개.
조건에 맞지 않는다. 따라서 윈도우를 한 칸 오른쪽으로 옮긴다. 그러면 A가 1개 C가 1개 G가 3개 T가 3개로 조건에 맞지 않는다. 따라서 출력은 0이다.
윈도우를 옮기며 새롭게 카운팅하는 방법도 가능하지만 비효율적이다.
그러니 윈도우가 옮겨지면 새로운 요소를 추가하고 가장 왼쪽의 요소를 삭제하는 방식으로 구현하는 것이 좋다.

check_list = [0] * 4
my_list = [0] * 4
check_count = 0

def add(c):
   global check_list, my_list, check_count
   if c == 'A':
      my_list[0] += 1
      if my_list[0] == check_list[0]:
         check_count += 1
   elif c == 'C':
      my_list[1] += 1
      if my_list[1] == check_list[1]:
         check_count += 1
   elif c == 'G':
      my_list[2] += 1
      if my_list[2] == check_list[2]:
         check_count += 1
   elif c == 'T':
      my_list[3] += 1
      if my_list[3] == check_list[3]:
         check_count += 1

def remove(c):
   global check_list, my_list, check_count

   if c == 'A':
      my_list[0] += 1
      if my_list[0] == check_list[0]:
         check_count -= 1
      my_list[0] -= 1
   elif c == 'C':
      my_list[1] += 1
      if my_list[1] == check_list[1]:
         check_count -= 1
      my_list[1] -= 1
   elif c == 'G':
      my_list[2] += 1
      if my_list[2] == check_list[2]:
         check_count -= 1
      my_list[2] -= 1
   elif c == 'T':
      my_list[3] += 1
      if my_list[3] == check_list[3]:
         check_count -= 1
      my_list[3] -= 1

s, p = map(int, input().split())
result = 0
arr = list(input())
check_list = list(map(int, input().split()))

for i in range(4):
   if check_list[i] == 0:
      check_count += 1

for i in range(p):
   add(arr[i])

if check_count == 4:
   result += 1

for i in range(p, s):
   j = i - p
   add(arr[i])
   remove(arr[j])
   if check_count == 4:
      result += 1

print(result)