파이썬의 collections 모듈은 효율적인 데이터 구조를 제공하여 기본 데이터 타입보다 더 강력하고 유연한 기능을 제공합니다. 이 모듈은 다양한 컨테이너 타입을 포함하고 있으며, 이들 각각은 특정한 상황에서 더 효과적으로 데이터를 관리할 수 있게 도와줍니다. 이번 포스팅에서는 collections 모듈의 주요 데이터 구조와 그 활용 방법에 대해 알아보겠습니다.

1. collections 모듈이란?

collections 모듈은 파이썬 표준 라이브러리의 일부로, 리스트, 튜플, 딕셔너리 등 기본 데이터 구조를 확장한 컨테이너 타입을 제공합니다. 이 모듈을 통해 더 복잡한 데이터를 효율적으로 관리하고 조작할 수 있습니다.

2. 주요 데이터 구조들

collections 모듈에는 여러 데이터 구조가 포함되어 있으며, 이들 각각은 고유한 특성과 사용 사례를 가지고 있습니다. 여기서는 자주 사용되는 몇 가지 데이터 구조를 살펴보겠습니다.

2.1. namedtuple

namedtuple은 튜플의 서브클래스로, 필드 이름을 가지는 튜플을 생성합니다. 일반 튜플과 달리 namedtuple은 인덱스뿐만 아니라 이름을 사용하여 요소에 접근할 수 있습니다.

2.1.1. namedtuple 생성 및 사용 예제

from collections import namedtuple

# Point라는 이름의 namedtuple 생성
Point = namedtuple('Point', ['x', 'y'])

# Point 객체 생성
p = Point(10, 20)

# 필드 이름을 사용하여 요소 접근
print(p.x)  # 출력: 10
print(p.y)  # 출력: 20

# 일반 튜플처럼 인덱스로도 접근 가능
print(p[0])  # 출력: 10
print(p[1])  # 출력: 20

namedtuple은 특히 읽기 전용 데이터 구조를 정의할 때 유용하며, 코드의 가독성을 높이는 데 도움을 줍니다.

2.2. deque

deque는 양방향 큐(double-ended queue)를 구현한 데이터 구조로, 양쪽에서 빠르게 요소를 추가하거나 제거할 수 있습니다. deque는 스택과 큐의 기능을 모두 지원하며, 리스트보다 효율적인 요소 삽입 및 삭제를 제공합니다.

2.2.1. deque 사용 예제

from collections import deque

# deque 생성
d = deque([1, 2, 3])

# 오른쪽에 요소 추가
d.append(4)
print(d)  # 출력: deque([1, 2, 3, 4])

# 왼쪽에 요소 추가
d.appendleft(0)
print(d)  # 출력: deque([0, 1, 2, 3, 4])

# 오른쪽에서 요소 제거
d.pop()
print(d)  # 출력: deque([0, 1, 2, 3])

# 왼쪽에서 요소 제거
d.popleft()
print(d)  # 출력: deque([1, 2, 3])

deque는 특히 큐(queue) 또는 스택(stack)처럼 사용되는 데이터 구조에서 효율적입니다.

2.3. Counter

Counter는 요소의 빈도수를 세는 데 사용되는 딕셔너리 서브클래스입니다. 리스트, 튜플, 문자열과 같은 반복 가능한 객체를 입력으로 받아 각 요소의 개수를 세어줍니다.

2.3.1. Counter 사용 예제

from collections import Counter

# 문자열의 각 문자 빈도수 계산
c = Counter('banana')
print(c)  # 출력: Counter({'a': 3, 'n': 2, 'b': 1})

# 리스트의 요소 빈도수 계산
c = Counter([1, 2, 2, 3, 3, 3])
print(c)  # 출력: Counter({3: 3, 2: 2, 1: 1})

# 가장 빈도수가 높은 요소 찾기
print(c.most_common(1))  # 출력: [(3, 3)]

Counter는 데이터 분석, 통계, 간단한 집계 작업에 매우 유용합니다.

2.4. defaultdict

defaultdict는 기본값을 가지는 딕셔너리로, 존재하지 않는 키에 접근할 때 KeyError 대신 기본값을 반환합니다. 이를 통해 코드에서 예외 처리 없이 안전하게 딕셔너리를 사용할 수 있습니다.

2.4.1. defaultdict 사용 예제

from collections import defaultdict

# 기본값이 0인 defaultdict 생성
dd = defaultdict(int)

# 존재하지 않는 키에 접근 시 기본값 반환
dd['a'] += 1
print(dd['a'])  # 출력: 1
print(dd['b'])  # 출력: 0

# 리스트를 기본값으로 사용하는 defaultdict
dd = defaultdict(list)
dd['a'].append(1)
dd['b'].append(2)
print(dd)  # 출력: defaultdict(<class 'list'>, {'a': [1], 'b': [2]})

defaultdict는 초기화가 필요한 딕셔너리 값을 다룰 때 코드의 간결성과 안전성을 높여줍니다.

2.5. OrderedDict

OrderedDict는 삽입된 순서를 기억하는 딕셔너리입니다. 파이썬 3.7부터는 기본 딕셔너리도 삽입 순서를 보장하지만, OrderedDict는 특히 이전 버전이나 순서가 중요한 상황에서 유용하게 사용할 수 있습니다.

2.5.1. OrderedDict 사용 예제

from collections import OrderedDict

# OrderedDict 생성
od = OrderedDict()

# 순서대로 삽입
od['a'] = 1
od['b'] = 2
od['c'] = 3

# 삽입 순서 유지
for key, value in od.items():
    print(f"{key}: {value}")

출력:

a: 1
b: 2
c: 3

OrderedDict는 삽입 순서가 중요한 데이터 구조에서 유용하게 사용할 수 있습니다.

2.6. ChainMap

ChainMap은 여러 딕셔너리를 하나로 묶어 조회할 수 있는 데이터 구조입니다. 키를 조회할 때, 묶인 딕셔너리들을 순서대로 탐색합니다. 이 구조는 다중 컨텍스트에서 데이터를 관리하거나, 기본값을 제공하는 상황에 유용합니다.

2.6.1. ChainMap 사용 예제

from collections import ChainMap

# 두 개의 딕셔너리 생성
dict1 = {'a': 1, 'b': 2}
dict2 = {'b': 3, 'c': 4}

# 두 딕셔너리를 ChainMap으로 묶기
cm = ChainMap(dict1, dict2)

# 키 'a'는 dict1에서, 키 'b'는 dict1에서, 키 'c'는 dict2에서 조회됨
print(cm['a'])  # 출력: 1
print(cm['b'])  # 출력: 2 (dict1의 값)
print(cm['c'])  # 출력: 4

ChainMap은 여러 딕셔너리의 값들을 통합적으로 관리할 때 유용합니다.

3. 활용 예제

3.1. 로그 파일에서 단어 빈도수 계산

collections.Counter를 사용하여 로그 파일에서 특정 단어의 빈도수를 계산할 수 있습니다.

from collections import Counter

# 로그 파일의 내용
log_data = """
INFO: User logged in
ERROR: Disk not found
INFO: User logged out
WARNING: CPU temperature high
ERROR: Disk not found
"""

# 단어 빈도수 계산
word_counts = Counter(log_data.split())

# 가장 빈도수가 높은 단어 출력
print(word_counts.most_common(3))

3.2. 사용자 입력을 그룹화하여 처리

defaultdict를 사용하여 사용자 입력 데이터를 그룹화할 수 있습니다.

from collections import defaultdict

# 사용자 입력 데이터 (도시별 사용자)
user_data = [
    ('Seoul', 'Alice'),
    ('Busan', 'Bob'),
    ('Seoul', 'Charlie'),
    ('Busan', 'David'),
    ('Incheon', 'Eve'),
]

# defaultdict을 사용한 그룹화
grouped_data = defaultdict(list)
for city, user in user_data:
    grouped_data[city].append(user)

# 그룹화된 데이터 출력
for city, users in grouped_data.items():
    print(f"{city}: {', '.join(users)}")

출력:

Seoul: Alice, Charlie
Busan: Bob, David


Incheon: Eve

결론

이번 포스팅에서는 파이썬의 collections 모듈을 이해하고, 자주 사용되는 데이터 구조들을 살펴보았습니다. namedtuple, deque, Counter, defaultdict, OrderedDict, ChainMap과 같은 데이터 구조들은 다양한 상황에서 데이터를 더 효과적으로 관리하고 조작할 수 있게 도와줍니다. 실습을 통해 이들 데이터 구조를 사용하는 방법을 익히고, 실제 프로젝트에서 활용해 보세요.


이 글을 통해 파이썬의 collections 모듈을 이해하고, 실습을 통해 이를 사용하는 방법을 익힐 수 있을 것입니다. 다양한 데이터 구조를 활용하여 데이터를 효율적으로 관리하고, 코드를 간결하고 읽기 쉽게 만들어 보세요!

+ Recent posts