[Python] type hinting

📌 목적

타입 힌팅은 코드 작성 시 개발자와 다른 사용자에게 함수의 입력 및 출력 타입에 대한 정보를 제공하여 코드를 더 명확하고 유지보수하게 쉽게 만든다.

📌 예시

1. 반환값 X

def print_world() -> None:
    print("world")

-> : 함수가 어떤 타입의 값을 반환하는지 명시하는 반환 타입 힌트(return type hint)를 지정하는 문법이다.

-> None : 함수가 값을 반환하지 않음을 의미한다. 즉 return문 없이 실행만 하고 끝나는 함수이다.

result = print_world()

result는 None이다.

참고: 반환 타입 힌트가 없는 경우

def print_world():
    print("world")

2. 반환값 int

def add(x: int, y: int) -> int:
    return x + y

result = add(3, 5)  # 반환값은 int 타입

3. 반환값 객체

def __call__(
        self,
        text: Union[TextInput, PreTokenizedInput, List[TextInput], List[PreTokenizedInput]] = None,
        text_pair: Optional[Union[TextInput, PreTokenizedInput, List[TextInput], List[PreTokenizedInput]]] = None,
        text_target: Union[TextInput, PreTokenizedInput, List[TextInput], List[PreTokenizedInput]] = None,
        text_pair_target: Optional[
            Union[TextInput, PreTokenizedInput, List[TextInput], List[PreTokenizedInput]]
        ] = None,
        add_special_tokens: bool = True,
        padding: Union[bool, str, PaddingStrategy] = False,
        truncation: Union[bool, str, TruncationStrategy] = None,
        max_length: Optional[int] = None,
        stride: int = 0,
        is_split_into_words: bool = False,
        pad_to_multiple_of: Optional[int] = None,
        padding_side: Optional[bool] = None,
        return_tensors: Optional[Union[str, TensorType]] = None,
        return_token_type_ids: Optional[bool] = None,
        return_attention_mask: Optional[bool] = None,
        return_overflowing_tokens: bool = False,
        return_special_tokens_mask: bool = False,
        return_offsets_mapping: bool = False,
        return_length: bool = False,
        verbose: bool = True,
        **kwargs,
    ) -> BatchEncoding:
      
        # To avoid duplicating
        all_kwargs = {
            "add_special_tokens": add_special_tokens,
            "padding": padding,
            "truncation": truncation,
            "max_length": max_length,
            "stride": stride,
            "is_split_into_words": is_split_into_words,
            "pad_to_multiple_of": pad_to_multiple_of,
            "padding_side": padding_side,
            "return_tensors": return_tensors,
            "return_token_type_ids": return_token_type_ids,
            "return_attention_mask": return_attention_mask,
            "return_overflowing_tokens": return_overflowing_tokens,
            "return_special_tokens_mask": return_special_tokens_mask,
            "return_offsets_mapping": return_offsets_mapping,
            "return_length": return_length,
            "split_special_tokens": kwargs.pop("split_special_tokens", self.split_special_tokens),
            "verbose": verbose,
        }
        all_kwargs.update(kwargs)
        if text is None and text_target is None:
            raise ValueError("You need to specify either `text` or `text_target`.")
        if text is not None:
            # The context manager will send the inputs as normal texts and not text_target, but we shouldn't change the
            # input mode in this case.
            if not self._in_target_context_manager:
                self._switch_to_input_mode()
            encodings = self._call_one(text=text, text_pair=text_pair, **all_kwargs)
        if text_target is not None:
            self._switch_to_target_mode()
            target_encodings = self._call_one(text=text_target, text_pair=text_pair_target, **all_kwargs)
        # Leave back tokenizer in input mode
        self._switch_to_input_mode()

        if text_target is None:
            return encodings
        elif text is None:
            return target_encodings
        else:
            encodings["labels"] = target_encodings["input_ids"]
            return encodings

__call__ 메스드의 반환 타입은 Hugging Face의 tranformers 라이브러리에서 제공하는 BatchEncoding 객체이다.

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

# 입력 텍스트
text = "I love AI."
text_target = "AI is amazing."

# 토크나이저 호출
output = tokenizer(text=text, text_target=text_target, padding="max_length", max_length=10, return_tensors="pt")

print(output)

tokenizer 내부 함수 __call__ 실행됨

출력 예시

BatchEncoding(data={
    "input_ids": tensor([[  101,  1045,  2293,  9931,  1012,   102,     0,     0,     0,     0]]),
    "attention_mask": tensor([[1, 1, 1, 1, 1, 1, 0, 0, 0, 0]]),
    "labels": tensor([[  101,  9931,  2003,  6429,  1012,   102,     0,     0,     0,     0]])
})

📌 출처 코드

https://github.com/huggingface/transformers/blob/main/src/transformers/tokenization_utils_base.py#L2788

transformers/src/transformers/tokenization_utils_base.py at main · huggingface/transformers

🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX. - huggingface/transformers

github.com

'Python' 카테고리의 다른 글

추상 메서드 (Abstract Method) (1)	2024.12.10

arario

[Python] type hinting

📌 목적

📌 예시

📌 출처 코드

'Python' 카테고리의 다른 글

티스토리툴바

[Python] type hinting

📌 목적

📌 예시

📌 출처 코드

'Python' 카테고리의 다른 글

관련글

티스토리툴바