부스트캠프 AI Tech 4기

5. Python data handling

StoneSeller 2022. 9. 23. 18:54

CSV (Comma Seperate Value)

  • 쉼표(,)로 구분한 텍스트 파일
  • 엑셀 양식의 데이터를 프로그램에 상관없이 쓰기 위한 데이터 형식

 

WEB

▮ WWW (World Wide Web)

  • 데이터 송수신 : HTTP protocal
  • 데이터 표시 HTML 형식
  • 요청(웹주소, form, header) → 처리(db) → 응답(html, xml) → 렌더링(html, xml)

 

 HTML(Hyper Text Markup Language)

  • 웹 상의 정보를 구조적으로 표현하기 위한 언어
  • 제목, 단락, 링크 등 요소 표시를 위해 Tag를 사용
  • 모든 요소들은 꺾쇠괄호 안에 둘러 쌓여 있음
    <p>Hello</p>
  • 모든 HTML은 트리 모양의 포함관계를 가짐
  • 일반적으로 웹 페이지의 HTML 소스파일은 컴퓨터가 다운로드한 후 웹 브라우저가 해석/표시

 

▮ Regular Expression(정규표현식)

  • 복잡한 문자열 패턴을 정의하는 문자 표현 공식

정규식 연습 사이트 : https://regexr.com/

정규식 관련 정리: https://life-is-also-pizza.tistory.com/145

 

  • re, urllib 모듈

 

XML

  • 데이터의 구조와 의미를 설명하는 Tag(MarkUp)를 사용하여 표시하는 언어
  • TAG와 TAG사이에 값이 표시되고, 구조적인 정보를 표현할 수 있음
  • HTML과 문법이 비슷, 대표적인 데이터 저장 방식

 

JSON

  • JavaScript Object Notation
  • 원래 웹 언어인 Java Script의 데이터 객체 표현 방식
  • 간결성으로 기계/인간이 모두 이해하기 편함
  • 데이터 용량이 적고, Code로의 전환이 쉬움 → XML의 대체제로 많이 활용되고 있음
  • json 모듈을 사용하여 손쉽게 파싱 및 저장 가능
  • 데이터 저장 및 읽기는 dict type과 상호 호환 가능
  • 웹에서 제공하는 API는 대부분 정보 교환 시 JSON 활용
import json

with open('json_example.json', 'r', encoding='utf8') as f :
    contents = f.read()
    json_data = json_loads(contents)

# Dict Type으로 데이터 저장 -> json 모듈로 write
dict_data = {'Name':'kbh', 'Age':25}
with open('data.json', 'w') as f :
    json.dump(dict_data, f)

 

 

 

 

728x90