부스트캠프 AI Tech 4기
5. Python data handling
StoneSeller
2022. 9. 23. 18:54
CSV (Comma Seperate Value)
- 쉼표(,)로 구분한 텍스트 파일
- 엑셀 양식의 데이터를 프로그램에 상관없이 쓰기 위한 데이터 형식
WEB
▮ WWW (World Wide Web)
- 데이터 송수신 : HTTP protocal
- 데이터 표시 HTML 형식
- 요청(웹주소, form, header) → 처리(db) → 응답(html, xml) → 렌더링(html, xml)
▮ HTML(Hyper Text Markup Language)
- 웹 상의 정보를 구조적으로 표현하기 위한 언어
- 제목, 단락, 링크 등 요소 표시를 위해 Tag를 사용
- 모든 요소들은 꺾쇠괄호 안에 둘러 쌓여 있음
<p>Hello</p> - 모든 HTML은 트리 모양의 포함관계를 가짐
- 일반적으로 웹 페이지의 HTML 소스파일은 컴퓨터가 다운로드한 후 웹 브라우저가 해석/표시
▮ Regular Expression(정규표현식)
- 복잡한 문자열 패턴을 정의하는 문자 표현 공식
정규식 연습 사이트 : https://regexr.com/
정규식 관련 정리: https://life-is-also-pizza.tistory.com/145
- re, urllib 모듈
XML
- 데이터의 구조와 의미를 설명하는 Tag(MarkUp)를 사용하여 표시하는 언어
- TAG와 TAG사이에 값이 표시되고, 구조적인 정보를 표현할 수 있음
- HTML과 문법이 비슷, 대표적인 데이터 저장 방식
JSON
- JavaScript Object Notation
- 원래 웹 언어인 Java Script의 데이터 객체 표현 방식
- 간결성으로 기계/인간이 모두 이해하기 편함
- 데이터 용량이 적고, Code로의 전환이 쉬움 → XML의 대체제로 많이 활용되고 있음
- json 모듈을 사용하여 손쉽게 파싱 및 저장 가능
- 데이터 저장 및 읽기는 dict type과 상호 호환 가능
- 웹에서 제공하는 API는 대부분 정보 교환 시 JSON 활용
import json
with open('json_example.json', 'r', encoding='utf8') as f :
contents = f.read()
json_data = json_loads(contents)
# Dict Type으로 데이터 저장 -> json 모듈로 write
dict_data = {'Name':'kbh', 'Age':25}
with open('data.json', 'w') as f :
json.dump(dict_data, f)
728x90