데이터분석 12

[2월][3주차] 병원 노쇼 분석 프로젝트🤕

2025.02.21 금요일캐글데이터 사용문제 정의      A 병원에서는 예약한 환자들이 오지 않아     진료가 원활히 이루어지지 않는 일이 종종 발생.      문제를 해결하기 위해      예약하고 오지 않는 환자들의 특징을 파악하고,      'No Show' 발생률을 줄일 수 있는 아이디어를 제시해보자!!!프로젝트 요약 1. 데이터 전처리 교정이 필요한 이유 및 작업2. 데이터에서 결측치를 찾아 처리 및 가공3. 데이터에서 통계량과 시각화를 이용하여 이상치 제거4. 데이터의 값 오류를 찾아 처리 및 가공5. 시각화를 통해 중요한 특성(요소출력)6. 분석에 용이하도록 데이터 타입 변환데이터 확인 ### 1. 데이터 읽기와 확인 ###df = pd.read_csv('./data/medical.csv..

🕥시계열 데이터 분석 완벽 가이드🕥

시계열 데이터는 시간의 흐름에 따라 수집된 데이터를 의미하며, 금융, 기상 예측, 의료, 제조 등 다양한 분야에서 활용됩니다. 본 글에서는 시계열 데이터의 개념부터 주요 분석 기법(예측, 분류, 이상 탐지)에 대해 정리해보겠습니다.1. 시계열 데이터란?시계열 데이터(Time Series Data)는 시간 축에 따라 순차적으로 기록된 데이터로, 일정한 간격으로 수집되는 것이 일반적입니다.주식 가격 변화 (1분, 1시간, 1일 단위)기온 변화 (시간별, 일별 기온 데이터)소셜 미디어 트렌드 (해시태그, 검색어 트렌드)제조 공정 데이터 (센서 데이터, 품질 검사 데이터)이러한 데이터는 일반적인 정형 데이터와 달리 시간 의존성이 강하므로, 분석 방법도 다릅니다.2. 시계열 데이터의 주요 구성 요소🔹 1) 추세..

[LG U+ 5기]/Study 2025.02.22

[2월][3주차] 주식 시세 예측 분석📈

2025.02.21 금요일문제 정의 필자는 주식을 팔아야 할지, 팔지 말아야 할지 고민한다.고민한 끝에 앞으로 상승할 것이라 예측하면 계속 가지고 있기로 마음먹었다.과연, 주식은 상승할 것인가 아니면 하강할 것인가? 데이터 불러오기pip install finance-DataReader # 프롬프트에서 패키치 설치!import FinanceDataReader as fdr # 패키지 불러오기 데이터는 fdr 패키지를 이용하겠다. [애플] 주식을 2022년도 부터 현재 시점(2025.02.20) 까지 불러온다.df = fdr.StockListing('KRX') # NASDAQ : 미국주식# 애플 주식 데이터 수집df = fdr.DataReader('AAPL','2022') 간단하게 추세선을 그려보고 데이터를..

[2월][3주차] 💹삼성전자 종가 분석 프로젝트 (크롤링/BeautifulSoup)

2025.02.17 월요일 크롤링이 데이터를 찾는 작업이라면, 스크래핑은 데이터를 추출하는 작업.크롤링은 스크래핑의 첫 번째 단계가 될 수 있다.ex) 웹사이트 전체를 크롤링해 필요한 페이지를 발견한 후, 해당 페이지에서 데이터를 스크래핑 크롤링과 스크래핑은 '원하는 데이터를 모을수 있다'는 점이 비슷.BUT, 웹 크롤링은 웹 페이지 링크를 타고 계속해서 탐색을 이어나가지만, 웹 스크래핑은 데이터 추출을 원하는 대상이 명확하여 특정 웹사이트만을 추적한다는 차이점 ! 웹 크롤링: 페이지를 모아 분류하고 검색 결과에 내가 찾는 키워드와 연관된 링크들만 모아 볼 수 있도록 작동. 웹 스크래핑 : 상품의 가격, 주식정보, 뉴스 등 원하는 데이터가 명확하며, 흩어져 있는 해당 데이터를 자동으로 추출하여 전달. r..

[2월][3주차] 🏥의료데이터 분석 프로젝트

2025.02.17 월HEART 심부전 데이터심부전 발생했다고 가정한 데이터 [컬럼 설명]더보기ChestPainType : 가슴 통증 타입TA : 심장에 의한 협심증 통증ATA : 심장 관련 전형적이지 않은 통증NAP : 심장 관련 아닌 가슴 통증ASY : 무증상RestingBP : 안정된 상태에서 측정된 혈압RestingBP : 안정된 상태에서 측정된 혈압Cholesterol : 혈액 내의 콜레스테롤 농도FastingBS : 공복 상태의 혈당1 : 120mg/dl 보다 크면0 : 그 외 RestingECG : 안정된 상태의 심전도ST : 심전도에서 문제가 발견LVH : 좌심실이 비정상적으로 커진 상태MaxHR : 최대 심박수ExerciseAngina : 운동시 가슴 통증 경험 여부HeartDisease..

[2월][2주차] 넷플릭스 분석 프로젝트

* 캐글 데이터를 사용했다고 한다.  2025.02.14 넷플릭스 데이터 분석NETFLIX1. 데이터 컬럼을 파악하고, 분석할 목표 정하기show_id각 쇼의 고유 ID type쇼의 카테고리로 영화 또는 TV 쇼title쇼의 이름 director 쇼의 감독 이름 cast 배우의 이름 및 쇼의 다른 출연진 country Netflix에서 프로그램을 시청할 수 있는 국가의 이름 date_added Netflix에 프로그램이 추가된 날짜release_year쇼의 출시 연도rating넷플릭스 등급 표시 duration 쇼의 지속 시간 listed_in 쇼의 장르 description 쇼를 설명하는 일부 텍스트  컬럼 결측치 처리 # 컬럼을 하나씩 꺼내서 각 컬럼의 데이터의 결측치 파악 코드for i in net..

[2월][2주차][Python] 12일차 (이터레이터/제너레이터/sav실습)

2025.02.12 수요일 이터레이터 next 함수 호출 시 계속 그다음 값을 리턴하는 객체. 리스트는 next로 값을 꺼내지 못함 -> 이터레이터 객체가 아님#리스트a = [1,2,3]ia = iter(a) #리스트에 괄호 써서 변경 가능# 이터레이터 만들기 class MYIterator: def __init__(self, data): # 매개변수 self.data = data self.position = 0 # 초기인덱스 번호 def __iter__(self): # iter 함수 :해당 클래스로 생성한 iteration 객체 return self def __next__(self):..

[LG U+ 5기]/Study 2025.02.12

[2월][2주차][Python] 11일차 : ch.1/2/3/4/5/6(ft.DO IT 점프 투 파이썬)

2025.02.11새로운 교재를 받았다 ! (# do it 점프 투 파이썬) 파이썬 기초 부분 진행중에 must 기억 또는 new 지식 기록하기!  * f 문자열 포메팅은 Python 3.6 이상 사용 가능name = '홍길동'f'나의 이름은 {name}입니다.'#=> '나의 이름은 홍길동입니다.'* 파이썬 내장함수에서 upper 뿐 아니라 lower, join, istrip, rstrip, replace, split 함수는 모두 이와 같은 규칙에 적용되어 문자열 자체의 값이 변경되는 것이 아니라 변경된 값을 리턴한다는 사실 !!!!! => 원본 값은 안 변함 !!!!*list 리스트는 여러 숫자, 문자 등을 한번에 받을 수 있지만vspandas의 Series는 하나의 자료형만 받을 수 있음. lambd..

[LG U+ 5기]/Study 2025.02.11

[2월][1주차][Python] 5,6일차 (IDLE/함수/module/class)

2025.02.03 오늘은 spyder 이용한 파이썬 기본 지식 알아보기 수업을 진행했다. 솔직히 오늘 수업 내용은 이미 알고 있는 내용들이기도 하고, 완전 기초 부분이라서 괜히 시간이 더 안가는 느낌...ㅎ 그래도 중간 중간 while / for 반복문 차이점과 while 주의 사항, sorted 관련 내용들을 한 번씩 더 볼 수 있는 좋은 기회였다. 이런건 항상 헷갈리고.. 항상 중요한 기본이니까는... 내일은 더 어려운 걸 나갈예정이라고 하셨는데, 기대된다 !  + 오늘 마지막 테스트 시간에 본 파이썬 기본 테스트 파일 !이 정도는 가뿐 ~  2025.02.04 오늘은 어제 이어서 파이썬의 함수, 모듈, 클래스 수업을 진행했다. 슬라이싱 이라던가, 함수라던가, 같은 것들은 아무래도 코테 준비할 때 ..

[LG U+ 5기]/Study 2025.02.04