전체 글159 [통계] Maximum Likelihood Estimation (MLE) MLE는 딥러닝에 있어서 가장 기본이 되는 개념으로, 딥러닝 모델 자체가 결국 데이터를 일반화하는 분포를 찾기 위함이기에 MLE를 밑바탕으로 한다.이번 포스팅에서는 MLE를 이해하기 위해 먼저 Likelihood에 대해 알아보고 MLE와 MLE가 딥러닝에서 어떻게 쓰이는지 알아보도록 하겠다. Likelihood vs ProbabilityLikelihood(우도, 가능도)는 Probability(확률)과 헷갈리는 부분이 있다. Probability먼저 Probaility는 주어진(고정된) 확률분포가 있다고 했을 때, 관측하고자 하는 값이나 구간이 해당 확률분포 얼마만큼 나타날 수 있는가에 대한 값이다.$P(확률변수 | 분포)$와 같이 나타낼 수 있다. 예를 들어 고정된 표준정규분포에서 확률변수 X가 1 이.. 2024. 7. 30. [통계] KL Divergence KL Divergence(발산)을 설명하기 위해 먼저 Entropy와 CrossEntropy에 대해 설명할 필요가 있다. EntropyEntropy는 확률 분포의 불확실성(정보량)을 측정하는 값으로,어떤 사건에 대한 확률이 높으면 해당 사건 확실성이 높아지기 때문에 확률의 역으로 표현된 불확실성의 기대값을 구한다. 확률 분포 P에 대한 Entropy는 $H(P) = \sum \log_{2}{\frac{1}{P(x)}} \cdot P(x) = -\sum \log_{2}{P(x)} \cdot P(x)$ 로 표현된다. CrossEntropy아래와 같은 확률 분포가 있다고 하자.P: 실제 분포 (실제 데이터 분포)Q: 추정 분포 (머신에서 추정한 분포)CrossEntropy는 실제 분포 P에서 나온 데이터를 추.. 2024. 7. 19. [통계] 확률분포의 Expected Value & Variance Expected Value (기대값)확률이 없이 주어진 값에 대해 평균 값을 구하는 산술 평균과는 달리, ($\mu = \frac{1}{N} \sum_{i=1}^N x_i $)확률분포의 기대값은 확률적 사건에 대해 평균을 구하기 때문에 확률을 고려해서 계산을 해야한다. 이산 확률 변수이산 확률 변수에서의 기대값을 구하는 수식은 아래와 같다.$$E[X] = \sum_{i=1}^{N} x_{i}P(x_{i})$$$x_{i}$: 확률 변수가 가질 수 있는 값$P(x_{i})$: 해당 값이 나올 확률 - 확률 질량 함수 (probability mass function) 예시 - 주사위정육면체 주사위의 경우 각 면이 나올 확률은 $\frac{1}{6}$로 동일하다.그러면 주사위에 대한 기대값은 아래와 같이 구할 .. 2024. 7. 19. [논문 리뷰] Deep Residual Learning for Image Recognition ResNet으로 유명한 Deep Residual Learning for Image Recognition의 논문을 리뷰한다.ResNet은 CNN을 아키텍처이지만, 이 논문에서 시사하는 바는 딥러닝에 일반적으로 통용되기 때문에 꼭 읽어봐야할 논문이다.(기계 번역을 위한 모델인 Transformer에서도 skip(shortcut) connection을 사용하는 것을 확인할 수 있다) 이번 글을 통해 논문에서 제기하는 문제와 이를 해결하기 위한 residual learning에 대해 이해할 수 있도록 하자.(최대한 논문의 내용을 베이스로 하되 좀 더 쉽게 이해하도록 풀어쓰기 위해 노력하였다) * 이 논문에서 얘기하는 "plain" network는 이 논문에서 제안하는 shortcut connection을 적용.. 2024. 7. 1. 얼마나 했냐 아니라 얼마나 영향을 주었는가 일을 측정하는 가장 쉬운 방법은 양이다.출퇴근 시간이 어떻게 되는지, 프로젝트를 몇 개 하고 있는지, 코드를 몇 줄 짰는지...이런 일의 양은 물리적으로 정해져있기 때문에 확인하기가 쉬운 수치이다. 그렇기 때문에 업무상으로 누군가(자기 자신을 포함해서)를 평가를 할 때는 일의 양으로 판단하기가 쉬워진다.(또한 무엇을 얼마나 했냐에만 집중하면 뭐가 되든 일단 일만 벌리면 되기 때문에 정말 쉽다)일의 양은 어떤 측면에서는 합리적이고 논리적으로 보이기도 하다.하지만 일의 양에 치우치게 되면 가장 중요한 목적을 잊는 경우도 있다.커뮤니티 빌더들은 커뮤니티를 만들어야한다. 커뮤니티를 만들기 위한 행동 자체가 목적이 되어선 안된다.개발자는 개발을 통해 비즈니스에 도움을 주어야한다. 불필요한 기술적 기교를 부리고 코.. 2024. 6. 19. CNN Filter Visualization DNN(Deep Neural Network)은 성능면에서는 이미 검증이 된 머신러닝 기법이다.하지만 DNN이 어떠한 결론을 내렸을 때 어떠한 과정을 통해 그러한 결론을 내렸는지를 이해하는 것도 중요하다. 이번 포스팅에서는 CNN이 이미지에서 어떻게 물체를 인식하는지를 확인하기 위해 CNN 필터가 반응하는 패턴을 시각화하는 방법에 대해 알아보도록 하겠다. (예제 코드는 여기에서 확인할 수 있다) Concept먼저 필터가 어떤 패턴에 반응하는지를 확인하려면 어떻게 해야할까?필터의 출력인 활성화 값을 최대화시키는 이미지 데이터를 찾으면 된다.그 이미지는 필터의 패턴에 가장 많이 반응하는 것이기 때문에 해당 필터의 패턴을 나타내는 이미지라고 볼 수 있을 것이다. 그러면 활성화 값을 최대화시키는 이미지 데이터.. 2024. 6. 16. 이전 1 2 3 4 5 6 7 ··· 27 다음