'원사이트'

원사이트

오늘 든 생각의 발단 ✅학교에서 지난 학기에 '딥러닝 이해'라는 과목을 수강하면서 '통계'라는 주제 자체에 대해 반추하게 되었다. 더군다나 Tensorflow.js라는, Javascript 용 머신러닝 라이브러리의 데모를 살펴보니, 나중에 요긴하게 쓸 수 있을 것 같다

2025년 1월 2일2min read

오늘 든 생각의 발단 ✅

학교에서 지난 학기에 '딥러닝 이해'라는 과목을 수강하면서 '통계'라는 주제 자체에 대해 반추하게 되었다. 더군다나 Tensorflow.js라는, Javascript 용 머신러닝 라이브러리의 데모를 살펴보니, 나중에 요긴하게 쓸 수 있을 것 같다는 생각이 들었다. 그런데 오늘은 기술에 대한 이야기가 아니라, 내가 느낀 감정에 대해 쓰고 싶다.

뉴비 시절 든 생각 ✅

딥러닝에 대해 제대로 이해하기 위해 이런저런 책을 다시 읽고 있는데, 확률질량함수와 확률밀도함수에 대한 내용이 나왔다.

확률질량함수는 이산형 확률변수, 즉 카운팅 가능한 확률변수에 대한 실현값의 확률을 반환하는 함수다.

확률밀도함수는 연속형 확률변수, 즉 키나 몸무게처럼 정확히 카운팅 된다기보다는 실수 형태로 나타날 가능성이 있는 확률변수에 대한 확률밀도를 반환하는 함수다. 이때 확률밀도는 확률이 아니라, 단위 구간 당 확률의 분포를 의미한다. 확률 밀도 함수 자체의 값은 확률을 나타내지 않으며, 이를 구간에 대해 적분할 때 확률을 구할 수 있다.

따라서 확률질량함수는 개별 관측값에 대한 확률을 단순히 합산하는 함수일 것이고, 확률밀도함수는 구간에 대한 적분값을 반환하는 함수일 것이다.

그런데 대학교 freshman 시절,,, 진짜 호랑이가 흡연하던 시절,,, 이런 생각이 들었던 것 같다. 왜 '질량'과 '밀도'라는 용어를 사용하는 거지?

그런데 나만 이런 생각을 하는 것 같아 이상해 보이기 싫어서 그냥 넘어갔다. 친구들은 당연하게 그냥 잘 했으니까.

동시에 어떤 교수님은, 교수는 연구하는 사람이지 가르치는 사람이 아니라며, 내가 느낀 회의감에 불을 지피기도 했다. 누구를 원망할 생각은 없고, 오늘은 답을 구했다.

공식에 관한 이야기 ✅

밀도는 질량을 부피로 나눈 값이다. 따라서 질량이란 ``밀도 X 부피`` 값이다.

3차원에서 질량은 ``밀도 X 부피`겠지만, 2차원에서의 질량은 `밀도 X 면적`이다. 따라서 1차원에서 질량은 `밀도 X 길이`이고, 0차원의 질량은 점 그 자체, 그러니까 질량을 표현할 수단이 없고 `점 자체가 질량``이다.

확률질량함수는 이산형 데이터에 대한 함수이고, 개별 관측값(=점)에 대한 함수이기에 밀도가 개입할 여지가 없다.

하지만 확률밀도함수는 연속형 데이터, 즉 구간에 대한 함수이고, 구간은 달리 표현하면 점과 점이 연결된 형태의 선이다. 즉, 1차원에 대한 질량을 논의하는 함수이기에 ``밀도 X 길이`` 공식이 적용되는 형태다.

확률밀도함수부터 밀도의 개념이 들어오기에 그 정체성을 표현하기 위해 특별히 확률'밀도'함수라고 부르는 것이고, 확률밀도함수와 구분하기 위해 확률'질량'함수는 그 정체성을 가장 잘 나타내는 '질량'이라는 용어를 사용하게 된 것이다.

오늘 든 생각 ✅

훨씬 더 쉬울 수 있었고, 훨씬 더 재미있을 수 있었다.

내가 느낀 불편함은 잘못된 게 아니었다. 이렇게 본질을 이해하면 나머지 과정이 술술 진행된다. 불평만 하면서 보낸 시간이 아깝다. 답을 구하는 게 아니라 내가 답을 직접 찾으려 했으면 더 행복한 시간들을 보낼 수 있지 않았을까. 정해진 방식에 집착하기보다, 내가 느낀 감정이나 생각에 집중하는 것이 여러모로 더 좋다는 생각이 들었다.

분명 freshman 시절의 본인처럼, 굉장히 화가 나있는 사람들이 많을 것 같다. 새해에도 본질에 대해 열심히 연구해서, 배워서 남 주는 내가 될 것이다. 네가 가진 생각이 잘못된 게 아니라고 말할 수 있는 어른이 될 것이다. 나는 내가 싫어했던 사람들처럼 살기 싫으니께!