학습 과정.alphago

벽돌깨기 게임을 시켰는데

조종할 수 있는 키 입력, "가장 높은 스코어를 올려라" 는 명령만 주고

방법이나 원리같은 정보는 알고리즘에 전혀 넣지 않음.

= 알파고는 벽돌깨기 게임을 첨해보는 인간과 같은상태.

그후 일어난일

1. 처음 10분동안은 딥마인드가 막대기를 움직여서 공을 쳐보려고 하지만 컨트롤 능력이 떨어져서 헤맨다.

2. 120분이 지나자 능숙한 플레이가 가능해짐.

3. 240분후, 딥마인드는 한쪽에 터널을 뚫어서 윗쪽으로 공을 보내는게 가장 빠르고 높은점수를 얻을 수 있는 효율적인 방법임을 발견함.