POLYLOGARITHMIC WIDTH SUFFICES FOR GRADIENTDESCENT TO ACHIEVE ARBITRARILY SMALL TEST ER -ROR WITH SHALLOW RELU NETWORKS