开始说话,做手势,问AI看到了什么