2017-01-17

    新华网北京1月14日电(赵苏砚)为期三天的极客公园创新大会在北京举行,斯坦福大学计算机系终身教授、人工智能实验室主任、谷歌云首席科学家李飞飞在大会上发表了主旨演讲,在演讲中,她提到自己团队正在做的一项工作——看图说话。

语言和视觉是最近人工智能界非常关注的点。李飞飞谈到,最近她的团队和Facebook有次合作,发现计算机还远远达不到人类的能力,比如数数能力;计算机也没有比较的能力——人能很容易比较出一个东西比另外一个东西大,但计算机现在还远远做不到,这些都是机器视觉涉及的问题。

“最近我们正在做一系列关于看图说话的工作。”李飞飞说,“看图说话”目前可以根据图片说几句话,“当然能讲故事是发展的最终目标”。

李飞飞介绍,机器“看图说话”是一个不断进步的过程:第一步,在计算机还没有足够学习能力的时候,给出的语句是非常简单的;第二步,慢慢的它学习这个图片的内容,开始生成一句话“两个男人在玩飞盘”;第三步,看图说话不光是说一句话,可以说很多句话,因为每一幅图里面有很多很多内容,所以计算机可以说出好几句不同的关于这幅图片的话;第四步,则是可以说出一整段跟这个场景有关的话。李飞飞透露:“能说一段话,这是我们实验室的两位学生最新的研究成果,目前还没有发表。”

李飞飞坦言,现在的计算机视觉可以告诉我们一张图里有什么——男人还是女人?小孩还是大人?这些人在干什么?这幅图的三维结构是什么?但现在计算机还不能告诉我们图里面的人是谁、他们的关系是什么、他们的情绪是怎样的、这幅图的幽默点在哪里……这需要机器视觉技术的进一步发展。(End)

猜你喜欢

分享至手机

扫码关注FMCI