此页面上的内容需要较新版本的 Adobe Flash Player。

获取 Adobe Flash Player

应用软件

社交媒体应用程序和WhatsApp等消息应用程序
作者:   来源:   日期:2020-10-19

   微软开发了一种新的图像字幕算法,在某些有限的测试中超过了人类的准确性。人工智能系统已被用于更新该公司为视力障碍者提供的辅助应用程序,看到AI,并将很快融入其他微软产品,如Word、Outlook和PowerPoint。在那里,它将用于像为图像创建替代文本这样的任务——这是一个对提高可访问性特别重要的功能。



   微软人工智能团队的软件工程经理Saqib Shaikh在一份新闻声明中说:“理想情况下,每个人都应该在文档、网络和社交媒体中为所有图像添加替代文本,因为这使盲人能够访问内容并参与对话。”“但是,唉,人不会。因此,有几个应用程序使用图像字幕来填充丢失的替代文本。

   这些应用包括微软自己的可视人工智能,该公司首次发布于2017年。视觉人工智能使用计算机视觉来描述视觉障碍者通过智能手机摄像头看到的世界。它可以识别家居用品,阅读和扫描文本,描述场景,甚至识别朋友。它还可以用来描述其他应用程序中的图像,包括电子邮件客户端、社交媒体应用程序和WhatsApp等消息应用程序。

   微软没有透露“看见人工智能”的用户数量,但Azure人工智能公司副总裁埃里克·博伊德告诉记者边缘该软件是“盲人或弱视人群的领先应用之一”看到AI被评为最佳应用或最佳辅助应用连续三年由盲人和弱视iOS用户组成的社区AppleVis提供。

   微软新的图像字幕算法将显著提高视觉人工智能的性能,因为它不仅能够识别对象,而且能够更精确地描述它们之间的关系。因此,该算法可以查看图片,并且不仅说它包含什么项目和对象(例如,“一个人、一把椅子、一个手风琴”),还可以说它们是如何交互的(例如,“一个人坐在椅子上演奏手风琴”)。微软表示,该算法是其自2015年以来使用的前一个图像字幕系统的两倍。

   该算法在9月出版的预印本,实现了最高分在一个名为“nocaps”的图像字幕基准上。这是一个业界领先的图像字幕记分牌,尽管它有自己的限制。

   nocaps基准由166,000多个人工生成的标题组成,描述了从打开图像数据集。这些图像涵盖了一系列场景,从体育到假日快照,再到美食摄影等等。(通过浏览nocaps数据集,您可以了解图像和标题的混合这里或者看看下面的画廊。)算法在为这些图片创建与人类图片相匹配的标题的能力上受到了测试。