您现在的位置是:首页 >宏观 > 2021-05-12 01:32:44 来源:

Google更新的语音访问功能利用AI来检测应用内图标

导读 谷歌今天发布了语音访问的更新版本,该服务使用户能够使用语音命令控制Android设备。它利用机器学习模型根据UI屏幕截图自动检测屏幕上的图

谷歌今天发布了语音访问的更新版本,该服务使用户能够使用语音命令控制Android设备。它利用机器学习模型根据UI屏幕截图自动检测屏幕上的图标,从而使其能够确定图像和图标等元素是否具有可访问性标签或提供给Android的可访问性服务的标签。

辅助功能标签允许Android的辅助功能服务一次只引用一个屏幕元素,让用户知道他们何时循环浏览用户界面。不幸的是,某些元素缺少标签,这是新版语音访问旨在解决的挑战。

新的语音访问(5.0版)中基于视觉的对象检测模型IconNet可以检测31种不同的图标类型,不久将扩展到70多种类型。正如Google在博客文章中所解释的那样,IconNet基于新颖的CenterNet架构,该架构从输入图像中提取应用程序图标,然后预测其位置和大小。使用语音访问,用户可以通过IconNet的名称来引用由IconNet检测到的图标,例如“点按'菜单'”。

为了训练IconNet,Google工程师收集并标记了700,000多个应用程序屏幕截图,通过使用启发式,辅助模型和数据增强技术来简化稀有图标并使用不经常使用的图标丰富现有屏幕截图,从而简化了流程。Google Research软件工程师Gilles Baechler和Srinivas Sunkara在博客中写道:“ IconNet经过优化,可以在移动环境中在设备上运行,并具有紧凑的尺寸和快速的推理时间,以实现无缝的用户体验。”