语言处理AI被谷歌地图训练：年删帖过亿条，训练样本海量

新智元报道

编辑：袁榭拉燕

【新智元导读】从自动识别街牌、到自动删除诈骗信息，谷歌地图这个项目现在越发依赖于机器学习的工具。

遏制不良网络动态的未来，掌握在机器学习的手中。

在搜索业巨擘谷歌的手中，机器学习工具在2021年通过监管谷歌地图上的违规行为，得到了真正的锻炼。

谷歌地图团队表示：「我们的团队致力于让真人用户在地图上发布的内容尽量可靠，并基于现实世界的亲身体验。这项工作有助于保护企业免受欺凌和诈骗，并确保评论对用户有帮助。这个内容政策旨在防止我们的平台上出现误导性、虚假性和辱骂性评论。」

谷歌用机器学习一年内删除过亿次欺诈性编辑、近两亿条违规影像

谷歌公司在最近一篇关于如何保持地图信息可靠的官方博客帖子中，表示该公司结合了机器学习和人工操作员，在2021年内阻止了超过1亿次对地图应用程序上的谷歌商户页面资料进行欺诈性编辑的企图。

这得益于不断进步的机器学习模型，提升了谷歌识别机器人恶意刷屏以及可疑行为的效率。

用同样的方式，谷歌公司还删除了超过700万份地图应用程序上的假商户页面，其中有63万份删除是基于用户真人报告的。

此外，谷歌表示，它还阻止了1200万次诈骗犯假冒其他公司的尝试，并阻止了800万次索取地图应用程序上其他公司商户页面权限的欺诈行为。

机器学习工具还帮助谷歌地图团队删除了近2亿份「低清晰度或违反规则」的违规照片和视频。

最重要的是，由于这些违规操作，谷歌删除了100万个用以诈骗的用户账号。

这条关于维持谷歌地图可靠性的帖子，还提到了在2021年新冠疫情缓和、商业活动重新开张后，谷歌如何保护商家免遭地图应用程序上相关虚假评论损害所采取的措施。

超过9500万条违反谷歌相关规则的地图页面评论被删除，其中6万条在不同程度上与新冠相关的问题有关。

谷歌地图每天会收到大约200万条来自用户贡献的信息。这些信息中包括随时更新的商户经营时间、联系方式和顾客评论。

在整个2021年，用户提供的信息帮助谷歌地图完善了商户页面服务。2021年在谷歌地图上出现的商家比2020年多了30%。

谷歌地图这个大受欢迎的程序，无疑会成为吸引不当行为的磁石。因此谷歌在维持程序环境清朗上付出了巨大努力，着实令用户欣慰。

额外训练让审核的AI更智能

但是，虽然谷歌地图使用机器学习取得了很好的效果，但人工参与此过程毋宁更加令用户放心，毕竟AI的智能实在有其极限。

比如说一家披萨店的大蒜面包味道实在太糟，用户给出「炸裂」的开玩笑评论，结果被AI当成是暴力威胁给删除了。人工智能实在没有幽默感。

谷歌地图团队中，负责用户发布内容的产品经理Ian Leader在官方博客的贴文中描述了如何结合机器学习与人工审核：

机器学习在审核过程中发挥着重要作用。大量应用机器学习的审核系统是谷歌的「第一道防线，因为它们擅长模式识别」。

这个系统会检查每条评论是否存在可能违反规则的行为。例如，系统会判别评论的语言模式、用户或企业帐户的历史记录、以及是否存在与特定经营地点相关的任何异常活动（例如一星或五星评论数量的突然剧增）。

Leader称，机器学习模型在任何用户看到之前就消除了「绝大多数虚假和欺诈性内容」。这个过程可能只需要几秒钟，如果模型在评论中没有发现任何问题，它会极快通过之、让其他用户读到。

不过，这些系统并不完美。Leader举例：「有时「男同性恋」这个词被用作贬义词，这在谷歌应用程序的评论栏中是不被允许的。

但如果机器学习模型在训练时只使用了仇恨言论的数据集，我们可能会错误地删除那些同性恋企业主的广告、或关于性少数人群安全空间的评论。」

因此，谷歌地图团队经常对AI进行质量测试并进行额外的训练，以教授系统特定单词和短语的各种语境背景，以此完善机器学习模型、减少偏见值、保证让AI在删除有害内容和保护有用评论之间取得平衡。

谷歌地图还有一组人在人工评估企业和用户标记的评论。在某些情况下，除了删除违规评论外，谷歌还会暂停用户帐号并提起诉讼。

机器学习为谷歌地图读街牌

谷歌地图的业务，仰赖于机器学习算法的部分其实远不止审核。可以说，没有机器学习，现在一大半谷歌地图的业务都开展不下去。

图像和审查过的数据是静态的，跟不上用户周遭不断变化的世界。机器学习算法可以分析即时图像和数据，并识别新数据的变化。

如此，地图应用可以仅根据真实环境最晚近的更改进行更新。这提高了地图内容生成的速度、并保证生成过程自动化的同时保持准确性。

谷歌地图项目利用深度神经网络自动执行图像信息读取过程。算法可通过TensorFlow在GitHub上公开获得，TensorFlow是谷歌自己的开源机器学习软件库。

谷歌地图项目早已在用机器学习来识别汽车牌照，现在还在使用相同的技术从路牌中获取信息。

谷歌旨在使用这项技术，改善地图应用中全球约三分之一地址的位置数据。在法国的几个比较有识别难度的街道标志上进行测试时，最新的机器学习算法实现了84.2%的准确率，性能优于以前。

谷歌地图项目现在应用的机器学习工具，改进了过去读取街道编号和街道名称的软件套装。新算法可以去掉图片中任何不相关的文字，并用全名替换之前无法判读的缩写。

算法为谷歌地图识别建筑物轮廓

建筑物是地标，是用户在查看地图时如何知道自己所在位置的关键部分。

过去的旧算法在试图猜测图片的一部分是否是建筑物时，常会生成形状不规则的斑快。当这些图片叠合在地图上时，就看起来全不是真实的建筑物了。

为了解决这个问题，谷歌数据运营团队持续手动标记常见的建筑轮廓，然后使用这些标注过的数据，训练机器学习算法，让AI学会哪些图像与建筑边缘和形状相对应。

依靠谷歌的技术力、资金，与人力，现在如此流程让AI在一年内于地图上标绘的建筑物，与过去十年标绘的同样多。

现在，当某个区域出现新建筑物或商铺时，谷歌的机器学习算法会识别变化并更新现有地图，而不是重新绘制整个区域的地图。这为服务的供需双方都节省了大量的时间和精力。

算法为谷歌地图更新实时公交数据

谷歌公司正在构思新的方式，让用户实时了解他们乘坐公交车的状态。

谷歌地图将通过机器学习实现预测能力，提前通知用户他们要乘坐的公共班次是否会遇到阻碍延误。谷歌地图现在的算法能实时获得跟踪数据，试运行中已能预测全球数百个城市的延误。

概言之，谷歌的机器学习模型使用标准的交通数据作为基准真值，再针对公交车行进和路线的特殊性进行调整。

谷歌地图团队从公共汽车的位置序列中提取训练集数据，这些数据来自公交机构的实时反馈，再将它们与行程中公交车的行进速度对齐，就能得出置信度极高的训练数据集。

在世界日新月异变化的今天，谷歌地图所提供的最新的信息弥足珍贵。没有机器学习，谷歌地图也难以为继。

参考资料：

https://www.androidpolice.com/google-maps-machine-learning-block-100-million-abusive-edits/

https://blog.google/products/maps/how-we-kept-maps-reliable-2021/

https://www.engadget.com/google-maps-review-bombing-machine-learning-153740932.html

https://blog.google/products/maps/how-google-maps-reviews-work/

https://www.springboard.com/blog/data-science/machine-learning-google-maps/

关键词：语言处理AI被谷歌地图训练年删帖过亿条训练样本海量