用机器学习优化照片选择
我们最近推出了主图服务,这是一个机器学习系统,可以自动选择最具吸引力的主图——即Tripadvisor上代表酒店、餐厅或景点的第一张照片,以帮助我们的合作伙伴更快地进行视觉决策。
当旅行者寻找酒店、餐厅或体验时,他们看到的第一张照片可能会决定是否预订。作为全球商家和旅游运营商的重要合作伙伴,我们希望确保当多张图片同样相关时,首先显示的那张能帮助他们展示最好的形象,同时仍然呈现真实的旅行者观点。我们的模型不会压制不讨喜或批评性的图片;它们在画廊中仍然完全可见,并且可以根据质量和相关性排名很高。当多张图片同样相关(例如多个卧室照片)时,我们会优先选择最具有视觉吸引力的作为主图。
我们最近推出了主图服务,这是一个机器学习系统,可以自动选择最具吸引力的主图——即Tripadvisor上代表酒店、餐厅或景点的第一张照片,以帮助我们的合作伙伴更快地进行视觉决策。
这个端到端的解决方案结合了计算机视觉、成对学习和大规模基础设施,以实现高质量的照片选择。虽然表面上看起来很简单,但它在高峰时段每秒处理大约12,000次读取请求。自推出以来,我们看到了点击率和预订量的显著增长,而没有给我们的合作伙伴的生活增加复杂性。

1、为什么主图很重要
对于任何在线平台来说,跨类别照片都是业务推动因素。根据《商业研究杂志》2022年的报告,高质量、视觉丰富的图像可以显著提高数字平台上的用户参与度。图片是Tripadvisor旅行者参与的核心组成部分,约有3.5亿张图片发布到各个地点,自2010年以来,图片上传量年均增长约33%。
当旅行者浏览我们的网站时,主图通常是他们对房产的第一印象。一张美丽的酒店外景照片,光线恰到好处,会带来点击。一张普通、昏暗的基本房间照片会让人们继续滚动。正如一位旅行者在他们的评论标题中直白地所说,“我因为位置、照片和评论而预订了。”
但历史上,利用这些知识一直很困难。在数百万张由业主、运营商和旅行者上传的图片中进行手动筛选并不是一个可行且可扩展的解决方案。尽管我们的合作伙伴有大量的图片可供选择,但它们在视角和质量上差异很大。
2、我们的方法论
2.1 使用AI发现景点中的模式
为了找到解决方案,我们依赖于一个关键洞察:“吸引力”可能是主观的,但存在模式。在不同类别和文化中,受欢迎的照片都有共同点:合适的光线、完美的视角、独特特征的展现。我们设法开发了一种方法,将两个关键指标——视觉吸引力和相关性——结合起来,识别既吸引人又准确反映旅行者在探索模式下想要看到的内容的照片。
我们构建了一组核心机器学习模型和启发式规则:
- 吸引力评分模型,用于评估每张照片的视觉吸引力
- 主图选择逻辑,将吸引力评分与业务规则相结合,有效地为每个项目选择最佳缩略图。
2.2 吸引力评分模型
吸引力本质上是主观的,取决于技术质量、特定上下文的相关性和审美质量。我们必须依靠计算机视觉:训练一个AI模型,以我们人类看待和评估图像的多方面方式来看待和评估图像。
我们没有用绝对的标准定义美,而是采用了一种“成对”学习方法。我们不是问“这张照片有吸引力吗?”,而是问“这两张照片中哪一张更有吸引力?”这种相对比较证明比判断绝对标准更可靠和一致,因为它专注于图像之间的相对偏好,而不是决定可能导致结果不一致的任意绝对指标。
我们的模型将高吸引力图像定义为高质量的图像,能够鼓励旅行者点击并进一步探索该房产。这些评分用于排序任何给定地点可能数千张图像,根据启发式权重,确定主图的最佳候选。
对于任何给定的地点,令 a 表示其上传图像的所有吸引力评分,w 是由业务规则/护栏为每张图像生成的权重,k 是所需的主图建议数量。主图(PP)选择逻辑如下:

2.3 收集数据
我们为每个业务线(即酒店、餐厅、景点)创建了一个大规模的数据集,其中包含成对的比较。我们尝试了多种生成标签的方法,包括注释和LLM生成的注释,发现LLM生成的注释使我们能够更快地处理数十万甚至更多的样本,并且成本大幅降低。
2.4 模型架构
受RankNet架构的启发,我们利用了Siamese神经网络结构——基本上是两个相同的AI模型同时处理图像对——来训练LLM。每个模型为其图像生成一个“吸引力评分”,系统学习预测用户更喜欢哪张照片。在规模上,这些成对偏好近似于照片吸引力的全局排名。

每个样本由一对图像组成,它们的嵌入被输入到Siamese模型中以生成吸引力评分。这些评分与LLM生成的真实标签结合,计算损失。
3、主图选择逻辑
3.1 在审美偏好之上叠加业务逻辑
最吸引人的照片并不总是正确的选择。一张美丽的浴室照片可能在视觉吸引力上得分很高,但在展示酒店的关键特色方面表现不佳。为了允许这种额外的灵活性,通过将吸引力评分与从启发式规则中得出的权重相结合来计算最终评分。我们在吸引力评分之上叠加了业务规则,以进一步控制我们垂直领域输出的质量:
- 酒店:我们抑制某些场景(如浴室、健身房),这些场景不会促进预订
- 景点:我们添加显式的相关性权重,确保照片准确地反映体验
- 餐厅:我们优先考虑展示招牌菜或氛围的照片
这种混合方法——由AI驱动的吸引力与商业智能相结合——在算法精度和实际控制之间达到了最佳平衡。
3.2 评估方法
我们使用多种方法评估了主图建议的质量,以确保对解决方案性能有深入的理解。
- 模型指标:我们在不同运行中测量和观察模型二元性能指标。这些指标包括准确性和ROC AUC,其主要目的是提供模型在整个图像列表上的性能整体视图。
- LLM作为评判者:我们利用LLM作为评判者,在原始与建议的主图代表性数据集中收集二元偏好。
- 质量保证(QA)测试:我们还进行了几轮QA测试,由内部团队使用较小的精选数据集对原始与建议的主图进行测试,涵盖代表性地点样本。QA指标和LLM作为评判者的指标都仅专注于衡量主图建议的质量。
4、工程工作与基础设施
4.1 连接数据和服务
随着计算机视觉开始探索如何将他们的主图建议整合到Tripadvisor现有的媒体生态系统中,我们意识到我们现有的基础设施是为服务间通信设计的。这对我们工程团队来说很好,但对于不通常拥有自己微服务的数据导向团队来说却引入了一个挑战。他们的工作发生在数据管道和Snowflake等平台上,这些平台无法直接调用我们的API。为了弥合这一差距,我们构建了一个S3导入器,使数据导向团队更容易调用媒体端点。
4.2 设计我们的S3导入器
像计算机视觉这样的客户负责将他们的结果导出为格式正确的CSV文件,并将其上传到Media拥有的S3存储桶中。类似于微服务,导入器有一个伪API,客户需要遵循。
- CSV数据应模仿典型的端点调用,并必须包括端点所需的所有字段作为列
- S3存储桶中的上传路径也必须格式化为:
/computervision/setPrimaryPhoto/filename.csv
一旦CSV文件到达S3存储桶,客户就可以完全放手不管。媒体团队接管后续工作,S3导入器负责读取原始CSV数据,将其转换为服务就绪的调用,并充当微服务调用者,将数据导入主图服务。

这种清晰的所有权划分使数据导向团队可以专注于他们的模型、产品和工作流程,而媒体团队则管理服务间通信和业务逻辑执行的复杂性。
S3导入器已被证明是一个强大的工具,使数据导向团队能够更快地行动并产生影响,而无需管理自己的微服务或任何自定义集成。由于我们从一开始就注重灵活性,我们已经使用它来进行旋转图片和设置媒体元数据。
5、未来展望
虽然这个系统专注于主图选择,但底层的吸引力评分打开了更广泛的应用前景。我们现在正在探索如何增强整个图片画廊,创造更丰富的视觉体验,贯穿整个旅行旅程。
我们还在考虑如何利用已知信息和用户生成内容来推荐主图,以推荐突出展示地点相关和独特方面的照片。通过这种方式,业主可以突出酒店在评论中受欢迎的独特游泳池,或者餐厅的招牌菜。也许还有办法对主图进行情境化和个性化,从而匹配每位旅行者的兴趣,提供更相关的信息。
通过继续教机器识别视觉吸引力,同时尊重业务背景,我们创建了一个可扩展的解决方案,帮助我们的合作伙伴找到新客户,为用户提供更相关的信息,并帮助每个人成为更好的旅行者。
原文链接:Making the best first impression: Using machine learning to optimize photo selection
汇智网翻译整理,转载请标明出处