2024-09-22 12:06:36|已浏览:11次
打工新鲜事儿风靡社交平台的“奶油风”短租房,竟是中介引流“照骗” AIGC 赋能展示广告:大模型在小红书标题生成中的深度实践,
打工新鲜事儿风靡社交平台的“奶油风”短租房,竟是中介引流“照骗”
原标题:风靡社交平台的“奶油风”短租房,竟是中介引流“照骗”
短租房通常以天、周、月为单位计算租金,是当下求职青年过渡期的热门租房方式,也受到求医、旅行等群体的欢迎。同时,社交平台成为分享短租房信息的重要渠道,精美的房间照片更能吸引关注和询价。
近期,记者在调查中发现,充斥在社交平台上的“奶油风”短租房照片,实为中介的引流工具,背后可能涉及一房多租等骗局。
年轻人对短租房有较高需求
据《中国青年报》25日报道,近年来,在共享经济推动下,国内短租市场迅速崛起,成为新经济形态的重要组成部分。
智研瞻产业研究院日前发布的《中国在线短租行业市场深度评估及投资策略咨询报告》显示,2023年度中国在线短租市场规模突破857.59亿元。2024年第一季度中国在线短租行业市场规模236.66亿元,同比增长10.38%。
年轻人由于工作变动、旅游出行、临时过渡等多种原因,对短租房有着较高的需求。就医和差旅也是短租需求的来源之一。
“奶油风”租房照片充斥社交平台
从找房渠道来看,小红书、豆瓣、微博、自如、闲鱼等平台都是年轻人租房找房的聚集地。在网上浏览选定房源,联系房东后,就可以约定线下看房,签订合同。
记者在某社交平台上搜索短租房,出现的房源是清一色的“奶油风”。这种装修风格,因色彩淡雅、干净利落,近年来颇受年轻客群的欢迎。
某租房平台上海浦东一家门店的负责人告诉记者,最近几年该平台的小面积老房子,基本全都会采用“奶油风”的装修风格,“这种风格最好租,年轻人喜欢”。
提出要看房后被中介“轰炸”
当记者每次在上述社交平台的帖子下方留言想要实地看房或者询问价格时,对方都会以“今日回复次数已用完”为由,要求记者“后台私信联系”。
记者与一个自称“出租一套自己家的、位于上海市静安区天潼路武昌路交界口的高性价比房源”的博主私信联系,要求实地看房,却被对方告知“这套房子太漂亮了,已出租”,对方询问记者是否还考虑附近其他次新房房源,并发来图片。此后,记者的手机号码开始不断被各种中介“轰炸”。
实际上,天潼路和武昌路是两条平行的小马路,两者并不存在“交界处”。记者把天潼路全部走了一遍,也没找到所谓的“次新房”,这片区域除商业用房外,均为20世纪五六十年代的老房子。
充斥在社交平台上的“奶油风”短租房出租信息,到底是“真有其房”,还是中介借“照骗”引流,这背后藏着怎样的套路?近期,上海市静安区人民检察院就办理了一起利用短租房管理漏洞“两头骗”的合同诈骗案。
看中社交平台“照骗房”求短租
2023年6月10日,丁女士在某社交平台发布一则求租帖子,随后有人主动私聊,并向其发送相关房源。被社交平台“照骗房”吸引后,丁女士通过网络联系王某某寻求一套在沪短租房。
6月14日,王某某带丁女士看了一套位于该市某某广场的房源,尽管房源地址与平台发布信息不一致,但丁女士对该套房屋的位置、装修、价格比较满意,王某某还表示允许丁女士提前入住,房租可以从合同约定的出租日开始起算。
随后,丁女士陆续向王某某支付租金、押金等费用共计4300余元,并于6月26日入住。
(图源:上海静安微信公众号)
入住一周后同时“撞房”两租户
不料短短一周后,有人敲响丁女士房门,开门后对方称王某某已将该房屋出租给自己,当天是合同约定的入住日。
无独有偶,另有一名徐姓女子也声称签订了租房合同,入住日期也是当天。丁女士这才发现陷入“一房多租”的圈套,遂向公安机关报案。
经侦查查明,犯罪嫌疑人王某某将上述日租房擅自出租给多人。2023年7月4日,犯罪嫌疑人王某某主动向公安机关投案,并如实供述基本犯罪事实。
犯罪嫌疑人“两头骗”
案件移送至静安区人民检察院审查起诉。经审查查明,犯罪嫌疑人王某某利用短租房管理漏洞“两头骗”,一边通过伪造支付截图的方式欺骗房东,取得房屋使用权;另一边通过虚构房东身份,擅自将房屋出租给多人,骗取租金。
而这套房源,来自上海某酒店管理公司(以下简称“A公司”)。房租一日一结付给公司负责人蔡某某,续租只需将付款截图发送给租房管家,之后管家就会提供日租房密码入住。而王某某,每次给管家发送的付款截图,都是自己伪造的。也就是说,王某某自己没房,靠P图“骗”来一套短租房,又把这套房产分别同时租给了3人。
(图源:上海静安微信公众号)
检察院透露短租房管理漏洞
静安区人民检察院承办检察官告诉记者,前述案件中的王某某之所以可以“两头骗”,一个重要的原因是像A公司这样的短租房公司财务管理“不规范”,它使用个人账户接收租金,且不开展常态化收支检查。
同时,入住核验制度也存在漏洞,检察官后续调查发现,短租房公司存在“一证多人”“无证入住”的情况,继而加剧了擅自转租、“一房多租”的问题。
除上述案件中涉及的“一房多租”风险外,部分短租房的居住卫生环境和安全问题也堪忧。
装修过程中存在诸多安全隐患
一方面,不少短租房房源由居民房自行改造装修而成,质量参差不齐,有的“二房东”用低成本劣质材料装修“串串房”“隔断房”出租,甲醛超标等会给租客健康带来危害;另一方面,有的房源电线乱拉乱接、燃气设备老化、消防设施缺失等严重的安全隐患屡见不鲜,在医院、旅游景点附近的短租房中这一情况更为严重。
还有一些经济适用房、公租房等政府建设运营的保障性住房,也被“二房东”改造并出租。为了多隔出几间房,有的“二房东”在房屋阳台上安装马桶,把排水管改成了排污管,还私拉电线、私装电表。这种做法,既违反了国家经济适用房政策,又造成了安全隐患。
建立便于后续管理的报备渠道
北京理工大学法学院教授孟强认为,针对短租房建立起电子化、信息化、便捷化的报备渠道,是一个支持后续管理的有效渠道。
今年4月,上海市杨浦区人民法院建设了“违规出租、出售保障性住房监管预警”应用场景,该系统可以自动抓取涉保障性住房违规使用信息线索,并及时推送给政府相关职能部门。目前,上海市高级人民法院正与上海市市级行政管理部门正加强沟通对接,推动该场景数据推送功能在上海市大数据中心上线。
(综合来源:中国青年报、上海静安微信公众号等)
原标题:打工新鲜事儿|风靡社交平台的“奶油风”短租房,竟是中介引流“照骗” 来源:工人日报客户端
AIGC 赋能展示广告:大模型在小红书标题生成中的深度实践
01前言
这就是素材
先让我们带着全局大图去感受下素材
提到广告业务就离不开一个关键词 —— IAA (In-app Ads):平台一手向c端用户提供免费的服务,一只手向 b 端客户(广告主)售卖广告资源位,撮合用户和客户,赚些居间费,然后就可以用赚来的钱为用户提供更好更多的免费服务。如是,广告业务是 b 端客户、平台、c 端用户的三方博弈场,如何让这个游戏可持续发展?短期看金主爸爸(广告主)的投流 ROI,中期看用户体验,长期看社区调性,这时候素材显得格外重要(毕竟,广告主的投流表达手段就是出价、定向、素材的三板斧):广告主向素材要效率,平台向素材要质量,用户用脚投票。
素材能给广告主带来什么?
举个例子,某一天收到一条拙劣诈骗短信“我是秦始皇,V我50”,我们会觉得不可思议:“现在的骗子怎么那么蠢!”,恭喜你,骗子眼中,你是个聪明人。越是拙劣的话术,越能过滤掉那些精明、麻烦的用户,广告里面把这个现象称作素材即定向。广告主追求投流 ROI,自然就有了动力制作一批让聪明人厌恶的素材,毕竟,维护这些人的体验感觉,对他好像也没有收益。
素材能给用户带来什么?
用户最初的目的就是来享受免费服务的,自然不愿被广告打扰,但是,最近恰巧想去散散心,你推给了他一个精品团,抑或是,广告告诉他现在年轻人都去看非洲大迁徙,他也觉得很有道理。满足或者激发一个需求,广告就不再是种打扰,似乎成了一种异样的免费服务,毕竟,免费得到了最新的流行趋势。
素材能给平台带来什么?
恰到好处的素材,大家其乐融融,用户抵触的素材,是会把用户推开的。卖广告主造血养活平台 和 留住用户才能有广告主,两者的因果关系有点鸡和蛋的意味。平台追求一个符合社区调性的素材,直觉上总没有错。好素材带给平台繁荣,坏的素材只会带来麻烦,不能 balance 商业效率和社区调性的素材,都应该是坏家伙。
行业的素材实践
先给两个结论:
素材的制作成本是投放生产中的大头(相比于友商,我们小红书更注重社区的调性,广告主的素材成本会更高)
广告主追求确定性的投流实践
不同媒体的调性是不同的,一套素材吃天下几乎不可能,目前的素材制作模式(自制 or 代理):idea - 脚本 - 拍摄 - 领域专家人工介入 - 在线投放,显然,拍摄成本付出之后,才能有一定的判断结论,这时候,素材制作的成本已经付出。
制作好的素材要更高的成本
回到“如何让这个游戏可持续发展”的命题,等于在回答如何平衡商业效率和社区调性!答案也呼之欲出:“好的”素材的制作。生产实践中,素材是有成本的:制作成本 + 投流试错。至此,AIGC 的效率革命,是一个不错的实践选择。
02行业内 AIGC 的实践
先给几个 case
某代理商把素材制作的流程优化,通过 AIGC 的能力把专家介入时机提前:idea - 脚本 - AIGC生成 - 领域专家人工介入 - 拍摄 - 在线投放
某代理商在标题中使用关键词,将关键词自然融入标题且能够合理分布,以提高在搜索结果中的排名
某平台推出 AIGC 离线工具 + 在线组合优选的组合拳
某平台 spu 到素材的生成
某平台通过模糊素材内容,达到防爬&站外引流的业务目标
多模态特征级联到在线模型
归纳下收益路径
解决 0 - 1 投放问题:通过素材生产带来预算和场域之间的互通,进一步提升消耗,收益来源是引入预算,增加竞价密度,本质是放开约束
堆供给提升匹配效率:通过素材生产提升物料供给,带来消耗提升,收益来源是匹配效率的提升,本质是约束下堆多样性
提供工具赋能 b 端:辅助广告主提升创编效率
(【Tips】各家平台都在回答一个问题:平台做素材的优势在哪!)
技术视角总结下实践挑战
生产范式的幻觉挑战(一致性):广告是一种商业行为,宝马的广告生成出一个奔驰的标题,显然是 0 容忍的红线事件
通用大模型到行业的适配性:营销感 vs 社区调性
多样性:在有限的广告内容中尽可能挖掘多样的标题,提高投放匹配效率
03我们的 AIGC 实践
开局一张图,一致性、调性、多样性最关键:
一致性:可控生成 + 可用性RM
调性:领域预训练 + SFT
多样性:人群/笔记分层 + 可控生成 + 吸引力RM
业务建模
面向业务的可控生成
通用的生成一般是引入随机性生成多标题,但是我们的业务场景下,需要调和生成的随机性和业务的确定性,因此,我们实践:
训练:基于自动标注(Auto-Labeling) -SFT(Supervised Fine-Tuning) 架构的可控生成训练范式
推理:构造一个级联框架,输入笔记,依次输出推广对象 + 标题
基座模型的领域预训练
为了让基座模型适应小红书的领域特点,我们清洗得到亿级别笔记数据,并混合一定比例通用语料,对基座模型开展小红书领域继续预训练。而在模型选型上,我们从幻觉程度、标题吸引力两个方面进行评判,发现模型量级越大效果越好,结合线上部署推理成本,选用了 10B 量级模型。实验显示经过领域预训练,生成标题在相关性、幻觉抑制方面均得到提升。
基于大模型的自动标注
结合业务场景,我们考虑笔记、人群、标题风格三个可控生成维度,而难点在于如何获得训练数据。我们的做法是广泛利用合成数据,借助通用大模型的能力为笔记抽取推广对象,并标注笔记分层、人群分层以及标题风格,获得了笔记在不同卖点/人群下的关键词数据。为拿到对应标题,也进一步训练了关键词感知生成模型和风格感知生成模型,来分别产出笔记在各笔记/人群分层、各风格词下的标题。
关键词感知生成模型训练
训练目标是能根据给定关键词生成标题。为了解决训练数据匮乏的问题,我们首先用笔记原生标题训练小红书领域预训练模型,通过随机采样为每个笔记生成多个标题。然后利用通用大模型给标题抽取关键词,从而为每个笔记获得多组 <笔记 + 关键词, 标题> pair 数据,最后训练得到关键词感知生成模型。
风格感知生成模型训练
训练目标是能生成给定风格的标题。我们利用大模型自动标注的标题风格数据,获得 <笔记 + 风格, 标题> pair 数据,进而训练得到风格感知生成模型。
端到端联合 SFT & 推理
为了让一个模型实现上述可控生成能力,我们将大模型标注的推广对象、笔记/人群分层,以及各分层下的受控生成标题整合为一个 label,对小红书领域预训练模型建立端到端微调任务。推理阶段输入笔记,即可依次输出推广对象和多种生成标题。
生产方案
实际生产中,我们落地可控生成 + RM(Reward Model)的技术选型,通过 RM 对生成结果质量检测,进一步保障生成标题的可控性。
RM (Reward Model)
RM 即反馈模型,其作用在于为生成模型的结果进行质量检测,以作进一步处理或优化。在我们的实践中主要涉及可用性RM和吸引力RM.
可用性RM
目标是避免出现不通顺、实体不一致、幻觉case。通过人工标注收集了高质量的正样本和负样本,在此基础上,又通过数据增强手段构造了一些负样本,比如“复读机”、语句不通顺等。实验发现领域预训练和数据增强均给模型性能带来了明显提升。
吸引力RM
目标是预估生成标题吸引力。通过人工标注收集了标题吸引力的排序数据,使用小红书领域预训练模型作为编码器得到文本向量,采用 pair-wise loss 训练,实验结果显示可以很好地学习到人工排序。
业务应用
一致性:商业活动的确定性保障
紧扣素材即定向的逻辑
生成标题对营销目标拟合是业务的基本诉求:给一位五个孩子的幸福妈妈推销草坪婚礼,广告语怎么说好像都有些不妥
生成标题和营销主体的一致性则是产品的生命线
实践中,我们以可控生成训练 + 可用性RM的技术路线取得了一定的结果:
可控生成训练
在可控生成过程中,我们借助少样本学习,通过大模型为笔记生成合适的受众群体,进而在各群体下展开多个关键词,来控制生成多种标题。
可用性RM
在优化过程中结合业务红线标准,针对性地通过人工标注以及数据增强等手段获得高质量数据,有效过滤了语句不通顺、实体不一致、幻觉等case,大幅降低线上风险。
调性:和社区不割裂的广告标题
小红书笔记的标题生动有趣,但是标题越亮眼,技术越头痛:在普世视角下,标题和正文语义 gap 越大,标题越亮眼!
举个例子:
通用大模型很难通过正文推断出标题:因为标题包含了正文不存在的信息(是不是有独特内核的社区,都是有着大家心照不宣的默契),这种非对称的标题正文,离开小红书,确实是一个特立独行的存在,为了让模型适应小红书的领域特点,我们进行了如下工作:
预训练:使用亿级别的笔记数据以及通用语料对基座模型做了领域预训练
基于用户行为 SFT:高质量笔记标题数据,对小红书领域预训练模型进行 SFT
多样性:千人千面的基石
社区内的笔记原生数据都是一篇笔记一个标题,也就是说,社区没有多标题的数据让我们来建模!如何获得符合社区调性的多样化数据是需要解决的问题,对此我们的做法是深度利用大模型能力,使用合成数据。
阶段一:采用采样生成,得到一对多标题
阶段二:考虑到阶段一要满足多样性的目标,需要生成大量的数据
分层 + 可控生成,业务上实现有向生成,大大降低了生成成本
风格 + 可控生成:基于专家经验归纳了以下五种标题风格 显式、隐式、疑问、夸张、幽默
通过人工标注,获得标题排序数据,构建吸引力RM,逐层寻优,进一步提升效率
整体方案&评估
多样性评估
评估方式
基线模型(baseline)基于原始笔记和标题数据进行训练,通过随机采样方法生成多个标题
实验模型在每个笔记上平均生成 12 个标题。为了确保评估的公平性,基线模型也生成了相同数量的标题
指标说明
评估结果
一致性评估
评估方式:
人工 GSB 评估
评估量级:200篇笔记
评估结果
模型结果对比
04总结&展望
在本次 AIGC 实践中,我们通过小红书领域预训练得到了可靠的基底模型,广泛应用合成数据来解决数据资源匮乏的问题,通过可控生成 + RM 的方式取得了多样性和质量双赢的结果。在未来,我们将探索多模态特征和偏好学习在展示广告中的应用,继续提升效果的同时将模型小型化,并研究更高效的生产范式。
05作者简介
服部
小红书大模型算法工程师,现主要负责广告创意生成、多模态大模型等领域的相关研究和应用。
特图
小红书基础模型方向负责人,现主要负责多模态大模型x内容分发技术的研究及应用。
圆德
小红书广告算法工程师,现负责小红书展示广告创意相关工作。
疾速
小红书广告算法工程师,现负责小红书展示广告体验相关工作。
莱欧
小红书展示广告流量策略负责人,现负责小红书展示广告流量策略方向。[db:内容]