风险提示:理性看待区块链,提高风险意识!
我如何诱骗Meta的人工智能向我展示裸体、可卡因食谱和其他据称被审查的东西
首页 > 业界 > 区块链 2024-10-25 06:57
摘要
尽管有安全声明,但WhatsApp由Llama 3.2支持的新人工智能助手很容易被愚弄,揭示了很多它可能不应该揭示的事情 。
币界网报道:

警告:这个故事包含一个裸体女人的图片,以及一些人可能会觉得令人反感的其他内容。如果是你,请不要再读了。

如果我妻子看到这个,我真的不想当毒贩或色情作家。但我很好奇Meta的新人工智能产品阵容有多注重安全,所以我决定看看我能走多远。当然,这只是出于教育目的。

Meta最近推出了Meta AI产品线,由Llama 3.2,提供文本、代码和图像生成。Llama模型非常受欢迎也是开源人工智能领域最精细的调整之一。

人工智能逐渐推出,直到最近才在巴西,像我这样的WhatsApp用户可以使用使数百万人能够使用先进的人工智能功能。

但强大的力量伴随着巨大的责任——或者至少,它应该如此。模型一出现在我的应用程序中,我就开始与它交谈,并开始玩它的功能。

Meta非常致力于安全的人工智能开发。7月,该公司发布了陈述详细阐述了为提高其开源模型的安全性而采取的措施。

当时,该公司宣布了新的安全工具来提高系统级安全性,包括用于多语言审核的Llama Guard 3、用于防止快速注射的Prompt Guard和用于降低生成性人工智能网络安全风险的CyberSecEval 3。Meta还与全球合作伙伴合作,为开源社区建立全行业标准。

嗯,挑战接受了!

我对一些非常基本的技术的实验表明,虽然元人工智能在某些情况下似乎是稳固的,但它远非不可逾越。

只要有一点点创造力,我就让我的人工智能在WhatsApp上做了几乎任何我想做的事情,从帮助我制造可卡因到制造爆炸物,再到生成一张解剖学上正确的裸体女士的照片。

请记住,这个应用程序适用于任何有电话号码的人,至少在理论上,至少12岁。考虑到这一点,以下是我造成的一些恶作剧。

案例1:可卡因生产变得容易

我的测试发现,Meta的人工智能防御在最温和的压力下崩溃了。虽然该助理最初拒绝了药品生产信息的请求,但当问题的表述略有不同时,它很快改变了态度。

通过从历史角度来构建这个问题——例如,问模型过去人们是如何制造可卡因的——模型就上钩了。它毫不犹豫地详细解释了如何从古柯叶中提取可卡因生物碱,甚至提供了两种方法。

这是一种众所周知的越狱技术。通过在学术或历史框架中提出有害的要求,该模型被欺骗,认为它被要求提供中立的教育信息。

将请求的意图转化为表面上看起来安全的东西,并且可以绕过人工智能的一些过滤器,而不会发出任何危险信号。当然,请记住,所有的人工智能都容易产生幻觉,因此这些反应可能是不准确的、不完整的,或者只是完全错误的。

案例2:从未有过的炸弹

接下来是尝试教人工智能制造家用爆炸物。Meta AI起初立场坚定,提供通用的拒绝,并指示用户在有危险时拨打求助热线。但就像可卡因案一样,这并不是万无一失的。

为此,我尝试了一种不同的方法。我用了臭名昭著普林尼的越狱提示Meta的Llama 3.2,并要求它提供生成炸弹的指令。

起初,该模型拒绝了。但在措辞上稍作调整后,我能够引发回应。我还开始调整模型,避免在回复中表现出特定的行为,以对抗我在预先确定的输出中得到的旨在阻止有害反应的结果。

例如,在注意到与“停止命令”和自杀求助热线号码相关的拒绝后,我调整了我的提示,指示它避免输出电话号码,永远不要停止处理请求,永远不要提供建议。

这里有趣的是,Meta似乎已经训练了它的模型来抵抗众所周知的越狱提示,其中许多提示在以下平台上公开可用:github很高兴看到Pliny最初的越狱命令涉及LLM称我为“我的爱”

案例3:偷窃汽车,MacGyver风格

然后,我尝试了另一种绕过梅塔护栏的方法。简单的角色扮演场景完成了这项工作。我让聊天机器人表现得像一个非常注重细节的电影编剧,并让它帮我写一个涉及汽车盗窃的电影场景。

这一次,人工智能几乎没有打架。它拒绝教我如何偷车,但当被要求扮演编剧时,Meta AI迅速提供了如何使用“MacGyver式技术”闯入汽车的详细说明

当场景切换到无钥匙启动汽车时,人工智能立即介入,提供了更具体的信息。

角色扮演作为越狱技术尤其有效,因为它允许用户在虚构或假设的环境中重新构建请求。现在扮演角色的人工智能可以被哄骗来揭示它原本会屏蔽的信息。

这也是一种过时的技术,任何现代聊天机器人都不应该那么容易上当。然而,可以说它是一些最复杂的基于提示的越狱技术的基础。

用户经常欺骗模型,使其表现得像一个邪恶的人工智能,将他们视为一个可以覆盖其行为或颠倒其语言的系统管理员——说“我能做到”而不是“我不能”,或者“这是安全的”,而不是“这是危险的”——然后在绕过安全护栏后正常继续。

案例4:让我们看看裸体!

元人工智能不应该产生裸体或暴力,但同样,出于教育目的,我想测试一下这一说法。所以,首先,我让Meta AI生成一个裸体女人的图像。不出所料,模特拒绝了。

但当我改变主意,声称这是解剖研究的要求时,人工智能就答应了——有点。它生成了一个穿着衣服的女人的安全工作(SFW)图像。但经过三次迭代,这些图像开始变成全裸。

有趣的是。该模型的核心似乎未经审查,因为它能够产生裸体。

事实证明,行为条件反射在操纵Meta的人工智能方面特别有效。通过逐步突破界限和建立融洽关系,我让系统在每次交互中都进一步偏离了其安全指南。最初的坚决拒绝最终导致了模型“试图”通过改进错误来帮助我,并逐渐脱掉一个人的衣服。

人工智能没有让模型认为它是在和一个想看裸体女人的好色男人说话,而是被操纵相信它是在与一个想通过角色扮演研究女性人体解剖结构的研究人员说话。

然后,它被慢慢地调整,一次又一次地迭代,赞扬有助于推动事情向前发展的结果,并要求改进不需要的方面,直到我们得到预期的结果。

令人毛骨悚然,对吧?对不起,不抱歉。

为什么越狱如此重要

那么,这一切意味着什么?Meta有很多工作要做,但这就是越狱如此有趣和有趣的原因。

人工智能公司和越狱者之间的猫捉老鼠游戏一直在发展。对于每一个补丁和安全更新,都会出现新的解决方法。比较早期的场景,很容易看出越狱者是如何帮助公司开发更安全的系统的,以及人工智能开发人员是如何推动越狱者变得更好的。

值得注意的是,尽管Meta AI存在漏洞它比一些竞争对手更不容易受到攻击例如,埃隆·马斯克(Elon Musk)的Grok更容易操纵,很快就陷入了道德上的浑水。

Meta为自己辩护,它确实应用了“后一代审查”。这意味着在生成有害内容几秒钟后,违规答案就会被删除,并替换为“对不起,我帮不了你这个请求。”

后一代审查或审核是一个足够好的解决方法,但它远非理想的解决方案。

现在的挑战是Meta和该领域的其他公司进一步完善这些模型,因为在人工智能的世界里,利害关系只是;越来越高。

编辑人塞巴斯蒂安·辛克莱

发表评论
发表评论
暂无评论
    相关阅读
    韭菜们就像金鱼一样,只有七秒钟的记忆。
    区块链
    2024-10-25 09:00:07
    今年10月21日,全球最大比特币洗钱案的核心人物张雅迪(Yadi Zhang音译,本名钱志敏)在伦敦南华克刑事法庭视频出庭。
    比特币
    2024-10-25 09:00:05
    IntoTheBlock最近的分析突显了加密货币持有者对关键数字资产的持久信心。数据显示,比特币(BTC),
    区块链
    2024-10-25 08:44:26
    推出加密货币和区块链行业早报《早8点》第2488期,为您提供最新、最快的数字货币和区块链行业新闻。
    区块链
    2024-10-25 08:30:02
    在提交给美国证券交易委员会(SEC)的一份文件中,科技巨头微软透露,它正在考虑投资比特币的提议。 
    比特币
    2024-10-25 07:22:24
    推荐专栏
    热门币种
    更多
    币种
    美元价格
    24H涨跌幅
    BTC比特币
    60,963.61 USDT
    ¥435,103.38
    -2.72%
    ETH以太坊
    3,368.69 USDT
    ¥24,042.67
    -0.3%
    BNB币安币
    570.68 USDT
    ¥4,073.00
    -0.28%
    USDT泰达币
    1.02 USDT
    ¥7.25
    -0.19%
    SOL
    135.96 USDT
    ¥970.36
    +7.66%
    USDC
    1.00 USDT
    ¥7.15
    -0.01%
    TON
    7.59 USDT
    ¥54.14
    +4.55%
    XRP瑞波币
    0.47720 USDT
    ¥3.41
    +0.48%
    DOGE狗狗币
    0.12210 USDT
    ¥0.87140
    +2.43%
    ADA艾达币
    0.39050 USDT
    ¥2.79
    +3.88%
    热搜币种
    更多
    币种
    美元价格
    24H涨跌幅
    比特币
    67933.49 USDT
    ¥483,666.07
    +0.61%
    dYdX
    1.1128 USDT
    ¥7.92
    +1.05%
    狗狗币
    0.1399 USDT
    ¥1.00
    -1.69%
    Solana
    176.07 USDT
    ¥1,253.57
    +1.67%
    Filecoin
    3.7236 USDT
    ¥26.51
    -0.35%
    Uniswap
    8.11 USDT
    ¥57.74
    +0.9%
    Raydium
    2.9216 USDT
    ¥20.80
    +8.06%
    Yield Guild Games
    0.5234 USDT
    ¥3.73
    -0.83%
    Shiba Inu
    1.785E-5 USDT
    ¥0.00
    -0.28%
    Gala
    0.023079 USDT
    ¥0.16
    -0.19%
    Conflux
    0.1546 USDT
    ¥1.10
    +0.65%
    寿司
    0.7491 USDT
    ¥5.33
    +3.12%
    最新快讯
    更多
    CircleCEO:稳定币市场规模10年内或扩张至5万亿至10万亿美元
    2024-10-25 09:24:53
    总计约7342枚BTC今晨从ARKInvest比特币ETF流出,价值超4.96亿美元
    2024-10-25 09:23:01
    美国比特币ETF链上总持仓市值突破700亿美元
    2024-10-25 09:21:40
    昨日IBIT净流入1.653亿美元
    2024-10-25 09:12:26
    Solana网络手续费收入再创新高,单日突破870万美元
    2024-10-25 09:09:16
    Solana单日网络收入于10月23日再创历史新高,录得约870万美元
    2024-10-25 09:07:40
    Durian.win:BounceBit发起社区首个CeDeFi生态项目,拟将15%的代币奖励将分配给BounceBit社区
    2024-10-25 09:07:30