聊一聊GPT-4o




2024-03-19

blog_main_img

GPT-4o 里的 `o` 来自 omni,意思是“全能式的、多模态的”。这句话听起来挺大,但放到普通人的使用里,它最直接的变化其实很朴素:你不一定非要把所有需求都写成一段完美文字,也可以丢一张图、给一段材料、发一份乱糟糟的草稿,让它帮你看懂、整理、改写、推演。

它不像一个只会回答问题的搜索框,更像一个坐在旁边的搭子。你给它信息,它帮你把事情往前推一小段;你继续补充,它再继续修。它不会替你做判断,但能把很多“先整理一下再说”的活干掉。

GPT-4o是个啥子

如果一定要用生活里的东西来比,它不像一本百科书,也不像一个固定流程的软件按钮。它更像一个会读材料的助理:

你给它一段文字,它能帮你改得更顺
你给它一张图片,它能说出图里值得注意的地方
你给它一堆要点,它能整理成清单和草稿
你给它一个目标,它能帮你拆成步骤

这就是 GPT-4o 比较实用的地方。不是“它知道一切”,而是你在处理杂乱信息时,它能把第一轮脏活先接住。

GPT-4o 日常场景

它适合做什么

写作时,它可以帮你把一段很硬的文字改得更自然。比如你写了一段产品介绍,它可以改成朋友能听懂的版本、老板愿意看的版本、客服能直接发出去的版本。

读图时,它可以帮你看截图、表格、海报、手写草图。它不只是识别文字,还能结合画面关系给出解释。比如你把一个页面截图发给它,它能指出信息层级是否混乱,按钮是否太弱,用户可能在哪里卡住。

学习时,它可以像陪练。你让它先讲一遍,再让它出几道题,再让它指出你答错在哪里。比起直接给答案,这种来回对话更适合把知识嚼碎。

办公时,它很适合整理材料。会议纪要、需求草稿、客服记录、调研内容、产品反馈,都可以先让它归类,再让人做最终判断。

它不适合做什么

GPT-4o 再好用,也不是事实保险箱。它可能说错,也可能把没把握的内容说得很像真的。涉及合同、财务、医疗、法律、生产安全这种高风险内容,不能只靠它拍板。

它也不该拿来处理没有授权的隐私材料。你把客户资料、公司机密、身份证件、内部聊天记录给模型前,要先想清楚数据边界。

还有一点很现实:它会受提示影响。你问题问得太含糊,它就只能猜。你给的材料越具体、目标越清晰,结果越像人话。

怎么问,效果会明显不一样

弱一点的问法:

帮我写个文案

更好一点:

帮我把下面这段产品介绍改成小红书风格,语气轻松,不要夸张。
面向刚毕业的年轻人,重点突出便宜、好收纳、适合租房。
保留核心卖点,不要编造不存在的功能。

这类提示不复杂,但给了四个关键信息:

任务:改写产品介绍
风格:轻松但别夸张
人群:刚毕业的年轻人
边界:不要编造功能

GPT-4o 很吃上下文。你给它边界,它就更少乱跑;你给它角色,它就更知道语气;你给它目标,它就更容易收束。

多模态真正好用的地方

“多模态”这个词看起来技术味很重,换成人话就是:你不必只靠打字。

GPT-4o 多模态输入

比如做页面评审,你可以发截图,然后问:

这张页面截图里,哪些地方会让用户不太敢点?
请按“问题、原因、改法”整理。

比如做学习笔记,你可以发一张白板照片,然后问:

帮我把这张白板内容整理成 Markdown 笔记。
如果有看不清的地方,用“待确认”标出来,不要猜。

比如做客服质检,你可以把对话内容贴进去,然后问:

请判断这段客服回复是否解决了用户问题。
输出:用户诉求、客服回应、遗漏点、建议话术。

这些场景并不炫,但很实用。它帮你节省的是“把材料变成可处理信息”的那段力气。

用 Python 接进自己的小流程

如果只是聊天,直接用产品界面就够了。真正想把它变成工具,可以用 Python 把它接进自己的流程,比如批量整理用户反馈、生成客服草稿、检查图片说明。

先安装 SDK:

pip install openai

最小示例:

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-4o",
    input="把这句话改得更自然:本产品具备高度便携和优秀收纳能力。",
)

print(response.output_text)

GPT-4o Python 小工具
更像业务里的写法,可以把提示封装成函数:

from openai import OpenAI

client = OpenAI()


def polish_copy(raw_text, audience):
    prompt = f"""
请把下面的文案改得更自然。

面向人群:{audience}
要求:
- 语气轻松
- 不要编造新功能
- 保留核心卖点
- 输出一版短文案和三条卖点

原文:
{raw_text}
"""
    response = client.responses.create(
        model="gpt-4o",
        input=prompt,
    )
    return response.output_text


result = polish_copy(
    raw_text="本产品具备高度便携和优秀收纳能力,适合多种居住环境。",
    audience="租房青年",
)

print(result)

如果要读图,可以把图片作为输入的一部分。下面这个例子把本地图片转成 base64,再让模型做页面点评。

import base64
from pathlib import Path
from openai import OpenAI

client = OpenAI()


def image_to_data_url(path):
    image_bytes = Path(path).read_bytes()
    encoded = base64.b64encode(image_bytes).decode("utf-8")
    return f"data:image/png;base64,{encoded}"


def review_screenshot(image_path):
    response = client.responses.create(
        model="gpt-4o",
        input=[
            {
                "role": "user",
                "content": [
                    {
                        "type": "input_text",
                        "text": "请点评这张页面截图,输出三个最值得修改的地方。",
                    },
                    {
                        "type": "input_image",
                        "image_url": image_to_data_url(image_path),
                    },
                ],
            }
        ],
    )
    return response.output_text


print(review_screenshot("page.png"))

这类小工具不需要一开始就做得很复杂。先把重复任务塞进去,让它帮你把初稿、摘要、检查清单产出来,再由人做最后一轮把关。