2024-03-19
GPT-4o 里的 `o` 来自 omni,意思是“全能式的、多模态的”。这句话听起来挺大,但放到普通人的使用里,它最直接的变化其实很朴素:你不一定非要把所有需求都写成一段完美文字,也可以丢一张图、给一段材料、发一份乱糟糟的草稿,让它帮你看懂、整理、改写、推演。
它不像一个只会回答问题的搜索框,更像一个坐在旁边的搭子。你给它信息,它帮你把事情往前推一小段;你继续补充,它再继续修。它不会替你做判断,但能把很多“先整理一下再说”的活干掉。
如果一定要用生活里的东西来比,它不像一本百科书,也不像一个固定流程的软件按钮。它更像一个会读材料的助理:
你给它一段文字,它能帮你改得更顺
你给它一张图片,它能说出图里值得注意的地方
你给它一堆要点,它能整理成清单和草稿
你给它一个目标,它能帮你拆成步骤
这就是 GPT-4o 比较实用的地方。不是“它知道一切”,而是你在处理杂乱信息时,它能把第一轮脏活先接住。
写作时,它可以帮你把一段很硬的文字改得更自然。比如你写了一段产品介绍,它可以改成朋友能听懂的版本、老板愿意看的版本、客服能直接发出去的版本。
读图时,它可以帮你看截图、表格、海报、手写草图。它不只是识别文字,还能结合画面关系给出解释。比如你把一个页面截图发给它,它能指出信息层级是否混乱,按钮是否太弱,用户可能在哪里卡住。
学习时,它可以像陪练。你让它先讲一遍,再让它出几道题,再让它指出你答错在哪里。比起直接给答案,这种来回对话更适合把知识嚼碎。
办公时,它很适合整理材料。会议纪要、需求草稿、客服记录、调研内容、产品反馈,都可以先让它归类,再让人做最终判断。
GPT-4o 再好用,也不是事实保险箱。它可能说错,也可能把没把握的内容说得很像真的。涉及合同、财务、医疗、法律、生产安全这种高风险内容,不能只靠它拍板。
它也不该拿来处理没有授权的隐私材料。你把客户资料、公司机密、身份证件、内部聊天记录给模型前,要先想清楚数据边界。
还有一点很现实:它会受提示影响。你问题问得太含糊,它就只能猜。你给的材料越具体、目标越清晰,结果越像人话。
弱一点的问法:
帮我写个文案
更好一点:
帮我把下面这段产品介绍改成小红书风格,语气轻松,不要夸张。
面向刚毕业的年轻人,重点突出便宜、好收纳、适合租房。
保留核心卖点,不要编造不存在的功能。
这类提示不复杂,但给了四个关键信息:
任务:改写产品介绍
风格:轻松但别夸张
人群:刚毕业的年轻人
边界:不要编造功能
GPT-4o 很吃上下文。你给它边界,它就更少乱跑;你给它角色,它就更知道语气;你给它目标,它就更容易收束。
“多模态”这个词看起来技术味很重,换成人话就是:你不必只靠打字。
比如做页面评审,你可以发截图,然后问:
这张页面截图里,哪些地方会让用户不太敢点?
请按“问题、原因、改法”整理。
比如做学习笔记,你可以发一张白板照片,然后问:
帮我把这张白板内容整理成 Markdown 笔记。
如果有看不清的地方,用“待确认”标出来,不要猜。
比如做客服质检,你可以把对话内容贴进去,然后问:
请判断这段客服回复是否解决了用户问题。
输出:用户诉求、客服回应、遗漏点、建议话术。
这些场景并不炫,但很实用。它帮你节省的是“把材料变成可处理信息”的那段力气。
如果只是聊天,直接用产品界面就够了。真正想把它变成工具,可以用 Python 把它接进自己的流程,比如批量整理用户反馈、生成客服草稿、检查图片说明。
先安装 SDK:
pip install openai
最小示例:
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-4o",
input="把这句话改得更自然:本产品具备高度便携和优秀收纳能力。",
)
print(response.output_text)
更像业务里的写法,可以把提示封装成函数:
from openai import OpenAI
client = OpenAI()
def polish_copy(raw_text, audience):
prompt = f"""
请把下面的文案改得更自然。
面向人群:{audience}
要求:
- 语气轻松
- 不要编造新功能
- 保留核心卖点
- 输出一版短文案和三条卖点
原文:
{raw_text}
"""
response = client.responses.create(
model="gpt-4o",
input=prompt,
)
return response.output_text
result = polish_copy(
raw_text="本产品具备高度便携和优秀收纳能力,适合多种居住环境。",
audience="租房青年",
)
print(result)
如果要读图,可以把图片作为输入的一部分。下面这个例子把本地图片转成 base64,再让模型做页面点评。
import base64
from pathlib import Path
from openai import OpenAI
client = OpenAI()
def image_to_data_url(path):
image_bytes = Path(path).read_bytes()
encoded = base64.b64encode(image_bytes).decode("utf-8")
return f"data:image/png;base64,{encoded}"
def review_screenshot(image_path):
response = client.responses.create(
model="gpt-4o",
input=[
{
"role": "user",
"content": [
{
"type": "input_text",
"text": "请点评这张页面截图,输出三个最值得修改的地方。",
},
{
"type": "input_image",
"image_url": image_to_data_url(image_path),
},
],
}
],
)
return response.output_text
print(review_screenshot("page.png"))
这类小工具不需要一开始就做得很复杂。先把重复任务塞进去,让它帮你把初稿、摘要、检查清单产出来,再由人做最后一轮把关。