聊一聊GPT-4o

2024-03-19

GPT-4o 里的 `o` 来自 omni，意思是“全能式的、多模态的”。这句话听起来挺大，但放到普通人的使用里，它最直接的变化其实很朴素：你不一定非要把所有需求都写成一段完美文字，也可以丢一张图、给一段材料、发一份乱糟糟的草稿，让它帮你看懂、整理、改写、推演。

它不像一个只会回答问题的搜索框，更像一个坐在旁边的搭子。你给它信息，它帮你把事情往前推一小段；你继续补充，它再继续修。它不会替你做判断，但能把很多“先整理一下再说”的活干掉。

GPT-4o是个啥子

如果一定要用生活里的东西来比，它不像一本百科书，也不像一个固定流程的软件按钮。它更像一个会读材料的助理：

你给它一段文字，它能帮你改得更顺
你给它一张图片，它能说出图里值得注意的地方
你给它一堆要点，它能整理成清单和草稿
你给它一个目标，它能帮你拆成步骤

这就是 GPT-4o 比较实用的地方。不是“它知道一切”，而是你在处理杂乱信息时，它能把第一轮脏活先接住。

GPT-4o 日常场景

它适合做什么

写作时，它可以帮你把一段很硬的文字改得更自然。比如你写了一段产品介绍，它可以改成朋友能听懂的版本、老板愿意看的版本、客服能直接发出去的版本。

读图时，它可以帮你看截图、表格、海报、手写草图。它不只是识别文字，还能结合画面关系给出解释。比如你把一个页面截图发给它，它能指出信息层级是否混乱，按钮是否太弱，用户可能在哪里卡住。

学习时，它可以像陪练。你让它先讲一遍，再让它出几道题，再让它指出你答错在哪里。比起直接给答案，这种来回对话更适合把知识嚼碎。

办公时，它很适合整理材料。会议纪要、需求草稿、客服记录、调研内容、产品反馈，都可以先让它归类，再让人做最终判断。

它不适合做什么

GPT-4o 再好用，也不是事实保险箱。它可能说错，也可能把没把握的内容说得很像真的。涉及合同、财务、医疗、法律、生产安全这种高风险内容，不能只靠它拍板。

它也不该拿来处理没有授权的隐私材料。你把客户资料、公司机密、身份证件、内部聊天记录给模型前，要先想清楚数据边界。

还有一点很现实：它会受提示影响。你问题问得太含糊，它就只能猜。你给的材料越具体、目标越清晰，结果越像人话。

怎么问，效果会明显不一样

弱一点的问法：

帮我写个文案

更好一点：

帮我把下面这段产品介绍改成小红书风格，语气轻松，不要夸张。
面向刚毕业的年轻人，重点突出便宜、好收纳、适合租房。
保留核心卖点，不要编造不存在的功能。

这类提示不复杂，但给了四个关键信息：

任务：改写产品介绍
风格：轻松但别夸张
人群：刚毕业的年轻人
边界：不要编造功能

GPT-4o 很吃上下文。你给它边界，它就更少乱跑；你给它角色，它就更知道语气；你给它目标，它就更容易收束。

多模态真正好用的地方

“多模态”这个词看起来技术味很重，换成人话就是：你不必只靠打字。

GPT-4o 多模态输入

比如做页面评审，你可以发截图，然后问：

这张页面截图里，哪些地方会让用户不太敢点？
请按“问题、原因、改法”整理。

比如做学习笔记，你可以发一张白板照片，然后问：

帮我把这张白板内容整理成 Markdown 笔记。
如果有看不清的地方，用“待确认”标出来，不要猜。

比如做客服质检，你可以把对话内容贴进去，然后问：

请判断这段客服回复是否解决了用户问题。
输出：用户诉求、客服回应、遗漏点、建议话术。

这些场景并不炫，但很实用。它帮你节省的是“把材料变成可处理信息”的那段力气。

用 Python 接进自己的小流程

如果只是聊天，直接用产品界面就够了。真正想把它变成工具，可以用 Python 把它接进自己的流程，比如批量整理用户反馈、生成客服草稿、检查图片说明。

先安装 SDK：

pip install openai

最小示例：

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-4o",
    input="把这句话改得更自然：本产品具备高度便携和优秀收纳能力。",
)

print(response.output_text)

GPT-4o Python 小工具
更像业务里的写法，可以把提示封装成函数：

from openai import OpenAI

client = OpenAI()


def polish_copy(raw_text, audience):
    prompt = f"""
请把下面的文案改得更自然。

面向人群：{audience}
要求：
- 语气轻松
- 不要编造新功能
- 保留核心卖点
- 输出一版短文案和三条卖点

原文：
{raw_text}
"""
    response = client.responses.create(
        model="gpt-4o",
        input=prompt,
    )
    return response.output_text


result = polish_copy(
    raw_text="本产品具备高度便携和优秀收纳能力，适合多种居住环境。",
    audience="租房青年",
)

print(result)

如果要读图，可以把图片作为输入的一部分。下面这个例子把本地图片转成 base64，再让模型做页面点评。

import base64
from pathlib import Path
from openai import OpenAI

client = OpenAI()


def image_to_data_url(path):
    image_bytes = Path(path).read_bytes()
    encoded = base64.b64encode(image_bytes).decode("utf-8")
    return f"data:image/png;base64,{encoded}"


def review_screenshot(image_path):
    response = client.responses.create(
        model="gpt-4o",
        input=[
            {
                "role": "user",
                "content": [
                    {
                        "type": "input_text",
                        "text": "请点评这张页面截图，输出三个最值得修改的地方。",
                    },
                    {
                        "type": "input_image",
                        "image_url": image_to_data_url(image_path),
                    },
                ],
            }
        ],
    )
    return response.output_text


print(review_screenshot("page.png"))

这类小工具不需要一开始就做得很复杂。先把重复任务塞进去，让它帮你把初稿、摘要、检查清单产出来，再由人做最后一轮把关。

<pre>

它不像一个只会回答问题的搜索框，更像一个坐在旁边的搭子。你给它信息，它帮你把事情往前推一小段；你继续补充，它再继续修。它不会替你做判断，但能把很多&ldquo;先整理一下再说&rdquo;的活干掉。

## GPT-4o是个啥子

如果一定要用生活里的东西来比，它不像一本百科书，也不像一个固定流程的软件按钮。它更像一个会读材料的助理：

```text
你给它一段文字，它能帮你改得更顺
你给它一张图片，它能说出图里值得注意的地方
你给它一堆要点，它能整理成清单和草稿
你给它一个目标，它能帮你拆成步骤
```

这就是 GPT-4o 比较实用的地方。不是&ldquo;它知道一切&rdquo;，而是你在处理杂乱信息时，它能把第一轮脏活先接住。

![GPT-4o 日常场景](https://zoyblogs.oss-cn-guangzhou.aliyuncs.com/gpt4o_daily_scene_jfqe.svg)

## 它适合做什么

写作时，它可以帮你把一段很硬的文字改得更自然。比如你写了一段产品介绍，它可以改成朋友能听懂的版本、老板愿意看的版本、客服能直接发出去的版本。

读图时，它可以帮你看截图、表格、海报、手写草图。它不只是识别文字，还能结合画面关系给出解释。比如你把一个页面截图发给它，它能指出信息层级是否混乱，按钮是否太弱，用户可能在哪里卡住。

学习时，它可以像陪练。你让它先讲一遍，再让它出几道题，再让它指出你答错在哪里。比起直接给答案，这种来回对话更适合把知识嚼碎。

办公时，它很适合整理材料。会议纪要、需求草稿、客服记录、调研内容、产品反馈，都可以先让它归类，再让人做最终判断。

## 它不适合做什么

GPT-4o 再好用，也不是事实保险箱。它可能说错，也可能把没把握的内容说得很像真的。涉及合同、财务、医疗、法律、生产安全这种高风险内容，不能只靠它拍板。

它也不该拿来处理没有授权的隐私材料。你把客户资料、公司机密、身份证件、内部聊天记录给模型前，要先想清楚数据边界。

还有一点很现实：它会受提示影响。你问题问得太含糊，它就只能猜。你给的材料越具体、目标越清晰，结果越像人话。

## 怎么问，效果会明显不一样

弱一点的问法：

```text
帮我写个文案
```

更好一点：

```text
帮我把下面这段产品介绍改成小红书风格，语气轻松，不要夸张。
面向刚毕业的年轻人，重点突出便宜、好收纳、适合租房。
保留核心卖点，不要编造不存在的功能。
```

这类提示不复杂，但给了四个关键信息：

```text
任务：改写产品介绍
风格：轻松但别夸张
人群：刚毕业的年轻人
边界：不要编造功能
```

GPT-4o 很吃上下文。你给它边界，它就更少乱跑；你给它角色，它就更知道语气；你给它目标，它就更容易收束。

## 多模态真正好用的地方

&ldquo;多模态&rdquo;这个词看起来技术味很重，换成人话就是：你不必只靠打字。

![GPT-4o 多模态输入](https://zoyblogs.oss-cn-guangzhou.aliyuncs.com/gpt4o_multimodal_flow_prxt.svg)

比如做页面评审，你可以发截图，然后问：

```text
这张页面截图里，哪些地方会让用户不太敢点？
请按&ldquo;问题、原因、改法&rdquo;整理。
```

比如做学习笔记，你可以发一张白板照片，然后问：

```text
帮我把这张白板内容整理成 Markdown 笔记。
如果有看不清的地方，用&ldquo;待确认&rdquo;标出来，不要猜。
```

比如做客服质检，你可以把对话内容贴进去，然后问：

```text
请判断这段客服回复是否解决了用户问题。
输出：用户诉求、客服回应、遗漏点、建议话术。
```

这些场景并不炫，但很实用。它帮你节省的是&ldquo;把材料变成可处理信息&rdquo;的那段力气。

## 用 Python 接进自己的小流程

如果只是聊天，直接用产品界面就够了。真正想把它变成工具，可以用 Python 把它接进自己的流程，比如批量整理用户反馈、生成客服草稿、检查图片说明。

先安装 SDK：

```bash
pip install openai
```

最小示例：

```python
from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model=&quot;gpt-4o&quot;,
    input=&quot;把这句话改得更自然：本产品具备高度便携和优秀收纳能力。&quot;,
)

print(response.output_text)
```
![GPT-4o Python 小工具](https://zoyblogs.oss-cn-guangzhou.aliyuncs.com/gpt4o_python_notes_lkzu.svg) 
更像业务里的写法，可以把提示封装成函数：

```python
from openai import OpenAI

client = OpenAI()

def polish_copy(raw_text, audience):
    prompt = f&quot;&quot;&quot;
请把下面的文案改得更自然。

面向人群：{audience}
要求：
- 语气轻松
- 不要编造新功能
- 保留核心卖点
- 输出一版短文案和三条卖点

原文：
{raw_text}
&quot;&quot;&quot;
    response = client.responses.create(
        model=&quot;gpt-4o&quot;,
        input=prompt,
    )
    return response.output_text

result = polish_copy(
    raw_text=&quot;本产品具备高度便携和优秀收纳能力，适合多种居住环境。&quot;,
    audience=&quot;租房青年&quot;,
)

print(result)
```

如果要读图，可以把图片作为输入的一部分。下面这个例子把本地图片转成 base64，再让模型做页面点评。

```python
import base64
from pathlib import Path
from openai import OpenAI

client = OpenAI()

def image_to_data_url(path):
    image_bytes = Path(path).read_bytes()
    encoded = base64.b64encode(image_bytes).decode(&quot;utf-8&quot;)
    return f&quot;data:image/png;base64,{encoded}&quot;

def review_screenshot(image_path):
    response = client.responses.create(
        model=&quot;gpt-4o&quot;,
        input=[
            {
                &quot;role&quot;: &quot;user&quot;,
                &quot;content&quot;: [
                    {
                        &quot;type&quot;: &quot;input_text&quot;,
                        &quot;text&quot;: &quot;请点评这张页面截图，输出三个最值得修改的地方。&quot;,
                    },
                    {
                        &quot;type&quot;: &quot;input_image&quot;,
                        &quot;image_url&quot;: image_to_data_url(image_path),
                    },
                ],
            }
        ],
    )
    return response.output_text

print(review_screenshot(&quot;page.png&quot;))
```

这类小工具不需要一开始就做得很复杂。先把重复任务塞进去，让它帮你把初稿、摘要、检查清单产出来，再由人做最后一轮把关。

</pre>