淘优惠

淘优惠

ChatGPT需要文字库支持吗 ChatGPT可以替代标注吗

双十一活动 0
chatgpt是什么意思,chatgpt怎么下载,chatgpt在线,chatgpt中文

ChatGPT是一个很好的文本标注和文本增强工具。最近有个关键词的需求,但是标注数据很少,下面简述我使用ChatGPT做关键词标注的探索过程。

测试几个prompt比如“提取关键词”,“抽取关键词”等,最终确定的是“提取核心关键词”,测试效果如下:

注:该语句来自电商评论comments2019数据集。

先在OpenAI的playground里测试,然后接口测试,3.5的接口尽量传入几个样例,效果会好一点,5个就差不多了,越多越贵。

content示例如下:

提取核心关键词:在王府井逛街之后饿了和男友在那吃得饭 第一次去环境不错很干净也很安静样式比较多就是上饺子的速度比较慢 不过东西挺好吃的 平时不太吃肉的我特别喜欢吃他家的猪软骨软香却不腻卤蛋的味道也不错 那天我吃了好多 答案:王府井,逛街,男友,环境,干净,安静,样式多,上饺子,速度慢,好吃,猪软骨,卤蛋,不腻

不同的示例数结果分别如下:

0王府井,逛街,饭,环境,干净,安静,饺子,速度,好吃,猪软骨,软香,不腻,卤蛋,味道1府井,逛街,男友,饭店,环境,干净,安静,样式,上饺子,速度慢,好吃,猪软骨,卤蛋,味道,不腻2王府井,逛街,男友,饭店,环境,干净,安静,样式,饺子,速度慢,好吃,猪软骨,卤蛋,味道,不腻3王府井,逛街,饭店,环境,干净,安静,样式,饺子,速度,好吃,猪软骨,卤蛋4王府井,逛街,饭店,环境,干净,安静,样式,饺子,速度,好吃,猪软骨,卤蛋5王府井,逛街,男友,饭店,环境,干净,安静,上饺子,速度慢,好吃,猪软骨,卤蛋6王府井,逛街,男友,饭店,环境,干净,安静,上饺子,速度慢,好吃,猪软骨,卤蛋7王府井,逛街,男友,饭店,环境,干净,安静,上饺子,速度慢,好吃,猪软骨,卤蛋8王府井,逛街,男友,饭,环境,干净,安静,样式,上饺子,速度慢,好吃,猪软骨,卤蛋,味道,不腻

将提示语略微改一下:提取核心关键词,尽量精简,不同数量的示例如下:

2王府井,逛街,饭店,环境,干净,安静,上饺子,速度慢,好吃,猪软骨,卤蛋3王府井,逛街,男友,饭店,环境,干净,安静,上饺子,速度慢,好吃,猪软骨,卤蛋4地点:王府井;评价:环境好,干净安静,样式多,上饺子速度慢,猪软骨好吃,卤蛋味道不错5王府井,逛街,饭店,环境,干净,安静,样式,上饺子,速度慢,好吃,猪软骨,卤蛋,不腻,味道好,吃了好多

设置好提示语和几个样例,就可以批量请求了,为了降低tokens的消耗,每次只传入两个样例。

样例越多,出现长词的概率越高。

然而出现了意外的事情,需要进行另外的处理,进行第三步。

由于我使用的数据是ASR转录而来,存在大量的错误,相当比例的文本ChatGPT无法理解,出现了下面的回复。

设置提示语:下面的的段落或句子可能存在错误或不通顺或语音识别错误,重新整理一下,效果如下:

主要意思差不多对了,基于此再生成关键词训练集就比较顺利了。

简单的审查一下,基本上能发现规律,比如出现开头出现“关键词提取:”的样式,还有一些不必要的数字、过长的句子,根据具体业务情况处理。

找个开源的预训练模型以prompt方式微调一下,比如T5。T5-large测试效果:

对于领域外的数据效果差一些。



chatgpt具有分析数据的能力吗 ChatGPT数据分析引擎

chatgpt是什么意思,chatgpt官网,chatgpt怎么下载,chatgpt中文

作者:eliotzhou,腾讯 IEG 数据分析工程师

比尔・盖茨说:“chatgpt像互联网发明一样重要,将会改变世界。”使用一段时间chatgpt后,可以发现chatgpt是能极大的提高工作效率的工具。在游戏运营中,数据分析和数据科学是非常重要的一环。

有了chatgpt,对于不会数据分析技能的运营同学,也可以进行常见的数据分析,作为工作效率的极大提升。对于会数据分析的运营同学和专职数据分析同学,可以使用chatgpt替代日常中数据分析开发工作,将重心更多的聚焦分析和业务工作。

本文就列举了4种常见的游戏运营中的数据分析场景,包括数据提取,数据分析,聚类,预测等,使用chatgpt辅助完成分析工作。

在使用chatGPT的过程中,我也会思考,有了chatgpt,好像我们的工作内容有一部分被取代了,是否说明我们的价值也相应被取代了呢?

我认为未来的时代,我们确实应该和chatgpt一样,持续进化。作为一个数据分析师或者游戏运营的价值,应该体现在:

  • 更深的业务理解能力
  • 更广的知识体系和知识运用能力(分析能力,算法能力,心理学,社会学,经济学)
  • 数据敏感度和创造力
  • 更熟练的chatgpt使用能力

提取数据是非常常见的工作,这里介绍了如何使用chatgpt辅助生成提取数据sql代码。

输入要用到的表和字段,这些信息可以询问数据同学。举个例子,这里用到三张数据表:

用户登录表eliot_db::yuanshen_userlogin,表是静态分区表,分区字段datadate,包括字段:userid,登录时间logdate 用户付费表eliot_db::yuanshen_userpay,表是静态分区表,分区字段datadate, 包括字段:userid,最近7天付费金额weekpaymoney 用户信息表eliot_db::yuanshen_userinfo,表是静态分区表,分区字段datadate, 包括字段:userid,年龄iage

输入chatgpt:

我们想要提取最近30天活跃用户,包括每个用户的最近7天付费金额,和年龄信息。然后过滤18岁以下用户。可以这么输入chatgpt:

chatgpt输出的hive代码:

如果你具备一定的hive代码能力,检查下代码。以上chatgpt给出的代码完全没有问题。

将代码复制到idex中,执行代码,等待结果:

有时候代码执行会报错,可以直接把错误信息让chatgpt查询

复制红字部分,输入给chatgpt

报错原因是因为表名或者库名不对,可以检查核对后,修改一下代码。

数据分析也是比较常见的工作,包括游戏用户群的各项指标的分布和趋势等。同样的,我们可以让chatgpt生成分析代码。

我们想要看特定用户付费金额分布情况,比如用户范围是最近30天活跃过的用户,年龄18~60岁。看最近7天付费金额分布情况,按每10元一个区间划分分布。

这里有一个需要明确的需求点要指明给chatgpt:如果我们取最近30天活跃过的用户,那么用户最近7天没有付费,不能把这部分过滤掉,将付费金额设置为0。

将需求输入给chatgpt:

chatgpt返回的hive代码:

这个代码检查一下,也是完全没问题的,在idex执行就行。

得到结果后我们想检验下结果是否正确,可以将所有付费分布的用户数加和,得到我们定义的用户范围的用户数。

然后输入一个求用户数的代码需求给chatgpt:

WeChatWorkScreenshot_849e9956-8ce9-4293-b004-ce8648550248

对比两个用户数,无误说明之前我们的需求结果应该没问题。

进一步,我们计算一个更复杂的分布问题,假如我们想看不同年龄段的用户的付费区间分布情况,我们继续输入需求:

WeChatWorkScreenshot_868f8ee1-02e2-49d7-9b37-ccd956acfe73

chatgpt给出的hive代码:

同样的在idex执行代码,然后核对检查下。

聚类是我们做游戏用户画像工作中常用的方法,比如用户玩法偏好,付费偏好等等。这里,我们用chatgpt辅助生成聚类代码。

聚类之前,需要准备好用户特征表,可以用之前列举的用户提取和分析方法,让chatgpt生成代码,跑出用户包文件。

举一个例子,我们想看原神用户玩法偏好画像,我们可以根据我们对游戏业务的理解能力,生成这样的一张用户特征表:

userid,主线剧情推进度zhuxian_rate,支线任务完成数renwu_num,深渊获得星数shenyuan_num,大地图探索度ditu_rate,七圣召唤比赛数zhaohuan_num。

输入需求:

chatgpt生成的代码:

检查了代码,基本没有问题。

点开idex,打开jupyter:

选择python3.7新建一个启动页,重命名为yuanshen_kmeans.ipynb,将代码复制进去

然后将用户表文件放到目录中:

WeChatWorkScreenshot_449ecd96-b7ed-44e8-88aa-4a11f6189a37

最后点击执行,等待输出聚类结果。

得到聚类结果后,我们会进一步分析用户画像,比如我们可以关联输出的聚类结果用户包,分析每个类别用户的其他特征指标情况等。

我们还需要分析每个类别用户的这些主要特征指标聚心结果,基于游戏业务理解,描述用户画像。

我一时兴起,将聚类结果输入给了chatgpt,请它帮忙描述下每类用户的画像。

它概括的居然还不错

WeChatWorkScreenshot_e2097d0d-e087-47b0-b6a9-04c6bc331ca6

预测也是我们在游戏数据分析工作中经常会遇见的工作场景,包括道具销量预测,KPI指标预测,用户流失预测等等。

我们可以让chatgpt生成预测工作全过程的代码,帮忙我们快速得到预测结果。

举个例子,我们想预测原神1个月后上线的复刻胡桃和夜兰的池子流水收人,我们需要先准备两部分数据:

1.历史上线的角色池子收入数据yuanshen_juese_water_data.csv,和对应的每个池子的特征字段数据,比如:用户活跃数actusers,用户付费payusermoney,角色属性juese_feature_id,已拥有角色用户数ha【【微信】】等。

2.需要预测的池子的特征字段数据yuanshen_juese_water_predict.csv,用户活跃数,用户付费,角色属性,已拥有角色用户数等。

输入需求

chatgpt给出的代码

执行代码后,输出了预测结果,可以用于评估待上线的角色池子的流水水平。

当然,我们需要评估预测模型的准确度是否在我们的误差承受范围内,因此我们需要分析下模型效果。

模型看上去是比较准确的,并且通过回归模型,我们可以发现,角色的属性信息,是比较能影响角色池子流水收人的。

因此,这个特征是在商业化探索上值得我们进一步分析的。

更进一步,我们在工作中也会有一些因果推断的问题,比如分析某个策略或指标对用户留存,活跃的影响等等。

简单的因果推断问题,我们也可以让chatgpt快速生成代码。

举个例子,我们想分析钓鱼这种休闲玩法,是否能促进玩家的在线时长,我们需要先准备这样的数据:

用户特征数据yuanshen_user_diaoyu_feature_data.csv,包括字段:【【微信】】,是否参与钓鱼玩法is_diaoyu,最近7天在线时长onlinetime,过去7天在线时长week_onlinetime,注册时间regdate等

输入需求

chatgpt给出的代码:

这里我们首先加载数据到一个 【【微信】】 中,并将干预变量、结果变量和控制变量分别保存到变量 treatmentoutcomeco【【微信】】 中。

接着,我们使用 StandardScaler 将连续变量进行标准化,然后创建一个 CausalModel 对象并指定这些变量。使用 est_propensity_s 方法估计倾向得分,使用 est_【【微信】】 方法进行匹配,然后使用 summary_stats 属性输出平衡性检验结果。

接下来,我们从匹配后的样本中获取数据,并计算两组用户的均值差作为干预效应。最后,我们计算均方误差(MSE)作为指标评估 PSM 分析结果。

在这个例子中,我们关注最近7天在线时长的平均值,因此可以使用 MSE 作为评估指标,其结果越小越好。

值得注意的是,我们这里采用的是均值差作为干预效应的度量方式。这种度量方式有时会存在偏差,因为两组用户之间可能存在一些差异,导致均值差并不能完全反映干预效应。更好的做法是将干预效应视为一个连续变量,并使用回归模型来拟合该效应,从而更准确地评估干预效应的大小。这里的代码也可以相应地进行修改,将干预效应视为连续变量进行拟合。