《Catching a Unicorn with GLTR: A tool to detect automatically generated text》,http://gltr.io
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
作者:高长宽
历史上有名的“东坡续词”,是文学史上的一段佳话,这也引发了作者的深思。他在这诗词创作的过程中,看到了数理思维的影子,就好比在求解一个“最优化问题”:
在一定的约束条件下,如诗词要遵守的平仄、押韵、对仗/对偶、五七变式、词谱、情境等,诗词创作者需要用文字将自己内心的真实感动用语言文字表达出来。
因此,作者认为,诗词之精美和数理之严密是可以完美结合的。
既然诗歌的创作是有规律的,那么,通过一定的数据挖掘手段,我们是能够从中发现一些insight的。
在本文中,作者循着这个思路,将运用若干文本挖掘方法对手头的诗歌语料库(该诗歌原始语料库地址为https://github.com/Werneror/Poetry)进行深入挖掘和分析,该诗歌语料库的基本统计数据如下:
从上表可以看到,该诗歌语料库中共计近85万余首诗歌,诗歌作者数量达29377位之多;其中,字段包括“题目”、“朝代”、“作者”和“内容(诗歌)”。
为了方便后续的分析,笔者仅取其中的律诗和绝句,且仅取其中的五言和七言,排律(如《春江花月夜》、《长恨歌》等)、杂言(如李白的将进酒)等就不在本文的分析范围之内。经过数据清洗后,最终得诗504,443,占到原数据库的59.1%。以下分别是清洗后的诗歌数据统计结果和部分样例:
针对上述数据,笔者在本文中主要有两个大目标:
构建一个包含热门题材标签的诗歌语料库,用于后续的诗歌题材分类和诗歌生成任务; 基于上述诗歌语料库的各类文本挖掘和语义分析,以期得到有趣味的发现。
chatgpt保姆级注册教程
ChatGPT怎么注册?ChatGPT账号需要玩家进行注册,只有注册成功后才能体验这个软件,需要注意的是,想要注册ChatGPT,需要将网络环境切换成国外的ip,且后续的注册流程都需要在这个网络环境下进行。具体的流程小伙伴们可以参考小编带来的这篇教程,相信能给大家带来帮助,话不多说一起来看看吧。
《ChatGPT》注册教程:
1、首先玩家需要将网络环境切换成国外ip,比如美国、加拿大等。
2、并且在后续的注册流程中,还必须要在网络环境下面进行。
>>>官网链接:点击进入
3、打开链接之后,使用自己的邮箱进行账号注册。
4、在打开游戏之后,查收OpenAI账号验证邮件,点击验证按钮即可完成验证。
步骤流程:
以上就是特玩小编整理带来的《ChatGPT》注册教程,更多相关游戏攻略,请点击关注特玩手游网!
【EasyNLP】EasyNLP带你玩转CLIP图文检索
easyapi,easy online,easy-,easyn p2随着自媒体的不断发展,多种模态数据例如图像、文本、语音、视频等不断增长,创造了互联网上丰富多彩的世界。为了准确建模用户的多模态内容,跨模态检索是跨模态理解的重要任务,采用一种模态的数据作为数据,检索另一种模态的数据。其中,图文检索是跨模态检索的一种主流任务,广泛应用于各种网络应用中,其难点在于跨模态的表示鸿沟。具体来说,文本和图像的数据处于不同的向量空间,无法直接去度量他们的相似性。OpenAI提出了CLIP(Contrastive Language-Image Pre-training)模型,在大规模图文数据集上进行了对比学习训练,在多个数据集上的准确度表明,CLIP优于各种基于ImageNet的模型,也具有良好的零样本学习(Zero-shot Learning)能力。
EasyNLP是阿里云机器学习PAI 团队基于 PyTorch 开发的易用且丰富的中文NLP算法框架,支持常用的中文预训练模型和大模型落地技术,并且提供了从训练到部署的一站式 NLP 开发体验。EasyNLP 提供了简洁的接口供用户开发 NLP 模型,包括NLP应用 AppZoo 和预训练 ModelZoo,同时提供技术帮助用户高效的落地超大预训练模型到业务。由于跨模态理解需求的不断增加,EasyNLP也将支持各种跨模态模型,特别是中文领域的跨模态模型,推向开源社区,希望能够服务更多的 NLP 和多模态算法开发者和研究者,也希望和社区一起推动 NLP /多模态技术的发展和模型落地。
本文简要介绍如何在EasyNLP框架中玩转CLIP模型。
以下简要介绍在EasyNLP框架使用CLIP模型的教程。
首先准备训练数据与验证数据,为tsv文件。这一文件包含以制表符\ 分隔的两列,第一列为文本,第二列为图片的base64编码。用于提取向量接入向量检索系统的输入文件为单列,仅包含文本或图片的base64编码。
为了方便开发者,我们也提供了转换图片到base64编码的示例代码:
import base64 from io import BytesIO from PIL import Image img=Image.open(fn) img_buffer=BytesIO() img.save(img_buffer, format=img.format) byte_data=img_buffer.getvalue() base64_str=base64.b64encode(byte_data) # bytes
下列文件已经完成预处理,可用于测试:
# train https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/tutorials/CLIP/MUGE_MR_train_base64_part.tsv # valid https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/tutorials/CLIP/MUGE_MR_valid_base64_part.tsv # text https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/tutorials/CLIP/MUGE_MR_test_base64_part_text.tsv # image https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/tutorials/CLIP/MUGE_MR_test_base64_part_image.tsv
我们采用以下命令对CLIP模型进行fine-tune:
easynlp \\ --mode train \\ --worker_gpu=1 \\ --tables=https://zhuanlan.zhihu.com/p/MUGE_MR_train_base64_part.tsv,https://zhuanlan.zhihu.com/p/MUGE_MR_valid_base64_part.tsv \\ --input_schema=text:str:1,image:str:1 \\ --first_sequence=text \\ --second_sequence=image \\ --checkpoint_dir=https://zhuanlan.zhihu.com/p/clip_model/ \\ --learning_rate=1e-4 \\ --epoch_num=1 \\ --random_seed=42 \\ --logging_steps=100 \\ --save_checkpoint_steps 200 \\ --sequence_length=32 \\ --micro_batch_size=32 \\ --app_name=clip \\ --save_all_checkpoints \\ --user_defined_parameters='pretrain_model_name_or_path=clip_chinese_roberta_large_with_vit_large fix_vision=True mode=finetune'
训练完成后模型被保存到https://zhuanlan.zhihu.com/p/clip_model/。训练结束后,我们可以对模型进行评估:
easynlp \\ --mode evaluate \\ --worker_gpu=1 \\ --tables=https://zhuanlan.zhihu.com/p/MUGE_MR_valid_base64_part.tsv \\ --input_schema=text:str:1,image:str:1 \\ --first_sequence=text \\ --second_sequence=image \\ --checkpoint_dir=https://zhuanlan.zhihu.com/p/clip_model/ \\ --random_seed=42 \\ --logging_steps=100 \\ --save_checkpoint_steps=500 \\ --sequence_length=32 \\ --micro_batch_size=32 \\ --app_name=clip
模型训练完毕后,我们可以将其用于文本或图片的特征提取,示例如下:
easynlp \\ --mode predict \\ --worker_gpu=1 \\ --tables=https://zhuanlan.zhihu.com/p/MUGE_MR_test_base64_part_text.tsv \\ --input_schema=text:str:1 \\ --output_schema=text_feat \\ --outputs=https://zhuanlan.zhihu.com/p/text_feat.tsv \\ --first_sequence=text \\ --checkpoint_dir=https://zhuanlan.zhihu.com/p/clip_model/ \\ --random_seed=42 \\ --logging_steps=100 \\ --save_checkpoint_steps=500 \\ --sequence_length=32 \\ --micro_batch_size=2 \\ --app_name=clip easynlp \\ --mode predict \\ --worker_gpu=1 \\ --tables=https://zhuanlan.zhihu.com/p/MUGE_MR_test_base64_part_image.tsv \\ --input_schema=image:str:1 \\ --output_schema=image_feat \\ --outputs=https://zhuanlan.zhihu.com/p/image_feat.tsv \\ --first_sequence=image \\ --checkpoint_dir=https://zhuanlan.zhihu.com/p/clip_model/ \\ --random_seed=42 \\ --logging_steps=100 \\ --save_checkpoint_steps=500 \\ --sequence_length=32 \\ --micro_batch_size=2 \\ --app_name=clip
提取出的特征存储在一个tsv文件中,每行对应输入中的一个文本或一个图片,维度之间采用制表符\ 分隔。
- Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger. Ilya Sutskever. Learning transferable visual models from natural language supervision. arXiv
- Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. arXiv
- Github地址:
- [EasyNLP解析]阿里灵杰:阿里云机器学习PAI开源中文NLP算法框架EasyNLP,助力NLP大模型落地
- [EasyNLP技术]EasyNLP带你玩转图文检索(本文)
- [EasyNLP技术]ACL工作之元知识蒸馏MetaKD
- [EasyNLP技术]电商多模态预训练FashionBERT
- [EasyNLP技术]EasyNLP框架概览