收拾 | 夕颜
出品 | AI科技大本营(ID:rgznai100)
【导读】最近,一个姓名适当接地气的“狗屁不通”文章生成器(BullshitGenerator)火了,到现在 GitHub 上 Star 数已超越 3200,还上了微博热搜。这个神器能够生成各式各样奇葩文章,比方领导专用“彩虹屁”万字长文。只需你想不到,没有这个神器写不成的文章。可是,生成的文章的确也是“狗屁不通”。这次咱们就来解读一下,这个生成器是怎样运转的,以此为例,延展评论一下文本生成未来还有哪些改善的方向。
话说,BullshitGenerator 这个项目开始起源于知乎上一位网友的发问:“学生会退会请求六千字怎样写?”,原本很简略的一个问题,可是答复中许多跑偏题的,所以本项意图贡献者之一表明看不下去了,并“随意写了个项目”:狗屁不通文章生成器,协助这位同学写了一篇退会请求。
用 Python 生成的这篇文章长这样:
因为下拉十多下没滑究竟,让人失去了截全图的耐性,文章也真实看不下去,因为它真的是一篇逻辑不通的 bullshit。
AI科技大本营(ID:rgznai100)也用这个生成器尝试了几个我们都会考虑的主题,比方:
试完之后笔者发现,文章自身是没什么评论的必要性了,不信你能够自己试试:
生成器地址:https://suulnnka.github.io/BullshitGenerator/index.html
可是关于生成器的作业原理,信任许多人是比较感兴趣的。
运转原理是什么?
据贡献者介绍,本项目开始的意图是用于中文文字 GUI 开发时测验文本烘托,用 Python 3 版别写成,现在共有 7 位贡献者。
鉴于现在 AI 用于文字生成十分盛行,这个项目是否也用到了 AI 相关算法呢?答案是否定的,作者表明,BullshitGenerator 没有用到任何自然言语处理相关算法,只是简略地撸代码就能够到达作用。
那 BullshitGenerator 运转的原理是怎样的?AI科技大本营采访了CSDN博客专家@小宋是呢进行解读:
“狗屁不通生成器”是一个文本生成器,用来生成一些中文文字用于 GUI 开发时测验文本烘托。因为此项意图意图只是用于 GUI 开发时测验文本烘托,所以对文本的连接性和意义要求不高,这也便是“狗屁不通”的意义了
从源码中能够精确的看出,生成文本的办法便是从本地读取到的文本中依照必定规则随机读取,而且替换掉文本中“x”为指定的主题文本,并未运用深度学习办法。不难发现,生成的文本会存在语句不连接、重复性高的特色。
是否能与 GPT 2 结合?
issue 中有人宣布了对这个项意图点评:
能够正常的看到,我们对这个项意图点评还是以正面居多。其间,有人提到了希望与 GPT 2 进行整合:
很快有人对这个主意提出疑问,比方算力的问题。那么,BullshitGenerator 与 GPT 2 整合的主意可行吗?或许是否有必要?@小宋是呢给出的观点如下:
个人觉得“狗屁不通生成器”与“GPT”结合意义不大,这两个项意图方针和特色差异很大。“狗屁不通生成器”是为了快速用来生成一些中文文字用于 GUI 开发时测验文本烘托,而“GPT”文本生成器方针是生成高质量连接文本,“GPT”的特色是模型大速度慢质量高,并不满意“狗屁不通生成器”的规划需求。
GPT 2 是 OpenAI 推出的一个中文生成模型,由加拿大工程师 Adam King 制造的网站上,任何人都能调教简化版的 GPT-2,它能够辨认从新闻、歌词、诗篇、食谱、代码的各种输入,乃至还为《复仇者联盟》写了一个细节丰厚的续集,内容可读性适当高。
令人振奋的是,这个史上最强的 NLP 模型今日正式悉数开源,OpenAI 正式放出了 GPT 2 的最终一部分代码。
开源地址:https://github.com/openai/gpt-2。
作为 GPT 2 分段发布中的最终一轮,此次揭露的完好 GPT-2 包括 15 亿条参数,其间包括用于检测 GPT-2 模型输出的悉数代码及模型权重。
当然,关于 GPT 2 的评论仍在持续,比方它的实用性,生成假新闻被乱用引发的安全问题等,都是后续还有待改善的要害点。
此外,GPT 2 还有一个中文版别,相比之下,GPT2 与 BullshitGenerator 不同之处在于前者运用了 BERT 或 BPE 编译器,但相同不需要算法根底,只需简略 clone 运转即可,技能上的完成难度更大一些。
“GPT”是比较规范的自回归言语模型了,Transformer 呈现前都是经过 RNN 的办法,之前比较火的“CharRNN”深度学习作诗与作曲都归于这个领域。“GPT”将 Transformer 替换了 RNN,使得提取特征的才能与运算速度都得到很大提高,当然运用大规模数据练习模型也是“GPT”作用好的一个首要的要素。
相较于“GPT”,“狗屁不通生成器”完成就简略许多,首要代码就几十行,基本上只用到了Python 编程技能。体现在文本的连接性和意义上,尽管生成文本的质量不高,但它也满意了生成一些中文文字用于 GUI 开发时测验文本烘托的要求。
GPT2 中文项目:https://github.com/Morizeyao/GPT2-Chinese
文本生成的未来
GPT 2 的横空出世让我们看到了 AI 在文本生成方面的潜力。正如 Open AI 官博所说,尽管 GPT 2 还面对检测等方面的应战,但它的潜力还很大, Open AI 表明,未来这个模型还将持续进行改善,他们希望言语模型能够在功用上有更大的提高,以此供给更高的输出质量和精确性。
BullshitGenerator 项目也发布了下一步方案:
避免文章过于内容重复
参加更多烦琐话.
参加马三立里的内容
参加手写体直接烘托出图片的功用(只是用于测验自己的打印机是否作业正常, 请勿做它用).
斗胆想象一下,日后类似于 BullshitGenerator 这样的文本生成器将进一步改善,那么是否在没有 AI 算法的参加下,仅凭简略的代码就能够生成高质量的文本(尽管可能性简直为零,但如果能轻松完成将是颠覆性的效果)?从另一个思路来讲,以 GPT2 为代表的 NLP 模型现在现已能够生成以假乱真的文本,未来又该怎么战胜现在的应战,生成更高质量的著作,一起能确保安全?是否未来有一天,文本生成技能或许真的会替代一部分人类的作业?这样一些问题都值得沉思。
现在研讨方向:自然言语处理与主动语音辨认、图像辨认与主动检测、图神经网络与引荐体系。