- 早期技术积累与探索:2009 年 8 月,百度 CEO 李彦宏提出 “框计算” 策略,尝试将 NLP 和知识图谱技术运用到搜索中。2010 年初,百度对 NLP 展开重新规划,成立自然语言处理部,并不断布局语音、图片等技术领域,制定知识图谱技术长期投入战略。2012 年启动深度机器学习研究工作,2013 年 1 月成立中国首个深度学习实验室,推出自主研发的深度学习平台飞桨的前身1.
- 文心系列模型的演进:2019 年 3 月,百度正式发布 NLP 模型 ERNIE,在中文任务中全面超越 BERT 。2020 年 7 月 9 日,ERNIE 以中文名 “文心” 亮相,并获得 SAIL 奖。2021 年 9 月发布 PLATO-XL,是全球首个百亿参数中英文对话预训练生成模型;12 月 8 日,鹏城实验室与百度联合发布全球首个知识增强千亿大模型鹏城 – 百度・文心1.
- 文心一言的发布与推广:2023 年 2 月 7 日,百度官宣文心一言项目;3 月 16 日,正式启动邀请测试,展示了其在文学创作、商业文案创作、数理推算、中文理解、多模态生成等方面的能力。2023 年 8 月 31 日,文心一言对社会全面开放,截至 2024 年 6 月 28 日,累计用户规模达 3 亿,日调用次数达 5 亿。2023 年 11 月 1 日,文心一言专业版正式上线,成为中国首个采用会员模式面向 C 端收费的大模型产品;2024 年 6 月 28 日,文心大模型 4.0 Turbo 发布,9 月 4 日,文心一言 app 正式升级为 “文小言”1.
- 知识增强:文心一言从数万亿数据和数千亿知识中融合学习,通过预训练大模型,结合有监督精调、人类反馈强化学习、提示等技术,形成了知识增强的技术优势,能够更好地理解和生成与知识相关的内容.
- 检索增强:借助百度强大的搜索技术和海量数据资源,文心一言在回答问题时可以快速检索相关信息,为用户提供更准确、更全面、更实时的答案,使其在处理各种知识类问题时表现出色14.
- 对话增强:经过大量的对话数据训练和优化,文心一言能够更好地理解用户的意图,生成更自然、更流畅、更符合对话场景的回复,支持多轮对话,在与用户的交互中不断深入理解和回应14.
- 多模态生成:不仅可以生成文本,还能生成图像、音频等多种形式的内容。例如,根据用户的文字描述生成符合要求的图片或画作,也可以识图并进行相关的描述和推荐3.
- 强大的中文理解能力:基于百度海量的中文数据积累和处理经验,文心一言在中文语义理解、生成等方面表现出色,能够更好地理解中文语境和文化内涵,生成更符合中文表达习惯的文本.
- 丰富的插件系统:如百度搜索、览卷文档、e 言易图、说图解画、一镜流影等插件,扩展了文心一言的功能和应用场景。例如,览卷文档插件可以上传 PDF 等文档让其进行总结,方便用户快速获取文档的主要内容1.
- 文心一言智能体广场:2024 年 6 月 28 日上线,为用户提供了更多个性化和定制化的智能体选择,满足不同用户在各种场景下的特定需求1.
- 内容创作:能生成各种类型的文本,如诗歌、小说、新闻、电子邮件、商业文案等,还可实现文章的改写润色、扩写续写、风格仿写等,帮助用户快速高效地完成各种写作任务12.
- 知识问答:可以回答历史、科学、文化、娱乐、体育等各种主题的问题,并提供详细的答案和解释,提升实时搜索能力、信息丰富度和可读性,在专业性强、分析决策的领域中帮助用户高效搜集和整合信息123.
- 智能客服:能够帮助企业解答用户问题,提升服务质量和效率,为客户提供更及时、更准确的支持4.
- 教育培训:可为学生提供个性化的学习辅导,作为教师备课和教学辅助工具,帮助学生更好地理解知识、完成作业、激发创意等.
- 娱乐互动:可以为游戏开发者提供创意资源,并为用户提供有趣的互动和交流,如陪聊天、讲笑话、玩文字游戏等5.
文心一言自发布以来不断进行版本更新和优化,以提升性能和用户体验。例如,2023 年 3 月 20 日的 1.0.1 版本强化了指令理解和多轮对话能力,对诗词创作、数学计算等任务进行了提升,并优化了一些交互体验问题;2024 年 9 月 4 日升级为 “文小言” 后,在网页版实现了创作内容更加深度专业、问答效果更加全面丰富、支持同时处理上百个多种格式文件、一键关联读取网盘文档、智能翻译和图片理解等能力的升级13.