零点看书

字:
关灯 护眼
零点看书 > 股海弄潮 > 第386章 能读研报,还能写摘要

第386章 能读研报,还能写摘要

第386章 能读研报,还能写摘要 (第1/2页)

2024年9月23日,星期一,上午九点。
  
  深圳,默石资本,技术部。
  
  这是陈曦暑假结束返回伯克利后的第三周。技术部的空气中弥漫着一种久违的兴奋——不是因为市场大涨,不是因为客户追加,而是因为星海平台的一次重大升级。陆方站在白板前,面前是一张他亲手绘制的系统架构图。密密麻麻的方框和箭头,标注着数据流、模型层、接口、缓存。他已经连续工作了整整十天,每天只睡四五个小时。但精神很好,因为那个卡了他三个月的难题,终于解决了。
  
  周寻坐在台下,手里端着一杯热咖啡。他今天没有加班,但来得比平时早。因为他知道,今天是星海3.5正式上线的日子。陈默站在门口,双手抱在胸前。他没有进去,只是安静地听着。沈清如也来了,站在陈默旁边。她知道,这是技术部的大日子,应该来看看。
  
  陆方转过身,面对会议室里的十几个人——技术部全体工程师,以及研究部、交易部的几位代表。他的眼袋很深,但眼神很亮。
  
  “今天,星海3.5正式上线。”他的声音有些沙哑,但每个字都很清晰,“新版本的核心升级是——大模型接入。现在,星海能自动阅读券商研报、提取关键信息,还能生成初步的研究摘要。效率提升了三倍,准确率也有提高。”
  
  他走到电脑前,点开一个界面。屏幕上是一份刚出炉的券商研报——关于某半导体设备公司的深度报告,全文二十几页,密密麻麻的图表和数据。他点击“星海摘要”按钮,屏幕右侧弹出了一个文本框。几秒钟后,摘要出现在文本框里——公司主营业务、核心产品、技术壁垒、财务数据、估值水平、风险提示,一条一条,清晰明了。台下有人低声说了一句“这么快”,也有人点头。
  
  陆方说:“以前,研究员读一份研报需要30分钟,写摘要需要20分钟,合计50分钟。现在,星海读研报需要30秒,生成摘要需要10秒,合计40秒。效率提升约75倍。但准确率不是100%。星海的摘要准确率现在是92%,意味着100份研报里,有92份摘要准确,8份有错误。所以,不能完全信任。需要人工复核。”
  
  周寻举手。“这个92%,是怎么测的?”
  
  陆方调出另一张图。“我们随机抽取了100份研报,让星海生成摘要,然后让研究员逐份核对。准确率92%,误差主要来自两个方面。第一,大模型的‘幻觉’——生成一些原文没有的数据。比如,某公司的营收增速是15%,星海写成18%。第二,语义理解错误——比如,把‘目标市占率’理解成‘实际市占率’。这两种错误,都需要人工复核。”
  
  周寻点头。“人机结合,永远是这样。”
  
  陈默从门口走进来,站在白板旁边。“这就对了。机器做它擅长的快,人做我们擅长的准。”
  
  陆方继续说:“下一步,我们计划把星海摘要的范围从券商研报扩展到上市公司公告、行业新闻、招股书。目标是在年底前,覆盖所有投研所需的中文文本。”
  
  陈默问:“幻觉问题,能彻底解决吗?”
  
  陆方想了想。“不能。因为大模型的本质,是预测下一个词。它不知道什么是‘事实’,什么是‘虚构’。所以,幻觉永远存在。我们能做的,是降低幻觉率,但不能归零。”
  
  陈默点头。“那就接受它。人机结合,它出活,人复核。”
  
  上午十点,研究部。沈清如带着研究员们测试星海3.5的摘要功能。她随机选了十份研报,让星海生成摘要,然后让研究员逐份核对。结果:十份摘要中,八份准确,一份有幻觉(把营收增速15%写成18%),一份语义理解错误(把“研发投入占比”写成“研发费用资本化率”)。准确率80%,低于陆方说的92%。她皱了皱眉,叫来陆方。
  
  “陆方,这十份的准确率只有80%。你测的100份是92%,为什么?”
  
  陆方看了一眼测试数据。“因为这十份研报里,有两份是港股公司的。星海对港股公司研报的理解能力弱于A股。因为训练数据中,港股研报的比例较低。”
  
  沈清如点头。“那就增加港股研报的训练数据。”
  
  陆方说。“已经在做了。陈曦在伯克利那边也在帮我们爬数据。”
  
  沈清如笑了。“她比我们当年强。”
  
  陆方也笑了。“对。”
  
  上午十一点,陈默办公室。沈清如推门进来,手里拿着测试结果。
  
  “星海3.5的摘要准确率,A股研报92%,港股研报80%。总体88%。”
  
  陈默接过报告,看了一遍。“88%已经很高了。人也就90%。”
  
  沈清如在他对面坐下。“但幻觉问题还是存在。万一研报里关键数据错了,星海摘要也跟着错,我们就会踩雷。”
  
  陈默点头。“所以,不能完全信任。人机结合,它出活,人复核。”
  
  沈清如说。“我让研究员每天下午三点前,复核当天的星海摘要。错的地方标注出来,反馈给技术部优化模型。”
  
  “好。”
  
  下午两点,技术部。陆方收到研究部反馈的第一批错误数据。他打开日志,一行一行地看。幻觉——某公司营收增速15%,星海写成18%。语义理解错误——“目标市占率”理解成“实际市占率”。数据遗漏——某公司经营性现金流为负,星海摘要没提。他一一把问题记录下来,然后开始调参数。
  
  周寻走过来。“怎么样?”
  
  陆方头也没回。“幻觉率还是高。需要更多的训练数据。”
  
  周寻想了想。“让陈曦在伯克利那边多爬一些数据。英文研报也行,可以翻译成中文。”
  
  陆方点头。“已经在做了。”
  
  下午四点,陆方收到陈曦发来的一批新数据——5000份英文研报,覆盖美股、港股、A股。她写了爬虫,从公开渠道抓取,然后用开源模型翻译成中文。数据量有十几G,用云盘传了一下午。
  
  陆方给她发消息:“收到了。谢谢你。”
  
  陈曦回复:“不客气。星海3.5上线了?”
  
  陆方:“上了。准确率88%。”
  
  陈曦:“不错。继续优化,争取到95%。”
  
  陆方笑了。“好。”
  
  下午五点,陈默走进技术部。陆方正在调试模型,屏幕上是一行行代码。
  
  “进展如何?”陈默问。
  
  陆方转过身。“收到陈曦发来的5000份英文研报,正在清洗。下周可以加入训练数据,准确率应该能再提高。”
  
  陈默点头。“辛苦了。”
  
  陆方摇头。“不辛苦。比当年建星海容易多了。”
  
  陈默笑了。“当年,你们用了三年才把星海做到这个水平。现在,几个月就做到了。”
  
  

(本章未完,请点击下一页继续阅读)
『加入书签,方便阅读』
热门推荐
在木叶打造虫群科技树 情圣结局后我穿越了 修神外传仙界篇 韩娱之崛起 穿越者纵横动漫世界 不死武皇 妖龙古帝 残魄御天 宠妃难为:皇上,娘娘今晚不侍寝 杀手弃妃毒逆天