包含相关股票 47个
根据2023年半年报,凭借强大的内容研发能力,公司具备快速应对考试改革与教材变化的能力,并可以为大模型训练提供优质语料
2024年3月27日互动易回复公司丰富的版权内容数据资产为“芒果大模型”(行业垂类大模型)的研发提供了高质量的训练语料。我们非常重视这些数据的价值开发,并将分类整理的数据用于“芒果大模型”的训练。近期,我们推出的国内首个AI导演“爱芒”,就是基于“芒果大模型”衍生的细分场景推理模型创新应用。
2023年年报2023年,公司在技术平台一期建设项目的基础上不断优化完善和创新,形成了公司新一代研发技术平台--云湖平台。公司基于通用大模型和云湖平台相关语料,训练研发了智能代码助手。
2023年5月29日互动易瑞捷基于AI识别技术、人工智能语义分析、图数据库等技术,构建了以企标字典数据库和知识库为核心的两大数据库,作为瑞捷的数字底座,为客户服务、产品研发、行业分析提供大数据支撑。同时在AI人工智能应用方面,公司正在研发瑞捷知识管理平台,用于公司知识沉淀及管理,并利用数字人技术实现对内对外的赋能。
2021年半年报公司目前积累了百万数量级的高品质基因数据资源,在此基础上开发了“贝瑞知识库共享查询”服务系统,可提供百万级别中国健康人群变异图谱、十万级别患者人群变异图谱的数据查询服务,为广大客户分享数据资源。
2024年4月1日互动易回复公司有自建的AI语料库,主要用于AI相关算法、产品场景的研究应用。
根据2023年半年报,大模型方面,公司的“天工”大模型选择较为艰难的纯自研路线,底层技术独立自主可控,其结构可理解为是由两个千亿模型组成,即一个基于Transformer(Decoder-Only)架构的千亿预训练基座模型与一个千亿排序模型。同时增加蒙特卡洛树搜索算法,提升模型输出质量。目前公司已积累了近三年的工程经验,并成功攻克了中文语料库质量瓶颈,建立行业内完备性与质量首屈一指的训练数据集。
2023年6月20日互动易回复公司依托海量高质量语料资源和丰富的文本数据处理经验,公司自研基础大模型,针对不同的行业领域进行需求挖掘,在数字人文、教育、档案、司法、医疗、安防等垂直行业重点布局,研发多个行业分支模型。2020年10月20日调研活动信息在数据处理上,公司积累了大量的无标注语料和标注语料。
2024年3月27日互动易回复公司多年来积累了海量的影视剧、动画片、纪录片、综艺等高质量视频数据,并已经对部分内容进行了标注,可用于大模型的训练。目前,公司相关数据除用于训练自己研发的垂直模型外,已与部分其他大模型厂商洽谈合作事宜。
根据2023年6月20日互动易,旗下知网是中国学术资源最全面、最权威、最专业的数字化出版机构,并与多家国际出版社合作,整合形成了中外文知识资源服务系统。知网中文语料来源可靠、标注规范、权威专业、更新及时,可以训练出在专业知识领域具备更好中文表达能力的AI模型。
根据2024年3月19日互动易,公司深耕电信、金融、工业、政府等领域20余年,在各行业有丰富的大数据经验,跟行业客户深度绑定,对业务理解较深,在不同细分领域诸多业务场景落地实践中沉淀了大量行业特有的业务经验和规则,具备非常强的行业Know-How,帮助各行各业上千家企业建设、运营和维护大量的PB级大数据平台,积累了大量的领域专业语料,善于根据行业或者客户业务定制专属大模型,在垂直领域具有良好的大模型应用效果。
根据2023年7月13日互动易,公司在开源AI模型技术基础上利用公司在文学领域的语料数据,部署在自有服务器上进行AI大模型研发和训练,AI多模态模型通过输入文字态的文学作品,可由AI模型转换成漫画形态,实现了IP的跨模态,加速了IP衍生品的变现,打开“IPAI”的生产力空间。
2023年6月2日互动易公司拥有数以亿计的专业级且获版权许可的优质图片、视频音乐素材,是市场上少有的高质量素材的图像库之一,有助于确保模型生成内容安全合规,可用于商业用途的内容,不将风险转嫁给客户。同时,专业细分领域,仅靠单一基础大模型,很难实现非常完美的解决方案,它可能需要多个模型(封闭或者开源的模型)共同来支持,需要外部专业的数据、API等能力的补充,因此高价值、特定领域的工作流程依赖于丰富的、专有的数据集,且这些工作流程将由专业AI模型完成。公司将充分发挥海量、高质量、版权合规的数据集价值,与算力、算法战略合作伙伴一起合作打造专有的垂类AIGC视觉图像模型,共同探索全新的商业模式。
2023年5月12日互动易回复麦克奥迪医疗深耕病理近20年,始终致力于数字病理及人工智能辅助诊断技术的长足发展。现已覆盖全国逾2500家医院,数据库积累典型病例数字病理切片200多万张。2023年6月16日互动易回复公司医疗平台积累病理方面的数据,公司也一直致力于数据资源进行深度研究。
2023年4月17日互动易公司持有北京光年无限科技有限公司12·91%股份。经向北京光年无限科技有限公司了解,截止2022年底语料库总体在5000亿,目前其正在进行大模型训练,2023年的数据有望实现指数级增长。
2024年3月27日互动易回复公司大模型的语料是基于公司拥有的数据,经过大量数据治理工作产生的高价值语料数据,具有较强的行业属性,也具备较高的商业价值。
2024年3月29日互动易回复公司高质量语料数据主要用于模型的训练和微调。
2024年10月30日互动易新开普在人工智能领域积极探索,并逐步建立了自己的AI语料库,用于支持智能服务和产品的研发。公司语料库的构建结合了多个渠道的数据,包括获取版权和许可的私有数据和公开数据源,并针对收集到的数据做了严格的清洗和预处理,公司对语料库的维护,采用分层存储和分布式管理的方法,使用大数据处理技术实现数据的高效管理和快速检索,同时建立了完善的版本控制机制和数据更新流程。通过这些措施,新开普的AI语料库能支持多种应用场景,如智能推荐、语义理解、自动问答等,提高产品和服务的智能化水平。
根据2024年3月8日投资者关系活动记录表,公司基于通用模型,利用自身有特色的数据资源和语料库,自研了值得买消费大模型;基于值得买消费大模型,公司在“什么值得买”App上,上线了一系列的具体应用,包括“AI评论机器人”、“AI购买建议”等,提升了内容的丰富度和多样性,进而提升了用户的活跃度。
根据2023年12月8日互动易,公司将进一步提升数据要素变现能力,专注优势产品,做精做细,做优做强,并建立专注行业SaaS产品的营销团队,不断拓展生态布局,丰富数据要素的流通与变现渠道。2023年11月,公司联合智源研究院等单位共建的“中文互联网语料库”已正式发布。
根据2024年4月17日互动易,公司与多家AIGC公司就慈文传媒20多年来积累的丰富的视频语料数据库正在磋商相关合作,双方就对应的价格、合作的模式、授权的界定范围等均正在进行洽谈
2022年9月22日互动易回复在知识服务业务方面,公司围绕专业学科知识库、数字教育云服务、医疗健康大数据、期刊融合平台等方向,先后推出了“科学文库”“科学智库”“中国生物志库”“中国古生物地层知识库”“中科云教育平台”“状元共享课堂”“中科医库”“SciEngine全流程数字出版与知识服务平台”等多个数字化产品和知识服务平台。以“SciEngine”平台为例,目前该平台已集聚超过360种期刊(包括英文期刊200余种、SCI期刊80余种),年发文量达到40000篇,并建立了数据缴存与分发中心,为平台所属期刊数据进行缴存、转换、分发和国际化传播发布等服务。
2020年年报公司积极布局推进线上业务,开设上海学生英文报在线课堂平台,推出英语外刊配套精讲课程、英语新闻主题素养课程等产品。合作推出SSP线上语料库平台,满足学校英语阅读素材使用市场,累计增加近46000名学生上线注册使用。
2023年6月1日互动易数据资源是互联网时代的“原油资源”,公司拥有强大的数据积累能力,通过合法依规持续积累动态数据,并将深厚的数据能力与行业知识(Know-How)有机结合,为商业和政府客户提供了丰富的数据智能产品、服务与解决方案。不仅如此,公司还推出DiOS数据智能操作系统,将数据治理能力对外输出。对于大模型的应用,我们认为在实际的业务场景中,垂直行业更需要“可控大模型”,公司推行的是可控大模型在垂直领域里的应用。公司打造了大规模图神经网络以及深度学习模型,广泛应用于公共服务、增能服务等领域。
根据2023年10月16日公告,目前,公司在交通行业已具备1000亿Tokens的行业语料,指令数据与人类监督学习集超过200万条,并且正以每日新增约150GB的量级持续增长。
根据2024年3月6日投资者关系活动记录表,公司智能知识运营服务已在全国60多个地市部署,为公司训练大模型积累了大量的语料,公司将在此基础上持续升级训练,目前已有近十个地市有明确的需求,订单量正在逐步增加。
根据2023年7月28日互动易,公司凭借多年的数字化技术积累和经验,依托自身研发创新能力,构建了从数据采集、数据清洗、数据存储、数据处理、数据安全、数据分析到数据应用的全生命周期的数据智能系列解决方案,为众多金融机构等行业客户奠定了坚实的数据基础,释放了数据要素的价值。同时,公司也为部分客户提供AI大模型训练相关的语料、数据标注、数据训练等服务。
2024年7月11日互动易回复公司受邀参加大会语料主题论坛及人工智能夜话,在会上发布线下实体商业语料库,展示公司在人工智能领域的创新成果,并与行业共同探讨人工智能领域的最新趋势与创新应用。
根据2023年半年报,报告期内,人民网承建的传播内容认知全国重点实验室着力打造内容传播领域智能底座,逐渐形成良好科研生态。重点围绕舆论安全、生成式算法评估、主流价值语料库、内容智能风控、视觉内容治理等领域开展关键技术攻关,建设相关数据集、算法模型和技术系统,支撑人民审校、AIGC-X、写易等产品的推广应用,为公司内容原创、内容风控、内容聚合分发、内容运营等业务全面赋能,推动AIGC产业健康发展、安全发展。
2024年半年报公司高度重视数据资源的价值,并将其视为公司核心竞争力的重要组成部分。公司的数据资源主要包括已开发及正在开发的大模型语料、垂直行业模型、垂直行业市场分析报告、营销方案、AIGC数据产品等。
2024年半年报依靠360浏览器、360搜索等高频流量入口,形成了10T优质文本数据及海量图文视频数据,内容覆盖全球多个语种、涉猎金融、法律、房产、体育、医药等全行业范围,形式包括文档、书籍、散文、诗歌等,为大模型训练提供了大规模、多样性、高质量的训练语料。
2023年7月5日互动易回复在认知智能方面开拓了丰富的应用场景,例如教育行业的因材施教和个性化学习、医疗行业的人工智能辅诊、智慧城市的便民便企服务等等。在保障数据安全、用户隐私等符合国家法律法规和政策的前提下,公司在不同行业多年的规模化应用积累了超过50TB的行业语料,讯飞开放平台依托400万开发者,形成了每天超10亿人次用户交互数据。
2024年8月10日互动易公司控股子公司上海拾贰区建立了多语言语料库用于提升自身模型适用性,未来计划与各版权方合作,进一步扩大语料库的来源从而丰富语料库内容,暂未有其他布局及用途。
根据2024年3月22日投资者关系活动记录表,公司的视频语料分两种,包括文字语料,如小说、剧本等;视频语料,如影视作品、视频拍摄素材等。目前公司语料主要用于训练自用垂直模型,暂未与通用大模型公司开展商业性质的合作。
2022年12月2日互动易回复公司开展数据安全与数据要素化工程建设,培育形成数据资源、数据元件和数据产品三级市场,以促进数据的安全流通与高效配置,打通以数据要素为核心的数据资产链与价值链。其中,数据元件是对数据脱敏处理后,根据需要由若干相关字段形成的数据集或由数据的关联字段通过建模形成的数据特征。
根据2023年年报,公司自研的问财HithinkGPT大模型是公司从训练语料、训练框架到模型结构的设计,均从零开始、创新构建,预训练金融语料达到万亿级tokens,涵盖了股票、债券、期货、外汇、商品价格、宏观经济指标、行业数据等多个方面的数据。问财HithinkGPT大模型具有全面的实时金融数据、强大的语义理解、专业的投顾建议、生动的表达形式、可控的内容生成等特点,经过前期多轮测试与优化,该模型在金融场景中表现出色,能够高分通过多个金融领域的专业考试。
2024年4月26日互动易公司有自己的AI语料库,用于AIGC大模型的训练语料主要基于公司旗下上海二三四五网络科技有限公司拥有的数据及通过互联网获取的公开信息,经过大量数据清洗、整理工作而产生。