国产毛片一区二区,黄色体验区,亚洲一级电影在线观看,亚洲特黄,a级在线视频,小嫩嫩下直流白浆视频,亚洲a级黄色片

<span id="rn4al"><thead id="rn4al"></thead></span>

<thead id="rn4al"></thead>

<span id="rn4al"></span>

<rp id="rn4al"><em id="rn4al"></em></rp>

Hi，歡迎來(lái)到黃頁(yè)88網(wǎng)！

我的黃頁(yè)88 |
客服中心 |

密碼找回

賬號找回

刪除商鋪

刪除信息

常見(jiàn)問(wèn)題
注冊發(fā)布標準 |
手機黃頁(yè)88

移動(dòng)版官網(wǎng)

微信公眾號

視頻號
黃頁(yè)88國際站

找產(chǎn)品找公司采購信息

免費發(fā)布信息

當前位置：首頁(yè) > 人工智能 > 人工智能語(yǔ)料庫是什么？

人工智能語(yǔ)料庫是什么？

互聯(lián)網(wǎng)時(shí)間： 2023-07-07 15:04:20

比爾·蓋茨（Bill Gates）、Reddit 首席執行官和其他科技領(lǐng)袖越來(lái)越多地談?wù)摗罢Z(yǔ)料庫”，現在是時(shí)候了解它是“何方神圣”了。本文帶你深度揭秘語(yǔ)料庫以及它如何影響人工智能平臺的運行。文章來(lái)自翻譯，希望能對你有所啟示。

得益于 ChatGPT 和類(lèi)似人工智能平臺的問(wèn)世與飛速發(fā)展，人工智能的崛起一直是 2023 年最引人注目的話(huà)題之一。每天都會(huì )有關(guān)于人工智能技術(shù)如何影響創(chuàng )新、工作或人類(lèi)生活的新文章出現。

如果你一直在關(guān)注人工智能領(lǐng)域，你可能會(huì )注意到最近科技高管們經(jīng)常談?wù)摰囊粋€(gè)詞：“語(yǔ)料庫” (corpus)。Reddit（美國社交新聞?wù)军c(diǎn)）CEO、維基百科的創(chuàng )始人吉米·威爾士（Jimmy Wales）以及微軟創(chuàng )始人比爾·蓋茨都提到過(guò)。

以下是語(yǔ)料庫的含義，以及為什么它對于理解 ChatGPT 和 Midjourney 等人工智能平臺的運行至關(guān)重要。

什么是人工智能語(yǔ)料庫？

學(xué)過(guò)拉丁語(yǔ)的人都知道“corpus”是“身體”的意思，現代英語(yǔ)里的“corpse”被譯為“尸體”，源自拉丁語(yǔ)“corpus”。其他人可能也認識 corpus 這個(gè)詞，因為它在今天仍然適用于現存法律機制中，被譯為：人身保護令。這句話(huà)的字面意思是“你擁有人身自由權”，它確保任何被逮捕的人都有權出庭，以確定逮捕是否合法。

但當其用于人工智能領(lǐng)域時(shí)，“語(yǔ)料庫”一詞根本不是指身體。相反，它指的是用于訓練人工智能的文本庫或數據集合。這個(gè)語(yǔ)料庫是人工智能審查的材料，以使其在設計時(shí)變得智能。

每個(gè)人工智能平臺的語(yǔ)料庫都是不同的，因為是人類(lèi)決定他們想要用什么樣的數據來(lái)訓練 AI，而人類(lèi)決定訓練人工智能的語(yǔ)料庫將取決于他們希望人工智能精通哪些方面或是解決什么問(wèn)題。

語(yǔ)料庫類(lèi)型

語(yǔ)料庫的類(lèi)型沒(méi)有限制，人工智能語(yǔ)料庫的構成取決于人類(lèi)創(chuàng )造者想讓它做什么。

以 Midjourney 為例，Midjourney（一款 2022 年 3 月面世的 AI 繪畫(huà)工具）是一個(gè)流行的生成藝術(shù)平臺，用于使用 AI 創(chuàng )建圖像。由于 Midjourney 只允許用戶(hù)使用文本提示創(chuàng )建圖像，因此它需要接受一系列圖像和相關(guān)文本描述的訓練。例如，為了讓 Midjounry 生成瀑布的圖像，它的語(yǔ)料庫必須包含瀑布的圖像以及描述瀑布的相關(guān)文本。

還有 ChatGPT 等人工智能平臺，一種被稱(chēng)為大型語(yǔ)言模型（large language model，簡(jiǎn)稱(chēng) LLM）的人工智能平臺。強大的 LLM 有能力基于文本數據與人類(lèi)進(jìn)行對話(huà)聊天——前提是他們的語(yǔ)料庫足夠大且足夠豐富。LLM 模型可以處理多種自然語(yǔ)言任務(wù)，根據其語(yǔ)料庫所包含的內容，它可以回答復雜的問(wèn)題，甚至能夠生成原創(chuàng )作品，如短篇小說(shuō)或創(chuàng )建太空射擊游戲代碼。LLM 模型的能力僅僅取決于用于訓練人工智能的語(yǔ)料庫文本數據，它基于大量文本數據進(jìn)行訓練以能夠理解文本的含義，并給出相應答案。

我想知道 ChatGPT 的語(yǔ)料庫是由什么組成的，所以我直接問(wèn)了它?！癈hatGPT 語(yǔ)料庫是由大量互聯(lián)網(wǎng)文本數據組成，包括網(wǎng)站、書(shū)籍、文章和其他公開(kāi)來(lái)源?！彼卮鹫f(shuō)。由于不滿(mǎn)足于這個(gè)相當模糊的答案，我要求 ChatGPT 詳細說(shuō)明其語(yǔ)料庫中的數據類(lèi)型，這次 ChatGPT 的回答更加詳細了：

網(wǎng)站：來(lái)自不同領(lǐng)域和主題的網(wǎng)站文本。

書(shū)籍：涵蓋各種類(lèi)型和主題的書(shū)籍文本。

文章：來(lái)自新聞文章、雜志特寫(xiě)和博客文章的相關(guān)文本。

研究論文：來(lái)自科學(xué)論文和出版物的相關(guān)文本。

會(huì )話(huà)數據：來(lái)自對話(huà)和互動(dòng)的多回合文本。

社交媒體：來(lái)自 Twitter、Reddit 和其他在線(xiàn)論壇等平臺的文本。

維基百科：維基百科文章中涵蓋眾多主題的文本。

注意 ChatGPT 語(yǔ)料庫并不包括圖像，其不具備圖像處理能力。這是因為 ChaptGPT 是一個(gè)基于文本的 AI 生成器，它不能生成圖像，因為它的語(yǔ)料庫從來(lái)沒(méi)有包含任何可以訓練圖像的文本數據。

Midjourney 和 ChatGPT 的文本數據只是構成語(yǔ)料庫的兩個(gè)例子，實(shí)際上語(yǔ)料庫可以由任何類(lèi)型的數據組成。例如，如果你想制作一個(gè)可以創(chuàng )作音樂(lè )的 AI 平臺，你只需要在它的語(yǔ)料庫中介入音頻歌曲相關(guān)的文本數據即可?；蛘?，如果你想要一個(gè)能夠以海明威風(fēng)格寫(xiě)小說(shuō)的人工智能，你可以使用一個(gè)只包含海明威書(shū)面作品的語(yǔ)料庫。

語(yǔ)料庫是否合法？

如果你沒(méi)有一個(gè)語(yǔ)料庫來(lái)訓練 AI，AI 就無(wú)法學(xué)習。你的語(yǔ)料庫越大，AI 就會(huì )變得越熟練、越智能。但是，當涉及到版權和知識產(chǎn)權法時(shí)，人工智能語(yǔ)料庫可能就會(huì )存在很大的漏洞。

用受版權保護的內容數據訓練人工智能，這樣的做法是否違反法律呢？例如，如果我創(chuàng )造了一個(gè)可以生成類(lèi)似 Banksy（注：英國著(zhù)名藝術(shù)家）藝術(shù)品的人工智能平臺，該平臺基于 Banksy 的作品語(yǔ)料庫來(lái)訓練 AI，這是否侵犯了 Banksy 的版權或知識產(chǎn)權？我所創(chuàng )造的 AI 并沒(méi)有直接“盜用”他的作品，只是復制他的風(fēng)格，所以這是否仍然構成侵權呢？再比如，假設我創(chuàng )建了一個(gè)包含蕾哈娜歌曲語(yǔ)料庫的 AI 程序平臺，它可以使用蕾哈娜的聲音或與之接近的聲音生成全新的原創(chuàng )歌曲，這合法嗎？

今年早些時(shí)候，由 AI 生成的模仿加拿大歌手德雷克（Drake）和歌手“盆栽”（The Weeknd）創(chuàng )作的新歌“Heart On My Sleeve”爆火并傳播到了多個(gè)平臺后，環(huán)球音樂(lè )集團（Universal Music Group）發(fā)表聲明嚴厲譴責這首歌是“用生成式人工智能創(chuàng )作的侵權內容”。但使用人工智能工具的創(chuàng )作者可能并不這樣認為。最終，無(wú)論是人工智能生成的音頻、視頻還是基于文本的媒體，隨著(zhù) ChatGPT 和 Midjourney 等生成式人工智能程序越來(lái)越普及，“AI 是否侵權”這個(gè)問(wèn)題很可能會(huì )在未來(lái)幾年仍然需要進(jìn)一步的探討和研究。

與此同時(shí)，各國政府已經(jīng)在計劃立法來(lái)監管生成人工智能模型。例如，歐盟正在提議一項法律，要求人工智能所有者披露人工智能語(yǔ)料庫是否包含受版權保護的內容。這種透明度將使版權持有人更容易識別自己的作品被用于哪些語(yǔ)料庫，從而尋求賠償。

在美國，國會(huì )研究服務(wù)處（Congressional Research Service）最近向國會(huì )建議，在更新版權立法之前，它可能更希望采取“采取觀(guān)望態(tài)度”，建議國會(huì )監測法院在未來(lái)幾年關(guān)于人工智能印發(fā)的版權案件的反應。

將出售語(yǔ)料庫作為收入來(lái)源

當然，無(wú)論如何，一些內容創(chuàng )作者會(huì )選擇接受人工智能為其提供的創(chuàng )收機會(huì )。比方說(shuō)，一位在世的畫(huà)家想賺些外快，她可非常容易地將自己的作品集打包在一個(gè)語(yǔ)料庫中，并將其使用權出售給生成式人工智能公司。正如歌手格萊姆斯（Grimes）已經(jīng)提出的那樣，作家可以出售他們的小說(shuō)集；雜志出版商可以出售過(guò)期雜志；歌手可以出售他們的人聲語(yǔ)料庫，或者要求 AI 基于他們的語(yǔ)料庫生成的作品中獲得一部分抽成。

如果埃隆·馬斯克（Elon Musk）想為日漸走下坡路的 Twitter 帶來(lái)新的收入來(lái)源，他可能會(huì )考慮將該平臺上的所有推文打包成一個(gè)語(yǔ)料庫，出售給人工智能初創(chuàng )公司。Meta 的 Facebook 也將從中找到新的收入來(lái)源，前提是 Twitter 和 Meta 可以聲稱(chēng)擁有帖子的所有權。事實(shí)上，Reddit 的用戶(hù)帖子語(yǔ)料庫已經(jīng)被用來(lái)幫助訓練 ChatGPT 了，在最近接受《紐約時(shí)報》采訪(fǎng)時(shí)，Reddit 首席執行官史蒂夫·霍夫曼（Steve Huffman）表示，他知道這個(gè)語(yǔ)料庫的價(jià)值?！癛eddit 的數據庫非常有價(jià)值，但我們不需要把所有這些價(jià)值免費提供給世界上一些知名的公司?！被舴蚵f(shuō)道。

從這個(gè)意義上說(shuō)，隨著(zhù)越來(lái)越多的公司向人工智能領(lǐng)域擴張，強大的預包裝語(yǔ)料庫在科技界的地位可能會(huì )變得與淘金熱礦工的鎬一樣重要，一個(gè)全新的語(yǔ)料庫銷(xiāo)售產(chǎn)業(yè)可能會(huì )隨之誕生。

如果是這樣的話(huà)，在未來(lái)的幾個(gè)月和幾年里， “語(yǔ)料庫”將成為人工智能領(lǐng)域的常談話(huà)題。

上一頁(yè)： SteamVR 1.26版，可自動(dòng)重新綁定游戲控制器

：下一頁(yè) AI 伴侶將至你準備好了嗎？

本文標題：人工智能語(yǔ)料庫是什么？

本文地址： http://www.guizhouboda.com/brand/news-f228k067ce.html

內容均來(lái)源于網(wǎng)絡(luò )，錯誤糾正或刪除請發(fā)郵件，收件郵箱kefu@huangye88.com

最新推薦資訊

人工智能前景與發(fā)展分析

OpenAI的“宮斗”大戲持續發(fā)酵中

必應搜索引擎可使用AI生成標題更便于搜索

人工智能讓工作面臨更多的挑戰

人工智能技術(shù)濫用所引發(fā)的全球治理

谷歌CEO:中國人工智能規?？涨?將走在前列

如何在人工智能革命中抓住機遇？

如何讓人工智能更快的落實(shí)民生

未來(lái)已來(lái)的人工智能大模型，如何發(fā)展？

通用人工智能的發(fā)展方向在哪

熱門(mén)推薦

OPPO Find N3折疊屏手機開(kāi)售

國內手機均價(jià)3480元還會(huì )繼續漲嗎？

中國正瘋狂提升芯片產(chǎn)能以擺脫對美國芯片的依賴(lài)

過(guò)去一周新能源車(chē)銷(xiāo)量火爆

VR航空應用國產(chǎn)高端飛行模擬機通過(guò)認證

微軟bing重構的不僅是搜索引擎？

人工智能前景與發(fā)展分析

2023 芯片迎來(lái)最冷第3季

今年的汽車(chē)市場(chǎng)為什么越來(lái)越“冷”？

任天堂頭戴VR設備專(zhuān)利公開(kāi)

熱門(mén)分類(lèi)

人工智能搜索引擎虛擬現實(shí) 汽車(chē) 芯片手機

熱門(mén)推薦企業(yè)

2009-2025 黃頁(yè)88版權所有京ICP備2023012932號-1 │ 京公網(wǎng)安備 11010802023561號京ICP證100626

內容均來(lái)源于網(wǎng)絡(luò )，錯誤糾正或刪除請發(fā)郵件，收件郵箱kefu@huangye88.com

<fieldset id="8prsy"></fieldset>

<rp id="8prsy"><em id="8prsy"></em></rp>

<nobr id="8prsy"><abbr id="8prsy"></abbr></nobr>

<tfoot id="8prsy"><p id="8prsy"><input id="8prsy"></input></p></tfoot><kbd id="8prsy"><em id="8prsy"></em></kbd>

<font id="8prsy"><progress id="8prsy"></progress></font>

<font id="8prsy"><ins id="8prsy"><samp id="8prsy"></samp></ins></font>

<optgroup id="8prsy"><object id="8prsy"></object></optgroup>